Gemini 1.5 Pro: Google-KI kann jetzt Audiodateien analysieren
Zuletzt aktualisiert am 13. September 2024 von Lars Weidmann
Google hat kürzlich auf seinem Google Next Event eine bedeutende Aktualisierung für das Gemini 1.5 Pro Modell vorgestellt, die die Fähigkeiten dieser künstlichen Intelligenz erheblich erweitert.
Neue Fähigkeiten: Gemini hört jetzt zu
Die Neuerung bei Gemini 1.5 Pro ist seine Fähigkeit, Audiodateien zu analysieren. Das Modell kann nun auf hochgeladene Audioinhalte, wie Earnings Calls oder Audiospuren von Videos, zugreifen und daraus Informationen extrahieren, ohne dass ein geschriebenes Transkript erforderlich ist. Diese Funktion erweitert die Anwendungsmöglichkeiten von Gemini erheblich und bietet Nutzern einen neuen Mehrwert, insbesondere in Bereichen, in denen Audioinhalte eine wesentliche Rolle spielen.
Verfügbarkeit und Leistungsvergleich
Zum ersten Mal macht Google das Gemini 1.5 Pro Modell über seine Plattform zur Entwicklung von KI-Anwendungen, Vertex AI, der Öffentlichkeit zugänglich. Interessanterweise übertrifft dieses “Mittelgewicht”-Modell aus der Gemini-Familie bereits jetzt in der Leistung das größere und stärkere Modell Gemini Ultra. Laut Google versteht Gemini 1.5 Pro komplexe Anweisungen und eliminiert die Notwendigkeit, Modelle feinabzustimmen.
Erweiterungen und Wettbewerbsvergleich
Neben Gemini 1.5 Pro erhält auch Imagen 2, ein Text-zu-Bild-Generierungsmodell, das die Bildgenerierungsfähigkeiten von Gemini unterstützt, ein Update. Neue Funktionen wie Inpainting und Outpainting ermöglichen es Benutzern, Elemente in Bildern hinzuzufügen oder zu entfernen. Darüber hinaus hat Google das SynthID-Feature zur digitalen Wasserzeichenmarkierung in allen über Imagen-Modelle erstellten Bildern implementiert.