Gemini 1.5 Pro: Google-KI kann jetzt Audiodateien analysieren

10. April 2024 Luca Koch

Zuletzt aktualisiert am 13. September 2024 von Lars Weidmann

Google hat kürzlich auf seinem Google Next Event eine bedeutende Aktualisierung für das Gemini 1.5 Pro Modell vorgestellt, die die Fähigkeiten dieser künstlichen Intelligenz erheblich erweitert.

Neue Fähigkeiten: Gemini hört jetzt zu

Die Neuerung bei Gemini 1.5 Pro ist seine Fähigkeit, Audiodateien zu analysieren. Das Modell kann nun auf hochgeladene Audioinhalte, wie Earnings Calls oder Audiospuren von Videos, zugreifen und daraus Informationen extrahieren, ohne dass ein geschriebenes Transkript erforderlich ist. Diese Funktion erweitert die Anwendungsmöglichkeiten von Gemini erheblich und bietet Nutzern einen neuen Mehrwert, insbesondere in Bereichen, in denen Audioinhalte eine wesentliche Rolle spielen.

Verfügbarkeit und Leistungsvergleich

Zum ersten Mal macht Google das Gemini 1.5 Pro Modell über seine Plattform zur Entwicklung von KI-Anwendungen, Vertex AI, der Öffentlichkeit zugänglich. Interessanterweise übertrifft dieses „Mittelgewicht“-Modell aus der Gemini-Familie bereits jetzt in der Leistung das größere und stärkere Modell Gemini Ultra. Laut Google versteht Gemini 1.5 Pro komplexe Anweisungen und eliminiert die Notwendigkeit, Modelle feinabzustimmen.

Siehe auch Bald Blutzuckermessung ohne Pieksen?

Erweiterungen und Wettbewerbsvergleich

Neben Gemini 1.5 Pro erhält auch Imagen 2, ein Text-zu-Bild-Generierungsmodell, das die Bildgenerierungsfähigkeiten von Gemini unterstützt, ein Update. Neue Funktionen wie Inpainting und Outpainting ermöglichen es Benutzern, Elemente in Bildern hinzuzufügen oder zu entfernen. Darüber hinaus hat Google das SynthID-Feature zur digitalen Wasserzeichenmarkierung in allen über Imagen-Modelle erstellten Bildern implementiert.

Autor

Luca Koch

Luca Koch ist als Redakteur für das Magazin Elektronik Informationen tätig und hat sich auf das Thema Künstliche Intelligenz spezialisiert, schreibt jedoch auch über andere Technik-Themen.
Alle Beiträge ansehen