Grok wird visuell: xAI stellt neues multimodales KI-Modell vor
Zuletzt aktualisiert am 13. September 2024 von Lars Weidmann
Elon Musk’s Unternehmen xAI, ein Wettbewerber von OpenAI, hat eine innovative Version seines KI-Modells Grok vorgestellt, das nun auch visuelle Informationen verarbeiten kann. Das neue Modell, Grok-1.5V, repräsentiert die erste Generation der multimodalen Künstlichen Intelligenz von xAI. Es ist in der Lage, nicht nur Texte, sondern auch Dokumente, Diagramme, Charts, Screenshots und Fotografien zu analysieren.
Erweiterte Fähigkeiten und Anwendungsbeispiele
Grok-1.5V erweitert die Möglichkeiten der KI in beeindruckender Weise. So kann das Modell beispielsweise ein Foto eines Flussdiagramms in Python-Code übersetzen oder eine Geschichte basierend auf einer Zeichnung verfassen. Selbst die Erklärung schwer verständlicher Internet-Memes fällt Grok nun leichter. Diese Funktionen könnten besonders nützlich sein, um den Herausforderungen der rasanten Informationsflut im Internet zu begegnen.
Neue Benchmarks und Testmöglichkeiten
Parallel zur Einführung von Grok-1.5V hat xAI einen neuen Benchmark-Datensatz namens RealWorldQA veröffentlicht. Dieser enthält 700 Bilder, die jeweils mit Fragen und Antworten versehen sind, um die Leistungsfähigkeit von KI-Modellen zu testen. Trotz der komplexen Anforderungen dieser multimodalen Aufgabenstellungen erzielte xAI mit Grok-1.5V die höchsten Bewertungen im Vergleich zu Konkurrenzprodukten wie OpenAI’s GPT-4V und Google’s Gemini Pro 1.5.
xAI hat bisher noch keinen genauen Zeitplan für die allgemeine Verfügbarkeit von Grok-1.5V bekannt gegeben, doch die ersten Tester und bestehende Nutzer sollen schon bald Zugang zu den neuen Fähigkeiten des Modells erhalten.