Apples neue KI-Modelle verstehen deine Apps und deinen Bildschirm
Zuletzt aktualisiert am 11. April 2024 von Marina Meier
Künstliche Intelligenz (KI) wird zunehmend zu einem integralen Bestandteil unserer mobilen Erfahrung. Während Google und Samsung in diesem Bereich führend sind, macht auch Apple bedeutende Fortschritte innerhalb seines Ökosystems. Kürzlich stellte das Unternehmen aus Cupertino ein Projekt namens MM1 vor – ein multimodales großes Sprachmodell (MLLM), das sowohl Text als auch Bilder verarbeiten kann. Eine neue Studie enthüllt nun ein weiteres bahnbrechendes MLLM, das darauf abzielt, die Feinheiten von Benutzeroberflächen auf Mobilgeräten zu verstehen.
Ein neuer Ansatz für das Verständnis mobiler Benutzeroberflächen
Die von der Cornell University veröffentlichte Arbeit “Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs” stellt Ferret-UI vor – ein speziell entwickeltes MLLM mit Verweis-, Begründungs- und Schlussfolgerungsfähigkeiten. Dieser neue Ansatz könnte das Verständnis von Siri für das Erscheinungsbild und die Funktionalität von Apps sowie der iOS-Benutzeroberfläche revolutionieren.
Herausforderungen bei der Interaktion mit mobilen Benutzeroberflächen
Trotz des Fortschritts bei MLLMs haben viele Modelle Schwierigkeiten, mobile Benutzeroberflächen zu verstehen und mit ihnen zu interagieren. Mobile Bildschirme, die oft im Hochformat verwendet werden, stellen aufgrund ihrer dichten Anordnung von Symbolen und Text einzigartige Herausforderungen dar.
Ein Durchbruch in der Interaktion mit mobilen Benutzeroberflächen
Ferret-UI geht diese Herausforderungen an, indem es eine Vergrößerungsfunktion einführt, die die Lesbarkeit von Bildschirmelementen verbessert. Diese Funktion, kombiniert mit der Fähigkeit von Ferret-UI, Widgets, Symbole und Texte auf mobilen Bildschirmen zu erkennen und zu kategorisieren, sowie verschiedene Eingabemethoden zu unterstützen, könnte die Interaktion mit mobilen Benutzeroberflächen revolutionieren.
Integration von Ferret-UI in Siri: Potenzielle Vorteile
Obwohl noch nicht bestätigt ist, ob Ferret-UI in Siri integriert wird, sind die potenziellen Vorteile faszinierend. Durch die verbesserte Verständnis von mobilen Benutzeroberflächen könnte Siri besser auf Benutzeranfragen eingehen und möglicherweise sogar komplexere Aufgaben bewältigen. Darüber hinaus könnte Siri durch die Berücksichtigung dessen, was auf dem Bildschirm angezeigt wird, den Kontext von Anfragen besser erfassen und so eine reibungslosere Benutzererfahrung ermöglichen.