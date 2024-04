Zuletzt aktualisiert am 11. April 2024 von Marina Meier

Künstliche Intelligenz (KI) wird zunehmend zu einem integralen Bestandteil unserer mobilen Erfahrung. Während Google und Samsung in diesem Bereich führend sind, macht auch Apple bedeutende Fortschritte innerhalb seines Ökosystems. Kürzlich stellte das Unternehmen aus Cupertino ein Projekt namens MM1 vor – ein multimodales großes Sprachmodell (MLLM), das sowohl Text als auch Bilder verarbeiten kann. Eine neue Studie enthüllt nun ein weiteres bahnbrechendes MLLM, das darauf abzielt, die Feinheiten von Benutzeroberflächen auf Mobilgeräten zu verstehen.

Ein neuer Ansatz für das Verständnis mobiler Benutzeroberflächen

Die von der Cornell University veröffentlichte Arbeit “Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs” stellt Ferret-UI vor – ein speziell entwickeltes MLLM mit Verweis-, Begründungs- und Schlussfolgerungsfähigkeiten. Dieser neue Ansatz könnte das Verständnis von Siri für das Erscheinungsbild und die Funktionalität von Apps sowie der iOS-Benutzeroberfläche revolutionieren.

Herausforderungen bei der Interaktion mit mobilen Benutzeroberflächen

Trotz des Fortschritts bei MLLMs haben viele Modelle Schwierigkeiten, mobile Benutzeroberflächen zu verstehen und mit ihnen zu interagieren. Mobile Bildschirme, die oft im Hochformat verwendet werden, stellen aufgrund ihrer dichten Anordnung von Symbolen und Text einzigartige Herausforderungen dar.

Ein Durchbruch in der Interaktion mit mobilen Benutzeroberflächen

Ferret-UI geht diese Herausforderungen an, indem es eine Vergrößerungsfunktion einführt, die die Lesbarkeit von Bildschirmelementen verbessert. Diese Funktion, kombiniert mit der Fähigkeit von Ferret-UI, Widgets, Symbole und Texte auf mobilen Bildschirmen zu erkennen und zu kategorisieren, sowie verschiedene Eingabemethoden zu unterstützen, könnte die Interaktion mit mobilen Benutzeroberflächen revolutionieren.

Integration von Ferret-UI in Siri: Potenzielle Vorteile

Obwohl noch nicht bestätigt ist, ob Ferret-UI in Siri integriert wird, sind die potenziellen Vorteile faszinierend. Durch die verbesserte Verständnis von mobilen Benutzeroberflächen könnte Siri besser auf Benutzeranfragen eingehen und möglicherweise sogar komplexere Aufgaben bewältigen. Darüber hinaus könnte Siri durch die Berücksichtigung dessen, was auf dem Bildschirm angezeigt wird, den Kontext von Anfragen besser erfassen und so eine reibungslosere Benutzererfahrung ermöglichen.