Apple und NVIDIA verbessern Textgenerierung mit ReDrafter Technologie
Apple hat in Zusammenarbeit mit NVIDIA bedeutende Fortschritte bei der Leistung großer Sprachmodelle (LLMs) erzielt. Durch die Implementierung einer neuen Textgenerierungstechnik konnten erhebliche Geschwindigkeitsverbesserungen für KI-Anwendungen erreicht werden. Diese Entwicklungen sind für Entwickler und Unternehmen von großem Interesse, die auf leistungsstarke KI-Lösungen angewiesen sind.
Revolutionäre Technik für schnellere Textgenerierung
Im Laufe des Jahres 2023 hat Apple die Technik Recurrent Drafter (ReDrafter) veröffentlicht und als Open Source bereitgestellt. Diese innovative Methode kombiniert Beam Search mit dynamischen Baum-Attention-Methoden, um die Textgenerierung zu beschleunigen. Die Beam Search-Technik ermöglicht es, mehrere potenzielle Textsequenzen gleichzeitig zu erkunden, was zu besseren Ergebnissen führt. Gleichzeitig sorgt die Baum-Attention dafür, redundante Überlappungen zwischen diesen Sequenzen zu organisieren und zu entfernen, was die Effizienz steigert.
Die Integration dieser Technologie in das NVIDIA TensorRT-LLM-Framework, das speziell für die Optimierung von LLMs auf NVIDIA-GPUs entwickelt wurde, hat laut Apple zu einer „state of the art“-Leistung geführt. Während der Tests mit einem Produktionsmodell, das mehrere Milliarden Parameter umfasst, gelang es, die Geschwindigkeit der generierten Tokens pro Sekunde um das 2,7-Fache zu steigern. Dies stellt einen bedeutenden Fortschritt in der Verarbeitungsgeschwindigkeit von KI-Anwendungen dar.
Vorteile für Entwickler und Nutzer
Die Verbesserungen in der Leistung führen nicht nur zu einer Reduzierung der wahrgenommenen Latenz für die Nutzer, sondern auch zu einem geringeren GPU-Verbrauch und einer niedrigeren Energieaufnahme. Auf dem Machine Learning Research Blog von Apple heißt es: „LLMs werden zunehmend zur Unterstützung von Produktionsanwendungen eingesetzt, und die Verbesserung der Inferenz-Effizienz kann sowohl die Rechenkosten beeinflussen als auch die Latenz für die Nutzer reduzieren. Mit dem neuartigen Ansatz von ReDrafter zur spekulativen Dekodierung, der in das NVIDIA TensorRT-LLM-Framework integriert ist, können Entwickler nun von einer schnelleren Token-Generierung auf NVIDIA-GPUs für ihre Produktions-LLM-Anwendungen profitieren.
Entwickler, die an der Implementierung von ReDrafter interessiert sind, finden umfassende Informationen auf den Websites von Apple und NVIDIA, die wertvolle Ressourcen für die Nutzung dieser Technologie bieten.
Quelle: MacRumors