Durchbruch in der Text-zu-3D-Generierung: NVIDIAs LATTE3D
Zuletzt aktualisiert am 13. September 2024 von Lars Weidmann
NVIDIA-Forscher haben einen bedeutenden Durchbruch in der Text-zu-3D-Generierung erzielt, indem sie das neueste generative KI-Modell LATTE3D entwickelt haben, das Texteingaben in Sekundenschnelle in dreidimensionale Darstellungen umwandelt.
Schnellere Umwandlung von Text in 3D
LATTE3D, oft als virtueller 3D-Drucker beschrieben, kann Textaufforderungen binnen einer Sekunde in 3D-Modelle von Objekten und Tieren umsetzen. Die erzeugten Formen sind im populären Format für Standard-Rendering-Anwendungen verfügbar und lassen sich problemlos in virtuellen Umgebungen für die Entwicklung von Videospielen, Werbekampagnen, Designprojekten oder virtuellen Trainingsumgebungen für Robotik nutzen.
Revolutionäre Beschleunigung im 3D-Design
Sanja Fidler, Vizepräsidentin für KI-Forschung bei NVIDIA, erklärt, dass die Erzeugung von 3D-Visualisierungen dieser Qualität vor einem Jahr noch eine Stunde in Anspruch nahm, während der aktuelle Stand der Technik nun bei 10 bis 12 Sekunden liegt. LATTE3D kann Ergebnisse um eine Größenordnung schneller produzieren, was eine nahezu Echtzeit-Text-zu-3D-Generierung für Kreative in verschiedenen Branchen ermöglicht.
Innovative Nutzungsmöglichkeiten und Training
LATTE3D ermöglicht es Designern, detaillierte Objekte so schnell zu generieren, wie die Ideen in ihren Kopf kommen. Das Modell bietet verschiedene 3D-Formoptionen basierend auf jedem Textprompt und ermöglicht eine Optimierung ausgewählter Objekte für eine höhere Qualität innerhalb weniger Minuten. Entwickler könnten dieselbe Modellarchitektur verwenden, um die KI mit anderen Datentypen zu trainieren, was vielfältige Anwendungsmöglichkeiten in verschiedenen Sektoren eröffnet.
Zukunftsperspektiven und Technologieeinsatz
LATTE3D wurde mit NVIDIA A100 Tensor Core GPUs trainiert und nutzt diverse Textprompts, die mit ChatGPT generiert wurden, um die Fähigkeit des Modells zu verbessern, mit verschiedenen Phrasen umzugehen, die Benutzer möglicherweise verwenden, um ein bestimmtes 3D-Objekt zu beschreiben. Dieses fortschrittliche Trainingsniveau verbessert die Genauigkeit und Vielseitigkeit der 3D-Generierung erheblich.