NVIDIA’s Eos Supercomputer stellt neuen KI-Training-Rekord auf
Zuletzt aktualisiert am 8. November 2023 von Jonas Hartmann
Das Training eines großen Sprachmodells von erheblicher Größe kann Wochen, Monate oder sogar Jahre dauern. Das ist keine gangbare Option – niemand hat die Zeit und die Stromkosten, um solange zu warten. Am Mittwoch stellte NVIDIA die neueste Version seines Eos-Supercomputers vor. Dieser wird von mehr als 10.000 H100 Tensor Core GPUs angetrieben. Außerdem ist er in der Lage, ein GPT-3-Modell mit 175 Milliarden Parametern auf 1 Milliarde Tokens in weniger als vier Minuten zu trainieren. Das ist dreimal schneller als der vorherige Rekord auf dem MLPerf-Standard der KI-Branche, den NVIDIA erst vor sechs Monaten aufgestellt hat.
NVIDIA wies darauf hin, dass die in den Tests verwendete GPT-3-Version mit 175 Milliarden Parametern nicht die Vollversion des Modells ist. Die größere GPT-3 bietet etwa 3,7 Billionen Parameter und ist schlichtweg zu groß und unhandlich. Stattdessen nutzen NVIDIA und MLCommons, die den MLPerf-Standard verwalten, eine kompaktere Version, die 1 Milliarde Tokens verwendet, aber den gleichen Umfang von möglichen Schaltern (175 Milliarden Parameter) wie die Vollversion bietet.
Extreme Leistungssteigerung
Die beeindruckende Leistungssteigerung ergab sich, da in diesen Tests 10.752 H100-GPUs im Vergleich zu den 3.584 Hopper-GPUs eingesetzt wurden. Welche das Unternehmen bei den Benchmark-Tests im Juni verwendet hatte. Trotz der Verdreifachung der Anzahl der GPUs gelang es NVIDIA, eine 2,8-fache Leistungssteigerung und eine Effizienzrate von 93 Prozent durch Softwareoptimierung zu erhalten.
NVIDIA plant, diese erweiterten Rechenkapazitäten auf verschiedene Aufgaben anzuwenden. Darunter die Entwicklung grundlegender Modelle, die KI-unterstützte GPU-Entwicklung, neuronales Rendering und autonomes Fahren.
Diese Benchmarks sind wichtig, da der derzeitige Stand des KI-Marketings oft unzureichend überwacht wird. Die Ergebnisse von MLPerf bieten Glaubwürdigkeit und Sicherheit für die Leistungsansprüche von KI-Unternehmen.
NVIDIA konzentriert sich weiterhin auf KI-Anwendungen und erweitert kontinuierlich seine Supercomputing-Fähigkeiten. CEO Jensen Huang erklärte, dass wir uns im “iPhone-Moment für KI” befinden. Im März kündigte das Unternehmen sein DGX-Cloud-System an, das die Rechenleistung des Supercomputers in kleinere Teile aufteilt. Im Mai erweiterte NVIDIA sein Supercomputing-Portfolio mit der Veröffentlichung von DGX GH200.