NVIDIA GB200 NVL72

NVIDIA GB200 NVL72

Antrieb für das neue Zeitalter des intelligenten Edge-Computings.

Einführung
Highlights
Merkmale
Technische Daten
Jetzt starten

Einführung
Highlights
Merkmale
Technische Daten
Jetzt starten

Erschließung von Echtzeitmodellen mit Billionen Parametern

Der GB200 NVL72 verbindet 36 Grace-CPUs und 72 Blackwell-GPUs in einem Rack-Maßstab. Bei dem GB200 NVL72 handelt es sich um eine Rack-Lösung mit Flüssigkeitskühlung und einer NVLink-Domäne mit 72 Grafikprozessoren, die als einzelner riesiger Grafikprozessor funktioniert und 30-mal schnellere Echtzeit-Inferenz für LLMs mit Billionen Parametern bietet.

Der GB200 Grace Blackwell Superchip ist eine Schlüsselkomponente des NVIDIA GB200 NVL72 und verbindet zwei hochleistungsfähige NVIDIA Blackwell Tensor-Recheneinheiten-Grafikprozessoren und eine NVIDIA Grace-CPU über die NVIDIA® NVLink®-C2C-Verbindung mit den beiden Blackwell-GPUs.

Die Blackwell-Architektur im Rack-Maßstab für Echtzeit-Inferenz und Training mit Billionen Parametern

NVIDIA GB200 NVL72 ist ein Exascale-Computer in einem einzigen Rack. Mit 36 GB200s, die über die größte NVIDIA® NVLink®-Domäne miteinander verbunden sind, bietet das NVLink-Switch-System 130 Terabyte pro Sekunde (TB/s) GPU-Kommunikation mit geringer Latenz für KI- und High-Performance-Computing(HPC)-Workloads.

Technik-Blog

Highlights

Optimierung für KI und beschleunigtes Computing der nächsten Generation

LLM-Inferenz

30X vs. NVIDIA H100 Tensor Core-GPU

LLM-Training

4X vs. H100

Energieeffizienz

25X vs. H100

Datenverarbeitung

18X vs. CPU

LLM-Inferenz und Energieeffizienz: TTL = 50 Millisekunden (ms) Echtzeit, FTL = 5 s, 32.768 Eingang/1.024 Ausgang, NVIDIA HGX™ H100 skaliert über InfiniBand (IB) vs. GB200 NVL72, Training, 1,8T MOE 4096x HGX H100 skaliert über IB vs. 456x GB200 NVL72 skaliert über IB. Clustergröße: 32.768
Ein Datenbank-Join- und Aggregations-Workload mit Snappy/Deflate-Komprimierung, abgeleitet von einer TPC-HQ4-Abfrage. Benutzerdefinierte Abfrageimplementierungen für x86, H100 mit einem einzelnen Grafikprozessor und für einen einzelnen Grafikprozessor aus GB200 NLV72 vs. Intel Xeon 8480+
Die projizierte Leistung kann Änderungen unterliegen.

Echtzeit-Inferenz für LLMs

GB200 bietet innovative Funktionen und eine Inferenz-Engine, die in Verbindung mit NVIDIA® NVLink der fünften Generation eine 30-mal schnellere LLM-Inferenzleistung in Echtzeit für Sprachmodelle mit mehreren Billionen Parametern bietet. Dieser Fortschritt wird durch eine neue Generation von Tensor Cores ermöglicht, die ein neues Niveau der FP4-Präzision mit Mikroskalierung einführen. Darüber hinaus nutzt der GB200 NVL72 NVLink und Flüssigkeitskühlung, um ein einzelnes massives Rack mit 72 Grafikprozessoren zu bilden, das Kommunikationsengpässe überwindet.

Training im massiven Maßstab

GB200 verfügt über eine schnellere Transformer-Engine mit FP8-Präzision, die 4-mal schnelleres Training für große Sprachmodelle im gewünschten Umfang ermöglicht. Dieser Durchbruch wird durch NVLink der fünften Generation ergänzt, die 1,8 Terabyte pro Sekunde (TB/s) GPU-zu-GPU-Verbindung, InfiniBand-Netzwerke und NVIDIA Magnum IO™-Software bietet

Energieeffiziente Infrastruktur

Die GB200 NVL72-Racks mit Flüssigkeitskühlung reduzieren die CO2-Bilanz und den Energieverbrauch von Rechenzentren. Die Flüssigkeitskühlung erhöht die Rechendichte, reduziert den Platzbedarf und ermöglicht GPU-Kommunikation mit hoher Bandbreite und geringer Latenz bei großen NVLink-Domänenarchitekturen. Im Vergleich zur H100-Infrastruktur mit Luftkühlung bietet der GB200 25-mal mehr Leistung bei gleichem Stromverbrauch und senkt gleichzeitig den Wasserverbrauch um mehr als das 13-Fache.

Datenverarbeitung

Datenbanken spielen für Unternehmen eine entscheidende Rolle bei der Verarbeitung und Analyse großer Datenmengen. GB200 nutzt NVLink-C2C mit hoher Bandbreite und dedizierte Dekomprimierungs-Engines in der NVIDIA Blackwell-Architektur, um wichtige Datenbankabfragen um das 18-Fache zu beschleunigen (verglichen mit CPUs), und so 5-mal bessere Gesamtbetriebskosten zu erzielen.

Merkmale

Technologische Durchbrüche

Blackwell-Architektur

Die NVIDIA Blackwell-Architektur definiert die neue Ära im Bereich generative KI und und bietet bahnbrechende Fortschritte beim beschleunigten Computing mit beispielloser Leistung, Effizienz und Skalierbarkeit.

Mehr erfahren

NVIDIA Grace-CPU

Der NVIDIA-Grace-CPU-Superchip ist ein bahnbrechender Prozessor, der für moderne Rechenzentren mit KI-, Cloud- und HPC-Anwendungen entwickelt wurde. Er bietet herausragende Leistung und Speicherbandbreite mit der zweifachen Energieeffizienz im Vergleich mit führenden modernen Serverprozessoren.

Mehr erfahren

NVIDIA NVLink der fünften Generation

Um das volle Potenzial von Exascale-Computing und KI-Modellen mit Billionen Parametern auszuschöpfen, ist eine schnelle, nahtlose Kommunikation zwischen allen Grafikprozessoren innerhalb eines Server-Clusters erforderlich. Die fünfte Generation von NVLink ist eine Scale-up-Verbindung, die beschleunigte Leistung für KI-Modelle mit Billionen oder mehreren Billionen Parametern bietet.

Erfahren Sie mehr zu NVLink und NVLink Switch

NVIDIA-Netzwerk

Das Netzwerk des Rechenzentrums spielt eine entscheidende Rolle, um Fortschritte und Leistung der KI voranzutreiben, und dient als Basis für verteiltes KI-Modelltraining und generative KI. NVIDIA Quantum-X800 InfiniBand, NVIDIA Spectrum™-X800 Ethernet und NVIDIA BlueField®-3 DPUs ermöglichen effiziente Skalierbarkeit über Hunderte oder Tausende Blackwell-GPUs hinweg für eine optimale Anwendungsleistung.

End-to-End-Netzwerklösungen entdecken

Technische Daten

GB200 NVL72¹ Technische Daten

	GB200 NVL72	GB200 Grace Blackwell Superchip
Konfiguration	36 Grace-CPU: 72 Blackwell-Grafikprozessoren	1 Grace-CPU: 2 Blackwell-Grafikprozessor
FP4 Tensor-Recheneinheit²	1.440 PFLOPS	40 PFLOPS
FP8/FP6 Tensor-Recheneinheit²	720 PFLOPS	20 PFLOPS
INT8-Tensor-Recheneinheit²	720 POPS	20 POPS
FP16/BF16 Tensor-Recheneinheit²	360 PFLOPS	10 PFLOPS
FP16/BF16 Tensor-Recheneinheit²	180 PFLOPS	5 PFLOPS
FP64 Tensor-Recheneinheit	3.240 TFLOPS	90 TFLOPS
Grafikprozessorspeicher \| Bandbreite	Bis zu 13,5 TB HBM3e \| 576 TB/s	Bis zu 13,5 TB HBM3e \| 576 TB/s
NVLink-Bandbreite	130 TB/s	3,6 TB/s
Anzahl der CPU-Recheneinheiten	2.592 Arm® Neoverse V2-Recheneinheiten	72 Arm® Neoverse V2-Recheneinheiten
CPU-Speicher \| Bandbreite	Bis zu 17 TB LPDDR5X \| Bis zu 18,4 TB/s	Bis zu 480 LPDDR5X \| Bis zu 512 GB/s
1. Vorläufige Spezifikationen. Änderungen vorbehalten. 2. Mit geringer Datendichte.

Jetzt starten

Immer aktuell

Melden Sie sich an, um benachrichtigt zu werden, wenn NVIDIA Blackwell verfügbar wird.

Benachrichtigungen erhalten

Erschließung von Echtzeitmodellen mit Billionen Parametern

Die Blackwell-Architektur im Rack-Maßstab für Echtzeit-Inferenz und Training mit Billionen Parametern

Optimierung für KI und beschleunigtes Computing der nächsten Generation

LLM-Inferenz

LLM-Training

Energieeffizienz

Datenverarbeitung

Echtzeit-Inferenz für LLMs

Training im massiven Maßstab

Energieeffiziente Infrastruktur

Datenverarbeitung

Technologische Durchbrüche

Blackwell-Architektur

NVIDIA Grace-CPU

NVIDIA NVLink der fünften Generation

NVIDIA-Netzwerk

GB200 NVL721 Technische Daten

Immer aktuell

GB200 NVL72¹ Technische Daten