Diese Seite wurde von der Cloud Translation API übersetzt.

TPU v5p

In diesem Dokument werden die Architektur und die unterstützten Konfigurationen von Cloud TPU v5p beschrieben.

Systemarchitektur

In diesem Abschnitt wird die für die v5p-Version spezifische Systemarchitektur beschrieben. Jeder TensorCore hat vier Matrix Multiply Units (MXU), eine Vektoreinheit und eine Skalareinheit.

Ein v5p-Pod enthält 8.960 Chips. Der größte Job, der geplant werden kann, ist ein Job mit 96 Cubes (6.144 Chips).

In der folgenden Tabelle sind die wichtigsten Spezifikationen für eine v5p aufgeführt.

Schlüsselspezifikationen	v5p-Werte
Spitzenberechnungen pro Chip (bf16)	459 TFLOPs
HBM2e-Kapazität und Bandbreite	95 GB, 2.765 Gbit/s
TPU-Pod-Größe	8.960 Chips
Interconnect-Topologie	3D-Torus *
Interchip Interconnect BW	4.800 Gbit/s

Konfigurationen

Ein TPU v5p Pod besteht aus 8.960 Chips, die über neu konfigurierbare Hochgeschwindigkeitsverbindungen miteinander verbunden sind. Mit dem flexiblen Netzwerk von TPU v5p können Sie die Chips in einem Stück gleicher Größe auf mehrere Arten verbinden. Wenn Sie ein TPU-Slice mit dem Befehl gcloud compute tpus tpu-vm create erstellen, geben Sie dessen Typ und Form mit den Parametern AcceleratorType oder AcceleratorConfig an.

Die folgende Tabelle enthält die gängigsten Einzelsegmentformen, die von v5p unterstützt werden, sowie die meisten (aber nicht alle) vollständigen Würfelformen, die größer als 1 Würfel sind. Die maximale v5p-Form beträgt 16 x 16 x 24 (6.144 Chips, 96 Cubes).

Segmentform	VM-Größe	Anzahl der Kerne	# Chips	Anzahl der Maschinen	Anzahl Würfel	Unterstützt Twisted?
2x2x1	Vollständiger Host	8	4	1	–	–
2x2x2	Vollständiger Host	16	8	2	–	–
2x4x4	Vollständiger Host	64	32	8	–	–
4x4x4	Vollständiger Host	128	64	16	1	–
4x4x8	Vollständiger Host	256	128	32	2	Yes
4x8x8	Vollständiger Host	512	256	64	4	Yes
8×8×8	Vollständiger Host	1.024	512	128	8	–
8×8×16	Vollständiger Host	2.048	1.024	256	16	Yes
8×16×16	Vollständiger Host	4.096	2.048	512	32	Yes
16×16×16	Vollständiger Host	8.192	4.096	1.024	64	–
16×16×24	Vollständiger Host	12.288	6144	1.536	96	–

Das Training mit einem einzelnen Slice wird für bis zu 6.144 Chips unterstützt. Sie kann mit Multislice auf 18.432 Chips erweitert werden. Details zu mehreren Segmenten finden Sie in der Übersicht zu Cloud TPU-Multislices.

AcceleratorType-Parameter verwenden

Wenn Sie TPU-Ressourcen zuweisen, geben Sie mit dem Argument --accelerator-type die Anzahl der TensorCores in einem Slice an. --accelerator-type ist der formatierte String „v$VERSION_NUMBERp-$CORES_COUNT“. v5p-32 gibt beispielsweise ein v5p-TPU-Slice mit 32 TensorCores (16 Chips) an.

Verwenden Sie zum Bereitstellen von TPUs für einen v5p-Trainingsjob einen der folgenden Beschleunigertypen in Ihrer Anfrage zur Erstellung einer Befehlszeile oder TPU API:

v5p-8
v5p-16
v5p-32
v5p–64
v5p-128 (ein voller Cube/Rack)
v5p-256 (2 Cubes)
v5p-512
v5p-1024 ... v5p-12288

AcceleratorConfig-Parameter verwenden

Bei Cloud TPU-Versionen ab v5p wird AcceleratorConfig auf ähnliche Weise verwendet wie mit Cloud TPU v4. Der Unterschied besteht darin, dass Sie den TPU-Typ nicht als --type=v4, sondern als die verwendete TPU-Version angeben (z. B. --type=v5p für den v5p-Release).

ICI-Resilienz von Cloud TPU

Die ICI-Resilienz verbessert die Fehlertoleranz von optischen Verbindungen und optischen Schaltkreisen (Optical Circuit Switches, OCS), die TPUs zwischen Cubes verbinden. ICI-Verbindungen innerhalb eines Kubus verwenden Kupferverbindungen, die nicht betroffen sind. Dank der ICI-Resilienz können ICI-Verbindungen um OCS- und optische ICI-Fehler herum umgeleitet werden. Infolgedessen wird die Planungsverfügbarkeit von TPU-Slices verbessert, ohne dass eine vorübergehende Verschlechterung der ICI-Leistung entsteht.

Ähnlich wie bei Cloud TPU v4 ist die ICI-Resilienz standardmäßig für v5p-Slices aktiviert, die einen Cube oder größer sind:

v5p-128 bei Angabe des Beschleunigertyps
4x4x4 bei Angabe der Beschleunigerkonfiguration

VM-, Host- und Slice-Attribute

Attribut	Wert in einer TPU
Anzahl der v5p-Chips	4
Anzahl der vCPUs	208 (nur die Hälfte ist nutzbar, wenn eine NUMA-Bindung verwendet wird, um eine Leistungseinbußen durch mehrere NUMA-Instanzen zu vermeiden)
RAM (GB)	448 (nur die Hälfte ist verwendbar, wenn NUMA-Bindung verwendet wird, um Cross-NUMA-Leistungseinbußen zu vermeiden)
Anzahl von NUMA Knoten	2
NIC-Durchsatz (Gbit/s)	200

Beziehung zwischen der Anzahl von TensorCores, Chips, Hosts/VMs und Cubes in einem Pod:

	Kerne	Chips	Hosts/VMs	Würfel
Moderator	8	4	1
Würfel (auch als Rack bezeichnet)	128	64	16	1
Größtes unterstütztes Slice	12.288	6144	1.536	96
Vollständiger v5p-Pod	17920	8960	2240	140