GTC 2026: NVIDIA kündigt Integration von Groq 3 LPU an

Ein mit viel Spannung erwarteter Moment auf der Keynote zur GTC 2026 war die Ankündigung, in welcher Form NVIDIA seine Investition von 20 Milliarden US-Dollar bei Groq nutzen würde. Nun ist klar: In einem ersten Schritt werden die LPUs von Groq in die kommenden Vera-Rubin-NVL72-Systeme integriert, um einen hohen Durchsatz an Tokens bei gleichzeitig möglichst niedriger Latenz gewährleisten zu können.

Bereits seit einigen Monaten wird deutlich: Das Training immer neuer KI-Modelle ist ein Anwendungsbereich für KI-Beschleuniger, aber es wird auch vermehrt darum gehen, diese KI-Modelle in Form der entsprechenden Services schnell und kostengünstig anbieten zu können. Einerseits ist dies über die bestehenden KI-Beschleuniger auf Basis der Blackwell- oder Rubin-Architektur möglich. Aber mittels speziell angepasster Hardware ist eine Umsetzung für das Inferencing deutlich effizienter.

Entsprechend stellte NVIDIA vor einem Jahr Rubin CPX als Spezialvariante mit LPDDR-Speicher vor. Der Kauf von Groq ermöglicht es NVIDIA aber auch, auf die dort entwickelten LPUs zu setzen.

Groq LPU

Die Groq LPU (Language Processing Unit) ist ein speziell für KI-Inferenz entwickelter Prozessor, der sich durch eine deterministische, softwarezentrische Architektur mit einem großen, monolithischen Kern und hunderten MB On-Chip-SRAM als primärem Speicher auszeichnet. So sollen Speicherzugriffe mit garantierten Latenzen erfolgen, sodass der Compiler den Datenfluss wie auf einem „Fließband“ im Voraus planen kann.

Statt auf die für GPUs typische Kombination aus komplexem Scheduler, Caches und externer HBM-Bandbreite zu setzen, streamt die LPU Gewichte und Aktivierungen mit sehr hoher interner Bandbreite durch Vektor- und Matrix-Einheiten, was vor allem bei sequenziellen Workloads wie großen Sprachmodellen eine sehr hohe Tokenrate bei niedriger Latenz ermöglicht.

In der Praxis erreicht Groq mit dieser Architektur bei LLMs wie Llama 2 70B mehrere hundert Tokens pro Sekunde und positioniert die LPU damit als energieeffiziente, skalierbare Alternative zu GPU-Clustern für Echtzeitanwendungen.

Im Vergleich zu Systemen nur mit Blackwell- oder Rubin-Beschleunigern sollen die Racks bestehend aus einem Vera-Rubin-NVL72-System plus einem LPX-Cluster ein Vielfaches des Durchsatzes erreichen, damit kostengünstiger sein und zudem auch noch deutlich weniger Leistung pro Millionen Tokens verbrauchen.

Ein NVIDIA-Groq-3-LPX-Rack besteht aus 256 LPUs mit 128 GB an SRAM. Die kombinierte SRAM-Bandbreite liegt bei 40 PB/s und das komplette System kommt auf eine Rechenleistung von 315 PFLOPS.

Die ersten Bringup-Systeme von Vera Rubin NVL72 wurden bereits ausgeliefert. Mit größeren Stückzahlen ist aber erst im vierten Quartal 2026 zu rechnen. Ab wann Vera Rubin NVL72 + NVIDIA Groq 3 LPX in dieser Form erhältlich sein wird, ist nicht bekannt.

Tokens sind die neue Währung

Die Währung der Hyperscaler und Anbieter für KI-Dienste lautet Tokens pro Sekunde. Am liebsten würde man so viele Tokens so schnell wie möglich ausliefern wollen. Aber immer größere Kontextfenster sorgen dafür, dass pro Nutzer immer mehr Tokens pro Sekunde notwendig sind.

Vera Rubin NVL72 ist prädestiniert für einen hohen Durchsatz an Tokens pro Sekunde für eine bestimmte Anforderung für TPS pro Nutzer. Geht man aber auf der X-Achse des Diagramms in die andere Richtung, werden die Kontext-Fenster immer größer, die KI-Modelle umfangreicher und das Inferencing entsprechend aufwändiger. Hier kommt die Groq 3 LPU ins Spiel, denn gerade für diese Anwendungsbereiche spricht NVIDIA von einem um den Faktor 35 höheren Durchsatz an Tokens.

GTC 2026: NVIDIA kündigt Integration von Groq 3 LPU an

Tags: