{"id":409449,"date":"2025-09-09T16:08:10","date_gmt":"2025-09-09T16:08:10","guid":{"rendered":"https:\/\/www.europesays.com\/de\/409449\/"},"modified":"2025-09-09T16:08:10","modified_gmt":"2025-09-09T16:08:10","slug":"nvidia-rubin-cpx-spezialbeschleuniger-fuer-ki-inferencing-kommt-ende-2026","status":"publish","type":"post","link":"https:\/\/www.europesays.com\/de\/409449\/","title":{"rendered":"Nvidia Rubin CPX: Spezialbeschleuniger f\u00fcr KI-Inferencing kommt Ende 2026"},"content":{"rendered":"<ol class=\"a-toc__list\">\n<li class=\"a-toc__item&#10;          &#10;            a-toc__item--counter&#10;          &#10;            a-toc__item--current\">\n<p>              Nvidia Rubin CPX: Spezialbeschleuniger f\u00fcr KI-Inferencing kommt Ende 2026<\/p>\n<\/li>\n<\/ol>\n<p>Nvidia will Ende 2026 einen speziellen Beschleunigerchip auf den Markt bringen, den Rubin CPX. Er soll speziell KI-Anwendungen mit enormen Context-Anforderungen (siehe unten) beschleunigen, denen wiederum eine besonders hohe Profitabilit\u00e4t unterstellt wird. Darunter sind KIs, die Programmcode liefern oder KI-Filme aus dem Nichts erstellen. Rubin CPX soll die spezifischen Flaschenh\u00e4lse bei der Verarbeitung solcher KI-Modelle gezielt angehen.<\/p>\n<p>Der Chip geh\u00f6rt zu Nvidias 2026 kommender Vera-Rubin-Generation von Rechenzentrumsbeschleunigern, die bereits ihren Tape-Out hinter sich hat. Er ist entweder direkt im Rackeinschub integriert oder als Zusatz-Beschleuniger in separaten Einsch\u00fcben zu bekommen.<\/p>\n<p>Mixture-of-Experts und Context-L\u00e4nge<\/p>\n<p>Die aktuell angesagten KI-Modelle wie DeepSeek R1, Llama4 Maverick, gpt-ossm, Qwen3 oder auch Kimi K2 verwenden eine Technik, die man Mixture-of-Experts nennt. Dabei kommen verschieden spezialisierte neuronale Netze (die Experts) f\u00fcr unterschiedliche Anfragen(teile) zum Einsatz. Das wiederum f\u00fchrt bei den einzelnen Experten zu geringeren Anforderungen an Speicher und Rechenleistung.<\/p>\n<p>Der Trick ist, die optimale Mixtur von Experten f\u00fcr jede Anfrage hinzubekommen; die Verteilung der Anfragen auf die Experten wird entscheidend. Gerade in Verbindung mit Reasoning m\u00fcssen die einzelnen Experten miteinander kommunizieren und das MoE-Modell als Ganzes wird aufwendiger.<\/p>\n<p>Zugleich werden die Antworten von KI-Anwendungen um Gr\u00f6\u00dfenordnungen komplexer, etwa durch die Ausgabe ganzer Programmcode-Sequenzen oder k\u00fcnstlich erzeugter Filme. Das l\u00e4sst die Anzahl der Token, die st\u00e4ndig ber\u00fccksichtigt werden m\u00fcssen, exponentiell ansteigen. Ein Token ist dabei die kleinste Informationseinheit, die innerhalb einer KI eine numerische ID zugewiesen bekommt, um die Berechnungen zu vereinfachen. Ein Token kann Informationen von einem Buchstaben bis hin zu kurzen Phrasen repr\u00e4sentieren. Sch\u00e4tzungen setzen ein englisches Wort im Durchschnitt mit 1,5 Token gleich.<\/p>\n<p>      <a href=\"https:\/\/www.heise.de\/imgs\/18\/4\/9\/3\/3\/7\/2\/2\/Press_Graphic_-_Vera_Rubin_Chip-94448535ea1a9032.jpg\" target=\"_blank\" rel=\"noopener\"><\/p>\n<p>  <img loading=\"lazy\" decoding=\"async\" alt=\"\" height=\"1080\" src=\"data:image\/svg+xml,%3Csvg xmlns='http:\/\/www.w3.org\/2000\/svg' width='696px' height='391px' viewBox='0 0 696 391'%3E%3Crect x='0' y='0' width='696' height='391' fill='%23f2f2f2'%3E%3C\/rect%3E%3C\/svg%3E\" style=\"aspect-ratio: 1920 \/ 1080; object-fit: cover;\" width=\"1920\"\/><\/p>\n<p>      <\/a><\/p>\n<p>Nvidias Vera Rubin-Beschleuniger in einer k\u00fcnstlerischen Darstellung. Damit ausger\u00fcstete Systeme sollen 2026 in Rechenzentren ankommen.<\/p>\n<p>Damit die Antwort in sich konsistent ist, muss die KI intern noch weitaus mehr Token bei der Gewichtung ber\u00fccksichtigen als im Antwortfenster ausgegeben werden, das nennt man Context. Chat-GPT 3.5 hatte anfangs ein Context-Window von 4096 Token. GPT-4o ist schon bei 128.000 Token, Google Gemini 1.5 Pro bei 2 Millionen Token.<\/p>\n<p>Disaggregated Serving<\/p>\n<p>Ein dadurch entstandener Optimierungsansatz ist das entkoppelte Beantworten der Anfragen (disaggregated serving). Dabei werden Context- und Prefill-Stufen bei der Beantwortung einer Anfrage verschiedenen Beschleunigern zugewiesen. Nvidia nutzt das bereits mit aktuellen GB200-Blackwell-Systemen. So arbeiten etwa in den optimierten Einreichungen zu den KI-Benchmarks der MLCommons MLPerf Inference v5.1 von den 72 Blackwell-GPUs eines NVL72-Racks 56 GPUs nur am Context und nur die restlichen 16 erzeugen die Inhalte. Diese Optimierung bringt gesch\u00e4tzt anhand eines ungenau beschrifteten Diagramms einen Performance-Sprung von 40 bis 45 Prozent auf Blackwell.<\/p>\n<p>Nvidia macht sich dabei noch eine Eigenschaft dieser LLMs zunutze: Sie kommen mit entsprechendem Feintuning auch mit recht niedriger Rechengenauigkeit aus, sodass das hauseigene, 4-bittige Floating-Point-Format NVFP4 mit blockweise geteiltem Exponenten f\u00fcr die erforderliche Antwortgenauigkeit bei MLPerf Inference ausreicht.<\/p>\n<p>Von Blackwell zu Rubin (CPX)<\/p>\n<p>Bereits Blackwell Ultra (GB300) hat Nvidia auf maximalen Durchsatz bei diesem Format optimiert. Daf\u00fcr haben die Ingenieure die Exponent-2-Funktion aufgebohrt, die im Attention-Layer aller KI-Modelle mit Transformer-Technik eine gro\u00dfe Rolle spielt. Da diese au\u00dferhalb der auf KI-Durchsatz spezialisierten Tensorkerne in den SFU-Einheiten (Special Function Units) laufen, sind sie in Blackwell bereits zum Flaschenhals geworden, denn die EX2-Leistung gegen\u00fcber Hopper ist kaum gewachsen. Blackwell Ultra verdoppelt den EX2-Durchsatz gegen\u00fcber Blackwell von 5 auf 10,7 Billionen Exponential-Berechnungen pro Sekunde.<\/p>\n<p>Ein NVL72-Schrank GB300 schafft rund 1,1 ExaFLOPS in NVFP4, Rubin NVL144 wird von Nvidia auf 3,6 EFlops projektiert und ein Rubin-CPX-Rack auf satte 8 EFlops.<\/p>\n<p>Ein Rubin CPX soll Ende 2026 gegen\u00fcber dem heutigen GB300 den dreifachen Exponential-Durchsatz von 30 PFlops NVFP4 schaffen. Da die Context-Phase weniger schnellen RAM ben\u00f6tigt und haupts\u00e4chlich von den Berechnungen limitiert wird, setzt Nvidia bei Rubin CPX auf 128 GByte GDDR7-Speicher.<\/p>\n<p>(<a class=\"redakteurskuerzel__link\" href=\"https:\/\/www.heise.de\/news\/mailto:csp@heise.de\" title=\"Carsten Spille\" target=\"_blank\" rel=\"noopener\">csp<\/a>)<\/p>\n<p>\n      Dieser Link ist leider nicht mehr g\u00fcltig.\n    <\/p>\n<p>Links zu verschenkten Artikeln werden ung\u00fcltig,<br \/>\n      wenn diese \u00e4lter als 7\u00a0Tage sind oder zu oft aufgerufen wurden.\n    <\/p>\n<p><strong>Sie ben\u00f6tigen ein heise+ Paket, um diesen Artikel zu lesen. Jetzt eine Woche unverbindlich testen \u2013 ohne Verpflichtung!<\/strong><\/p>\n","protected":false},"excerpt":{"rendered":"Nvidia Rubin CPX: Spezialbeschleuniger f\u00fcr KI-Inferencing kommt Ende 2026 Nvidia will Ende 2026 einen speziellen Beschleunigerchip auf den&hellip;\n","protected":false},"author":2,"featured_media":409450,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[135],"tags":[29,30,196,1256,2310,108383,108384,190,189,194,191,193,192],"class_list":{"0":"post-409449","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-wissenschaft-technik","8":"tag-deutschland","9":"tag-germany","10":"tag-it","11":"tag-kuenstliche-intelligenz","12":"tag-nvidia","13":"tag-nvidia-rubin","14":"tag-nvidia-vera","15":"tag-science","16":"tag-science-technology","17":"tag-technik","18":"tag-technology","19":"tag-wissenschaft","20":"tag-wissenschaft-technik"},"share_on_mastodon":{"url":"https:\/\/pubeurope.com\/@de\/115175208117759613","error":""},"_links":{"self":[{"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/posts\/409449","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/comments?post=409449"}],"version-history":[{"count":0,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/posts\/409449\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/media\/409450"}],"wp:attachment":[{"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/media?parent=409449"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/categories?post=409449"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/tags?post=409449"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}