Microsoft Maia 200 - premiera akceleratorów AI zbudowanych do inferencji z dużymi modelami, które powalczą z TPU od Google

Microsoft Maia 200 - premiera akceleratorów AI zbudowanych do inferencji z dużymi modelami, które powalczą z TPU od Google Obecnie rynek akceleratorów AI dominuje NVIDIA, oferująca na szeroką skalę akceleratory B200 i B300. Jednocześnie sektor ulega coraz większej specjalizacji, niektóre firmy zajmujące się tworzeniem modeli AI zaczęły projektować własne akceleratory, dostosowane do potrzeb i specyfiki swoich modeli. Przykładem jest Microsoft, który wprowadza obecnie akceleratory Azure Maia 200, mające konkurować m.in. z układami TPU od Google i Amazon Trainium.

Akceleratory Microsoft Azure Maia 200 zapewniają czterokrotnie wyższą wydajność FP4 w porównaniu z 3. generacją układów Amazon Trainium oraz oferują wydajność FP8 przewyższającą 7. generację chipów TPU od Google.

NVIDIA N1 oraz N1X mają zostać zaprezentowane jeszcze w tym kwartale. Wkrótce potem pojawią się pierwsze urządzenia

Akceleratory Microsoft Azure Maia 200 zostały wyprodukowane w procesie technologicznym TSMC N3P (3 nm). Każdy chip zawiera ponad 100 miliardów tranzystorów, a jego parametr TDP określono na 880 W. Układy wykorzystują pamięć SRAM zintegrowaną bezpośrednio w strukturę krzemową chipu o pojemności 272 MB, a także współpracują z pamięcią HBM3E o pojemności 216 GB i przepustowości 7 TB/s. Chip Maia 200 został zoptymalizowany do obliczeń w niskiej precyzji, oferując 10 145 teraFLOPS w precyzji FP4 oraz 5 072 teraFLOPS w precyzji FP8. W przypadku obliczeń w formacie BF16 osiąga 1 268 teraFLOPS. W praktyce oznacza to, że pojedynczy układ Maia 200 jest w stanie obsłużyć obecnie największe modele AI, pozostawiając jednocześnie rezerwę mocy obliczeniowej na jeszcze większe modele w przyszłości.

Chińskie firmy AI wykorzystują luki w kontroli eksportu USA. Tencent wynajmuje procesory NVIDIA Blackwell za granicą

W dużych centrach obliczeń AI kluczową rolę odgrywa komunikacja między chipami i węzłami. W jednym węźle znajdują się cztery chipy Maia 200, połączone bezpośrednimi, nieprzełączanymi łączami. Podsystem pamięci Maia 200 opiera się na wąskich typach danych, specjalizowanym silniku DMA, pamięci SRAM zintegrowanej bezpośrednio na chipie oraz wyspecjalizowanej strukturze NoC (Network-on-Chip) do przesyłania danych o wysokiej przepustowości. Dzięki temu większa część wag i danych modelu może być utrzymywana lokalnie, co redukuje liczbę urządzeń potrzebnych do uruchomienia modelu. W odróżnieniu od NVIDIA w generacji akceleratorów Vera Rubin, Microsoft wykorzystał w połączeniach między węzłami powszechny standard Ethernet. Mowa o połączeniach o przepustowości 400 Gb/s, realizowanych przez 28 łączy sieciowych. Połączenia te korzystają także ze ściśle zintegrowanej karty sieciowej (NIC) oraz niestandardowej warstwy transportowej dla danych.

Microsoft Azure
Maia 200 AWS Trainium 3 Google TPU
7. generacji Proces technologiczny TSMC N3P TSMC N3P TSMC N3P Wydajność FP4 10 145 teraFlOPS 2 517 teraFlOPS Brak informacji Wydajność FP8 5 072 teraFlOPS 2 517 teraFlOPS 4 614 teraFlOPS Wydajność BF16 1 268 teraFlOPS 671 teraFlOPS 2 307 teraFlOPS Typ pamięci HBM3E HBM3E HBM3E Pojemność pamięci 216 GB 144 GB 192 GB Transfer danych 7 TB/s 4,9 TB/s 7,4 TB/s Przepustowość sieciowa 1,4 TB/s 1,2 TB/s 0,6 TB/s TDP 880 W 700 W 1000 W

Intel i NVIDIA budują niestandardowe procesory Xeon z technologią NVLink dla infrastruktury AI

Te same protokoły komunikacyjne są używane zarówno w sieciach wewnątrz-rackowych, jak i między-rackowych, przy wykorzystaniu protokołu transportowego Maia AI, co umożliwia płynne skalowanie węzłów, szaf rackowych i klastrów akceleratorów przy minimalnej liczbie przeskoków sieciowych. Taka zunifikowana architektura upraszcza oprogramowanie, zwiększa elastyczność obciążeń oraz zachowuje spójną wydajność. Przyczynia się to do obniżenia kosztów utrzymania infrastruktury, co przekłada się na niższy wskaźnik TCO w skali całej serwerowni AI. Dodatkowo same układy Maia 200 oferują o 30% lepszy stosunek wydajności do kosztów w porównaniu z dotychczas stosowanymi systemami. Ponadto Microsoft podkreśla, że dzięki zaawansowanemu środowisku symulacyjnemu pierwsze węzły Maia 200 mogły zostać uruchomione już w ciągu kilku dni od dostarczenia pierwszych chipów, a czas od powstania pierwszego fizycznego układu do pełnego wdrożenia w centrum danych został skrócony do mniej niż połowy w porównaniu z innymi podobnymi projektami chipów i centrów AI.

NVIDIA Vera Rubin Superchip – omówienie platformy AI o pięciokrotnie wyższej wydajności niż Grace Blackwell

Chipy Maia 200 będą wykorzystywane przede wszystkim wewnątrz infrastruktury Microsoftu, do generowania danych syntetycznych oraz uczenia ze wzmocnieniem, w celu usprawnienia kolejnej generacji własnych modeli. Modele te będą wdrażane m.in. w Microsoft Foundry (platforma AI do budowania i uruchamiania modeli w Azure) oraz w Microsoft 365 Copilot i powiązanych usługach. Obecnie węzły z układami Maia 200 są wdrażane w regionie US Central, a kolejnym etapem będzie uruchomienie infrastruktury w regionie US West 3 w pobliżu Phoenix w Arizonie. W dalszej perspektywie planowane są wdrożenia w kolejnych regionach. Jednocześnie Microsoft zachęca środowiska naukowe, deweloperów i szeroko pojęte laboratoria AI do eksperymentowania z modelami i obciążeniami przy użyciu nowego Maia SDK, które obejmuje: kompilator Triton, wsparcie dla PyTorch, niskopoziomowe programowanie w NPL, symulator Maia oraz kalkulator kosztów, umożliwiające wczesną optymalizację efektywności obliczeniowej.

Źródło: Microsoft

Microsoft Maia 200 – premiera akceleratorów AI zbudowanych do inferencji z dużymi modelami, które powalczą z TPU od Google

Tags: