close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Apple hat auf seiner Machine-Learning-Website weitere Informationen zu seinem KI-Framework MLX und der Nutzung des integrierten KI-Beschleunigers (Neural Accelerator) im M5-Prozessor online gestellt. Das ist insbesondere interessant für Nutzer, die lokale KI-Systeme wie große Sprachmodelle (Large Language Models, LLMs) ausführen wollen, was zunehmend zu einem Trend wird. Zuletzt wurde demonstriert, wie sich das chinesische Großmodell Kimi K2 Thinking auf einem Mac-Studio-Cluster mit vier via Thunderbolt 5 vernetzten 512-GByte-RAM-Workstations ausführen ließ. Kleinere Konfigurationen wie ein MacBook Pro M3 Max mit 128 GByte RAM können aber auch problemlos mittelgroße Modelle wie gpt-oss-120b von OpenAI ausführen. Dabei geben MLX-Varianten der Modelle dem LLM zusätzlichen Boost.

Weiterlesen nach der Anzeige

TB5-Vernetzung und neuer Neural-Beschleuniger

„Mit MLX können Benutzer LLMs auf dem Mac effizient erkunden und ausführen. Es ermöglicht Forschern, mit neuen Inferenz- oder Feinabstimmungstechniken zu experimentieren oder KI-Techniken in einer privaten Umgebung auf ihrer eigenen Hardware zu testen. MLX funktioniert mit allen Apple-Silicon-Systemen“, so Apple.

Mit macOS 26.2 Beta, das derzeit getestet wird, kommt nun Unterstützung für eine latenzfreie Thunderbolt-5-Vernetzung sowie die besagten Neural Accelerators hinzu, die im 14-Zoll-MacBook Pro M5 integriert sind. Letztere sollen dabei helfen, bestimmte Machine-Learning-Workloads zu beschleunigen und auch die Ausführung der KI-Algorithmen (Inferenz) schneller zu machen.

Warten auf M5 Pro, M5 Max und M5 Ultra

Da es aktuell noch keine Maschinen mit M5 Pro, M5 Max oder gar M5 Ultra gibt und der M5 nur maximal 32 GByte RAM anspricht, dürften M4 Max oder M3 Ultra derzeit die bessere Wahl sein. Modelle, die in das RAM passen, sollen laut Apple jedoch eine deutlich schnellere „Time to First Token“, also die benötigte Zeit zur Ausgabe des ersten Tokens, aufweisen. Sie liegen zwischen dem 3,3-Fachen (gpt-oss-20b-MXFP4-Q4) und dem 4-Fachen (Qwen3-8B-MLX-4bit).

Apple gibt in seinem Dokument auch Tipps dazu, wie man mit MLX arbeitet. Wer sich für weitere Details interessiert, findet auf Github das MLX-LM-Projekt für den Aufruf diverser Modelle und Finetuning. Tipps und Tricks erhalten Interessierte in einer eigenen MLX Community auf Hugging Face. In Tools wie LM Studio findet man auch schnell MLX-Varianten bekannter Modelle.

Weiterlesen nach der Anzeige

(bsc)

Dieser Link ist leider nicht mehr gültig.

Links zu verschenkten Artikeln werden ungültig,
wenn diese älter als 7 Tage sind oder zu oft aufgerufen wurden.

Sie benötigen ein heise+ Paket, um diesen Artikel zu lesen. Jetzt eine Woche unverbindlich testen – ohne Verpflichtung!