{"id":226423,"date":"2025-11-22T00:42:15","date_gmt":"2025-11-22T00:42:15","guid":{"rendered":"https:\/\/www.europesays.com\/it\/226423\/"},"modified":"2025-11-22T00:42:15","modified_gmt":"2025-11-22T00:42:15","slug":"con-macos-26-2-apple-ha-due-nuovi-motivi-per-convincere-gli-sviluppatori-ai-a-comprare-un-mac","status":"publish","type":"post","link":"https:\/\/www.europesays.com\/it\/226423\/","title":{"rendered":"Con macOS 26.2 Apple ha due nuovi motivi per convincere gli sviluppatori AI a comprare un Mac"},"content":{"rendered":"<p>Non esiste il miglior computer, esiste il miglior computer per un utilizzo specifico. Se prendiamo ad esempio l\u2019ambito prosumer NVIDIA ha sempre avuto il dominio assoluto in tutto quello che \u00e8 grafica 3D, mentre Apple con la sua gamma Pro viene spesso scelta per editing video, fotografia e musica. <\/p>\n<p>Negli ultimi anni, grazie alla presenza della memoria unificata, Apple ha catturato anche l\u2019attenzione di computer scientist e sviluppatori che si sono trovati a dover lavorare con modelli AI di grandi dimensioni. <\/p>\n<p>Nonostante venga spesso criticata per quella che appare una mancanza chiara di strategia in ambito IA rispetto a Google, o a Microsoft, Apple ha saputo costruire non solo processori veloci ma anche un ambiente operativo, inteso come software e framework, nel quale <b>\u00e8 possibile lavorare con modelli enormi senza spendere cifre inavvicinabili<\/b>.\u00a0<\/p>\n<p>&#13;<\/p>\n<p>Nonostante per banda e velocit\u00e0 la migliore GPU NVIDIA consumer sia drasticamente pi\u00f9 veloce di ogni Mac, la memoria a bordo \u00e8 troppo limitata rispetto ai modelli che oggi si usano realmente. Una 5070 ha 12 GB, una 5080 si ferma a 24 GB e la costosissima 5090 ha &#8220;soli&#8221; 32 GB. Per lavorare con modelli da 30, 70 o 100 miliardi di parametri non bastano, servirebbero GPU professionali con 48, 80 o addirittura 140 GB di VRAM che costano per\u00f2 da 7.000 a 40.000 euro solo di scheda.<\/p>\n<p>&#13;<\/p>\n<p>Usando pi\u00f9 GPU assieme, inoltre, la memoria non si somma, quindi diventa necessario fare parallelismo complesso, configurare cluster, usare NVLink o Infiniband: usciamo dall\u2019ambito prosumer.<\/p>\n<p>&#13;<\/p>\n<p>Apple oggi offre qualcosa che nessun altro computer ha: <b>enormi quantit\u00e0 di memoria unificata, 192, 384 o addirittura 512 GB<\/b>, tutta accessibile in modo diretto da CPU, GPU e acceleratori neurali. Modelli enormi, che su una GPU NVIDIA singola non entrerebbero mai, su Mac Studio si caricano e girano senza bisogno di cluster complessi o schede professionali dal costo proibitivo.<\/p>\n<p>&#13;<\/p>\n<p>L\u2019interesse che c\u2019\u00e8 stato nell&#8217;ultimo anno attorno al Mac e allo sviluppo AI ha fatto capire ad Apple che questa poteva diventare in futuro un elemento per spingere pi\u00f9 professionisti a comprare un Mac, e con macOS 26.2, mette sul piatto due novit\u00e0 non indifferenti proprio in questo ambito.<\/p>\n<p>Thunderbolt 5 si avvicina come latenza a NVLink&#13;<\/p>\n<p>La prima \u00e8 la disponibilit\u00e0 della modalit\u00e0 \u201clow latency\u201d per i Mac con Thunderbolt 5: unendo pi\u00f9 Mac, e lo abbiamo visto in demo con quattro Mac Studio, si pu\u00f2 creare in casa o in ufficio un \u201csuper-nodo\u201d AI. <\/p>\n<p>Apple ha abilitato su un normale cavo Thunderbolt 5 un tipo di comunicazione che fino a ieri era possibile solo usando soluzioni come RDMA su Ethernet, NVLink di NVIDIA o altre soluzioni proprietarie per data center.<\/p>\n<p>&#13;<\/p>\n<p>Nel caso dei Mac Studio una singola workstation ha sei porte Thunderbolt 5 da 80 Gb\/s per porta, ognuna con controller dedicato e quindi senza banda condivisa: <b>la velocit\u00e0 raggiungibile \u00e8 di 480 Gb\/s per nodo.<\/b><\/p>\n<p>&#13;<\/p>\n<p>Apple non \u00e8 scesa nel dettaglio di quanto sia bassa questa latenza, ma possiamo fare una stima. La latenza Thunderbolt \u201cnormale\u201d, quindi Thunderbolt 3 o Thunderbolt 4, \u00e8 di 5 \/10 \u00b5s. TB5 usa lo stesso protocollo PCIe tunneling quindi dovrebbe essere identica. <\/p>\n<p>La demo a cui abbiamo assistito, che usa come soluzione per fare il cluster Exo, un applicativo open-source, mostra uno scaling di 3x su 4 nodi con i dense model e di 2x co MoE (Mixture of Experts): l\u2019unico modo per avere questo risultato \u00e8 una latenza inter-nodo molto bassa, altrimenti il modello rimane strozzato da un collo di bottiglia.<\/p>\n<p><img decoding=\"async\" src=\"https:\/\/www.europesays.com\/it\/wp-content\/uploads\/2025\/11\/02ae06_0_Ou0hwwCoZ3R04WOV.png\" data-image=\"picture-0\"  \/>&#13;<\/p>\n<p>Crediamo che, saltando completamente lo stack di rete, Apple <b>possa aver abbassato la latenza a 2-5 microsecondi effettivi,<\/b> quindi vicina a quella del bus PCIe Gen4 (0,5 \/ 1,0 \u00b5s) e di NVLink 4\t(1,2\/2 \u00b5s). Questo, come abbiamo scritto, usando cavi standard da 40 euro e diversi Mac Studio.<\/p>\n<p>&#13;<\/p>\n<p>Durante la demo che ci ha fatto l\u2019azienda abbiamo assistito ad una dimostrazione con un modello da 1 trilione di parametri Kimi-K2-Thinking, gestito da una build early access di EXO 1.0: con quattro Mac Studio M3 Ultra collegati in cluster <b>il modello \u00e8 stato caricato e distribuito con un consumo totale del cluster inferiore a 500 <\/b>W. Per confronto, un cluster GPU equivalente consumerebbe dalle 5 alle 10 volte di pi\u00f9.<\/p>\n<p>&#13;<\/p>\n<p>Per aziende, team creativi e sviluppatori indipendenti, \u00e8 un cambiamento strutturale: possono avere la potenza di un piccolo data center sulla scrivania con esecuzione locale di modelli enormi, privacy totale dei dati e costi operativi bassissimi. Non \u00e8 ovviamente un sostituto delle GPU server per training su larga scala, \u00e8 pi\u00f9 per inferenza avanzata e prototipazione.<\/p>\n<p>&#13;<br \/>\nMLX ora beneficia degli acceleratori neurali presenti nella GPU del M5&#13;<\/p>\n<p>Con l\u2019uscita di macOS 26.2 beta 2 e, tra qualche settimana, con la versione definitiva, Apple ha aggiornato il suo progetto open-source MLX per <b>sfruttare gli acceleratori neurali integrati nella GPU del processore M5<\/b>, al debutto lo scorso mese su MacBook Pro.<\/p>\n<p>&#13;<\/p>\n<p>Questi acceleratori, lo abbiamo visto nella nostra prova, gestiscono operazioni dedicate di moltiplicazione di matrici e permettono esperienze di inferenza pi\u00f9 rapide sui modelli grazie.<\/p>\n<p>&#13;<\/p>\n<p>MLX, per chi non lo sapesse, \u00e8 il framework di machine learning sviluppato da Apple per eseguire modelli di intelligenza artificiale in modo estremamente efficiente sui Mac con chip Apple Silicon e permettere agli utenti di far girare modelli avanzati, come modelli linguistici, modelli di immagini o modelli audio direttamente in locale, senza bisogno del cloud e con prestazioni molto elevate.<\/p>\n<p>&#13;<\/p>\n<p>I modelli MLX non sono modelli speciali: sono gli stessi modelli di intelligenza artificiale disponibili gratuitamente (come LLaMA, Mistral, Gemma, Stable Diffusion e altri) che vengono convertiti nel formato MLX. Sono in pratica una versione ottimizzata per Apple Silicon di un modello gi\u00e0 esistente.<\/p>\n<p>&#13;<\/p>\n<p>Fino ad oggi MLX veniva accelerato da CPU, GPU o Neural Engine, ma non sfruttava gli acceleratori neurali di M5, a partire da macOS 26.2 c&#8217;\u00e8 supporto pieno. La versione MLX 0.30.0, gi\u00e0 scaricabile per chi ha la beta, include gi\u00e0 la gestione degli acceleratori nella GPU e pu\u00f2 essere provata tramite LM Studio.<\/p>\n<p>&#13;<\/p>\n<p>Il cambiamento \u00e8 visibile nei grafici di confronto rilasciati da Apple: M5 \u00e8 almeno tre volte pi\u00f9 veloce nel generare il primo token.<\/p>\n<p><img decoding=\"async\" src=\"https:\/\/www.europesays.com\/it\/wp-content\/uploads\/2025\/11\/e11aa6_Screenshot_2025-11-21_alle_14.54.12.jpg\" data-image=\"picture-0\"  \/>&#13;<\/p>\n<p>Gli acceleratori neurali velocizzano la fase di \u201cprefill\u201d dei modelli LLM (elaborazione del prompt), riducendo il time to first token soprattutto con prompt di grandi dimensioni o finestre contestuali molto ampie. La maggior larghezza di banda della memoria di M5 (rispetto a M4) accelera invece la generazione dei token (\u201cextend phase\u201d). <\/p>\n<p>Il chip M5, con MLX aggiornato, migliora quindi entrambi gli aspetti dell\u2019esecuzione di un LLM ottimizzato: primo token e inference.<\/p>\n<p> Modelli da 8B, 14B o MoE molto grandi possono ora girare in locale con prestazioni effettivamente notevoli su laptop e desktop.<\/p>\n","protected":false},"excerpt":{"rendered":"Non esiste il miglior computer, esiste il miglior computer per un utilizzo specifico. Se prendiamo ad esempio l\u2019ambito&hellip;\n","protected":false},"author":3,"featured_media":226424,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[173],"tags":[1537,90,89,195,198,199,197,200,201,194,196],"class_list":{"0":"post-226423","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-scienza-e-tecnologia","8":"tag-it","9":"tag-italia","10":"tag-italy","11":"tag-science","12":"tag-science-and-technology","13":"tag-scienceandtechnology","14":"tag-scienza","15":"tag-scienza-e-tecnologia","16":"tag-scienzaetecnologia","17":"tag-technology","18":"tag-tecnologia"},"share_on_mastodon":{"url":"https:\/\/pubeurope.com\/@it\/115590578316060069","error":""},"_links":{"self":[{"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/posts\/226423","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/comments?post=226423"}],"version-history":[{"count":0,"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/posts\/226423\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/media\/226424"}],"wp:attachment":[{"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/media?parent=226423"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/categories?post=226423"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/tags?post=226423"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}