Apple Intelligence non è solo Siri.

Siri, prima annunciato, promesso e poi rimandato, resta un brutto scivolone di Apple che verrà ricordato ogni volta che si parlerà in futuro di Apple, iPhone e di IA.

Apple Intelligence sono anche i modelli di IA generativa che l’azienda di Cupertino ha allenato in questi anni pensando non solo di usarli come base per le sue funzionalità ma di renderli disponibili agli sviluppatori delle app destinate ai suoi prodotti quindi iPhone, iPad e Mac.

Questa novità, annunciata alla WWDC 2025 a giugno, ha suscitato un enorme interesse negli sviluppatori: tramite il Foundation Models framework avrebbero finalmente potuto inviare al modello un “prompt” senza costi, in totale sicurezza e soprattutto con latenza davvero ridotta. Questa possibilità, un modello LLM già installato in locale da interrogare rapidamente, permette di processare dati in un modo che un normale algoritmo non può fare, superando quindi la barriera che fino ad oggi ha impedito di aggiungere alle app alcune funzioni particolari. Certo, avrebbero potuto farlo usando le classiche API di Google, OpenAI e Claude, ma così facendo sarebbero stati costretti a inviare dati dell’utente all’esterno e attendere come risposta un risultato che potrebbe arrivare anche con quel ritardo fastidioso, alla fine c’è sempre una connessione di mezzo.

Decine di applicazioni sono già state aggiornate

Con il lancio di iOS 26 decine di applicazioni per iPhone e Mac sono state aggiornate per iniziare ad usare l’IA on device. Non bisogna aspettarsi rivoluzioni, si potrebbe dire che l’IA è arrivata nelle app in punta di piedi, e non ci troviamo nemmeno davanti a funzioni fondamentali. Come vedremo, però, ci troviamo davanti ad un cambiamento che a tendere può portare ad una nuova generazione di app intelligenti. In un momento in cui si fatica davvero a trovare qualcosa di nuovo nell’hardware di un telefono o di un computer le applicazioni, che poi sono l’elemento che definisce l’esperienza d’uso e anche il piacere di utilizzo, rivestono un ruolo fondamentale.


Prima di fare alcuni esempi, e di vedere come l’IA on-device è entrata all’interno delle app, è bene fare alcune precisazioni. Non si potrà mai fare affidamento solo ed esclusivamente all’IA sul dispositivo: i risultati che oggi vengono restituiti dai modelli elaborati nei datacenter sono di gran lunga superiori qualitativamente parlando, ma non bisogna confondere le due cose.

Un esempio è dato dalla “ricerca”: oggi ogni dispositivo e ogni sistema operativo hanno un algoritmo di ricerca che funziona più o meno bene, ma questo cerca solo ed esclusivamente sul dispositivo e nelle app. Per cercare oltre il perimetro esistono i motori di ricerca.

Allo stesso modo un modello generativo presente su un dispositivo deve essere bravo a fare una sintesi di testo, a lavorare con i dati estraendo informazioni, a unire ed elaborare elementi da più parti ma non deve necessariamente avere nozioni storiche, scrivere codice o analizzare trattati scientifici. L’elaborazione IA on-device non può e non potrà mai escludere la necessità di appoggiarsi al cloud, un po’ come oggi ci si appoggia ad un motore di ricerca.

Il modello LLM on-device di Apple è stato allenato per dare agli sviluppatori quello di cui hanno realmente bisogno per migliorare le loro app. Descritto nei vari whitepaper, è calibrato a circa 3 miliardi di parametri e questa dimensione è stata scelta per trovare l’equilibrio ideale tra capacità e requisiti di memoria e potenza, rendendolo specializzato per i task di utilizzo quotidiano. Per essere efficace in un contesto di sistema operativo, la performance deve essere percepita come istantanea. Le metriche prestazionali riportate dai white paper Apple sono impressionanti: il modello raggiunge una velocità di generazione di 30 tokens al secondo su iPhone 15 Pro, con una latenza (tempo al primo token) di soli 0.6 millisecondi. Questa rapidità non sarebbe raggiungibile senza scelte architetturali specifiche per l’Apple Silicon.


Le tecniche di ottimizzazione sono il cuore di questa architettura: Apple utilizza una quantizzazione a 2-bit (QAT – Quantization-Aware Training), quindi una compressione estremamente aggressiva che riduce i requisiti di memoria e massimizza il throughput del Neural Engine; aggiunge anche ottimizzazioni per gestire contesti di conversazione più lunghi.

Una quantizzazione così spinta (2-bit) può teoricamente ridurre la qualità del modello portando ad un aumento degli errori, tuttavia la ragione di questa scelta è dare priorità assoluta alla rapidità.


Apple non vuole competere con questo modello con Qwen, Llama, Gemma e altri modelli da 3 miliardi di parametri, ed infatti ha scelto di affinarlo sui compiti specifici dell’utente e i risultati confermano questa strategia: in benchmark basati su prompts reali, il modello on-device supera modelli open-source più grandi (come Mistral-7B o Llama-3-8B). La vera forza non è la qualità generica, ma la performance istantanea e la precisione nei task di sistema predefiniti, che sono le “piccole funzioni IA” che gli utenti sperimentano quotidianamente.


Quello che è stato fatto su iOS, e che anche Microsoft ha provato ora a fare su Windows con il suo modello Phi Silica, è rendere facile per gli sviluppatori non solo integrare questo modello nelle app ma anche personalizzarlo con un fine tuning specifico.

Secondo alcuni sviluppatori Swift che hanno lavorato questa estate per integrare la chiamata al modello nelle loro app, l’aspetto più rivoluzionario è il supporto runtime per gli adattatori LoRA (Low-Rank Adaptation). Questo consente agli sviluppatori di specializzare il modello di base di Apple per ambiti specifici con un set di dati ridotto, senza dover riaddestrare l’intero modello.

Il modello AI di Apple non è chiuso, e Apple ne ha democratizzato l’accesso permettendo la creazione di “piccole funzioni IA” verticali e specializzate. Una applicazione di viaggi potrebbe usare il modello base aggiungendo come dati di “extra training” tutte le informazioni provenienti dalle guide turistiche, questo senza dover addestrare nuovamente tutto. Per uno sviluppatore vuol dire trovarsi l’IA a portata di mano.



Le prime app che usano l’IA locale

Tanmay Sonawane è lo sviluppatore di Finma, un’app nata per gestire le proprie finanze personali e le spese. Finma ha un piano a pagamento che utilizza l’IA, e lo sviluppatore ha sempre usato le api di Google Gemini per i compiti pesanti, come il parsing PDF e le analisi.

Con l’arrivo di iOS 26, per i compiti semplici e ripetitivi (estrazione transazioni da SMS, suggerimento categorie, mappatura CSV, riassunti brevi) ha iniziato ad usare il modello on-device introdotto con il nuovo Foundation Models Framework. Questo ha semplificato notevolmente il lavoro: invece di spedire migliaia di transazioni al modello cloud, Finma usa il modello di Apple per filtrare i dati e preparare solo quelli che servono.

Fino ad oggi quando l’utente chiedeva all’app “Quanto ho speso in ristoranti questo mese?” l’app inviava tutti i dati a Gemini con tutte le spese, e Gemini cercava di capire quali erano di ristoranti.

Con l’arrivo dei modelli di Apple è il piccolo modello in locale che capisce la domanda, filtra le transazioni per la categoria “ristoranti” e per il periodo “mese corrente” e così viene passato al modello di Google solo il risultato aggregato: l’app non invia dati sensibili al cloud, i calcoli sono molto più precisi e non ha limiti di “context size” perché le operazioni avvengono localmente.

L’arrivo del modello on-device ha permesso anche un’altra funzione dell’app, che per una applicazione di tracciamento delle spese può essere fondamentale: usando le automazioni di Comandi vengono intercettati gli SMS in arrivo e il testo di questi ultimi viene passato al modello on-device che estrae importo, descrizione, ecc. e crea una transazione Finma.


Ogni spesa fatta con la carta di credito, quando arriva l’SMS della banca, viene aggiunta automaticamente e questo si può fare solo perché c’è un modello in locale che analizza il testo e estrae i dati.

Se una persona decide di aggiungere a mano una spesa, man mano che l’utente digita la descrizione il modello on-device suggerisce la categoria. Quando si importa infine un file CSV con un estratto conto di spese, il modello locale associa automaticamente le colonne ai campi interni (data, importo, descrizione, ecc.).


Piccole cose, che non possono essere gestite con un algoritmo e che quindi senza un modello locale non ci sarebbero state. 


Tanmay Sonawane racconta anche quelli che sono stati i limiti incontrati nello sviluppo: i modelli Apple on-device supportano solo 4096 token e per l’uso che ne fa Finma non è un problema enorme (perché fa i filtri localmente), ma è un limite rigido per compiti più grossi. Inoltre il modello on-device non è ancora precisissimo e si aspetta che Apple migliori questo aspetto nel tempo; per questo motivo Finma continuerà a usare i LLM esterni (Gemini) per la funzione chat vera e propria, e il modello on-device solo per i compiti più semplici. Se Apple dovesse migliorare, sarebbe disposto a passare alla soluzione sul dispositivo per tutte le funzionalità.


MoneyCoach è un’altra app di gestione delle spese quotidiane che ha integrato l’IA con iOS 26.

In questo caso lo sviluppatore ha usato i modelli IA sul dispositivo per trasformare l’app da un semplice registro a un consulente finanziario proattivo. Invece di mostrare solo dati grezzi, l’app fornisce ora consapevolezza (“hai speso più della media in alimentari questa settimana”) e questo, secondo l’autore, è fondamentale per una migliore gestione delle finanze.

Il fatto che non venga dato un messaggio generico ma un messaggio personalizzato sulle spese dell’utente è un cambiamento radicale. Inoltre l’IA velocizza drasticamente l’inserimento delle spese, perché mentre si scrive suggerisce le categorie di spesa. Come nel caso di Finma l’uso di modelli in cloud avrebbe aumentato la latenza, fatto salire i costi ma soprattutto le spese dell’utente venivano mandate all’esterno.


C’è poi Daylish, un’agenda interattiva giornaliera: qui l’impatto dell’IA è minimo ma significativo, perché il modello di Apple analizza il titolo dell’evento (es. “Riunione importante con team”) e suggerisce un’emoji pertinente (es. 🤝 o 🚨).

Questo secondo lo sviluppatore migliora la leggibilità durante la scansione della timeline, aumentando l’efficienza visiva dell’app. Come abbiamo detto prima non si tratta di rivoluzioni, ma un piccolo cambiamento come questo facilita le operazioni e migliora l’esperienza.


Anche gli sviluppatori di app simili a Daylish hanno trovato il modo di usare l’IA, ognuno a suo modo.

Tasks, come dice il nome stesso, serve a gestire una serie di To-Do-Lists e grazie al modello locale ora l’app può acquisire un blocco di testo parlato complesso (es. “Devo organizzare la festa, comprare le bevande, chiamare Marco e inviare gli inviti”) e scomporlo in singole attività senza richiedere una connessione internet.


Day One è invece un gestore di diario personale, dove il modello locale agisce come un editor e un facilitatore di auto-riflessione.

Permette all’utente di rivedere rapidamente i vecchi diari, risparmiando tempo e fornendo una panoramica del contenuto emotivo e ha una funzione di generazione di prompt che incoraggiano ad “andare più a fondo” basandosi su ciò che è stato appena scritto (es. “Hai menzionato di essere stressato per il lavoro, cosa pensi ne sia la causa principale?”).


In Lumy, app di tracciamento del sole, il modello LLM locale viene usato per fornire consigli utili e contestuali (es. “Il tramonto sarà particolarmente spettacolare stasera, preparati la macchina fotografica” o “Vento forte, potresti voler riprogrammare la tua corsa in bicicletta”) mentre in Croton, app di ricette, l’utente può copiare un testo di ricetta non formattato da internet l’AI lo analizza e lo suddivide in passaggi numerati e facili da seguire, standardizzando le istruzioni e riducendo gli errori durante la cottura.


Interessante anche Signeasy, che gestisce firme digitali di documenti. Qui l’AI aggiunge uno strato di sicurezza: prima di firmare, l’app utilizza il modello locale di Apple per analizzare il contratto, estrarre le clausole chiave e fornire un riassunto conciso. Questo aiuta l’utente a comprendere rapidamente i punti salienti di un documento legale (es. termini di pagamento, clausole di recesso) senza leggerlo integralmente.


Ci sono altre decine di app, sia per iPhone che per Mac (JuxtaCode, JuxtaText, Lire, etc) che sono state aggiornate, e a breve è lecito aspettarsi che questo numero crescerà: i modelli sono facilissimi da usare, non devono essere scaricati e sono condivisi tra tutte le app. Inoltre sono gratuiti, e questo per un piccolo sviluppatore è un incentivo notevole perché usando il cloud non può prevedere i costi.


Questa è l’unica strada percorribile per l’IA locale, e anche Microsoft sta facendo lo stesso: dentro i Copilot+ PC c’è un modello condiviso, Phi Silica, accessibile dagli sviluppatori che usa la NPU dei laptop.

Le funzionalità IA, vale sia per Apple sia per Microsoft, si abilitano solo ed esclusivamente nel caso in cui sia attivata Apple Intelligence o, in Windows, ci si trovi di fronte ad un PC Copilot+. Se non sono attivi le app perdono le funzioni “aggiuntive”.

Ad oggi, tuttavia, non ci risulta che ci siano app che sfruttano questa possibilità su Windows, anche se Microsoft ha apparecchiato la tavola per gli sviluppatori.

Sviluppatori che, nel caso di Apple, hanno invece risposto all’appello numerosi: in attesa di Siri, che non sappiamo quando arriverà, Apple Intelligence sta entrando a piccoli passi nelle app che usiamo tutti i giorni.