Con Maia 200, Microsoft compie un passo ulteriore nella costruzione di un’infrastruttura AI pensata non solo per addestrare modelli sempre più grandi, ma soprattutto per renderli utilizzabili su scala, in modo sostenibile ed economicamente efficiente. 
Il nuovo acceleratore, annunciato proprio in questi giorni, nasce con un obiettivo preciso: ottimizzare l’inferenza, vale a dire la fase nella quale l’intelligenza artificiale entra concretamente in contatto con applicazioni, servizi e utenti finali.

Negli ultimi anni, l’attenzione del settore si è concentrata quasi esclusivamente sulla potenza necessaria per il training dei modelli. Tuttavia, come sottolinea Scott Guthrie nel blog post nel quale presenta Maia 200, “è nell’inferenza che l’AI entra davvero in gioco”. 
Inference is where AI really comes into play – spiega Guthrie -. While model training gets a lot of attention, most real-world AI usage happens after training, when models respond to prompts, generate content, and support real-time decision making.” 

È dunque nell’inferenza che si concentrano la maggior parte dei carichi reali: assistenti conversazionali, sistemi di reasoning, generazione di contenuti e supporto decisionale operano in tempo reale e su volumi di richieste enormi. In questo contesto, costi, latenza e consumi energetici diventano fattori determinanti quanto – se non più – delle prestazioni di picco.

Maia 200 nasce proprio per rispondere a questa esigenza. “Sebbene l’addestramento dei modelli riceva molta attenzione”, spiega Guthrie, “la maggior parte dell’uso reale dell’AI avviene dopo, quando i modelli devono rispondere a prompt, generare risultati e supportare decisioni in tempo reale”. È su questo terreno che Microsoft ha deciso di investire in modo diretto, progettando per la prima volta un acceleratore di silicio esplicitamente dedicato all’inferenza.

LEGGI ANCHE: Microsoft Copilot cos’è, come funziona a cosa serve. Guida alla rivoluzione della Generative AI

Un acceleratore progettato per i modelli di nuova generazione

Dal punto di vista tecnologico, Maia 200 si inserisce nella strategia di infrastruttura eterogenea di Microsoft, che combina CPU, GPU e silicio proprietario per adattarsi ai diversi workload. Realizzato con processo produttivo a 3 nanometri di TSMC e con oltre 140 miliardi di transistor, il chip è stato progettato attorno ai requisiti dei modelli generativi più avanzati, che fanno sempre più affidamento su formati numerici a bassa precisione.

Ogni chip Maia 200 offre oltre 10 petaFLOPS in FP4 e più di 5 petaFLOPS in FP8, rimanendo entro un envelope di 750 watt. Numeri che, secondo Microsoft, consentono di eseguire i modelli più grandi attualmente in produzione “con ampio margine anche per quelli futuri”. La scelta di puntare su FP4 e FP8 non è solo una questione di prestazioni, ma di efficienza complessiva del sistema: meno energia, meno memoria e meno chip per ottenere lo stesso risultato.

“Maia 200 è il sistema di inferenza più efficiente che abbiamo mai implementato”, sottolinea Guthrie, evidenziando come l’acceleratore offra “prestazioni per dollaro superiori del 30% rispetto all’hardware di ultima generazione già presente nella nostra infrastruttura”. Un dato che chiarisce il posizionamento di Maia 200: non come alternativa alle GPU general purpose, ma come componente specializzata per rendere sostenibile l’AI su larga scala.

Memoria, rete e sistema: dove si gioca l’efficienza dell’inferenza di Maia 200

La potenza di calcolo, però, non è sufficiente se i dati non riescono a seguire il ritmo dei modelli. Uno dei colli di bottiglia storici dell’inferenza su larga scala è proprio il movimento dei dati. Maia 200 affronta questo problema con un sottosistema di memoria profondamente riprogettato, che combina 216 GB di HBM3e con una banda di 7 TB/s e 272 MB di SRAM on-chip.

Secondo Guthrie, “FLOPS alone aren’t enough for fast AI. […] Crucially, FLOPS aren’t the only ingredient for faster AI. Feeding data is equally important. Maia 200 attacks this bottleneck with a redesigned memory subsystem.”

Se dunque “i FLOPS da soli non bastano: alimentare i modelli con i dati giusti, al momento giusto, è altrettanto critico”, Maia 200 integra motori DMA specializzati, un fabric NoC dedicato e un’architettura di memoria pensata per massimizzare il throughput dei token e ridurre le latenze.

A livello di sistema, Microsoft introduce con Maia 200 un’architettura di scale-up basata su Ethernet standard, evitando il ricorso a fabric proprietari. Ogni acceleratore espone 2,8 TB/s di banda bidirezionale dedicata e supporta operazioni collettive prevedibili su cluster che possono arrivare fino a oltre 6.000 acceleratori. All’interno dei tray, quattro chip sono connessi direttamente senza switch, mantenendo la comunicazione ad alta velocità il più possibile locale.

Questa scelta architetturale, spiega Microsoft, consente di ridurre il costo totale di esercizio e il consumo energetico, migliorando al tempo stesso la flessibilità operativa dei cluster di inferenza su scala cloud.

Un tassello chiave della strategia cloud e AI di Microsoft

Maia 200 non è un progetto isolato, ma parte di una visione di lungo periodo sull’infrastruttura AI. 
The era of large-scale AI is just beginning, and infrastructure will define what’s possible.” 
“L’era dell’AI su larga scala è solo all’inizio”, scrive Guthrie, “e sarà l’infrastruttura a definire ciò che è possibile”. In questa prospettiva, il programma Maia è pensato come multi-generazionale, con nuove versioni destinate a migliorare progressivamente prestazioni ed efficienza.

L’acceleratore verrà utilizzato per servire diversi modelli, inclusi i più recenti GPT-5.2 di OpenAI, e per supportare servizi come Microsoft Foundry e Microsoft 365 Copilot. Il team Microsoft Superintelligence lo utilizzerà inoltre per la generazione di dati sintetici e per attività di reinforcement learning, accelerando la creazione di segnali più freschi e mirati per il training dei modelli futuri.

I primi sistemi sono in fase di deployment nella regione Azure US Central, con un’estensione prevista verso US West 3 e altre regioni. Parallelamente, Microsoft sta aprendo l’accesso al Maia SDK in modalità preview, offrendo agli sviluppatori strumenti per ottimizzare modelli e workload, dal supporto PyTorch al compilatore Triton fino all’accesso a funzionalità di programmazione a basso livello.

Nel suo insieme, Maia 200 racconta un cambio di prospettiva: l’intelligenza artificiale non come dimostrazione di forza computazionale, ma come infrastruttura industriale. Un passaggio dalla sperimentazione alla produzione, in cui l’efficienza – più ancora della potenza di picco – diventa il vero fattore abilitante dell’AI nella vita quotidiana e nei servizi digitali di nuova generazione.

Maia 200: Microsoft punta sull’inferenza per la prossima fase dell’AI ultima modifica: 2026-01-29T09:36:15+01:00 da Miti Della Mura

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui