Nella giornata di ieri una parte significativa del web di tutto il mondo si è fermata improvvisamente. Dal primo pomeriggio, piattaforme anche molto diverse tra loro – X, ChatGPT, Canva, Spotify, per non parlare dei siti di ecommerce – hanno smesso di funzionare o hanno iniziato a rispondere con errori intermittenti. Il problema non era locale né circoscritto a un provider di rete: la causa risiedeva in Cloudflare, uno dei principali fornitori di infrastruttura internet al mondo, utilizzato da circa un quinto di tutti i siti web.

Il blackout è iniziato intorno alle 13 di ieri, quando la pagina di stato di Cloudflare ha registrato i primi errori. Da lì, nel giro di pochi minuti, i malfunzionamenti sono diventati globali. Gli utenti hanno iniziato a segnalare problemi a migliaia, facendo schizzare alle stelle i numeri su Downdetector: oltre 2,1 milioni di report nelle prime ore. I picchi sono arrivati soprattutto da Stati Uniti, Regno Unito, Giappone e Germania, ma gli effetti si sono visti ovunque, Italia inclusa. Per molti servizi, come ChatGPT, l’interfaccia mostrava solo un messaggio generico: “Unlock challenges.cloudflare.com to continue”, un errore collegato al sistema di validazione del traffico di Cloudflare.

Cloudflare: non un attacco, ma un errore di configurazione finito fuori controllo

Inizialmente non era chiaro se l’incidente fosse dovuto a un attacco informatico. L’ipotesi è stata smentita rapidamente dalla stessa Cloudflare. Ore dopo, il cofondatore e CEO Matthew Prince ha pubblicato un lungo post tecnico per spiegare l’origine del problema, definito “il peggiore dal 2019”.

Secondo Prince, tutto è partito da una modifica alle autorizzazioni di un database utilizzato per il servizio di Bot Management, il sistema che filtra il traffico automatizzato per proteggere i siti da bot malevoli o richieste anomale. La modifica ha causato la generazione di voci duplicate all’interno di un file di configurazione. Il file, che normalmente contiene poche decine di kilobyte, è improvvisamente raddoppiato.

Poiché quel file viene distribuito automaticamente a tutti i server della rete Cloudflare ogni pochi minuti, la configurazione corrotta ha iniziato a propagarsi rapidamente. A quel punto è emerso un secondo problema: il software di instradamento non era progettato per gestire un file così grande e ha iniziato a crashare. Proxy dopo proxy, la rete ha iniziato a rispondere con errori 5xx, causando l’interruzione dei servizi che passavano da quelle istanze.

In una prima fase, i server si alternavano tra configurazioni corrette e corrotte, rendendo il malfunzionamento intermittente e complesso da diagnosticare. Quando tutte le istanze hanno ricevuto esclusivamente file difettosi, il down è diventato sistematico.

La stabilizzazione è arrivata solo dopo che Cloudflare ha bloccato la propagazione del file corrotto, ripristinato una versione precedente e riavviato l’infrastruttura in modo coordinato. Tra le 15:30 e il tardo pomeriggio, la maggior parte dei servizi è tornata online, anche se alcuni clienti hanno continuato a registrare disservizi sporadici.

LEGGI ANCHE: OpenAI tra la multa del Garante italiano e il grave down di ChatGPT

Un punto critico: la concentrazione dell’infrastruttura internet

Il blackout ha riportato alla luce un tema che ricorre ormai a ogni incidente: la crescente centralizzazione dell’infrastruttura digitale. Due settimane fa era stato Amazon Web Services a bloccarsi, con effetti a cascata su migliaia di servizi globali. Stavolta è bastato un file interno corrotto per mandare offline parti rilevanti della rete.

La questione non è puramente tecnica: riguarda l’equilibrio dell’intero ecosistema digitale. Sempre più servizi – siti, app, piattaforme AI, sistemi di autenticazione, servizi di streaming – dipendono da pochi fornitori centrali che operano dietro le quinte, spesso invisibili agli utenti finali.

In questo senso, l’episodio di Cloudflare è stato un promemoria della fragilità profonda dell’infrastruttura. Come ha osservato Sarah Kreps, direttrice del Tech Policy Institute alla Cornell University e riportata da CNET, “l’investimento miliardario nell’AI è tanto solido quanto l’anello più debole dell’infrastruttura su cui poggia”. Il fatto che ChatGPT o Spotify si siano fermati pur non avendo alcun problema diretto nei propri sistemi dimostra quanto le dipendenze esterne siano determinanti.

Le scuse, la reazione del mercato e le misure annunciate

A livello finanziario, la giornata si è chiusa con una flessione del titolo Cloudflare del 2,3%. Ma a pesare maggiormente sono state le scuse pubbliche dell’azienda. Il CTO Dane Knecht ha dichiarato: “Abbiamo deluso i nostri clienti e l’intero internet. I siti e le organizzazioni che si affidano a noi contano sulla nostra disponibilità continua. Ci scusiamo per l’impatto causato”.

Contestualmente, Cloudflare ha annunciato una serie di interventi strutturali pensati per evitare che un singolo errore di configurazione possa generare effetti così estesi. L’azienda rafforzerà i sistemi di validazione dei file interni e introdurrà kill-switch più granulari, in grado di bloccare rapidamente la propagazione di configurazioni difettose. Verranno inoltre adottate misure per impedire che core dump ed errori possano saturare risorse critiche, insieme a una revisione complessiva dei meccanismi di failover dei proxy di rete.

L’azienda ha confermato che pubblicherà un’analisi completa dell’incidente, con tutte le lezioni apprese.

LEGGI ANCHE: Amazon Web Services down e la lezione per l’Europa: resilienza e sovranità nel tempo del cloud globale

Cloudflare, un errore interno manda offline una fetta di internet globale. Perché è successo e cosa rivela sulla fragilità della rete ultima modifica: 2025-11-19T10:58:00+01:00 da Miti Della Mura

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui