"L'AI non è sostenibile". Ma chi lo dice è mai andato a scavare nei dati?

Tempo di lettura: 7 minuti; Soundtrack: Explorers by Muse.

La settimana scorsa mi sono fatto una vera scorpacciata di Intelligenza Artificiale: fra l’ #AIweek, #AIRoadshow e il main event del 4eCom ho portato a casa ben più di un tema su cui rimuginare.

Il primo è la sostenibilità. Nelle tante conversazioni cui ho partecipato sembrava regnare un consenso granitico: l’AI non è green e non lo sarà mai. Davvero?

Questa certezza altrui, così salda e inamovibile, mi ha provocato un prurito da #postNerd tanto acuto che son dovuto andare a cercar sollievo nei numeri. A dire il vero, i dati non abbondano; sono difficili da reperire, talvolta contraddittori e spesso fondati su assunzioni tutte da verificare. Eppure bastano — anche solo per una riflessione “spannometrica” — e raccontano una storia sorprendentemente controintuitiva.

È noto ai più che l’addestramento dei Large Language Model richieda molta energia; è molto meno noto quanta ne serva nella fase di inferenza, cioè quando interagiamo con il modello. Inoltre, pochi sanno che il consumo così stimato va convertito in carbon footprint e che questo valore dipende al mix energetico utilizzato. Però ha senso, no? Se alleno e uso il modello attingendo a energia solare, oppure bruciando dell’“ecologicissima” antracite, la quantità di elettricità necessaria non cambia, ma le emissioni di carbonio sì.

Cominciamo a farci un’idea.

Fase 1. Quanto costa allenare il modello?

Prendiamo il modello in default su OpenAI in questo momento: ChatGPT-4o. Non disponiamo di dati ufficiali, ma c’è chi si è preso la briga di stimare quanta energia e CO₂ sono state necessarie per allenare “4o” combinando le informazioni “trapelate” da OpenAI, le schede tecniche dei server utilizzati e facendo alcune ipotesi di lavoro.

La metodologia completa la trovate qui: https://medium.com/data-science/the-carbon-footprint-of-gpt-4-d6c676eb21ae. In sintesi, la stima pessimistica parla di 62.318.750 kWh e di 14.994 tonnellate metriche di CO₂, misurate nell’ipotesi che l’elettricità sia stata prodotta con l’energy mix usato oggi nei datacenter ospitati negli Stati Uniti occidentali. Per converso, se la stessa quantità di energia fosse stata prodotta nei datacenter ospitati nella regione orientale del Canada, il footprint avrebbe potuto essere 10 volte inferiore.

Prendiamo comunque la cifra peggiore per amor di calcolo e procediamo!

A che cosa corrispondono sessantaduemilioni di Kilowatt-ora? Proviamo a convertirli in un’unità di misura più comprensibile: quante famiglie italiane consumano quell’energia in un anno?

Innanzitutto, il consumo elettrico pro capite in Italia è di 4928 kWh/anno. L’ISTAT poi ci informa che la composizione media di un nucleo familiare italiano è di circa 2,29 persone. Questo vuol dire che un nucleo familiare italiano consuma circa 11285 kWh ogni anno e questo vuol dire che sessantaduemilioni di Kilowatt-ora corrispondono circa al consumo di 5500 famiglie italiane per un anno: più o meno il numero di famiglie che ci sono tra Caulonia e Roccella Jonica, i paesini calabresi sullo mar Jonio dove ho avuto la fortuna di crescere.

Visualizzati come l’assorbimento di in un anno di due borghi sulla costa meridionale calabrese, sessantaduemilioni di Kilowatt-ora non sembrano poi così tanti.

Tuttavia, l’assorbimento elettrico non è equivalente al carbon footprint, e dipende da come produciamo l’energia. Considerando sempre il caso peggiore, ovvero un emissione di 14994 tonnellate metriche di CO2, se volessimo compensare quell’emissione completamente, sapendo che 6 alberi assorbono circa una tonnellata di CO₂ in un anno, servirebbero circa 90000 alberi al lavoro per un anno intero per sequestrare la quantità corrispondente di carbonio.

Siccome la densità di un bosco naturale è di circa 150 alberi per ettaro, i novantamila alberi di cui sopra coprirebbero una superficie di circa 600 ettari, ovvero 6Km quadrati: una foresta matura di dimensioni poco più piccole della cerchia dei bastioni di Milano, in un anno, assorbe il carbon footprint (pessimistico) dell’erogazione dei sessantaduemilioni di Kilowatt-ora che sono stati necessari per allenare il modello.

E’ tanto, ma non è stratosfericamente tanto e in ogni caso, si tratta di un consumo “one shot”. Una volta addestrato, il modello è pronto per l’inferenza e quindi adesso è il momento di esplorare questa seconda fase.

Fase 2. Quanto costa usare il modello?

Una volta che il modello è stato allenato e pubblicato, questo viene pubblicato ed inizia a rispondere alle nostre domande, scrive i nostri testi, genera le nostre immagini, etc. Per fare questo il modello viene caricato all’interno di datacenter che sono costruiti apposta per questo scopo.

Questi datacenter richiedono energia per operare, così come ci vuole energia per trasportare i dati da e verso i nostri computer. Stime recenti, indicano che ogni giorno vengano eseguite 14 miliardi di ricerche su Google; si stima inoltre che le stesse query, se fossero eseguite su ChatGPT-4o potrebbero consumare da circa 0,3 Watt-ora a circa 3 Watt-ora.

Ancora una volta, prendiamo il dato peggiorativo (3 Watt-ora) e facciamo due conti. Prendiamo ad esempio l’articolo che state leggendo: ovviamente mi sono fatto aiutare dall’AI in diversi momenti della stesura. Tra i vari prompt di brainstorming, le revisioni ortografiche, la generazione delle immagini, avrò utilizzato 20 prompt. Nell’ipotesi pessimistica di 3 Watt-ora di consumo, avrò utilizzato circa 60 Watt-ora.

Questo quantitativo di energia è sufficiente per tenere accesa una lampadina LED da 10W per circa un sei ore; in casa ne avrete due o tre per camera: non è un quantitativo scandaloso. Ma la cosa più sorprendente è che queste query non hanno consumato più elettricità di quanta ne userebbe il mio corpo per effettuare le stesse operazioni.

Il consumo umano basale, infatti, consuma circa 100 Watt-ora a riposo, e io ho impiegato circa 5 ore per scrivere questo post. Questo vuol dire che in quel lasso di tempo il mio organismo ha consumato 500 Watt-ora e le query che ho fatto per aiutarmi solo 60 Watt-ora. Senza l’aiuto della macchina avrei probabilmente fatto tutto a mano e avrei avuto bisogno di altre 4-5 ore per fare studiare l’outline dell’articolo, fare brainstorming, rileggere l’articolo a caccia di errori grammaticale, scegliere e scaricare le immagini da un servizio online, etc…

In pratica, se non avessi usato l’AI, avrei consumato almeno 1000 Watt-ora per completare l’articolo, e non 560. E in più, le ricerche su Google le avrei dovute fare comunque: ulteriore consumo energetico! L’unica differenza è che invece di assorbire l’energia tramite una rete elettrica, l’avrei assorbita sotto forma di cibo, che pur sposta del carbonio tra produzione, distribuzione, consumo e smaltimento.

In altre parole, sembrerebbe che l’AI abbia reso il mio lavoro meno impattante da un punto di vista ecologico, e non il contrario. Ma andiamo avanti, e ipotizziamo che tutte le 14 miliardi di ricerche al giorno che oggi avvengono su Google stiano avvenendo su ChatGPT-4o. Sappiamo già che con quel modello, il costo (pessimistico) di ciascuna inferenza è di 3Wh, quindi con una semplice moltiplicazione scopriamo che:

Se tutte le 14 miliardi di query fatte su Google ad oggi fossero fatte su ChatGPT-4o, l’assorbimento sarebbe di 4200 Megawattora al giorno, oppure 15.330.000 Megawattora all’anno, o anche 3,7 milioni di tonnellate metriche di CO2 in un anno.

Innanzitutto osserviamo la differenza in consumo tra “training” del modello e la fase di “inferenza” successiva.

Per allenare il modello, abbiamo impiegato 62 Milioni di Kilowattora (equivalenti a 62 mila Megawattora, per facilitare i calcoli successivi)
Operando il modello di inferenza per un anno, abbiamo impiegato 15,33 Milioni di Megawattora

E ora osserviamo la differenza tra consumo in training contro consumo in esecuzione: 62 MILA Megawattora, contro 15,33 MILIONI di Megawattora.

Il vero mostro, qui, è l’inferenza e non il training del modello. E per quanto queste cifre sembrino così assurdamente gigantesche da essere veramente insostenibili, lo sono veramente?

Ripetiamo l’esercizio fatto prima, e calcoliamo quanti alberi maturi ci vorrebbero, in un anno, per fare offset di quella quantità di query. Se la quantità di alberi necessaria ad assorbire 62 mila Megawattora era 90.000 fusti, la quantità necessaria ad assorbire 15,33 Milioni di Megawattora sarà 15.330.000 / 62000 ≈ 247 * 90.000, ovvero 22.23 Milioni di Alberi. Alla stessa densità di 150 alberi per ettaro, parliamo di 1482 KM Quadrati.

Sembrano tantissimi ma è poco più della superficie del comune di Roma per sequestrare l’assorbimento delle query GPT (stimate, per carità!) di tutto il mondo per un anno, e con le ipotesi di calcolo peggiori possibili, sia in termini di computazione che di energy mix.

OK queste informazioni dovrebbero rimettere in prospettiva “umana” l’entità del problema di cui stiamo parlando.

So what? Cosa ne ricaviamo da questi dati?

Innanzitutto, adesso abbiamo un idea di quanto i modelli consumino durante il training e l’utilizzo e come questi numeri siano confrontabili con realtà fisiche a noi comprensibili: la dimensione di una foresta in rapporto a una città, oppure il consumo di due paesini per un anno.

Ovvero possiamo dire che NON E’ NECESSARIAMENTE VERO CHE L’AI NON SARA’ MAI GREEN.

Piuttosto, per avere una green AI, bisognerà:

ottimizzare il mix energetico per avere una minor incidenza possibile di CO2 emesso durante il training e l’uso dei modelli. Questo a mio avviso è compito dei sistemi-paese.
scegliere con accuratezza i task da passare ai GPT, scegliendo preferibilmente i prompt che riducono l’uso di ore uomo ed evitando quelli che non lo fanno. Esempi di attività dove l’AI è molto versata sono: prompt di brainstorming, emersione di segnali da liste di ticket oppure da survey, traduzioni, riassunti, etc. Dall’altra parte dello spettro, molto meno utili i prompt che disegnano simpatici smargiassi atteggiarsi ad un’action figure nella loro confezione originale!
lavorare sull’ottimizzazione dei prompt, in modo da usare quanti meno token possibili, sia in richiesta che in risposta.
ottimizzare il codice che allena i modelli, quello che fa inferenza, l’hardware che fa il calcolo, l’assorbimento dei datacenter che ospitano queste infrastrutture, efficientare il trasporto energetico.

Ci sono poi una serie di situazioni che mi aspetto si materializzeranno in un futuro prossimo e che avranno la conseguenza (nel bene e nel male) di aumentare la consapevolezza del consumo tra gli utenti.

Mi aspetto che prima o poi qualcuno attivi una tariffa zero-carbon per i prompt dei chatbot; attualmente i prompt delle chat sono pagati in modo FLAT, mentre i token per le chiamate API si pagano già!

Visto l’impatto dell’assorbimento energetico durante la fase di inferenza, credo sia lecito aspettarsi che in futuro anche i prompt delle chat si pagheranno a consumo. Se non ci arriveranno prima i provider degli LLM, vedrete che ci arriverà qualche regolatore europeo e probabilmente ci beccheremo una bella carbon tax.

Man mano che ci avvicineremo al modello pay-per-token globale, vedrete che prima o poi spunterà fuori qualche simbolo narrativo, come quello per il consumo di energia delle lavatrici e dei frigoriferi.

“Ciao Giuseppe, la tua query ha consumato 70,25 token, la tua carta verrà addebitata di 12€”.

Con l’aumento dei costi, mi aspetto che - a un certo punto - sarà conveniente per molte aziende internalizzare alcune funzioni d’inferenza degli LLM.

Già oggi è possibile portare i modelli LLM “on the edge” (ovvero localmente a dove il dato viene consumato nella rete), all’interno di cluster specializzati ospitabili nei datacenter aziendali. Questi server, in funzione della configurazione, possono assorbire diverse migliaia di Watt e servire qualche centinaio di utenti che fanno richieste LLM contemporanee durante il giorno.

Ora che conosciamo la dimensione reale dell’assorbimento di una query, capirete bene che questo spostamento “on the edge” si alimenterà facilmente anche solo con dei pannelli fotovoltaici sul tetto delle sedi aziendali; nulla che non abbia già visto fare a molti eccellenti imprenditori lombardi già da tempo, e senza bisogno di una spintarella da parte dell’AI.

Chiudiamo il cerchio

Dopo ore di calcoli, sono arrivato alla conclusione che l’intelligenza artificiale non sia quel mostro energivoro che il senso comune vorrebbe lasciare intendere. Tutto dipende da come la usiamo, da come produciamo l’energia per usarla e dalla nostra capacità di scoprire e sfruttare dei vantaggi di efficientamento all’interno della sua catena del valore.

Adesso spero di sentire le vostre opinioni:

quanto vi sareste aspettato che fosse l’assorbimento per il training e l’uso di un modello LLM?
avete già iniziato a porvi il problema e fare delle considerazioni?
avete già un’idea di quali siano gli usi “giustificabili” per l’AI da un punto di vista ambientale?
avete già fatto dei calcoli per includerla nel vostro bilancio di sostenibilità aziendale e volete condividere i vostri insights?

Scrivetelo nei commenti! Mi piacerebbe aprire un dibattito per raggiungere una comprensione più lucida e pragmatica.