Da Autodidatta a Ricercatore: Come Ho Ridotto del 33% i Costi dell'AI

Voglio essere onesto fin dall'inizio: non ho le credenziali che vi aspettereste da qualcuno che pubblica ricerche sull'ottimizzazione dell'intelligenza artificiale. Non ho una laurea in informatica. Non lavoro in un laboratorio di ricerca di Google o Meta. Sono un consulente freelance che ha deciso di prendere sul serio un'intuizione — e di seguirla con il rigore che avrebbe usato un ricercatore universitario.

Il risultato? Adaptive-K, una tecnica che permette di risparmiare fino al 33% dei costi computazionali dei modelli AI più avanzati al mondo. Una tecnica che ora è in revisione per l'integrazione in TensorRT-LLM di NVIDIA, e che ha attirato l'attenzione del team di DeepSeek.

💡 La mia filosofia: L'AI non è un sostituto del pensiero critico — è un moltiplicatore. Ho usato Claude e GPT-4 come assistenti di ricerca, mai come autori. Ogni ipotesi è stata formulata da me, ogni esperimento progettato secondo protocolli accademici, ogni risultato verificato manualmente. L'AI mi ha aiutato a muovermi più velocemente, non a pensare meno.

Il problema che ho scoperto

Ogni volta che chiediamo a ChatGPT di scrivere un'email o a Claude di riassumere un documento, consumiamo energia elettrica equivalente a quella di una lampadina accesa per diversi minuti. Moltiplicato per miliardi di richieste al giorno, il conto energetico dell'intelligenza artificiale è diventato una voce significativa nei bilanci delle big tech — e nelle emissioni di CO₂ globali.

Ma studiando le architetture dei modelli più avanzati, ho notato qualcosa che mi sembrava assurdo: fino al 33% di questa energia viene sprecata. Il motivo? I modelli AI usano sempre la stessa quantità di "potenza cerebrale" per rispondere a qualsiasi domanda, che sia "quanto fa 2+2" o "scrivi una tesi di dottorato sulla fisica quantistica".

«È come accendere tutte le luci di casa anche solo per andare in bagno di notte. Funziona, ma è uno spreco colossale. E nessuno sembrava averci pensato.»

33%

Risparmio massimo
validato

Modelli industriali
testati

Lauree in
informatica

Protocollo
rigoroso

Il mio percorso: dalla curiosità al metodo

Ho iniziato a studiare machine learning nel 2023, da autodidatta. Niente università, niente mentor, solo una connessione internet, tanta curiosità e una convinzione: se seguo le stesse regole dei ricercatori veri, posso produrre risultati veri.

Ho passato mesi a studiare non solo gli algoritmi, ma il metodo scientifico stesso. Ho letto Karl Popper sulla falsificabilità. Ho studiato le linee guida delle conferenze come NeurIPS e ICML. Ho imparato che la differenza tra un'intuizione e una scoperta scientifica sta nel rigore con cui viene testata.

🔬 Il Protocollo VERTEX-RESEARCH

Ho sviluppato un protocollo di ricerca in 10 fasi, ispirato ai metodi delle migliori università:

Identificazione del problema — Definire cosa non funziona e perché importa
Literature review sistematica — Mappare tutto ciò che è stato fatto
Framework teorico — Costruire le basi matematiche
Formulazione ipotesi falsificabili — Specificare cosa proverebbe che ho torto
Design sperimentale — Pianificare esperimenti che possano falsificare le ipotesi
Implementazione — Codice reproducibile, versionato, testato
Sperimentazione — Multi-seed, controlli, ablation studies
Validazione/Falsificazione — Cercare attivamente di dimostrare che ho sbagliato
Analisi e interpretazione — Capire il perché, non solo il cosa
Scrittura e pubblicazione — Comunicare in modo riproducibile

📄 Il protocollo completo è disponibile open source: VERTEX-RESEARCH Protocol v1.0

L'AI come strumento, non come autore

So cosa state pensando: "Ha usato ChatGPT per fare la ricerca". Sì e no. Ho usato l'AI in modo estensivo, ma con regole ferree:

✓ L'AI può: cercare paper, spiegare concetti, generare codice boilerplate, controllare errori matematici, suggerire esperimenti
✗ L'AI non può: formulare ipotesi (lo faccio io), interpretare risultati (lo faccio io), decidere se un esperimento è valido (lo faccio io)

L'AI è stata un moltiplicatore di velocità, non un sostituto del pensiero critico. Mi ha permesso di coprire in settimane terreno che avrebbe richiesto mesi. Ma ogni decisione scientifica è stata mia — e ogni errore anche.

«L'intelligenza artificiale è come avere un assistente di ricerca instancabile che conosce tutta la letteratura. Ma l'intuizione, il giudizio critico, la capacità di dire "questo non torna" — quella resta umana.»

Il problema tecnico: tutti i token sono uguali (ma non dovrebbero)

I modelli di linguaggio più avanzati — come Mixtral di Mistral AI, Qwen di Alibaba, o Nemotron di NVIDIA — utilizzano un'architettura chiamata Mixture-of-Experts (MoE). Immaginate un team di consulenti specializzati: c'è l'esperto di matematica, quello di storia, quello di programmazione.

Il problema è che il sistema attuale convoca sempre lo stesso numero di esperti per ogni domanda. Due esperti per Mixtral. Quattro per Qwen. Sei per Nemotron. Indipendentemente dalla complessità della richiesta.

Come funziona oggi vs. Adaptive-K

❌ Sistema tradizionale

Domanda semplice: "Ciao!"

→ 2 esperti (spreco!)

Domanda complessa: "Spiega la relatività..."

→ 2 esperti (insufficienti?)

✅ Adaptive-K

Domanda semplice: "Ciao!"

→ 1 esperto (50% risparmio!)

Domanda complessa: "Spiega la relatività..."

→ 4 esperti (quando serve!)

La soluzione: misurare l'incertezza

La chiave della soluzione sta in un concetto della teoria dell'informazione: l'entropia. Quando il modello è sicuro della risposta, l'entropia è bassa. Quando è incerto, l'entropia è alta.

Adaptive-K usa questa informazione per decidere dinamicamente quanti esperti attivare:

● Entropia bassa (il modello è sicuro) → pochi esperti → risparmio
● Entropia media → numero standard di esperti
● Entropia alta (il modello è incerto) → più esperti → qualità preservata

I risultati: validato su 4 modelli industriali

La ricerca non si è limitata a simulazioni teoriche. Adaptive-K è stato testato su quattro dei modelli MoE più utilizzati al mondo, con risultati concreti:

Risparmio computazionale per modello

NVIDIA Nemotron 3 Nano 33.3%

128 esperti • Architettura Mamba2-Transformer Hybrid

Alibaba Qwen-MoE 32.4%

60 esperti • 2.7B parametri attivi

Mistral Mixtral 8×7B 31.0%

8 esperti • 46.7B parametri totali

Allen AI OLMoE-1B-7B 24.7%

64 esperti • 1B parametri attivi

Fonte: Paper tecnico Adaptive-K • DOI: 10.5281/zenodo.18282008

L'effetto moltiplicativo: fino al 70% di risparmio

Una delle scoperte più sorprendenti della mia ricerca riguarda la combinazione con altre tecniche di ottimizzazione. Quando Adaptive-K viene usato insieme alla quantizzazione (che riduce la precisione dei numeri) e allo speculative decoding (che "prevede" le risposte), i risparmi si moltiplicano.

Questo non era ovvio. Avrei potuto aspettarmi che le tecniche si "cannibalizzassero" a vicenda. Invece, ho dimostrato matematicamente (e validato sperimentalmente) che sono ortogonali: ognuna agisce su un aspetto diverso del calcolo.

Combinazione di tecniche: effetto moltiplicativo

69%

Adaptive-K

67%

Quantizzazione 4-bit

65%

Speculative Decoding

30%

Compute rimanente

70% risparmio totale!

Formula: 0.69 × 0.67 × 0.65 = 0.30 → 70% risparmio complessivo

Perché questo conta: la mia esperienza come outsider

Quando ho iniziato a condividere i primi risultati, la reazione più comune era scetticismo. "Chi sei tu per dire che i ricercatori di NVIDIA hanno sbagliato qualcosa?" Domanda legittima.

Ma ecco il punto: non ho detto che hanno sbagliato. Ho detto che c'è un'opportunità che non era stata esplorata. E l'ho dimostrata con dati, non con opinioni. Quando ho aperto la pull request su TensorRT-LLM, i reviewer di NVIDIA non mi hanno chiesto il curriculum. Hanno guardato il codice, i test, i benchmark. E hanno assegnato un reviewer.

🎯 La lezione: Nel mondo open source e nella ricerca, i risultati parlano più forte delle credenziali. Se segui il metodo scientifico correttamente, i tuoi dati saranno valutati per quello che sono — non per chi sei.

Le implicazioni economiche

Per le aziende che gestiscono infrastrutture AI su larga scala, i numeri sono significativi:

Scenario: 1 miliardo di token al giorno

Costo attuale (GPU cloud)

~$300/giorno

$109.500/anno

Con Adaptive-K (31% risparmio)

~$207/giorno

$75.555/anno (-$33.945)

Ma oltre al risparmio economico, c'è una questione ambientale. Si stima che l'addestramento di un singolo modello LLM di grandi dimensioni emetta quanto 5 automobili in tutta la loro vita utile. L'inferenza — cioè l'uso quotidiano di questi modelli — sta rapidamente superando l'addestramento come fonte principale di consumo energetico dell'AI.

«Ridurre del 30% il consumo energetico dell'inferenza AI non è solo una questione di costi. È una necessità per la sostenibilità del settore.»

Come funziona tecnicamente

Per chi volesse approfondire, ecco una spiegazione più tecnica. Il router di un modello MoE produce una distribuzione di probabilità sugli esperti disponibili. L'entropia di questa distribuzione misura quanto il router sia "indeciso":

# Calcolo dell'entropia di routing

H = -Σ p_i × log(p_i)

# Dove p_i è la probabilità assegnata all'esperto i

Adaptive-K definisce soglie di entropia che determinano quanti esperti attivare:

Se H < 0.6 → usa 1 esperto (il router è molto sicuro)
Se 0.6 ≤ H < 1.2 → usa 2 esperti (incertezza moderata)
Se H ≥ 1.2 → usa 4 esperti (alta incertezza)

Le soglie vengono calibrate automaticamente su un piccolo dataset rappresentativo, garantendo che la qualità dell'output non degradi.

Disponibilità e prossimi passi

La tecnologia è già disponibile come pacchetto open source su PyPI:

$ pip install adaptive-k-routing

È inoltre in corso una collaborazione con NVIDIA per integrare Adaptive-K in TensorRT-LLM, il framework di inferenza ottimizzata per GPU. Una pull request (#10672) è attualmente in revisione.

Roadmap 2026

Gennaio 2026

✅ Validazione su NVIDIA Nemotron 3 Nano (33.3% risparmio)

Q1 2026

TensorRT-LLM integration (PR #10672 in review)

Q2 2026

Integrazione con vLLM e HuggingFace Transformers

Q3 2026

Validazione su DeepSeek-V3 (256 esperti)

Il messaggio per gli altri autodidatti

Se stai leggendo questo articolo e ti senti scoraggiato perché non hai le "credenziali giuste", voglio dirti una cosa: il metodo scientifico non chiede passaporti.

Non sto dicendo che sia facile. Ho passato notti a studiare paper che non capivo. Ho buttato settimane di lavoro quando gli esperimenti fallivano. Ho dovuto imparare a distinguere tra "il mio codice ha un bug" e "la mia ipotesi è sbagliata" — due cose molto diverse.

Ma se ti impegni a seguire le regole del gioco — ipotesi falsificabili, esperimenti riproducibili, interpretazione onesta dei risultati — i tuoi contributi avranno valore. Non perché qualcuno ti ha dato un timbro, ma perché funzionano.

Conclusione: cosa ho imparato

Adaptive-K non è solo una tecnica di ottimizzazione. Per me, è la dimostrazione che:

1. Il rigore batte le credenziali — Se segui il metodo scientifico, i risultati parlano da soli
2. L'AI è un moltiplicatore — Usata correttamente, ti permette di fare ricerca a velocità che prima erano impossibili per un individuo
3. I problemi "ovvi" sono spesso non risolti — Nessuno aveva pensato di usare meno esperti quando il router è sicuro. Era sotto gli occhi di tutti.
4. L'open source apre porte — NVIDIA non mi conosce. Ma ha guardato il mio codice, e lo sta valutando per l'integrazione.

L'intelligenza artificiale sta diventando sempre più pervasiva nelle nostre vite, e con essa crescono i costi energetici e ambientali. Adaptive-K dimostra che non dobbiamo scegliere tra prestazioni ed efficienza: con approcci intelligenti, possiamo avere entrambe.

E a volte, queste idee vengono da dove meno te le aspetti.

Da Autodidatta a Ricercatore:
Come Ho Ridotto del 33% i Costi dell'AI