Voglio essere onesto fin dall'inizio: non ho le credenziali che vi aspettereste da qualcuno che pubblica ricerche sull'ottimizzazione dell'intelligenza artificiale. Non ho una laurea in informatica. Non lavoro in un laboratorio di ricerca di Google o Meta. Sono un consulente freelance che ha deciso di prendere sul serio un'intuizione — e di seguirla con il rigore che avrebbe usato un ricercatore universitario.
Il risultato? Adaptive-K, una tecnica che permette di risparmiare fino al 33% dei costi computazionali dei modelli AI più avanzati al mondo. Una tecnica che ora è in revisione per l'integrazione in TensorRT-LLM di NVIDIA, e che ha attirato l'attenzione del team di DeepSeek.
Il problema che ho scoperto
Ogni volta che chiediamo a ChatGPT di scrivere un'email o a Claude di riassumere un documento, consumiamo energia elettrica equivalente a quella di una lampadina accesa per diversi minuti. Moltiplicato per miliardi di richieste al giorno, il conto energetico dell'intelligenza artificiale è diventato una voce significativa nei bilanci delle big tech — e nelle emissioni di CO₂ globali.
Ma studiando le architetture dei modelli più avanzati, ho notato qualcosa che mi sembrava assurdo: fino al 33% di questa energia viene sprecata. Il motivo? I modelli AI usano sempre la stessa quantità di "potenza cerebrale" per rispondere a qualsiasi domanda, che sia "quanto fa 2+2" o "scrivi una tesi di dottorato sulla fisica quantistica".
validato
testati
informatica
rigoroso
Il mio percorso: dalla curiosità al metodo
Ho iniziato a studiare machine learning nel 2023, da autodidatta. Niente università, niente mentor, solo una connessione internet, tanta curiosità e una convinzione: se seguo le stesse regole dei ricercatori veri, posso produrre risultati veri.
Ho passato mesi a studiare non solo gli algoritmi, ma il metodo scientifico stesso. Ho letto Karl Popper sulla falsificabilità. Ho studiato le linee guida delle conferenze come NeurIPS e ICML. Ho imparato che la differenza tra un'intuizione e una scoperta scientifica sta nel rigore con cui viene testata.
🔬 Il Protocollo VERTEX-RESEARCH
Ho sviluppato un protocollo di ricerca in 10 fasi, ispirato ai metodi delle migliori università:
- Identificazione del problema — Definire cosa non funziona e perché importa
- Literature review sistematica — Mappare tutto ciò che è stato fatto
- Framework teorico — Costruire le basi matematiche
- Formulazione ipotesi falsificabili — Specificare cosa proverebbe che ho torto
- Design sperimentale — Pianificare esperimenti che possano falsificare le ipotesi
- Implementazione — Codice reproducibile, versionato, testato
- Sperimentazione — Multi-seed, controlli, ablation studies
- Validazione/Falsificazione — Cercare attivamente di dimostrare che ho sbagliato
- Analisi e interpretazione — Capire il perché, non solo il cosa
- Scrittura e pubblicazione — Comunicare in modo riproducibile
📄 Il protocollo completo è disponibile open source: VERTEX-RESEARCH Protocol v1.0
L'AI come strumento, non come autore
So cosa state pensando: "Ha usato ChatGPT per fare la ricerca". Sì e no. Ho usato l'AI in modo estensivo, ma con regole ferree:
- ✓ L'AI può: cercare paper, spiegare concetti, generare codice boilerplate, controllare errori matematici, suggerire esperimenti
- ✗ L'AI non può: formulare ipotesi (lo faccio io), interpretare risultati (lo faccio io), decidere se un esperimento è valido (lo faccio io)
L'AI è stata un moltiplicatore di velocità, non un sostituto del pensiero critico. Mi ha permesso di coprire in settimane terreno che avrebbe richiesto mesi. Ma ogni decisione scientifica è stata mia — e ogni errore anche.
Il problema tecnico: tutti i token sono uguali (ma non dovrebbero)
I modelli di linguaggio più avanzati — come Mixtral di Mistral AI, Qwen di Alibaba, o Nemotron di NVIDIA — utilizzano un'architettura chiamata Mixture-of-Experts (MoE). Immaginate un team di consulenti specializzati: c'è l'esperto di matematica, quello di storia, quello di programmazione.
Il problema è che il sistema attuale convoca sempre lo stesso numero di esperti per ogni domanda. Due esperti per Mixtral. Quattro per Qwen. Sei per Nemotron. Indipendentemente dalla complessità della richiesta.
Come funziona oggi vs. Adaptive-K
La soluzione: misurare l'incertezza
La chiave della soluzione sta in un concetto della teoria dell'informazione: l'entropia. Quando il modello è sicuro della risposta, l'entropia è bassa. Quando è incerto, l'entropia è alta.
Adaptive-K usa questa informazione per decidere dinamicamente quanti esperti attivare:
- ● Entropia bassa (il modello è sicuro) → pochi esperti → risparmio
- ● Entropia media → numero standard di esperti
- ● Entropia alta (il modello è incerto) → più esperti → qualità preservata
I risultati: validato su 4 modelli industriali
La ricerca non si è limitata a simulazioni teoriche. Adaptive-K è stato testato su quattro dei modelli MoE più utilizzati al mondo, con risultati concreti:
Risparmio computazionale per modello
Fonte: Paper tecnico Adaptive-K • DOI: 10.5281/zenodo.18282008
L'effetto moltiplicativo: fino al 70% di risparmio
Una delle scoperte più sorprendenti della mia ricerca riguarda la combinazione con altre tecniche di ottimizzazione. Quando Adaptive-K viene usato insieme alla quantizzazione (che riduce la precisione dei numeri) e allo speculative decoding (che "prevede" le risposte), i risparmi si moltiplicano.
Questo non era ovvio. Avrei potuto aspettarmi che le tecniche si "cannibalizzassero" a vicenda. Invece, ho dimostrato matematicamente (e validato sperimentalmente) che sono ortogonali: ognuna agisce su un aspetto diverso del calcolo.
Combinazione di tecniche: effetto moltiplicativo
Formula: 0.69 × 0.67 × 0.65 = 0.30 → 70% risparmio complessivo
Perché questo conta: la mia esperienza come outsider
Quando ho iniziato a condividere i primi risultati, la reazione più comune era scetticismo. "Chi sei tu per dire che i ricercatori di NVIDIA hanno sbagliato qualcosa?" Domanda legittima.
Ma ecco il punto: non ho detto che hanno sbagliato. Ho detto che c'è un'opportunità che non era stata esplorata. E l'ho dimostrata con dati, non con opinioni. Quando ho aperto la pull request su TensorRT-LLM, i reviewer di NVIDIA non mi hanno chiesto il curriculum. Hanno guardato il codice, i test, i benchmark. E hanno assegnato un reviewer.
Le implicazioni economiche
Per le aziende che gestiscono infrastrutture AI su larga scala, i numeri sono significativi:
Scenario: 1 miliardo di token al giorno
Ma oltre al risparmio economico, c'è una questione ambientale. Si stima che l'addestramento di un singolo modello LLM di grandi dimensioni emetta quanto 5 automobili in tutta la loro vita utile. L'inferenza — cioè l'uso quotidiano di questi modelli — sta rapidamente superando l'addestramento come fonte principale di consumo energetico dell'AI.
Come funziona tecnicamente
Per chi volesse approfondire, ecco una spiegazione più tecnica. Il router di un modello MoE produce una distribuzione di probabilità sugli esperti disponibili. L'entropia di questa distribuzione misura quanto il router sia "indeciso":
Adaptive-K definisce soglie di entropia che determinano quanti esperti attivare:
- Se H < 0.6 → usa 1 esperto (il router è molto sicuro)
- Se 0.6 ≤ H < 1.2 → usa 2 esperti (incertezza moderata)
- Se H ≥ 1.2 → usa 4 esperti (alta incertezza)
Le soglie vengono calibrate automaticamente su un piccolo dataset rappresentativo, garantendo che la qualità dell'output non degradi.
Disponibilità e prossimi passi
La tecnologia è già disponibile come pacchetto open source su PyPI:
È inoltre in corso una collaborazione con NVIDIA per integrare Adaptive-K in TensorRT-LLM, il framework di inferenza ottimizzata per GPU. Una pull request (#10672) è attualmente in revisione.
Roadmap 2026
Il messaggio per gli altri autodidatti
Se stai leggendo questo articolo e ti senti scoraggiato perché non hai le "credenziali giuste", voglio dirti una cosa: il metodo scientifico non chiede passaporti.
Non sto dicendo che sia facile. Ho passato notti a studiare paper che non capivo. Ho buttato settimane di lavoro quando gli esperimenti fallivano. Ho dovuto imparare a distinguere tra "il mio codice ha un bug" e "la mia ipotesi è sbagliata" — due cose molto diverse.
Ma se ti impegni a seguire le regole del gioco — ipotesi falsificabili, esperimenti riproducibili, interpretazione onesta dei risultati — i tuoi contributi avranno valore. Non perché qualcuno ti ha dato un timbro, ma perché funzionano.
Conclusione: cosa ho imparato
Adaptive-K non è solo una tecnica di ottimizzazione. Per me, è la dimostrazione che:
- 1. Il rigore batte le credenziali — Se segui il metodo scientifico, i risultati parlano da soli
- 2. L'AI è un moltiplicatore — Usata correttamente, ti permette di fare ricerca a velocità che prima erano impossibili per un individuo
- 3. I problemi "ovvi" sono spesso non risolti — Nessuno aveva pensato di usare meno esperti quando il router è sicuro. Era sotto gli occhi di tutti.
- 4. L'open source apre porte — NVIDIA non mi conosce. Ma ha guardato il mio codice, e lo sta valutando per l'integrazione.
L'intelligenza artificiale sta diventando sempre più pervasiva nelle nostre vite, e con essa crescono i costi energetici e ambientali. Adaptive-K dimostra che non dobbiamo scegliere tra prestazioni ed efficienza: con approcci intelligenti, possiamo avere entrambe.
E a volte, queste idee vengono da dove meno te le aspetti.
Vuoi approfondire?
Leggi il paper tecnico completo, esplora il protocollo di ricerca, o prova la demo interattiva.
Non ingegnere informatico. Autodidatta che ha sviluppato il protocollo VERTEX-RESEARCH per condurre ricerca ML rigorosa. Autore di Adaptive-K routing, contributor a TensorRT-LLM (NVIDIA). Crede che il metodo scientifico non chieda credenziali, solo rigore.