🇬🇧 English

Selezione Dinamica degli Esperti Guidata dall'Entropia nei Modelli Mixture-of-Experts

Un'Analisi Teorica ed Empirica Completa

Gabriele Balsamo

VertexData · Ricerca Indipendente

gabriele.balsamo30@gmail.com

Gennaio 2026

Preprint — In Fase di Revisione

Abstract

L'emergere delle architetture Mixture-of-Experts (MoE) ha trasformato radicalmente il panorama della progettazione di reti neurali su larga scala, consentendo una capacità di modello senza precedenti pur mantenendo la trattabilità computazionale attraverso pattern di attivazione sparsi. Tuttavia, le implementazioni MoE contemporanee impiegano universalmente una strategia di routing top-k fissa che tratta tutti i token di input con budget computazionali identici, indipendentemente dalla complessità intrinseca o dall'ambiguità delle singole decisioni di routing.

Questo articolo presenta il routing Adaptive-K, una metodologia basata su principi per la selezione dinamica degli esperti che sfrutta l'entropia di Shannon della distribuzione di routing come proxy per l'incertezza a livello di token. Forniamo sia fondamenti teorici basati sulla teoria dell'informazione e sulla teoria della distorsione della frequenza, sia una validazione empirica completa su quattro architetture MoE su scala di produzione: Mixtral 8×7B (riduzione del 31,0% del calcolo), Qwen1.5-MoE-A2.7B (riduzione del 32,4%), OLMoE-1B-7B (riduzione del 24,7%) e NVIDIA Nemotron 3 Nano (riduzione del 33,3%, validata a gennaio 2026).

La nostra analisi dimostra che questi guadagni di efficienza vengono ottenuti senza un degrado statisticamente significativo della perplessità o delle prestazioni delle attività a valle. Il metodo proposto non richiede modifiche architetturali o riaddestramento del modello, fungendo da sostituto diretto per i meccanismi di routing esistenti. Forniamo inoltre studi di ablazione sulla sensibilità di soglia, sulla granularità del valore K e sulla generalizzazione interdominio.

Parole Chiave: Mixture-of-Experts, Modelli Sparsi, Routing Dinamico, Teoria dell'Informazione, Efficienza Computazionale, Large Language Models, Metodi Basati sull'Entropia

Introduzione

La ricerca di sistemi di intelligenza artificiale sempre più capaci ha guidato una crescita esponenziale della scala delle reti neurali, con modelli linguistici all'avanguardia che ora superano centinaia di miliardi di parametri [1]. Questa traiettoria di scalabilità, pur producendo notevoli miglioramenti nelle capacità del modello, presenta sfide fondamentali in termini di efficienza computazionale, consumo energetico e fattibilità di distribuzione. Il paradigma Mixture-of-Experts (MoE) è emerso come una soluzione architettonica convincente a queste sfide, consentendo aumenti drastici della capacità del modello senza aumenti proporzionali dei requisiti computazionali attraverso il principio del calcolo condizionale [2, 3].

L'intuizione fondamentale alla base delle architetture MoE è elegantemente semplice: anziché attivare tutti i parametri per ogni input, la rete impara a indirizzare input diversi a diverse sottoreti specializzate, denominate "esperti", in base alle caratteristiche dell'input stesso. Questo approccio trae ispirazione dalle teorie delle scienze cognitive sull'organizzazione modulare del cervello [14] e ha profonde connessioni con i metodi di ensemble nell'apprendimento automatico classico [15].

1.1 Il Problema del K Fisso

Nonostante il successo delle architetture MoE, persiste una limitazione critica nelle implementazioni contemporanee: il numero di esperti attivati ​​per token, indicato con K, rimane fisso durante l'inferenza, indipendentemente dalla natura dell'input. Questa scelta progettuale, pur semplificando l'implementazione e consentendo un'elaborazione batch efficiente, rappresenta un'inefficienza fondamentale se vista attraverso la lente della teoria dell'informazione. Consideriamo il seguente scenario illustrativo:

Il vincolo di K fisso obbliga il modello a trattare questi scenari fondamentalmente diversi in modo identico, con conseguente inefficienza sistematica. Questa osservazione motiva la nostra domanda di ricerca centrale:

Domanda di Ricerca: Possiamo sviluppare un metodo basato su principi e senza formazione per selezionare dinamicamente il numero di esperti attivi in ​​base all'incertezza delle decisioni di routing, ottenendo così significativi risparmi computazionali senza degradare la qualità del modello?

1.2 Prospettiva Teorico-Informativa

Il nostro approccio per affrontare il problema del K fisso si basa sulla teoria dell'informazione, in particolare sul concetto di entropia di Shannon come misura dell'incertezza [17]. L'entropia della distribuzione di routing fornisce un segnale naturale, teoricamente motivato, per la "difficoltà" di una decisione di routing:

Questa prospettiva collega il routing MoE al quadro più ampio della teoria della distorsione della velocità [18], che caratterizza il compromesso fondamentale tra "velocità" (risorse computazionali impiegate) e "distorsione" (deviazione dall'output ottimale).

1.3 Contributi

Questo articolo fornisce i seguenti contributi al campo dell'inferenza efficiente delle reti neurali:

  1. Quadro Teorico: Stabiliamo una rigorosa base teorico-informativa per la selezione di esperti guidata dall'entropia (Sezione 3).
  2. Algoritmo Adaptive-K: Proponiamo un algoritmo semplice ma efficace per la selezione dinamica di K basato sulle soglie di entropia (Sezione 4).
  3. Validazione Empirica Completa: Valutiamo il nostro metodo su quattro modelli MoE su scala di produzione, dimostrando risparmi di calcolo costanti del 24-33% senza degrado della qualità (Sezione 5).
  4. Studi di Ablazione: Conduciamo ampi esperimenti di ablazione esaminando la sensibilità della soglia e la granularità del valore K (Sezione 6).
  5. Implementazione Open Source: Rilasciamo un'implementazione pronta per la produzione compatibile con i principali framework di inferenza.

Background e Preliminari

In questa sezione, definiamo la notazione matematica e rivediamo i concetti fondamentali alla base delle architetture Mixture-of-Experts.

2.1 Architettura Mixture-of-Experts

Uno strato Mixture-of-Experts è costituito da due componenti principali: un insieme di $N$ reti di esperti $\{E_1, E_2, \ldots, E_N\}$ e una rete di gating (router) $G$. Ogni esperto $E_i: \mathbb{R}^d \rightarrow \mathbb{R}^d$ è tipicamente una rete feed-forward con architettura identica ma parametri indipendenti.

Definizione 2.1 (Livello Mixture-of-Experts)

Data una rappresentazione del token di input $x \in \mathbb{R}^d$, l'output di uno strato MoE sparso con routing top-K è definito come:

$$y = \sum_{i \in \mathcal{T}_K(x)} w_i(x) \cdot E_i(x)$$ (1)

dove $\mathcal{T}_K(x) \subseteq \{1, \ldots, N\}$ indica gli indici dei migliori K esperti selezionati per l'input $x$, e $w_i(x)$ sono i pesi di routing normalizzati.

2.2 Meccanismi di Routing

La rete di gating produce logit non normalizzati $g(x) = (g_1(x), \ldots, g_N(x))$ per ciascun esperto. Questi logit vengono in genere calcolati tramite una proiezione lineare:

$$g(x) = W_g \cdot x + b_g$$ (2)

La distribuzione di probabilità di routing è ottenuta tramite normalizzazione softmax:

$$p_i(x) = \frac{\exp(g_i(x)/\tau)}{\sum_{j=1}^{N} \exp(g_j(x)/\tau)}$$ (3)

dove $\tau > 0$ è un parametro di temperatura che controlla la nitidezza della distribuzione.

2.3 Entropia di Shannon delle Distribuzioni di Routing

L'entropia di Shannon di una distribuzione di probabilità discreta quantifica il contenuto informativo atteso o, in modo equivalente, l'incertezza inerente alla distribuzione [17].

Definizione 2.2 (Entropia di Routing)
$$\mathcal{H}(x) = \mathcal{H}(p(x)) = -\sum_{i=1}^{N} p_i(x) \log p_i(x)$$ (6)

con la convenzione che $0 \log 0 = 0$. L'entropia si misura in nat quando si usa il logaritmo naturale, o in bit quando si usa il logaritmo in base 2.

L'entropia di routing ha le seguenti proprietà importanti:

Tabella 1: Valori massimi di entropia per diversi numeri di esperti.

Esperti (N)Entropia Max (nat)Entropia Max (bit)Modelli di Esempio
82.083.00Mixtral 8×7B
162.774.00GLaM
604.095.91Qwen1.5-MoE
644.166.00OLMoE, Switch
1284.857.00GShard, Nemotron 3
2565.558.00DeepSeek-V3

2.4 Modello di Costo Computazionale

Per quantificare i risparmi computazionali ottenuti dal routing Adaptive-K, stabiliamo un modello di costo formale. Sia $C_E$ il costo computazionale (in FLOP) di un singolo passaggio in avanti esperto. Per il routing top-K standard, il costo per token è:

$$C_{\text{baseline}} = C_G + K \cdot C_E$$ (7)

Per il routing Adaptive-K con $K(x)$ variabile, il costo previsto è:

$$C_{\text{adaptive}} = C_G + C_{\mathcal{H}} + \mathbb{E}_x[K(x)] \cdot C_E$$ (8)

I risparmi di calcolo relativi sono quindi:

$$\text{Risparmio} = 1 - \frac{C_{\text{adaptive}}}{C_{\text{baseline}}} \approx 1 - \frac{\mathbb{E}[K(x)]}{K_{\text{baseline}}}$$ (9)

Fondamenti Teorici

In questa sezione, sviluppiamo i fondamenti teorici per la selezione di esperti guidata dall'entropia.

3.1 Interpretazione Teorico-Informativa del Routing

Proponiamo di interpretare il processo di routing MoE attraverso la lente della teoria dell'informazione. Consideriamo il router come un codificatore che mappa i token di input in attivazioni esperte.

Proposizione 3.1 (Entropia come Complessità di Routing)

Sia $p(x)$ la distribuzione di routing per l'input $x$. L'entropia $\mathcal{H}(x)$ limita inferiormente il numero previsto di bit necessari per specificare qualsiasi esperto da $p(x)$ tramite un codice ottimale senza prefissi:

$$\mathcal{H}(x) \leq \mathbb{E}_{i \sim p(x)}[\ell(i)] < \mathcal{H}(x) + 1$$

dove $\ell(i)$ è la lunghezza del codice per l'esperto $i$. Una bassa entropia implica che la decisione di routing può essere rappresentata in modo compatto, suggerendo che sono necessari meno esperti.

3.2 Analisi Teorica della Distorsione di Frequenza

Formalizziamo la relazione tra costo computazionale e qualità dell'output utilizzando la teoria della distorsione della velocità [18]. Definiamo la "velocità" $R$ come il numero medio di esperti attivati ​​e la "distorsione" $D$ come la deviazione dall'output che si otterrebbe utilizzando tutti gli esperti.

Definizione 3.1 (Distorsione di Uscita)

Per un input $x$ con output K-expert $y_K$ e output completamente esperto $y_N$, la distorsione è:

$$D_K(x) = \|y_K(x) - y_N(x)\|_2^2$$ (10)
Proposizione 3.2 (Relazione Entropia-Distorsione)

In condizioni di blanda regolarità sulle funzioni esperte, per token con entropia di routing $\mathcal{H}(x) < \mathcal{H}^*$, esiste $K < K_{max}$ tale che $\mathbb{E}[D_K(x)] < \epsilon$ per qualche piccolo $\epsilon$. La soglia $\mathcal{H}^*$ dipende dalla diversità degli esperti e può essere stimata empiricamente.

Intuitivamente, questa proposizione afferma che quando il router è sicuro (bassa entropia), l'output è ben approssimato da un piccolo numero di esperti.

3.3 Selezione Ottimale di K

Data la relazione tra entropia e distorsione, possiamo formulare il problema di selezione K come un'ottimizzazione sulle soglie di entropia. Sia $\mathcal{K} = \{k_1 < k_2 < \cdots < k_m\}$ l'insieme dei valori K consentiti e $\Theta = \{\theta_1 < \theta_2 < \cdots < \theta_{m-1}\}$ le soglie di entropia. La funzione di selezione K è:

$$K(x; \Theta) = k_j \quad \text{dove} \quad j = \min\{i : \mathcal{H}(x) < \theta_i\} \cup \{m\}$$ (11)

Le soglie ottimali minimizzano il costo previsto soggetto a un vincolo di qualità:

$$\Theta^* = \arg\min_\Theta \mathbb{E}_x[K(x; \Theta)] \quad \text{s.t.} \quad \mathbb{E}_x[D_{K(x)}(x)] \leq \epsilon$$ (12)

Algoritmo di Routing Adaptive-K

4.1 Descrizione dell'Algoritmo

Sulla base dei fondamenti teorici sviluppati nella Sezione 3, presentiamo l'algoritmo di routing Adaptive-K. L'algoritmo si compone di tre fasi: (1) calcolo dell'entropia, (2) selezione K tramite confronto di soglie e (3) esecuzione esperta sparsa con pesi rinormalizzati.

Algoritmo 1: Routing Adaptive-K

Input: Rappresentazione del token $x \in \mathbb{R}^d$, Rete di gating $G: \mathbb{R}^d \rightarrow \mathbb{R}^N$, Valori K $\mathcal{K} = \{k_1 < k_2 < \ldots < k_m\}$, Soglie di entropia $\Theta = \{\theta_1 < \theta_2 < \ldots < \theta_{m-1}\}$, Reti esperte $\{E_1, \ldots, E_N\}$

Output: Output del livello MoE $y \in \mathbb{R}^d$

  1. Fase 1: Calcola distribuzione di routing e entropia
    $g \leftarrow G(x)$ // Logit del router
    $p \leftarrow \text{softmax}(g)$ // Probabilità di routing
    $\mathcal{H} \leftarrow -\sum_i p_i \log(p_i + \epsilon)$ // Entropia di Shannon
  2. Fase 2: Seleziona K in base all'entropia
    $K \leftarrow k_m$ // Default al massimo
    per $j = 1$ a $m-1$ fai
        se $\mathcal{H} < \theta_j$ allora $K \leftarrow k_j$; break
  3. Fase 3: Esegui gli esperti selezionati
    $\mathcal{T} \leftarrow \text{argtop}_K(p)$ // Indici dei migliori K esperti
    $w \leftarrow \text{normalize}(p[\mathcal{T}])$ // Pesi rinormalizzati
    $y \leftarrow \sum_{i \in \mathcal{T}} w_i \cdot E_i(x)$ // Output degli esperti ponderati
  4. return $y, K, \mathcal{H}$

4.2 Strategie di Calibrazione delle Soglie

La scelta delle soglie di entropia $\Theta$ determina il compromesso tra risparmio di elaborazione e qualità dell'output. Proponiamo due strategie complementari:

4.2.1 Soglie Basate sulla Teoria

Basato sull'entropia massima $\mathcal{H}_{max} = \log N$, possiamo impostare le soglie come frazioni di questo massimo teorico:

$$\theta_j = \alpha_j \cdot \log N, \quad \alpha_j \in (0, 1)$$ (13)

Raccomandiamo di iniziare con $\alpha_1 = 0.5$ per la selezione binaria K (K ∈ {1, 2}).

4.2.2 Calibrazione Basata sui Dati

  1. Eseguire l'inferenza sul set di calibrazione (1000-10000 campioni consigliati)
  2. Raccogliere i valori di entropia di routing per tutti i token su tutti i livelli
  3. Calcolare i percentili di entropia (es. 25°, 50°, 75°)
  4. Impostare le soglie ai limiti percentili corrispondenti alla distribuzione K desiderata

Tabella 2: Confronto delle strategie di calibrazione delle soglie.

Metodo di CalibrazioneProControCaso d'Uso Migliore
Basato sulla teoriaNessun dato necessarioPotrebbe non essere ottimaleDeploy rapido, nuovi modelli
Basato su percentileSi adatta al modelloRichiede dati di calibrazioneDeploy in produzione
Con vincolo di qualitàGarantisce limiti di qualitàRichiede set di validazioneApplicazioni critiche

4.3 Considerazioni sull'Inferenza in Batch

Un'inferenza GPU efficiente richiede un calcolo in batch. Proponiamo il Batching con Padding: calcolare $K_{max}$ esperti per tutti i token, poi mascherare gli esperti in eccesso basandosi sul K per token:

def adaptive_k_batched(router_logits, thresholds, k_values):
    # Calcola entropia e K per ogni token nel batch
    probs = F.softmax(router_logits, dim=-1)
    entropy = -(probs * torch.log(probs + 1e-9)).sum(dim=-1)
    
    # Determina K per token
    k_per_token = torch.full_like(entropy, k_values[-1], dtype=torch.long)
    for i, threshold in enumerate(thresholds):
        k_per_token = torch.where(entropy < threshold, k_values[i], k_per_token)
    
    # Ottieni top-K_max esperti
    k_max = max(k_values)
    topk_probs, topk_indices = torch.topk(probs, k_max, dim=-1)
    
    # Crea maschera basata sul K effettivo per token
    positions = torch.arange(k_max, device=probs.device).unsqueeze(0)
    mask = positions < k_per_token.unsqueeze(1)
    
    # Applica maschera e rinormalizza
    masked_probs = topk_probs * mask.float()
    weights = masked_probs / (masked_probs.sum(dim=-1, keepdim=True) + 1e-9)
    
    return topk_indices, weights, k_per_token, entropy

Valutazione Sperimentale

5.1 Setup Sperimentale

5.1.1 Modelli

Valutiamo il routing Adaptive-K su quattro modelli MoE di produzione che rappresentano diverse scelte architetturali:

Tabella 3: Configurazioni dei modelli. I modelli coprono diversi conteggi di esperti (8-128), valori di K basali (2-8) e parametri totali (7B-47B).

ModelloParam TotaliParam AttiviEsperti (N)K BaseArchitettura
Mixtral 8×7B [4]46.7B12.9B82MoE Sparso (ogni livello)
Qwen1.5-MoE-A2.7B14.3B2.7B604Esperti a grana fine
OLMoE-1B-7B6.9B1.3B648Molti piccoli esperti
Nemotron 3 Nano30B3.5B128+16Ibrido Mamba2-Transformer

5.1.2 Dataset

5.2 Analisi Distribuzione Entropia

Prima di presentare i risultati principali, caratterizziamo le distribuzioni dell'entropia di routing osservate in ciascun modello.

Distribuzione entropia su Mixtral 8x7B
Figura 1: Distribuzione dell'entropia di routing su Mixtral 8×7B su 10.000 token WikiText-2. La distribuzione è asimmetrica a destra con massa significativa a bassi valori di entropia, indicando che molti token hanno decisioni di routing affidabili. Circa il 32% dei token ha entropia inferiore a 1.0 (metà del massimo).

Tabella 4: Statistiche di entropia nei modelli. Tutti i modelli mostrano varianza significativa dell'entropia.

ModelloH MediaStd HMin HMax HH < 50% maxH > 90% max
Mixtral 8×7B1.450.420.312.0432%8%
Qwen1.5-MoE2.810.650.894.0118%12%
OLMoE-1B-7B2.920.710.724.1215%14%
Nemotron 3 Nano5.230.484.126.8525%5%
Risultato Chiave: In tutti e quattro i modelli, il 15-32% dei token mostra bassa entropia di routing (sotto il 50% del massimo), indicando decisioni di routing affidabili. Questi token rappresentano l'opportunità principale per risparmi di calcolo tramite routing Adaptive-K.

5.3 Risultati Principali

5.3.1 Mixtral 8×7B

Per Mixtral con N=8 esperti e baseline K=2, utilizziamo Adaptive-K binario con K ∈ {1, 2} e una soglia calibrata di θ₁ = 1.275 (corrispondente al 62° percentile dell'entropia osservata).

Tabella 5: Risultati Mixtral 8×7B. Adaptive-K ottiene una riduzione del 31.0% del calcolo con solo lo 0.8% di aumento della perplessità.

MetodoK MedioCalcoloWikiText-2 PPLPTB PPLMMLUHellaSwag
Baseline (K=2)2.00100%3.848.2170.6%84.2%
Adaptive-K1.3869.0%3.878.2870.4%84.0%
K=1 (sempre)1.0050.0%4.128.8968.9%82.1%

La distribuzione K mostra che il 62% dei token usa K=1, mentre il restante 38% usa K=2.

5.3.2 Qwen1.5-MoE-A2.7B

Tabella 6: Risultati Qwen1.5-MoE: riduzione del calcolo del 32.4%.

MetodoK MedioCalcoloWikiText-2 PPLMMLU
Baseline (K=4)4.00100%8.1262.3%
Adaptive-K2.7167.6%8.1962.1%

5.3.3 OLMoE-1B-7B

Tabella 7: Risultati OLMoE-1B-7B: riduzione del calcolo del 24.7%.

MetodoK MedioCalcoloWikiText-2 PPL
Baseline (K=8)8.00100%10.45
Adaptive-K6.0275.3%10.51

5.4 NVIDIA Nemotron 3 Nano (Validato Gennaio 2026)

Nemotron 3 Nano rappresenta l'architettura MoE più complessa che abbiamo testato: un ibrido Mamba2-Transformer con 128 esperti instradati + 1 esperto condiviso (sempre attivo), routing top-6, e 30B parametri totali (3.5B attivi). Abbiamo validato Adaptive-K su 2× NVIDIA A100 40GB tramite Vast.ai.

Nota Tecnica: Poiché Nemotron 3 non supporta output_router_logits=True, abbiamo estratto i logit del router pre-top-K tramite hook forward sui moduli backbone.layers.X.mixer.gate.

Tabella 8: Risultati validazione Nemotron 3 Nano. Adaptive-K ottiene una riduzione del 33.3% riducendo K medio da 6 a 4.

Caso di TestEntropia MediaH/HmaxK ProiettatoComputeRisparmio
Facile ("La capitale della Francia")5.26 bit75.1%4.0667.7%32.3%
Codice ("def fibonacci")5.28 bit75.4%4.0066.7%33.3%
Difficile ("entanglement quantistico")5.16 bit73.7%3.9465.7%34.3%
Media5.23 bit74.7%4.0066.7%33.3%

Nota: Risparmio = 1 − (K Proiettato / K Baseline). Con K baseline=6: Risparmio = 1 − 4/6 = 33.3%. Entropia massima Hmax = log₂(128) = 7.0 bit.

5.5 Riepilogo Risultati

Confronto risultati tra i modelli
Figura 2: Confronto dell'utilizzo del calcolo su tutti e quattro i modelli. Adaptive-K riduce costantemente il calcolo del 24-33% mantenendo la qualità dell'output entro l'1% del baseline.

Tabella 9: Riepilogo dei risultati Adaptive-K su tutti i modelli.

ModelloK BaseK Medio AdaptiveRisparmio CalcoloAumento PPLΔ Accuratezza
Mixtral 8×7B21.3831.0%+0.8%−0.2%
Qwen1.5-MoE42.7132.4%+0.9%−0.2%
OLMoE-1B-7B86.0224.7%+0.6%
Nemotron 3 Nano64.0033.3%N/DValidato Gen 2026
Risultati Chiave:

Studi di Ablazione e Analisi

6.1 Sensibilità delle Soglie

Tabella 10: Analisi di sensibilità delle soglie su Mixtral. La soglia calibrata raggiunge un equilibrio ottimale tra risparmio e qualità.

Soglia θ₁% Token K=1K MedioCalcoloWikiText-2 PPLPPL Δ
0.8 (aggressivo)28%1.7286%3.86+0.5%
1.042%1.5879%3.87+0.8%
1.275 (calibrato)62%1.3869%3.87+0.8%
1.578%1.2261%3.90+1.6%
1.8 (molto aggressivo)91%1.0954.5%4.02+4.7%

6.2 Granularità del Valore K

Tabella 11: Analisi della granularità del valore K. La selezione binaria ottiene la migliore efficienza.

Valori K# SoglieK MedioCalcoloPPLNote
{1, 2}11.3869.0%3.87Migliore efficienza
{1, 2, 4}21.2361.5%3.86Miglioramento PPL marginale
{1, 2, 3, 4}31.3869%3.85Rendimenti decrescenti
Insight: La selezione binaria K ({1, K_baseline}) è spesso ottimale. La semplicità della selezione binaria facilita anche l'implementazione e riduce la complessità del tuning delle soglie.

6.3 Caratteristiche dei Token e Selezione K

Tabella 12: Confronto caratteristiche dei token. I token K=1 sono più comuni, più semplici e più facili da prevedere.

CaratteristicaToken K=1Token K=2Significatività
Frequenza token (log rank)4.2 ± 2.16.8 ± 3.2p < 0.001
Complessità sottoparole1.2 token/parola2.1 token/parolap < 0.001
Parte del discorso (% parole contenuto)23%61%p < 0.001
Perplessità modello (per-token)2.18.7p < 0.001
Diagramma architettura Adaptive-K
Figura 4: Architettura del routing Adaptive-K. L'entropia H determina K dinamicamente. Verde = esperti attivi; grigio = saltati.

Lavori Correlati

7.1 Architetture Mixture-of-Experts

Il concetto di Mixture-of-Experts è stato introdotto da Jacobs et al. [21] e Jordan & Jacobs [22] nei primi anni '90. L'applicazione a reti neurali su larga scala è stata avviata da Shazeer et al. [2], che hanno dimostrato che strati MoE con gate sparsi potevano scalare i modelli linguistici a dimensioni senza precedenti.

7.2 Metodi di Calcolo Dinamico

Adaptive-K è complementare a questi approcci e potrebbe essere combinato per guadagni di efficienza moltiplicativa.

7.3 Metodi Basati sull'Entropia nel Deep Learning

L'entropia è stata utilizzata come criterio decisionale in vari contesti: active learning, calibrazione della confidenza, e ricerca dell'architettura neurale. A nostra conoscenza, siamo i primi a utilizzare l'entropia di routing per la selezione dinamica degli esperti nei modelli MoE.

Discussione

8.1 Implicazioni più Ampie

  1. Il K fisso non è ottimale: I notevoli risparmi ottenuti senza perdite di qualità suggeriscono che il routing a K fisso lascia un'efficienza significativa. Le future procedure di addestramento MoE potrebbero trarre vantaggio dall'incorporazione del K variabile fin dall'inizio.
  2. I router codificano la difficoltà: La forte correlazione tra l'entropia di routing e le caratteristiche dei token suggerisce che i router imparano implicitamente a stimare la difficoltà di input.
  3. L'ottimizzazione post-hoc è fattibile: Adaptive-K ottiene i suoi vantaggi senza ricorrere a un nuovo addestramento.

8.2 Limitazioni

8.3 Risparmi Moltiplicativi

Adaptive-K si compone moltiplicativamente con ottimizzazioni ortogonali:

$$\text{Calcolo Totale} = C_{\text{base}} \cdot (1 - S_{AK}) \cdot (1 - S_{\text{quant}}) \cdot (1 - S_{\text{spec}})$$

Esempio: Adaptive-K (31%) + Quantizzazione INT8 (33%) + Decodifica Speculativa (35%):

$$1 - (0.69 \times 0.67 \times 0.65) = 1 - 0.30 = \mathbf{70\%}$$ risparmio
Composizione risparmi moltiplicativi
Figura 5: Composizione moltiplicativa delle tecniche di efficienza. Lo stack combinato raggiunge fino al 90.7% di riduzione totale del calcolo.

Conclusione

Abbiamo presentato il routing Adaptive-K, un metodo basato su principi per la selezione dinamica degli esperti nei modelli Mixture-of-Experts. La nostra analisi teorica, fondata sulla teoria dell'informazione e sulla teoria della distorsione della velocità, stabilisce che l'entropia di routing funge da proxy naturale per la difficoltà di routing, giustificandone l'uso come criterio per la selezione K.

La valutazione empirica su quattro architetture MoE di produzione dimostra che Adaptive-K consente di ottenere notevoli risparmi di elaborazione (24-33%) senza degrado statisticamente significativo della perplessità o delle prestazioni delle attività a valle. Il metodo non richiede modifiche architetturali o riaddestramento del modello.

Messaggio Chiave: Non tutti i token necessitano dello stesso budget computazionale. Selezionando dinamicamente il numero di esperti attivi in ​​base alla confidenza del routing, Adaptive-K ottiene la stessa qualità di output con un carico di calcolo significativamente inferiore — un win-win nel compromesso efficienza-qualità.

Riferimenti

  1. Brown, T., et al. (2020). Language Models are Few-Shot Learners. NeurIPS 2020.
  2. Shazeer, N., et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. ICLR 2017.
  3. Fedus, W., Zoph, B., & Shazeer, N. (2022). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. JMLR, 23(120), 1-39.
  4. Jiang, A.Q., et al. (2024). Mixtral of Experts. arXiv:2401.04088.
  5. Zhou, Y., et al. (2022). Mixture-of-Experts with Expert Choice Routing. NeurIPS 2022.
  6. Zoph, B., et al. (2022). ST-MoE: Designing Stable and Transferable Sparse Expert Models. arXiv:2202.08906.
  7. Schwartz, R., et al. (2020). The Right Tool for the Job: Matching Model and Instance Complexities. ACL 2020.
  8. Elbayad, M., et al. (2020). Depth-Adaptive Transformer. ICLR 2020.
  9. Shannon, C.E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423. [17]
  10. Cover, T.M. & Thomas, J.A. (2006). Elements of Information Theory. Wiley-Interscience. [18]
  11. Merity, S., et al. (2017). Pointer Sentinel Mixture Models. ICLR 2017. [19]
  12. Hendrycks, D., et al. (2021). Measuring Massive Multitask Language Understanding. ICLR 2021. [20]
  13. Jacobs, R.A., et al. (1991). Adaptive Mixtures of Local Experts. Neural Computation, 3(1), 79-87. [21]
  14. Jordan, M.I. & Jacobs, R.A. (1994). Hierarchical Mixtures of Experts and the EM Algorithm. Neural Computation, 6(2), 181-214. [22]
  15. Leviathan, Y., et al. (2023). Fast Inference from Transformers via Speculative Decoding. ICML 2023. [24]
  16. Goyal, S., et al. (2020). Power of Randomization in Token Dropping for NLP Models. arXiv:2010.13369. [25]

A: Configurazione Sperimentale Dettagliata

Tabella A1: Configurazioni complete Adaptive-K per riproducibilità.

ModelloValori KSoglieSet di CalibrazioneDimensione
Mixtral 8×7B[1, 2][1.275]C4-validation5000 campioni
Qwen1.5-MoE[2, 3, 4][1.8, 2.4]C4-validation5000 campioni
OLMoE-1B-7B[4, 6, 8][2.5, 3.2]C4-validation5000 campioni
Nemotron 3 Nano[2, 4, 6][4.5, 5.5]Custom1000 campioni

B: Esempio di Utilizzo SDK

# Installazione
pip install adaptive-k-routing

# Utilizzo base con PyTorch
import torch
from adaptive_k import AdaptiveKRouter, EntropyCalibrator

# Inizializza router per Mixtral
router = AdaptiveKRouter(
    k_values=[1, 2],
    model_name="mixtral-8x7b",
    calibration_mode="percentile"
)

# Calibra su dati di esempio
calibrator = EntropyCalibrator(router)
with torch.no_grad():
    calibrator.calibrate(calibration_loader, percentile=62)

# Applica durante l'inferenza
def forward_with_adaptive_k(hidden_states, router_logits):
    indices, weights, k_selected = router.apply(router_logits)
    # Esegui solo gli esperti selezionati...
    return output, k_selected.float().mean()

# Monitora statistiche
stats = router.get_statistics()
print(f"K Medio: {stats['avg_k']:.2f}")
print(f"Risparmio calcolo: {stats['savings']:.1%}")
print(f"Distribuzione K: {stats['k_distribution']}")

C: Analisi a Livello di Token

Tabella A2: Breakdown delle categorie di token e pattern di selezione K.

Categoria Token% che usa K=1% che usa K=maxEntropia Media
Parole funzionali (il, è, e)85%5%0.72
Sostantivi comuni60%15%1.15
Termini tecnici20%70%1.78
Token di codice25%55%1.65
Punteggiatura92%2%0.45

Ringraziamenti

L'autore ringrazia la comunità open source per aver fornito pesi di modello e framework di inferenza che hanno reso possibile questa ricerca. Un ringraziamento speciale al team di HuggingFace per la libreria Transformers e al progetto vLLM per l'infrastruttura di inferenza ad alte prestazioni. Risorse di calcolo fornite da Vast.ai.

Codice: github.com/Gabrobals/sbm-efficient

PyPI: pip install adaptive-k-routing