La simulazione agentica multi-fidelity scala la modellazione del comportamento umano adattando il compute all'importanza della decisione. Le azioni di routine usano regole, i momenti intermedi usano euristiche e gli eventi critici chiamano agenti LLM.
Punti chiave
- Non usare un LLM a ogni tick; instrada la cognizione in base all'importanza.
- Usa esecuzione event-driven per attivare agenti solo quando il contesto cambia.
- Separa tempo simulato e latenza reale con livelli di fedeltà espliciti.
Il problema di scala nelle simulazioni con agenti LLM
Le simulazioni guidate da LLM si rompono quando ogni agente ragiona a ogni step temporale. Un mondo piccolo può sembrare coerente in demo, ma timeline lunghe generano latenza, costo e drift dello stato.
Il nodo è che la latenza LLM non coincide con il tempo simulato. Un'ora simulata può contenere centinaia di piccole azioni, ma solo poche richiedono linguaggio, giudizio sociale o planning strategico.
Cosa significa multi-fidelity
La simulazione multi-fidelity assegna modalità di esecuzione diverse a momenti diversi. La bassa fedeltà usa regole deterministiche. La media fedeltà usa euristiche o transizioni probabilistiche. L'alta fedeltà usa un LLM perché la decisione è ambigua, sociale o rilevante.
Questo rende il sistema più economico e controllabile. La routine resta veloce, mentre le decisioni importanti ricevono cognizione più ricca.
- Bassa fedeltà: schedule, decay, movimento routinario e cambi di stato semplici.
- Media fedeltà: euristiche di segmento, pesi probabilistici e priors comportamentali.
- Alta fedeltà: negoziazione, obiezioni, persuasione, conflitto e planning.
Time dilation senza perdere coerenza
La time dilation permette di accelerare o rallentare il tempo simulato con uno speed factor. Il rischio è che gli agenti saltino contesto importante o prendano decisioni non coerenti con le loro memorie.
Un design affidabile usa checkpoint. Il sistema comprime periodi tranquilli, sintetizza cosa è cambiato ed espande solo i momenti in cui avvengono decisioni, interazioni o sorprese.
Una policy pratica di routing
Una policy utile parte dall'importanza. Ogni evento riceve uno score basato su novità, peso emotivo, rilevanza strategica e impatto su obiettivi o relazioni dell'agente.
Quando lo score è basso, agiscono le regole. Quando è medio, le euristiche aggiornano lo stato. Quando è alto, l'LLM riceve memorie rilevanti, stato del mondo e vincoli di azione prima di pianificare.
- Dai uno score agli eventi per novità, rilevanza, intensità emotiva e rischio.
- Comprimi intervalli a basso segnale in summary di memoria.
- Chiama l'LLM solo quando la decisione cambia comportamento futuro.
- Logga le decisioni di routing per rendere la simulazione debuggabile.