La simulación multi-fidelity escala el modelado de comportamiento humano ajustando el cómputo a la importancia de la decisión. Las acciones rutinarias usan reglas, los momentos medios usan heurísticas y los eventos críticos llaman a agentes LLM.
Ideas clave
- No uses un LLM en cada tick; enruta la cognición por importancia.
- Despierta agentes solo cuando cambia el contexto relevante.
- Separa tiempo simulado y latencia real con niveles de fidelidad claros.
El problema de escala en simulaciones con agentes LLM
Las simulaciones con agentes LLM se rompen cuando cada agente razona en cada paso temporal. Un mundo pequeño puede parecer coherente en una demo, pero las líneas temporales largas generan latencia, coste y deriva de estado.
El problema central es que la latencia del LLM no equivale al tiempo simulado. Una hora simulada puede contener cientos de acciones pequeñas, pero solo algunas requieren lenguaje, juicio social o planificación estratégica.
Qué significa multi-fidelity
La simulación multi-fidelity asigna modos de ejecución distintos a momentos distintos. Baja fidelidad usa reglas determinísticas. Fidelidad media usa heurísticas o transiciones probabilísticas. Alta fidelidad usa LLM porque la decisión es ambigua, social o importante.
Esto mantiene el sistema más barato y controlable. La rutina se ejecuta rápido y las decisiones relevantes reciben cognición más rica.
- Baja fidelidad: agendas, decay, movimiento rutinario y cambios simples de estado.
- Fidelidad media: heurísticas de segmento, pesos probabilísticos y priors conductuales.
- Alta fidelidad: negociación, objeciones, persuasión, conflicto y planificación.
Dilatación temporal sin perder coherencia
La dilatación temporal permite acelerar o ralentizar el tiempo simulado con un speed factor. El riesgo es que los agentes salten contexto importante o tomen decisiones que no encajan con su memoria.
Un diseño fiable usa checkpoints. El sistema comprime periodos tranquilos, resume qué cambió y expande solo los momentos con decisiones, interacciones o sorpresas.
Una política práctica de routing
Una política útil empieza por la importancia. Cada evento recibe una puntuación según novedad, peso emocional, relevancia estratégica y si cambia objetivos o relaciones del agente.
Si la puntuación es baja, actúan reglas. Si es media, heurísticas actualizan estado. Si es alta, el LLM recibe memorias relevantes, estado del mundo y restricciones de acción antes de planificar.
- Puntúa eventos por novedad, relevancia, intensidad emocional y riesgo.
- Comprime intervalos de baja señal en resúmenes de memoria.
- Llama al LLM solo cuando la decisión cambia comportamiento futuro.
- Registra decisiones de routing para poder depurar la simulación.