Simulación de agentes multi-fidelity: escalar el tiempo sin perder calidad conductual

Cómo la simulación event-driven, la dilatación temporal y el routing de LLM reducen coste manteniendo coherencia.

Actualizado 4 may 20268 min de lecturaEscalado de simulación

La simulación multi-fidelity escala el modelado de comportamiento humano ajustando el cómputo a la importancia de la decisión. Las acciones rutinarias usan reglas, los momentos medios usan heurísticas y los eventos críticos llaman a agentes LLM.

Ideas clave

No uses un LLM en cada tick; enruta la cognición por importancia.
Despierta agentes solo cuando cambia el contexto relevante.
Separa tiempo simulado y latencia real con niveles de fidelidad claros.

El problema de escala en simulaciones con agentes LLM

Las simulaciones con agentes LLM se rompen cuando cada agente razona en cada paso temporal. Un mundo pequeño puede parecer coherente en una demo, pero las líneas temporales largas generan latencia, coste y deriva de estado.

El problema central es que la latencia del LLM no equivale al tiempo simulado. Una hora simulada puede contener cientos de acciones pequeñas, pero solo algunas requieren lenguaje, juicio social o planificación estratégica.

Qué significa multi-fidelity

La simulación multi-fidelity asigna modos de ejecución distintos a momentos distintos. Baja fidelidad usa reglas determinísticas. Fidelidad media usa heurísticas o transiciones probabilísticas. Alta fidelidad usa LLM porque la decisión es ambigua, social o importante.

Esto mantiene el sistema más barato y controlable. La rutina se ejecuta rápido y las decisiones relevantes reciben cognición más rica.

Baja fidelidad: agendas, decay, movimiento rutinario y cambios simples de estado.
Fidelidad media: heurísticas de segmento, pesos probabilísticos y priors conductuales.
Alta fidelidad: negociación, objeciones, persuasión, conflicto y planificación.

Dilatación temporal sin perder coherencia

La dilatación temporal permite acelerar o ralentizar el tiempo simulado con un speed factor. El riesgo es que los agentes salten contexto importante o tomen decisiones que no encajan con su memoria.

Un diseño fiable usa checkpoints. El sistema comprime periodos tranquilos, resume qué cambió y expande solo los momentos con decisiones, interacciones o sorpresas.

Una política práctica de routing

Una política útil empieza por la importancia. Cada evento recibe una puntuación según novedad, peso emocional, relevancia estratégica y si cambia objetivos o relaciones del agente.

Si la puntuación es baja, actúan reglas. Si es media, heurísticas actualizan estado. Si es alta, el LLM recibe memorias relevantes, estado del mundo y restricciones de acción antes de planificar.

Puntúa eventos por novedad, relevancia, intensidad emocional y riesgo.
Comprime intervalos de baja señal en resúmenes de memoria.
Llama al LLM solo cuando la decisión cambia comportamiento futuro.
Registra decisiones de routing para poder depurar la simulación.

Simulación de agentes multi-fidelity: escalar el tiempo sin perder calidad conductual

Ideas clave

El problema de escala en simulaciones con agentes LLM

Qué significa multi-fidelity

Dilatación temporal sin perder coherencia

Una política práctica de routing

Blog

Sistemas de simulación componibles para modelar comportamiento humano con agentes LLM

Simulación human-in-the-loop: controlar agentes sintéticos sin romper la coherencia

Humanos sintéticos para investigación de mercado: qué probar antes del lanzamiento