Multi-Fidelity-Agentensimulation skaliert menschliches Verhalten, indem Rechenaufwand an Entscheidungswichtigkeit angepasst wird. Routineaktionen laufen über Regeln, mittlere Momente über Heuristiken und kritische Ereignisse über LLM-Agenten.
Wichtigste Punkte
- Nutze kein LLM bei jedem Tick; route Kognition nach Wichtigkeit.
- Wecke Agenten nur, wenn relevanter Kontext wechselt.
- Trenne simulierte Zeit von realer Latenz durch klare Fidelity-Level.
Das Skalierungsproblem bei LLM-Agenten
LLM-Simulationen brechen ein, wenn jeder Agent bei jedem Zeitschritt argumentiert. Eine kleine Welt wirkt in einer Demo kohärent, aber lange Timelines erzeugen Latenz, Kosten und Zustandsdrift.
Das Kernproblem ist, dass LLM-Latenz nicht simulierte Zeit ist. Eine simulierte Stunde kann hunderte kleine Aktionen enthalten, aber nur wenige benötigen Sprache, soziales Urteil oder strategische Planung.
Was Multi-Fidelity bedeutet
Multi-Fidelity-Simulation weist verschiedenen Momenten verschiedene Ausführungsmodi zu. Niedrige Fidelity nutzt deterministische Regeln. Mittlere Fidelity nutzt Heuristiken oder probabilistische Übergänge. Hohe Fidelity nutzt ein LLM, weil die Entscheidung mehrdeutig, sozial oder folgenreich ist.
So bleibt das System günstiger und kontrollierbarer. Routine bleibt schnell, wichtige Entscheidungen erhalten reichere Kognition.
- Niedrige Fidelity: Pläne, Decay, Routinebewegung und einfache Zustandswechsel.
- Mittlere Fidelity: Segmentheuristiken, Wahrscheinlichkeiten und Verhaltenspriors.
- Hohe Fidelity: Verhandlung, Einwände, Überzeugung, Konflikt und Planung.
Zeitdehnung ohne Kohärenzverlust
Zeitdehnung beschleunigt oder verlangsamt simulierte Zeit über einen Speed Factor. Das Risiko ist, dass Agenten wichtigen Kontext überspringen oder Entscheidungen treffen, die nicht zu ihrem Gedächtnis passen.
Ein verlässliches Design nutzt Checkpoints. Das System komprimiert ruhige Perioden, fasst Veränderungen zusammen und expandiert nur Momente mit Entscheidungen, Interaktionen oder Überraschungen.
Eine praktische Routing-Policy
Eine nützliche Policy beginnt mit Wichtigkeit. Jedes Ereignis erhält einen Score nach Neuheit, emotionalem Gewicht, strategischer Relevanz und Einfluss auf Ziele oder Beziehungen.
Bei niedrigem Score handeln Regeln. Bei mittlerem Score aktualisieren Heuristiken den Zustand. Bei hohem Score erhält das LLM relevante Erinnerungen, Weltzustand und Handlungseinschränkungen.
- Bewerte Ereignisse nach Neuheit, Relevanz, emotionaler Intensität und Risiko.
- Komprimi signalarmen Zeitraum zu Gedächtniszusammenfassungen.
- Rufe das LLM nur auf, wenn die Entscheidung zukünftiges Verhalten verändert.
- Logge Routing-Entscheidungen, damit die Simulation debugbar bleibt.