Da Entscheidungssysteme dynamischer werden, sollte nicht jeder Kandidat direkt in den Live-Traffic gehen. Hier werden Evals unverzichtbar.
Evals sind die Screening-Schicht, die genutzt wird, um Qualität, Konsistenz und Sicherheit zu bewerten, bevor ein Kandidat Live-Nutzer erreicht. In der Praxis kann das kuratierte Golden Datasets bedeuten, Unit-Tests für erwartetes Verhalten oder modellbasierte Bewertung anhand definierter Kriterien. Live-Experimente bleiben die Beweisschicht, um zu zeigen, ob eine Änderung das Verhalten oder die Geschäftsergebnisse unter realen Bedingungen tatsächlich bewegt hat. Keines allein ist ausreichend.
Andrej Karpathy führte über sein Open-Source-Autoresearch-System 700 Experimente in 48 Stunden ohne menschliches Eingreifen durch — weil es eine zuverlässige Offline-Eval-Kennzahl hatte. Der Agent fand 20 echte Verbesserungen, die Monate manueller Arbeit übersehen hatten. Shopifys CEO replizierte das Muster über Nacht für einen Zuwachs von 19 %. Die Lehre: Wenn man eine vertrauenswürdige Eval hat, brechen die Experimentkosten auf nahezu null ein. Ohne eine ist Volumen nur Rauschen
Evals ohne Experimente erzeugen Qualitätsbewertungen, keine kausale Evidenz. Experimente ohne Evals verschwenden Live-Traffic an Kandidaten, die nie hätten befördert werden dürfen.
Die Architektur, die funktioniert, ist unkompliziert:
- Die Richtlinie definieren
- Sie offline testen
- Stärkere Kandidaten in den Traffic schicken
- Die kausale Wirkung messen
- Fehlschläge in das Eval-System zurückspeisen
Evals filtern. Experimente beweisen.
Dies ist bereits in der Ad-Tech sichtbar. Googles Performance Max und Metas Advantage+ generieren und bewerten kontinuierlich Kandidaten-Richtlinien. Der Loop läuft kontinuierlich, statt darauf zu warten, dass ein Mensch einen Gewinner erklärt.
In den letzten 1–2 Jahren haben die vorausschauendsten Produkt- und Engineering-Verantwortlichen, mit denen ich spreche, begonnen, Evals als die Art und Weise zu behandeln, die Qualität dessen sicherzustellen, was sie ausliefern. Aber A/B-Tests bleiben der Goldstandard, um zu beweisen, dass diese Erlebnisse die Ergebnisse tatsächlich verbessern, besonders wenn sie LLM-basiert und nicht deterministisch sind.
Die stärksten Teams werden aufhören, Evals und Experimente als getrennte Praktiken zu behandeln, die von verschiedenen Menschen mit verschiedenen Zielen durchgeführt werden. Das Tooling, um dies durchgängig zu unterstützen, reift in der Branche noch, aber das architektonische Muster ist klar: Sie verbinden sich zu einem einzigen Lern-Loop.