Die Zukunft des Experimentierens

9. Apr. 2026

Wenn die Ausführung billig wird, wird Klarheit teuer.

Die Rote Königin sagte Alice, dass man so schnell laufen muss, wie man kann, nur um am selben Ort zu bleiben. KI brachte digitalen Organisationen genau diese Dynamik. Teams generieren Ideen schneller, produzieren Inhalte schneller und führen Experimente schneller durch als je zuvor. Ihre Wettbewerber auch.

Gleichzeitig komprimiert KI den oberen Teil des Funnels. Weniger Interaktionen schaffen es bis zu Ihren eigenen Oberflächen, was bedeutet, dass viele Teams nun mit zwei Verschiebungen zugleich konfrontiert sind: Die Kosten für das Starten von Experimenten brechen ein, und der Traffic, aus dem gelernt werden kann, wird knapper.

Das verändert das Spiel. Mehr Experimente schneller durchzuführen, ist für sich genommen kein Wettbewerbsvorteil mehr. Viele Teams können das nun tun. Der Vorteil entsteht daraus, unter engeren Beschränkungen schneller zu lernen.

 

Das Paradox der Ausführung-Klarheit

Dies ist die zentrale Spannung.

KI hat das Handeln dramatisch billiger gemacht, aber nicht das Wissen darüber, welches Handeln sich lohnt.

Die Ausführungskosten brechen ein. Die Kosten der Klarheit — zu wissen, was zu testen ist, welche Kennzahl zählt und was das Ergebnis tatsächlich bedeutet — steigen. Die Teams, die billigere Ausführung mit leichterem Lernen verwechseln, werden schneller in Richtung der falschen Ergebnisse optimieren.

 

Das Modell des Experimentierens wurde für Knappheit gebaut

Den größten Teil des letzten Jahrzehnts waren Experimentierprogramme rund um Knappheit organisiert. Statistische Expertise lag bei kleinen Data-Science-Teams. Engineering-Zeit war knapp, sodass Tests mit der Roadmap-Arbeit konkurrierten. Die Analystenkapazität war begrenzt, sodass die Interpretation oft Tage oder sogar Wochen nach dem Ende eines Tests stattfand

Diese Beschränkungen verschwinden rasch. Die Implementierung war früher die einschränkende Funktion für das Experimentieren. Zunehmend ist sie es nicht mehr.

Wir sehen bereits, wie KI-Systeme Hypothesen aufdecken, produktionsreife Variationen generieren, das Test-Setup beschleunigen, Ergebnisse zusammenfassen, für Führungskräfte aufbereitete Auswertungen erstellen und die nächstbesten Maßnahmen empfehlen. Für einen großen Teil gängiger Experimente in den Bereichen Content, Messaging und Layout nähern sich die Grenzkosten der Ausführung null.

Die Daten bestätigen das.

Laut einer Gartner-Prognose (März 2026) werden die Kosten für die Durchführung von Inferenz auf einem LLM mit einer Billion Parametern bis 2030 im Vergleich zu 2025 um über 90 % sinken. Diese Entwicklung lässt die Ausführungskosten über jeden KI-gestützten Workflow hinweg einbrechen, das Experimentieren eingeschlossen.

Unterdessen ergab McKinseys globale Umfrage von 2025, dass 88 % der Organisationen KI inzwischen in mindestens einer Geschäftsfunktion einsetzen, die Mehrheit jedoch in der Pilotphase verbleibt und noch keine unternehmensweite Wirkung erzielt. Die Adoption skaliert schneller als die Fähigkeit, daraus zu lernen, und genau diese Lücke müssen Experimentierprogramme schließen.

Aber Knappheit zu beseitigen, beseitigt nicht die Komplexität. Es verlagert sie. Der Engpass ist nicht verschwunden. Er hat sich stromaufwärts verschoben.

Billige Ausführung steigert das Volumen schneller, als sie das Verständnis steigert. Die eigentlichen Fragen sind nun schwieriger:

Was versuchen wir zu lernen?
Welches Ergebnis zählt?
Welche Kennzahl zeigt ein echtes Signal an, nicht nur Rauschen?

Drei Dinge werden zu entscheidenden menschlichen Verantwortlichkeiten.

1

Definition des Kennzahlen-Frameworks: Das Kennzahlen-Framework ist die Menge der Frühindikatoren, die das Geschäftsergebnis vorhersagen sollten, das Ihnen wichtig ist. Wenn der Loop auf die Aktivierung am 7. Tag abzielt, diese aber nicht die 12-Monats-Bindung vorhersagt, hat die Organisation eine effiziente Maschine gebaut, die auf das falsche Ziel gerichtet ist.

2

Festlegen von Leitplanken: Ein Loop, der nur auf Conversion optimiert ist, wird letztlich den aggressivsten Weg zur Conversion finden, ob er nun langfristigen Wert schafft oder nicht. Jemand muss noch immer die Beschränkungen definieren.

3

Zu wissen, wann das System zu übersteuern ist: Manche strategischen Schritte schneiden kurzfristig schlechter ab. Das System wird versuchen, zum lokalen Optimum zurückzukehren. Zu wissen, wann man Kurs hält, ist nach wie vor menschliches Urteilsvermögen.

Die meisten Experimentierteams sind rund um die Durchführung von Experimenten organisiert. Wenn KI das übernimmt, verschiebt sich die Aufgabe stromaufwärts. Es geht darum, zu entscheiden, was zu lernen sich lohnt, welches Geschäftsergebnis es wert ist, bewegt zu werden, und welche Kennzahlen einem tatsächlich sagen, ob man erfolgreich war.

 

Testen Sie noch Seiten oder testen Sie Entscheidungsrichtlinien?

Das alte mentale Modell des Experimentierens war der statische Vergleich: A gegen B. Zwei Variationen, ein Gewinner, ausliefern. Dieses Modell ist nicht tot. Aber es ist nicht mehr der Schwerpunkt.

Zunehmend ist das getestete Objekt keine Seite und keine Variation. Es ist eine Entscheidungsrichtlinie: was angezeigt wird, wann interveniert wird, wie geroutet wird, welches Angebot, Modell oder welcher Prompt aufgerufen wird — über Web, App und E-Mail hinweg.

Eine Variation ist ein festes Erlebnis. Eine Richtlinie ist eine Menge von Regeln, Wahrscheinlichkeiten oder erlernten Verhaltensweisen, die bestimmt, welches Erlebnis unter welchen Bedingungen ausgeliefert wird. Sie muss über Kontexte, Kanäle, Nutzersegmente und Zeit hinweg bewertet werden, nicht nur zum Gewinner erklärt und ausgeliefert werden.

Die Frage lautet nicht mehr, welche Version besser abschneidet. Sie lautet, welche Entscheidungslogik konsistent bessere Ergebnisse erzeugt.

Die Teams, die dies früh erkennen, werden aufhören, das Experimentieren als eine Optimierungsfunktion auf Seitenebene zu behandeln, und beginnen, es als ein System zur Bewertung der Entscheidungsqualität zu behandeln.

 

Wie verbinden sich Evals und Experimente zu einem einzigen Lern-Loop?

Da Entscheidungssysteme dynamischer werden, sollte nicht jeder Kandidat direkt in den Live-Traffic gehen. Hier werden Evals unverzichtbar.

Evals sind die Screening-Schicht, die genutzt wird, um Qualität, Konsistenz und Sicherheit zu bewerten, bevor ein Kandidat Live-Nutzer erreicht. In der Praxis kann das kuratierte Golden Datasets bedeuten, Unit-Tests für erwartetes Verhalten oder modellbasierte Bewertung anhand definierter Kriterien. Live-Experimente bleiben die Beweisschicht, um zu zeigen, ob eine Änderung das Verhalten oder die Geschäftsergebnisse unter realen Bedingungen tatsächlich bewegt hat. Keines allein ist ausreichend.

Andrej Karpathy führte über sein Open-Source-Autoresearch-System 700 Experimente in 48 Stunden ohne menschliches Eingreifen durch — weil es eine zuverlässige Offline-Eval-Kennzahl hatte. Der Agent fand 20 echte Verbesserungen, die Monate manueller Arbeit übersehen hatten. Shopifys CEO replizierte das Muster über Nacht für einen Zuwachs von 19 %. Die Lehre: Wenn man eine vertrauenswürdige Eval hat, brechen die Experimentkosten auf nahezu null ein. Ohne eine ist Volumen nur Rauschen

Evals ohne Experimente erzeugen Qualitätsbewertungen, keine kausale Evidenz. Experimente ohne Evals verschwenden Live-Traffic an Kandidaten, die nie hätten befördert werden dürfen.

Die Architektur, die funktioniert, ist unkompliziert:

  • Die Richtlinie definieren
  • Sie offline testen
  • Stärkere Kandidaten in den Traffic schicken
  • Die kausale Wirkung messen
  • Fehlschläge in das Eval-System zurückspeisen

Evals filtern. Experimente beweisen.

Dies ist bereits in der Ad-Tech sichtbar. Googles Performance Max und Metas Advantage+ generieren und bewerten kontinuierlich Kandidaten-Richtlinien. Der Loop läuft kontinuierlich, statt darauf zu warten, dass ein Mensch einen Gewinner erklärt.

In den letzten 1–2 Jahren haben die vorausschauendsten Produkt- und Engineering-Verantwortlichen, mit denen ich spreche, begonnen, Evals als die Art und Weise zu behandeln, die Qualität dessen sicherzustellen, was sie ausliefern. Aber A/B-Tests bleiben der Goldstandard, um zu beweisen, dass diese Erlebnisse die Ergebnisse tatsächlich verbessern, besonders wenn sie LLM-basiert und nicht deterministisch sind.

Die stärksten Teams werden aufhören, Evals und Experimente als getrennte Praktiken zu behandeln, die von verschiedenen Menschen mit verschiedenen Zielen durchgeführt werden. Das Tooling, um dies durchgängig zu unterstützen, reift in der Branche noch, aber das architektonische Muster ist klar: Sie verbinden sich zu einem einzigen Lern-Loop.

Das COE verschwindet nicht. Seine Aufgabe ändert sich.

Wenn der Lern-Loop zunehmend von selbst läuft, indem er Hypothesen aufdeckt, Variationen generiert und Ergebnisse interpretiert, wird die Frage, wer die Grenzen festlegt, innerhalb derer er operiert.

Da das Experimentieren leichter zu starten, stärker über Teams verteilt und weniger vom Engineering abhängig wird, kann ein zentrales Team nicht der Prüfer jedes Tests, der Interpret jedes Ergebnisses und das menschliche Rückfallnetz für jede schlechte Entscheidung bleiben.

Das bedeutet nicht, dass Governance weniger wichtig wird. Es bedeutet, dass Governance zunehmend im System selbst sitzen wird: Setup-Leitplanken, Design-Prüfungen, Kennzahlen-Warnungen, standardisierte Bewertungs-Loops und klarere Eskalationspfade für die Fälle, die tatsächlich menschliches Urteilsvermögen erfordern.

Der Punkt ist nicht, dem Experimentieren die Strenge zu nehmen. Es geht darum, aufzuhören, von einer kleinen Anzahl von Menschen zu verlangen, all das manuell zu tragen. Das COE ist nach wie vor wichtig, weil Menschen den Prozess noch immer gestalten, Ausnahmen handhaben und die Adoption in der gesamten Organisation vorantreiben müssen.

Das COE wird weniger zu einem Durchsatz-Engpass und mehr zu einem Standards-Eigentümer, Change Agent und Eskalationspfad. Es definiert Beschränkungen, setzt Qualitätsmaßstäbe, entscheidet, wo menschliche Aufsicht nicht verhandelbar bleibt, und hilft der Organisation, neue Arbeitsweisen zu übernehmen, ohne die Strenge zu verlieren.

Das alte COE schützte die Disziplin, indem es das Urteilsvermögen zentralisierte. Das nächste wird sie schützen, indem es das System und die organisatorischen Gewohnheiten gestaltet, die das Urteilsvermögen sicher demokratisieren.

Statistische Strenge wird zum sich aufsummierenden Vorteil

Schlechte statistische Inferenz skaliert genauso leicht wie gute Inferenz. Sie riskieren nicht mehr einen schlechten Test. Sie riskieren ein System, das immer besser darin wird, das Falsche zu optimieren.

Die meisten Experimentierprogramme entstanden, als Traffic reichlich genug war, um schwache Methodik zu tolerieren. Teams konnten sich verrauschte Tests, grobe Kennzahlen und eine ordentliche Menge Verschwendung leisten. Viele können das nicht mehr. Wenn die Ausführungskosten sinken, während der Traffic, aus dem gelernt werden kann, knapper wird, gewinnen die Organisationen, die effizient lernen, einen echten Vorsprung.

Deshalb hört statistische Strenge auf, Methodik-Hygiene zu sein, und wird zu einem strukturellen Vorteil. Daten in ein LLM einzuspeisen und um eine Schlussfolgerung zu bitten, ist keine statistische Strenge. Methoden, die die Signaleffizienz verbessern und den Beweisstandard anheben, werden wichtiger: Varianzreduktion, sequenzielle Ansätze, stärkeres Proxy-Design, Kontrolle falsch positiver Ergebnisse und straffere kausale Disziplin.

Mehr Experimente sind nicht das Ziel. Zuverlässigeres Lernen ist es.

Die Gewinner der nächsten Ära werden nicht einfach die Teams sein, die mehr Tests starten können. Es werden diejenigen sein, die unter engeren Beschränkungen schneller lernen können, ohne den Beweisstandard zu senken.

 

Zum Abschluss …

Wenn die Ausführung billig wird, wird Klarheit teuer. Die nächste Ära des Experimentierens wird nicht von den Organisationen gewonnen, die die meisten Tests durchführen. Sie wird von denjenigen gewonnen, die wissen, was sie zu verändern versuchen, das Geschäftsergebnis definieren, das zählt, und beweisen können, dass sie es verändert haben. Da das Experimentieren billiger und stärker verteilt wird, verschiebt sich der eigentliche Vorteil hin zu Urteilsvermögen, Governance und Strenge.

Quellen
  1. Gartner. Gartner Predicts That by 2030, Performing Inference on an LLM Will Cost Over 90% Less Than in 2025. Pressemitteilung, 25. März 2026.
  2. McKinsey & Company. The State of AI in 2025: Agents, Innovation, and Transformation. November 2025.
  3. Karpathy, A. autoresearch. GitHub, März 2026. Berichterstattung: Fortune, 17. März 2026.