Der Bericht zur Agentischen KI-Experimentierung

900 Unternehmen. 47.000 Interaktionen. Eine Erkenntnis: Der Einfluss von KI steckt auf der individuellen Ebene fest

KI übernimmt den ersten Kontaktpunkt.

Käufer vergleichen Optionen in KI-Tools. Wenn jemand auf Ihrer Website landet, ist er bereits informiert. Bereit zu kaufen.

Deshalb zählt jede Experience, denn immer weniger Suchanfragen enden mit einem Klick.

Aber die Verbesserung dieser Experiences erfordert Aufwand. Jedes Experiment benötigt Recherche, Hypothesenvalidierung, Variationsentwicklung, Durchführung, Monitoring und Analyse. Jeder Schritt wartet auf jemanden.

Also machen Sie Kompromisse. Testen Sie nur die größten Ideen. Lassen Sie kleinere Chancen sich ansammeln. Warten Sie auf eindeutige Ergebnisse.

KI kann helfen ist keine Neuigkeit. Sie haben jedoch KI ausprobiert und sind wahrscheinlich auf eine Herausforderung gestoßen, die wir bei Marken immer wieder sehen:

Wie lässt sich KI zuverlässig, skalierbar und mit Verantwortlichkeit und Governance einsetzen?

Um eine Antwort auf dieses Problem der Skalierung mit KI zu finden, haben wir Daten aus 47.000 Optimizely Opal-Interaktionen und 900 Unternehmen analysiert.

58.74%58.74%

der gesamten Agentennutzung entfällt auf Experimentieren.

Über unsere Forschung

Unsere Erkenntnisse stammen aus drei primären Datenquellen:

Interne Optimizely Opal-Daten: Analysierte Nutzungsdaten aus 47.000 Optimizely Opal-Interaktionen von Kunden, die Optimizely Opal nach dem öffentlichen Launch adoptiert haben, einschließlich Feature-Adoptionsmustern, Nutzerverhalten und messbaren Leistungsergebnissen.

Kundengeschichten von Early Adopters: Direkte Einblicke von fast 900 Optimizely Opal-Nutzern, die ihre Implementierungserfahrungen, überwundenen Herausforderungen und die erzielten greifbaren Auswirkungen beleuchten.

Branchenforschung: Drittanbieter-Forschung und Umfragen von führenden Unternehmen wie McKinsey und Gartner, die externen Kontext zu breiteren KI-Adoptionstrends und Transformationen im Marketing liefern.

900 Unternehmen. 47000 Optimizely Opal-Interaktionen.

Funktioniert KI für Experimentieren?

Teams, die Agenten über den gesamten Lebenszyklus hinweg einsetzen, stehen nicht mehr vor diesem Kompromiss. Sie erhalten beides. Mehr Experimente und höhere Gewinnraten.

+ 78,66 % erstellte Experimente
+ 2,38 % abgeschlossene Experimente
+ 24,05 % erstellte Personalisierungskampagnen
+ 11,97 % abgeschlossene Personalisierungskampagnen
+ 9,26 % Gewinnrate
+ 1,38 % Schlussrate

Was machen diese Teams also anders?

Sie erkennen, dass der wahre Einfluss von KI-Experimentieren darin liegt, Agenten über den gesamten Experimentierprozess hinweg einzusetzen, um den Abschluss zu verbessern.

6,8 % werden von Agenten zusammengefasst.
19,54 % sind Folgemaßnahmen, die durch Agentenempfehlungen ausgelöst werden

Die Erstellung steigt zuerst an. Wenn Teams KI-Agenten in Ausführung und Analyse einbinden, folgen Abschlussraten und Gewinnraten.

So arbeiten sie jetzt

Top 10 %: 60+ Interaktionen
Top 1 %: 198+ Interaktionen

Branchen: Einzelhandel (17,4 %), Software (11,8 %), Finanzdienstleistungen (9,6 %). Außerdem Gesundheitswesen, Bildung und Versicherungen.

Wer das tut: Es sind nicht alles fortgeschrittene Teams mit ausgefeilten Stacks. 37 % sind mittelreif. 12 % befinden sich in einem frühen Stadium. Sie haben dort begonnen, wo Sie jetzt stehen.

All diese fantastischen Ergebnisse, und dennoch können Marken KI-Ergebnisse nicht skalieren. Hier ist der Grund.

Die meisten Teams sind nur einen Workflow von solchen Ergebnissen entfernt, aber ohne das richtige System bleibt jeder Erfolg ein Einzelfall.

10.95%10.95%

der Experimente beginnen mit agentengenerierten Ideen

Alle haben KI. Wenige haben das System, um sie zu skalieren.

Fast alle nutzen KI. Fast niemand kann ihre Implementierung skalieren.

80 % bleiben stecken in Pilotprojekten oder haben keine signifikanten Fortschritte erzielt. Nur 8 % sehen sich als fortgeschritten im Umgang mit KI.

Die meisten Teams nutzen KI für einzelne Aufgaben. Schneller entwerfen. Das hilft Einzelpersonen, ändert aber nicht, wie das Programm läuft.

Mehr Nutzung = besserer Abschluss, nicht nur mehr Starts

Unsere Daten zeigen, dass die Steigerungskurve für abgeschlossene Experimente steiler ist als für erstellte Experimente. Mehr Nutzung bedeutet nicht nur mehr gestartete Tests. Es bedeutet mehr Tests, die zu umsetzbaren Ergebnissen gelangen.

Warum? Agenten übernehmen die operativen Schritte, die Tests in der Mitte des Zyklus zum Stocken bringen:

Ideen in strukturierte Pläne umwandeln, damit Tests nicht auf jemanden warten, der sie aufschreibt
Variationen erstellen, damit Tests nicht in Entwicklungswarteschlangen stecken bleiben
Ergebnisse zusammenfassen und nächste Schritte empfehlen, damit Erkenntnisse nicht in Präsentationen verloren gehen

Robinson Club hat genau dieses System aufgebaut. Michael Richter trainierte Agenten, um produktionsreife Landing Pages zu generieren, Inhalte auf Konsistenz zu prüfen und Wettbewerber zu benchmarken – und verwandelte Aufgaben, die Tage dauerten, in Sekunden.

Das Ergebnis: €4M+ Umsatz durch Experimentieren, skaliert über fünf TUI-Marken und zehn Sprachen. Nicht durch Erhöhung der Mitarbeiterzahl. Durch die Einbettung von Agenten über den gesamten Lebenszyklus.

In Gesprächen mit denen, die Agentische KI einsetzen, erkannten wir, dass die Teams, die Schwierigkeiten haben, drei gemeinsame Probleme teilen:

Die Teams in diesen Daten haben alle drei behoben. Sie haben aufgehört, KI als Werkzeug zu behandeln, und sie stattdessen im gesamten Workflow verankert.

So sieht das aus.

Kein definierter Prozess: Agenten ohne Workflows liefern inkonsistente Ergebnisse. Verschiedene Menschen, verschiedene Ausgaben. Die Nutzung hängt davon ab, wer sich daran erinnert, das Tool zu öffnen.

Keine Orchestrierung: Tools, die nicht verbunden sind, schaffen mehr Übergaben, nicht weniger. Sie sparen Zeit in einem Schritt, verlieren sie bei der Koordination des nächsten.

Keine Governance: Die Qualität variiert je nachdem, wer die Prompts schreibt. Keine Kontrollpunkte. Das Management besorgt sich, was tatsächlich ausgeliefert wird.

€4M+€4M+

bewiesener Umsatz durch Experimentieren

KI steckt auf der Ebene der individuellen Produktivität fest

Eine Idee kommt über ein Anforderungsformular herein. Sie durchläuft eine Machbarkeitsprüfung. Wird gegen das Backlog priorisiert. Jemand schreibt das Experiment-Briefing. Die Entwicklung nimmt es auf. QA prüft es. Es wird gestartet. Ergebnisse kommen herein. Jemand analysiert. Entscheidet, was als nächstes kommt.

Wo es ins Stocken gerät:

Ideen warten auf die eine Person, die Briefings schreibt
Die Entwicklung dauert 2 Sprints pro Variation plus 2 Tage Vorlaufzeit, nur um priorisiert zu werden
Jede Variation benötigt 0,5 Stunden manuelle Genauigkeitsprüfung
Die Analyse hängt davon ab, wer diese Woche Zeit hat
Folgeideen liegen in Slack-Threads

Wenn das vertraut aussieht, werden Sie auch diese kennen:

Freigabeschleifen: Das gleiche Ergebnis geht hin und her. Review-Kommentare, die dem Feedback der letzten Woche widersprechen.

Verantwortungslücken: Ideen ohne Verantwortliche. Ergebnisse werden in Slack geteilt, Folgemaßnahmen werden nie erstellt. Gewinnende Tests, die nicht skaliert werden, weil es niemandes Aufgabe ist, sie zu skalieren.

Inkonsistenz: Das gleiche Briefing, unterschiedliche Ergebnisse je nachdem, wer es aufgreift.

Mangelndes Vertrauen: KI-Modelle können halluzinieren, den Kontext falsch interpretieren und ihr Verhalten im Laufe der Zeit ändern. Agenten-Entscheidungen sind schwer nachzuverfolgen, sodass es sich jedes Mal wie eine Black Box anfühlt.

Diese Ineffizienzen sind die Gründe, warum KI auf der individuellen Produktivitätsebene stecken bleibt, anstatt das Programm zu verändern.

Um das zu lösen, orchestrieren Optimizely Opal KI-Agenten jetzt Anwendungsfälle in Ihren Workflows und skalieren Ihre Wirkung, ohne die Kosten zu skalieren.

Phase	Was passierte	Workflow-Agent
Ideenfindung	5–10 Ideen pro Monat, begrenzt durch die Kapazität einer Person	Ideation Agent generiert 2–5 testbare Ideen pro Anfrage
Briefing	Tage zum Schreiben eines strukturierten Plans	Planning Agent strukturiert in Sekunden
Entwicklung	2 Sprints + 2 Tage Vorlaufzeit pro Variation	Variation Agent erstellt ohne Warteschlange
QA	Manuelle Prüfung, 0,5 Stunden pro Variation	Review Agent markiert Probleme vor dem Launch
Analyse	Warten, bis jemand es aufschreibt	Summary Agent empfiehlt nächste Schritte
Exploration	SQL-Abfragen, Abhängigkeit von Analysten	Data Query Agent beantwortet auf Englisch

Und so können Sie Optimizely Opal-Agenten in Ihrem Experience-Optimierungs-Workflow aktivieren:

Bildquelle: Optimizely

Wenn Ausführung günstig wird, wird Klarheit knapp

Greg Sherwin verbrachte Zeit vor seiner Karriere im Bereich Experimentieren in einem Teilchenphysik-Labor. Er denkt über statistisches Rauschen und Unsicherheit anders als die meisten Menschen in dieser Branche nach.

Bei unserem kürzlichen KI-in-Optimierungs-Webinar stellte er eine Provokation vor, über die es sich lohnt nachzudenken.

Knappheit verschwindet nicht. Sie verändert ihre Form.

Jedes Mal, wenn ein Engpass beseitigt wird, taucht woanders ein neuer auf. KI macht dasselbe mit Experimentieren. Die erste Hälfte des Zyklus ist weitgehend gelöst. Aber der Druck verschwindet nicht. Er verlagert sich stromabwärts.

Booking.com hat jahrelang Tausende von Experimenten parallel durchgeführt. Letzten Monat veröffentlichten sie ein Paper dazu.

Ein Ergebnis stach heraus: 80 % ihrer Experimente hatten keine Power-Berechnung. Vier von fünf Tests laufen, ohne zu wissen, ob genug Daten vorhanden sind, um etwas Reales zu erkennen.

Die Stichprobengrößenberechnung, die niemand durchführt. Die Metrikprüfung, die übersprungen wird. Das sind die ersten Dinge, die wegfallen, wenn das Volumen steigt. Und sie bestimmen, ob es sich überhaupt gelohnt hat, sie durchzuführen.

Die Programme, die vorankommen, optimieren nicht auf Gewinne. Sie optimieren auf Lernen. Standardisierte Metriken, vorregistrierte Hypothesen, Entscheidungsprotokolle. Geschwindigkeit ohne diese Struktur akkumuliert sich nicht. Sie häuft sich nur an.

Genau das ist das Problem, das Workflow-Agenten lösen sollen.

Was Workflow-Agenten anders macht

Sie haben KI genutzt, um eine Hypothese zu entwerfen. Ein Ergebnis zusammenzufassen. Ideen zu brainstormen.

Stellen Sie sich vor, ein Test ist abgeschlossen. Der Agent sieht es. Fasst das Ergebnis zusammen. Identifiziert das Muster. Generiert Folgeideen, die auf Ihren historischen Daten basieren. Erstellt Pläne in Ihrem Format. Stellt sie zur Überprüfung in die Warteschlange.

Sie haben nicht gefragt. Es lief einfach.

Ein Chatbot antwortet, wenn Sie ihn auffordern. Ein Workflow-Agent führt aus. Ein Chatbot fängt jedes Mal neu an. Ein Workflow-Agent erinnert sich.

Agenten stützen sich auf zwei Arten von Gedächtnis:

Sitzungskontext: Der aktuelle Test. Aktuelle Ergebnisse. Was Sie geteilt haben.
Organisationswissen: Ihre Frameworks. Vergangene Erkenntnisse. Was für Ihr Team als „gut" gilt.

Bildquelle: Optimizely

Optimizely Opal hat jetzt Experimentierkontext eingebaut. Es kennt Ihre bestehenden Experimente, Metriken, Feature Flags und die Programmhistorie.

"Ich denke, Opal hat den gesamten Kontext innerhalb von Optimizely, was wirklich hilfreich ist. Es weiß, was das Experiment ist. Wir können ihm tatsächlich unsere Website geben, und es kann einige großartige Ideen generieren, welche Tests wir durchführen sollten."

Anonym, Digital Personalization Manager, Globaler Einzelhandelskonzern, Bekleidung und Accessoires

Das bedeutet, dass die Ideen, die es generiert, nicht generisch sind – sie bauen auf dem auf, was Sie bereits bewiesen haben. Die Testpläne, die es erstellt, folgen Ihrem Format. Die Erkenntnisse, die es aufdeckt, verbinden sich mit Mustern aus Ihrem gesamten Programm, nicht nur mit Einzelergebnissen.

Lernen Sie die Prinzipien für das Design von Workflow-Agenten

Ohne Kontext erhalten Sie generische Ausgaben, die viel Bearbeitung erfordern. Mit Kontext erhalten Sie Ergebnisse, die in Ihrem Unternehmen verankert sind. Konsistent in Ihrem Team. Verbessert sich, wenn mehr Arbeit durchfließt.

Experience Optimization basiert auf verbundenen Schritten.

Und deshalb ist unsere Methodik bei Optimizely im Human Centered Design verankert. Wir begannen damit, reale Experimentierprozesse zu kartieren, echte Reibungspunkte zu identifizieren und Lösungen zu entwerfen, die bestehende Workflows ergänzen, anstatt sie zu stören.

Seit dem Launch im Mai 2025 haben fast 900 Unternehmen Optimizely Opal eingeführt, um KI in ihre Marketing-Workflows einzubetten. Zu den Top-Nutzern gehören Diligent, Robinson Club, Elite Hotels of Sweden und Road Scholar, die zusammen über 2 Milliarden US-Dollar Jahresumsatz repräsentieren.

"Als Einzelperson zählt jede Stunde. Optimizely Opal spart mir nicht nur Zeit—sie liefert wertvolle Erkenntnisse in Minuten. Mit unseren Frameworks liefert sie Ideen und Empfehlungen, die perfekt mit unseren Experimentierzielen übereinstimmen."

Michael Ritchter, Manager Conversion Optimization & UX | E-Commerce, TUI Hotel brands

Warum das funktioniert

Experimentierkontext lebt jetzt in Optimizely Opal. Nicht nur vergangene Ergebnisse. Aktive Tests.

Was läuft. Was noch nicht abgeschlossen ist. Sie können fragen:

„Welche Tests sind noch nicht abgeschlossen?"

„Sollten wir diesen pausieren?"

„Gib mir Testideen für diese Seite."

Optimizely Opal zeigt, was Sie sehen möchten. Darüber hinaus ist Kosten, Wert und Vertrauen von Anfang an im System integriert.

Kosten: KI verhält sich wie Infrastruktur, nicht wie Software. Nutzung skaliert, Kosten skalieren. Optimizely Opal ist darauf ausgelegt, Mehrwert zu liefern, der den Rechenaufwand wert ist, und keine Token für Aufgaben zu verbrauchen, die nichts bewegen.

Wert: Geschwindigkeit, Automatisierung und weniger Fehler sind nicht immer Werttreiber. Das richtige Problem zu lösen schon. Optimizely Opal-Agenten sind auf echte Workflow-Engpässe in Ihrer Experience-Optimierung ausgerichtet, nicht auf generische Anwendungsfälle. Wenn es keine Zeit spart oder die Ergebnisse nicht verbessert, wird es nicht ausgeliefert.

Vertrauen: Modelle halluzinieren. Agenten treffen Entscheidungen, die schwer nachzuverfolgen sind. Vertrauen ist keine Einstellung, die man umschaltet. Es sind Leitplanken, Verifizierung und menschliche Kontrollpunkte, die in das System eingebaut sind. Sie wählen Ihren Autonomiegrad. Sie kontrollieren, was ausgeliefert wird. KI übernimmt die Arbeit, die Sie dorthin bringt.

Deshalb haben wir unsere Workflow-Agenten so gestaltet, dass die Kontrolle bei Ihnen bleibt.

Modell	Wie es funktioniert	Einsatz wenn
Agent-assisted	Agent unterstützt, Sie haben die Kontrolle	Neue Testbereiche erkunden
Human-in-the-loop	Agent schließt Schritt ab, wartet auf Freigabe	Strategische Entscheidungen, markenkritische Tests
Human-on-the-loop	Agent läuft, Sie überwachen	Etablierte Testmuster
Vollautomatisierung	Agent übernimmt von Anfang bis Ende	Risikoarme, hochvolumige Aufgaben (z. B. einfache Personalisierungsregeln)

50%50%

mehr Output durch den Einsatz von Workflow-Agenten (Optimizely Opal AI-Bericht)

Workflow-Agenten in Aktion

Die meisten KI-Tools liegen außerhalb Ihres Workflows. Kopieren. Einfügen. Prompten. Kopieren. Einfügen.

Optimizely-Agenten arbeiten direkt in den Tools, die Sie bereits nutzen. Sie kennen Ihre vergangenen Tests. Ihre Leistungsdaten. Ihre Frameworks. Wenn sie etwas produzieren, ist es bereits dort, wo es sein muss.

1. Experiment-Ideenfindungsagent

Führen Sie mehr Tests durch, ohne die Mitarbeiterzahl zu erhöhen.

Dieser Agent greift auf Muster aus über 127.000 Experimenten zurück. Fügen Sie eine URL ein, teilen Sie Ihre Ziele mit, erhalten Sie Ideen, die auf dem basieren, was funktioniert hat.

18%18%

mehr erstellte Tests. 33 % schnellere Laufzeiten.

0:00 / 0:00

Es gibt auch den Idea Builder. Er lebt direkt im Experiment-Setup selbst. Kein separates Tool. Kein Prompt zum Schreiben. Er liest die Seite, auf der Sie gerade aufbauen, und greift selbstständig auf die Historie Ihres Programms zurück. Öffnen Sie den Setup-Bildschirm, und die Ideen sind bereits da.

2. Personalisierungsagent

Identifizieren Sie hochwertige Personalisierungsmöglichkeiten nach Segment.

Dieser Agent analysiert Verhaltensmuster. Zeigt Ihnen, welche Zielgruppen auf was reagieren. Identifiziert, wo Targeting tatsächlich die Ergebnisse verändern wird.

3. Experiment-Planungsagent

Von der Hypothese zum startfertigen Plan in Sekunden mit dem Planungsagenten.

Zielgruppen. Primäre und sekundäre Metriken. Leitplanken. Laufzeit bis zur statistischen Signifikanz. Was früher eine Stunde Abstimmung zwischen Analyst, PM und Entwickler erforderte.

19%19%

schneller zum Start von Experimenten. 25 % schneller zur statistischen Signifikanz.

4. Variationsentwicklungsagent

Warten Sie nicht mehr auf die Entwicklung. Ihre Idee liegt im Backlog. Umsatz bleibt ungetestet. Klicken Sie auf das Element. Beschreiben Sie, was Sie möchten. Sehen Sie zu, wie der Code geschrieben wird.

0:00 / 0:00

Keine Warteschlange. Keine Abhängigkeit. Kein Warten auf den nächsten Sprint mit dem Variationsentwicklungsagenten.

5. Experiment-Review-Agent

Erkennen Sie Setup-Probleme, bevor Sie Traffic verschwenden.

Kurz vor dem Launch. Ist das Targeting korrekt? Sind die Metriken richtig konfiguriert? Der Agent überprüft Ihr Setup in Echtzeit. Markiert Probleme. Schlägt Korrekturen vor.

0:00 / 0:00

6. Ergebniszusammenfassungsagent

Ergebnisse liegen vor. Der Experiment-Zusammenfassungsagent überprüft Ihre Metriken. Erstellt eine Zusammenfassung. Empfiehlt nächste Schritte: ausrollen, verlängern oder etwas Neues ausprobieren.

Keine Erkenntnisse mehr, die in Dashboards auf jemanden warten, der sie aufschreibt.

7. KI-Explorationsgenerator

Stellen Sie eine Frage auf normalem Deutsch. Erhalten Sie das Dashboard.

Kein SQL. Kein Warten auf den Analysten. Nur die Antwort mit KI in der Analytik.

0:00 / 0:00

Abschlussbemerkungen

KI verändert bereits, wie Kunden Sie finden. Die Teams, die gewinnen werden, sind jene, die Experiences für jeden Besucher optimieren, der tatsächlich landet.

Teams, die KI über den gesamten Lebenszyklus einbetten, führen 78 % mehr Experimente durch und erzielen 9 % bessere Gewinnraten. Sie führen nicht nur mehr Tests durch. Sie lernen schneller als alle anderen.

Sie können KI weiterhin für Einzelaufgaben nutzen. Oder verbinden Sie sich mit uns für eine personalisierte Demo, um:

Ihren KI-Workflow zu kartieren und die Engpässe zu finden

Agenten den Schritten zuzuordnen, die ins Stocken geraten

Dort zu beginnen, wo der KI-Einfluss hoch und der Aufwand gering ist