Dr. Sourobh Ghosh
Economist at Amazon/Audible
Die Art und Weise, wie Sie Ihr A/B-Testing- und Experimentierprogramm durchführen, hat einen großen Einfluss auf das Ergebnis - sowohl in Bezug auf die Optimierung von Erlebnissen als auch auf den ROI.
Dieser Bericht ist vollgepackt mit Daten aus 127.000 Experimenten - mit Erkenntnissen, Techniken und Beispielen, die aus Praktikern Champions machen.
Tauchen Sie ein und beginnen Sie mit der Lektüre der Studie The Evolution of Experimentieren.
Experimentieren ist nie einfach. Praktiker sehen sich immer wieder mit neuen, großen Herausforderungen konfrontiert: geringere Uplifts, verkleinerte Teams und eine fehlgeleitete Konzentration auf (niedrige) Gewinnraten.
Wie also können Praktiker es besser machen? Was macht Tests erfolgreich? Wie werden Geschäftsergebnisse erzielt?
Wir wollten diese und andere Fragen genauer beantworten und haben uns daher mehrere Jahre lang Experimentierprogramme in verschiedenen Branchen und Reifegraden angesehen. Die Teams führten mehr Experimente durch, verbesserten ihre Prozesse und verringerten Engpässe, aber ihre Experimente waren immer noch nicht erfolgreicher.
Natürlich war es aufgrund zahlreicher Faktoren schwierig, die Gründe für die ausbleibenden Verbesserungen zu ermitteln, aber die Ergebnisse unserer Studie zeigen, dass es bei den Dingen , mit denen Unternehmen experimentieren, um eine messbare Wirkung zu erzielen, noch Verbesserungspotenzial gibt.
Mehr dazu finden Sie weiter unten in den Ergebnissen.
Die Erkenntnisse sind da. Aber woher?
EIN BLICK IN DIE ENTWICKLUNG DES EXPERIMENTIERENS
Man konzentriert sich mehr auf Variationen, Geschwindigkeit und Uplifts, nicht nur auf die Gewinnrate
sind nicht erfolgreich.
der Experimente testen mehr als eine Variante.
der Unternehmen führen über 500 Experimente pro Jahr durch.
erwartete Wirkung durch personalisierte Experimente.
Hier zeichnet sich ein Muster ab: Es besteht eine erhebliche Diskrepanz zwischen dem Verständnis der Praktiken des Experimentierens und der Realität ihrer Ergebnisse.
88% der Tests sind nicht erfolgreich. Das ist wichtig, aber wir beobachten, dass sich viele darauf konzentrieren, ob ein Experiment "gewonnen" oder "verloren" hat. Die Gewinnrate allein ist wohl eine eitle Metrik. Sie können viele winzige, sehr sichere Änderungen vornehmen oder ein halbes Jahr lang forschen, um ein einziges Experiment durchzuführen, das wahrscheinlich gewinnen wird. Ja, Sie könnten ein erfolgreiches Ergebnis erzielen, aber Sie werden trotzdem keine signifikanten Verbesserungen oder überdurchschnittliche Renditen sehen. Wir haben festgestellt, dass Sie sich auf die Gesamtwirkung konzentrieren sollten, wobei die Gewinnrate zusammen mit dem durchschnittlichen Uplift pro Gewinner, der Geschwindigkeit der Einführung und der Zeit bis zum Erreichen der Ergebnisse gemessen wird.
Weniger als 10% der Experimente testen 4 oder mehr Variationen, haben aber die doppelte Wirkung. Gleichzeitig sind diese Experimente im Vergleich zu A/B-Tests mehr als doppelt so wirkungsvoll. Das macht einen weiteren Unterschied deutlich: Die Leute reden ständig von A/B-Testing; dabei geht es um zwei Varianten, die A-Version und die B-Version. Die Daten zeigen jedoch, dass es sich dabei um eine der am wenigsten erfolgreichen Methoden des Experimentierens handelt. Eine einfache Lösung:Fügen Sie Ihren Tests einfach mehr Varianten hinzu!
Lassen Sie uns im nächsten Teil mehr über den Stand des Experimentierens erfahren.
KAPITEL 1: DER STAND DES EXPERIMENTIERENS
Etwa 12% der Experimente gewinnen bei der primären Metrik. Sie erreichen eine statistische Signifikanz. Die verbleibenden 88% sind eine Kombination aus Nicht-Gewinnern und nicht schlüssigen Tests. Das klingt vielleicht ein wenig negativ, ist es aber nicht.
Sie wissen jetzt, was funktioniert hat und was Sie nur vermutet haben. In einer Welt ohne Experimentieren hätten Sie dieses Feature oder diese Funktionalität eingeführt. Aber hier können Sie Funktionen eliminieren, die Ihrem Geschäft schaden. Außerdem können Sie Bereiche identifizieren, die Ihren Kunden egal sind, und so den zusätzlichen Zeit- und Ressourcenaufwand für diese Bereiche minimieren.
Auch die nicht eindeutigen Tests, die weder zu den Gewinnern noch zu den Verlierern gehören, sind immer noch wertvoll. Sie wissen, dass Sie etwas nicht identifiziert haben, das Sie sofort einführen und nutzen können. Sie haben zwar kein Risiko eingedämmt, aber Sie haben dennoch gelernt, dass etwas in Ihrer Funktionalität für die Kunden uninteressant ist, und das ist immer noch nützlich, um es in zukünftige Hypothesen einfließen zu lassen.
Sie verlieren also nicht mit allen Experimenten, die nicht erfolgreich sind. Diese Zahlen stehen im Einklang mit ähnlichen Statistiken, die von Unternehmen wie Google, Airbnb, Microsoft, Netflix und anderen veröffentlicht wurden. Auch sie geben im Durchschnitt eine Gewinnrate von 10 bis 20 Prozent an.
Das durchschnittliche Unternehmen führt 34 Experimente pro Jahr durch. Die besten 3% der Unternehmen führen über 500 durch. Um zu den Top 10% zu gehören, müssen Sie 200 Experimente pro Jahr durchführen.
Unternehmen beschleunigen das Testen von Anfang an und erhöhen die Geschwindigkeit im Durchschnitt um 20% pro Jahr.
Die Zahl der Unternehmen, die ihre Experimentiergeschwindigkeit testen, und der Anteil des Feature Experimentierens ist seit 2018 kontinuierlich gestiegen.
Über 90% der Experimente zielen auf 5 gängige Metriken ab
Die Daten zeigen jedoch, dass 3 dieser Top-5-Kennzahlen eine relativ geringe Wirkung haben. Es besteht die Möglichkeit einer größeren Auswirkung, wenn die Kennzahlen neu priorisiert werden. Ersetzen Sie zum Beispiel "Umsatz" durch "Menü/Navigation". Oder ersetzen Sie "Checkout" durch "Scroll/Engage".
Doch diese wirkungsvolleren Metriken sind immer noch unterpriorisiert. Könnte es sein, dass Sie versehentlich Metriken ignorieren, die einen Unterschied machen können? Ihr Website-Besucher wird sich für die Verbesserungen entscheiden, die jede Metrik für die Buying Journey mit sich bringt.
Fangen Sie also an, sich darauf zu konzentrieren:
Wirkung -> Mehr Uplifts -> Höhere Umsätze.
Es scheint einige Wettbewerbsvorteile für Unternehmen mit einem Umsatz von über 1 Milliarde Dollar zu geben. Das Verkehrsaufkommen und die Fähigkeit, qualitativ hochwertige Tests zu erstellen (Testpipeline), sind die wichtigsten Faktoren für die Geschwindigkeit.
Die Durchführung eines Experiments ist eine Chance zur Verbesserung. Allerdings können die Leute entmutigt werden, wenn nicht jeder Test erfolgreich ist. Der Wert eines Testprogramms besteht aus 2 Teilen.
Sie denken, dass alle Tests, die nicht erfolgreich sind, Ihre Erfolge schmälern. Wenn Ihr Unternehmen im Laufe eines Jahres 100 neue Funktionen einführt, wären nur 10 oder 12 davon eine Verbesserung. Testen funktioniert, weil es hilft, diese 2 Teile zu trennen.
Obwohl nur etwa 1 von 8 Experimenten für die meisten Unternehmen ein Erfolg ist, haben die Tests, die erfolgreich sind, eine beträchtliche Rendite bei den Kennzahlen, die den Menschen wichtig sind.
Die besten 5% der Experimente, die Unternehmen durchführen, sind für etwa 50% der Auswirkungen verantwortlich. Es mag Ihnen so vorkommen, als sei es ein großer Aufwand, diesen einen erfolgreichen Test zu erreichen. Aber wir haben erlebt, dass Experimente Millionen von Dollar an zusätzlichen Einnahmen gebracht haben, nur weil eine einfache Site-Änderung, ein Tweak oder eine Modifikation einer App oder einer Funktionalität vorgenommen wurde.
KAPITEL 2: GROSSE EXPERIMENTE
Die Leistung von Teams ist über einen Zeitraum von drei Jahren stabil. Wie gut Sie also heute sind, ist oft ein guter Indikator dafür, wie gut Sie in 3 Jahren sein werden.
Um Ihre Leistung zu verbessern, müssen Sie das System, mit dem Sie recherchieren, Ideen entwickeln und Experimente durchführen, ständig ändern.
Machen Sie ABCD statt nur AB. Experimente, die mehrere Behandlungen testen, sind 3x erfolgreicher als A/B-Tests.
Führen Sie komplexe Experimente durch. Tests, die größere Änderungen am Erlebnis der Benutzer vornehmen (Preisgestaltung, Rabatte, Checkout-Ablauf, Datenerfassung usw.), haben eine höhere Erfolgswahrscheinlichkeit und einen höheren Uplift.
Wählen Sie die richtigen Metriken. Experimente, die Bandit-Algorithmen nutzen, sind erfolgreicher.
Die Experimente mit dem größten Uplift weltweit haben zwei Dinge gemeinsam:
Großartige Experimente müssen große Sprünge im Erlebnis der Benutzer ausprobieren und gleichzeitig offen für mehrere Wege sein.
Allerdings testen weniger als 10% der Experimente 4 oder mehr Varianten. Dabei sind diese Experimente doppelt so wirkungsvoll wie A/B.
Dr. Sourobh Ghosh
Economist at Amazon/Audible
Nur ein Drittel der Experimente nimmt mehr als eine Änderung vor, und doch zeigen sie deutlich bessere Ergebnisse. Das Zählen der Anzahl der verschiedenen Änderungsarten pro Test ist zwar kein perfektes Maß für die Komplexität, aber es gibt einen besseren Einblick in ein Muster, das schon lange bekannt ist: komplexe Tests schneiden besser ab.
Vergessen Sie die niedrig hängenden Früchte. Sie werden nur dann Zeit und Mühe in ein komplexes Experiment investieren, wenn Sie sicher sind, dass es einen Mehrwert bietet. Aber es ist keine Überraschung, dass Sie die Farbe einer Schaltfläche nur so oft ändern können. Daher ist es wichtig, Zugang zu technischen Ressourcen zu erhalten, um größere Änderungen vornehmen zu können.
Gehen Sie über kosmetische Änderungen hinaus. Winzige Änderungen haben winzige Auswirkungen und Verbesserungen. Um das Nutzerverhalten wirklich zu beeinflussen und die Art und Weise zu ändern, wie Besucher mit Ihrer Website/App interagieren, sollten Sie die Customer Journey so umgestalten, dass sie zum Kaufmoment führt.
Zeigen Sie Eigenverantwortung. Programme, die sich auf winzige Optimierungen konzentrieren, haben nur begrenzte Freiheiten und Ressourcen. Wenn Ihr Programm mehr Ressourcen erhält und Vertrauen gewinnt, erhalten Sie die Macht, sinnvollere Änderungen zu testen.
Im Digital Commerce steht der Umsatz ganz oben auf der Prioritätenliste. Wir sind uns einig, dass dies die wertvollste Geschäftskennzahl ist. Allerdings werden große Optimierungen des frühen Trichters wie die Suche und das Hinzufügen zum Warenkorb noch zu wenig erforscht.
Unternehmen erleben in der Regel größere Erlebnisse, wenn sie ihre Experimente auf die Verbesserung von Mikro-Conversions konzentrieren, z.B. indem sie mehr Nutzer zum Suchen, zum Hinzufügen zum Warenkorb und zum Anmelden von Konten bewegen.
Die Suchrate ist das am meisten unterschätzte Ziel eines Experiments. Obwohl sie nur 1 % der Zeit verwendet wird, hat sie mit 2,3 % die höchste erwartete Wirkung. Es ist wichtig zu wissen, dass Nutzer, die eine Suche durchführen, in der Regel eine doppelt bis dreimal so hohe Conversion Rate wie alle anderen Nutzer aufweisen.
Hazjier Pourkhalkhali
Bei personalisierten Experimenten ist die erwartete Wirkung auf bestimmte Zielgruppen um 41% höher als bei allgemeinen Erlebnissen.
Bei Experimenten mit Targeting ist die Wahrscheinlichkeit, dass Sie gewinnen, um 16% höher als bei Experimenten ohne Targeting.
Personalisierte Erlebnisse führen im Durchschnitt zu 22% mehr Uplifts.
Die um 41% höhere erwartete Wirkung wird durch die Reichweite des Publikums abgeschwächt
Wenn Unternehmen dazu übergehen, 3, 4 oder 5 Varianten zu testen, gehen sie größere Risiken ein. Bei der Änderung des Erlebnisses geht es nicht um eine einfache Änderung, die vielleicht schon jede andere Website ausprobiert hat. Es könnte eine neue Idee sein, die sie als Erste ausprobieren.
Der Sinn des Experimentierens liegt darin, dass Sie nicht wissen, was funktionieren wird. Sie raten nicht mehr. Sie validieren es, indem Sie mehrere Ansätze testen, um herauszufinden, welcher der wirkungsvollste ist.
KAPITEL 3: EXPERIMENTIERKULTUR
Großartige Unternehmen und ihre Kultur des Experimentierens sind anders aufgebaut. Ihr Programm zum Experimentieren läuft nicht im luftleeren Raum und wird oft durch ausreichende Ressourcen und eine Kultur unterstützt, die Risiken fördert. Daten und Analysen sind der Schlüssel zur Formulierung großartiger Hypothesen und die richtigen Leute führen die Experiment-Varianten aus.
Großartiges Experimentieren basiert auf einer effektiven Diagnose und Priorisierung von Benutzerproblemen. Wenn Sie Daten nur unzureichend nutzen, werden Sie sich wahrscheinlich auf Annahmen und Vermutungen verlassen. Es reicht nicht aus, Daten zu haben, Sie müssen sie nutzen, um Entscheidungen zu treffen, die einen Mehrwert für das Unternehmen darstellen.
Unternehmen, die fortschrittliche Analyseverfahren einsetzen, sind beim Experimentieren weitaus erfolgreicher. Teams mit Analytik übertreffen Teams ohne Analytik um 32% pro Test. Teams, die Heatmapping einsetzen, sind zusätzlich 16% erfolgreicher.
KLM customer story
Unternehmen mit einer integrierten CDP scheinen beim Experimentieren viel erfolgreicher zu sein und erzielen bis zu 80% mehr Wirkung. CDPs ermöglichen es Experimentierplattformen, auf eine einzige Quelle von Experimentierdaten aus Ihrem gesamten Ökosystem zuzugreifen.
Ja, hier gibt es wahrscheinlich verwirrende Faktoren. Digital reifere Kunden haben mit größerer Wahrscheinlichkeit ein CDP - aber diese Daten unterstreichen die Notwendigkeit eines CDP als Teil eines digitalen Reifeprozesses.
Um Ihr Programm zum Experimentieren zu skalieren, müssen Sie sorgfältig in Ihre Entwicklerressourcen investieren. Die Durchführung von mehr Tests ist keine Lösung. Hier ist der Grund:
Die Testgeschwindigkeit steigt, wenn Sie über genügend Entwicklerressourcen verfügen. Ohne Skalierung der Entwicklung wird die Geschwindigkeit von Experimenten zu einer eitlen Metrik, die die Programmergebnisse verschlechtert.
Leitende Angestellte haben das Erlebnis. Das kann sie jedoch von moderneren Methoden abhalten, die zu größeren Durchbrüchen führen können. Junior-Teams scheinen risikofreudiger zu sein, mit weniger Erfolgen, aber mehr Aufschwüngen. Daher sollten große Führungskräfte ihre Teams ermutigen, Risiken einzugehen und Alternativen zu erkunden.
Häufige Risiken der Seniorität:
Vorteile der Seniorität:
Es gibt kein allgemeingültiges Governance-Modell, denn Unternehmen berichten von Erfolgen mit unterschiedlichen Ansätzen. Große Programme scheinen gleichmäßig zwischen zentralisierten und dezentralisierten Teams aufgeteilt zu sein, wobei nur geringe Leistungsunterschiede zu beobachten sind. Unternehmen müssen das richtige Modell auf der Grundlage ihrer Team- und Geschäftsanforderungen auswählen.
Faktoren, die Sie bei der Bestimmung des richtigen Governance-Modells für Ihr Unternehmen berücksichtigen sollten.
Kontrolle. Stellen Sie sicher, dass andere Teams die Grundlagen für ein gutes Experiment kennen. Das hilft Ihnen bei der Entscheidung, wer ein Experiment durchführen, die Ergebnisse überprüfen und schließlich feststellen darf, ob ein Gewinner implementiert wurde.
Funktionen. Genügend Ressourcen zu haben ist der erste Schritt zur Durchführung komplexer Experimente.
Verbindung. Eine enge Beziehung zu den sich ändernden Prioritäten des Unternehmens ist entscheidend für die Priorisierung Ihrer Tests und das Wachstum Ihres Teams. Vermeiden Sie es, isoliert zu sein.
Dies ist nur ein kleiner Einblick in einige der großartigen Erkenntnisse, die wir im Rahmen des vollständigen Berichts gesammelt haben. Diese Erkenntnisse haben uns geholfen, außergewöhnliche digitale Erlebnisse für die führenden digitalen Marken der Welt zu schaffen.
Und wir verstehen das. Es ist leicht, sich an den Erfolgsmethoden anderer zu orientieren und sich die erfolgreichen Experimente anzusehen, die in der Vergangenheit durchgeführt wurden, aber die Arbeit zu übersehen, die nötig war, um dieses Ziel zu erreichen.
Wenn Sie versuchen, Ihr Experimentieren in den nächsten Monaten zu skalieren, sollten Sie über die Qualität Ihrer Experimente und die Ihnen zur Verfügung stehenden Entwicklerressourcen nachdenken. So erhalten Sie die gewünschte Geschwindigkeit und können den Wert des Experimentierens im gesamten Unternehmen vermitteln.
Wir von Optimizely können Ihnen dabei helfen, genau das zu tun.