The story behind our Stats Engine

Klassische statistische Verfahren wie der t-Test bilden das Fundament der Optimierungsbranche und helfen Unternehmen, datengestützte Entscheidungen zu treffen.

Klassische statistische Verfahren wie der t-Test bilden das Fundament der Optimierungsbranche und helfen Unternehmen, datenbasierte Entscheidungen zu treffen. Angesichts der rasanten Zunahme von Online-Experimenten ist jedoch deutlich geworden, dass diese traditionellen statistischen Methoden für digitale Daten ungeeignet sind: Die Anwendung klassischer Statistik auf A/B-Tests kann zu Fehlerraten führen, die deutlich höher sind als von den meisten Experimentatoren erwartet. Sowohl Experten aus der Branche als auch aus der Wissenschaft setzen auf Aufklärung als Lösung. Nicht spicken! Nutzen Sie einen Stichprobenrechner! Vermeiden Sie es, zu viele Ziele und Varianten gleichzeitig zu testen! Wir sind jedoch zu dem Schluss gekommen, dass es Zeit ist, dass sich die Statistik ändert, nicht die Kunden. Verabschieden Sie sich vom klassischen t-Test. Es ist Zeit für Statistiken, die einfach anzuwenden sind und sich an den tatsächlichen Geschäftsprozessen orientieren.

In Zusammenarbeit mit einem Team von Statistikern der Stanford University haben wir Stats Engine entwickelt, ein neues statistisches Framework für A/B-Tests. Wir freuen uns, Ihnen mitteilen zu können, dass es ab dem 21. Januar 2015 die Ergebnisse für alle Optimizely-Kunden liefert.

Dieser Blogbeitrag ist etwas länger, denn wir möchten Ihnen transparent darlegen, warum wir diese Änderungen vornehmen, was genau diese Änderungen beinhalten und was dies für A/B-Tests im Allgemeinen bedeutet. Lesen Sie bis zum Ende, um mehr zu erfahren:

Warum wir Stats Engine entwickelt haben:Das Internet ermöglicht es, Experimentergebnisse jederzeit einfach auszuwerten und Tests mit vielen Zielen und Variationen durchzuführen. In Kombination mit klassischer Statistik können diese intuitiven Vorgehensweisen die Wahrscheinlichkeit einer falschen Bestimmung einer Gewinn- oder Verlustvariante um mehr als das Fünffache erhöhen.

So funktioniert es:Wir kombinieren sequentielles Testen und Kontrollen der Fehlentdeckungsrate, um Ergebnisse zu liefern, die unabhängig von der Stichprobengröße gültig sind und die von uns gemeldete Fehlerrate an die für Unternehmen relevante Fehlerquote anpassen.
Warum es besser ist:Stats Engine kann die Wahrscheinlichkeit einer falschen Bestimmung einer Gewinn- oder Verlustvariante von 30 % auf 5 % reduzieren, ohne die Geschwindigkeit zu beeinträchtigen.

Warum wir eine neue Stats Engine entwickelt haben

Herkömmliche Statistik ist unintuitiv, leicht missbrauchbar und lässt Geld ungenutzt.

Tabelle. Um mit klassischen statistischen Methoden valide Ergebnisse aus A/B-Tests zu erhalten, befolgen sorgfältige Experimentatoren strenge Richtlinien: Sie legen im Voraus einen minimalen nachweisbaren Effekt und eine minimale Stichprobengröße fest, schauen nicht in die Ergebnisse hinein und testen nicht zu viele Ziele und Varianten gleichzeitig. Diese Richtlinien können aufwendig sein, und wenn sie nicht genau befolgt werden, können unbewusst Fehler in die Tests eingeschleust werden. Dies sind die Probleme dieser Richtlinien, die wir mit Stats Engine beheben wollen:

Die Festlegung eines messbaren Effekts und einer Stichprobengröße im Voraus ist ineffizient und nicht intuitiv.
Ein Blick auf die Ergebnisse vor Erreichen dieser Stichprobengröße kann zu Fehlern führen, und Sie könnten auf vermeintliche Gewinner reagieren.
Das gleichzeitige Testen zu vieler Ziele und Varianten erhöht die Fehlerrate aufgrund falscher Entdeckungen erheblich – eine Fehlerrate, die deutlich höher sein kann als die Rate falsch positiver Ergebnisse.

Die Festlegung einer Stichprobengröße und eines messbaren Effekts kann Ihren Prozess verlangsamen.

Die Festlegung einer Stichprobengröße vor Testbeginn hilft, Fehler bei traditionellen statistischen Methoden zu vermeiden. Um eine Stichprobengröße festzulegen, müssen Sie außerdem den minimal messbaren Effekt (MDE) oder die erwartete Steigerung der Konversionsrate abschätzen, die Sie in Ihrem Test erzielen möchten. Eine falsche Annahme kann die Testgeschwindigkeit erheblich beeinträchtigen.

Legt man einen kleinen Effekt fest, muss man auf eine große Stichprobe warten, um die Signifikanz der Ergebnisse zu überprüfen. Legt man einen größeren Effekt fest, riskiert man, kleinere Verbesserungen zu verpassen. Das ist nicht nur ineffizient, sondern auch unrealistisch. Die meisten führen Tests durch, weil sie nicht wissen, was passieren wird, und sich im Voraus auf eine hypothetische Verbesserung festzulegen, ist wenig sinnvoll.

Das ständige Überprüfen der Ergebnisse erhöht die Fehlerquote.

Wenn Daten in Echtzeit in Ihr Experiment fließen, ist es verlockend, die Ergebnisse ständig zu überprüfen.

Sie möchten einen erfolgreichen Test so schnell wie möglich implementieren, um Ihr Unternehmen zu verbessern, oder einen ergebnislosen Test so früh wie möglich abbrechen, um weitere Hypothesen zu testen.

Statistiker nennen dieses ständige Überprüfen „kontinuierliches Monitoring“. Dadurch erhöht sich die Wahrscheinlichkeit, ein positives Ergebnis zu finden, obwohl eigentlich keines existiert (kontinuierliches Monitoring ist natürlich nur dann problematisch, wenn Sie den Test vorzeitig abbrechen, aber Sie verstehen das Prinzip). Das Finden eines nicht signifikanten Gewinners wird als falsch-positiv oder Fehler 1. Art bezeichnet.

Jeder Test auf statistische Signifikanz birgt ein gewisses Fehlerrisiko.

Einen Test mit einer statistischen Signifikanz von 95 % durchzuführen (also einen t-Test mit einem Alpha-Wert von 0,05) bedeutet, dass Sie eine Wahrscheinlichkeit von 5 % akzeptieren, dass ein A/A-Test ohne tatsächlichen Unterschied zwischen den Varianten ein signifikantes Ergebnis liefert.

Um zu veranschaulichen, wie gefährlich kontinuierliches Monitoring sein kann, haben wir Millionen von A/A-Tests mit 5.000 Besuchern simuliert und die Fehlerwahrscheinlichkeit unter verschiedenen Strategien für kontinuierliches Monitoring bewertet. Wir stellten fest, dass selbst konservative Strategien die Fehlerrate von einem Zielwert von 5 % auf über 25 % erhöhen können.

In unserer Untersuchung haben mehr als 57 % der simulierten A/A-Tests mindestens einmal fälschlicherweise einen Gewinner oder Verlierer ermittelt, wenn auch nur kurz. Mit anderen Worten: Hätten Sie diese Tests beobachtet, hätten Sie sich möglicherweise gewundert, warum Ihr A/A-Test einen Gewinner ausgerufen hat. Der Anstieg der Fehlerrate ist auch dann signifikant, wenn man nicht jeden Besucher einzeln überprüft. Bei einer Überprüfung alle 500 Besucher steigt die Wahrscheinlichkeit einer falschen Angabe auf 26 %, bei einer Überprüfung alle 1000 Besucher auf 20 %.

Diese Grafik zeigt den Verlauf der statistischen Signifikanz eines A/B-Tests über die Zeit. Sie veranschaulicht, wo die Versuchsleiterin ein signifikantes Ergebnis festgestellt hätte, wenn sie den Test kontinuierlich überwacht hätte.

Selbst wenn Ihnen dieses Problem bekannt ist, führen vermeintlich sinnvolle „Korrekturen“ weiterhin zu hohen Fehlerraten. Angenommen, Sie vertrauen einem signifikanten Ergebnis Ihres A/B-Tests nicht. Wie viele Optimizely-Nutzer verwenden Sie dann möglicherweise einen Stichprobenrechner, während Ihr Test bereits läuft, um zu bestimmen, ob die Testlaufzeit ausreichend ist.

Die Anpassung der Stichprobengröße mithilfe des Rechners während des Tests wird als „Post-hoc-Berechnung“ bezeichnet. Obwohl sie das Risiko einer kontinuierlichen Überwachung etwas mindert, führt sie dennoch zu Fehlerraten von etwa 25 %. Bisher bestand die einzige Möglichkeit, sich vor diesen Fehlern zu schützen, darin, den Stichprobenrechner vor Testbeginn zu verwenden und dann abzuwarten, bis die Stichprobengröße erreicht ist, bevor man Entscheidungen auf Basis der Ergebnisse trifft. Die gute Nachricht ist: Es gibt eine einfache, aber elegante statistische Lösung, mit der Sie jederzeit valide Ergebnisse einsehen können, ohne im Voraus einen minimalen nachweisbaren Effekt schätzen zu müssen. Man nennt das sequentielles Testen, und wir werden es später genauer besprechen.

Das gleichzeitige Testen vieler Ziele und Varianten führt zu mehr Fehlern, als man denkt.

Eine weitere Falle der traditionellen Statistik ist das gleichzeitige Testen vieler Ziele und Varianten (das „Problem der Mehrfachvergleiche“ oder „Problem des Mehrfachtestens). Das liegt daran, dass die traditionelle Statistik Fehler durch die Kontrolle der Falsch-Positiv-Rate (FPR) kontrolliert. Dieser Fehler, den Sie in Ihrem Signifikanzschwellenwert festlegen, entspricht jedoch nicht der Wahrscheinlichkeit einer falschen Geschäftsentscheidung.

Die Fehlerrate, die Sie zur Korrektur des Problems des Mehrfachtestens tatsächlich kontrollieren sollten, ist die Falsch-Entdeckungsrate (FDR).

Im folgenden Beispiel zeigen wir, wie die Kontrolle einer Falsch-Positiv-Rate von 10 % (90 % statistische Signifikanz) zu einer 50%igen Wahrscheinlichkeit einer falschen Geschäftsentscheidung aufgrund falscher Ergebnisse führen kann. Stellen Sie sich vor, Sie testen fünf Varianten Ihres Produkts oder Ihrer Website, die jeweils zwei Ziele als Erfolgsmetriken haben. Eine dieser Varianten übertrifft die Basisversion und wird korrekterweise als Gewinner erklärt. Rein zufällig würden wir erwarten, dass etwa eine weitere Variante fälschlicherweise als Gewinner erklärt wird (10 % der verbleibenden neun Ziel-Varianten-Kombinationen). Nun haben wir zwei Varianten, die als Gewinner erklärt werden. Obwohl wir eine Falsch-Positiv-Rate von 10 % (1 falsch positives Ergebnis) berücksichtigt haben, ist das Verhältnis von falschen zu korrekten Ergebnissen deutlich höher (50 %), wodurch die Wahrscheinlichkeit einer Fehlentscheidung erheblich steigt.

In diesem Experiment gab es zwei Gewinner unter zehn getesteten Torvariantenkombinationen. Nur einer dieser Gewinner weicht tatsächlich von der Basislinie ab, während der andere ein falsch positives Ergebnis darstellt.

In diesem Experiment gab es zwei Gewinner unter zehn getesteten Ziel-Variations-Kombinationen. Nur einer dieser Gewinner unterscheidet sich tatsächlich von der Basislinie, der andere ist ein falsch positives Ergebnis. Die Kontrolle der Rate falsch positiver Ergebnisse ist riskant, da der Experimentator unbewusst dafür bestraft wird, viele Ziele und Variationen getestet zu haben. Unvorsichtiges Vorgehen führt zu höheren Risiken als angenommen. Um dieses Problem bei traditionellen A/B-Tests zu vermeiden, muss die Anzahl der laufenden Experimente stets berücksichtigt werden. Ein Ergebnis aus zehn Tests ist anders als eines aus zwei Tests. Glücklicherweise gibt es eine systematische Methode, die Fehlerrate Ihres Experiments an die erwartete Fehlerrate anzupassen. Stats Engine erreicht dies durch die Kontrolle sogenannter falsch positiver Ergebnisse. Die Fehlerrate, die Sie in Ihrem Signifikanzschwellenwert mit Stats Engine festlegen, spiegelt die tatsächliche Wahrscheinlichkeit einer falschen Geschäftsentscheidung wider.

So funktioniert Stats Engine

Stats Engine kombiniert innovative statistische Methoden, um Ihnen schneller verlässliche Daten zu liefern.

Wir haben in den letzten vier Jahren von unseren Kunden von den oben genannten Problemen gehört und wussten, dass es einen besseren Weg geben musste, diese zu lösen, als einen Stichprobenrechner und weitere Fachartikel.

Wir haben uns mit Statistikern der Stanford University zusammengetan, um ein neues statistisches Framework für A/B-Tests zu entwickeln, das leistungsstark, präzise und vor allem benutzerfreundlich ist. Diese neue Statistik-Engine besteht aus zwei Methoden: sequenziellem Testen und Kontrolle der Fehlentdeckungsrate.

Sequenzielles Testen: Treffen Sie Entscheidungen, sobald Sie einen Gewinner erkennen.

Im Gegensatz zum Testen mit festem Horizont, bei dem die Experimentdaten nur zu einem Zeitpunkt und mit einer festgelegten Stichprobengröße ausgewertet werden, ist das sequentielle Testen darauf ausgelegt, die Experimentdaten während ihrer Erfassung auszuwerten. Sequenzielle Tests können jederzeit mit gültigen Ergebnissen abgebrochen werden.

Experimentatoren verfügen selten über eine feste Stichprobengröße und ihr Ziel ist es in der Regel, so schnell wie möglich zu einer zuverlässigen Schlussfolgerung zu gelangen. Die Statistik-Engine erfüllt diese Ziele durch eine Implementierung des sequentiellen Testens, die jedes Mal, wenn ein neuer Besucher ein Ereignis auslöst, ein durchschnittliches Likelihood-Verhältnis berechnet – die relative Wahrscheinlichkeit, dass sich die Variation von der Basislinie unterscheidet. Der p-Wert eines Tests repräsentiert nun die Wahrscheinlichkeit, dass der Test jemals die von Ihnen gewählte Signifikanzschwelle erreicht. Er ist das Äquivalent eines traditionellen p-Werts für eine Welt, in der Ihre Stichprobengröße dynamisch ist. Dies wird als Power-1-Test bezeichnet und eignet sich besser für die Ziele von A/B-Testern als ein herkömmlicher t-Test.

Das bedeutet, Sie erhalten zuverlässige und valide Schlussfolgerungen, sobald diese verfügbar sind, ohne im Voraus einen minimalen nachweisbaren Effekt festlegen oder auf eine bestimmte Stichprobengröße warten zu müssen. Kontrolle der Fehlentdeckungsrate: Testen Sie zahlreiche Ziele und Varianten mit garantierter Genauigkeit. Eine Fehlentdeckungsrate von 10 % bedeutet, dass „maximal 10 % der Gewinner und Verlierer keinen Unterschied zwischen Variante und Basislinie aufweisen“. Dies entspricht genau der Wahrscheinlichkeit einer falschen Geschäftsentscheidung. Mit der Statistik-Engine meldet Optimizely nun Gewinner und Verlierer mit niedriger Fehlentdeckungsrate anstelle einer niedrigen Rate falsch positiver Ergebnisse. Je mehr Ziele und Varianten Sie Ihrem Experiment hinzufügen, desto stärker korrigiert Optimizely Fehlentdeckungen und wird bei der Bestimmung von Gewinnern und Verlierern konservativer. Obwohl insgesamt weniger Gewinner und Verlierer gemeldet werden (wir fanden in unserer historischen Datenbank etwa 20 % weniger*), kann ein Experimentator diese Methoden in voller Kenntnis des damit verbundenen Risikos anwenden. In Kombination mit sequenziellen Tests ermöglicht die Kontrolle der Fehlentdeckungsrate (FDR) eine präzise Einschätzung des Fehlerrisikos bei jeder Auswertung der Testergebnisse. Die Kontrolle ermöglicht Ihnen eine transparente Einschätzung des Risikos einer Fehlentscheidung.

Das bedeutet, Sie können beliebig viele Ziele und Varianten mit garantierter Genauigkeit testen.

* Anhand einer großen, repräsentativen Stichprobe historischer A/B-Tests von Optimizely-Kunden stellten wir fest, dass es im Vergleich zur Falsch-Positiv-Rate bei gleichem Niveau etwa 20 % weniger Varianten mit einer Falsch-Entdeckungsrate unter 0,1 gab.

Die Vorteile

Die Stats Engine von Optimizely reduziert Fehler, ohne die Geschwindigkeit zu beeinträchtigen.

Wir haben 48.000* historische Experimente mit der Stats Engine erneut durchgeführt, und die Ergebnisse sind eindeutig: Die Stats Engine liefert genauere und umsetzbare Ergebnisse ohne Geschwindigkeitseinbußen.

Vertrauen Sie Ihren Gewinnern und Verlierer.

Die Fixed Horizon-Statistiken ermittelten in 36 % der Tests einen Gewinner oder Verlierer (zum Zeitpunkt des Testabbruchs). Im selben Datensatz ermittelte Stats Engine in 22 % der Tests einen Gewinner oder Verlierer.

Stats Engine lieferte 39 % weniger aussagekräftige Testergebnisse als herkömmliche statistische Verfahren. Diese Zahl mag alarmierend erscheinen (und hat uns anfangs auch beunruhigt!), doch wir stellten fest, dass viele dieser abgebrochenen Experimente wahrscheinlich zu früh beendet wurden.

Um zu diesem Ergebnis zu gelangen, verwendeten wir eine ähnliche Methodik wie Kunden, die den Stichprobenrechner verwenden, um die Teststärke (die Wahrscheinlichkeit, einen Effekt zu erkennen, falls er tatsächlich existiert) nach Testbeginn zu bestimmen – eine nachträgliche Poweranalyse. Tests mit zu geringer Power deuten darauf hin, dass die Daten nicht genügend Informationen enthalten, um eindeutig zwischen falsch positiven und richtig positiven Ergebnissen zu unterscheiden. Bei Verwendung eines statistischen Power-Standards von 80 % waren die meisten (80 %) der Experimente, die Stats Engine nicht mehr als aussagekräftig einstufte, unterpowert, während die meisten (77 %) der von Stats Engine beibehaltenen Experimente ausreichend Power aufwiesen.

Verlässliche Empfehlungen.

Die Fixed Horizon-Statistiken änderten in 44 % unserer historischen Experimente die Aussage zum Gewinner oder Verlierer. Stats Engine änderte die Aussage in 6 % dieser Tests.

Mit den Fixed Horizon-Statistiken konnte es vorkommen, dass an einem Tag ein Gewinner und am nächsten Tag ein unklares Ergebnis angezeigt wurde. Die einzig gültige Aussage war diejenige, die auf Ihrer vorab festgelegten Stichprobengröße basierte. Mit Stats Engine sind die Ergebnisse stets gültig und verändern ein eindeutiges Ergebnis mit hoher Wahrscheinlichkeit nicht.

Mit Stats Engine sank die Rate falsch positiver Ergebnisse von >20 % auf <5 .>

Erinnern Sie sich an unsere A/A-Testsimulationen (jeder Test wurde mit 5000 Besuchern durchgeführt), in denen wir die Gefahren des Spähens erörtert haben? In diesen Simulationen führten wir Tests mit einem Signifikanzniveau von 95 % durch und fanden Folgendes heraus: Wenn man die Ergebnisse nach jedem neuen Besucher betrachtet, liegt die Wahrscheinlichkeit, einen Gewinner oder Verlierer zu ermitteln, bei 57 %. Wenn man die Ergebnisse alle 500 Besucher betrachtet, liegt die Wahrscheinlichkeit einer falschen Ermittlung bei 26 %. Wenn man die Ergebnisse alle 1000 Besucher betrachtet, liegt die Wahrscheinlichkeit einer falschen Ermittlung bei 20 %. Bei sequenziellen Tests (Betrachtung jedes einzelnen Besuchers) sinkt diese Fehlerquote auf 3 %. Wenn wir diese Simulationen mit größeren Stichprobenumfängen (z. B. 10.000 oder sogar 1.000.000 Besuchern) durchführen, steigt die Wahrscheinlichkeit einer falschen Ermittlung mit herkömmlichen statistischen Methoden (leicht über 70 %, abhängig vom Stichprobenumfang), unabhängig davon, wie oft man die Ergebnisse betrachtet. Bei sequenziellen Tests steigt diese Fehlerrate zwar auch, ist aber auf maximal 5 % begrenzt.

Es gibt keinen Haken: Genaue und umsetzbare Ergebnisse müssen nicht auf Kosten der Geschwindigkeit gehen.

Nachdem Sie bis hierher gelesen haben, fragen Sie sich vielleicht: Wo ist der Haken? Es gibt keinen.

Der Grund dafür ist folgender: Die Wahl einer geeigneten Stichprobengröße bedeutet, im Voraus einen minimalen nachweisbaren Effekt (MDE) festzulegen. Wie bereits erwähnt, ist das eine schwierige Aufgabe. Wenn Sie für jedes Experiment (bevor Sie es durchführen) den MDE innerhalb von 5 % des tatsächlichen Lifts des Experiments festlegen, ist der sequenzielle Test im Durchschnitt 60 % langsamer.

In der Praxis wählen Anwender jedoch einen MDE, der niedriger ist als die beobachteten Lifts. Er spiegelt die maximale Dauer wider, die sie bereit sind, ein Experiment durchzuführen. Mit Stats Engine können Sie Ihre Tests schneller ausführen, wenn der tatsächliche Lift größer ist als Ihr MDE (Minimum Default Evaluation). Wir haben festgestellt, dass Stats Engine genauso schnell wie Fixed Horizon Statistics arbeitet, wenn der Lift Ihres A/B-Tests 5 Prozentpunkte (relativ) über Ihrem MDE liegt. Sobald die Verbesserung den MDE um bis zu 7,5 Prozentpunkte übersteigt, ist Stats Engine fast 75 % schneller. Bei größeren Experimenten (über 50.000 Besucher) sind die Vorteile noch größer, und Stats Engine kann einen Gewinner oder Verlierer bis zu 2,5-mal schneller ermitteln. Die Durchführung von Tests in angemessener Zeit ist eine der größten Herausforderungen bei der Anwendung sequenzieller Tests für A/B-Tests und Optimierung. Unsere umfangreiche Datenbank mit historischen Experimenten ermöglicht es uns, Stats Engine anhand dieser Daten zu optimieren. Durch die Nutzung unserer umfangreichen Experimentdatenbank kann Optimizely die theoretischen Vorteile sequenzieller Tests und der FDR-Kontrolle ohne praktische Kosten realisieren.

*Hinweis zu den Daten: Der von uns getestete Datensatz enthielt Experimente mit einem Median von 10.000 Besuchern. Tests mit einer geringeren Besucherzahl wiesen sowohl im Fixed Horizon Testing als auch in der Stats Engine eine geringere Anzahl an Deklarationen auf, jedoch eine ähnliche Anzahl an geänderten Deklarationen. Wir können die Geschwindigkeitsvorteile sequenzieller Tests schneller aufzeigen.

Was bedeutet das für alle bisherigen Testläufe?

Eines sei klargestellt: Traditionelle statistische Methoden kontrollieren Fehler bei korrekter Anwendung auf die erwarteten Raten.Das heißt: Wenn Sie einen Stichprobenrechner verwendet und sich an dessen Empfehlungen gehalten haben, brauchen Sie sich wahrscheinlich keine Sorgen um Ihre bisherigen Tests zu machen. Ebenso verringert sich die Differenz zwischen Falsch-Positiv-Rate und Falsch-Entdeckungsrate, wenn Sie Ihre Geschäftsentscheidungen hauptsächlich auf Basis primärer Konversionskennzahlen treffen. Für Optimizely-Nutzer, die diese Vorsichtsmaßnahmen bereits getroffen haben, bietet Stats Engine einen intuitiveren Workflow und reduziert den Aufwand beim Durchführen von Tests. Wir wissen auch, dass viele Anwender die Empfehlungen des Stichprobenrechners wahrscheinlich nicht exakt befolgt haben. Digitale Experimentatoren sind jedoch erfahren und skeptisch. Sie haben vielleicht eine bestimmte Anzahl von Tagen gewartet, bevor Sie die Ergebnisse veröffentlichten, länger gewartet, wenn etwas verdächtig aussah, oder Ihre Stichprobenberechnung jedes Mal neu durchgeführt, um zu sehen, wie lange Sie noch warten sollten. All diese Vorgehensweisen helfen, das Fehlerrisiko zu minimieren. Ihre Fehlerrate liegt zwar wahrscheinlich über 5 %, aber vermutlich auch nicht über 30 %. Wenn Sie zu dieser Gruppe gehören, befreit Sie Stats Engine von diesen Praktiken und liefert Ihnen stattdessen realistische Prognosen zu den zu erwartenden Fehlerraten.

Ein kleiner Schritt für Optimizely, ein Riesenschritt für die Online-Optimierung

Optimizelys Mission ist es, die Welt in die Lage zu versetzen, Daten in konkrete Maßnahmen umzusetzen. Vor fünf Jahren haben wir mit unserem visuellen Editor den ersten Schritt in diese Richtung getan und A/B-Tests auch für Nicht-Ingenieure zugänglich gemacht. Mittlerweile haben Zehntausende von Unternehmen die Philosophie verinnerlicht, Daten in jede Entscheidung einzubeziehen.

Heute wollen wir mit Stats Engine die Branche einen Schritt weiterbringen, indem wir eine weitere Hürde auf dem Weg zu einer datengetriebenen Organisation beseitigen. Indem wir jedem die Möglichkeit geben, Ergebnisse mit aussagekräftigen Statistiken zu analysieren, möchten wir Unternehmen befähigen, noch wichtigere Entscheidungen datenbasiert zu treffen.

Die korrekte Interpretation von Statistiken ist essenziell für datengetriebene Entscheidungen, und wir arbeiten kontinuierlich daran, unsere Statistiken weiterzuentwickeln, um unsere Kunden optimal zu unterstützen. Wir freuen uns darauf, mit Ihnen gemeinsam das nächste Kapitel der Online-Optimierung zu schreiben. Wir sind gespannt auf Ihr Feedback und Ihre Gedanken zu Statistiken. Teilen Sie uns Ihre Meinung in den Kommentaren mit! Möchten Sie mehr erfahren? Wir haben zusätzliche Ressourcen erstellt, die Ihnen helfen, sich schnell mit Statistiken in Optimizely vertraut zu machen:

Die Geschichte hinter unserer Statistik-Engine

Warum wir eine neue Stats Engine entwickelt haben

Das ständige Überprüfen der Ergebnisse erhöht die Fehlerquote.

So funktioniert Stats Engine

Die Vorteile

Was bedeutet das für alle bisherigen Testläufe?

Ein kleiner Schritt für Optimizely, ein Riesenschritt für die Online-Optimierung