Wie Sie mithilfe von Konfidenzintervallen statistisch fundierte Entscheidungen treffen
Als Experimentierer kann der Druck, eine Entscheidung zu treffen, nachdem Sie einen A/B-Test durchgeführt haben, zu einigen ziemlich verrückten Interpretationen nicht signifikanter Experimentierergebnisse führen. Denn was bedeutet es überhaupt, wenn etwas "in Richtung statistische Signifikanz tendiert" (ein Satz, der kürzlich bei einer Überprüfung eines Experiments bei


Als Experimentierer kann der Druck, eine Entscheidung zu treffen, nachdem Sie einen A/B-Test durchgeführt haben, zu einigen ziemlich verrückten Interpretationen von nicht signifikanten Experimentierergebnissen führen. Denn was bedeutet es überhaupt, dass etwas "in Richtung statistische Signifikanz tendiert" (ein Satz, der kürzlich bei einer Überprüfung eines Experiments bei Optimizely selbstbewusst geäußert wurde)?
In diesem Beitrag erzähle ich Ihnen, wie Sie Konfidenzintervalle nutzen können, um Entscheidungen auf der Grundlage nicht signifikanter A/B-Testergebnisse zu entschärfen, ohne Ihre intellektuelle Integrität zu gefährden.
Vernünftig klingende, aber falsche Aussagen bei Optimizelys Experiment Review
Mein Lieblingstreffen bei Optimizely ist unsere wöchentliche Experiment Review. Hier kommen Leute zusammen, um an Ideen für Produktexperimente zu feilen und die Ergebnisse vergangener Experimente auszutauschen. Es ist ein großartiger Ort, um Feedback zu geben und zu erhalten, und ich freue mich jede Woche darauf.
Aber wie viele Experimentierer war auch ich schon einmal in der wenig beneidenswerten Lage, ein Experiment zu präsentieren, bei dem keine der Kennzahlen eine statistische Signifikanz erreichte. In diesem Moment kann der Druck, etwas Wertvolles aus dem Experiment herauszuholen, extrem hoch sein. Um an diesen Punkt zu gelangen, musste sich Ihre Idee gegen unzählige andere großartige Ideen durchsetzen, um an die Spitze des Backlogs zu gelangen. Ein Ingenieur hat wertvolle Zyklen damit verbracht, sie zu kodieren. Sie lief wochenlang. Und jetzt erwartet das Team von Ihnen, dass Sie eine datengestützte Entscheidung über die Ausrichtung des Produkts treffen. 😬
Das gefürchtete "Meer von Grau" schlägt wieder zu!
Die mentale Gymnastik zu beobachten, die Experimentierer in dieser Situation durchmachen, ist eine der wahren Freuden der Experiment Review. Hier sind einige der vernünftig klingenden, aber letztlich falschen Interpretationen von nicht statisch signifikanten Ergebnissen, die ich gehört habe:
- "Richtungsmäßig gesehen übertrifft Variante A die Kontrolle"
- "Variante A tendiert in Richtung eines Gewinns"
- "Variante A hat die höchste Signifikanz aller Varianten, das ist also ein gutes Zeichen"
- "Wenn Sie mir eine Pistole an den Kopf hielten, würde ich mich wohl für Variante A entscheiden".
Wir alle wissen, dass es intellektuell ehrlich wäre, unsere Energie auf die Entwicklung der nächsten Iteration des Tests zu konzentrieren, die mit größerer Wahrscheinlichkeit Signifikanz erreichen würde. Bei der Arbeit mit p-Werten sollten Statistiken schwarz und weiß sein: Entweder zeigen die Ergebnisse einen statistisch signifikanten Effekt oder nicht. Oder um es etwas poetischer zu formulieren:
Wenn ich mich dabei ertappe, dass ich von "direktionalen Ergebnissen" spreche, tröste ich mich mit der Tatsache, dass ich nicht allein bin. Probable Error (der humorvolle Statistik-Blog von Matthew Hankins) hat eine Liste kreativer Formulierungen für "nicht signifikante Ergebnisse" zusammengestellt, die in von Experten begutachteten akademischen Fachzeitschriften zu finden sind. Einige meiner Favoriten sind:
- "Ein nicht-signifikanter Trend zur Signifikanz"
- "Am Rande der Signifikanz schwankend"
- "Nicht signifikant im engeren Sinne des Wortes".
- "Nähert sich dem üblichen Niveau der statistischen Signifikanz, erreicht es aber nicht" 🤔.
Wenn also selbst Berufswissenschaftler zu dieser Art von fehlerhafter Logik neigen, was sollen wir Sterblichen beim Experimentieren dann tun, wenn wir mit nicht signifikanten Ergebnissen konfrontiert werden?
Revolutionize your digital strategy
Geben Sie das Konfidenzintervall ein
Konfidenzintervalle geben einen Bereich möglicher Verbesserungswerte für Ihre Metriken an. Bei Metriken, die keine Signifikanz erreicht haben, wird dieser Bereich ziemlich groß sein und 0 einschließen (d.h. es besteht die Chance, dass die Nullhypothese wahr ist). Die gute Nachricht ist, dass dieser Wertebereich Ihnen eine Vorstellung von den oberen und unteren Grenzen der tatsächlichen Verbesserung gibt, die Sie sehen würden, wenn Ihr Test leistungsfähiger wäre. Auf der Optimizely-Ergebnisseite wird die "wahre" Verbesserung für eine Metrik mit einer Signifikanzschwelle von 90% mit einer Wahrscheinlichkeit von 90% innerhalb des Konfidenzintervalls liegen.
So können Sie z.B. sagen: "Die Conversion Rate von Variante A ist wahrscheinlich nicht X% schlechter als die Conversion Rate der Basisvariante." Das könnte ausreichen, um eine Entscheidung zu treffen, wenn Ihr Ziel einfach darin besteht, die Leistung durch eine Änderung nicht zu beeinträchtigen, und es klingt viel besser, als wenn Sie es als "Richtungsgewinner" bezeichnen.
Ich bin selbst schon auf diese Situation gestoßen. Nehmen Sie zum Beispiel einen Test, den ich auf der Optimizely Experiment Übersichtsseite durchgeführt habe. Die Hypothese: Die Anzeige der Besucherzahlen für jedes Experiment auf dieser Seite erleichtert es den Nutzern, relevante Daten zu finden, ohne dass sie für jeden Test auf die Seite Ergebnisse klicken müssen:
Die Idee ist einfach, wurde durch Kundenfeedback bestätigt und macht intuitiv Sinn. Das Problem ist: Wie kann man eine datengestützte Entscheidung über die Einführung treffen? Einige Mitglieder des Teams waren der Meinung, dass die Nutzer, die sich der Behandlung unterzogen, weniger Ergebnisseiten aufrufen würden, während andere dachten, dass die Aufrufe der Ergebnisseite zunehmen könnten (da Nutzer, die sich die Ergebnisse sonst nicht ansehen würden, neugierig werden). Und wenn einige Nutzer die Ergebnisseite vermehrt aufriefen, während andere sie weniger aufriefen, wie sollten wir dann anhand unserer Testergebnisse feststellen können, welche davon flach waren?
Letztendlich entschieden wir, dass wir diese Änderung nur dann nicht vornehmen wollten, wenn wir einen starken Rückgang der Nutzung der Ergebnisseite auf breiter Front feststellen würden.
Nachdem wir das Experiment über einen Monat lang durchgeführt hatten, war es an der Zeit, die Ergebnisse zu analysieren. Wie wir befürchtet hatten, hatte unsere primäre Metrik keine Signifikanz erreicht, und wir mussten eine Entscheidung darüber treffen, was wir als nächstes tun sollten. Indem wir das Konfidenzintervall für die "Experiment Besucher"-Variation untersuchten, konnten wir eine "untere Grenze" der Verbesserung festlegen:
Auch wenn dieses Konfidenzintervall recht breit ist, half es uns, das Risiko zu verstehen, das wir mit dieser Änderung eingehen würden. Mit anderen Worten: Im schlimmsten Fall würde diese Änderung die Conversions auf der Ergebnisseite um ~22% verringern. In Anbetracht der Tatsache, dass die Erleichterung des Auffindens relevanter Ergebnisse von Experimenten die Anzahl der aufgerufenen irrelevanten Ergebnisseiten verringern könnte, schien dies ein akzeptabler Kompromiss zu sein.
Die Fähigkeit, eine statistisch strenge Entscheidung mit nicht signifikanten Metriken zu treffen? Abgehakt! Danke Konfidenzintervall!