Bayessche vs. frequentistische Statistik

Statistiken sind ein wesentlicher Bestandteil des Verständnisses Ihrer A/B-Testergebnisse – Methoden zur Berechnung einer Kennzahl, die darüber entscheidet, ob Sie eine Variation gegenüber der Kontrollgruppe implementieren sollten. Es gibt jedoch viele Wege, diese Kennzahl zu ermitteln. Welche Methode sollten Sie verwenden?

Zwei häufig verwendete Methoden zur Berechnung der statistischen Signifikanz sind die frequentistische und die Bayes'sche Statistik. Traditionell basierten die Lösungen der Industrie für A/B-Tests eher auf der frequentistischen Statistik. Bayes'sche Methoden bieten jedoch eine interessante Möglichkeit, die Ergebnisse von Experimenten auf eine völlig andere Weise als die frequentistische Statistik zu berechnen. In der Welt der Statistik gibt es Anhänger beider Methoden – ähnlich wie bei der Wahl einer politischen Partei. Im Januar haben wir die Stats Engine veröffentlicht und dabei einen gemäßigten Ansatz verfolgt: Sie sollten die Vorteile Bayes'scher Elemente in Ihren Ergebnissen nutzen und diese zur Unterstützung frequentistischer Prinzipien verwenden können, die Stabilität und mathematische Garantien gewährleisten. In diesem Beitrag erläutern wir die Vor- und Nachteile beider Methoden und warum Optimizely Elemente beider Ansätze in unsere Stats Engine integriert hat.

Was sind Bayes'sche und frequentistische Statistik?

Die Bayes'sche Statistik verfolgt einen eher Bottom-up-Ansatz bei der Datenanalyse. Das bedeutet, dass frühere Erkenntnisse aus ähnlichen Experimenten in ein statistisches Modell, die sogenannte Prior-Wahrscheinlichkeit, einfließen. Diese Prior-Wahrscheinlichkeit wird dann mit den aktuellen Experimentdaten kombiniert, um eine Schlussfolgerung für den jeweiligen Test zu ziehen.

Frequentistische Statistik hingegen trifft Vorhersagen über zugrundeliegende Wahrheiten des Experiments, indem sie ausschließlich auf den Daten des aktuellen Experiments basiert. Frequentistische Argumente sind eher kontrafaktisch und ähneln der Logik, die Juristen vor Gericht anwenden. Die meisten von uns lernen frequentistische Statistik in Statistik-Einführungskursen kennen. Ein t-Test, bei dem wir fragen: „Unterscheidet sich diese Variante von der Kontrollgruppe?“, ist ein grundlegender Baustein dieses Ansatzes.

Das Ziel eines A/B-Tests ist statistisch gesehen, festzustellen, ob die während des Experiments gesammelten Daten den Schluss zulassen, dass sich eine Variante einer Website oder App messbar von der anderen unterscheidet. Bayes'sche und frequentistische Ansätze untersuchen dieselben Experimentdaten aus unterschiedlichen Perspektiven. Wie eine Hängebrücke im Vergleich zu einer Bogenbrücke verfolgen sie dasselbe Ziel. Beide Strukturen dienen dazu, eine Lücke zu überbrücken, und im Fall von A/B-Tests verwenden sowohl Bayes'sche als auch frequentistische Methoden die Experimentdaten, um dieselbe Frage zu beantworten: Welche Variante ist die beste?

Welche Vorteile bieten die jeweiligen Ansätze?

A/B-Testing-Plattformen wie Optimizely verwenden frequentistische Methoden zur Berechnung der statistischen Signifikanz, da sie zuverlässige mathematische „Garantien“ für die zukünftige Performance bieten: Statistische Ergebnisse eines Experiments, die vorhersagen, ob eine Variante nach ausreichend Zeit tatsächlich besser als die Basisversion sein wird. Beispielsweise können wir mit frequentistischen Garantien Aussagen treffen wie: „Weniger als 5 % der implementierten Varianten werden Verbesserungen außerhalb ihres 95%-Konfidenzintervalls aufweisen.“ Weitere Informationen zu diesem Thema finden Sie im E-Book „Ein praktischer Leitfaden zur Statistik für Online-Experimente“. Bayes'sche Tests hingegen nutzen Vorwissen zur Berechnung der Experimentergebnisse. Der größte Vorteil Bayes'scher Ansätze liegt darin, dass sie das Vorwissen jedes Experimentators einbeziehen. Die Nutzung aller verfügbaren Informationen, ob aktuell oder aus der Vergangenheit, sollte zu einem schnellstmöglichen Fortschritt im Experiment führen. Sofern die Annahmen, die anhand historischer Daten zur Berechnung der statistischen A-priori-Wahrscheinlichkeit getroffen wurden, korrekt sind, sollte dies Experimentatoren helfen, schneller zu statistisch signifikanten Schlussfolgerungen zu gelangen. Bayes'sche Methoden bieten jedoch nicht immer dieselben Garantien für zukünftige Ergebnisse wie frequentistische Methoden. Würden wir sie automatisch so anwenden, als ob dies der Fall wäre, und frequentistische Aussagen – wie die obige für Konfidenzintervalle – auf Bayes'sche Berechnungen übertragen, könnten wir zu einer falschen Schlussfolgerung gelangen. Dies liegt daran, dass das Wissen aus früheren Experimenten möglicherweise nicht mit der tatsächlichen Entstehung eines Effekts in einem neuen Experiment übereinstimmt, und man kann leicht in die Irre geführt werden, wenn man dies nicht berücksichtigt. In einem Artikel der New York Times aus dem letzten Jahr, der Anwendungen der Bayes'schen Statistik beschreibt, betrachtet der Autor das Beispiel der Suche nach einem vermissten Fischer. Die Küstenwache konnte mithilfe von Daten zur lokalen Geografie und früheren Suchaktionen Vorhersagen darüber treffen, in welchen Gebieten sich die vermissten Fischer mit größerer Wahrscheinlichkeit aufhielten. Mit zunehmenden Informationen zur aktuellen Suche wurden diese Erkenntnisse mit dem Wissen über das bisherige Verhalten der Natur kombiniert, um die Suche zu beschleunigen – mit dem erfreulichen Ausgang. Die größte Gefahr bei der Übertragung dieses Erfolgs auf A/B-Tests besteht darin, dass die Einbeziehung von Annahmen, die nicht der Realität entsprechen, genau den gegenteiligen Effekt haben kann: eine falsche Schlussfolgerung und ein langsamerer Weg zur richtigen Lösung. Ziel von A/B-Tests ist es, aus den Ergebnissen zu lernen, um zukünftige Maßnahmen zu ergreifen, sei es die Implementierung einer Variante oder die Durchführung weiterer Tests. Die heute verfügbaren Informationen sind möglicherweise in Zukunft nicht mehr gleichermaßen relevant.

Letztendlich führen Missverständnisse oder falsche Anwendung von Statistiken zu schlechten Ergebnissen, unabhängig von der gewählten statistischen Methode (Bayesianisch oder Frequentistisch). Aus diesem Grund sind solide Grundlagen für erfolgreiche A/B-Tests unerlässlich, und wir legen großen Wert darauf, eine robuste Version dieser Statistiken in unser Produkt zu integrieren. Fundierte statistische Aussagen und deren verständliche Präsentation bieten unseren Kunden einen größeren Nutzen als die Optimierung bis ins kleinste Detail.

Wie sieht die Zukunft für Verfechter des Frequentismus und des Bayes'schen Algorithmus aus?

Als wir jedoch ein statistisches Modell entwickelten, das die Entscheidungsfindung der Optimizely-Kunden anhand ihrer Experimentergebnisse genauer abbildet (Statistik-Engine), wurde deutlich, dass die beste Lösung Elemente frequentistischer und bayesianischer Methoden kombinieren muss, um sowohl die Zuverlässigkeit frequentistischer Statistiken als auch die Schnelligkeit und Flexibilität bayesianischer Methoden zu vereinen. Dieser Ansatz entspricht einer weniger bekannten dritten Schule der Statistik: dem Empirischen Bayes. Er basiert auf dem Prinzip, dass statistische Methoden die Stärken bayesianischer und frequentistischer Ansätze nutzen und gleichzeitig deren Schwächen ausgleichen sollten. Ähnlich dem Brückenkonzept kombiniert der Empirische Bayes beide Ansätze, um eine innovative Lösung für die vorliegenden Fragestellungen zu bieten und die Schwierigkeiten der alleinigen Wahl zwischen Bogen- und Hängebrücke zu vermeiden.

Die Kombination der Vorteile von Bogen- und Hängebrückenkonstruktionen ergibt eine Durchgangsbogenbrücke, die für eine gegebene Lücke optimale Ergebnisse liefern kann, wie hier am Beispiel der Sydney Harbour Bridge zu sehen ist. Die Statistik-Engine von Optimizely verwendet eine Methode, die direkt auf dem empirischen Bayes-Ansatz basiert. So können Nutzer zahlreiche Ziel- und Variationskombinationen testen, ohne die statistische Genauigkeit zu beeinträchtigen. Der Benjamini-Hochberg-Ansatz kontrolliert eine Art von statistischem Fehler, die sogenannte Falsch-Entdeckungsrate (FDR). Die FDR ist ein Maß, das berücksichtigt, dass bei der gleichzeitigen Durchführung mehrerer A/B-Tests viele Fehler auftreten können. Dies ist typischerweise ein Problem, wenn Sie multivariate oder A/B/n-Tests mit vielen Varianten durchführen oder viele Ziele in einem Experiment verfolgen.

Wir beschreiben detailliert, wie dieser Ansatz funktioniert und warum er die statistische Fehlerrate liefert, die für Unternehmen relevant ist, in unserem Blogbeitrag auf Stats Engine und in einer ausführlicheren technischen Beschreibung. Wir haben außerdem kürzlich ein Webinar mit einem Beispiel für die Anwendung der FDR-Methode im A/B-Testing aufgezeichnet.

Der Benjamini-Hochberg-FDR-Ansatz zur Kontrolle dieses Fehlers hat sich sowohl nach frequentistischen als auch nach bayesianischen Standards als erfolgreich erwiesen. Das Verfahren integriert nicht nur sinnvoll frühere experimentelle Daten, sondern liefert auch die erwarteten Ergebnisse und frequentistischen statistischen Garantien – unabhängig von der gewählten Perspektive. Die rasche und weitreichende Akzeptanz des Benjamini-Hochberg-Ansatzes in akademischen und medizinischen Kreisen ist darauf zurückzuführen, dass die Methode sowohl Bayesianer als auch Frequentisten von ihren Vorzügen überzeugt hat. Sollte also jeder wie ein Frequentist, ein Bayesianer oder ein empirischer Bayesianer denken? Keineswegs. Sollte man sich vorschnell einer dieser Richtungen anschließen? Natürlich nicht. Der Grund für die anhaltende Bedeutung dieser Ideologien liegt darin, dass sie im Grunde alle gute Ansätze bieten, um aus Daten zu lernen. Wir sind der Ansicht, dass es für einen kompetenten A/B-Tester – wie für einen informierten Wähler oder einen kompetenten Bauingenieur – wichtig ist, die verfügbaren Optionen zu kennen. Wir freuen uns darauf, nicht nur die besten Statistiken für Ihre datenbasierte Entscheidungsfindung und Ihr Handeln zu finden, sondern Sie auch in die Lage zu versetzen, diese anzuwenden.

Bayesianische vs. frequentistische Statistik

Was sind Bayes'sche und frequentistische Statistik?

Welche Vorteile bieten die jeweiligen Ansätze?

Wie sieht die Zukunft für Verfechter des Frequentismus und des Bayes'schen Algorithmus aus?