A/B-Testing-Plattformen wie Optimizely verwenden frequentistische Methoden zur Berechnung der statistischen Signifikanz, da sie zuverlässige mathematische „Garantien“ für die zukünftige Performance bieten: Statistische Ergebnisse eines Experiments, die vorhersagen, ob eine Variante nach ausreichend Zeit tatsächlich besser als die Basisversion sein wird. Beispielsweise können wir mit frequentistischen Garantien Aussagen treffen wie: „Weniger als 5 % der implementierten Varianten werden Verbesserungen außerhalb ihres 95%-Konfidenzintervalls aufweisen.“
Weitere Informationen zu diesem Thema finden Sie im E-Book „Ein praktischer Leitfaden zur Statistik für Online-Experimente“.
Bayes'sche Tests hingegen nutzen Vorwissen zur Berechnung der Experimentergebnisse. Der größte Vorteil Bayes'scher Ansätze liegt darin, dass sie das Vorwissen jedes Experimentators einbeziehen. Die Nutzung aller verfügbaren Informationen, ob aktuell oder aus der Vergangenheit, sollte zu einem schnellstmöglichen Fortschritt im Experiment führen. Sofern die Annahmen, die anhand historischer Daten zur Berechnung der statistischen A-priori-Wahrscheinlichkeit getroffen wurden, korrekt sind, sollte dies Experimentatoren helfen, schneller zu statistisch signifikanten Schlussfolgerungen zu gelangen.
Bayes'sche Methoden bieten jedoch nicht immer dieselben Garantien für zukünftige Ergebnisse wie frequentistische Methoden. Würden wir sie automatisch so anwenden, als ob dies der Fall wäre, und frequentistische Aussagen – wie die obige für Konfidenzintervalle – auf Bayes'sche Berechnungen übertragen, könnten wir zu einer falschen Schlussfolgerung gelangen. Dies liegt daran, dass das Wissen aus früheren Experimenten möglicherweise nicht mit der tatsächlichen Entstehung eines Effekts in einem neuen Experiment übereinstimmt, und man kann leicht in die Irre geführt werden, wenn man dies nicht berücksichtigt.
In einem Artikel der New York Times aus dem letzten Jahr, der Anwendungen der Bayes'schen Statistik beschreibt, betrachtet der Autor das Beispiel der Suche nach einem vermissten Fischer. Die Küstenwache konnte mithilfe von Daten zur lokalen Geografie und früheren Suchaktionen Vorhersagen darüber treffen, in welchen Gebieten sich die vermissten Fischer mit größerer Wahrscheinlichkeit aufhielten. Mit zunehmenden Informationen zur aktuellen Suche wurden diese Erkenntnisse mit dem Wissen über das bisherige Verhalten der Natur kombiniert, um die Suche zu beschleunigen – mit dem erfreulichen Ausgang.
Die größte Gefahr bei der Übertragung dieses Erfolgs auf A/B-Tests besteht darin, dass die Einbeziehung von Annahmen, die nicht der Realität entsprechen, genau den gegenteiligen Effekt haben kann: eine falsche Schlussfolgerung und ein langsamerer Weg zur richtigen Lösung. Ziel von A/B-Tests ist es, aus den Ergebnissen zu lernen, um zukünftige Maßnahmen zu ergreifen, sei es die Implementierung einer Variante oder die Durchführung weiterer Tests. Die heute verfügbaren Informationen sind möglicherweise in Zukunft nicht mehr gleichermaßen relevant.
Letztendlich führen Missverständnisse oder falsche Anwendung von Statistiken zu schlechten Ergebnissen, unabhängig von der gewählten statistischen Methode (Bayesianisch oder Frequentistisch). Aus diesem Grund sind solide Grundlagen für erfolgreiche A/B-Tests unerlässlich, und wir legen großen Wert darauf, eine robuste Version dieser Statistiken in unser Produkt zu integrieren. Fundierte statistische Aussagen und deren verständliche Präsentation bieten unseren Kunden einen größeren Nutzen als die Optimierung bis ins kleinste Detail.