Was ist ein Typ-2-Fehler (Typ-II-Fehler)?
Ein Typ-2-Fehler ist ein Begriff aus der Statistik, der eine Art von Fehler beschreibt, bei dem kein eindeutiger Gewinner zwischen einer Kontrolle und einer Variation ermittelt wird, obwohl es eigentlich einen geben sollte.
Was sind die Unterschiede zwischen Typ-I- und Typ-II-Fehlern?
Beim statistischen Hypothesentest können zwei Arten von Fehlern auftreten: Typ-I-Fehler und Typ-II-Fehler.
Typ-I-Fehler sind wie „falsch positive Ergebnisse" und treten auf, wenn Sie zu dem Schluss kommen, dass die getestete Variation ein „Gewinner" ist, obwohl sie es in Wirklichkeit nicht ist. Wissenschaftlich bedeutet dies, dass Sie die wahre Nullhypothese fälschlicherweise ablehnen und glauben, ein Zusammenhang bestehe, obwohl dies nicht der Fall ist. Die Wahrscheinlichkeit, einen Typ-I-Fehler zu begehen, wird als Typ-I-Fehlerrate oder Signifikanzniveau (p-Wert) bezeichnet – dieser Wert wird üblicherweise und willkürlich auf 0,05 (5 %) festgelegt.
Typ-II-Fehler sind wie „falsch negative Ergebnisse" – eine fehlerhafte Schlussfolgerung, dass eine Variation in einem Test keinen statistisch signifikanten Unterschied bewirkt hat. Statistisch gesehen bedeutet dies, dass Sie fälschlicherweise die falsche Nullhypothese akzeptieren und glauben, ein Zusammenhang bestehe nicht, obwohl er tatsächlich existiert. Sie begehen einen Typ-2-Fehler, wenn Sie etwas nicht für wahr halten, das tatsächlich wahr ist.
Warum treten Typ-2-Fehler auf?
Die statistische Power ist die Wahrscheinlichkeit, dass ein Test einen tatsächlichen Unterschied in der Conversion Rate zwischen zwei oder mehr Variationen erkennt.
Der wichtigste Faktor für die Power eines bestimmten Tests ist die Stichprobengröße. Die statistische Power hängt auch von der Größe des Unterschieds in der Conversion Rate ab, den Sie testen möchten.
Je kleiner der Unterschied ist, den Sie erkennen möchten, desto größer muss die Stichprobe (und desto länger der Zeitraum) sein.
Marketer können ihre Tests leicht mit einer zu kleinen Stichprobengröße unterdimensionieren.
Das bedeutet, dass sie nur eine geringe Chance haben, echte positive Ergebnisse zu erkennen, selbst wenn ein erheblicher Unterschied in der Conversion Rate tatsächlich besteht.
Beim A/B-Testing gilt es, eine Balance zwischen der Geschwindigkeit der Testdaten und der Sicherheit der Ergebnisgenauigkeit zu finden. Eine Möglichkeit, dieses Problem zu lösen, besteht darin, einen Test über einen längeren Zeitraum laufen zu lassen, um die Stichprobengröße zu erhöhen und die Wahrscheinlichkeit eines Typ-2-Fehlers zu verringern.
Warum ist es wichtig, auf Typ-2-Fehler zu achten?
Ein Grund, auf Typ-2-Fehler zu achten, ist, dass sie Ihre Conversion-Optimierung langfristig beeinträchtigen können.
Wenn Sie die Auswirkungen von Variationen in Ihren Alternativhypothesen nicht erkennen, obwohl sie tatsächlich existieren, verschwenden Sie möglicherweise Ihre Zeit und nutzen Chancen zur Verbesserung Ihrer Conversion Rate nicht.
Beispiel für einen Typ-2-Fehler
Betrachten wir eine hypothetische Situation. Sie sind für eine E-Commerce-Website verantwortlich und testen Variationen einer Landing Page. Wir untersuchen, wie sich ein Typ-2-Fehler negativ auf den Umsatz Ihres Unternehmens auswirken könnte.
Ihr Hypothesentest beinhaltet die Änderung des „Jetzt kaufen"-CTA-Buttons von Grün zu Rot, was die Conversions im Vergleich zu Ihrer ursprünglichen Landing Page signifikant steigern soll. Sie starten Ihren A/B-Test und warten auf die zufällige Stichprobe der eingehenden Daten.
Innerhalb von 48 Stunden stellen Sie fest, dass die Conversion Rate für den grünen Button identisch mit der Conversion Rate für den roten Button ist (4,8 %) – bei einem Signifikanzniveau von 95 %.
Enttäuscht erklären Sie den grünen Button als gescheitert und belassen die Landing Page, wie sie ist.
In der folgenden Woche lesen Sie einen Artikel darüber, wie grüne Buttons die Conversion Rates steigern. Sie beschließen, Ihre Hypothese erneut zu testen. Diesmal warten Sie zwei Wochen, bevor Sie Ihre Ergebnisse überprüfen.
Heureka! Sie stellen fest, dass der grüne Button eine Conversion Rate von 5 % hat, verglichen mit 4,8 % beim roten Button, und statistische Signifikanz aufweist. Es stellt sich heraus, dass Sie einen Typ-2-Fehler begangen haben, weil Ihre Stichprobengröße zu klein war.
Wie Sie Typ-2-Fehler vermeiden
Auch wenn es unmöglich ist, Typ-2-Fehler vollständig zu vermeiden, können Sie die Wahrscheinlichkeit ihres Auftretens verringern, indem Sie Ihre Stichprobengröße erhöhen. Das bedeutet, ein Experiment länger laufen zu lassen und mehr Daten zu sammeln, um die richtige Entscheidung anhand Ihrer Testergebnisse treffen zu können. So vermeiden Sie die falsche Schlussfolgerung, dass ein Experiment keine Auswirkung hat, obwohl es tatsächlich eine hat.
Eine weitere Möglichkeit, Typ-2-Fehler zu vermeiden, besteht darin, während der Experimente große und mutige Änderungen an Ihren Webseiten und Apps vorzunehmen. Je größer die Auswirkung einer Änderung, desto kleiner die benötigte Stichprobengröße und desto geringer die Wahrscheinlichkeit, dass Sie eine Veränderung nicht bemerken. Eine Steigerung der Conversion Rate um 25 % ist viel leichter zu erkennen als eine Steigerung um 0,001 %.