Glossary

Statistische Signifikanz

Was ist statistische Signifikanz?

Die statistische Signifikanz ist ein Maß dafĂŒr, wie ungewöhnlich die Ergebnisse Ihres Experiments wĂ€ren, wenn es tatsĂ€chlich keinen Unterschied in der Leistung zwischen Ihrer Variation und der Basislinie gĂ€be und die Diskrepanz im Auftrieb allein auf den Zufall zurĂŒckzufĂŒhren wĂ€re.

FĂŒr Online-Unternehmen, Vermarkter und Werbetreibende, die A/B-Tests durchfĂŒhren (wie z.B. das Testen von Conversion Rates, Anzeigentexten oder E-Mail-Betreffzeilen), wird dies immer wichtiger.

Das Erreichen einer statistischen Signifikanz trÀgt dazu bei, dass die aus Experimenten gezogenen Schlussfolgerungen zuverlÀssig sind und nicht auf zufÀlligen Schwankungen der Daten beruhen.

Den meisten Experimenten gelingt es jedoch nicht, ein erhebliches Signifikanzniveau zu erreichen. Hier ist der Grund dafĂŒr:

  • Die Änderungen sind zu gering: Die meisten Änderungen an den Erlebnissen der Besucher sind nicht aussagekrĂ€ftig und erreichen aufgrund von Stichprobenfehlern keine Signifikanz.
  • Niedrige Conversion Raten: Die meisten DatensĂ€tze verwenden Metriken mit einem niedrigen Ausgangswert, was oft zu Testergebnissen mit erheblichen Standardabweichungen fĂŒhrt.
  • Zu viele Ziele: Oft konzentrieren sich die Teams nicht auf die entscheidenden Metriken, die mit ihrer Hypothese ĂŒbereinstimmen. Dies fĂŒhrt dazu, dass die Forschungsergebnisse die Signifikanzschwelle nicht erreichen.

Warum ist das Konzept der statistischen Signifikanz so wichtig?

Die statistische Signifikanz hilft Unternehmen, fundierte Entscheidungen auf der Grundlage von Daten und nicht von zufĂ€lligen Schwankungen zu treffen. Sie hĂ€ngt von zwei SchlĂŒsselfaktoren ab:

  1. Die StichprobengrĂ¶ĂŸe: Die Anzahl der Teilnehmer an Ihrem Experiment. GrĂ¶ĂŸere Stichproben liefern im Allgemeinen zuverlĂ€ssigere Ergebnisse. Bei Website-Tests bedeutet mehr Verkehr schnellere und genauere Ergebnisse.
  2. EffektgrĂ¶ĂŸe: Das Ausmaß des Unterschieds zwischen Ihren Testvarianten. Sie zeigt an, wie stark sich Ihre Änderungen ausgewirkt haben.

Zufallsstichproben sind entscheidend, um den statistisch signifikanten Unterschied zu ĂŒberbrĂŒcken und genaue Ergebnisse zu erhalten. Wenn Sie Ihre Testvariationen nicht nach dem Zufallsprinzip auf Ihre Zielgruppe verteilen, kann es zu Verzerrungen kommen. Ein Beispiel: Wenn alle MĂ€nner Version A und alle Frauen Version B sehen, können Sie die Ergebnisse nicht fair vergleichen, selbst bei einer 50:50-Aufteilung. Die Unterschiede im Verhalten könnten auf das Geschlecht zurĂŒckzufĂŒhren sein, nicht auf Ihre Testvarianten.

Ein Beispiel fĂŒr die Auswirkungen in der Praxis: In Branchen wie der Pharmaindustrie kann die statistische Signifikanz in klinischen Studien ĂŒber die Wirksamkeit eines Medikaments entscheiden. Dies kann die Finanzierung durch Investoren und den Erfolg oder Misserfolg eines Produkts beeinflussen.

Insgesamt hilft Ihnen die statistische Signifikanz dabei, zwischen echten Verbesserungen und ZufÀllen zu unterscheiden und so bessere GeschÀftsentscheidungen zu treffen.

Testen Ihrer Hypothese

Die statistische Signifikanz wird in der Praxis vor allem beim Testen von Hypothesen verwendet. Sie möchten zum Beispiel wissen, ob die Änderung der Farbe einer SchaltflĂ€che auf Ihrer Website von rot zu grĂŒn dazu fĂŒhrt, dass mehr Menschen darauf klicken. Wenn Ihre SchaltflĂ€che derzeit rot ist, nennt man das Ihre "Nullhypothese", die die Form Ihrer Experiment-Basislinie annimmt. Wenn Sie Ihre SchaltflĂ€che grĂŒn fĂ€rben, wird dies als "Alternativhypothese" bezeichnet.

Um den beobachteten Unterschied in einem statistischen Signifikanztest zu bestimmen, sollten Sie auf zwei Ergebnisse achten: den p-Wert und das Konfidenzintervall.

  1. P-Wert: Der P-Wert ist die Wahrscheinlichkeit, dass die Beweise fĂŒr einen Leistungsunterschied zwischen Ihrer Variante und der Ausgangshypothese gleich stark oder stĂ€rker ausfallen. Dabei wird davon ausgegangen, dass es tatsĂ€chlich keinen Unterschied zwischen den beiden gibt und jeder beobachtete Anstieg ausschließlich dem Zufall geschuldet ist.
  2. Konfidenzintervall: Das Konfidenzintervall ist ein geschÀtzter Wertebereich, der wahrscheinlich, aber nicht garantiert, den unbekannten, aber exakten Wert enthÀlt, der Ihre Zielpopulation zusammenfasst, wenn ein Experiment mehrmals wiederholt wurde.

Erhalten Sie mit Stats Engine immer gĂŒltige Ergebnisse

Um gĂŒltige Ergebnisse aus Experimenten zu erhalten, die mit klassischer Statistik durchgefĂŒhrt werden, sind strenge Richtlinien erforderlich: Legen Sie im Voraus einen minimalen nachweisbaren Effekt und eine StichprobengrĂ¶ĂŸe fest, schauen Sie sich die Ergebnisse nicht an und testen Sie nicht zu viele Ziele oder Variationen gleichzeitig. Diese Richtlinien können mĂŒhsam sein und, wenn sie nicht sorgfĂ€ltig befolgt werden, zu stark verzerrten und zweifelhaften Testergebnissen fĂŒr Statistiker fĂŒhren.

GlĂŒcklicherweise können Sie die praktische Signifikanz Ihrer Experimente mit Stats Engine, dem in Optimizely integrierten fortschrittlichen Statistikmodell, leicht ermitteln. So berechnen Sie die geschĂ€tzte Dauer Ihres Experiments:

  • Benötigte Gesamtbesucherzahl = StichprobengrĂ¶ĂŸe × Anzahl der Variationen
  • GeschĂ€tzte Laufzeit = Benötigte Gesamtbesucherzahl Ă· Durchschnittliche tĂ€gliche Besucherzahl

Stats Engine arbeitet mit einer Kombination aus sequentiellen Tests und der Kontrolle der Falschentdeckungsrate, um Ihnen schneller zuverlĂ€ssige Ergebnisse zu liefern, unabhĂ€ngig von der StichprobengrĂ¶ĂŸe und der Art der Daten. Dieser Ansatz wird in Echtzeit aktualisiert und ermöglicht Folgendes

  • Überwachung der Ergebnisse in Echtzeit
  • Adaptives Testen, das sich an die tatsĂ€chliche EffektgrĂ¶ĂŸe anpasst
  • Schnellere Entscheidungsfindung ohne BeeintrĂ€chtigung der DatenintegritĂ€t

Mit Stats Engine sollte die statistische Signifikanz im Allgemeinen im Laufe der Zeit zunehmen, wenn mehr Beweise gesammelt werden. Diese Beweise gibt es in zwei Formen:

  • GrĂ¶ĂŸere Unterschiede in der Conversion Rate
  • Unterschiede in der Conversion Rate, die auch bei mehr Besuchern bestehen bleiben

Sehen Sie sich den vollstÀndigen Stats Engine Bericht an.

Erfolgsmethoden fĂŒr das Erreichen statistischer Signifikanz

Wenn Sie statistische Tests durchfĂŒhren, kann es schwierig sein, eine statistische Signifikanz zu erreichen. Hier sind einige Erfolgsmethoden, die Sie befolgen können:

  • FĂŒhren Sie Tests fĂŒr mindestens einen GeschĂ€ftszyklus (7 Tage) durch
  • WĂ€hlen Sie primĂ€re und sekundĂ€re Metriken sorgfĂ€ltig aus
  • Entwerfen Sie Experimente, die einen signifikanten Einfluss auf das Nutzerverhalten haben können.

 

HĂ€ufig gestellte Fragen zur statistischen Signifikanz