Echte Power schützt Sie, aber Post-hoc-Power führt Sie in die Irre

Die statistische Poweranalyse zeigt Ihnen, wie viele Daten Sie benötigen, um verlässliche Ergebnisse für Ihre Entscheidungsfindung zu gewährleisten. Sehen Sie, was passiert, wenn Sie diesen Schritt auslassen.

TL;DR

Die Poweranalyse ist das Sicherheitsnetz Ihres Experiments bei frequentistischen Tests mit festem Horizont.
- Ohne sie sind nicht-signifikante Ergebnisse bedeutungslos:Man kann nicht feststellen, ob kein Effekt vorliegt oder ob einfach nicht genügend Daten vorhanden sind.
- Ohne sie können signifikante Ergebnisse irreführend sein: Die Effektstärke kann zufällig überschätzt werden.

Die nachträgliche Poweranalyse bietet keinen Mehrwert: Sie kann ein schlecht geplantes Experiment nicht retten.

So geht's richtig: Definieren Sie ein aussagekräftiges MDE, planen Sie mit einer Teststärke von mindestens 80 % und halten Sie sich an Ihren Stichprobenplan.

Eine Poweranalyse ist wichtig – und was passiert, wenn Sie sie auslassen?

Jedes Lehrbuch zum frequentistischen Testen mit festem Horizont betont die Wichtigkeit einer Poweranalyse bei der Versuchsplanung. Das liegt daran, dass die Poweranalyse Ihnen zeigt, wie viele Daten Sie benötigen, um verlässliche Ergebnisse für Ihre Entscheidungsfindung zu gewährleisten.

Beispiel-Checkliste

Um zu verdeutlichen, warum die Planung ausreichender Daten bei dieser Art von Test so wichtig ist, führen wir Experimente ohne Poweranalyse durch und beobachten die Ergebnisse.

Angenommen, wir haben den Checkout-Button besser sichtbar gemacht (was die Darstellung einiger lustiger Katzen beeinträchtigt) und erwarteten dadurch eine höhere Conversion-Rate. Anstatt jedoch die Stichprobengröße und die Laufzeit mithilfe einer Poweranalyse zu planen, haben wir einen Zeitplan einfach nach Bequemlichkeit oder aufgrund von Druck seitens der Stakeholder gewählt.

Bildquelle: Optimizely

Szenario 1: Ohne Poweranalyse kann ein nicht signifikantes Ergebnis irreführend sein.

Bedeutet das nicht signifikante Ergebnis, dass der in der Hypothese erwartete positive Effekt wahrscheinlich nicht existiert? Wir wissen es nicht. Die unübersichtliche Checkout-Seite stört Katzenliebhaber möglicherweise nicht, sodass die Vereinfachung des Checkout-Buttons keine Auswirkungen hat. Wahrscheinlicher ist jedoch, dass wir schlichtweg nicht genügend Daten haben, um einen Effekt festzustellen.

Legen wir für die Checkout-Seite mit Katzenmotiven eine Konversionsrate von 0,2 und für die Checkout-Seite ohne Katzenmotiven eine Konversionsrate von 0,25 fest. Wir wissen also, dass die Konversionsrate um 25 % steigt (ein beträchtlicher Effekt, den wir nicht verpassen wollen!).

Da wir keine Poweranalyse durchgeführt haben, simulieren wir Daten für verschiedene Stichprobengrößen. Für jede Größe generieren wir 1000 verschiedene Datensätze, um die natürliche Variabilität der Stichproben zu berücksichtigen, und führen den Hypothesentest für jeden Datensatz durch.

Um die Wahrscheinlichkeit zu zeigen, den Effekt bei jeder Stichprobengröße erfolgreich nachzuweisen, erfassen wir den Prozentsatz der Tests, die bei jeder Stichprobengröße einen Anstieg von 25 % feststellen und die Nullhypothese verwerfen.

Bildquelle: Optimizely

Das obige Liniendiagramm veranschaulicht, dass mit zunehmendem Stichprobenumfang auch die Wahrscheinlichkeit steigt, die Nullhypothese zu verwerfen. Dadurch erhöht sich unsere Fähigkeit, den 25%igen Effekt zu erkennen. Sinkt unser Stichprobenumfang jedoch unter 2000, liegt unsere Wahrscheinlichkeit, den 25%igen Effekt zu entdecken, unter 80 %, und wir übersehen ihn mit größerer Wahrscheinlichkeit.

Manche denken vielleicht: Okay, ich verstehe, dass wir, wenn wir auf eine Poweranalyse verzichten und ein nicht signifikantes Ergebnis erhalten, nicht feststellen können, ob tatsächlich kein Effekt vorliegt oder ob einfach nur die Datenmenge nicht ausreicht. Aber sehen Sie sich das Diagramm an. Selbst mit nur 1400 Stichproben haben wir immer noch eine Wahrscheinlichkeit von über 60 %, einen Effekt zu entdecken. Das ist durchaus ermutigend. Wenn unsere Stichprobengröße also nicht zu klein ist, mag es verlockend erscheinen, das Experiment ohne vorherige Poweranalyse durchzuführen.

Aber Vorsicht: Wenn wir auf eine Poweranalyse verzichten, um eine ausreichend große Stichprobe zu erhalten, und trotzdem ein signifikantes Ergebnis erzielen, können wir diesem nicht uneingeschränkt vertrauen. Der geschätzte Effekt könnte falsch oder zu stark übertrieben sein.

Szenario 2: Auch ohne Poweranalyse kann ein signifikantes Experiment irreführend sein.

Betrachten wir erneut dieselbe Simulation wie in Szenario 1. Diesmal konzentrieren wir uns darauf, wie häufig signifikante Ergebnisse den falschen Effekt zeigen – insbesondere, wenn der geschätzte Effekt negativ ist, obwohl wir wissen, dass der wahre Effekt positiv ist. Wir berechnen den Prozentsatz der signifikanten Ergebnisse mit negativen Effekten bei verschiedenen Stichprobengrößen.

Bildquelle: Optimizely

Zwei Dinge fallen in der obigen Grafik auf:

Es ist möglich, ein signifikantes Ergebnis zu erhalten, bei dem der geschätzte Effekt völlig falsch ist.
Diese Fehler treten seltener auf, je größer die Stichprobe ist. (In unseren simulierten Daten besteht jedoch selbst bei 1.000 Stichproben noch eine geringe Wahrscheinlichkeit, die falsche Richtung zu erhalten.)

Was ist, wenn unsere signifikanten Ergebnisse in die richtige Richtung weisen?

Auch das haben wir untersucht. Wir haben den durchschnittlichen geschätzten Effekt aller signifikanten Ergebnisse berechnet, die einen positiven Effekt korrekt anzeigten.

Bildquelle: Optimizely

Das obige Diagramm hebt zwei wichtige Punkte hervor:

Selbst wenn der geschätzte Effekt das korrekte Vorzeichen hat, kann er viel größer sein als der tatsächliche Effekt.
Diese Übertreibung nimmt mit zunehmender Stichprobengröße ab.

Die von uns betrachteten Vorzeichen- und Übertreibungsfehler stammen aus einem Rahmenwerk von Gelman & Carlin (2014), bekannt als Fehler vom Typ S (Vorzeichen) und Typ M (Größe). Unsere Berechnungen sind keine exakten Nachbildungen ihrer Methode, aber sie erfassen den Kern: Signifikante Ergebnisse können manchmal in die falsche Richtung weisen (Fehler vom Typ S) oder die Effektstärke übertreiben (Fehler vom Typ M), insbesondere wenn nicht genügend Daten vorliegen. Inzwischen ist klar, warum ausreichend Daten entscheidend für zuverlässige und aussagekräftige Ergebnisse sind. Wie hilft die Poweranalyse dabei? Betrachten Sie noch einmal das erste Liniendiagramm. Eine Stichprobengröße gilt üblicherweise als „ausreichend“, wenn sie uns eine Wahrscheinlichkeit von mindestens 80 % bietet, einen tatsächlichen Effekt nachzuweisen. Dies bezeichnen wir mit einer Teststärke von 80 %. In unserer Simulation entspricht dies etwa 2.500 Stichproben. Wenn Sie also ein Experiment mit einer Teststärke von 80 % durchführen und ein nicht signifikantes Ergebnis erhalten, wissen Sie, dass der in Ihrer Alternativhypothese erwartete Effekt wahrscheinlich nicht existiert.

Bildquelle: Optimizely

Wenn Sie hingegen mit 2.500 Stichproben ein signifikantes Ergebnis erzielen (d. h. ein Experiment mit einer Teststärke von 80 %), ist die Wahrscheinlichkeit, dass es falsch oder übertrieben ist, sehr gering. Das bedeutet, dass Sie dem Ergebnis vertrauen und Ihre Entscheidungen darauf stützen können.

Kurz gesagt: Die Poweranalyse hilft Ihnen, genügend Daten zu sammeln, um sowohl nicht-signifikante als auch signifikante Ergebnisse verlässlich zu machen.

Nun, aus welchem Grund auch immer, haben wir vor Beginn des Experiments keine Poweranalyse durchgeführt. Können wir dies im Nachhinein tun und trotzdem noch etwas Nützliches daraus lernen? Leider nein.

Die begrenzte Nützlichkeit der Post-hoc-Poweranalyse

Um die Probleme von Post-hoc-Poweranalysen zu verstehen, müssen wir zunächst die Definition von Power in der frequentistischen Statistik begreifen.

Die Definition von Power

Die „Power“ ist die Wahrscheinlichkeit, die Nullhypothese korrekt abzulehnen. Wie andere Konzepte der frequentistischen Statistik, z. B. der Fehler falsch positiver Ergebnisse, wird die Power über eine Reihe wiederholter Experimente unter identischen Bedingungen definiert, was viele Anwender verwirren kann.

Um das Konzept zu verstehen, betrachten wir das oben erwähnte Experiment mit dem Checkout-Button erneut. Die folgende Abbildung definiert die Teststärke für dieses hypothetische Experiment.

In der Praxis würden wir ein Experiment mit dem Checkout-Button durchführen und den zugehörigen p-Wert berechnen (d. h. Experiment 1 in der Abbildung). Die Teststärke ergibt sich jedoch nicht nur aus diesem Experiment (d. h. Experiment 1), sondern auch aus potenziellen Experimenten, die wir durchführen könnten (d. h. Experimente 2, 3, …, M). Dies meinen wir mit „Die Teststärke wird über eine Reihe wiederholter Experimente unter identischen Bedingungen definiert“. Da wir die anderen potenziellen Experimente nicht beobachten, kennen wir die tatsächliche Teststärke in einem empirischen Setting nicht. Aus diesem Grund greifen wir zur Veranschaulichung des Verhaltens der Teststärke typischerweise auf Simulationsstudien (wie die oben genannten) zurück.

Bildquelle: Optimizely

In einem empirischen Kontext kennen wir den wahren Effekt nicht. Daher verwenden wir bei der Planung eines Experiments den minimal nachweisbaren Effekt (MDE) – den kleinsten Effekt, der uns interessiert –, um die Stichprobengröße zu schätzen.

Dies hängt direkt mit der Funktionsweise von Hypothesentests zusammen. Der Test zeigt uns lediglich, ob wir die Nullhypothese verwerfen können. Er bestätigt nicht, ob der Effekt, den wir in die Alternativhypothese einsetzen (wie der MDE), der wahre Effekt ist, da wir den wahren Effekt nicht kennen.

Wenn wir die Nullhypothese mit ausreichender Teststärke verwerfen, bedeutet dies, dass wir starke Hinweise auf die Existenz eines realen Effekts gefunden haben. Wir sollten jedoch auch überprüfen, wie groß dieser Effekt ist. Ist der beobachtete Effekt kleiner als der minimale Effekt (MDE), kann er zwar statistisch signifikant, aber praktisch nicht relevant sein – anders ausgedrückt: Die Veränderung ist real, aber möglicherweise nicht groß genug, um ein Eingreifen zu rechtfertigen. Wenn wir die Nullhypothese nicht verwerfen, bedeutet das, dass entweder tatsächlich kein Effekt vorliegt oder die aktuelle Stichprobengröße nicht ausreicht, um den Effekt nachzuweisen. Können wir den im Experiment beobachteten Effekt stattdessen verwenden, um die Teststärke nachträglich zu berechnen (eine Post-hoc-Analyse)? Nein, das ist nicht möglich. Die geschätzte Teststärke kann verrauscht sein, und ihre Verwendung auf diese Weise kann ein sehr irreführendes Bild der Teststärke vermitteln. Die Post-hoc-Teststärke Nehmen wir das Beispiel des Checkout-Button-Experiments wieder auf. Wir haben 100 Besucher für die Kontrollgruppe und 100 für die Behandlungsgruppe erfasst. Die Konversionsrate der Kontrollgruppe beträgt 0,90, die der Behandlungsgruppe 0,94. Die beobachtete (nicht standardisierte) Effektstärke (d. h. die Differenz der Mittelwerte) beträgt 0,04 mit einem Standardfehler von ca. 0,0383. Bei einem kritischen Wert von 1,96 (zweiseitiger Test, α = 0,05) ergibt sich ein p-Wert von 0,396 und ein 95%-Konfidenzintervall von (-0,0351; 0,1151) basierend auf dem Wald-Test für die Mittelwertdifferenz. Dieses Konfidenzintervall kann angesichts der Daten und Informationen als plausibler Bereich des wahren Effekts angesehen werden. Setzt man jeden Wert innerhalb dieses Intervalls als wahren Effekt ein, lässt sich die Teststärke anhand der Formel von Wasserman (2012) schätzen.

Dabei ist Delta der Ersatzwert für den Effekt. Die folgende Tabelle zeigt die geschätzte Leistung basierend auf verschiedenen möglichen Werten des tatsächlichen Effekts.

Mögliche Werte des wahren Effekts	Geschätzt Leistung
0,1151	85 %
0,107	80 %
0,04	18 %
0,001	5 %
-0,0351	15 %

Abhängig von den möglichen Werten für den wahren Effekt, die sich aus dem Konfidenzintervall ergeben, schätzen wir die Teststärke auf 5 % bis 85 %. Dieser Bereich ist zu groß, um praktisch anwendbar zu sein.

Eine nachträgliche Poweranalyse liefert keine zusätzlichen Erkenntnisse.

Wir wiederholen den bereits genannten Punkt:

Aus statistischer Sicht bedeutet ein nicht signifikantes Ergebnis, dass entweder der tatsächliche Effekt null ist oder die Stichprobengröße nicht ausreicht, um den Effekt nachzuweisen (und die Studie daher unterpowert ist). Wir können nicht feststellen, welcher Fall zutrifft.

Diese Aussage erfordert keine Post-hoc-Analyse, und eine solche Analyse liefert keine zusätzlichen Erkenntnisse. Wie die obige Tabelle zeigt, liegt die geschätzte Teststärke im Bereich von -0,0351 bis 0,1151 meist unter 80 %, was angesichts des nicht signifikanten Ergebnisses nicht überraschend ist. Das eigentliche Problem besteht jedoch darin, dass wir nicht wissen, ob der tatsächliche Effekt null ist oder nicht. Diese Frage kann durch eine Post-hoc-Analyse nicht beantwortet werden. Post-hoc-Teststärke als Instrument zur Erkennung von Verzerrungen Wir haben festgestellt, dass die Post-hoc-Teststärke nicht zur Bewertung eines einzelnen Experiments geeignet ist. Sie kann jedoch helfen, die Glaubwürdigkeit mehrerer Studien in einer wissenschaftlichen Arbeit zu beurteilen. Dieses Thema sprengt den Rahmen dieses Blogs. Interessierte Leser finden weitere Informationen in Schimmack (2012) und Aberson (2019, S. 15–16).

Bewährte Verfahren für die Poweranalyse in frequentistischen Tests mit festem Zeithorizont

Die Poweranalyse ist mehr als nur eine Formalität – sie ist die Grundlage für verlässliche Experimente. Um Ihre Ergebnisse glaubwürdig und praxisrelevant zu gestalten, beachten Sie folgende Prinzipien:

Definieren und begründen Sie Ihren MDE: Wählen Sie einen „nachweisbaren Effekt“ nicht willkürlich. Überlegen Sie, welche Verbesserung praktisch sinnvoll ist, und begründen Sie Ihre Wahl. Aber denken Sie daran: MDE ist nicht der tatsächliche Effekt, sondern nur der Effekt, der Sie interessiert.
Planen Sie Ihre Stichprobengröße im Voraus: Legen Sie eine Teststärke von mindestens 80 % für Ihre gewählte MDE fest und achten Sie genau auf die Annahmen Ihrer Berechnungsmethode (wir werden dies in einem anderen Blogbeitrag ausführlich besprechen).
Halten Sie sich an den Plan: Sobald das Experiment beginnt, halten Sie sich strikt an die auf der Poweranalyse basierende, vorab festgelegte Stichprobengröße.
Poweranalyse ist nicht nur bei frequentistischen Tests mit festem Horizont hilfreich: Nicht alle Studien benötigen aus statistischer Sicht eine Poweranalyse. Beispielsweise basieren Bayes'sche Ansätze oder unsere sequenziellen Tests nicht in gleicher Weise auf festen Stichprobengrößen. Dennoch kann die Poweranalyse auch in diesen Kontexten hilfreich sein, um Ihr Versuchsdesign zu optimieren.

Eine durchdachte Poweranalyse macht aus Ihrem Test ein verlässliches Entscheidungsinstrument. Verzichten Sie darauf, ist Ihr A/B-Test nicht besser als ein Münzwurf. Führen Sie sie falsch durch, bietet sie trügerische Sicherheit statt echter Erkenntnisse.

Literatur

Aberson, C. L. (2019). Angewandte Poweranalyse für die Verhaltenswissenschaften. Routledge.

Gelman, A., & Carlin, J. (2014). Jenseits von Powerberechnungen: Beurteilung von Fehlern vom Typ S (Vorzeichen) und Typ M (Größe). Perspektiven der psychologischen Wissenschaft, 9(6), 641–651.

Schimmack, U. (2012). Der ironische Effekt signifikanter Ergebnisse auf die Glaubwürdigkeit von Artikeln mit mehreren Studien. Psychological Methods, 17(4), 551. Wasserman, L. (2013). Statistik für alle: Ein kompakter Kurs in statistischer Inferenz. Springer Science & Business Media.

Echte Macht rettet dich, aber nachträgliche Macht betrügt dich.

TL;DR

Eine Poweranalyse ist wichtig – und was passiert, wenn Sie sie auslassen?

Szenario 1: Ohne Poweranalyse kann ein nicht signifikantes Ergebnis irreführend sein.

Szenario 2: Auch ohne Poweranalyse kann ein signifikantes Experiment irreführend sein.

Die begrenzte Nützlichkeit der Post-hoc-Poweranalyse

Die Definition von Power

Eine nachträgliche Poweranalyse liefert keine zusätzlichen Erkenntnisse.

Bewährte Verfahren für die Poweranalyse in frequentistischen Tests mit festem Zeithorizont

Literatur