Stichprobengrößen-Berechnung für A/B-Tests und Experimente

Eine kleinere Stichprobengröße anzustreben ist möglich, aber Sie müssen die Kompromisse kommunizieren, um ein Experiment schnell abzuschließen. So geht's.

TL;DR

Bei der Berechnung der Stichprobengröße in Experimenten geht es ganz um die Balance der Fehlerraten (Typ I & II).
Verwenden Sie Formeln zur Berechnung der Stichprobengröße, die zu Ihrem Testdesign und Ihren Annahmen passen (etwa gleiche Varianzen oder Gruppengrößen).
Sie können die Stichprobengröße verkleinern, indem Sie Metriken mit geringerer Varianz wählen oder eine größere MDE akzeptieren, aber stellen Sie immer sicher, dass Ihre Entscheidungen zu Ihrer geschäftlichen Realität passen.
Bei Optimizely ist die Schätzung der Stichprobengröße auf den jeweiligen Test und die jeweilige Metrik zugeschnitten und nutzt die Delta-Methode für den relativen Lift.

Wenn Sie jemals versucht haben, die Stichprobengröße für ein Experiment zu planen, wissen Sie, dass das Internet voller Formeln ist. Aber nicht alle Formeln sind gleich. Jede bringt Annahmen mit, die zu Ihrem Test und Ihrer Datenrealität passen können oder auch nicht. Und über diese Grundlagen hinaus gibt es einige praktische Nuancen, die über den Erfolg Ihres Experiments entscheiden können.

Der Ursprung der Stichprobengrößenschätzung (Fehlerkontrolle für Hypothesentests) enhancement_commerce-analytics

Wenn Sie in einem Experiment einen Hypothesentest durchführen, treffen Sie am Ende eine von zwei Entscheidungen: entweder die Nullhypothese H0 abzulehnen oder sie nicht abzulehnen. Doch diese Entscheidung kann falsch sein, da sie nur auf einer Stichprobe von allen Daten beruht, die Sie hätten haben können. Im frequentistischen Hypothesentest nennen wir diese Fehler Typroduct_campaignp-I- oder Typ-II-Fehler, wie in der Tabelle unten gezeigt.

	H0 ablehnen	H0 nicht ablehnen
H0 wahr	✕ Typ-I-Fehler	✓
H1 wahr	✓	✕ Typ-II-Fehler

Üblicherweise bewerten wir einen Hypothesentest anhand seiner Wahrscheinlichkeiten, Typ-I-(α) und Typ-II-Fehler (β) zu begehen. Ein guter Test oder ein gutes Experiment versucht, diese Wahrscheinlichkeiten niedrig genug zu halten, damit wir den Ergebnissen vertrauen und auf Basis des Experiments gute Entscheidungen treffen können.

Jeder Test hat eine Regel, um zu entscheiden, wann H0 abgelehnt wird. Üblicherweise prüft diese Regel, ob die beobachteten Effekte in einen „Ablehnungsbereich“ R fallen. Wenn ja, lehnen wir H0 ab; wenn nicht, dann nicht. Wenn wir die Wahrscheinlichkeit, H0 abzulehnen, als Pr(beobachtete Effekte ∈ R) definieren, bedeutet diese Wahrscheinlichkeit je nachdem, ob H0 oder H1 wahr ist, Unterschiedliches.

Wenn H0 wahr ist, Pr(beobachtete Effekte ∈ R|H0 ist wahr) = Pr(H0 ablehnen|H0 ist wahr) = Wahrscheinlichkeit eines Typ-I-Fehlers
Wenn H1 wahr ist, Pr(beobachtete Effekte ∈ R|H1 ist wahr) = Pr(H0 ablehnen|H1 ist wahr) = 1-Pr(H0 nicht ablehnen|H1 ist wahr) = 1- Wahrscheinlichkeit eines Typ-II-Fehlers

Formal ausgedrückt können wir die Funktion auf Basis von θ definieren (Casella & Berger, 2002):

Statistiker nennen dies die „Power-Funktion“, weil 1 - Wahrscheinlichkeit eines Typ-II-Fehlers die Wahrscheinlichkeit ist, H0 korrekt abzulehnen, wenn H1 wahr ist – das, was wir die Power des Tests nennen. Diese einzelne Funktion kombiniert Informationen über die Wahrscheinlichkeit eines Tests, sowohl Typ-I- als auch Typ-II-Fehler zu begehen, und wird daher genutzt, um verschiedene Tests zu bewerten und zu vergleichen.

Hier ein Beispiel: Die Grafik unten zeigt, wie sich die Power-Funktionen zweier Tests je nach dem wahren Effekt θ auf der x-Achse verändern. Nehmen wir an, unsere Hypothese ist H0: θ ≤ 0,5 versus H1: θ > 0,5. Die Funktion β1(θ) sagt uns, dass Test 1 eine geringe Wahrscheinlichkeit eines Typ-I-Fehlers hat, wenn θ ≤ 0,5, aber eine hohe Wahrscheinlichkeit eines Typ-II-Fehlers (d. h. geringe Power), wenn θ > 0,5. Im Gegensatz dazu zeigt β2(θ), dass Test 2 eine höhere Wahrscheinlichkeit eines Typ-I-Fehlers hat, wenn θ ≤ 0,5, aber eine geringere Wahrscheinlichkeit eines Typ-II-Fehlers (d. h. höhere Power), wenn θ > 0,5. Wenn Sie zwischen diesen 2 Tests wählen müssen, müssen Sie entscheiden, welches Fehlermuster – β1(θ) oder β2(θ) – Sie eher akzeptabel finden.

Nun fragen Sie sich vielleicht, was die Kurve von β(θ) in der Grafik formt. Das hängt ab von:

Welchen Testtyp Sie wählen
Nachdem Sie den Testtyp gewählt haben, wie Sie ihn einrichten, etwa die Stichprobengröße und/oder die Typ-I/II-Fehlerschwelle im Test.

Der Wald-Test dominiert die frequentistischen Tests mit festem Horizont im A/B-Testing der Branche, weil er rechnerisch einfach und in großem Maßstab hochpräzise ist (für detaillierte theoretische Grundlagen von Tests vom Wald-Typ siehe Wu& Ding, 2021, Ding, 2024, Imbens & Rubin, 2015).

Für den zweiseitigen Wald-Test lautet die Power-Funktion näherungsweise:

Wenn Sie zum Beispiel die absolute Mittelwertdifferenz zwischen zwei Gruppen testen, einer Treatment-Gruppe und einer Kontrollgruppe (was das gängigste Setup im A/B-Testing ist), sehen Sie möglicherweise unterschiedliche Formeln für die Stichprobengröße. Das hängt von Annahmen ab, wie denen in der Tabelle unten.

Varianzannahme	Annahme zur Stichprobengröße	SE0	Formel für die Stichprobengröße pro Gruppe
Gleiche Varianz	gleiche Stichprobengröße / ungleiche Stichprobengröße
Ungleiche Varianz	gleiche Stichprobengröße / ungleiche Stichprobengröße

wird durch Ihre Hypothese bestimmt. Konkret ist es die minimal detektierbare Effektgröße (MDE), die Sie interessiert.
haben entsprechende Werte, sobald Sie sich für Werte von α und β entscheiden

Eine andere Perspektive: Alternative Wege, die zu mehr Formeln für die Stichprobengröße führen

Belle (2011, S. 27-29) erklärte aus einem etwas anderen Blickwinkel, wie die Stichprobengröße berechnet wird.

Angenommen, wir führen ein randomisiertes Experiment mit einer Kontrollgruppe und einer Treatment-Gruppe durch, um eine neue Funktion zu testen. Formal spezifizieren wir die Hypothesen wie folgt:

H0 (Nullhypothese): Kein Unterschied zwischen Kontroll- und Treatment-Gruppe.

H1 (Alternativhypothese): Es besteht ein Unterschied zwischen Kontroll- und Treatment-Gruppe.

Weiterhin nehmen wir an, dass die Falsch-Positiv-Rate Alpha ist (typischerweise 1 %, 5 % oder 10 %), die Falsch-Negativ-Rate Beta (üblicherweise 20 %) und die Mittelwertdifferenz zwischen den beiden Gruppen Delta (z. B. minimal detektierbare Effektgröße; MDE). Abbildung 1 zeigt die Stichprobenverteilungen unter der Null- und der Alternativhypothese. Unter typischen Umständen sind die Stichprobenverteilungen näherungsweise Normalverteilungen, wenn die Stichprobengröße groß genug ist.

Wenn die Nullhypothese wahr ist, gilt folgende Tatsache: Bei gegebenem Alpha muss der kritische Wert (d. h. die Grenze für das Nichtablehnen der Nullhypothese) gleich sein:

Wenn die Alternativhypothese wahr ist, gilt folgende Tatsache: Bei gegebenem Beta muss der kritische Wert (d. h. die Grenze für das Ablehnen der Nullhypothese) gleich sein:

Dies ist die allgemeine Formel, die der Schätzung der Stichprobengröße zugrunde liegt. Auf den ersten Blick scheint sie nichts mit der Stichprobengröße zu tun zu haben, aber Standardfehler hängen von der Stichprobengröße und anderen Faktoren ab. Ebenso können Sie mit dieser allgemeinen Formel verschiedene Optionen für die Stichprobengröße erhalten. Zum Testen der absoluten Mittelwertdifferenz zwischen einer Treatment-Gruppe und einer Kontrollgruppe können Sie zum Beispiel auf Basis von Annahmen wie denen in der Tabelle unten unterschiedliche Formeln für die Stichprobengröße aufstellen.

Varianzannahme	SE1	SE0	Formel für die Stichprobengröße pro Gruppe
Gleiche Varianz		Gleich wie SE1
Ungleiche Varianz		Gleich wie SE1
Ungleiche Varianz		Anders als SE1 Numerische Metriken Binäre Metriken

Die einfache „Faustregel“-Formel

Sie wird in der Branche oft für eine „schnelle Schätzung“ der Stichprobengröße verwendet.

Nehmen wir an:

Die Kontroll- und die Treatment-Gruppe werden durch Normalverteilungen mit derselben Varianz erzeugt
Gleichmäßige Traffic-Aufteilung, wobei jede Gruppe eine Stichprobengröße von N hat.

Dann wird die allgemeine Gleichung oben zu

Erfolgsmethoden für die Wahl einer Grundformel:

Hier sind zwei Kernaussagen zur Wahl von Formeln für die Stichprobengröße:

Passen Sie die Formel an den Test an: Ihre Stichprobengröße sollte zu dem statistischen Test passen, den Sie verwenden möchten. Jeder Test definiert seinen eigenen kritischen Bereich und Standardfehler, daher sollte Ihre Formel für die Stichprobengröße diese Besonderheiten widerspiegeln.
Wissen Sie, welche Annahmen Sie eingehen: Jede Formel macht einige Annahmen, um die Dinge einfach zu halten, etwa gleiche Gruppengrößen, gleiche Varianzen, Normalität bei großen Stichproben, konstante Varianz über die Mittelwerte hinweg und so weiter. Fragen Sie immer: Gelten diese Annahmen in meinem Experiment tatsächlich?

Kurz gesagt:

Die richtige Formel ist diejenige, die zu Ihrem Testdesign und Ihrer Datengenerierungs-Realität passt.

Bei Optimizely richten wir einen Wald-Test (z-Test) für unseren frequentistischen Test mit festem Horizont ein. Wir nehmen an, dass die Gruppen unterschiedliche Stichprobengrößen und Varianzen haben. Mithilfe des Power-Funktions-Frameworks wählen wir die unten gezeigte Formel für die Stichprobengröße:

Schätzung der Stichprobengröße für relative Verbesserung und Reduzierung der Stichprobengröße

Wenn Sie eine relative Verbesserung testen möchten.

Die Formeln oben helfen, die Stichprobengröße zu ermitteln, die nötig ist, um die absolute Mittelwertdifferenz zwischen zwei Gruppen zu testen. Aber im Geschäftsleben sprechen Menschen üblicherweise lieber über relativen Uplift.

Wenn die Conversion Rate zum Beispiel p0 = 0,1 und p1 = 0,15 ist, beträgt die absolute Differenz p1 - p0 = 0,05, während die relative Differenz (p1 - p0) / p0 = 0,5 oder 50 % beträgt.

Es gibt zwei gängige Wege, die Stichprobengröße zum Testen relativer Differenzen zwischen Gruppen zu schätzen.

Methode	Beschreibung	Beispiel für binäre Metriken
Approximation über absolute Differenz	Übersetzen Sie den relativen Lift in eine absolute Differenz. Verwenden Sie dann die Formel für die Stichprobengröße für die absolute Differenz.	Geben Sie p₀ und das gewünschte δ ein. Berechnen Sie Δ = δ·p₀, p₁ =p₀ + Δ. Berechnen Sie V = p₀(1−p₀)+p₁(1−p₁). Setzen Sie in n = ((zₐ + zᵦ)² V)/Δ² ein.
Delta-Methode	Verwenden Sie die relative Verbesserung direkt. Nutzen Sie eine Taylor-Entwicklung erster Ordnung, um ihre Varianz zu schätzen	Setzen Sie θ = δ. Berechnen Sie p₁ = p₀(1+δ). Berechnen Sie V_rel = p₁(1−p₁)/p₀² + p₁²(1−p₀)/p₀³. Lösen Sie n = ((zₐ + zᵦ)² V_rel)/θ².

Wie viel Unterschied machen die beiden Methoden in der Praxis?

Um die beiden Methoden zu vergleichen, haben wir eine Simulation durchgeführt, um zu prüfen, ob die für die relative Verbesserung geplanten Stichprobengrößen in tatsächlichen Tests die von uns gewünschte Power tatsächlich erreichen. Das Diagramm unten zeigt, wie wir die Simulation durchgeführt haben.

Die Simulationsergebnisse legen nahe:

Beim Testen der absoluten Mittelwertdifferenz entspricht die Approximation über absolute Differenz für die Planung der Stichprobengröße unserem Ziel von 80 % Power. Die Delta-Methode hingegen neigt dazu, die benötigten Stichprobengrößen zu überschätzen.
Beim Testen der relativen Mittelwertdifferenz mit der Delta-Methode unterschätzt die Approximation über absolute Differenz die Stichprobengrößen üblicherweise, weil sie die Varianz unterschätzt. Das Problem der zu geringen Power verschärft sich, je größer die relative Verbesserung wird.

Diese Erkenntnisse unterstreichen die zuvor empfohlene Erfolgsmethode: Stellen Sie sicher, dass Ihre Schätzung der Stichprobengröße zu dem statistischen Test passt, den Sie verwenden möchten. Wenn Sie einen Test mit absoluter Differenz verwenden, um einen Test mit relativer Differenz zu schätzen, wählen Sie für Ihre Stichprobengröße die Approximation über absolute Differenz. Wenn Sie den Test mit relativer Differenz aber direkt mit der Delta-Methode durchführen, dann verwenden Sie diese Methode zur Schätzung der Stichprobengröße. (Die Wahl zwischen diesen beiden Tests für relative Verbesserung würde den Rahmen dieses Beitrags sprengen, aber wissen Sie einfach, dass der Approximationstest einen Teil der Unsicherheit im Nenner überspringt und nicht die beste Wahl in der Branche ist.)

Bei Optimizely verwenden wir die Delta-Methode, um relative Verbesserung zu testen, daher nutzt auch unsere Schätzung der Stichprobengröße die Delta-Methode.

Was Formeln für die Stichprobengröße über die Reduzierung der Stichprobengröße aussagen

Wenn Menschen Stichprobengrößen planen, möchten sie diese in der Regel so klein wie möglich halten, um Experimente schnell zu halten. Zwei wichtige Faktoren, die die Stichprobengröße beeinflussen, werden in Formeln für die Stichprobengröße oft übersehen: die minimal detektierbare Effektgröße (MDE) im Nenner und die Metrik-Varianz im Zähler. Diese Faktoren können tatsächlich helfen, die benötigte Stichprobengröße zu senken. In allen Formeln gilt: Wenn wir α auf 0,05 und β auf 0,2 (80 % Power) festlegen, bedeutet eine geringere Metrik-Varianz und/oder eine größere MDE, dass Sie eine kleinere Stichprobengröße benötigen.

Daraus ergeben sich zwei praktische Tipps:

Sobald Sie Kandidaten-Metriken identifiziert haben, die Ihre experimentellen Änderungen tatsächlich bewegen können und die dem Business am wichtigsten sind, können Sie sich historische Daten ansehen, um die Metrik mit geringerer Varianz als primäre Metrik auszuwählen. (Mit historischen Daten können Sie die Stichprobengröße möglicherweise weiter reduzieren, indem Sie Techniken wie CUPED verwenden)
Wenn Stakeholder Sie drängen, erklären Sie, dass die Wahl einer größeren MDE helfen kann, das Experiment rechtzeitig abzuschließen. Aber sie sollten wissen, dass dies eine höhere Chance bedeutet, kleine Effekte zu verpassen, sodass sie womöglich überdenken möchten, wozu das Experiment dient. Und welche MDE Sie auch wählen, sie muss dennoch realistisch sein – sie über das Plausible hinaus aufzublähen, nur um früher fertig zu werden, macht das Experiment bedeutungslos.

Quellen

Chow, S. C., Shao, J., Wang, H., & Lokhnygina, Y. (2017). Sample size calculations in clinical research. Chapman and Hall/CRC. (pp. 13-15, 77)

Stuart, A., Ord, K. & Arnold, S. (2004). Kendall's advanced theory of statistics, classical inference, and the linear model. John Wiley & Sons. (pp. 190-191)

Casella, G., & Berger, R. (2002). Statistical inference (2ed). Chapman and Hall/CRC. (p. 385)

Davison, A. C. (2003). Statistical models. Cambridge University Press. (p. 334)

Cox, D. R., & Hinkley, D. V. (1979). Theoretical statistics. CRC Press. (pp. 103-104)

Belle, G. van. (2011). Statistical Rules of Thumb. John Wiley & Sons.

Wu, J., & Ding, P. (2021). Randomization tests for weak null hypotheses in randomized experiments. Journal of the American Statistical Association, 116(536), 1898-1913.

Ding, P. (2024). A first course in causal inference. Chapman and Hall/CRC. pp.25-55

Imbens, G. W., & Rubin, D. B. (2015). Causal inference in statistics, social, and biomedical sciences. Cambridge university press. pp.83-112

Stichprobengrößenberechnung ausgepackt: Ursprünge, verborgene Annahmen und Kompromisse