Die Simulationsergebnisse legen nahe:
- Beim Testen der absoluten Mittelwertdifferenz entspricht die Approximation über absolute Differenz für die Planung der Stichprobengröße unserem Ziel von 80 % Power. Die Delta-Methode hingegen neigt dazu, die benötigten Stichprobengrößen zu überschätzen.
- Beim Testen der relativen Mittelwertdifferenz mit der Delta-Methode unterschätzt die Approximation über absolute Differenz die Stichprobengrößen üblicherweise, weil sie die Varianz unterschätzt. Das Problem der zu geringen Power verschärft sich, je größer die relative Verbesserung wird.
Diese Erkenntnisse unterstreichen die zuvor empfohlene Erfolgsmethode: Stellen Sie sicher, dass Ihre Schätzung der Stichprobengröße zu dem statistischen Test passt, den Sie verwenden möchten. Wenn Sie einen Test mit absoluter Differenz verwenden, um einen Test mit relativer Differenz zu schätzen, wählen Sie für Ihre Stichprobengröße die Approximation über absolute Differenz. Wenn Sie den Test mit relativer Differenz aber direkt mit der Delta-Methode durchführen, dann verwenden Sie diese Methode zur Schätzung der Stichprobengröße. (Die Wahl zwischen diesen beiden Tests für relative Verbesserung würde den Rahmen dieses Beitrags sprengen, aber wissen Sie einfach, dass der Approximationstest einen Teil der Unsicherheit im Nenner überspringt und nicht die beste Wahl in der Branche ist.)
Bei Optimizely verwenden wir die Delta-Methode, um relative Verbesserung zu testen, daher nutzt auch unsere Schätzung der Stichprobengröße die Delta-Methode.
Was Formeln für die Stichprobengröße über die Reduzierung der Stichprobengröße aussagen
Wenn Menschen Stichprobengrößen planen, möchten sie diese in der Regel so klein wie möglich halten, um Experimente schnell zu halten. Zwei wichtige Faktoren, die die Stichprobengröße beeinflussen, werden in Formeln für die Stichprobengröße oft übersehen: die minimal detektierbare Effektgröße (MDE) im Nenner und die Metrik-Varianz im Zähler. Diese Faktoren können tatsächlich helfen, die benötigte Stichprobengröße zu senken. In allen Formeln gilt: Wenn wir α auf 0,05 und β auf 0,2 (80 % Power) festlegen, bedeutet eine geringere Metrik-Varianz und/oder eine größere MDE, dass Sie eine kleinere Stichprobengröße benötigen.
Daraus ergeben sich zwei praktische Tipps:
- Sobald Sie Kandidaten-Metriken identifiziert haben, die Ihre experimentellen Änderungen tatsächlich bewegen können und die dem Business am wichtigsten sind, können Sie sich historische Daten ansehen, um die Metrik mit geringerer Varianz als primäre Metrik auszuwählen. (Mit historischen Daten können Sie die Stichprobengröße möglicherweise weiter reduzieren, indem Sie Techniken wie CUPED verwenden)
- Wenn Stakeholder Sie drängen, erklären Sie, dass die Wahl einer größeren MDE helfen kann, das Experiment rechtzeitig abzuschließen. Aber sie sollten wissen, dass dies eine höhere Chance bedeutet, kleine Effekte zu verpassen, sodass sie womöglich überdenken möchten, wozu das Experiment dient. Und welche MDE Sie auch wählen, sie muss dennoch realistisch sein – sie über das Plausible hinaus aufzublähen, nur um früher fertig zu werden, macht das Experiment bedeutungslos.
Quellen
Chow, S. C., Shao, J., Wang, H., & Lokhnygina, Y. (2017). Sample size calculations in clinical research. Chapman and Hall/CRC. (pp. 13-15, 77)
Stuart, A., Ord, K. & Arnold, S. (2004). Kendall's advanced theory of statistics, classical inference, and the linear model. John Wiley & Sons. (pp. 190-191)
Casella, G., & Berger, R. (2002). Statistical inference (2ed). Chapman and Hall/CRC. (p. 385)
Davison, A. C. (2003). Statistical models. Cambridge University Press. (p. 334)
Cox, D. R., & Hinkley, D. V. (1979). Theoretical statistics. CRC Press. (pp. 103-104)
Belle, G. van. (2011). Statistical Rules of Thumb. John Wiley & Sons.
Wu, J., & Ding, P. (2021). Randomization tests for weak null hypotheses in randomized experiments. Journal of the American Statistical Association, 116(536), 1898-1913.
Ding, P. (2024). A first course in causal inference. Chapman and Hall/CRC. pp.25-55
Imbens, G. W., & Rubin, D. B. (2015). Causal inference in statistics, social, and biomedical sciences. Cambridge university press. pp.83-112