Simuleringsresultatene antyder:
- Når man tester absolutt gjennomsnittsforskjell, samsvarer tilnærmingen med absolutt forskjell for planlegging av utvalgsstørrelse med målet vårt om 80 % power. Deltametoden, på den annen side, har en tendens til å overestimere utvalgsstørrelsene som trengs.
- Når man tester relativ gjennomsnittsforskjell med deltametoden, underestimerer tilnærmingen med absolutt forskjell vanligvis utvalgsstørrelsene fordi den underestimerer variansen. Problemet med å være underpowered blir verre etter hvert som den relative forbedringen vokser.
Disse funnene fremhever vår anbefalte beste praksis tidligere: sørg for at estimeringen av utvalgsstørrelse samsvarer med den statistiske testen du planlegger å bruke. Hvis du bruker en test med absolutt forskjell for å estimere en test med relativ forskjell, velg tilnærmingen med absolutt forskjell for utvalgsstørrelsen din. Men hvis du kjører testen med relativ forskjell direkte ved hjelp av deltametoden, bruk da den metoden for å estimere utvalgsstørrelse. (Å velge mellom disse to testene for relativ forbedring er utenfor rammen av dette innlegget, men vit bare at tilnærmingstesten hopper over noe usikkerhet i nevneren og ikke er det beste valget i bransjen.)
Hos Optimizely bruker vi deltametoden for å teste relativ forbedring, så estimeringen vår av utvalgsstørrelse bruker også deltametoden.
Hva formler for utvalgsstørrelse forteller om reduksjon av utvalgsstørrelse
Når folk planlegger utvalgsstørrelser, vil de vanligvis ha dem så små som mulig for å holde eksperimentene raske. To viktige faktorer som påvirker utvalgsstørrelsen blir ofte oversett i formler for utvalgsstørrelse: den minste detekterbare effekten (MDE) i nevneren og metrikkvariansen i telleren. Disse faktorene kan faktisk bidra til å senke den nødvendige utvalgsstørrelsen. I alle formler gjelder: hvis vi fastsetter α til 0,05 og β til 0,2 (80 % power), betyr lavere metrikkvarians og/eller en større MDE at du trenger en mindre utvalgsstørrelse.
Dette bringer opp to praktiske tips:
- Når du har identifisert kandidatmetrikker som de eksperimentelle endringene dine faktisk kan bevege og som virksomheten bryr seg mest om, kan du se på historiske data for å velge metrikken med lavere varians som primær metrikk. (Med historiske data kan du kanskje redusere utvalgsstørrelsen ytterligere ved å bruke teknikker som CUPED)
- Hvis interessenter maser på deg, forklar at det å velge en større MDE kan bidra til å fullføre eksperimentet i tide. Men de bør vite at dette betyr en høyere sjanse for å gå glipp av små effekter, så de vil kanskje tenke gjennom på nytt hva eksperimentet er til for. Og uansett hvilken MDE du velger, må den fortsatt være realistisk – å blåse den opp utover det plausible bare for å bli ferdig raskere gjør eksperimentet meningsløst.
Referanser
Chow, S. C., Shao, J., Wang, H., & Lokhnygina, Y. (2017). Sample size calculations in clinical research. Chapman and Hall/CRC. (pp. 13-15, 77)
Stuart, A., Ord, K. & Arnold, S. (2004). Kendall's advanced theory of statistics, classical inference, and the linear model. John Wiley & Sons. (pp. 190-191)
Casella, G., & Berger, R. (2002). Statistical inference (2ed). Chapman and Hall/CRC. (p. 385)
Davison, A. C. (2003). Statistical models. Cambridge University Press. (p. 334)
Cox, D. R., & Hinkley, D. V. (1979). Theoretical statistics. CRC Press. (pp. 103-104)
Belle, G. van. (2011). Statistical Rules of Thumb. John Wiley & Sons.
Wu, J., & Ding, P. (2021). Randomization tests for weak null hypotheses in randomized experiments. Journal of the American Statistical Association, 116(536), 1898-1913.
Ding, P. (2024). A first course in causal inference. Chapman and Hall/CRC. pp.25-55
Imbens, G. W., & Rubin, D. B. (2015). Causal inference in statistics, social, and biomedical sciences. Cambridge university press. pp.83-112