Simuleringsresultaten antyder:
- När man testar absolut medelvärdesskillnad matchar approximationen med absolut skillnad för planering av urvalsstorlek vårt mål om 80 % power. Deltametoden, å andra sidan, tenderar att överskatta de urvalsstorlekar som behövs.
- När man testar relativ medelvärdesskillnad med deltametoden underskattar approximationen med absolut skillnad vanligtvis urvalsstorlekarna eftersom den underskattar variansen. Problemet med att vara underpowered blir värre när den relativa förbättringen växer.
Dessa fynd understryker vår tidigare rekommenderade bästa praxis: säkerställ att din uppskattning av urvalsstorlek matchar det statistiska test du planerar att använda. Om du använder ett test med absolut skillnad för att uppskatta ett test med relativ skillnad, välj approximationen med absolut skillnad för din urvalsstorlek. Men om du kör testet med relativ skillnad direkt med deltametoden, använd då den metoden för att uppskatta urvalsstorlek. (Att välja mellan dessa två test för relativ förbättring ligger utanför ramen för detta inlägg, men vet bara att approximationstestet hoppar över viss osäkerhet i nämnaren och inte är det bästa valet i branschen.)
Hos Optimizely använder vi deltametoden för att testa relativ förbättring, så vår uppskattning av urvalsstorlek använder också deltametoden.
Vad formler för urvalsstorlek säger om minskning av urvalsstorlek
När folk planerar urvalsstorlekar vill de vanligtvis ha dem så små som möjligt för att hålla experimenten snabba. Två viktiga faktorer som påverkar urvalsstorleken missas ofta i formler för urvalsstorlek: den minsta detekterbara effekten (MDE) i nämnaren och mätvärdesvariansen i täljaren. Dessa faktorer kan faktiskt bidra till att sänka den urvalsstorlek som behövs. I alla formler gäller: om vi fastställer α till 0,05 och β till 0,2 (80 % power), betyder lägre mätvärdesvarians och/eller en större MDE att du behöver en mindre urvalsstorlek.
Detta för upp två praktiska tips:
- När du har identifierat kandidatmätvärden som dina experimentella förändringar faktiskt kan påverka och som verksamheten bryr sig mest om, kan du titta på historiska data för att välja mätvärdet med lägre varians som primärt mätvärde. (Med historiska data kan du kanske minska urvalsstorleken ytterligare genom att använda tekniker som CUPED)
- Om intressenter stressar dig, förklara att valet av en större MDE kan hjälpa till att slutföra experimentet i tid. Men de bör veta att detta innebär en högre risk att missa små effekter, så de kanske vill tänka om kring vad experimentet är till för. Och vilken MDE du än väljer måste den fortfarande vara realistisk – att blåsa upp den bortom det rimliga bara för att bli klar tidigare gör experimentet meningslöst.
Referenser
Chow, S. C., Shao, J., Wang, H., & Lokhnygina, Y. (2017). Sample size calculations in clinical research. Chapman and Hall/CRC. (pp. 13-15, 77)
Stuart, A., Ord, K. & Arnold, S. (2004). Kendall's advanced theory of statistics, classical inference, and the linear model. John Wiley & Sons. (pp. 190-191)
Casella, G., & Berger, R. (2002). Statistical inference (2ed). Chapman and Hall/CRC. (p. 385)
Davison, A. C. (2003). Statistical models. Cambridge University Press. (p. 334)
Cox, D. R., & Hinkley, D. V. (1979). Theoretical statistics. CRC Press. (pp. 103-104)
Belle, G. van. (2011). Statistical Rules of Thumb. John Wiley & Sons.
Wu, J., & Ding, P. (2021). Randomization tests for weak null hypotheses in randomized experiments. Journal of the American Statistical Association, 116(536), 1898-1913.
Ding, P. (2024). A first course in causal inference. Chapman and Hall/CRC. pp.25-55
Imbens, G. W., & Rubin, D. B. (2015). Causal inference in statistics, social, and biomedical sciences. Cambridge university press. pp.83-112