Beregning av utvalgsstørrelse for A/B-tester og eksperimenter

Å jakte på en mindre utvalgsstørrelse er mulig, men du må kommunisere avveiningene for å fullføre et eksperiment raskt. Slik gjør du det.

TL;DR

Beregning av utvalgsstørrelse i eksperimenter handler helt om å balansere feilrater (type I & II).
Bruk formler for beregning av utvalgsstørrelse som samsvarer med testdesignet og forutsetningene dine (som like varianser eller gruppestørrelser).
Du kan krympe utvalgsstørrelsen ved å velge metrikker med lavere varians eller akseptere en større MDE, men sørg alltid for at valgene dine samsvarer med din forretningsvirkelighet.
Hos Optimizely er estimering av utvalgsstørrelse skreddersydd til den spesifikke testen og metrikken, og bruker deltametoden for relativ lift.

Hvis du noen gang har prøvd å planlegge utvalgsstørrelse for et eksperiment, vet du at internett er fullt av formler. Men ikke alle formler er like. Hver kommer med forutsetninger som kan samsvare med testen og datavirkeligheten din, eller ikke. Og utover disse grunnleggende tingene finnes det noen praktiske nyanser som kan avgjøre suksessen til eksperimentet ditt.

Opprinnelsen til estimering av utvalgsstørrelse (feilkontroll for hypotesetest) enhancement_commerce-analytics

Når du kjører en hypotesetest i et eksperiment, ender du opp med å ta én av to beslutninger: enten å forkaste nullhypotesen H0 eller ikke forkaste den. Men denne beslutningen kan være feil, ettersom den er basert på bare ett utvalg av alle dataene du kunne hatt. I frekventistisk hypotesetesting kaller vi disse feilene Typroduct_campaignpe I- eller type II-feil, som vist i tabellen under.

	Forkast H0	Ikke forkast H0
H0 sann	✕ Type I-feil	✓
H1 sann	✓	✕ Type II-feil

Vanligvis vurderer vi en hypotesetest ut fra dens sannsynligheter for å gjøre type I-(α) og type II-feil (β). En god test eller et godt eksperiment forsøker å holde disse sannsynlighetene lave nok til at vi kan stole på resultatene og ta gode beslutninger basert på eksperimentet.

Enhver test har en regel for å avgjøre når H0 skal forkastes. Vanligvis sjekker denne regelen om de observerte effektene faller innenfor et «forkastningsområde» R. Hvis de gjør det, forkaster vi H0; hvis ikke, gjør vi det ikke. Hvis vi definerer sannsynligheten for å forkaste H0 som Pr(observerte effekter ∈ R), betyr denne sannsynligheten forskjellige ting avhengig av om H0 eller H1 er sann.

Når H0 er sann, Pr(observerte effekter ∈ R|H0 er sann) = Pr(forkast H0|H0 er sann) = sannsynlighet for type I-feil
Når H1 er sann, Pr(observerte effekter ∈ R|H1 er sann) = Pr(forkast H0|H1 er sann) = 1-Pr(ikke forkast H0|H1 er sann) = 1- sannsynlighet for type II-feil

Formelt uttrykt kan vi definere funksjonen basert på θ (Casella & Berger, 2002):

Statistikere kaller dette «power-funksjonen» fordi 1 - sannsynlighet for type II-feil er sannsynligheten for å forkaste H0 korrekt når H1 er sann – det vi kaller testens power. Denne ene funksjonen kombinerer informasjon om en tests sannsynlighet for å gjøre både type I- og type II-feil, og brukes derfor til å vurdere og sammenligne ulike tester.

Her er et eksempel: grafen under viser hvordan power-funksjonene til to tester endrer seg avhengig av den sanne effekten θ på x-aksen. La oss si at hypotesen vår er H0: θ ≤ 0,5 versus H1: θ > 0,5. Funksjonen β1(θ) forteller oss at test 1 har en lav sannsynlighet for en type I-feil når θ ≤ 0,5, men en høy sannsynlighet for en type II-feil (dvs. lav power) når θ > 0,5. I motsetning viser β2(θ) at test 2 har en høyere sannsynlighet for en type I-feil når θ ≤ 0,5, men en lavere sannsynlighet for en type II-feil (dvs. høyere power) når θ > 0,5. Hvis du må velge mellom disse 2 testene, må du bestemme hvilket feilmønster – β1(θ) eller β2(θ) – du synes er mer akseptabelt.

Nå lurer du kanskje på hva som former kurven til β(θ) i grafen. Det avhenger av:

Hvilken testtype du velger
Etter at du har valgt testtypen, hvordan du setter den opp, slik som utvalgsstørrelsen og/eller terskelen for type I/II-feil i testen.

Wald-testen dominerer frekventistiske tester med fast horisont i bransjens A/B-testing fordi den er beregningsmessig enkel og svært nøyaktig i stor skala (for detaljerte teoretiske grunnlag for tester av Wald-type, se Wu& Ding, 2021, Ding, 2024, Imbens & Rubin, 2015).

For den tosidige Wald-testen er power-funksjonen omtrentlig:

For eksempel, når du tester den absolutte gjennomsnittsforskjellen mellom to grupper, en treatment-gruppe og en kontrollgruppe (som er det vanligste oppsettet i A/B-testing), kan du se ulike formler for utvalgsstørrelse. Det avhenger av forutsetninger som de i tabellen under.

Variansforutsetning	Forutsetning om utvalgsstørrelse	SE0	Formel for utvalgsstørrelse per gruppe
Lik varians	lik utvalgsstørrelse / ulik utvalgsstørrelse
Ulik varians	lik utvalgsstørrelse / ulik utvalgsstørrelse

bestemmes av hypotesen din. Konkret er det den minste detekterbare effekten (MDE) du er interessert i.
har tilsvarende verdier når du bestemmer deg for verdier av α og β

En annen synsvinkel: alternative veier som fører til flere formler for utvalgsstørrelse

Belle (2011, s. 27-29) forklarte hvordan utvalgsstørrelse beregnes fra en litt annen vinkel.

Anta at vi skal kjøre et randomisert eksperiment med en kontrollgruppe og en treatment-gruppe for å teste en ny funksjon. Formelt spesifiserer vi hypotesene som følger:

H0 (nullhypotese): Ingen forskjell mellom kontroll- og treatment-gruppen.

H1 (alternativhypotese): Det finnes en forskjell mellom kontroll- og treatment-gruppen.

Videre antar vi at falsk positiv-raten er alfa (typisk 1 %, 5 % eller 10 %), falsk negativ-raten er beta (vanligvis 20 %), og gjennomsnittsforskjellen mellom de to gruppene er delta (f.eks. minste detekterbare effekt; MDE). Figur 1 viser utvalgsfordelingene under null- og alternativhypotesen. Under typiske omstendigheter er utvalgsfordelingene omtrentlig normalfordelinger når utvalgsstørrelsen er stor nok.

Hvis nullhypotesen er sann, har vi følgende faktum: Gitt alfa må den kritiske verdien (dvs. grensen for å ikke forkaste nullhypotesen) være lik:

Hvis alternativhypotesen er sann, har vi følgende faktum: Gitt beta må den kritiske verdien (dvs. grensen for å forkaste nullhypotesen) være lik:

Dette er den generelle formelen som ligger til grunn for estimering av utvalgsstørrelse. Ved første øyekast virker den urelatert til utvalgsstørrelse, men standardfeil avhenger av utvalgsstørrelse og andre faktorer. På samme måte kan du også få ulike alternativer for utvalgsstørrelse med denne generelle formelen. For å teste den absolutte gjennomsnittsforskjellen mellom en treatment-gruppe og en kontrollgruppe kan du for eksempel komme frem til ulike formler for utvalgsstørrelse basert på forutsetninger som de i tabellen under.

Variansforutsetning	SE1	SE0	Formel for utvalgsstørrelse per gruppe
Lik varians		Samme som SE1
Ulik varians		Samme som SE1
Ulik varians		Forskjellig fra SE1 Numeriske metrikker Binære metrikker

Den enkle «tommelfingerregel»-formelen

Den brukes ofte i bransjen for en «rask estimering» av utvalgsstørrelse.

La oss anta:

Kontroll- og treatment-gruppen genereres av normalfordelinger med samme varians
Lik trafikkfordeling, der hver gruppe har en utvalgsstørrelse på N.

Da blir den generelle ligningen over

Beste praksis for å velge en grunnformel:

Her er to konklusjoner om å velge formler for utvalgsstørrelse:

Tilpass formelen til testen: Utvalgsstørrelsen din bør samsvare med den statistiske testen du planlegger å bruke. Hver test definerer sitt eget kritiske område og standardfeil, så formelen din for utvalgsstørrelse bør speile disse detaljene.
Vit hvilke forutsetninger du kjøper deg inn på: Hver formel gjør noen forutsetninger for å holde ting enkelt, slik som like gruppestørrelser, like varianser, normalitet ved store utvalg, konstant varians på tvers av gjennomsnitt, og så videre. Spør alltid: Holder disse forutsetningene faktisk i eksperimentet mitt?

Kort sagt:

Den riktige formelen er den som samsvarer med testdesignet ditt og datagenereringsvirkeligheten.

Hos Optimizely setter vi opp en Wald-test (z-test) for vår frekventistiske test med fast horisont. Vi antar at gruppene har ulike utvalgsstørrelser og varianser. Ved hjelp av power-funksjonsrammeverket velger vi formelen for utvalgsstørrelse vist under:

Estimering av utvalgsstørrelse for relativ forbedring og reduksjon av utvalgsstørrelse

Når du vil teste relativ forbedring.

Formlene over hjelper med å finne ut hvilken utvalgsstørrelse som trengs for å teste den absolutte gjennomsnittsforskjellen mellom to grupper. Men i forretningslivet liker folk vanligvis å snakke om relativ lift i stedet.

For eksempel, hvis konverteringsgraden er p0 = 0,1 og p1 = 0,15, er den absolutte forskjellen p1 - p0 = 0,05, mens den relative forskjellen er (p1 - p0) / p0 = 0,5, eller 50 %.

Det finnes to vanlige måter å estimere utvalgsstørrelsen for å teste relative forskjeller mellom grupper.

Metode	Beskrivelse	Eksempel med binære metrikker
Tilnærming med absolutt forskjell	Oversett den relative liften til en absolutt forskjell. Bruk deretter formelen for utvalgsstørrelse for absolutt forskjell.	Legg inn p₀ og ønsket δ. Beregn Δ = δ·p₀, p₁ =p₀ + Δ. Beregn V = p₀(1−p₀)+p₁(1−p₁). Sett inn i n = ((zₐ + zᵦ)² V)/Δ².
Deltametode	Bruk den relative forbedringen direkte. Bruk en Taylor-utvikling av første orden for å estimere variansen	Sett θ = δ. Beregn p₁ = p₀(1+δ). Beregn V_rel = p₁(1−p₁)/p₀² + p₁²(1−p₀)/p₀³. Løs n = ((zₐ + zᵦ)² V_rel)/θ².

Hvor stor forskjell gjør de to metodene i praksis?

For å sammenligne de to metodene kjørte vi en simulering for å sjekke om utvalgsstørrelsene planlagt for relativ forbedring faktisk når den power vi ønsker i faktiske tester. Diagrammet under viser hvordan vi gjorde simuleringen.

Simuleringsresultatene antyder:

Når man tester absolutt gjennomsnittsforskjell, samsvarer tilnærmingen med absolutt forskjell for planlegging av utvalgsstørrelse med målet vårt om 80 % power. Deltametoden, på den annen side, har en tendens til å overestimere utvalgsstørrelsene som trengs.
Når man tester relativ gjennomsnittsforskjell med deltametoden, underestimerer tilnærmingen med absolutt forskjell vanligvis utvalgsstørrelsene fordi den underestimerer variansen. Problemet med å være underpowered blir verre etter hvert som den relative forbedringen vokser.

Disse funnene fremhever vår anbefalte beste praksis tidligere: sørg for at estimeringen av utvalgsstørrelse samsvarer med den statistiske testen du planlegger å bruke. Hvis du bruker en test med absolutt forskjell for å estimere en test med relativ forskjell, velg tilnærmingen med absolutt forskjell for utvalgsstørrelsen din. Men hvis du kjører testen med relativ forskjell direkte ved hjelp av deltametoden, bruk da den metoden for å estimere utvalgsstørrelse. (Å velge mellom disse to testene for relativ forbedring er utenfor rammen av dette innlegget, men vit bare at tilnærmingstesten hopper over noe usikkerhet i nevneren og ikke er det beste valget i bransjen.)

Hos Optimizely bruker vi deltametoden for å teste relativ forbedring, så estimeringen vår av utvalgsstørrelse bruker også deltametoden.

Hva formler for utvalgsstørrelse forteller om reduksjon av utvalgsstørrelse

Når folk planlegger utvalgsstørrelser, vil de vanligvis ha dem så små som mulig for å holde eksperimentene raske. To viktige faktorer som påvirker utvalgsstørrelsen blir ofte oversett i formler for utvalgsstørrelse: den minste detekterbare effekten (MDE) i nevneren og metrikkvariansen i telleren. Disse faktorene kan faktisk bidra til å senke den nødvendige utvalgsstørrelsen. I alle formler gjelder: hvis vi fastsetter α til 0,05 og β til 0,2 (80 % power), betyr lavere metrikkvarians og/eller en større MDE at du trenger en mindre utvalgsstørrelse.

Dette bringer opp to praktiske tips:

Når du har identifisert kandidatmetrikker som de eksperimentelle endringene dine faktisk kan bevege og som virksomheten bryr seg mest om, kan du se på historiske data for å velge metrikken med lavere varians som primær metrikk. (Med historiske data kan du kanskje redusere utvalgsstørrelsen ytterligere ved å bruke teknikker som CUPED)
Hvis interessenter maser på deg, forklar at det å velge en større MDE kan bidra til å fullføre eksperimentet i tide. Men de bør vite at dette betyr en høyere sjanse for å gå glipp av små effekter, så de vil kanskje tenke gjennom på nytt hva eksperimentet er til for. Og uansett hvilken MDE du velger, må den fortsatt være realistisk – å blåse den opp utover det plausible bare for å bli ferdig raskere gjør eksperimentet meningsløst.

Referanser

Chow, S. C., Shao, J., Wang, H., & Lokhnygina, Y. (2017). Sample size calculations in clinical research. Chapman and Hall/CRC. (pp. 13-15, 77)

Stuart, A., Ord, K. & Arnold, S. (2004). Kendall's advanced theory of statistics, classical inference, and the linear model. John Wiley & Sons. (pp. 190-191)

Casella, G., & Berger, R. (2002). Statistical inference (2ed). Chapman and Hall/CRC. (p. 385)

Davison, A. C. (2003). Statistical models. Cambridge University Press. (p. 334)

Cox, D. R., & Hinkley, D. V. (1979). Theoretical statistics. CRC Press. (pp. 103-104)

Belle, G. van. (2011). Statistical Rules of Thumb. John Wiley & Sons.

Wu, J., & Ding, P. (2021). Randomization tests for weak null hypotheses in randomized experiments. Journal of the American Statistical Association, 116(536), 1898-1913.

Ding, P. (2024). A first course in causal inference. Chapman and Hall/CRC. pp.25-55

Imbens, G. W., & Rubin, D. B. (2015). Causal inference in statistics, social, and biomedical sciences. Cambridge university press. pp.83-112

Beregning av utvalgsstørrelse pakket ut: opprinnelse, skjulte forutsetninger og avveininger