Beräkning av urvalsstorlek för A/B-tester och experiment

Att jaga en mindre urvalsstorlek är möjligt, men du måste kommunicera avvägningarna för att slutföra ett experiment snabbt. Så här gör du.

TL;DR

Beräkning av urvalsstorlek i experiment handlar helt om att balansera felfrekvenser (typ I & II).
Använd formler för beräkning av urvalsstorlek som matchar din testdesign och dina antaganden (som lika varianser eller gruppstorlekar).
Du kan krympa urvalsstorleken genom att välja mätvärden med lägre varians eller acceptera en större MDE, men säkerställ alltid att dina val matchar din affärsverklighet.
Hos Optimizely är uppskattning av urvalsstorlek skräddarsydd för det specifika testet och mätvärdet, och använder deltametoden för relativ lift.

Om du någonsin har försökt planera urvalsstorlek för ett experiment vet du att internet är fullt av formler. Men alla formler är inte likvärdiga. Varje kommer med antaganden som kan matcha ditt test och din dataverklighet, eller inte. Och utöver dessa grunder finns det några praktiska nyanser som kan avgöra ditt experiments framgång.

Ursprunget till uppskattning av urvalsstorlek (felkontroll för hypotestest) enhancement_commerce-analytics

När du kör ett hypotestest i ett experiment slutar du med att fatta ett av två beslut: antingen förkasta nollhypotesen H0 eller inte förkasta den. Men detta beslut kan vara fel eftersom det bygger på bara ett urval av all data du kunde ha haft. I frekventistisk hypotestestning kallar vi dessa misstag Typroduct_campaignp I- eller typ II-fel, som visas i tabellen nedan.

	Förkasta H0	Förkasta inte H0
H0 sann	✕ Typ I-fel	✓
H1 sann	✓	✕ Typ II-fel

Vanligtvis utvärderar vi ett hypotestest utifrån dess sannolikheter att göra typ I-(α) och typ II-fel (β). Ett bra test eller experiment försöker hålla dessa sannolikheter tillräckligt låga så att vi kan lita på resultaten och fatta bra beslut baserat på experimentet.

Varje test har en regel för att avgöra när H0 ska förkastas. Vanligtvis kontrollerar denna regel om de observerade effekterna faller inom ett „förkastningsområde“ R. Om de gör det förkastar vi H0; om inte, gör vi det inte. Om vi definierar sannolikheten att förkasta H0 som Pr(observerade effekter ∈ R), betyder denna sannolikhet olika saker beroende på om H0 eller H1 är sann.

När H0 är sann, Pr(observerade effekter ∈ R|H0 är sann) = Pr(förkasta H0|H0 är sann) = sannolikhet för typ I-fel
När H1 är sann, Pr(observerade effekter ∈ R|H1 är sann) = Pr(förkasta H0|H1 är sann) = 1-Pr(förkasta inte H0|H1 är sann) = 1- sannolikhet för typ II-fel

Formellt uttryckt kan vi definiera funktionen baserat på θ (Casella & Berger, 2002):

Statistiker kallar detta „power-funktionen“ eftersom 1 - sannolikhet för typ II-fel är sannolikheten att korrekt förkasta H0 när H1 är sann – det vi kallar testets power. Denna enda funktion kombinerar information om ett tests sannolikhet att göra både typ I- och typ II-fel, och används därför för att utvärdera och jämföra olika test.

Här är ett exempel: grafen nedan visar hur power-funktionerna för två test ändras beroende på den sanna effekten θ på x-axeln. Låt oss säga att vår hypotes är H0: θ ≤ 0,5 mot H1: θ > 0,5. Funktionen β1(θ) säger oss att test 1 har en låg sannolikhet för ett typ I-fel när θ ≤ 0,5, men en hög sannolikhet för ett typ II-fel (dvs. låg power) när θ > 0,5. Däremot visar β2(θ) att test 2 har en högre sannolikhet för ett typ I-fel när θ ≤ 0,5, men en lägre sannolikhet för ett typ II-fel (dvs. högre power) när θ > 0,5. Om du måste välja mellan dessa 2 test måste du avgöra vilket felmönster – β1(θ) eller β2(θ) – du finner mer acceptabelt.

Nu undrar du kanske vad som formar kurvan för β(θ) i grafen. Det beror på:

Vilken testtyp du väljer
Efter att du valt testtypen, hur du ställer in den, såsom urvalsstorleken och/eller tröskeln för typ I/II-fel i testet.

Wald-testet dominerar frekventistiska test med fast horisont i branschens A/B-testning eftersom det är beräkningsmässigt enkelt och mycket exakt i stor skala (för detaljerade teoretiska grunder för test av Wald-typ, se Wu& Ding, 2021, Ding, 2024, Imbens & Rubin, 2015).

För det tvåsidiga Wald-testet är power-funktionen ungefär:

När du till exempel testar den absoluta medelvärdesskillnaden mellan två grupper, en treatment-grupp och en kontrollgrupp (vilket är den vanligaste uppställningen i A/B-testning), kan du se olika formler för urvalsstorlek. Det beror på antaganden som de i tabellen nedan.

Variansantagande	Antagande om urvalsstorlek	SE0	Formel för urvalsstorlek per grupp
Lika varians	lika urvalsstorlek / olika urvalsstorlek
Olika varians	lika urvalsstorlek / olika urvalsstorlek

bestäms av din hypotes. Specifikt är det den minsta detekterbara effekten (MDE) som du är intresserad av.
har motsvarande värden när du bestämmer dig för värden på α och β

En annan synvinkel: alternativa vägar som leder till fler formler för urvalsstorlek

Belle (2011, s. 27-29) förklarade hur urvalsstorlek beräknas från en något annan vinkel.

Anta att vi ska köra ett randomiserat experiment med en kontrollgrupp och en treatment-grupp för att testa en ny funktion. Formellt specificerar vi hypoteserna enligt följande:

H0 (nollhypotes): Ingen skillnad mellan kontroll- och treatment-grupperna.

H1 (alternativhypotes): En skillnad finns mellan kontroll- och treatment-grupperna.

Vidare antar vi att falskt positiv-frekvensen är alfa (typiskt 1 %, 5 % eller 10 %), falskt negativ-frekvensen är beta (vanligtvis 20 %), och medelvärdesskillnaden mellan de två grupperna är delta (t.ex. minsta detekterbara effekt; MDE). Figur 1 visar urvalsfördelningarna under noll- och alternativhypotesen. Under typiska omständigheter är urvalsfördelningarna ungefär normalfördelningar när urvalsstorleken är tillräckligt stor.

Om nollhypotesen är sann har vi följande faktum: Givet alfa måste det kritiska värdet (dvs. gränsen för att inte förkasta nollhypotesen) vara lika med:

Om alternativhypotesen är sann har vi följande faktum: Givet beta måste det kritiska värdet (dvs. gränsen för att förkasta nollhypotesen) vara lika med:

Detta är den allmänna formeln som ligger till grund för uppskattning av urvalsstorlek. Vid första anblicken verkar den orelaterad till urvalsstorlek, men standardfel beror på urvalsstorlek och andra faktorer. På samma sätt kan du också få olika alternativ för urvalsstorlek med denna allmänna formel. För att testa den absoluta medelvärdesskillnaden mellan en treatment-grupp och en kontrollgrupp kan du till exempel komma fram till olika formler för urvalsstorlek baserat på antaganden som de i tabellen nedan.

Variansantagande	SE1	SE0	Formel för urvalsstorlek per grupp
Lika varians		Samma som SE1
Olika varians		Samma som SE1
Olika varians		Skild från SE1 Numeriska mätvärden Binära mätvärden

Den enkla „tumregel“-formeln

Den används ofta i branschen för en „snabb uppskattning“ av urvalsstorlek.

Låt oss anta:

Kontroll- och treatment-grupperna genereras av normalfördelningar med samma varians
Lika trafikfördelning, där varje grupp har en urvalsstorlek på N.

Då blir den allmänna ekvationen ovan

Bästa praxis för att välja en grundformel:

Här är två slutsatser om att välja formler för urvalsstorlek:

Matcha formeln till testet: Din urvalsstorlek bör matcha det statistiska test du planerar att använda. Varje test definierar sitt eget kritiska område och standardfel, så din formel för urvalsstorlek bör spegla dessa detaljer.
Vet vilka antaganden du köper in dig på: Varje formel gör några antaganden för att hålla saker enkla, såsom lika gruppstorlekar, lika varianser, normalitet vid stora urval, konstant varians över medelvärden, och så vidare. Fråga alltid: Håller dessa antaganden faktiskt i mitt experiment?

Kort sagt:

Den rätta formeln är den som matchar din testdesign och datagenereringsverklighet.

Hos Optimizely sätter vi upp ett Wald-test (z-test) för vårt frekventistiska test med fast horisont. Vi antar att grupperna har olika urvalsstorlekar och varianser. Med hjälp av power-funktionsramverket väljer vi formeln för urvalsstorlek som visas nedan:

Uppskattning av urvalsstorlek för relativ förbättring och minskning av urvalsstorlek

När du vill testa relativ förbättring.

Formlerna ovan hjälper till att räkna ut den urvalsstorlek som krävs för att testa den absoluta medelvärdesskillnaden mellan två grupper. Men i affärslivet brukar folk gilla att prata om relativ lift i stället.

Om konverteringsgraden till exempel är p0 = 0,1 och p1 = 0,15, är den absoluta skillnaden p1 - p0 = 0,05, medan den relativa skillnaden är (p1 - p0) / p0 = 0,5, eller 50 %.

Det finns två vanliga sätt att uppskatta urvalsstorleken för att testa relativa skillnader mellan grupper.

Metod	Beskrivning	Exempel med binära mätvärden
Approximation med absolut skillnad	Översätt den relativa liften till en absolut skillnad. Använd sedan formeln för urvalsstorlek för absolut skillnad.	Mata in p₀ och önskat δ. Beräkna Δ = δ·p₀, p₁ =p₀ + Δ. Beräkna V = p₀(1−p₀)+p₁(1−p₁). Sätt in i n = ((zₐ + zᵦ)² V)/Δ².
Deltametod	Använd den relativa förbättringen direkt. Använd en Taylor-utveckling av första ordningen för att uppskatta dess varians	Sätt θ = δ. Beräkna p₁ = p₀(1+δ). Beräkna V_rel = p₁(1−p₁)/p₀² + p₁²(1−p₀)/p₀³. Lös n = ((zₐ + zᵦ)² V_rel)/θ².

Hur stor skillnad gör de två metoderna i praktiken?

För att jämföra de två metoderna körde vi en simulering för att kontrollera om de urvalsstorlekar som planerats för relativ förbättring faktiskt når den power vi önskar i faktiska test. Diagrammet nedan visar hur vi gjorde simuleringen.

Simuleringsresultaten antyder:

När man testar absolut medelvärdesskillnad matchar approximationen med absolut skillnad för planering av urvalsstorlek vårt mål om 80 % power. Deltametoden, å andra sidan, tenderar att överskatta de urvalsstorlekar som behövs.
När man testar relativ medelvärdesskillnad med deltametoden underskattar approximationen med absolut skillnad vanligtvis urvalsstorlekarna eftersom den underskattar variansen. Problemet med att vara underpowered blir värre när den relativa förbättringen växer.

Dessa fynd understryker vår tidigare rekommenderade bästa praxis: säkerställ att din uppskattning av urvalsstorlek matchar det statistiska test du planerar att använda. Om du använder ett test med absolut skillnad för att uppskatta ett test med relativ skillnad, välj approximationen med absolut skillnad för din urvalsstorlek. Men om du kör testet med relativ skillnad direkt med deltametoden, använd då den metoden för att uppskatta urvalsstorlek. (Att välja mellan dessa två test för relativ förbättring ligger utanför ramen för detta inlägg, men vet bara att approximationstestet hoppar över viss osäkerhet i nämnaren och inte är det bästa valet i branschen.)

Hos Optimizely använder vi deltametoden för att testa relativ förbättring, så vår uppskattning av urvalsstorlek använder också deltametoden.

Vad formler för urvalsstorlek säger om minskning av urvalsstorlek

När folk planerar urvalsstorlekar vill de vanligtvis ha dem så små som möjligt för att hålla experimenten snabba. Två viktiga faktorer som påverkar urvalsstorleken missas ofta i formler för urvalsstorlek: den minsta detekterbara effekten (MDE) i nämnaren och mätvärdesvariansen i täljaren. Dessa faktorer kan faktiskt bidra till att sänka den urvalsstorlek som behövs. I alla formler gäller: om vi fastställer α till 0,05 och β till 0,2 (80 % power), betyder lägre mätvärdesvarians och/eller en större MDE att du behöver en mindre urvalsstorlek.

Detta för upp två praktiska tips:

När du har identifierat kandidatmätvärden som dina experimentella förändringar faktiskt kan påverka och som verksamheten bryr sig mest om, kan du titta på historiska data för att välja mätvärdet med lägre varians som primärt mätvärde. (Med historiska data kan du kanske minska urvalsstorleken ytterligare genom att använda tekniker som CUPED)
Om intressenter stressar dig, förklara att valet av en större MDE kan hjälpa till att slutföra experimentet i tid. Men de bör veta att detta innebär en högre risk att missa små effekter, så de kanske vill tänka om kring vad experimentet är till för. Och vilken MDE du än väljer måste den fortfarande vara realistisk – att blåsa upp den bortom det rimliga bara för att bli klar tidigare gör experimentet meningslöst.

Referenser

Chow, S. C., Shao, J., Wang, H., & Lokhnygina, Y. (2017). Sample size calculations in clinical research. Chapman and Hall/CRC. (pp. 13-15, 77)

Stuart, A., Ord, K. & Arnold, S. (2004). Kendall's advanced theory of statistics, classical inference, and the linear model. John Wiley & Sons. (pp. 190-191)

Casella, G., & Berger, R. (2002). Statistical inference (2ed). Chapman and Hall/CRC. (p. 385)

Davison, A. C. (2003). Statistical models. Cambridge University Press. (p. 334)

Cox, D. R., & Hinkley, D. V. (1979). Theoretical statistics. CRC Press. (pp. 103-104)

Belle, G. van. (2011). Statistical Rules of Thumb. John Wiley & Sons.

Wu, J., & Ding, P. (2021). Randomization tests for weak null hypotheses in randomized experiments. Journal of the American Statistical Association, 116(536), 1898-1913.

Ding, P. (2024). A first course in causal inference. Chapman and Hall/CRC. pp.25-55

Imbens, G. W., & Rubin, D. B. (2015). Causal inference in statistics, social, and biomedical sciences. Cambridge university press. pp.83-112

Beräkning av urvalsstorlek uppackad: ursprung, dolda antaganden och avvägningar