Hur beräknar man urvalsstorlek?

Det är alltid svårt att mäta om dina tester har tillräcklig data för att visa avgörande resultat. Du kan lösa detta enorma problem med två enkla lösningar: en kalkylator för urvalsstorlek och en statistikmotor. I den här artikeln kan du se hur du beräknar urvalsstorlek, bevisar resultat och förbättrar din konfidensnivå.

Hur man beräknar urvalsstorleken

Att bygga en experimentkultur har potential att förenkla dina kundupplevelser och öka konverteringar...

Det kan dock också skada dig om du inte kan nå statistiskt signifikanta resultat.

Till att börja med behöver du en tillräcklig urvalsstorlek för att köra ett test utan felmarginal. Därefter kör du dessa tester under en period som är tillräckligt lång för att få statistiskt signifikanta resultat.

När du kör experiment och A/B-tester är det bättre att stoppa ett test först när dina variationer når signifikans istället för en slumpmässig urvalsstorlek. Om några av variationerna inte har nått signifikans, bestäm om du vill vänta på att antalet besökare ökar eller en större urvalsstorlek.

I den här artikeln ser du hur du uppskattar experimentlängden i förväg, mäter resultat genom marknadsundersökningar och beräknar hur mycket trafik du behöver för dina konverteringsfrekvensexperiment.

Vikten av beräkning av urvalsstorlek

En lämplig urvalsstorlek säkerställer:

Statistisk validitet: Tillräckliga urvalsstorlekar hjälper till att undvika falskt positiva och falskt negativa resultat, vilket leder till mer tillförlitliga slutsatser för en relevant populationsstorlek.
Resursoptimering: Korrekt storlek förhindrar att resurser slösas på ofullständiga tester eller att tester körs längre än nödvändigt.
Affärsmässig påverkan: Noggranna resultat från väldimensionerade tester leder till bättre affärsbeslut och förbättrad avkastning på testarbetet.

Större urvalsstorlekar kan ge mer exakta resultat men kräver mer tid och resurser. Tänk på följande när du bestämmer din metod:

Testlängd: Längre tester kan komma i konflikt med konjunkturcykler eller säsongsförändringar.
Alternativkostnad: Att köra ett stort test kan hindra dig från att köra flera mindre tester.
Iterativ inlärning: Ibland kan det ge värdefulla insikter att köra snabbare tester med mindre urval för att förfina din teststrategi.

Nödvändig urvalsstorlek och tidsram för A/B-testning

För att ha en tydlig vinnare mellan olika varianter du har i en testgrupp måste du testa tillräckligt med en minsta urvalsstorlek eller antalet personer. När du har resultaten, kontrollera om det finns en statistiskt signifikant skillnad istället för en nollhypotes.

Om du till exempel vill testa rubriktext på en landningssida kan det ta några veckor att visa resultat. Tänk på en liknande tidsram för din bloggmotor.

Det beror helt på ditt företag, urvalsstorleken, vilket verktyg du använder för att utföra A/B-tester och mer. Om du har en liten lista måste du A/B-testa det mesta av den för att nå en signifikansnivå.

Bestämning av urvalsstorlek är dock inte alltid ett "ställ in det och glöm det"-mått. Överväg att beräkna om när:

Din baslinjekonverteringsfrekvens förändras avsevärt.
Du vill upptäcka mindre eller större effekter än vad som ursprungligen planerats.
Resursbegränsningar eller affärsprioriteringar förändras, vilket påverkar din förmåga att köra tester.

Hur man beräknar urvalsstorleken

Om du undrar hur man beräknar urvalsstorleken är det bästa sättet att använda mätvärden som baslinjekonverteringsfrekvens (det är din kontrollgrupps förväntade konverteringsfrekvens) och minsta detekterbara effekt (mde) för att hjälpa till med urvalsstorlekar för ditt original och din variant, så att du uppfyller statistiska mål.

Värdena du anger för ab-testets urvalsstorlekskalkylator kommer att vara unika för varje experiment och mål. Med tiden kommer fler besökare att anlända, stöta på dina varianter och konvertera. Nu kommer du att börja se statistisk signifikans öka och få en korrekt uppskattning av testets varaktighet.

Här är två formler för urvalsstorlek som hjälper dig att översätta urvalsstorleken till det uppskattade antalet dagar du behöver för att köra ett experiment:

Beräkning 1: Totalt antal besökare du behöver = Urvalsstorlek × Antal varianter i ditt experiment
Beräkning 2: Uppskattat antal dagar för att köra experimentet = Totalt antal besökare du behöver ÷ Genomsnittligt antal besökare per dag

Var också medveten om dessa vanliga misstag när du bestämmer urvalsstorlekar för grupper av människor:

Ignorera variabla konverteringsfrekvenser: Olika sidor eller användarsegment kan ha olika baslinjekonverteringsfrekvenser, vilket påverkar de nödvändiga urvalsstorlekarna.
Förbise praktisk signifikans: Statistisk signifikans motsvarar inte alltid affärsvärde. Tänk på den praktiska effekten av upptäckta skillnader.
Att försumma externa faktorer i ditt forskningsprojekt: Säsongstrender, representativt urval, antal individer, antal respondenter, marknadsföringskampanjer eller andra externa händelser kan påverka testresultat och nödvändiga urvalsstorlekar.

Avancerade tekniker för uppskattning av urvalsstorlek

Här är sex statistiska testtekniker för att komma igång med din målpopulation:

Poweranalys: Säkerställer att ditt test kan upptäcka verkliga effekter när de existerar. Det tar hänsyn till signifikansnivån (vanligtvis 0,05), powernivån (ofta 0,8) och förväntad effektstorlek. Korrekt poweranalys hjälper till att undvika ofullständiga tester.
Variansuppskattning: Avgörande för korrekt beräkning av urvalsstorlek, särskilt i konverteringsfrekvenstester. Det innebär att uppskatta variabiliteten i dina data baserat på förväntade konverteringsfrekvenser.
Sekventiell analys: Sekventiell testning möjliggör tidigt stopp av tester när starka bevis hittas. Metoder som Sequential Probability Ratio Test (SPRT) kan potentiellt minska nödvändiga urvalsstorlekar och spara resurser.
Justering för multipla jämförelser: När man testar flera varianter eller mätvärden samtidigt är det viktigt att justera signifikansnivåer. Detta förhindrar en ökning av falska positiva resultat som kan uppstå med flera tester.
Bayesiansk metod: Bayesiansk testning införlivar förkunskaper i beräkningar av urvalsstorlek. Denna metod kan ge mer intuitiva tolkningar av resultat och är särskilt användbar när tillförlitlig förhandsinformation finns tillgänglig.
Variansinflationsjustering: Tar hänsyn till korrelationer i klusterrandomiserade studier eller tester med upprepade mätningar. Detta säkerställer tillräckliga urvalsstorlekar när datapunkterna inte är helt oberoende.

Kom ihåg att oavsett vilken metod du väljer är det resultat du vill ha inte långt borta.

Optimizelys urvalsstorlekskalkylator ger exakta resultat på några sekunder. Använd den så visar den din urvalsstorlek. Så här ser det ut:

Det finns ingen anledning att enbart förlita sig på beräkning av urvalsstorlek för att visa giltigheten av dina resultat. Använd den för planeringsfasen. För resten har vi statistikmotorn.

Vad är en statistikmotor?

Om du undrar vad som gör ett test bra, då är spekulation inte svaret. Om du går på en magkänsla genom falska positiva resultat kan din felfrekvens skjuta i höjden över 30%.

Hastighet och skala påverkar dina digitala upplevelser om de är datadrivna och baserade på resultatens noggrannhet. Det är här en statistikmotor kan hjälpa dig. Du kan eliminera gissningsproblem genom att använda en sekventiell testmetod.

Den mäter standardavvikelsen i din process och hjälper dig att driva effektfulla förändringar i ditt företag, vägledda av data, så att du kan fatta snabbare beslut för att bygga en experimentkultur. Här är andra fördelar:

Du kan övervaka resultat i realtid för att snabbt fatta datadrivna beslut utan att offra dataintegriteten.
Den statistiska styrkan hos ett sekventiellt test ökar naturligtvis allt eftersom testet fortsätter att köras, vilket eliminerar behovet av hypotesprövning och godtyckliga gissningar om dina effektstorlekar.
Du kan anpassa dig till den verkliga effektstorleken automatiskt och stoppa tidigt för större effektstorlekar än förväntat, vilket möjliggör snabbare tider till signifikans i genomsnitt.
Du kan tydligt se den statistiska sannolikheten att förbättringen beror på förändringar du gjort, inte en slump. Så att välja rätt signifikansnivå är viktigt eftersom det ökar förtroendet för dina A/B-testmetoder. Konfidensintervallet för förbättring måste flytta sig från noll för att ett experiment ska kunna nå ett signifikansläge.

Du kan läsa hela whitepaperet här för att se hur experiment fungerar på en statistikmotor.

Åtgärdar ditt problem med urvalsstorlek...

Det är inte lätt att hålla koll på sina experiment och om de har tillräcklig statistisk analys för att nå ett avgörande resultat. Detta enorma problem kan åtgärdas med Optimizely.

Vår statistikmotor uppnår en potens av ett, så dina testresultat kommer alltid att ha data att visa. Använd den för att snabbt ändra dina digitala marknadsföringsplaner och fokusera på Konverteringsfrekvensoptimering (CRO).

Om du vill ha en bättre förståelse för dina AB-tester och leverera moderna e-handelsupplevelser, kolla in denna stora experimentbok från 2024. Den har 40+ verkliga berättelser om organisationer som gynnats av att bygga en experimentkultur.