Hvordan beregne utvalgsstørrelse?

Det er alltid vanskelig å måle om testene dine har tilstrekkelige data til å vise avgjørende resultater. Du kan løse dette enorme problemet med to enkle løsninger: en kalkulator for utvalgsstørrelse og en statistikkmotor. I denne artikkelen kan du se hvordan du beregner utvalgsstørrelse, beviser resultater og forbedrer selvtillitsnivået ditt.

Slik beregner du utvalgsstørrelsen

Å bygge en eksperimenteringskultur har potensial til å forenkle kundeopplevelsene dine og øke konverteringer...

Det kan imidlertid også skade deg hvis du ikke kan oppnå statistisk signifikante resultater.

For å starte trenger du en tilstrekkelig utvalgsstørrelse for å kjøre en test uten feilmargin. Deretter kjører du disse testene i en periode som er lang nok til å få statistisk signifikante resultater.

Når du kjører eksperimenter og A/B-tester, er det bedre å stoppe en test bare når variasjonene dine når signifikans i stedet for en tilfeldig utvalgsstørrelse. Hvis noen av variasjonene ikke har nådd signifikans, bør du bestemme om du vil vente til antallet besøkende øker eller en større utvalgsstørrelse.

I denne artikkelen ser du hvordan du estimerer eksperimentlengden på forhånd, måler resultater gjennom markedsundersøkelser og beregner hvor mye trafikk du trenger for konverteringsfrekvenseksperimentene dine.

Viktigheten av beregning av utvalgsstørrelse

En passende utvalgsstørrelse sikrer:

Statistisk validitet: Tilstrekkelige utvalgsstørrelser bidrar til å unngå falske positiver og falske negative resultater, noe som fører til mer pålitelige konklusjoner for en relevant populasjonsstørrelse.
Ressursoptimalisering: Riktig størrelse forhindrer at man kaster bort ressurser på ufullstendige tester eller kjører tester lenger enn nødvendig.
Forretningsmessig innvirkning: Nøyaktige resultater fra tester av god størrelse fører til bedre forretningsbeslutninger og forbedret avkastning på testarbeidet.

Større utvalgsstørrelser kan gi mer nøyaktige resultater, men krever mer tid og ressurser. Vurder følgende når du bestemmer tilnærmingen din:

Testvarighet: Lengre tester kan komme i konflikt med konjunktursykluser eller sesongmessige endringer.
Alternativkostnad: Å kjøre én stor test kan forhindre deg i å kjøre flere mindre tester.
Iterativ læring: Noen ganger kan det å kjøre raskere tester med mindre utvalg gi verdifull innsikt for å forbedre teststrategien din.

Nødvendig utvalgsstørrelse og tidsramme for A/B-testing

For å ha en klar vinner mellom ulike varianter du har i en testgruppe, må du teste nok med en minimumsutvalgsstørrelse eller antall personer. Når du har resultatene, sjekk om det er en statistisk signifikant forskjell i stedet for en nullhypotese.

Hvis du for eksempel vil teste overskriftstekst på en landingsside, kan det ta noen uker å vise resultater. Tenk på en lignende tidsramme for bloggmotoren din.

Alt avhenger av bedriften din, utvalgsstørrelsen, hvilket verktøy du bruker til å utføre A/B-tester og mer. Hvis du har en liten liste, må du A/B-teste det meste av den for å nå et signifikansnivå.

Bestemmelse av utvalgsstørrelse er imidlertid ikke alltid en "sett det og glem det"-måling. Vurder å beregne på nytt når:

Den grunnleggende konverteringsfrekvensen din endres betydelig.
Du vil oppdage mindre eller større effekter enn opprinnelig planlagt.
Ressursbegrensninger eller forretningsprioriteringer endres, noe som påvirker din evne til å kjøre tester.

Slik beregner du utvalgsstørrelsen

Hvis du lurer på hvordan du beregner utvalgsstørrelsen, er den beste måten å bruke målinger som baseline konverteringsfrekvens (det er kontrollgruppens forventede konverteringsfrekvens) og minimum deteksjonbar effekt (mde) for å hjelpe med utvalgsstørrelser for originalen og varianten, slik at du når statistiske mål.

Verdiene du legger inn i AB-testens utvalgsstørrelseskalkulator vil være unike for hvert eksperiment og mål. Med tiden vil flere besøkende komme, møte variantene dine og konvertere. Nå vil du begynne å se statistisk signifikans øke og motta et nøyaktig estimat av testvarigheten.

Her er to formler for utvalgsstørrelse som hjelper deg med å oversette utvalgsstørrelsen til det estimerte antallet dager du trenger for å kjøre et eksperiment:

Beregning 1: Totalt antall besøkende du trenger = Utvalgsstørrelse × Antall variasjoner i eksperimentet ditt
Beregning 2: Estimert antall dager for å kjøre eksperimentet = Totalt antall besøkende du trenger ÷ Gjennomsnittlig antall besøkende per dag

Vær også oppmerksom på disse vanlige feilene når du bestemmer utvalgsstørrelser for grupper av mennesker:

Ignorer variable konverteringsrater: Ulike sider eller brukersegmenter kan ha forskjellige grunnleggende konverteringsrater, noe som påvirker nødvendige utvalgsstørrelser.
Overse praktisk signifikans: Statistisk signifikans tilsvarer ikke alltid forretningsverdi. Vurder den praktiske effekten av oppdagede forskjeller.
Unngåelse av eksterne faktorer i forskningsprosjektet ditt: Sesongmessige trender, representativt utvalg, antall individer, antall respondenter, markedsføringskampanjer eller andre eksterne hendelser kan påvirke testresultater og nødvendige utvalgsstørrelser.

Avanserte teknikker for estimering av utvalgsstørrelse

Her er seks statistiske testteknikker for å komme i gang for målpopulasjonen din:

Power-analyse: Sikrer at testen din kan oppdage sanne effekter når de eksisterer. Den tar hensyn til signifikansnivået (vanligvis 0,05), potensnivået (ofte 0,8) og forventet effektstørrelse. Riktig potensanalyse bidrar til å unngå ufullstendige tester.
Variansestimering: Avgjørende for nøyaktig beregning av utvalgsstørrelse, spesielt i konverteringsratetester. Det innebærer å estimere variasjonen i dataene dine basert på forventede konverteringsrater.
Sekvensiell analyse: Sekvensiell testing muliggjør tidlig stopp av tester når sterke bevis finnes. Metoder som Sequential Probability Ratio Test (SPRT) kan potensielt redusere nødvendige utvalgsstørrelser og spare ressurser.
Justering for flere sammenligninger: Når du tester flere varianter eller målinger samtidig, er det viktig å justere signifikansnivåer. Dette forhindrer en økning i falske positiver som kan oppstå med flere tester.
Bayesiansk tilnærming: Bayesiansk testing inkorporerer tidligere kunnskap i beregninger av utvalgsstørrelse. Denne metoden kan gi mer intuitive tolkninger av resultater og er spesielt nyttig når pålitelig tidligere informasjon er tilgjengelig.
Variansinflasjonsjustering: Tar hensyn til korrelasjoner i klyngerandomiserte studier eller tester med gjentatte målinger. Dette sikrer tilstrekkelige utvalgsstørrelser når datapunktene ikke er helt uavhengige.

Husk at uansett hvilken tilnærming du velger, er ikke resultatet du ønsker langt unna.

Optimizelys kalkulator for utvalgsstørrelse gir nøyaktige resultater på sekunder. Bruk den, så viser den utvalgsstørrelsen din. Slik ser den ut:

Det er ikke nødvendig å utelukkende stole på beregning av utvalgsstørrelse for å vise gyldigheten av resultatene dine. Bruk den i planleggingsfasen. For resten har vi statistikkmotoren.

Hva er statistikkmotoren?

Hvis du lurer på hva som gjør en god test, er spekulasjon ikke svaret. Hvis du går på magefølelse gjennom falske positiver, kan feilraten din skyte i været over 30 %.

Fart og skala påvirker dine digitale opplevelser hvis de er datadrevne og basert på nøyaktigheten av resultatene. Det er her en statistikkmotor kan hjelpe deg. Du kan fjerne gjetningsproblemer ved å bruke en sekvensiell testtilnærming.

Den måler standardavviket i prosessen din og hjelper deg med å drive effektive endringer i virksomheten din, veiledet av data, slik at du kan ta raskere beslutninger for å bygge en eksperimenteringskultur. Her er andre fordeler:

Du kan overvåke resultater i sanntid for å ta datadrevne beslutninger raskt uten å ofre dataintegriteten.
Den statistiske styrken til en sekvensiell test øker naturlig etter hvert som testen fortsetter å kjøre, noe som eliminerer behovet for hypotesetesting og vilkårlige gjetninger om effektstørrelsene dine.
Du kan tilpasse deg den sanne effektstørrelsen automatisk og stoppe tidlig for større enn forventede effektstørrelser, noe som gir raskere tid til signifikans i gjennomsnitt.
Du kan tydelig se den statistiske sannsynligheten for at forbedringen skyldes endringer du har gjort, ikke en tilfeldighet. Så det er viktig å velge riktig signifikansnivå, da det øker tilliten til A/B-testmetodene dine. Konfidensintervallet for forbedring må bevege seg bort fra null for at et eksperiment skal kunne nå en signifikanstilstand.

Du kan sjekke ut hele hvitboken her for å se hvordan eksperimentering kjører på en statistikkmotor.

Løser problemet med utvalgsstørrelsen din...

Det er ikke lett å holde øye med eksperimentene dine og om de har tilstrekkelig statistisk analyse for å komme frem til et konkluderende resultat. Dette enorme problemet kan løses med Optimizely.

Statistikkmotoren vår oppnår en potens på én, slik at testresultatene dine alltid vil ha data å vise. Bruk den til å raskt endre dine digitale markedsføringsplaner og fokusere på Konverteringsfrekvensoptimalisering (CRO).

Hvis du ønsker en bedre forståelse av AB-testene dine og levere moderne e-handelsopplevelser, sjekk ut denne store boken om eksperimentering fra 2024. Den har 40+ virkelige historier om organisasjoner som har dratt nytte av å bygge en eksperimenteringskultur.