Why did my statistical significance go down?

Small fluctuations can occur due to data bucketing. Larger decreases might trigger a stats reset if Stats Engine detects seasonality or drift in conversion rates, maintaining experiment validity.

How long should I run my experiment?

Run your experiment until you reach statistical significance or for at least one full business cycle, whichever is longer.

Optimization glossary

Statistisk signifikans

Hva er statistisk signifikans?

Statistisk signifikans er et mål på hvor uvanlige resultatene av eksperimentet ditt ville vært hvis det faktisk ikke var noen forskjell i ytelse mellom variasjonen og baseline, og avviket i løft bare skyldtes tilfeldigheter.

Det har blitt stadig viktigere for nettbutikker, markedsførere og annonsører som kjører A/B-tester (for eksempel tester konverteringsfrekvenser, annonsetekster eller emnelinjer i e-post).

Å oppnå statistisk signifikans bidrar til å sikre at konklusjonene som trekkes fra eksperimenter, er pålitelige og ikke basert på tilfeldige svingninger i dataene.

De fleste eksperimenter klarer imidlertid ikke å oppnå et betydelig signifikansnivå. Her er hvorfor:

Endringeneer for små: De fleste endringer i besøksopplevelsen har ingen effekt, og de oppnår ikke klinisk signifikans på grunn av samplingsfeil.
Lav baseline-konverteringsrate: De fleste datasett bruker beregninger med lav baseline som proxy, noe som ofte resulterer i at testresultatene viser betydelige standardavvik.
For mange mål: Ofte fokuserer ikke teamene på viktige måleparametere som er i tråd med hypotesen. Dette fører til at forskningsresultatene ikke når opp til signifikansgrensen.

Hvorfor er begrepet statistisk signifikans viktig?

Statistisk signifikans hjelper virksomheter med å ta gode beslutninger basert på data i stedet for tilfeldige svingninger. Den er avhengig av to nøkkelfaktorer:

Utvalgsstørrelse: Antall deltakere i eksperimentet ditt. Større utvalg gir generelt mer pålitelige resultater. For tester av nettsteder betyr mer trafikk raskere og mer nøyaktige resultater.
Effektstørrelse: Størrelsen på forskjellen mellom variasjonene i testen. Den viser hvor stor innvirkning endringene dine har hatt.

Tilfeldig prøvetaking er avgjørende for å bygge bro over den statistisk signifikante forskjellen og få nøyaktige resultater. Hvis du ikke fordeler testvariasjonene tilfeldig blant målgruppen, kan du introdusere skjevheter. Et eksempel: Hvis alle menn ser versjon A og alle kvinner ser versjon B, kan du ikke sammenligne resultatene på en rettferdig måte, selv med en 50-50-deling. Forskjeller i atferd kan skyldes kjønn, ikke variasjonene i testen.

Eksempel på konsekvenser i den virkelige verden: I bransjer som legemiddelindustrien kan statistisk signifikans i kliniske studier avgjøre hvor effektivt et legemiddel er. Dette kan påvirke investorfinansiering og et produkts suksess eller fiasko.

Samlet sett hjelper statistisk signifikans deg med å skille mellom reelle forbedringer og tilfeldigheter, slik at du kan ta bedre forretningsbeslutninger.

Test av hypoteser

Statistisk signifikans brukes mest praktisk i hypotesetesting. Du vil for eksempel vite om det å endre fargen på en knapp på nettstedet ditt fra rød til grønn vil føre til at flere klikker på den. Hvis knappen for øyeblikket er rød, kalles det "nullhypotesen", som tar form av eksperimentets grunnlinje. Hvis knappen blir grønn, kalles det "alternativhypotesen".

For å bestemme den observerte forskjellen i en statistisk signifikanstest, vil du være oppmerksom på to utdata: p-verdi og konfidensintervall.

P-verdi: P-verdien er sannsynligheten for å se bevis som er like sterke eller sterkere til fordel for en forskjell i ytelse mellom variasjonen og baseline, beregnet under forutsetning av at det faktisk ikke er noen forskjell mellom dem, og at ethvert løft som observeres, utelukkende skyldes tilfeldigheter.
Konfidensintervall: Konfidensnivå er et estimert verdiintervall som sannsynligvis, men ikke garantert, vil inkludere den ukjente, men eksakte verdien som oppsummerer målpopulasjonen hvis et eksperiment replikeres mange ganger.

Få alltid gyldige resultater med Stats Engine

Det kreves et strengt sett med retningslinjer for å få gyldige resultater fra eksperimenter som kjøres med klassisk statistikk: Angi en minste påvisbar effekt og utvalgsstørrelse på forhånd, ikke kikk på resultatene, og ikke test for mange mål eller variasjoner samtidig. Disse retningslinjene kan være tungvinte, og hvis de ikke følges nøye, kan de gi svært forvrengte og tvilsomme resultater av tester for statistikere.

Heldigvis kan du enkelt bestemme den praktiske betydningen av eksperimentene dine ved hjelp av Stats Engine, den avanserte statistiske modellen som er innebygd i Optimizely. Slik beregner du den estimerte varigheten av eksperimentet ditt:

Totalt antall besøkende = utvalgsstørrelse × antall variasjoner
Estimert antall dager å kjøre = Totalt antall besøkende som trengs ÷ Gjennomsnittlig antall besøkende per dag

Stats Engine kombinerer sekvensiell test og kontroll av falsk oppdagelsesrate for å gi deg pålitelige resultater raskere, uavhengig av utvalgsstørrelse og datatype. Denne tilnærmingen gir mulighet for oppdatering i sanntid:

Overvåking av resultater i sanntid
Adaptive tester som tilpasser seg den sanne effektstørrelsen
Raskere beslutningstaking uten at det går på bekostning av dataintegriteten

Med Stats Engine bør statistisk signifikans generelt øke over tid etter hvert som det samles inn mer bevis. Disse bevisene kommer i to former:

Større forskjeller i konverteringsfrekvens
Forskjeller i konverteringsrate som vedvarer over flere besøkende

Ta en titt på den fullstendige Stats Engine-rapporten.

Beste praksis for å oppnå statistisk signifikans

Når du kjører statistiske tester, kan du støte på utfordringer når det gjelder å oppnå statistisk signifikans. Her er noen gode råd du kan følge:

Kjør tester i minst én forretningssyklus (7 dager)
Velg primære og sekundære måleparametere med omhu
Utform eksperimenter med betydelig potensiell innvirkning på brukeratferd