Klassiske statistiske teknikker, som t-testen, er grunnfjellet i optimaliseringsbransjen, og hjelper bedrifter med å ta datadrevne beslutninger. Etter hvert som nettbasert eksperimentering har eksplodert, er det nå klart at disse tradisjonelle statistiske metodene ikke passer for digitale data: Å bruke klassisk statistikk på A/B-testing kan føre til feilrater som er mye høyere enn de fleste eksperimentatorer forventer.
Både bransjen og akademiske eksperter har vendt seg til utdanning som løsningen. Ikke kikk! Bruk en kalkulator for utvalgsstørrelse! Unngå å teste for mange mål og variasjoner samtidig!
Men vi har konkludert med at det er på tide at statistikken, ikke kundene, endrer seg. Si farvel til den klassiske t-testen. Det er på tide med statistikk som er enkel å bruke og som fungerer med hvordan bedrifter faktisk opererer.
I samarbeid med et team av statistikere fra Stanford utviklet vi Stats Engine, et nytt statistisk rammeverk for A/B-testing. Vi er glade for å kunne kunngjøre at det fra 21. januar 2015 gir resultater for alle Optimizely-kunder.
Dette blogginnlegget er langt, fordi vi ønsker å være helt transparente om hvorfor vi gjør disse endringene, hva endringene faktisk er og hva dette betyr for A/B-testing generelt. Følg oss til slutten, du vil lære:
- Hvorfor vi laget Stats Engine:Internett gjør det enkelt å evaluere eksperimentresultater når som helst og kjøre tester med mange mål og variasjoner. Når disse intuitive handlingene kombineres med klassisk statistikk, kan de øke sjansen for feilaktig å deklarere en vinnende eller tapende variant med over 5 ganger.
- Slik fungerer det: Vi kombinerer sekvensiell testing og kontroller for falsk oppdagelsesrate for å levere resultater som er gyldige uavhengig av utvalgsstørrelse og samsvarer med feilraten vi rapporterer med feilen bedriftene bryr seg om.
- Hvorfor det er bedre: Stats Engine kan redusere sjansen for feilaktig å deklarere en vinnende eller tapende variant fra 30 % til 5 % uten å ofre hastighet.
Hvorfor vi laget en ny Stats Engine
Tradisjonell statistikk er lite intuitiv, lett å misbruke og sparer penger.
For å få gyldige resultater fra A/B-tester som kjøres med klassisk statistikk, følger nøye eksperimentatorer et strengt sett med retningslinjer: Sett en minimum detekterbar effekt og utvalgsstørrelse på forhånd, ikke kikk på resultatene, ikke test for mange mål og variasjoner samtidig.
Disse retningslinjene kan være tungvinte, og hvis du ikke følger dem nøye, kan du ubevisst introdusere feil i testene dine. Dette er problemene med disse retningslinjene som vi satte oss fore å løse med Stats Engine:
- Å forplikte seg til en detekterbar effekt og utvalgsstørrelse på forhånd er ineffektivt og ikke intuitivt.
- Å kikke på resultater før man når den utvalgsstørrelsen kan introdusere feil i resultatene, og du kan iverksette tiltak mot falske vinnere.
- Å teste for mange mål og variasjoner samtidig øker feil på grunn av falsk oppdagelse betraktelig – en feilrate som kan være mye større enn den falske positive raten.
Å forplikte seg til en utvalgsstørrelse og detekterbar effekt kan bremse deg.
Å angi en utvalgsstørrelse før du kjører en test bidrar til å unngå å gjøre feil med tradisjonelle statistiske metoder. For å angi en utvalgsstørrelse må du også gjette på den minste detekterbare effekten (MDE), eller forventet konverteringsrate-økningen, du ønsker å se fra testen din. Hvis du gjetter feil, kan det ha store konsekvenser for testhastigheten.
Hvis du angir en liten effekt, må du vente på en stor utvalgsstørrelse for å vite om resultatene dine er signifikante. Hvis du angir en større effekt, risikerer du å gå glipp av mindre forbedringer. Dette er ikke bare ineffektivt, det er heller ikke realistisk. De fleste kjører tester fordi de ikke vet hva som kan skje, og det gir ikke mye mening å forplikte seg på forhånd til en hypotetisk økning.
Å kikke på resultatene dine øker feilraten.
Når data flyter inn i eksperimentet ditt i sanntid, er det fristende å stadig sjekke resultatene dine. Du ønsker å implementere en vinner så snart som mulig for å forbedre virksomheten din, eller stoppe en ufullstendig eller tapende test så tidlig som mulig, slik at du kan gå videre til å teste flere hypoteser.
Statistikere kaller denne konstante kikkingen «kontinuerlig overvåking», og det øker sjansen for at du finner et vinnende resultat når det faktisk ikke finnes noe (selvfølgelig er kontinuerlig overvåking bare problematisk når du faktisk stopper testen tidlig, men du skjønner poenget.) Å finne en ubetydelig vinner kalles en falsk positiv, eller type I-feil.
Enhver test for statistisk signifikans du kjører, vil ha en viss sjanse for feil. Å kjøre en test med 95 % statistisk signifikans (med andre ord, en t-test med en alfaverdi på 0,05) betyr at du aksepterer en 5 % sjanse for at testen ville vist et signifikant resultat dersom dette var en A/A-test uten noen faktisk forskjell mellom variasjonene.
For å illustrere hvor farlig kontinuerlig overvåking kan være, simulerte vi millioner av A/A-tester med 5000 besøkende, og evaluerte sjansen for å gjøre en feil under ulike typer kontinuerlige overvåkingsregler. Vi fant ut at selv konservative regler kan øke feilratene fra et mål på 5 % til over 25 %.
I vår undersøkelse erklærte mer enn 57 % av simulerte A/A-tester feilaktig en vinner eller taper minst én gang i løpet av forløpet, selv om det bare var kort. Med andre ord, hvis du hadde sett disse testene, ville du kanskje lurt på hvorfor A/A-testresultatene dine erklærte en vinner. Økningen i feilrate er fortsatt meningsfull selv om du ikke ser på hver besøkende. Hvis du ser på hver 500. besøkende, øker sjansen for å avgi en falsk erklæring til 26 %, mens det å se på hver 1000. besøkende øker den samme sjansen til 20 %.