Bayesiansk vs. frekventistisk statistikk

Statistikk er en viktig del av å forstå A/B-testresultatene dine – metoder for å beregne et enkelt tall som avgjør om du kan iverksette tiltak for å implementere en variasjon over eksperimentkontrollen. Det finnes imidlertid mange måter å komme frem til dette tallet på. Hvilken metode bør du bruke?

To vanlige refererte metoder for å beregne statistisk signifikans er frekventistisk og bayesiansk statistikk. Historisk sett har bransjeløsninger for A/B-testing hatt en tendens til å være frekventistiske. Bayesianske metoder tilbyr imidlertid en spennende metode for å beregne eksperimentresultater på en helt annen måte enn frekventistiske metoder. I statistikkens verden finnes det tilhengere av begge metodene – litt som å velge et politisk parti.

I januar lanserte vi Stats Engine og inntok en moderat holdning: Du bør kunne dra nytte av bayesianske elementer i resultatene dine, og bruke dem til å støtte frekventistiske prinsipper som gir stabilitet og matematiske garantier.

I dette innlegget skal vi dekke fordelene og ulempene ved hver metode, og hvorfor Optimizely har valgt å innlemme elementer fra begge i vår Stats Engine.

Hva er Bayesiansk og frekventistisk statistikk?

Bayesiansk statistikk har en mer nedenfra-og-opp-tilnærming til dataanalyse. Dette betyr at tidligere kunnskap om lignende eksperimenter kodes inn i en statistisk enhet kjent som en prior, og denne prioren kombineres med nåværende eksperimentdata for å trekke en konklusjon om den aktuelle testen.

På den annen side gir frekventistisk statistikk prediksjoner om underliggende sannheter i eksperimentet ved kun å bruke data fra det aktuelle eksperimentet. Frekventistiske argumenter er mer kontrafaktiske og ligner den typen logikk som advokater bruker i retten. De fleste av oss lærer frekventistisk statistikk i statistikkkurs på inngangsnivå. En t-test, der vi spør: «Er denne variasjonen forskjellig fra kontrollen?» er en grunnleggende byggestein i denne tilnærmingen.

Målet med en A/B-test, statistisk sett, er å avgjøre om dataene som samles inn under eksperimentet kan konkludere med at én variant på et nettsted eller en app er målbart forskjellig fra den andre. Bayesianske og frekventistiske tilnærminger vil undersøke de samme eksperimentdataene fra forskjellige synspunkter. Som en hengebro versus buebro ovenfor, streber de etter å oppnå det samme målet. Begge strukturene tjener formålet med å krysse et gap, og i tilfelle A/B-testing bruker både Bayesianske og frekventistiske metoder eksperimentdata for å svare på det samme spørsmålet: hvilken variant er best?

Hva er fordelene med begge tilnærmingene?

A/B-testplattformer som Optimizely bruker frekventistiske metoder for å beregne statistisk signifikans fordi de pålitelig tilbyr matematiske «garantier» om fremtidig ytelse: statistiske utdata fra et eksperiment som forutsier om en variant faktisk vil være bedre enn grunnlinjen når den implementeres, gitt nok tid. Med frekventistiske garantier kan vi for eksempel komme med utsagn som: «Færre enn 5 % av implementerte varianter vil se forbedringer utenfor 95 % konfidensintervallet.»

For mer kunnskap om dette emnet, last ned e-boken, A Practical Guide to Statistics for Online Experiments.

Bayesianske tester, derimot, bruker forkunnskap for å beregne eksperimentresultater. Den største fordelen med bayesianske tilnærminger er at de bruker forkunnskapen hver eksperimentator bringer til bordet. Å bruke all informasjonen du har til rådighet, enten nåværende eller tidligere, bør føre til raskest mulig eksperimentfremgang. Forutsatt at antagelsene som er gjort ved bruk av historiske data for å beregne den statistiske prioren er korrekte, bør dette hjelpe eksperimentatorer med å komme til statistisk signifikante konklusjoner raskere.

Bayesianske metoder kommer imidlertid ikke alltid med de samme garantiene som frekventistiske metoder om fremtidig ytelse. Hvis vi automatisk skulle bruke dem som om de gjorde det, og ved å bruke frekventistiske setninger – som den ovenfor for konfidensintervaller – på Bayesianske beregninger, kan vi bli ledet til en feil konklusjon. Dette er på grunn av risikoen for at tidligere eksperimentskunnskap faktisk ikke samsvarer med hvordan en effekt genereres i et nytt eksperiment, og det er mulig å bli ledet på villspor hvis du ikke tar hensyn til det.

I en New York Times-artikkel fra i fjor som beskriver anvendelser av Bayesiansk statistikk, vurderer forfatteren et eksempel på å lete etter en savnet fisker. Kystvakten kunne bruke data om lokal geografi og tidligere søk i kombinasjon for å komme med forutsigelser om hvilke områder som mest sannsynlig inneholdt den savnede fiskeren. Etter hvert som mer informasjon om det nåværende søket dukket opp, ble disse innspillene kombinert med kunnskap om naturens tidligere atferd for å akselerere søket, noe som resulterte i en lykkelig slutt.

Den største fallgruven ved å ekstrapolere denne suksesshistorien til A/B-testing er at det å innlemme tidligere oppfatninger som ikke samsvarer med virkeligheten, kan ha nøyaktig motsatt effekt – en feil konklusjon og en tregere vei til riktig svar. Et formål med A/B-testing er å lære av eksperimentet ditt for å gjøre fremtidige handlinger, enten det er å implementere en variant eller kjøre flere tester. Den tidligere informasjonen du har i dag er kanskje ikke like relevant i fremtiden.

Til syvende og sist vil misforståelse eller feilbruk av statistikk gi dårlige resultater uansett hvilken type statistisk metode som brukes (bayesiansk eller frekventistisk). Det er av denne grunn at sterke grunnleggende prinsipper er avgjørende for god A/B-testing, og derfor prioriterer vi å innlemme en robust versjon av denne statistikken i produktet vårt. Solide statistiske utsagn, og å presentere dem på en tilgjengelig måte, er en større fordel for kundene våre enn å presse ut hver eneste dråpe effektivitet.

Hvordan ser fremtiden ut for forkjempere for frekventister og bayesianske?

Men etter hvert som vi utviklet en statistisk modell som mer nøyaktig ville samsvare med hvordan Optimizelys kunder bruker eksperimentresultatene sine til å ta beslutninger (Stats Engine), ble det klart at den beste løsningen måtte blande elementer fra både frekventistiske og bayesianske metoder for å levere både påliteligheten til frekventistisk statistikk og hastigheten og smidigheten til bayesianske metoder.

Denne tilnærmingen er i tråd med en noe mindre kjent tredje tankeskole innen statistikk. Den kalles Empirisk Bayes og er basert på prinsippet om at statistiske metoder bør innlemme styrkene til både bayesianske og frekventistiske ideologier, samtidig som de reduserer svakhetene ved begge.

I likhet med brokonseptet kombinerer Empirisk Bayes begge tilnærmingene for å gi en innovativ løsning på spørsmålene, og kan bidra til å unngå vanskelighetene med å velge enten en buebro eller en hengebro alene.

Ved å kombinere det beste fra en bue- og opphengskonstruksjon skapes en gjennomgående buebro, som kan gi det beste resultatet for et gitt gap, slik man ser her med Sydney Harbour Bridge.

Faktisk inkorporerer Optimizelys Stats Engine en metode direkte fra Empirical Bayes' tankegang, slik at brukere kan teste mange mål- og variasjonskombinasjoner uten å ofre statistisk nøyaktighet.

Benjamini-Hochberg-tilnærmingen kontrollerer en type statistisk feil som kalles False Discovery Rates (FDR). FDR er en måling som tar for seg det faktum at du kan gjøre mange feil når du kjører flere A/B-tester samtidig. Dette er vanligvis et problem hvis du kjører multivariate eller A/B/n-eksperimenter med mange variasjoner, eller sporer mange mål i et eksperiment.

Vi beskriver hvordan denne tilnærmingen fungerer og hvorfor den presenterer den statistiske feilraten som bedrifter faktisk bryr seg om i blogginnlegget vårt om Stats Engine og mer detaljert teknisk beskrivelse. Vi har også nylig spilt inn et webinar med et eksempel på FDR i aksjon for A/B-testing.

Benjamini-Hochberg FDR-tilnærmingen for å kontrollere denne feilen har vist seg å være vellykket etter både frequentistiske og bayesianske standarder. Prosedyren innlemmer ikke bare data fra tidligere eksperimenter på en rimelig måte, men gir også resultatene og de statistiske garantiene for frekventisme du forventer, uansett hvilket perspektiv du tar.

Den raske og vidtrekkende aksepten av Benjamini-Hochberg-tilnærmingen i akademiske og medisinske miljøer kan tilskrives det faktum at metoden har overbevist både bayesianere og frekventister om dens fordeler.

Så mener vi at alle bør tenke som en frekventist? En bayesianer? En empirisk bayesianer? Overhodet ikke. Bør du skynde deg å innta fargene til en av disse leirene? Selvfølgelig ikke. Grunnen til at disse ideologiene vedvarer, er at de på et veldig grunnleggende nivå alle er gode måter å tenke på å lære av dataene dine.

Vi mener at for å være en kunnskapsrik A/B-tester, som en informert velger eller en effektiv bygningsingeniør, er det viktig å være kjent med valgene som er tilgjengelige for deg. Vi er begeistret for ikke bare å finne den beste statistikken som passer til måten du bruker data på til å ta beslutninger og iverksette tiltak, men også å gi deg muligheten til å bruke den.