Posted mars 04, 2015

Bayesiansk vs. frekventistisk statistikk

På samme måte som en hengebro og en buebro begge får biler over et gap, gir både Bayesianske og frekventistiske statistiske metoder svar på spørsmålet: Hvilken variant presterte best i en A/B-test?

Leonid Pekelis
av Leonid Pekelis
a large bridge over water

Statistikk er en viktig komponent i forståelsen av resultatene fra A/B-tester - metoder for å beregne et enkelt tall som avgjør om du kan iverksette tiltak for å implementere en variasjon i forhold til eksperimentets kontroll. Det finnes imidlertid mange måter å komme frem til dette tallet på. Hvilken metode bør du bruke?

To metoder for beregning av statistisk signifikans som det ofte refereres til, er frekventistisk og bayesiansk statistikk. Historisk sett har bransjeløsninger for A/B-testing hatt en tendens til å være frekventistiske. Bayesianske metoder tilbyr imidlertid en spennende metode for å beregne eksperimentresultater på en helt annen måte enn Frequentist. I statistikkverdenen finnes det tilhengere av begge metodene - litt som å velge politisk parti.

I januar lanserte vi Stats Engine og inntok en moderat holdning: Du bør kunne dra nytte av bayesianske elementer i resultatene dine, og bruke dem til å støtte frekventistiske prinsipper som gir stabilitet og matematiske garantier.

I dette innlegget vil vi gå gjennom fordelene og manglene ved hver metode, og hvorfor Optimizely har valgt å innlemme elementer fra begge i vår Stats Engine.

Hva er bayesiansk og frekventistisk statistikk?

Bayesiansk statistikk tar en mer nedenfra og opp-tilnærming til dataanalyse. Dette betyr at tidligere kunnskap om lignende eksperimenter kodes inn i en statistisk enhet som kalles en prior, og denne prior kombineres med aktuelle eksperimentdata for å trekke en konklusjon om den aktuelle testen.

a cat sitting on a couch

På den annen side gir frekventistisk statistikk prediksjoner om underliggende sannheter om eksperimentet ved å bruke kun data fra det aktuelle eksperimentet. Frekvensistiske argumenter er mer kontrafaktiske, og ligner den typen logikk som advokater bruker i retten. De fleste av oss lærer frekventistisk statistikk på begynnerkurs i statistikk. En t-test, der vi spør: "Er denne variasjonen forskjellig fra kontrollen?", er en grunnleggende byggestein i denne tilnærmingen.

Målet med en A/B-test er statistisk sett å finne ut om dataene som samles inn i løpet av eksperimentet, kan brukes til å konkludere med at den ene variasjonen på en nettside eller app er målbart forskjellig fra den andre. Bayesianske og frekventistiske tilnærminger vil undersøke de samme eksperimentdataene fra ulike synsvinkler. I likhet med en hengebro og en buebro ovenfor, streber de etter å oppnå samme mål. Begge strukturene har som formål å krysse et gap, og når det gjelder A/B-testing, bruker både bayesianske og frekventistiske metoder eksperimentdata for å svare på det samme spørsmålet: Hvilken variasjon er best?

Hva er fordelene med begge tilnærmingene?

A/B-testplattformer som Optimizely bruker Frequentist-metoder til å beregne statistisk signifikans fordi de på en pålitelig måte tilbyr matematiske "garantier" om fremtidig ytelse: statistiske resultater fra et eksperiment som forutsier om en variasjon faktisk vil være bedre enn baseline når den implementeres, gitt nok tid. Med Frequentist-garantier kan vi for eksempel komme med utsagn som: "Færre enn 5 % av de implementerte variasjonene vil gi forbedringer utenfor 95 % konfidensintervall."

Hvis du vil ha mer kunnskap om dette emnet, kan du laste ned e-boken A Practical Guide to Statistics for Online Experiments.

Bayesianske tester, derimot, gjør bruk av forhåndskunnskap for å beregne eksperimentresultater. Den største fordelen med bayesianske tilnærminger er at de utnytter den forhåndskunnskapen hver enkelt eksperimentator har med seg. Ved å bruke all den informasjonen man har til rådighet, enten det er nåværende eller tidligere informasjon, bør man kunne gjennomføre eksperimentet raskest mulig. Forutsatt at forutsetningene som er lagt til grunn for å beregne den statistiske forhåndskunnskapen ved hjelp av historiske data, er korrekte, bør dette bidra til at eksperimentatorene raskere kommer frem til statistisk signifikante konklusjoner.

Bayesianske metoder gir imidlertid ikke alltid de samme garantiene som frekventistiske metoder når det gjelder fremtidig ytelse. Hvis vi automatisk skulle bruke dem som om de gjorde det, og bruke frekventistiske setninger - som den ovennevnte for konfidensintervaller - på bayesianske beregninger, kan vi bli ledet til en feilaktig konklusjon. Dette skyldes risikoen for at tidligere kunnskap om eksperimentet ikke stemmer overens med hvordan en effekt genereres i et nytt eksperiment, og det er mulig å bli ført på villspor hvis man ikke tar hensyn til dette.

I en artikkel i New York Times fra i fjor som beskriver anvendelser av bayesiansk statistikk, tar forfatteren for seg et eksempel med leting etter en savnet fisker. Kystvakten kunne bruke data om lokal geografi og tidligere søk i kombinasjon for å forutsi hvilke områder som hadde størst sannsynlighet for å inneholde den savnede fiskeren. Etter hvert som det dukket opp mer informasjon om det aktuelle søket, ble disse opplysningene kombinert med kunnskap om naturens tidligere atferd for å fremskynde søket, noe som resulterte i en lykkelig slutt.

Den største fallgruven ved å ekstrapolere denne suksesshistorien til A/B-testing er at det å innlemme tidligere oppfatninger som ikke stemmer overens med virkeligheten, kan ha nøyaktig motsatt effekt - en feilaktig konklusjon og en langsommere vei til det riktige svaret. Et formål med A/B-testing er å lære av eksperimentet ditt for å gjøre fremtidige tiltak, enten det er å implementere en variant eller kjøre flere tester. Det er ikke sikkert at den informasjonen du har i dag, er like anvendelig i fremtiden.

a group of people sitting on a grassy hillDette er i praksis som å bruke et kart fra en labyrint som du tidligere har gått gjennom, til å navigere i en ny labyrint. Det kan hjelpe deg å komme raskere gjennom labyrinten, eller det kan føre deg på feil vei, slik at det tar lengre tid å finne utgangen.

Til syvende og sist vil misforståelser eller feil bruk av statistikk gi dårlige resultater uansett hva slags statistisk metode som brukes (bayesiansk eller frekventistisk.) Det er av denne grunn at et solid grunnlag er avgjørende for gode A/B-tester, og det er derfor vi prioriterer å innlemme en robust versjon av denne statistikken i produktet vårt. Solide statistiske uttalelser, og å presentere dem på en tilgjengelig måte, er en større fordel for kundene våre enn å presse ut hver siste dråpe effektivitet.

Hvordan ser fremtiden ut for frekventistiske og bayesianske talsmenn?

Etter hvert som vi utviklet en statistisk modell som mer nøyaktig samsvarer med hvordan Optimizelys kunder bruker eksperimentresultatene sine til å ta beslutninger (Stats Engine), ble det klart at den beste løsningen ville måtte blande elementer fra både frekventistiske og bayesianske metoder for å levere både påliteligheten til frekventistisk statistikk og hastigheten og smidigheten til bayesianske metoder.

Denne tilnærmingen er i tråd med en noe mindre kjent tredje skoleretning innen statistikk. Den kalles Empirical Bayes og er basert på prinsippet om at statistiske metoder bør inkorporere styrkene til både den bayesianske og den frekventistiske ideologien, samtidig som svakhetene ved begge reduseres.

I likhet med brokonseptet kombinerer Empirical Bayes begge tilnærmingene for å gi en innovativ løsning på de aktuelle spørsmålene, og kan bidra til å unngå vanskelighetene med å velge enten en bue- eller hengebro alene.

a bridge with lights at night

Ved å kombinere det beste fra en bue- og hengebrokonstruksjon får man en gjennomgående buebro, som kan gi det beste resultatet for en gitt åpning, slik man ser her med Sydney Harbour Bridge.

Optimizelys statistikkmotor inneholder faktisk en metode direkte fra Empirical Bayes-tankegangen, slik at brukerne kan teste mange mål- og variasjonskombinasjoner uten at det går på bekostning av statistisk nøyaktighet.

Benjamini-Hochberg-metoden kontrollerer en type statistisk feil som kalles False Discovery Rates (FDR.) FDR er et mål som tar hensyn til det faktum at du kan gjøre mange feil når du kjører flere A/B-tester samtidig. Dette er vanligvis et problem hvis du kjører multivariate eller A/B/n-eksperimenter med mange variasjoner, eller hvis du sporer mange mål i et eksperiment.

Vi beskriver i detalj hvordan denne tilnærmingen fungerer og hvorfor den gir den statistiske feilprosenten som bedrifter faktisk bryr seg om, i blogginnlegget vårt på Stats Engine og i en mer detaljert teknisk beskrivelse. Vi har også nylig spilt inn et webinar med et eksempel på FDR i aksjon for A/B-testing.

Benjamini-Hochbergs FDR-tilnærming for å kontrollere denne feilen har vist seg å være vellykket etter både frekventistiske og bayesianske standarder. Prosedyren inkorporerer ikke bare tidligere eksperimentdata på en rimelig måte, men gir også de resultatene og Frequentist-statistiske garantiene du forventer, uansett hvilket perspektiv du tar.

Den raske og vidtrekkende aksepten av Benjamini-Hochberg-metoden i akademiske og medisinske miljøer kan tilskrives det faktum at metoden har overbevist både bayesianere og frekventister om sine fortrinn.

Så mener vi at alle bør tenke som en frekventist? En bayesianer? En empirisk bayesianer? Ikke i det hele tatt. Bør du skynde deg å ta opp fargene til en av disse leirene? Nei, selvfølgelig ikke. Grunnen til at disse ideologiene består, er at de på et grunnleggende nivå alle er gode måter å tenke på når det gjelder å lære av dataene dine.

Vi mener at for å være en kunnskapsrik A/B-tester, på samme måte som en velinformert velger eller en effektiv bygningsingeniør, er det viktig å ha kunnskap om de valgene du har til rådighet. Vi er opptatt av å ikke bare finne den beste statistikken som passer til måten du bruker data på for å ta beslutninger og iverksette tiltak, men også å gjøre deg i stand til å bruke dem.

Om forfatteren