Bayesiansk vs. frekventistisk statistik

4 mars 2015

Precis som hängbroar och valvbroar båda lyckas få bilar över en lucka, ger både Bayesianska och frekventistiska statistiska metoder ett svar på frågan: vilken variant presterade bäst i ett A/B-test?

Statistik är en viktig del av att förstå dina A/B-testresultat – metoder för att beräkna ett enda tal som avgör om du kan vidta åtgärder för att implementera en variation över experimentkontrollen. Det finns dock många sätt att komma fram till det talet. Vilken metod ska du använda?

Två vanligt förekommande metoder för att beräkna statistisk signifikans är frekventistisk och bayesiansk statistik. Historiskt sett har branschlösningar för A/B-testning tenderat att vara frekventistiska. Bayesianska metoder erbjuder dock en spännande metod för att beräkna experimentresultat på ett helt annat sätt än frekventistiska. I statistikens värld finns det anhängare av båda metoderna – lite som att välja ett politiskt parti.

I januari släppte vi Stats Engine och intog en moderat hållning: Du bör kunna dra nytta av Bayesianska element i dina resultat och använda dem för att stödja frekventistiska principer som ger stabilitet och matematiska garantier.

I det här inlägget kommer vi att täcka fördelarna och nackdelarna med varje metod, och varför Optimizely har valt att införliva element från båda i vår Stats Engine.

Vad är Bayesiansk och frekventistisk statistik?

Bayesiansk statistik använder en mer bottom-up-metod för dataanalys. Detta innebär att tidigare kunskap om liknande experiment kodas in i en statistisk enhet som kallas en prior, och denna prior kombineras med aktuella experimentdata för att dra en slutsats om det aktuella testet.

Å andra sidan gör frekventistisk statistik förutsägelser om underliggande sanningar i experimentet med hjälp av endast data från det aktuella experimentet. Frekventistiska argument är mer kontrafaktiska till sin natur och liknar den typ av logik som advokater använder i domstol. De flesta av oss lär oss frekventistisk statistik i statistikkurser på ingångsnivå. Ett t-test, där vi frågar: "Skiler sig denna variation från kontrollen?" är en grundläggande byggsten i denna metod.

Målet med ett A/B-test, statistiskt sett, är att avgöra om de data som samlats in under experimentet kan dra slutsatsen att en variant på en webbplats eller app är mätbart annorlunda än den andra. Bayesianska och frekventistiska metoder kommer att undersöka samma experimentdata från olika synvinklar. Liksom en hängbro kontra en bågbro ovanför strävar de efter att uppnå samma mål. Båda strukturerna tjänar syftet att korsa ett gap, och när det gäller A/B-testning använder både Bayesianska och frekventistiska metoder experimentdata för att besvara samma fråga: vilken variant är bäst?

Vilka är fördelarna med båda metoderna?

A/B-testplattformar som Optimizely använder frekventistiska metoder för att beräkna statistisk signifikans eftersom de tillförlitligt erbjuder matematiska "garantier" om framtida prestanda: statistiska utdata från ett experiment som förutsäger om en variant faktiskt kommer att vara bättre än baslinjen när den implementeras, givet tillräckligt med tid. Med frekventistiska garantier kan vi till exempel göra uttalanden som: "Färre än 5 % av implementerade varianter kommer att se förbättringar utanför deras 95 % konfidensintervall."

För mer kunskap om detta ämne, ladda ner e-boken, En praktisk guide till statistik för onlineexperiment.

Bayesianska tester, å andra sidan, använder förkunskap för att beräkna experimentresultat. Den största fördelen med Bayesianska metoder är att de använder den förkunskap som varje experimentledare har med sig. Att använda all information som står till ditt förfogande, oavsett om den är aktuell eller tidigare, bör leda till snabbast möjliga experimentframsteg. Förutsatt att antagandena som gjorts med hjälp av historiska data för att beräkna den statistiska prior-effekten är korrekta, bör detta hjälpa experimentledare att nå statistiskt signifikanta slutsatser snabbare.

Bayesianska metoder har dock inte alltid samma garantier som frekventistiska metoder om framtida prestanda. Om vi ​​automatiskt skulle använda dem som om de gjorde det, och tillämpa frekventistiska meningar – som den ovanstående för konfidensintervall – på Bayesianska beräkningar, skulle vi kunna ledas till en felaktig slutsats. Detta beror på risken att tidigare experimentkunskap kanske inte faktiskt matchar hur en effekt genereras i ett nytt experiment, och det är möjligt att bli vilseledd om man inte tar hänsyn till det.

I en New York Times-artikel från förra året som beskriver tillämpningar av Bayesiansk statistik, tar författaren upp ett exempel på att söka efter en försvunnen fiskare. Kustbevakningen kunde använda data om lokal geografi och tidigare sökningar i kombination för att göra förutsägelser om vilka områden som mest sannolikt innehöll deras försvunna fiskare. Allt eftersom mer information om den aktuella sökningen kom fram kombinerades dessa indata med kunskap om naturens tidigare beteende för att påskynda sökningen, vilket resulterade i ett lyckligt slut.

Den största fallgropen med att extrapolera denna framgångssaga till A/B-testning är att införlivandet av tidigare uppfattningar som inte stämmer överens med verkligheten kan ha exakt motsatt effekt – en felaktig slutsats och en långsammare väg till rätt svar. Ett syfte med A/B-testning är att lära av ditt experiment för att vidta framtida åtgärder, oavsett om det är att implementera en variant eller köra fler tester. Den tidigare information du har idag kanske inte är lika tillämplig i framtiden.

I slutändan kommer missförstånd eller felaktig användning av statistik att ge dåliga resultat oavsett vilken typ av statistisk metod som används (bayesiansk eller frekventistisk). Det är av denna anledning som starka grunder är avgörande för bra A/B-testning, och varför vi prioriterar att integrera en robust version av denna statistik i vår produkt. Solida statistiska uttalanden, och att presentera dem på ett lättillgängligt sätt, är en större fördel för våra kunder än att pressa ut varenda droppe effektivitet.

Hur ser framtiden ut för frekventistiska och bayesianska förespråkare?

Men när vi utvecklade en statistisk modell som mer exakt skulle matcha hur Optimizelys kunder använder sina experimentresultat för att fatta beslut (Stats Engine), blev det tydligt att den bästa lösningen skulle behöva blanda element från både frekventistiska och bayesianska metoder för att leverera både tillförlitligheten hos frekventistisk statistik och hastigheten och smidigheten hos bayesianska metoder.

Denna metod ligger i linje med en något mindre välkänd tredje tankeskola inom statistik. Den kallas Empirisk Bayes och bygger på principen att statistiska metoder bör införliva styrkorna hos både bayesianska och frekventistiska ideologier, samtidigt som de mildrar svagheterna hos båda.

Liksom brokonceptet kombinerar Empirisk Bayes båda metoderna för att ge en innovativ lösning på de aktuella frågorna och kan hjälpa till att undvika svårigheterna med att välja antingen en bågbro eller en hängbro ensam.

Genom att kombinera det bästa från en båge- och upphängningskonstruktion skapas en genomgående bågbro, vilket kan ge det bästa resultatet för ett givet mellanrum, som ses här med Sydney Harbour Bridge.

Faktum är att Optimizelys Stats Engine innehåller en metod direkt från Empirical Bayes tankesätt, så att användare kan testa många mål- och variationskombinationer utan att offra statistisk noggrannhet.

Benjamini-Hochberg-metoden kontrollerar en typ av statistiskt fel som kallas False Discovery Rates (FDR). FDR är ett mått som tar itu med det faktum att man kan göra många fel när man kör flera A/B-tester samtidigt. Detta är vanligtvis ett problem om du kör multivariata eller A/B/n-experiment med många variationer, eller spårar många mål i ett experiment.

Vi beskriver i detalj hur den här metoden fungerar och varför den presenterar den statistiska felfrekvensen som företag faktiskt bryr sig om i vårt blogginlägg om Stats Engine och en mer detaljerad teknisk beskrivning. Vi har också nyligen spelat in ett webbinarium med ett exempel på FDR i praktiken för A/B-testning.

Benjamini-Hochbergs FDR-metod för att kontrollera detta fel har visat sig vara framgångsrik enligt både frequentistiska och bayesianska standarder. Förfarandet införlivar inte bara rimligt tidigare experimentdata, utan ger också de resultat och frekventistiska statistiska garantier man kan förvänta sig, oavsett vilket perspektiv man antar.

Det snabba och långtgående accepterandet av Benjamini-Hochberg-metoden i akademiska och medicinska miljöer kan tillskrivas det faktum att metoden har övertygat både Bayesianer och frekventister om dess fördelar.

Så tycker vi att alla borde tänka som en frekventist? En Bayesian? En empirisk Bayesian? Inte alls. Borde du skynda dig att anta färgerna i ett av dessa läger? Självklart inte. Anledningen till att dessa ideologier kvarstår är att de på en mycket grundläggande nivå alla är bra sätt att tänka på att lära sig av dina data.

Vi anser att för att vara en kunnig A/B-testare, som en informerad väljare eller en effektiv byggnadsingenjör, är det viktigt att vara kunnig om de valmöjligheter som finns tillgängliga för dig. Vi är glada över att inte bara hitta den bästa statistiken som passar ditt sätt att använda data för att fatta beslut och vidta åtgärder, utan också att ge dig möjlighet att använda den.