Verklig power sparar dig men post-hoc power lurar dig

Poweranalys visar hur mycket data du behöver för att säkerställa att dina resultat är tillförlitliga för beslutsfattande. Se vad som händer om du hoppar över den.

TL;DR

Power-analys är ditt experiments skyddsnät i frekventisttest med fast horisont
- Utan den betyder icke-signifikanta resultat ingenting: Du kan inte avgöra om det inte finns någon effekt eller om det bara inte finns tillräckligt med data.
- Utan den kan signifikanta resultat vilseleda: Effektstorlekar kan överdrivas av en slump.

Post-hoc power tillför inget värde: Det kan inte rädda ett dåligt planerat experiment.

Gör det höger: Definiera en meningsfull MDE, planera för minst 80 % effekt och håll dig till din urvalsstorleksplan.

Effektanalys är viktigt och vad som händer om du hoppar över den

Varje lärobok om frekventistisk testning med fast horisont betonar vikten av att göra en effektanalys när man utformar experiment. Det beror på att poweranalys visar hur mycket data du behöver för att säkerställa att dina resultat är tillförlitliga för beslutsfattande.

Exempel på checklista

För att visa varför det är så viktigt att "planera för tillräckligt med data" i den här typen av test kör vi experiment utan poweranalys och ser vad som händer.

Anta att vi gjorde utcheckningsknappen mer synlig (på bekostnad av några roliga katter) och förväntade oss att den skulle öka konverteringen. Men istället för att använda poweranalys för att planera urvalsstorleken och körtiden valde vi bara en tidslinje baserad på bekvämlighet eller intressenttryck.

Bildkälla: Optimizely

Scenario 1: Utan effektanalys kan ett icke-signifikant experiment vara förvirrande.

Betyder det icke-signifikanta resultatet att vår förväntade positiva effekt i hypotesen sannolikt inte existerar? Vi vet inte. Den trånga kassasidan kanske inte stör kattälskare, vilket resulterar i att det inte blir någon effekt av att förenkla kassaknappen. Ett mer troligt scenario är dock att vi helt enkelt inte har tillräckligt med data för att upptäcka någon effekt.

Låt oss sätta kassasidan för katt med en konverteringsfrekvens på 0,2 och kassasidan utan katt med en konverteringsfrekvens på 0,25. Så vi vet att det finns en ökning av konverteringsfrekvensen på 25 % (en ganska stor effekt som vi inte vill missa!).

Vi gjorde ingen effektanalys, så vi simulerar data för olika urvalsstorlekar. För varje storlek genererar vi 1000 olika dataset för att återspegla den naturliga variationen i urvalet och kör hypotesprovet på varje dataset.

För att visa chansen att framgångsrikt upptäcka effekten vid varje urvalsstorlek registrerar vi andelen tester vid varje urvalsstorlek som upptäcker en ökning på 25 % och förkastar nollhypotesen.

Bildkälla: Optimizely

Linjediagrammet ovan illustrerar att allt eftersom urvalsstorleken ökar ökar också chansen att förkasta nollhypotesen, vilket ökar vår förmåga att upptäcka den där 25-procentiga ökningen. Men när vår urvalsstorlek sjunker under 2000 är vår chans att upptäcka 25-procentig ökning under 80 % och vi är mer benägna att missa effekten.

Vissa kanske tänker, okej, jag förstår att om vi hoppar över potensanalysen och får ett icke-signifikant resultat, kan vi inte avgöra om det verkligen inte finns någon effekt eller om det bara inte finns tillräckligt med data. Men ta en titt på diagrammet. Även med bara 1 400 urval har vi fortfarande över 60 % chans att upptäcka en ökning. Det är faktiskt ganska uppmuntrande. Så om vår urvalsstorlek inte är för liten kan det kännas okej att köra experimentet utan att först göra en poweranalys.

Men här är haken: om vi hoppar över poweranalys för att säkra en tillräckligt stor urvalsstorlek och fortfarande får ett signifikant resultat, kan vi inte lita helt på det. Den uppskattade effekten kan vara felaktig eller överdriven för mycket.

Scenario 2: Utan poweranalys kan ett signifikant experiment fortfarande vara vilseledande.

Låt oss titta igen på samma simulering från scenario 1. Den här gången fokuserar vi på hur ofta signifikanta resultat visar fel effekt – specifikt när den uppskattade effekten är negativ, även om vi vet att den verkliga effekten är positiv. Vi beräknar andelen signifikanta resultat som returnerade negativa effekter vid olika urvalsstorlekar.

Bildkälla: Optimizely

Två saker sticker ut i diagrammet ovan:

Det är möjligt att få ett signifikant resultat där den uppskattade effekten är helt fel.
Dessa fel blir mindre vanliga när urvalsstorleken ökar. (Men i våra simulerade data, även med 1 000 urval, finns det fortfarande en liten chans att få fel riktning.)

Vad händer om våra signifikanta resultat pekar i rätt riktning?

Vi tittade också på det. Vi beräknade den genomsnittliga uppskattade effekten bland alla signifikanta resultat som korrekt visade en positiv effekt.

Bildkälla: Optimizely

Diagrammet ovan belyser två viktiga punkter:

Även när den uppskattade effekten har rätt tecken kan den vara mycket större än den verkliga effekten.
Denna överdrift blir mindre när urvalsstorleken ökar.

Tecken- och överdriftsfelen vi tittade på kommer från ett ramverk av Gelman & Carlin (2014), känt som typ S (tecken) och typ M (magnitud) fel. Våra beräkningar är inte exakta kopior av deras metod, men de fångar kärnidén: signifikanta resultat kan ibland peka i fel riktning (typ S-fel) eller överdriva effektens storlek (typ M-fel), **särskilt när vi inte har tillräckligt med data**.

Vid det här laget är det tydligt varför **tillräckligt med data är nyckeln till att få tillförlitliga och användbara resultat.**

Hur hjälper styrkeanalys till med det?

Ta en ny titt på första linjediagrammet. Vi brukar anse att en urvalsstorlek är "tillräcklig" om den ger oss minst 80 % chans att upptäcka en sann effekt. Det är vad vi menar med 80 % styrke. I vår simulering motsvarar det cirka 2 500 urval. Så om du kör ett experiment med 80 % styrke och får ett icke-signifikant resultat, vet du att den effekt du förväntade dig i din alternativa hypotes förmodligen inte finns där.

Bildkälla: Optimizely

Å andra sidan, om du får ett signifikant resultat med 2 500 prover (dvs. ett experiment med 80 % styrka), är chansen att det är felaktigt eller överdrivet mycket låg. Det betyder att du kan lita på att resultatet vägleder dina beslut.

Kort sagt, styrkanalys hjälper dig att planera för tillräckligt med data för att göra både icke-signifikanta och signifikanta resultat trovärdiga.

Av någon anledning gjorde vi inte en styrkanalys innan vi startade ett experiment. Kan vi göra det efteråt och fortfarande lära oss något användbart? Tyvärr nej.

Den begränsade användbarheten av post-hoc-maktanalysen

För att förstå problemen med post-hoc-maktanalyser måste vi först förstå hur makt definieras i frekventistisk statistik.

Definitionen av makt

"Kraften" är sannolikheten att korrekt förkasta nollhypotesen. Liksom andra begrepp inom frekventistisk statistik, såsom det falskt positiva felet, definieras makten över en serie upprepade experiment under identiska förhållanden, vilket kan förvirra många tillämpade användare.

För att förstå konceptet, låt oss återanvända checkout button-experimentet som nämns ovan. Figuren nedan definierar effekten för detta hypotetiska experiment.

I praktiken skulle vi utföra ett experiment på utcheckningsknappen och beräkna det tillhörande p-värdet (dvs. experiment 1 i figuren). Effekten härleds dock inte bara från detta experiment (dvs. experiment 1) utan också från potentiella experiment vi skulle kunna utföra (dvs. experiment 2, 3, …, M). Detta är vad vi menar med "effekten definieras över en serie upprepade experiment under identiska förhållanden". Eftersom vi inte observerar de andra potentiella experimenten känner vi faktiskt inte till den "verkliga" effekten i en empiriskmiljö. Det är också därför vi vanligtvis förlitar oss på simuleringsstudier (som de ovan) för att illustrera effektens beteende.

Bildkälla: Optimizely

I en empirisk miljö vet vi inte den verkliga effekten. Så när vi planerar ett experiment använder vi den minsta detekterbara effekten (MDE) – den minsta effekten vi bryr oss om – för att uppskatta urvalsstorleken.

Detta är direkt kopplat till hur hypotesprövning fungerar. Testet berättar bara om vi kan förkasta nollhypotesen. Det bekräftar inte om effekten vi sätter i den alternativa hypotesen (som MDE) är den verkliga effekten, eftersom vi inte vet vad den verkliga effekten är.

Om vi förkastar nollhypotesen med tillräckligt med statistisk styrka betyder det att vi hittade starka bevis för att en verklig effekt existerar. Vi bör dock också kontrollera *hur stor* den effekten är. Om den observerade effekten är mindre än MDE kan den vara statistiskt signifikant men *inte praktiskt meningsfull* – med andra ord, förändringen är verklig men kanske inte tillräckligt stor för att motivera åtgärder. Om vi inte förkastar nollvärdet betyder det antingen att det verkligen inte finns någon effekt, eller att den nuvarande urvalsstorleken inte är tillräckligt stor för att detektera effekten.

Kan vi istället använda effekten vi observerar från experimentet för att beräkna styrkan efteråt (en post-hoc-analys)? Nej, det kan vi inte. Den uppskattade styrkan kan vara brusig och att använda den på detta sätt kan ge en mycket missvisande bild av styrkan.

Post-hoc-styrkan

Låt oss återanvända exemplet med kassaknappsexperimentet. Vi samlade in 100 besökare för kontrollgruppen och 100 för behandlingsgruppen. Konverteringsfrekvensen för kontrollgruppen är 0,90, medan behandlingsgruppen är 0,94. Den observerade (icke-standardiserade) effektstorleken (dvs. skillnaden i medelvärden) är 0,04, med ett standardfel på cirka 0,0383. Givet det kritiska värdet 1,96 (tvåsidigt test, alfa=0,05) är *p*-värdet 0,396, och 95%-konfidensintervallet är (-0,0351, 0,1151) baserat på Wald-testet för medelskillnaden. Detta konfidensintervall kan betraktas som det rimliga intervallet för den sanna effekten givet data och information. Om vi anger varje värde i detta intervall som den sanna effekten, kan effekten uppskattas baserat på formeln (Wasserman 2012):

Där delta är plugin-värdet för effekten. Tabellen nedan visar den uppskattade effekten baserat på flera möjliga värden för den verkliga effekten.

Möjliga värden för den verkliga effekten	Uppskattad effekt
0,1151	85 %
0,107	80 %
0,04	18 %
0,001	5 %
-0,0351	15 %

Beroende på de möjliga värdena för den verkliga effekten som antyds av konfidensintervallet uppskattar vi således att styrkan varierar från 5 % till 85 %, och detta intervall är för stort för att vara av praktisk nytta.

En post-hoc styrkanalys ger inga extra insikter

Vi upprepar den poäng som har framförts tidigare:

Ur ett statistiskt perspektiv, när ett resultat inte är statistiskt signifikant, är antingen den verkliga effekten noll, eller så är urvalsstorleken inte tillräcklig för att detektera effekten (och därför har studien underdimensionerad statistisk styrka). Vi kan inte avgöra vilket som är fallet.

Detta påstående kräver inte en post-hoc-analys, och en post-hoc-analys ger inte ytterligare insikter utöver påståendet. Som visas i tabellen ovan är den uppskattade styrkan mestadels under 80 % för intervallet (-0,0351, 0,1151), vilket inte är förvånande eftersom resultatet inte är signifikant. Det verkliga problemet är dock att vi inte vet om den verkliga effekten är noll eller inte, och denna fråga kan inte besvaras av en post-hoc-analys.

Post-hoc-styrka som ett verktyg för att upptäcka bias

Vi har fastställt att post-hoc-styrka inte är användbar för att utvärdera ett enda experiment. Det kan dock hjälpa till att bedöma trovärdigheten hos flera studier i en akademisk artikel. Detta ämne går utöver den här bloggens omfattning; Intresserade läsare rekommenderas att läsa Schimmack (2012) och Aberson (2019, s. 15-16).

Bästa praxis för effektanalys i frekventisttester med fast horisont

Effektanalys är inte bara en ruta att kryssa i – det är grunden för att genomföra pålitliga experiment. För att göra dina resultat både trovärdiga och handlingsbara, tänk på dessa principer:

Definiera och försvara din MDE: Välj inte en "detekterbar effekt" ur tomma intet. Tänk igenom vilken storlek på förbättringen som är praktiskt meningsfull och motivera den. Men kom ihåg att MDE inte är den verkliga effekten utan bara den effekt du bryr dig om.
Planera din urvalsstorlek i förväg: Basera den på minst 80 % styrka för din valda MDE och var noga med antagandena bakom din beräkningsmetod (vi kommer att diskutera det i detalj i ett annat blogginlägg).
Följ planen: När experimentet börjar, håll dig strikt till den förutbestämda urvalsstorleken baserad på styrkanalys.
Strymdsanalys hjälper utöver frekventisttester med fast horisont: Inte alla studier behöver styrkanalys ur statistisk synvinkel. Till exempel förlitar sig inte Bayesianska metoder eller våra sekventiella tester på fasta urvalsstorlekar på samma sätt. Maktanalys kan dock fortfarande vara användbar i dessa sammanhang för att vägleda din experimentdesign.

En genomtänkt maktanalys förvandlar ditt test från en chansning till ett pålitligt beslutsfattande verktyg. Hoppa över det, och ditt A/B-test blir inte bättre än ett myntkast. Gör det fel, och det erbjuder falsk trygghet istället för verklig insikt.

Referenser

Aberson, C. L. (2019). Tillämpad maktanalys för beteendevetenskaperna. Routledge.

Gelman, A., & Carlin, J. (2014). Beyond power calculations: Assessing type S (sign) and type M (magnitude) errors. Perspectives on psychological science, 9(6), 641-651.

Schimmack, U. (2012). Den ironiska effekten av signifikanta resultat på trovärdigheten hos artiklar från flera studier. *Psychological methods*, *17*(4), 551.* *Wasserman, L. (2013). *All statistik: en kortfattad kurs i statistisk inferens*. Springer Science & Business Media.*

Verklig makt räddar dig, men makt i efterhand lurar dig

TL;DR

Effektanalys är viktigt och vad som händer om du hoppar över den

Scenario 1: Utan effektanalys kan ett icke-signifikant experiment vara förvirrande.

Scenario 2: Utan poweranalys kan ett signifikant experiment fortfarande vara vilseledande.

Den begränsade användbarheten av post-hoc-maktanalysen

Definitionen av makt

Post-hoc-styrkan

En post-hoc styrkanalys ger inga extra insikter

Post-hoc-styrka som ett verktyg för att upptäcka bias

Bästa praxis för effektanalys i frekventisttester med fast horisont

Referenser