Reell statistisk styrke sparer deg, men etterfølgende styrkeberegning lurer deg

Poweranalyse forteller deg hvor mye data du trenger for å sikre at resultatene dine er pålitelige for beslutningstaking. Se hva som vil skje hvis du hopper over den.

TL;DR

Power-analyse er eksperimentets sikkerhetsnett i frekvenstester med fast horisont
- Uten den betyr ikke-signifikante resultater ingenting: Du kan ikke si om det ikke er noen effekt eller bare ikke nok data.
- Uten den kan signifikante resultater være misvisende: Effektstørrelser kan overdrives ved en tilfeldighet.

Post-hoc power tilfører ingen verdi: Det kan ikke redde et dårlig planlagt eksperiment.

Gjør det høyre: Definer en meningsfull MDE, planlegg for minst 80 % styrke, og hold deg til utvalgsstørrelsesplanen din.

Støtteanalyse er viktig, og hva vil skje når du hopper over den?

Hver lærebok om frekvenstesting med fast horisont understreker viktigheten av å gjøre en styrkeanalyse når man designer eksperimenter. Det er fordi potensanalyse forteller deg hvor mye data du trenger for å sikre at resultatene dine er pålitelige for beslutningstaking.

Eksempel på sjekkliste

For å vise hvorfor det å «planlegge nok data» er så viktig i denne typen test, kjører vi eksperimenter uten potensanalyse og ser hva som skjer.

Anta at vi gjorde kasseknappen mer synlig (på bekostning av noen morsomme katter) og forventet at den ville øke konverteringen. Men i stedet for å bruke potensanalyse til å planlegge utvalgsstørrelsen og kjøretiden, valgte vi bare en tidslinje basert på bekvemmelighet eller press fra interessenter.

Bildekilde: Optimizely

Scenario 1: Uten styrkeanalyse kan et ikke-signifikant eksperiment være forvirrende.

Betyr det ikke-signifikante resultatet at vår forventede positive effekt i hypotesen sannsynligvis ikke eksisterer? Vi vet ikke. Den overfylte betalingssiden plager kanskje ikke katteelskere, noe som resulterer i ingen effekt av å forenkle betalingsknappen. Et mer sannsynlig scenario er imidlertid at vi rett og slett ikke har nok data til å oppdage noen effekt.

La oss sette betalingssiden for katter med en konverteringsfrekvens på 0,2 og betalingssiden uten katter med en konverteringsfrekvens på 0,25. Så vi vet at det er en økning på 25 % i konverteringsfrekvensen (en ganske stor effekt vi ikke vil gå glipp av!).

Vi utførte ikke en styrkeanalyse, så vi simulerer data for forskjellige utvalgsstørrelser. For hver størrelse genererer vi 1000 forskjellige datasett for å gjenspeile den naturlige variasjonen i utvalget og kjører hypotesetesten på hvert datasett.

For å vise sjansen for å lykkes med å oppdage effekten ved hver utvalgsstørrelse, registrerer vi prosentandelen av tester ved hver utvalgsstørrelse som oppdager en økning på 25 % og forkaster nullhypotesen.

Bildekilde: Optimizely

Linjediagrammet ovenfor illustrerer at etter hvert som utvalgsstørrelsen øker, øker også sjansene for å forkaste nullhypotesen, noe som øker vår evne til å oppdage den 25 % økningen. Men når utvalgsstørrelsen vår faller under 2000, er sjansen vår for å oppdage 25 % økning under 80 %, og vi er mer sannsynlig å gå glipp av effekten.

Noen tenker kanskje at ok, jeg forstår at hvis vi hopper over potensanalyse og får et ikke-signifikant resultat, kan vi ikke si om det virkelig ikke er noen effekt eller bare ikke nok data. Men ta en titt på grafen. Selv med bare 1400 prøver har vi fortsatt over 60 % sjanse for å oppdage en økning. Det er faktisk ganske oppmuntrende. Så hvis utvalgsstørrelsen vår ikke er for liten, kan det føles greit å kjøre eksperimentet uten å gjøre en potensanalyse først.

Men her er haken: hvis vi hopper over potensanalyse for å sikre en stor nok utvalgsstørrelse og fortsatt får et signifikant resultat, kan vi ikke stole helt på det. Den estimerte effekten kan være feil eller overdrevet for mye.

Scenario 2: Uten potensanalyse kan et signifikant eksperiment fortsatt være misvisende.

La oss se igjen på den samme simuleringen fra scenario 1. Denne gangen fokuserer vi på hvor ofte signifikante resultater viser feil effekt – nærmere bestemt når den estimerte effekten er negativ, selv om vi vet at den sanne effekten er positiv. Vi beregner prosentandelen av signifikante resultater som ga negative effekter ved forskjellige utvalgsstørrelser.

Bildekilde: Optimizely

To ting skiller seg ut i diagrammet ovenfor:

Det er mulig å få et signifikant resultat der den estimerte effekten er helt feil.
Disse feilene blir mindre vanlige etter hvert som utvalgsstørrelsen øker. (Imidlertid er det i våre simulerte data, selv med 1000 utvalg, fortsatt en liten sjanse for å få feil retning.)

Hva om våre signifikante resultater peker i riktig retning?

Vi så også på det. Vi beregnet den gjennomsnittlige estimerte effekten blant alle signifikante resultater som korrekt viste en positiv effekt.

Bildekilde: Optimizely

Diagrammet ovenfor fremhever to hovedpunkter:

Selv når den estimerte effekten har riktig fortegn, kan den være mye større enn den virkelige effekten.
Denne overdrivelsen blir mindre etter hvert som utvalgsstørrelsen øker.

Fortegns- og overdrivelsesfeilene vi så på kommer fra et rammeverk av Gelman & Carlin (2014), kjent som type S (fortegn) og type M (størrelsesorden) feil. Våre beregninger er ikke eksakte replikasjoner av metoden deres, men de fanger kjerneideen: signifikante resultater kan noen ganger peke i feil retning (Type S-feil) eller overdrive størrelsen på effekten (Type M-feil), **spesielt når vi ikke har nok data**.

Nå er det klart hvorfor **det å ha nok data er nøkkelen til å få pålitelige og nyttige resultater.**

Hvordan hjelper styrkeanalyse med det?

Ta en ny titt på det første linjediagrammet. Vi anser vanligvis en utvalgsstørrelse som «nok» hvis den gir oss minst 80 % sjanse for å oppdage en sann effekt. Dette er hva vi mener med 80 % styrke. I simuleringen vår tilsvarer det omtrent 2500 prøver. Så hvis du kjører et eksperiment med 80 % styrke og får et ikke-signifikant resultat, vet du at effekten du forventet i din alternative hypotese sannsynligvis ikke er der.

Bildekilde: Optimizely

På den annen side, hvis du får et signifikant resultat med 2500 prøver (dvs. et eksperiment med 80 % styrke), er sjansen for at det er feil eller overdrevet svært lav. Det betyr at du kan stole på at resultatet styrer beslutningene dine.

Kort sagt hjelper styrkeanalyse deg med å planlegge nok data til å gjøre både ikke-signifikante og signifikante resultater troverdige.

Av en eller annen grunn gjorde vi ikke en styrkeanalyse før vi startet et eksperiment. Kan vi gjøre det etterpå og fortsatt lære noe nyttig? Dessverre ikke.

Den begrensede nytten av post-hoc-potensanalyse

For å forstå problemene med post-hoc-potensanalyser må vi først forstå hvordan potens defineres i frekventistisk statistikk.

Definisjonen av potens

"Potensen" er sannsynligheten for å forkaste nullhypotesen korrekt. Som andre konsepter i frekventistisk statistikk, for eksempel den falske positive feilen, er potensen definert på tvers av en serie gjentatte eksperimenter under identiske forhold, noe som kan forvirre mange anvendte brukere.

For å forstå konseptet, la oss gjenbruke kasseknappeksperimentet som er nevnt ovenfor. Figuren nedenfor definerer potensen for dette hypotetiske eksperimentet.

I praksis ville vi utført ett eksperiment på kasseknappen og beregnet den tilhørende p-verdien (dvs. eksperiment 1 i figuren). Potensen er imidlertid avledet ikke bare fra dette eksperimentet (dvs. eksperiment 1), men også fra potensielle eksperimenter vi kunne utføre (dvs. eksperiment 2, 3, …, M). Dette er hva vi mener med "potensen er definert på tvers av en serie gjentatte eksperimenter under identiske forhold". Siden vi ikke observerer de andre potensielle eksperimentene, kjenner vi faktisk ikke den "reelle" potensen i en empirisksetting. Dette er også grunnen til at vi vanligvis stoler på simuleringsstudier (som de ovenfor) for å illustrere potensens oppførsel.

Bildekilde: Optimizely

I en empirisk setting vet vi ikke den sanne effekten. Så når vi planlegger et eksperiment, legger vi til den minste detekterbare effekten (MDE) – den minste effekten vi bryr oss om – for å estimere utvalgsstørrelsen.

Dette er direkte knyttet til hvordan hypotesetesting fungerer. Testen forteller oss bare om vi kan forkaste nullhypotesen. Den bekrefter ikke om effekten vi legger inn i den alternative hypotesen (som MDE) er den sanne effekten, fordi vi ikke vet hva den sanne effekten er.

Hvis vi forkaster nullhypotesen med nok styrke, betyr det at vi fant sterke bevis for at en reell effekt eksisterer. Vi bør imidlertid også sjekke *hvor stor* den effekten er. Hvis den observerte effekten er mindre enn MDE, kan den være statistisk signifikant, men *ikke praktisk meningsfull* – med andre ord, endringen er reell, men er kanskje ikke stor nok til å rettferdiggjøre handling. Hvis vi ikke forkaster nullen, betyr det enten at det egentlig ikke er noen effekt, eller at den nåværende utvalgsstørrelsen ikke er stor nok til å oppdage effekten.

Kan vi i stedet bruke effekten vi observerer fra eksperimentet til å beregne kraft etterpå (en post-hoc-analyse)? Nei, det kan vi ikke. Den estimerte kraften kan være støyende, og å bruke den på denne måten kan gi et veldig misvisende bilde av kraften.

Post-hoc-kraften

La oss bruke eksemplet med kasseknappen på nytt. Vi samlet 100 besøkende for kontrollgruppen og 100 for behandlingsgruppen. Konverteringsraten for kontrollgruppen er 0,90, mens behandlingsgruppen er 0,94. Den observerte (ikke-standardiserte) effektstørrelsen (dvs. forskjell i gjennomsnitt) er 0,04, med en standardfeil på omtrent 0,0383. Gitt den kritiske verdien på 1,96 (tosidig test, alfa=0,05), er *p*-verdien 0,396, og 95 % konfidensintervallet er (-0,0351, 0,1151) basert på Wald-testen for gjennomsnittsforskjellen. Dette konfidensintervallet kan betraktes som det plausible området for den sanne effekten gitt dataene og informasjonen. Hvis vi setter inn hver verdi i dette intervallet som den sanne effekten, kan effekten estimeres basert på formelen (Wasserman 2012):

Der delta er plugin-verdien for effekten. Tabellen nedenfor viser den estimerte effekten basert på flere mulige verdier av den virkelige effekten.

Mulige verdier for den sanne effekten	Estimert effekt
0,1151	85 %
0,107	80 %
0,04	18 %
0,001	5 %
-0,0351	15 %

Avhengig av de mulige verdiene for den sanne effekten som antydes av konfidensintervallet, anslår vi derfor at potensen varierer fra 5 % til 85 %, og dette området er for stort til å være av praktisk nytte.

En post-hoc potensanalyse gir ikke ekstra innsikt

Vi gjentar poenget som er blitt gjort tidligere:

Fra et statistisk perspektiv, når et resultat ikke er statistisk signifikant, er enten den sanne effekten null, eller så er ikke utvalgsstørrelsen tilstrekkelig til å oppdage effekten (og derfor har studien for lite statistisk styrke). Vi kan ikke avgjøre hva som er tilfelle.

Denne påstanden krever ikke en post-hoc-analyse, og en post-hoc-analyse gir ikke ytterligere innsikt utover påstanden. Som vist i tabellen ovenfor, er den estimerte styrken stort sett under 80 % for området (-0,0351, 0,1151), noe som ikke er overraskende siden resultatet ikke er signifikant. Det virkelige problemet er imidlertid at vi ikke vet om den sanne effekten er null eller ikke, og dette spørsmålet kan ikke besvares av en post-hoc-analyse.

Post-hoc-styrke som et verktøy for å oppdage skjevheter

Vi har slått fast at post-hoc-styrke ikke er nyttig for å evaluere et enkelt eksperiment. Det kan imidlertid bidra til å vurdere troverdigheten til flere studier i en akademisk artikkel. Dette emnet går utover omfanget av denne bloggen; Interesserte lesere anbefales å lese Schimmack (2012) og Aberson (2019, s. 15–16).

Beste praksis for potensanalyse i frekvenstester med fast horisont

Potensanalyse er ikke bare en boks å krysse av i – det er grunnlaget for å kjøre pålitelige eksperimenter. For å gjøre resultatene dine både troverdige og handlingsrettede, husk disse prinsippene:

Definer og forsvar din MDE: Ikke velg en "detekterbar effekt" ut av løse luften. Tenk gjennom hvilken størrelse forbedring som er praktisk meningsfull og begrunn den. Men husk at MDE ikke er den sanne effekten, men bare effekten du bryr deg om.
Planlegg utvalgsstørrelsen din på forhånd: Baser den på minst 80 % styrke for den valgte MDE-en din, og vær nøye med forutsetningene bak beregningsmetoden din (vi vil diskutere det i detalj i et annet blogginnlegg).
Forplikt deg til planen: Når eksperimentet starter, hold deg strengt til den forhåndsbestemte utvalgsstørrelsen basert på styrkeanalyse.
Støtteanalyse hjelper utover frekvenstester med fast horisont: Ikke alle studier trenger styrkeanalyse fra et statistisk synspunkt. For eksempel er ikke Bayesianske tilnærminger eller våre sekvensielle tester avhengige av faste utvalgsstørrelser på samme måte. Imidlertid kan potensanalyse fortsatt være nyttig i disse settingene for å veilede eksperimentdesignet ditt

Gennemtenkt potensanalyse forvandler testen din fra et sjansespill til et pålitelig beslutningsverktøy. Hopp over den, og A/B-testen din er ikke bedre enn et myntkast. Gjør du det feil, gir den falsk trøst i stedet for reell innsikt.

Referanser

Aberson, C. L. (2019). Anvendt potensanalyse for atferdsvitenskapene. Routledge.

Gelman, A., & Carlin, J. (2014). Utover potensberegninger: Vurdering av type S (tegn) og type M (størrelsesorden) feil. Perspectives on psychological science, 9(6), 641-651.

Schimmack, U. (2012). Den ironiske effekten av signifikante resultater på troverdigheten til artikler fra flere studier. *Psychological methods*, *17*(4), 551.* *Wasserman, L. (2013). *All statistikk: et kortfattet kurs i statistisk inferens*. *Springer Science & Business Media*.*

Ekte makt redder deg, men makt i etterkant lurer deg

TL;DR

Støtteanalyse er viktig, og hva vil skje når du hopper over den?

Scenario 1: Uten styrkeanalyse kan et ikke-signifikant eksperiment være forvirrende.

Scenario 2: Uten potensanalyse kan et signifikant eksperiment fortsatt være misvisende.

Den begrensede nytten av post-hoc-potensanalyse

Definisjonen av potens

Post-hoc-kraften

En post-hoc potensanalyse gir ikke ekstra innsikt

Post-hoc-styrke som et verktøy for å oppdage skjevheter

Beste praksis for potensanalyse i frekvenstester med fast horisont

Referanser