Hvorfor A/B-testene dine feiler og hvordan CUPED løser det

TID...

er årsaken til hvorfor godt utformede eksperimenter noen ganger ikke oppnår statistisk signifikans.

Mange A/B-tester ender opp på den "ufullstendige" kirkegården, og svever rett under signifikansgrensen. Mellom langsom datainnsamling og høy variansberegninger kan det være frustrerende unnvikende å oppdage reelle effekter i nettstedets redesign eller prisstrategi.

Hva om du kunne stramme inn konfidensintervallene dine og øke den statistiske styrken til eksperimentene dine ved å bruke data du allerede har?

Det er her CUPED kommer inn i bildet. Det står for Controlled-experiment Using Pre-Existing Data, en statistisk tilnærming for å redusere varians.

Bildekilde: Optimizely

Og det beste av alt? Du kan også bruke det! La oss se hvordan. 👇

Effektivitetsgapet i eksperimentering

Utfordringen med timing av eksperimentering varierer fra bransje til bransje:

E-handelsnettsteder kjører vanligvis tester i flere uker
SaaS-produkter krever ofte lengre testperioder
Mediesider kan se raskere resultater på grunn av høyere trafikkvolumer

Og det er hvis de i det hele tatt konkluderer. Mange blir rett og slett forlatt når resultatene forblir ufullstendige.

Hvorfor skjer dette? Tre hovedgrunner:

Stor variasjon i måledata: Engasjementsmålinger varierer naturlig nok mye mellom brukere, noe som gjør det vanskelig å se de virkelige effektene.
Begrenset trafikk: Ikke alle selskaper er Google. De fleste bedrifter sliter med å få nok brukere gjennom et eksperiment.
Alternativkostnad: Hver uke et eksperiment kjører er nok en uke der du utsetter beslutninger og potensielle forbedringer. Lengre eksperimenter betyr færre tester du kan kjøre i en gitt tidsramme, noe som reduserer den totale læringshastigheten og produktutviklingen.

Høy varians i en beregning krever en større utvalgsstørrelse for å nå statistisk signifikans, noe som kan ta uker med tanke på besøkstrafikken. Når beregninger svinger mye mellom brukere, trenger du mer data for å skille mellom reelle forskjeller og en ren tilfeldighet.

CUPED gjør en kritisk forskjell ved å redusere denne variansen ved hjelp av data før eksperimentet. Dette lar deg oppnå statistisk signifikans med mindre utvalgsstørrelser, og trekke ut tydeligere signaler fra dataene du allerede har i stedet for bare å samle inn mer.

Dette forvandler en smertelig langsom læringssyklus til et mer effektivt eksperimenteringsprogram. Dette er gapet i eksperimenteringseffektivitet som CUPED bidrar til å bygge bro over.

La oss dykke dypere inn i hvor CUPED kom fra og hvordan det fungerer.

Hvordan CUPED gjør eksisterende data om til raskere gevinster

Microsoft Research publiserte en artikkel i 2013 som introduserte CUPED: Controlled-experiment Using Pre-Existing Data.

En statistisk metode som gjør A/B-testene dine mer effektive ved å bruke data du allerede har.

Tidlige brukere hos Microsoft rapporterte betydelige forbedringer i testmulighetene sine. Selskaper som Netflix og Airbnb har siden implementert lignende tilnærminger med imponerende resultater.

Det som gjør CUPED annerledes er dens elegante enkelhet. Den bruker data fra før eksperimentet som en kovariat for å redusere variansen i beregningene dine.

Hvis du vil måle hvordan en ny funksjon påvirker brukerutgiftene, ville det ikke være nyttig å ta hensyn til hvor mye disse brukerne brukte før eksperimentet ditt?

Det er akkurat slik CUPED filtrerer ut støyen, slik at du kan se signalet tydeligere.

Hvordan CUPED faktisk reduserer variansen

For å virkelig forstå CUPEDs verdi, må vi forstå dens nemesis, også kjent som variansen.

Varians er grunnen til at to tilsynelatende identiske brukere kan ha svært forskjellig atferd:

Én bruker 10 dollar på nettstedet ditt
En annen bruker 150 dollar
Og du prøver å oppdage en forbedring på 5 % i gjennomsnittlig ordreverdi

Ser du problemet?

Med naturlig høy varians Målinger som inntekter eller engasjement, små behandlingseffekter blir begravd under fjell av statistisk støy. Det er som å prøve å høre en hvisking på en rockekonsert.

Og her er hvorfor CUPED er effektivt...

CUPED justerer måleverdiene dine basert på historiske data fra de samme brukerne. Hvis bruker A historisk sett bruker 200 dollar og 210 dollar under eksperimentet, mens bruker B historisk sett bruker 20 dollar og 30 dollar under eksperimentet, gjenkjenner CUPED at begge brukerne økte forbruket sitt med omtrent samme prosentandel, til tross for den absolutte forskjellen.

Denne justeringen reduserer variansen ved å normalisere forskjellene mellom brukere, noe som reduserer standardavviket til måleverdien din. Siden konfidensintervaller bruker standardavvik i beregningen, skaper et mindre standardavvik strammere konfidensintervaller – noe som gjør det mer sannsynlig at du oppnår statistisk signifikans med de samme dataene.

Samme data og samme effektstørrelse, men plutselig kan du se det.

Nå som vi forstår hvordan CUPED fungerer, la oss se på hvor det gir størst effekt.

Ikke alle målinger drar like stor nytte av CUPED...

Her er hva du trenger å vite:

1. Spesielle hensyn: Inntektsmålinger

Inntektsmålinger har ofte ekstremt høy varians. Noen brukere kan bruke $5 mens andre bruker $500.

Når det brukes på inntektsmålinger, ser CUPED etter en korrelasjon mellom tidligere utgifter og nåværende utgifter. Dermed vil ikke CUPED være effektivt for nye brukere, der vi ikke har data om tidligere forbruk.

En vanlig implementeringsfeil er å bruke kovariater som påvirkes av behandlingen, noe som kan føre til skjeve resultater. En god praksis er å velge kovariater som måles før eksperimentet starter.

2. Når du skal bruke CUPED

✅ Best for: Numeriske beregninger med høy varians

Disse beregningene ser den største forbedringen med CUPED fordi de vanligvis har:

Høy naturlig varians mellom brukere
Sterk korrelasjon mellom verdier før og under eksperimentet

🚫 Mindre effektiv for: Binær konvertering beregninger

Konverteringsfrekvens (ja/nei)
Klikkfrekvens (klikk/ingen klikk)

Slik slår du av CUPED-bryteren i Optimizely

Optimizely gjør det enkelt å bruke CUPED:

Kompatible beregninger: Fungerer med numeriske beregninger (inntekter, engasjementstall), men ikke binære konverteringsberegninger
Data før eksperimentet: Bruker verdier for målberegningene dine før eksperimentet som kovariater
Støttet i Optimizely Analytics: Funksjoner på Snowflake, BigQuery og Databricks
Implementering: Enkel veksling i eksperimentinnstillinger, ingen komplekse beregninger nødvendig
Datakrav: Trenger historiske data for analyserte beregninger; ingen effekt på nye beregninger uten historikk
Forventet resultat: Reduserer varians, potensielt kutter kravene til utvalgsstørrelse for beregninger korrelert med historisk atferd

Slik ser det ut med og uten CUPED.

Uten CUPED

Bildekilde: Optimizely

Med CUPED er det nå en forskjell i lengden på konfidensintervallet.

Bildekilde: Optimizely

Tre konklusjoner...

fremtiden for eksperimentering handler ikke bare om å kjøre flere tester, det handler om å kjøre smartere tester. CUPED er ditt første skritt i den retningen.

Økt effektivitet: Du har større sjanse for å se betydelige resultater med samme utvalgsstørrelse.
Ikke alle målinger drar like stor nytte av det: Fokuser CUPED-implementeringen på numeriske målinger med høy varians der du vil se de største gevinstene.
Implementeringskompleksiteten varierer: Det finnes forskjellige måter å implementere CUPED på og forskjellige kovariater som kan velges. Optimizelys implementering bruker historiske metriske data som passer til de fleste av kundenes brukstilfeller.

Klar til å kjøre smartere tester?

Start med å identifisere én metrikk med høy varians i eksperimenteringsprogrammet ditt. Kjør en side-ved-side-sammenligning mellom den tradisjonelle analysen din og en CUPED-forbedret test.

Du vil sannsynligvis se strammere konfidensintervaller, tydeligere resultater og potensielt oppnå statistisk signifikans for en test som ellers ville vært ufullstendig.

Veien til mer effektiv eksperimentering begynner med dette enkle trinnet. Ditt fremtidige jeg vil lure på hvordan du noen gang testet uten det.

CUPED: Alt du trenger å vite om teknikker for variansreduksjon for å få mer ut av A/B-testene dine

Effektivitetsgapet i eksperimentering

Hvordan CUPED gjør eksisterende data om til raskere gevinster

Hvordan CUPED faktisk reduserer variansen

Og her er hvorfor CUPED er effektivt...

Ikke alle målinger drar like stor nytte av CUPED...

1. Spesielle hensyn: Inntektsmålinger

2. Når du skal bruke CUPED

Slik slår du av CUPED-bryteren i Optimizely

Tre konklusjoner...