Bildekilde: Optimizely
Og det beste av alt? Du kan også bruke det! La oss se hvordan. 👇
Effektivitetsgapet i eksperimentering
Utfordringen med timing av eksperimentering varierer fra bransje til bransje:
- E-handelsnettsteder kjører vanligvis tester i flere uker
- SaaS-produkter krever ofte lengre testperioder
- Mediesider kan se raskere resultater på grunn av høyere trafikkvolumer
Og det er hvis de i det hele tatt konkluderer. Mange blir rett og slett forlatt når resultatene forblir ufullstendige.
Hvorfor skjer dette? Tre hovedgrunner:
- Stor variasjon i måledata: Engasjementsmålinger varierer naturlig nok mye mellom brukere, noe som gjør det vanskelig å se de virkelige effektene.
- Begrenset trafikk: Ikke alle selskaper er Google. De fleste bedrifter sliter med å få nok brukere gjennom et eksperiment.
- Alternativkostnad: Hver uke et eksperiment kjører er nok en uke der du utsetter beslutninger og potensielle forbedringer. Lengre eksperimenter betyr færre tester du kan kjøre i en gitt tidsramme, noe som reduserer den totale læringshastigheten og produktutviklingen.
Høy varians i en beregning krever en større utvalgsstørrelse for å nå statistisk signifikans, noe som kan ta uker med tanke på besøkstrafikken. Når beregninger svinger mye mellom brukere, trenger du mer data for å skille mellom reelle forskjeller og en ren tilfeldighet.
CUPED gjør en kritisk forskjell ved å redusere denne variansen ved hjelp av data før eksperimentet. Dette lar deg oppnå statistisk signifikans med mindre utvalgsstørrelser, og trekke ut tydeligere signaler fra dataene du allerede har i stedet for bare å samle inn mer.
Dette forvandler en smertelig langsom læringssyklus til et mer effektivt eksperimenteringsprogram. Dette er gapet i eksperimenteringseffektivitet som CUPED bidrar til å bygge bro over.
La oss dykke dypere inn i hvor CUPED kom fra og hvordan det fungerer.
Hvordan CUPED gjør eksisterende data om til raskere gevinster
Microsoft Research publiserte en artikkel i 2013 som introduserte CUPED: Controlled-experiment Using Pre-Existing Data.
En statistisk metode som gjør A/B-testene dine mer effektive ved å bruke data du allerede har.
Tidlige brukere hos Microsoft rapporterte betydelige forbedringer i testmulighetene sine. Selskaper som Netflix og Airbnb har siden implementert lignende tilnærminger med imponerende resultater.
Det som gjør CUPED annerledes er dens elegante enkelhet. Den bruker data fra før eksperimentet som en kovariat for å redusere variansen i beregningene dine.
Hvis du vil måle hvordan en ny funksjon påvirker brukerutgiftene, ville det ikke være nyttig å ta hensyn til hvor mye disse brukerne brukte før eksperimentet ditt?
Det er akkurat slik CUPED filtrerer ut støyen, slik at du kan se signalet tydeligere.
Hvordan CUPED faktisk reduserer variansen
For å virkelig forstå CUPEDs verdi, må vi forstå dens nemesis, også kjent som variansen.
Varians er grunnen til at to tilsynelatende identiske brukere kan ha svært forskjellig atferd:
- Én bruker 10 dollar på nettstedet ditt
- En annen bruker 150 dollar
- Og du prøver å oppdage en forbedring på 5 % i gjennomsnittlig ordreverdi
Ser du problemet?
Med naturlig høy varians Målinger som inntekter eller engasjement, små behandlingseffekter blir begravd under fjell av statistisk støy. Det er som å prøve å høre en hvisking på en rockekonsert.
Og her er hvorfor CUPED er effektivt...
CUPED justerer måleverdiene dine basert på historiske data fra de samme brukerne. Hvis bruker A historisk sett bruker 200 dollar og 210 dollar under eksperimentet, mens bruker B historisk sett bruker 20 dollar og 30 dollar under eksperimentet, gjenkjenner CUPED at begge brukerne økte forbruket sitt med omtrent samme prosentandel, til tross for den absolutte forskjellen.
Denne justeringen reduserer variansen ved å normalisere forskjellene mellom brukere, noe som reduserer standardavviket til måleverdien din. Siden konfidensintervaller bruker standardavvik i beregningen, skaper et mindre standardavvik strammere konfidensintervaller – noe som gjør det mer sannsynlig at du oppnår statistisk signifikans med de samme dataene.
Samme data og samme effektstørrelse, men plutselig kan du se det.
Nå som vi forstår hvordan CUPED fungerer, la oss se på hvor det gir størst effekt.
Ikke alle målinger drar like stor nytte av CUPED...
Her er hva du trenger å vite:
1. Spesielle hensyn: Inntektsmålinger
Inntektsmålinger har ofte ekstremt høy varians. Noen brukere kan bruke $5 mens andre bruker $500.
Når det brukes på inntektsmålinger, ser CUPED etter en korrelasjon mellom tidligere utgifter og nåværende utgifter. Dermed vil ikke CUPED være effektivt for nye brukere, der vi ikke har data om tidligere forbruk.
En vanlig implementeringsfeil er å bruke kovariater som påvirkes av behandlingen, noe som kan føre til skjeve resultater. En god praksis er å velge kovariater som måles før eksperimentet starter.
2. Når du skal bruke CUPED
✅ Best for: Numeriske beregninger med høy varians
Disse beregningene ser den største forbedringen med CUPED fordi de vanligvis har:
- Høy naturlig varians mellom brukere
- Sterk korrelasjon mellom verdier før og under eksperimentet
🚫 Mindre effektiv for: Binær konvertering beregninger
Slik slår du av CUPED-bryteren i Optimizely
Optimizely gjør det enkelt å bruke CUPED:
- Kompatible beregninger: Fungerer med numeriske beregninger (inntekter, engasjementstall), men ikke binære konverteringsberegninger
- Data før eksperimentet: Bruker verdier for målberegningene dine før eksperimentet som kovariater
- Støttet i Optimizely Analytics: Funksjoner på Snowflake, BigQuery og Databricks
- Implementering: Enkel veksling i eksperimentinnstillinger, ingen komplekse beregninger nødvendig
- Datakrav: Trenger historiske data for analyserte beregninger; ingen effekt på nye beregninger uten historikk
- Forventet resultat: Reduserer varians, potensielt kutter kravene til utvalgsstørrelse for beregninger korrelert med historisk atferd
Slik ser det ut med og uten CUPED.
Uten CUPED