Hva er CUPED?
CUPED (Controlled-experiment Using Pre-Existing Data) er en statistisk metode som reduserer variansen i A/B-tester, øker sensitiviteten og gjør det lettere å oppdage forskjeller mellom grupper.
CUPED hjelper deg med å kjøre smartere eksperimenter som gir raskere og sikrere konklusjoner. Det innebærer følgende
- Bruk av data fra før-eksperimentet til å skape et mer presist målerammeverk
- Redusere statistisk støy for å avdekke sanne behandlingseffekter
- Oppnå statistisk signifikans med mindre data når det finnes en reell effekt
- Forvandle eksperimentering med høyere presisjon og raskere resultater
Bildekilde: Optimizely
Ledende selskaper som Netflix, Meta og Airbnb bruker CUPED til å øke eksperimentfølsomheten og øke hastigheten på læringssyklusene.
Hvorfor er CUPED viktig?
Ved å implementere CUPED i eksperimenteringsprogrammet ditt kan du
- oppnå statistisk signifikans raskere med mindre utvalgsstørrelser
- Oppdage mindre effekter som tradisjonelle metoder kanskje overser
- Kjøre flere eksperimenter med eksisterende trafikk
- Ta datadrevne beslutninger med større selvtillit
- Overvinne vanlige utfordringer som høy varians i målingene og utilstrekkelig trafikk
CUPED-eksempel
Når det gjelder digitale eksperimenter, er det alltid rom for forbedringer når det gjelder statistisk effektivitet, og de beste selskapene forbedrer stadig testene sine for å få raskere og mer pålitelige resultater.
Tenk at vi tester en annonsekampanje og om den øker inntektene eller ikke:
- Test om en ny annonsekampanje øker kundeinntektene
- 1 000 kunder fordelt på kontroll- og behandlingsgrupper
- Inntektsdata fra før eksperimentet er tilgjengelig for alle kunder
Her er hvordan resultatene sammenlignes.
Tradisjonell A/B-test:
- 8 % inntektsøkning observert
- p-verdi: 0,09 (ikke statistisk signifikant)
Med CUPED:
- Samme inntektsøkning på 8 %
- p-verdi: 0,03 (statistisk signifikant)
- Variansen redusert med 41 %.
CUPED gjør det mulig for teamene å oppdage den samme effekten med samme utvalgsstørrelse ved å ta hensyn til hver kundes forbruksmønster før eksperimentet.
Tradisjonell A/B-test vs. CUPED
Tradisjonell A/B-test | CUPED-forbedret test | |
Data fra før eksperimentet | Ikke brukt | Brukes som kovariat |
Metrisk varians | Høyere | Redusert |
Utvalgsstørrelse | Større nødvendig | Mindre tilstrekkelig |
Hastighet til signifikans | Langsommere | Raskere |
Deteksjon av effekt | Kan overse små forskjeller | Kan avdekke subtile forskjeller |
Slik fungerer CUPED
CUPED forbedrer resultatene av testene dine ved å bruke allerede eksisterende data for å redusere variansen. Dette er hvordan det fungerer:
- Samle inn historiske data: Samle inn tidligere ytelsesdata for utvalgte måleparametere (krever minst to uker med data fra før eksperimentet).
- Bygg en prediktiv modell: Estimer hvordan resultatene ville sett ut hvis ingen endringer ble gjort.
- Juster eksperimentresultatene: Trekk den predikerte baseline fra de observerte resultatene mellom kontroll og varianter.
- Få mer presis innsikt: Ved å redusere den eksisterende variansen øker den statistiske sensitiviteten, og konfidensintervallene blir strammere.
Den tekniske mekanikken innebærer kovariansberegninger og lineær regresjon, men i praksis justerer CUPED automatisk for eksisterende forskjeller mellom brukerne, og fokuserer analysen på endringer som oppstår etter behandlingen.
Bruksområder for CUPED
CUPED kan være nyttig for mange typer eksperimenter, spesielt når det gjelder målinger med høy varians:
- Forbedringer av inntektsmålinger: Mer nøyaktig måling av effekten av endringer på høyvariansberegninger som gjennomsnittlig ordreverdi eller inntekt per bruker.
- Optimalisering av engasjement: Oppdag meningsfulle forskjeller i brukerengasjementsmålinger som økttid eller sidevisninger med mindre data.
- Håndtering av forholdstall: Forbedre presisjonen i beregninger som varer per ordre, klikk per bruker med teller/nevner-struktur.
- Analyse av segmenter med lav trafikk: Øk den statistiske styrken når du analyserer brukersegmenter med begrensede data, noe som gjør det mulig å kjøre meningsfulle eksperimenter på spesifikke kundekohorter som ellers ville krevd uoverkommelig store utvalgsstørrelser.
CUPED-implementering
Optimizely gjør det enkelt å aktivere CUPED for eksperimentene dine.
Når du implementerer CUPED:
- Kompatible beregninger: Fungerer bare med numeriske beregninger (inntekter, antall engasjementer osv.) i stedet for binære konverteringsberegninger.
- Data fra før eksperimentet: Kun beregninger av de primære og sekundære målverdiene før eksperimentet brukes som kovariater
- Plattformstøtte: Funksjoner på store datalagre, inkludert Snowflake, BigQuery og Databricks.
- Implementeringstrinn: Aktiveres vanligvis ved hjelp av en enkel veksling i grensesnittet for eksperimentkonfigurasjon, og krever ingen komplekse statistiske beregninger fra brukeren.
- Krav til data: Krever data fra før eksperimentet for de beregningene som skal analyseres; har ingen effekt på nyopprettede beregninger uten historiske data.
- Forventet resultat: Kan redusere variansen i eksperimentresultatene betydelig, og potensielt redusere kravene til utvalgsstørrelse med 30-50 % for beregninger med sterk korrelasjon til historisk atferd.
Slik ser det ut med og uten CUPED.
Uten CUPED
Bildekilde: Optimizely
Med CUPED
Bildekilde: Optimizely
Beste praksis for CUPED
Følg disse beste fremgangsmåtene når du implementerer CUPED:
- Velg de riktige måleparameterne: CUPED fungerer best med numeriske beregninger med høy varians som viser en korrelasjon mellom periodene før og etter eksperimentet.
- Sørg for tilstrekkelig med historiske data: Minst to uker med data fra før eksperimentet er nødvendig for effektiv variansreduksjon.
- Overvåk datakvaliteten: Sørg for konsekvent sporing før og under eksperimentet.
- Kjenn til grensene: CUPED hjelper kanskje ikke med nye funksjoner, beregninger med lav pre/post-korrelasjon eller utilstrekkelige historiske data.
- Kombiner med andre teknikker: For å få maksimalt utbytte bør du bruke CUPED sammen med riktig eksperimentell design og beregning av utvalgsstørrelse.
Det er imidlertid ikke alle måleparametere som har like stor nytte av CUPED...
Selv om CUPED er effektiv, varierer effektiviteten etter type måling:
- Mest effektiv for: Inntekt per bruker, øktvarighet, varer per bestilling og andre numeriske beregninger med høy varians
- Mindre effektiv for: Binære konverteringsmålinger (støttes for øyeblikket ikke i Optimizelys implementering)
- Krever vurdering: Målinger som opplever sesongmessige svingninger eller påvirkes av eksterne faktorer
For å oppsummere...
Ved å redusere variansen og øke den statistiske styrken bidrar CUPED til å frigjøre det fulle potensialet i eksperimenteringsprogrammer.
Takeaways:
- Oppdag resultater raskere: Filtrer bort støy, og avdekk viktige forskjeller mellom testgruppene.
- Minimer skjevheter i eksperimentet: Balanser testgruppene ved hjelp av eksisterende data.
- Kjør smartere tester: Nå konklusjoner raskere med mindre data.
- Stol på resultatene dine: Få tydeligere, datastøttet innsikt.
Forbedre eksperimentene dine med Optimizelys CUPED-funksjoner, og bli en av de datadrevne organisasjonene som tar smartere beslutninger på kortere tid.