CUPED

CUPED (Controlled-experiment Using Pre-Existing Data) er en statistisk metode som reduserer varians i A/B-tester, forbedrer følsomheten og gjør det enklere å oppdage forskjeller mellom grupper.

Hva er CUPED?

CUPED (Controlled-experiment Using Pre-Existing Data) er en statistisk metode som reduserer varians i A/B-tester, forbedrer følsomheten og gjør det enklere å oppdage forskjeller mellom grupper.

CUPED hjelper deg med å kjøre smartere eksperimenter som når konklusjoner raskere og med større sikkerhet. Det innebærer:

  • Bruk av data fra før eksperimentet for å skape et mer presist målerammeverk
  • Reduksjon av statistisk støy for å avdekke reelle behandlingseffekter
  • Oppnåelse av statistisk signifikans med mindre data når det finnes en reell effekt
  • Transformasjon av eksperimentering med høyere presisjon og raskere resultater
CUPED i praksis

Bildekilde: Optimizely

Ledende selskaper som Netflix, Meta og Airbnb bruker CUPED for å øke eksperimentfølsomheten og fremskynde læringssykluser.

Hvorfor er CUPED viktig?

Ved å implementere CUPED i eksperimenteringsprogrammet ditt kan du:

  • Nå statistisk signifikans raskere med mindre utvalgsstørrelser
  • Oppdage mindre effekter som tradisjonelle metoder kan overse
  • Kjøre flere eksperimenter med den eksisterende trafikken din
  • Ta datadrevne beslutninger med større sikkerhet
  • Overvinne vanlige utfordringer som høy metrikkvarians og utilstrekkelig trafikk

CUPED-eksempel

I digital eksperimentering er det alltid rom for forbedring av statistisk effektivitet, og de beste selskapene forbedrer kontinuerlig testkapasiteten sin for å oppnå raskere og mer pålitelige resultater.

Tenk deg at vi tester en annonsekampanje og om den øker inntektene eller ikke:

  • Teste om en ny annonsekampanje øker kundeinntektene
  • 1000 kunder fordelt mellom kontroll- og behandlingsgrupper
  • Inntektsdata fra før eksperimentet tilgjengelig for alle kunder

Slik ser resultatene ut i sammenligning.

Tradisjonell A/B-testing:

  • 8 % inntektsøkning observert
  • p-verdi: 0,09 (ikke statistisk signifikant)

Med CUPED:

  • Samme 8 % inntektsøkning
  • p-verdi: 0,03 (statistisk signifikant)
  • Varians redusert med 41 %

CUPED gjør det mulig for team å trygt oppdage den samme effekten med samme utvalgsstørrelse ved å ta hensyn til hver kundes forbruksmønster fra før eksperimentet.

Tradisjonell A/B-testing vs. CUPED

  Tradisjonell A/B-testing CUPED-forbedret testing
Data fra før eksperimentet Ikke brukt Brukt som kovariat
Metrikkvarians Høyere Redusert
Utvalgsstørrelse Større nødvendig Mindre tilstrekkelig
Tid til signifikans Langsommere Raskere
Effektdeteksjon Kan overse små forskjeller Kan avdekke subtile forskjeller

Slik fungerer CUPED

CUPED forbedrer testresultatene dine ved å bruke eksisterende data for å redusere varians. Slik fungerer det:

  1. Samle inn historiske data: Hent tidligere ytelsesdata for utvalgte metrikker (krever minst to ukers data fra før eksperimentet).
  2. Bygg en prediktiv modell: Estimer hvordan resultatene ville sett ut uten endringer.
  3. Juster eksperimentresultatene: Trekk den predikerte grunnlinjen fra de observerte resultatene mellom kontroll og varianter.
  4. Få mer presise innsikter: Reduksjon av eksisterende varians øker statistisk følsomhet og strammer inn konfidensintervallene.

De tekniske mekanismene involverer kovariansberegninger og lineær regresjon, men i praksis justerer CUPED automatisk for eksisterende forskjeller mellom brukere og fokuserer analysen på endringer som skjer etter behandlingen.

Bruksområder for CUPED

CUPED kan være nyttig for mange typer eksperimenter, spesielt metrikker med høy varians:

  • Forbedring av inntektsmetrikker: Mål effekten av endringer på metrikker med høy varians som gjennomsnittlig ordreverdi eller inntekt per bruker mer nøyaktig.
  • Engasjementsoptimalisering: Oppdag meningsfulle forskjeller i engasjementsmetrikker som økttid eller sidevisninger med mindre data.
  • Håndtering av forholdstallsmetrikker: Forbedre presisjonen til metrikker som varer per ordre eller klikk per bruker med teller/nevner-struktur.
  • Analyse av segmenter med lav trafikk: Øk statistisk styrke ved analyse av brukersegmenter med begrensede data, slik at det blir mulig å kjøre meningsfulle eksperimenter på spesifikke kundekohorter som ellers ville krevd uoverkommelig store utvalgsstørrelser.

Implementering av CUPED

Optimizely gjør det enkelt å aktivere CUPED for eksperimentene dine.

Ved implementering av CUPED:

  • Kompatible metrikker: Fungerer kun med numeriske metrikker (inntekt, engasjementstall osv.) og ikke med binære konverteringsmetrikker.
  • Data fra før eksperimentet: Kun beregninger fra før eksperimentet av de primære og sekundære målemetrikker brukes som kovariater.
  • Plattformstøtte: Fungerer på store datavarehus, inkludert Snowflake, BigQuery og Databricks.
  • Implementeringstrinn: Aktiveres vanligvis via en enkel bryter i grensesnittet for eksperimentkonfigurasjon, uten behov for komplekse statistiske beregninger fra brukeren.
  • Datakrav: Krever data fra før eksperimentet for metrikkene som analyseres; har ingen effekt på nyopprettede metrikker uten historiske data.
  • Forventet resultat: Kan redusere variansen i eksperimentresultater betydelig, og potensielt kutte krav til utvalgsstørrelse med 30–50 % for metrikker med sterk korrelasjon til historisk atferd.

Slik ser det ut med og uten CUPED.

Uten CUPED

Uten CUPED

Bildekilde: Optimizely

Med CUPED

Med CUPED

Bildekilde: Optimizely

Beste praksis for CUPED

Følg disse beste praksisene ved implementering av CUPED:

  1. Velg riktige metrikker: CUPED fungerer best med numeriske metrikker med høy varians som viser korrelasjon mellom perioden før og etter eksperimentet.
  2. Sørg for tilstrekkelige historiske data: Minst to ukers data fra før eksperimentet er nødvendig for effektiv variansreduksjon.
  3. Overvåk datakvaliteten: Sørg for konsistent sporing før og under eksperimentet.
  4. Kjenn begrensningene: CUPED hjelper kanskje ikke med nye funksjoner, metrikker med lav pre/post-korrelasjon eller utilstrekkelige historiske data.
  5. Kombiner med andre teknikker: For maksimal nytte, bruk CUPED sammen med riktig eksperimentdesign og beregning av utvalgsstørrelse.

Ikke alle metrikker drar imidlertid like stor nytte av CUPED...

Selv om CUPED er kraftig, varierer effektiviteten etter metrikktype:

  • Mest effektivt for: Inntekt per bruker, økttid, varer per ordre og andre numeriske metrikker med høy varians
  • Mindre effektivt for: Binære konverteringsmetrikker (for øyeblikket ikke støttet i Optimizelys implementering)
  • Krever vurdering: Metrikker som opplever sesongmessige svingninger eller påvirkes av eksterne faktorer

Oppsummering...

Ved å redusere varians og øke statistisk styrke hjelper CUPED med å utnytte det fulle potensialet i eksperimenteringsprogrammer.

Hovedpunkter:

  • Oppdag resultater raskere: Filtrer ut støy og avdekk viktige forskjeller mellom testgrupper.
  • Minimer eksperimentskjevhet: Balanser testgrupper ved hjelp av eksisterende data.
  • Kjør smartere tester: Nå konklusjoner raskere med mindre data.
  • Stol på resultatene dine: Få klarere, datadrevne innsikter.

Forbedre eksperimenteringen din med Optimizelys CUPED-funksjoner og bli en del av de datadrevne organisasjonene som tar smartere beslutninger på kortere tid.