Varför dina A/B-tester misslyckas och hur CUPED löser det

Bildkälla: Optimizely

Och det bästa? Du kan också använda det! Låt oss se hur. 👇

Effektivitetsgapet i experiment

Utmaningen med tidpunkten för experiment varierar beroende på bransch:

E-handelswebbplatser kör vanligtvis tester i flera veckor
SaaS-produkter kräver ofta längre testperioder
Mediewebbplatser kan se snabbare resultat på grund av högre trafikvolymer

Och det är om de ens avslutar. Många överges helt enkelt när resultaten förblir ofullständiga.

Varför händer detta? Tre huvudskäl:

Hög varians i mätvärden: Engagemangsmätvärden fluktuerar naturligtvis mycket mellan användare, vilket gör det svårt att upptäcka verkliga effekter.
Begränsad trafik: Inte alla företag är Google. De flesta företag kämpar för att få tillräckligt många användare genom ett experiment.
Alternativkostnad: Varje vecka som ett experiment körs är ytterligare en vecka då du försenar beslut och potentiella förbättringar. Längre experiment innebär färre tester du kan köra inom en given tidsram, vilket saktar ner din totala inlärningshastighet och produktutveckling.

Hög varians i ett mätvärde kräver en större urvalsstorlek för att nå statistisk signifikans, vilket kan ta veckor med tanke på besökstrafiken. När mätvärden varierar kraftigt mellan användare behöver du mer data för att skilja verklig skillnad från en ren slump.

CUPED gör en avgörande skillnad genom att minska denna varians med hjälp av data före experimentet. Detta gör att du kan nå statistisk signifikans med mindre urvalsstorlekar och extrahera tydligare signaler från de data du redan har istället för att bara samla in mer.

Detta omvandlar en smärtsamt långsam inlärningscykel till ett mer effektivt experimentprogram. Det här är skillnaden i experimenteffektivitet som CUPED hjälper till att överbrygga.

Låt oss dyka djupare in i var CUPED kommer ifrån och hur det fungerar.

Hur CUPED förvandlar dina befintliga data till snabbare vinster

Microsoft Research publicerade en artikel 2013 som introducerade CUPED: Controlled-experiment Using Pre-Existing Data.

En statistisk metod som gör dina A/B-tester mer effektiva genom att använda data du redan har.

Tidiga användare hos Microsoft rapporterade betydande förbättringar i sina testmöjligheter. Företag som Netflix och Airbnb har sedan dess implementerat liknande metoder med imponerande resultat.

Det som gör CUPED annorlunda är dess eleganta enkelhet. Den använder data före experimentet som en kovariat för att minska variansen i dina mätvärden.

Om du vill mäta hur en ny funktion påverkar användarnas utgifter, skulle det inte vara bra att ta hänsyn till hur mycket dessa användare spenderade före ditt experiment?

Det är precis så CUPED filtrerar bort bruset så att du kan se signalen tydligare.

Hur CUPED faktiskt minskar variansen

För att verkligen uppskatta CUPEDs värde måste vi förstå dess nemesis, även kallad varians.

Varians är anledningen till att två till synes identiska användare kan ha väldigt olika beteenden:

En spenderar 10 dollar på din webbplats
En annan spenderar 150 dollar
Och du försöker upptäcka en förbättring på 5 % i genomsnittligt ordervärde

Ser du problemet?

Med naturligt hög varians mätvärden som intäkter eller engagemang, små behandlingseffekter begravs under berg av statistiskt brus. Det är som att försöka höra en viskning på en rockkonsert.

Och här är varför CUPED är effektivt...

CUPED justerar dina mätvärden baserat på historisk data från samma användare. Om användare A historiskt sett spenderar 200 dollar och 210 dollar under ditt experiment, medan användare B historiskt sett spenderar 20 dollar och 30 dollar under ditt experiment, identifierar CUPED att båda användarna ökade sina utgifter med ungefär samma procentandel, trots den absoluta skillnaden.

Denna justering minskar variansen genom att normalisera skillnaderna mellan användare, vilket minskar standardavvikelsen för ditt mätvärde. Eftersom konfidensintervall använder standardavvikelse i sin beräkning, skapar en mindre standardavvikelse snävare konfidensintervall – vilket gör det mer sannolikt att du når statistisk signifikans med samma data.

Samma data och samma effektstorlek, men plötsligt kan du se det.

Nu när vi förstår hur CUPED fungerar, låt oss titta på var det ger störst effekt.

Inte alla mätvärden gynnas lika mycket av CUPED...

Här är vad du behöver veta:

1. Särskilda överväganden: Intäktsmått

Intäktsmått har ofta extremt hög varians. Vissa användare kan spendera 5 dollar medan andra spenderar 500 dollar.

När CUPED tillämpas på intäktsmått letar det efter en korrelation mellan tidigare utgifter och nuvarande utgifter. CUPED kommer därför inte att vara effektivt för nya användare, där vi inte har data om tidigare utgifter.

Ett vanligt implementeringsmisstag är att använda kovariater som påverkas av behandlingen, vilket kan leda till snedvridna resultat. En bästa praxis är att välja kovariater som mäts innan experimentet startar.

2. När man ska använda CUPED

✅ Bäst för: Numeriska mätvärden med hög varians

Dessa mätvärden ser den största förbättringen med CUPED eftersom de vanligtvis har:

Hög naturlig varians mellan användare
Stark korrelation mellan värden före och under experimentet

🚫 Mindre effektivt för: Binär konvertering mätvärden

Konverteringsfrekvens (ja/nej)
Klickfrekvens (klick/inget klick)

Hur man byter CUPED-omkopplaren i Optimizely

Optimizely gör det enkelt att använda CUPED:

Kompatibla mätvärden: Fungerar med numeriska mätvärden (intäkter, engagemangsräkningar) men inte binära konverteringsmätvärden
Data före experimentet: Använder värden före experimentet för dina målmätvärden som kovariater
Stöds i Optimizely Analytics: Funktioner på Snowflake, BigQuery och Databricks
Implementering: Enkel växling i experimentinställningar, inga komplexa beräkningar behövs
Datakrav: Behöver historisk data för analyserade mätvärden; ingen effekt på nya mätvärden utan historik
Förväntat resultat: Minskar variansen, vilket potentiellt minskar kraven på urvalsstorlek för mätvärden korrelerade med historiskt beteende

Så här ser det ut med och utan CUPED.

Utan CUPED

Bildkälla: Optimizely

Tre slutsatser...

Framtiden för experimenterande handlar inte bara om att köra fler tester, det handlar om att köra smartare tester. CUPED är ditt första steg i den riktningen.

Ökad effektivitet: Du har större chans att se signifikanta resultat med samma urvalsstorlek.
Alla mätvärden gynnas inte lika mycket: Fokusera CUPED-implementeringen på numeriska mätvärden med hög varians där du ser de största vinsterna.
Implementeringens komplexitet varierar: Det finns olika sätt att implementera CUPED och olika kovariater som kan väljas. Optimizelys implementering använder historiska mätvärden som passar majoriteten av våra kunders användningsfall.

Redo att köra smartare tester?

Börja med att identifiera ett mätvärde med hög varians i ditt experimentprogram. Kör en sida-vid-sida-jämförelse mellan din traditionella analys och ett CUPED-förbättrat test.

Du kommer sannolikt att se snävare konfidensintervall, tydligare resultat och potentiellt nå statistisk signifikans för ett test som annars skulle ha varit ofullständigt.

Vägen till mer effektiva experiment börjar med detta enkla steg. Ditt framtida jag kommer att undra hur du någonsin testat utan det.

CUPED: Allt du behöver veta om tekniker för variansreducering för att få ut mer av dina A/B-tester