Bildkälla: Optimizely
Och det bästa? Du kan också använda det! Låt oss se hur. 👇
Effektivitetsgapet i experiment
Utmaningen med tidpunkten för experiment varierar beroende på bransch:
- E-handelswebbplatser kör vanligtvis tester i flera veckor
- SaaS-produkter kräver ofta längre testperioder
- Mediewebbplatser kan se snabbare resultat på grund av högre trafikvolymer
Och det är om de ens avslutar. Många överges helt enkelt när resultaten förblir ofullständiga.
Varför händer detta? Tre huvudskäl:
- Hög varians i mätvärden: Engagemangsmätvärden fluktuerar naturligtvis mycket mellan användare, vilket gör det svårt att upptäcka verkliga effekter.
- Begränsad trafik: Inte alla företag är Google. De flesta företag kämpar för att få tillräckligt många användare genom ett experiment.
- Alternativkostnad: Varje vecka som ett experiment körs är ytterligare en vecka då du försenar beslut och potentiella förbättringar. Längre experiment innebär färre tester du kan köra inom en given tidsram, vilket saktar ner din totala inlärningshastighet och produktutveckling.
Hög varians i ett mätvärde kräver en större urvalsstorlek för att nå statistisk signifikans, vilket kan ta veckor med tanke på besökstrafiken. När mätvärden varierar kraftigt mellan användare behöver du mer data för att skilja verklig skillnad från en ren slump.
CUPED gör en avgörande skillnad genom att minska denna varians med hjälp av data före experimentet. Detta gör att du kan nå statistisk signifikans med mindre urvalsstorlekar och extrahera tydligare signaler från de data du redan har istället för att bara samla in mer.
Detta omvandlar en smärtsamt långsam inlärningscykel till ett mer effektivt experimentprogram. Det här är skillnaden i experimenteffektivitet som CUPED hjälper till att överbrygga.
Låt oss dyka djupare in i var CUPED kommer ifrån och hur det fungerar.
Hur CUPED förvandlar dina befintliga data till snabbare vinster
Microsoft Research publicerade en artikel 2013 som introducerade CUPED: Controlled-experiment Using Pre-Existing Data.
En statistisk metod som gör dina A/B-tester mer effektiva genom att använda data du redan har.
Tidiga användare hos Microsoft rapporterade betydande förbättringar i sina testmöjligheter. Företag som Netflix och Airbnb har sedan dess implementerat liknande metoder med imponerande resultat.
Det som gör CUPED annorlunda är dess eleganta enkelhet. Den använder data före experimentet som en kovariat för att minska variansen i dina mätvärden.
Om du vill mäta hur en ny funktion påverkar användarnas utgifter, skulle det inte vara bra att ta hänsyn till hur mycket dessa användare spenderade före ditt experiment?
Det är precis så CUPED filtrerar bort bruset så att du kan se signalen tydligare.
Hur CUPED faktiskt minskar variansen
För att verkligen uppskatta CUPEDs värde måste vi förstå dess nemesis, även kallad varians.
Varians är anledningen till att två till synes identiska användare kan ha väldigt olika beteenden:
- En spenderar 10 dollar på din webbplats
- En annan spenderar 150 dollar
- Och du försöker upptäcka en förbättring på 5 % i genomsnittligt ordervärde
Ser du problemet?
Med naturligt hög varians mätvärden som intäkter eller engagemang, små behandlingseffekter begravs under berg av statistiskt brus. Det är som att försöka höra en viskning på en rockkonsert.
Och här är varför CUPED är effektivt...
CUPED justerar dina mätvärden baserat på historisk data från samma användare. Om användare A historiskt sett spenderar 200 dollar och 210 dollar under ditt experiment, medan användare B historiskt sett spenderar 20 dollar och 30 dollar under ditt experiment, identifierar CUPED att båda användarna ökade sina utgifter med ungefär samma procentandel, trots den absoluta skillnaden.
Denna justering minskar variansen genom att normalisera skillnaderna mellan användare, vilket minskar standardavvikelsen för ditt mätvärde. Eftersom konfidensintervall använder standardavvikelse i sin beräkning, skapar en mindre standardavvikelse snävare konfidensintervall – vilket gör det mer sannolikt att du når statistisk signifikans med samma data.
Samma data och samma effektstorlek, men plötsligt kan du se det.
Nu när vi förstår hur CUPED fungerar, låt oss titta på var det ger störst effekt.
Inte alla mätvärden gynnas lika mycket av CUPED...
Här är vad du behöver veta:
1. Särskilda överväganden: Intäktsmått
Intäktsmått har ofta extremt hög varians. Vissa användare kan spendera 5 dollar medan andra spenderar 500 dollar.
När CUPED tillämpas på intäktsmått letar det efter en korrelation mellan tidigare utgifter och nuvarande utgifter. CUPED kommer därför inte att vara effektivt för nya användare, där vi inte har data om tidigare utgifter.
Ett vanligt implementeringsmisstag är att använda kovariater som påverkas av behandlingen, vilket kan leda till snedvridna resultat. En bästa praxis är att välja kovariater som mäts innan experimentet startar.
2. När man ska använda CUPED
✅ Bäst för: Numeriska mätvärden med hög varians
Dessa mätvärden ser den största förbättringen med CUPED eftersom de vanligtvis har:
- Hög naturlig varians mellan användare
- Stark korrelation mellan värden före och under experimentet
🚫 Mindre effektivt för: Binär konvertering mätvärden
Hur man byter CUPED-omkopplaren i Optimizely
Optimizely gör det enkelt att använda CUPED:
- Kompatibla mätvärden: Fungerar med numeriska mätvärden (intäkter, engagemangsräkningar) men inte binära konverteringsmätvärden
- Data före experimentet: Använder värden före experimentet för dina målmätvärden som kovariater
- Stöds i Optimizely Analytics: Funktioner på Snowflake, BigQuery och Databricks
- Implementering: Enkel växling i experimentinställningar, inga komplexa beräkningar behövs
- Datakrav: Behöver historisk data för analyserade mätvärden; ingen effekt på nya mätvärden utan historik
- Förväntat resultat: Minskar variansen, vilket potentiellt minskar kraven på urvalsstorlek för mätvärden korrelerade med historiskt beteende
Så här ser det ut med och utan CUPED.
Utan CUPED