Publicerad 17 april

KUPERAD: Att minska variansen i A/B-testning är inget nytt, men de flesta gör fel

CUPED står för Controlled-experiment Using Pre-Existing Data, ett statistiskt trick för att minska variansen genom att använda historiska användarupplevelser innan testet påbörjas.

Misha Datsenko
av Misha Datsenko
icon

TID...

är orsaken till att bra tester aldrig når statistisk signifikans.

Många A/B-testningar hamnar på kyrkogården för "oklara" resultat, strax under signifikanströskeln. Långsam datainsamling och mätvärden med hög varians gör att det kan vara frustrerande svårt att upptäcka verkliga effekter av omarbetningen av din webbplats eller prisstrategi.

Tänk om du kunde strama åt konfidensintervallen och öka den statistiska styrkan i dina experiment med hjälp av data som du redan har?

Det är där CUPED kommer in i bilden. Det står för Controlled-experiment Using Pre-Existing Data, ett smart statistiskt trick för att minska variansen genom att använda historiska användarupplevelser innan testet påbörjas.

Även om AI kan hjälpa till att generera idéer för tester och analysera resultat, kan det inte lösa kärnproblemet med att behöva tillräckligt med data för att fatta säkra beslut. Men det kan CUPED.

CUPED in action

Bildkälla: Optimizely

Och det bästa av allt? Du kan också använda det! Låt oss se hur. 👇

Effektivitetsgapet för experimentering

Utmaningen med timing av experimentering varierar beroende på bransch:

  • Webbplatser för e-handel kör vanligtvis tester i flera veckor
  • SaaS-produkter kräver ofta längre testperioder
  • Webbplatser för media kan se snabbare resultat på grund av högre trafikvolymer

Och det är om de avslutas överhuvudtaget. Många överges helt enkelt när resultaten förblir ofullständiga.

Varför händer detta? Tre huvudorsaker:

  1. Hög varians i mätdata: Mätvärden för engagemang varierar naturligtvis mycket mellan användare, vilket gör det svårt att upptäcka verkliga effekter.
  2. Begränsad trafik: Inte alla företag är Google. De flesta företag kämpar för att få tillräckligt många användare genom ett experiment.
  3. Möjlighetskostnad: Varje vecka som ett experiment pågår är ytterligare en vecka som du försenar beslut och potentiella förbättringar. Längre experiment innebär färre tester du kan köra inom en given tidsram, vilket saktar ner din övergripande inlärningshastighet och produktutveckling.

Om det tar flera veckor för ett genomsnittligt experiment att nå statistisk signifikans, kräver hög varians i mätvärdena större urvalsstorlekar. När mätvärdena varierar kraftigt mellan olika användare behöver du mer data för att kunna skilja verkliga förbättringar från slumpmässigt brus.

CUPED gör en avgörande skillnad genom att minska denna varians med hjälp av data från före experimentet. Detta gör att du kan uppnå statistisk säkerhet med mindre urvalsstorlekar och extrahera tydligare signaler från de data du redan har istället för att bara samla in mer.

Detta omvandlar en smärtsamt långsam inlärningscykel till ett mer effektivt program för experimentering. Det är detta gap i experimenteringens effektivitet som CUPED hjälper till att överbrygga.

Föreställ dig att du försöker mäta hur en ny webbplats påverkar användarengagemanget.

Möt Sam, en Product Manager på ett e-handelsföretag. Sam har kört ett test av hemsidan i tre veckor, men det når fortfarande inte statistisk signifikans. Trafiken är jämn men konverteringsgraden varierar kraftigt mellan olika användare. Ledningsgruppen börjar bli otålig och ber om resultat.

Här är problemet: Sams mätvärden är för bullriga.

Vissa användare konverterar naturligt till högre priser oavsett vilken variant av test de ser. Denna redan existerande varians gör det svårare att upptäcka den verkliga effekten av Sams designförändringar.

Det är här CUPED gör skillnad. Även med liten trafik eller minimalt lyft hjälper CUPED dig att nå slutsatser snabbare och med större självförtroende.

Det är som att jämföra äpplen med äpplen istället för äpplen med apelsiner, vilket gör att Sam kan se den verkliga effekten av den nya designen med mindre data.

Låt oss dyka djupare in i var CUPED kommer ifrån och hur det fungerar.

Hur CUPED omvandlar dina befintliga data till snabbare vinster

Microsoft Research publicerade ett dokument 2013 som introducerade CUPED: Controlled-experiment Using Pre-Existing Data (kontrollerat experiment med hjälp av befintliga data).

En statistisk metod som gör dina A/B-testningar mer effektiva genom att använda data som du redan har.

Tidiga användare på Microsoft rapporterade betydande förbättringar i sina funktioner för A/A-testning. Företag som Netflix och Airbnb har sedan dess implementerat liknande metoder med imponerande resultat.

Det som gör CUPED annorlunda är dess eleganta enkelhet. Den använder data från före experimentet som en kovariat för att minska variansen i dina mätvärden.

Om du vill mäta hur en ny funktion påverkar användarnas utgifter, skulle det inte vara bra att ta hänsyn till hur mycket dessa användare spenderade före experimentet?

Det är precis så CUPED filtrerar bort bruset så att du kan se signalen tydligare.

För att verkligen uppskatta CUPED:s värde måste vi förstå dess nemesis, varians.

Varians är anledningen till att två till synes identiska användare kan ha helt olika beteenden:

  • En spenderar 10 dollar på din webbplats
  • En annan spenderar 150 dollar
  • Och du försöker upptäcka en 5-procentig förbättring av det genomsnittliga ordervärdet

Förstår du vad problemet är?

Med naturligt höga variansmått som intäkter eller engagemang begravs små behandlingseffekter under berg av statistiskt brus. Det är som att försöka höra en viskning på en rockkonsert.

CUPED fungerar genom att införliva data från före experimentet som en kovariat i din analys.

Det är denna åtstramning av konfidensintervallen som gör CUPED så effektivt. Samma data och samma effektstorlek, men plötsligt kan du se den.

Nu när vi förstår hur CUPED fungerar ska vi titta på var det ger störst effekt.

Alla mätvärden gynnas inte lika mycket av CUPED...

Det här är vad du behöver veta:

1. Särskilda överväganden: Mätetal för intäkter

Intäktsmätningar har ofta extremt hög varians. Vissa användare kanske spenderar 5 USD medan andra spenderar 500 USD.

När du tillämpar CUPED på intäktsmått:

  • Leta efter en korrelation mellan tidigare utgifter och nuvarande utgifter
  • Överväg segmentering av kunder med högt värde och kunder med lågt värde
  • Var försiktig med nya användare som inte har någon utgiftshistorik

Ett vanligt implementeringsmisstag är att använda kovariater som influeras av behandlingen, vilket kan leda till snedvridna resultat. Bästa praxis är att välja kovariater som mäts innan experimentet startar.

2. När ska man använda CUPED

Bäst för: Numeriska mätvärden med hög varians

Dessa mätvärden ser den största förbättringen med CUPED eftersom de typiskt sett har

  • Hög naturlig varians mellan användare
  • Stark korrelation mellan värdena före experimentet och under experimentet

🚫 Mindre effektiv för: Binära mätvärden för konvertering

Så här slår du på CUPED-omkopplaren i Optimizely

Optimizely gör det enkelt att använda CUPED:

  • Kompatibla mätvärden: Fungerar med numeriska mätvärden (intäkter, antal engagemang) men inte med binära mätvärden för konvertering
  • Data från före experimentet: Använder värden före experimentet för dina målgruppsinriktningar som kovariater
  • Stöds i Optimizely Analytics: Funktioner på Snowflake, BigQuery och Databricks
  • Implementering: Enkel växling i inställningarna för experimentet, inga komplexa beräkningar behövs
  • Krav på data: Behöver historiska data för analyserade mätvärden; ingen effekt på nya mätvärden utan historik
  • Förväntat resultat: Minskar variansen, vilket potentiellt kan minska kraven på urvalsstorlek med 30-50% för mätvärden som är korrelerade med historiskt beteende

Så här ser det ut med och utan CUPED.

Utan CUPED

Results without CUPED

Bildkälla: Optimizely

Nu, med CUPED

Results with CUPED

Bildkälla: Optimizely

Tre saker att ta med sig...

Framtiden för experimentering handlar inte bara om att köra fler tester, det handlar om att köra smartare tester. CUPED är ditt första steg i den riktningen.

  1. Ökad effektivitet: Du har större chans att se ett signifikant resultat av en mindre effekt med CUPED.
  2. Alla mätvärden gynnas inte lika mycket: Fokusera CUPED-implementeringen på numeriska mätvärden med hög varians, där du kommer att se de största vinsterna.
  3. Komplexiteten i implementeringen varierar: Moderna plattformar gör CUPED tillgängligt utan statistisk expertis, men att förstå principerna hjälper dig att tillämpa det effektivt.

Är du redo att köra smartare tester?

Börja med att identifiera ett mätvärde med hög varians i ditt program för experimentering. Kör en jämförelse sida vid sida mellan din traditionella analys och ett CUPED-förbättrat test.

Du kommer sannolikt att se snävare konfidensintervall, tydligare resultat och potentiellt nå statistisk signifikans flera dagar tidigare än du annars skulle ha gjort.

Vägen till mer effektiv experimentering börjar med detta enkla steg. Ditt framtida jag kommer att undra hur du någonsin testade utan det.