Dr. Sourobh Ghosh
Economist at Amazon/Audible
Sättet du driver ditt program för A/B-testning och experimentering har en enorm effekt på vad du får - både när det gäller att optimera upplevelser och ROI.
Den här rapporten är fullspäckad med data från 127 000 experiment - med insikter, tekniker och exempel som gör praktiker till mästare.
Dyk in för att börja läsa The Evolution of Experimentering research.
Experimentering är aldrig lätt. Utövare står ständigt inför nya, betydande utmaningar; lägre upplyft, nedbantade team och ett missriktat fokus på vinstnivåer (som är låga).
Så hur kan utövarna göra bättre ifrån sig? Vad är det som gör tester framgångsrika? Hur uppnås affärsresultat?
Vi var angelägna om att ge djupare svar på dessa frågor och mer därtill, så vi tittade på flera års program för experimentering i olika branscher och programmognadsnivåer. Teamen körde fler experiment, förbättrade processer och minskade flaskhalsar, men deras upplevelser såg fortfarande inte högre upplyft.
Naturligtvis gjorde en mängd faktorer det svårt att avgöra varför upplyftningarna inte förändrades, men baserat på vad vi såg under hela vår studie finns det utrymme för förbättringar när det gäller vilka saker företag väljer att experimentera med för att få mätbar effekt.
Vi pratar mer om detta i slutsatserna nedan.
Insikterna finns här. Men varifrån?
EN TITT IN I UTVECKLINGEN AV EXPERIMENTERING
Det är mer fokuserat på variationer, velocity och uplifts, inte bara win rate
vinnerinte.
av experimenten testar mer än en variant.
av företagen genomför mer än 500 experiment per år.
förväntad effekt drivet av personaliserade experiment.
Här framträdde ett mönster: Det finns en betydande skillnad mellan förståelsen av experimentering och de faktiska resultaten av den.
88% av testerna vinner inte. Det här är viktigt, men vi ser mycket fokus på huruvida ett experiment "vann" eller "förlorade". Enbart vinstfrekvensen är utan tvekan ett fåfängt mått. Du kan göra många små, mycket säkra förändringar, eller så kan du spendera ett halvt år på att undersöka ett experiment som sannolikt kommer att vinna. Ja, du kanske får ett vinnande resultat, men du kommer fortfarande inte att se betydande upplyftningar eller överdriven avkastning. Vi fann att fokus bör ligga på den övergripande effekten, där vinstfrekvensen mäts tillsammans med genomsnittlig upplyftning per vinnare, lanseringshastighet och tid till resultat.
Mindre än 10% av experimenten testar 4 eller fler variationer, men ser 2x effekt. Samtidigt har dessa experiment mer än dubbelt så stor effekt jämfört med A/B-testning. Det belyser en annan koppling: Folk pratar om A/B-testning hela tiden; det handlar om två variationer, A-versionen och B-versionen. Det visar sig att data avslöjar att det är en av de lägst presterande metoderna för experimentering . Enkel lösning:lägg bara till fler variationer i dina tester!
Låt oss lära oss mer om tillståndet för experimentering i nästa del.
KAPITEL 1: EXPERIMENTERINGENS TILLSTÅND
Cirka 12% av experimenten vinner på det primära måttet. De når statistisk signifikans. De återstående 88% kombinerar både icke-vinnare och ofullständiga tester. Det låter kanske lite negativt, men det är det inte.
Nu vet du vad som fungerade och vad du bara antog fungerade. I en värld utan experimentering skulle du ha rullat ut den funktionen eller funktionaliteten. Men här får du eliminera funktioner som skadar ditt företag. Dessutom kan du identifiera områden som dina kunder inte bryr sig om för att minimera ytterligare tid och resurser som spenderas på dessa områden.
De ofullständiga testerna som varken var en vinnare eller en förlorare är också fortfarande värdefulla. Du vet att du inte har identifierat något som du kan rulla ut och få värde av omedelbart. Du har inte minskat en risk, men du har ändå lärt dig att det finns något i din funktionalitet som kunderna inte bryr sig om, och det är fortfarande användbart för att mata in i framtida hypoteser.
Så du förlorar inte på alla experiment som inte vinner. Dessa siffror är i linje med liknande statistik som publiceras av företag som Google, Airbnb, Microsoft, Netflix med flera. I genomsnitt rapporterar de också en vinstnivå på 10 till 20 procent.
Medianföretaget genomför 34 experiment per år. De bästa 3% av företagen genomför över 500. För att vara bland de 10% bästa måste du köra 200 experiment per år.
Företagen ökar testningen snabbt från lanseringen och ökar hastigheten med i genomsnitt 20% per år.
Antalet företag som testar sin experimentering och andelen feature experimentation har ökat konsekvent sedan 2018.
Över 90 % av alla experiment är inriktade på 5 vanliga mätvärden
Uppgifterna visar dock att 3 av de 5 viktigaste mätvärdena har relativt låg förväntad effekt. Det finns en större möjlighet till påverkan om mätvärdena omprioriteras. Ersätt till exempel "Intäkter" med "Meny/Navigation". Eller ersätt "Checkout" med "Scroll/Engage".
Ändå är dessa mätvärden med större inverkan fortfarande underprioriterade. Kan det vara så att du av misstag ignorerar mätvärden som kan göra skillnad? Besökaren på din webbplats kommer att fatta beslut baserat på de förbättringar som varje mätvärde bidrar med under köpresan.
Så börja fokusera på:
Påverkan -> Fler upplyft -> Högre försäljning.
Det verkar finnas vissa konkurrensfördelar för företag med en omsättning på över 1 miljard dollar. Trafik och förmågan att skapa högkvalitativa tester (testpipeline) är de främsta drivkrafterna för hastighet.
Att köra ett experiment är en chans till förbättring. Men folk kan bli modfällda när varje test inte vinner. Värdet av ett testningsprogram är i 2 delar.
Du tror att alla förlorande tester drar ner dina framgångar. Om ditt företag släpper 100 funktioner under ett år skulle bara 10 eller 12 vara en förbättring. Testning fungerar eftersom det hjälper till att separera dessa 2.
Så även om bara cirka 1 av 8 experiment tenderar att bli en vinnare för de flesta företag, har de tester som vinner en betydande avkastning på de mätvärden som människor bryr sig om.
De 5 % bästa experimenten som företag genomför står för cirka 50 % av effekterna. Det kan tyckas som att det är mycket arbete för att nå fram till ett enda framgångsrikt test. Men vi har sett experiment ge miljontals dollar i ökade intäkter bara för att göra en enkel ändring av webbplatsen, en justering eller modifiering av en app eller funktionalitet.
KAPITEL 2: FANTASTISKA EXPERIMENT
Teamens prestationer är stabila över en treårsperiod. Så hur bra du är idag är ofta en bra indikator på hur bra du kommer att vara om 3 år.
För att förbättra prestandan krävs att man kontinuerligt förändrar det system som används för att forska, komma på idéer och utveckla experiment.
Gör ABCD istället för bara AB. Upplevelser som testar flera behandlingar är 3x mer framgångsrika än A/B-testningar.
Utför komplexa experiment. Tester som gör stora förändringar i användarupplevelsen (prissättning, rabatter, checkout-flöde, datainsamling etc.) är mer benägna att vinna och med högre uplifts.
Välj rätt mätvärden. Experiment som utnyttjar banditalgoritmer är mer framgångsrika.
De högsta uplift-experimenten runt om i världen har två saker gemensamt:
Bra experiment måste pröva stora språng i användarupplevelsen balanserat med en öppenhet för flera vägar.
Men mindre än 10 % av experimenten testar 4 eller fler varianter. Ändå har dessa experiment dubbelt så stor inverkan jämfört med A/B.
Dr. Sourobh Ghosh
Economist at Amazon/Audible
Endast en tredjedel av experimenten gör mer än en förändring, men de visar ändå mycket bättre avkastning. Att räkna antalet olika typer av förändringar per test är inte ett perfekt mått på komplexitet, men det ger högre insikter i ett mönster som har setts länge: komplexa tester presterar bättre.
Glöm de lågt hängande frukterna. Du kommer bara att investera tid och ansträngning i ett komplext experiment om du är säker på det värde som kan levereras. Men det är ingen överraskning att du bara kan ändra färgen på en knapp ett visst antal gånger. Därför är det viktigt att få tillgång till tekniska resurser för att kunna göra större förändringar.
Gå bortom kosmetiska förändringar. Små justeringar ger små effekter och upplyft. För att verkligen påverka besöksbeteendet och förändra hur besökare interagerar med din webbplats/app bör du omforma kundresorna på ett sätt som tar dem till köpögonblicket.
Reflektera över ägande och ansvar. Program som fokuserar på minutoptimering har begränsad frihet och begränsade resurser. I takt med att ditt program får mer resurser och förtroende kommer du att få möjlighet att testa mer meningsfulla förändringar.
Den överväldigande delen av e-handeln prioriterar intäkter. Vi är överens om att det är det mest värdefulla affärsmåttet. Men stora optimeringar av tidiga trattar som sök och lägg-till-korg är underutforskade.
Företag tenderar att uppleva större testpåverkan genom att fokusera experiment på att förbättra mikrokonverteringar, till exempel att få fler användare att söka, lägga till i varukorgen och anmäla konton.
Sökfrekvensen är det mest undervärderade målet för experimentet. Trots att det används 1 % av tiden har det den högsta förväntade effekten på 2,3 %. Det är viktigt att notera att de som söker vanligtvis konverterar i 2x-3x högre konverteringsgrad än alla andra användare.
Hazjier Pourkhalkhali
Personaliserade experiment har 41% större förväntad effekt på specifika målgrupper än generella upplevelser.
Upplevelser med målgruppsinriktning har 16% högre sannolikhet att vinna jämfört med upplevelser utan målgruppsinriktning.
Personaliserade upplevelser genererar i genomsnitt 22% högre uplifts.
Den 41% högre förväntade effekten mildras av publikens räckvidd
När företag övergår till att testa 3, 4 eller 5 varianter börjar de ta större risker. När man ändrar användarupplevelsen är det inte en enkel justering som alla andra webbplatser kanske har provat vid det här laget. Det kan vara en ny idé som de är först med att prova.
Hela poängen med experimentering är att du inte vet vad som kommer att fungera. Du gissar inte längre. Du validerar det genom att testa flera tillvägagångssätt för att ta reda på vilket som är mest effektivt.
KAPITEL 3: EXPERIMENTERINGSKULTUR
Stora företag och deras experimenteringskultur är uppbyggda på olika sätt. Deras experimenteringsprogram drivs inte i ett vakuum utan stöds ofta av tillräckliga resurser och en kultur som främjar risker. Data och analys är nyckeln till att formulera bra hypoteser och rätt personer genomför variationerna i experimentet.
Bra experimentering bygger på effektiv diagnostisering och prioritering av användarproblem. Om du inte utnyttjar data i tillräcklig utsträckning är det troligt att du förlitar dig på antaganden och gissningar. Det räcker inte med att ha data, du måste använda dem för att fatta beslut som ger mervärde för verksamheten.
Företag som använder avancerad analys är mycket mer framgångsrika när det gäller experimentering. Team med analytics överträffar team utan med 32% per test. Team som lade till värmekarta var ytterligare 16% mer framgångsrika.
KLM customer story
Företag med implementerade CDP:er verkar vara mycket mer framgångsrika med experimentering och får upp till 80% mer förväntad effekt. CDP:er gör det möjligt för plattformar för experimentering att få tillgång till en enda källa till experimenteringsdata från hela ditt ekosystem.
Ja, det finns sannolikt förvirrande faktorer här. Mer digitalt mogna kunder är mer benägna att ha en CDP - men dessa data bidrar till att belysa behovet av en CDP som en del av en digital mognadsresa.
För att skala upp ditt program för experimentering måste du noggrant investera i dina utvecklarresurser. Att genomföra fler tester är inte svaret. Här är varför:
Testning av hastighet sker när du har tillräckliga utvecklarresurser. Utan skala upp teknik blir experimentets hastighet ett fåfängt mått som försämrar programresultaten.
Ledande befattningshavarehar upplevelsen. Det kan dock stänga dem ute från mer moderna metoder som kan leda till större genombrott. Juniorteam verkar ta större risker, med färre vinster men fler upplyft. Stora ledare bör därför uppmuntra teamen att ta risker och utforska alternativ.
Vanliga risker med senioritet:
Fördelar med senioritet:
Det finns ingen styrningsmodell som passar alla, eftersom företagen rapporterar framgångar med olika tillvägagångssätt. Stora program verkar vara jämnt fördelade mellan centraliserade och decentraliserade team, med begränsade prestationsskillnader. Företagen måste välja rätt modell utifrån sina team- och affärsbehov.
Faktorer att ta hänsyn till när du ska välja rätt styrmodell för ditt företag.
Kontroll. Se till att andra team har lärt sig grunderna för vad som gör ett bra experiment. Det hjälper dig att bestämma vem som får köra ett experiment, granska resultat och i slutändan avgöra om en vinnare har implementerats.
Funktioner. Att ha tillräckligt med resurser är det första steget mot att genomföra komplexa experiment.
Anslutning. Att ha en nära relation till de förändrade prioriteringarna i den bredare verksamheten är avgörande för prioriteringen av dina tester och tillväxten i ditt team. Undvik att vara åtskilda.
Det här är bara en liten inblick i några av de fantastiska insikter som vi har samlat in som en del av den fullständiga rapporten. Det här är de insikter som har hjälpt oss att leverera exceptionella digitala upplevelser för världens ledande digitala varumärken.
Och vi förstår. Det är lätt att fastna i andras bästa praxis och titta på de vinnande experimenten som människor har genomfört tidigare, men att missa det arbete som krävdes för att komma dit.
Om du försöker skala upp ditt program för experimentering under de närmaste månaderna, tänk på kvaliteten på dina experiment och de utvecklarresurser du har. Det kommer att ge dig den hastighet du vill ha och kommunicera värdet av experimentering i hela organisationen.
På Optimizely kan vi hjälpa dig att komma igång med just det.