Lärdomar från 127.000 experiment

Sättet du driver ditt program för A/B-testning och experimentering har en enorm effekt på vad du får - både när det gäller att optimera upplevelser och ROI.

Den här rapporten är fullspäckad med data från 127 000 experiment - med insikter, tekniker och exempel som gör praktiker till mästare.

Dyk in för att börja läsa The Evolution of Experimentering research.

Forskningen som kan ta ditt program för A/B-testning och experimentering till nästa nivå

Experimentering är aldrig lätt. Utövare står ständigt inför nya, betydande utmaningar; lägre upplyft, nedbantade team och ett missriktat fokus på vinstnivåer (som är låga).

Så hur kan utövarna göra bättre ifrån sig? Vad är det som gör tester framgångsrika? Hur uppnås affärsresultat?

Vi var angelägna om att ge djupare svar på dessa frågor och mer därtill, så vi tittade på flera års program för experimentering i olika branscher och programmognadsnivåer. Teamen körde fler experiment, förbättrade processer och minskade flaskhalsar, men deras upplevelser såg fortfarande inte högre upplyft.

Naturligtvis gjorde en mängd faktorer det svårt att avgöra varför upplyftningarna inte förändrades, men baserat på vad vi såg under hela vår studie finns det utrymme för förbättringar när det gäller vilka saker företag väljer att experimentera med för att få mätbar effekt.

Vi pratar mer om detta i slutsatserna nedan.

Insikterna finns här. Men varifrån?

Data från 1,1 tusen företag
Analys av över 127 000 experiment
Utdrag ur Optimizely-analyser
Kundintervjuer, fallstudier och enkäter

EN TITT IN I UTVECKLINGEN AV EXPERIMENTERING

Experimentering har förändrats under de senaste 5 åren

Det är mer fokuserat på variationer, velocity och uplifts, inte bara win rate

88% av testerna

vinnerinte.

Endast en tredjedel

av experimenten testar mer än en variant.

De översta 3 procenten

av företagen genomför mer än 500 experiment per år.

41% mer

förväntad effekt drivet av personaliserade experiment.

Här framträdde ett mönster: Det finns en betydande skillnad mellan förståelsen av experimentering och de faktiska resultaten av den.

88% av testerna vinner inte. Det här är viktigt, men vi ser mycket fokus på huruvida ett experiment "vann" eller "förlorade". Enbart vinstfrekvensen är utan tvekan ett fåfängt mått. Du kan göra många små, mycket säkra förändringar, eller så kan du spendera ett halvt år på att undersöka ett experiment som sannolikt kommer att vinna. Ja, du kanske får ett vinnande resultat, men du kommer fortfarande inte att se betydande upplyftningar eller överdriven avkastning. Vi fann att fokus bör ligga på den övergripande effekten, där vinstfrekvensen mäts tillsammans med genomsnittlig upplyftning per vinnare, lanseringshastighet och tid till resultat.

Mindre än 10% av experimenten testar 4 eller fler variationer, men ser 2x effekt. Samtidigt har dessa experiment mer än dubbelt så stor effekt jämfört med A/B-testning. Det belyser en annan koppling: Folk pratar om A/B-testning hela tiden; det handlar om två variationer, A-versionen och B-versionen. Det visar sig att data avslöjar att det är en av de lägst presterande metoderna för experimentering . Enkel lösning:lägg bara till fler variationer i dina tester!

Låt oss lära oss mer om tillståndet för experimentering i nästa del.

KAPITEL 1: EXPERIMENTERINGENS TILLSTÅND

Vinstfrekvensen är inte det enda som spelar roll

Cirka 12% av experimenten vinner på det primära måttet. De når statistisk signifikans. De återstående 88% kombinerar både icke-vinnare och ofullständiga tester. Det låter kanske lite negativt, men det är det inte.

Nu vet du vad som fungerade och vad du bara antog fungerade. I en värld utan experimentering skulle du ha rullat ut den funktionen eller funktionaliteten. Men här får du eliminera funktioner som skadar ditt företag. Dessutom kan du identifiera områden som dina kunder inte bryr sig om för att minimera ytterligare tid och resurser som spenderas på dessa områden.

De ofullständiga testerna som varken var en vinnare eller en förlorare är också fortfarande värdefulla. Du vet att du inte har identifierat något som du kan rulla ut och få värde av omedelbart. Du har inte minskat en risk, men du har ändå lärt dig att det finns något i din funktionalitet som kunderna inte bryr sig om, och det är fortfarande användbart för att mata in i framtida hypoteser.

Så du förlorar inte på alla experiment som inte vinner. Dessa siffror är i linje med liknande statistik som publiceras av företag som Google, Airbnb, Microsoft, Netflix med flera. I genomsnitt rapporterar de också en vinstnivå på 10 till 20 procent.

Vetenskapen bakom testning av hastighet

Medianföretaget genomför 34 experiment per år. De bästa 3% av företagen genomför över 500. För att vara bland de 10% bästa måste du köra 200 experiment per år.

Företagen ökar testningen snabbt från lanseringen och ökar hastigheten med i genomsnitt 20% per år.

Antalet företag som testar sin experimentering och andelen feature experimentation har ökat konsekvent sedan 2018.

Gåtan med "topp 5-mätvärden

Över 90 % av alla experiment är inriktade på 5 vanliga mätvärden

CTA-klick
Intäkter
Checkout
Registrering
Lägg till i kundvagn

Uppgifterna visar dock att 3 av de 5 viktigaste mätvärdena har relativt låg förväntad effekt. Det finns en större möjlighet till påverkan om mätvärdena omprioriteras. Ersätt till exempel "Intäkter" med "Meny/Navigation". Eller ersätt "Checkout" med "Scroll/Engage".

Ändå är dessa mätvärden med större inverkan fortfarande underprioriterade. Kan det vara så att du av misstag ignorerar mätvärden som kan göra skillnad? Besökaren på din webbplats kommer att fatta beslut baserat på de förbättringar som varje mätvärde bidrar med under köpresan.

Så börja fokusera på:

Hitta beslutspunkter som leder besökarna till köpögonblicket
Välja mätetal som påverkar varje beslutspunkt
Leverera hög effekt med varje mätvärde

Påverkan -> Fler upplyft -> Högre försäljning.

Omsättningen spelar roll

Det verkar finnas vissa konkurrensfördelar för företag med en omsättning på över 1 miljard dollar. Trafik och förmågan att skapa högkvalitativa tester (testpipeline) är de främsta drivkrafterna för hastighet.

Stora företag använder sina resursfördelar för att driva program med hög hastighet och generera mer intäkter.
Fler besökare innebär fler chanser för tester att nå statistisk signifikans, snabbare.
Med mer intäkter förbättras också vinstfrekvensen.

Testning handlar om överdimensionerad avkastning

Att köra ett experiment är en chans till förbättring. Men folk kan bli modfällda när varje test inte vinner. Värdet av ett testningsprogram är i 2 delar.

Du tror att alla förlorande tester drar ner dina framgångar. Om ditt företag släpper 100 funktioner under ett år skulle bara 10 eller 12 vara en förbättring. Testning fungerar eftersom det hjälper till att separera dessa 2.

Så även om bara cirka 1 av 8 experiment tenderar att bli en vinnare för de flesta företag, har de tester som vinner en betydande avkastning på de mätvärden som människor bryr sig om.

De 5 % bästa experimenten som företag genomför står för cirka 50 % av effekterna. Det kan tyckas som att det är mycket arbete för att nå fram till ett enda framgångsrikt test. Men vi har sett experiment ge miljontals dollar i ökade intäkter bara för att göra en enkel ändring av webbplatsen, en justering eller modifiering av en app eller funktionalitet.

KAPITEL 2: FANTASTISKA EXPERIMENT

"Vad" bakom fantastiska experiment, avslöjat

Teamens prestationer är stabila över en treårsperiod. Så hur bra du är idag är ofta en bra indikator på hur bra du kommer att vara om 3 år.

För att förbättra prestandan krävs att man kontinuerligt förändrar det system som används för att forska, komma på idéer och utveckla experiment.

Fastna inte i din komfortzon. Följ dessa steg:

Gör ABCD istället för bara AB. Upplevelser som testar flera behandlingar är 3x mer framgångsrika än A/B-testningar.

Utför komplexa experiment. Tester som gör stora förändringar i användarupplevelsen (prissättning, rabatter, checkout-flöde, datainsamling etc.) är mer benägna att vinna och med högre uplifts.

Välj rätt mätvärden. Experiment som utnyttjar banditalgoritmer är mer framgångsrika.

Två element

De högsta uplift-experimenten runt om i världen har två saker gemensamt:

De gör större kodändringar med större effekt på användarupplevelsen (>99,9% signifikans)
De testar ett större antal variationer samtidigt (>99,9% signifikans)

Bra experiment måste pröva stora språng i användarupplevelsen balanserat med en öppenhet för flera vägar.

Men mindre än 10 % av experimenten testar 4 eller fler varianter. Ändå har dessa experiment dubbelt så stor inverkan jämfört med A/B.

Så här förändras du när du testar fler varianter:

Du tar fler risker. Med en enda variant tar teamen ofta det säkra före det osäkra. Men när team testar 4+ varianter är de säkra alternativen täckta. Du kan testa alltmer riskfyllda men nya idéer utan att oroa dig.
Du tar ett större ägarskap. Team som bara testar 2 varianter väljer dem ofta genom en hierarki. Med fler varianter finns det större chans att fler idéer valideras. Allas jobb är nu att bidra till sannolikheten för att en förändring ska lyckas.
Ditt program blir mer öppensinnat. Vanligtvis kan team bara testa en väg. Nu kan du testa flera tillvägagångssätt på en gång och ändra riktning baserat på resultaten.

Det standardiserade experiment som utförs runt om i världen är en inkrementell A/B-testning. Även om dessa tester är enkla att genomföra är de sällan förknippade med prestandagenombrott. Våra data visar att de största genombrotten kommer från tester som följer en helt annan modell. Tester som är utformade för att testa komplexa, ömsesidigt beroende förändringar - men inom en enda variant och över flera varianter - är mer benägna att vara bland de 5% bästa presterande experimenten i vårt urval. I stället för att undvika komplexitet kan företagen potentiellt utnyttja den för att leverera hög prestanda i testningen. Nyckeln är att kombinera komplexa tester med en teori om hur de olika delarna samverkar för att ge avkastning. Teori och testning tillsammans kan bidra till att frigöra genombrottsprestanda.

Dr. Sourobh Ghosh

Economist at Amazon/Audible

Det krävs mer än en förändring

Endast en tredjedel av experimenten gör mer än en förändring, men de visar ändå mycket bättre avkastning. Att räkna antalet olika typer av förändringar per test är inte ett perfekt mått på komplexitet, men det ger högre insikter i ett mönster som har setts länge: komplexa tester presterar bättre.

Varför komplexiteten i experimentet är viktig:

Glöm de lågt hängande frukterna. Du kommer bara att investera tid och ansträngning i ett komplext experiment om du är säker på det värde som kan levereras. Men det är ingen överraskning att du bara kan ändra färgen på en knapp ett visst antal gånger. Därför är det viktigt att få tillgång till tekniska resurser för att kunna göra större förändringar.

Gå bortom kosmetiska förändringar. Små justeringar ger små effekter och upplyft. För att verkligen påverka besöksbeteendet och förändra hur besökare interagerar med din webbplats/app bör du omforma kundresorna på ett sätt som tar dem till köpögonblicket.

Reflektera över ägande och ansvar. Program som fokuserar på minutoptimering har begränsad frihet och begränsade resurser. I takt med att ditt program får mer resurser och förtroende kommer du att få möjlighet att testa mer meningsfulla förändringar.

Det handlar inte bara om intäkter

Den överväldigande delen av e-handeln prioriterar intäkter. Vi är överens om att det är det mest värdefulla affärsmåttet. Men stora optimeringar av tidiga trattar som sök och lägg-till-korg är underutforskade.

Företag tenderar att uppleva större testpåverkan genom att fokusera experiment på att förbättra mikrokonverteringar, till exempel att få fler användare att söka, lägga till i varukorgen och anmäla konton.

Sökfrekvensen är det mest undervärderade målet för experimentet. Trots att det används 1 % av tiden har det den högsta förväntade effekten på 2,3 %. Det är viktigt att notera att de som söker vanligtvis konverterar i 2x-3x högre konverteringsgrad än alla andra användare.

Att mäta varje experiment på intäkter är som att mäta varje spelare på gjorda poäng. Någon måste också passa.

Hazjier Pourkhalkhali

Teori om personalisering

Personaliserade experiment har 41% större förväntad effekt på specifika målgrupper än generella upplevelser.

Upplevelser med målgruppsinriktning har 16% högre sannolikhet att vinna jämfört med upplevelser utan målgruppsinriktning.

Personaliserade upplevelser genererar i genomsnitt 22% högre uplifts.

Den 41% högre förväntade effekten mildras av publikens räckvidd

Behovet

När företag övergår till att testa 3, 4 eller 5 varianter börjar de ta större risker. När man ändrar användarupplevelsen är det inte en enkel justering som alla andra webbplatser kanske har provat vid det här laget. Det kan vara en ny idé som de är först med att prova.

Hela poängen med experimentering är att du inte vet vad som kommer att fungera. Du gissar inte längre. Du validerar det genom att testa flera tillvägagångssätt för att ta reda på vilket som är mest effektivt.

KAPITEL 3: EXPERIMENTERINGSKULTUR

Behovet av en experimentkultur och hur man skapar en i sitt företag

Stora företag och deras experimenteringskultur är uppbyggda på olika sätt. Deras experimenteringsprogram drivs inte i ett vakuum utan stöds ofta av tillräckliga resurser och en kultur som främjar risker. Data och analys är nyckeln till att formulera bra hypoteser och rätt personer genomför variationerna i experimentet.

Bra data gör skillnad

Bra experimentering bygger på effektiv diagnostisering och prioritering av användarproblem. Om du inte utnyttjar data i tillräcklig utsträckning är det troligt att du förlitar dig på antaganden och gissningar. Det räcker inte med att ha data, du måste använda dem för att fatta beslut som ger mervärde för verksamheten.

Företag som använder avancerad analys är mycket mer framgångsrika när det gäller experimentering. Team med analytics överträffar team utan med 32% per test. Team som lade till värmekarta var ytterligare 16% mer framgångsrika.

Integrationen med analysverktyget gör att KLM automatiskt kan importera data från experimentet för vidare analys i ett bredare affärssammanhang. Värmekartor kan automatiskt taggas med information om den variation i A/B-testningen som en viss användare har sett. På så sätt kan analytikerna göra skillnad mellan olika upplevelser under sin analys.

KLM customer story

Customer Data Platform (CDP) fungerar

Företag med implementerade CDP:er verkar vara mycket mer framgångsrika med experimentering och får upp till 80% mer förväntad effekt. CDP:er gör det möjligt för plattformar för experimentering att få tillgång till en enda källa till experimenteringsdata från hela ditt ekosystem.

Ja, det finns sannolikt förvirrande faktorer här. Mer digitalt mogna kunder är mer benägna att ha en CDP - men dessa data bidrar till att belysa behovet av en CDP som en del av en digital mognadsresa.

Fler tester ≠ mer effekt

För att skala upp ditt program för experimentering måste du noggrant investera i dina utvecklarresurser. Att genomföra fler tester är inte svaret. Här är varför:

Den högsta kvaliteten på experimentet upplevs vid 1-10 årliga tester per ingenjör.
När en utvecklare går över till 11-30 tester per år sjunker den förväntade effekten med 40 % per test.
Om du går över 30 tester sjunker den förväntade effekten med hela 87%.

Testning av hastighet sker när du har tillräckliga utvecklarresurser. Utan skala upp teknik blir experimentets hastighet ett fåfängt mått som försämrar programresultaten.

Ledande befattningshavarehar upplevelsen. Det kan dock stänga dem ute från mer moderna metoder som kan leda till större genombrott. Juniorteam verkar ta större risker, med färre vinster men fler upplyft. Stora ledare bör därför uppmuntra teamen att ta risker och utforska alternativ.

Vanliga risker med senioritet:

Seniora ledare kan ofta överskatta sin förmåga att påverka framtiden. Det stänger dem ute från råd och feedback utifrån.
Seniora ledare är benägna att använda föråldrade metoder. Det får dem att fokusera på mindre förbättringsmöjligheter.
Högre chefer är mindre benägna att revidera sina åsikter när de får nya uppgifter som strider mot deras övertygelser.

Fördelar med senioritet:

Seniora ledare kan påskynda införandet av nya strategier och tekniker genom investeringar, strategier och vägledning.
Seniora ledare kan förbättra sina medarbetares psykologiska säkerhet och frihet att ta risker.
Seniora ledare kan balansera exploatering och utforskning. Det gör det möjligt för teamen att ta rätt risk när tillfälle ges.

Centraliserad eller decentraliserad - valet är ditt.

Det finns ingen styrningsmodell som passar alla, eftersom företagen rapporterar framgångar med olika tillvägagångssätt. Stora program verkar vara jämnt fördelade mellan centraliserade och decentraliserade team, med begränsade prestationsskillnader. Företagen måste välja rätt modell utifrån sina team- och affärsbehov.

Faktorer att ta hänsyn till när du ska välja rätt styrmodell för ditt företag.

Kontroll. Se till att andra team har lärt sig grunderna för vad som gör ett bra experiment. Det hjälper dig att bestämma vem som får köra ett experiment, granska resultat och i slutändan avgöra om en vinnare har implementerats.

Funktioner. Att ha tillräckligt med resurser är det första steget mot att genomföra komplexa experiment.

Anslutning. Att ha en nära relation till de förändrade prioriteringarna i den bredare verksamheten är avgörande för prioriteringen av dina tester och tillväxten i ditt team. Undvik att vara åtskilda.

Vad ska du bygga nästa år?

Det här är bara en liten inblick i några av de fantastiska insikter som vi har samlat in som en del av den fullständiga rapporten. Det här är de insikter som har hjälpt oss att leverera exceptionella digitala upplevelser för världens ledande digitala varumärken.

Och vi förstår. Det är lätt att fastna i andras bästa praxis och titta på de vinnande experimenten som människor har genomfört tidigare, men att missa det arbete som krävdes för att komma dit.

Om du försöker skala upp ditt program för experimentering under de närmaste månaderna, tänk på kvaliteten på dina experiment och de utvecklarresurser du har. Det kommer att ge dig den hastighet du vill ha och kommunicera värdet av experimentering i hela organisationen.

På Optimizely kan vi hjälpa dig att komma igång med just det.

Get in touch

Ladda ner

Hämta hela forskningsrapporten

Ladda ner hela forskningsrapporten Evolution of Experimentation (60 sidor) och börja lära dig av 127 000 experiment idag!