Publicerad maj 08, 2019

Fråga experten på experimentering: Sluta använda intäkter som ditt primära mätvärde

När vi arbetar med våra kunder för att hjälpa dem att förstå resultaten och lärdomarna från ett experiment är en av de viktigaste frågorna vi hör "Varför når jag inte signifikans?" eller, mer specifikt, "Varför är det här experimentet inte övertygande?" När jag hör den här frågan tittar jag först på vilka mätvärden som har ställts in och vilka framgångskriterier som är kopplade till dessa mätvärden för att förbättra konverteringsgraden.

Alek Toumert
av Alek Toumert
decorative yellow lines on background

När vi arbetar med våra kunder för att hjälpa dem att förstå resultaten och lärdomarna från ett experiment är en av de viktigaste frågorna vi hör "Varför når jag inte signifikans?" eller, mer specifikt, "Varför är det här experimentet ofullständigt?" När jag hör den här frågan är min första kontroll att titta på vilka mätvärden som är inställda inom Optimizely för att mäta framgången för ett experiment. Och viktigast av allt, vad är inställt som det primära måttet på framgång? Detta primära mått är tänkt att vara det mått som väger tyngst bland de andra experimentmåtten för att förklara ett experiment som en vinnare. Detta är inte annorlunda än de flesta affärsbeslut! Ett ledande mätvärde med stöd av rätt mätvärden.

Arbetet med att hitta avgörande resultat börjar långt innan du trycker på startknappen för ditt experiment. Det börjar innan du gör en resultatanalys. Det börjar före utformningen av testet. Det börjar när du identifierar de mätvärden som du kan påverka genom experimentering och förstår hur dessa mätvärden interagerar med varandra.

För kundnöjdhet är intäkter, en högre konverteringsgrad och den slutliga konverteringen de nyckeltal (KPI:er) som är i fokus för att förbättras genom experimentering. Men andra mätetal kan (och bör) vara i fokus för enskilda experiment, beroende på vilket kundproblem du vill lösa. Måtten under dina viktigaste KPI:er kan också vara de som ligger närmast där du genomför ditt experiment. Dessa mätvärden är de beteenden som du med störst säkerhet kan mäta och förbättra för ett enskilt experiment. Att flytta nålen på dessa beteenden kommer att ha en nedströms påverkan på de viktigaste KPI:erna.

Om du bara fokuserar på intäkter som det primära måttet för alla experiment på kort sikt kommer du säkert att gå miste om vinster, lärdomar och möjligheter att iterera för att påverka intäkterna. Du kommer utan tvekan att fatta beslut och kalla experiment misslyckade när de i själva verket påverkar användarupplevelser positivt samtidigt som de påverkar intäkterna på lång sikt. Om du inte ställer in dina experiment på rätt sätt för att avslöja effekterna av dessa beteenden avleder du också från att lära dig vad som påverkar intäkterna.

Men vänta lite nu. Vi bryr oss bara om att öka intäkterna från A/B-testning. Varför skulle vi inte mäta framgång genom intäkter?

Du bör mäta intäkterna! Faktum är att du bör mäta det för varje experiment som ett sekundärt mått om det är viktigt för ditt företag! Och använd det i balans med andra mätvärden för att avgöra framgång. Men det du inte kan kontrollera för varje experiment är vilken inverkan det kommer att ha direkt på intäkterna och customer lifetime value.

Din mätvärdesdefinition för ett enskilt experiment bör passa in i dessa tre fack:

image showing impact of metrics on web experiments

Låt oss tänka oss att du har sett sjunkande engagemang, genomsnittligt ordervärde och ett lägre antal aktiva användare på din hemsida, vilket är ett problem eftersom det är huvudingången till din e-handelssajt. En hypotes som du har kan vara:

"Om vårt produktmarknadsföringsteam använder en karusell istället för en statisk hero image kommer vi att öka köpen eftersom vi ger våra användare fler erbjudanden och produktmeddelanden vid ingången.

Du måste tänka på att det finns många steg/meddelanden/beteenden och andra influencers (även utanför din webbplats!) som händer för dina användare mellan den förändringen och den slutliga konverteringen som du inte kontrollerar för. Som ett exempel kan det finnas en reklamkampanj som fick en användare att anlända till hemsidan som drar bort ett antal användare från att konvertera senare på grund av missanpassade meddelanden senare på vägen mot inköp.

Slutsatsen är att ditt primära mått (och huvudmåttet i din hypotes) alltid bör vara det beteende som ligger närmast den förändring du gör i den variation du använder. Hypotesen borde faktiskt lyda:

"Om vi använder en karusell i stället för en statisk hero image kommer vi att öka antalet klick på hero real estate och antalet visningar av produktsidor eftersom vi ger våra användare fler erbjudanden och ett nytt produktmeddelande när de kommerin.

Låt oss nu föreställa oss ett annat scenario. Du har optimerat den övre delen av din e-handel tratt väl. Men du kämpar i checkout-steget nu. Din hypotes är:

"Om vi kollapsade formulärfältsektioner på checkout-sidan kommer vi att öka inköpen eftersom vi presenterar en indikation på all information vi kommer att kräva av användarna ovanför vikningen från sektionstitlarna

Detta stämmer väl överens med det metriska flödesschemat ovan! Eftersom vi experimenterar i det sista steget (det enda syftet med den sidan är att konvertera användare) är det vettigt att använda inköp eller intäkter som det primära måttet. Det är det beteende som du mest sannolikt kommer att påverka från de ändringar du gör i variationen.

Men för våra experiment längre upp i tratten (de som är längre bort från köp eller din slutliga konvertering), borde vi inte förvänta oss att se intäktspåverkan?

"Bör" kanske inte är rätt ord. Vi hoppas alltid att intäkterna kommer att påverkas av dina prioriterade experiment. Det måste bara finnas en förståelse för att du för varje experiment kanske inte med säkerhet kan mäta direkt påverkan på intäkterna.

Men om du kan utveckla de beteenden som leder till att användarna kommer närmare den slutliga konverteringen som ger intäkter, så påverkar du intäkterna. Om du mäter de ledande beteendena först och gör statistiskt signifikanta förbättringar av dem, kan du fortsätta att flytta fokus till experiment som ligger närmare intäkterna.

Det låter vettigt. Men återigen. INTÄKTER, INTÄKTER, INTÄKTER.

Okej, det är rättvist. Ovanstående är konceptuellt. Men vi tittade över alla kunders experiment och såg faktiskt att detta var sant! Vi upptäckte att när månatliga återkommande intäkter anges som det primära måttet i Optimizely, nådde det projektets statistiska signifikansnivå endast 10% av tiden jämfört med när alla andra måltyper (sidvisningshändelser, klickhändelser, anpassade händelser) anges som det primära måttet. Även om vi vill maximera intäkterna i vår experimentering är det inte alltid inom vår fullständiga kontroll i varje experiment, och experimentdata stöder detta.

De bästa programmen mäter intäkter och andra viktiga mått för varje experiment för att förstå experimenteringens inkrementella inverkan på dessa viktiga KPI:er.

Hur ska du väga de primära kontra sekundära mätvärdena för att avgöra hur framgångsrikt ett enskilt experiment är?

En bra metod för att planera tester är att diskutera i gruppen vilka kompromisser ni är villiga att göra när det gäller prestanda mellan det totala antalet primära och sekundära mätvärden - i det här fallet intäkter. Det har varit intressant att upptäcka att detta skiljer sig åt inom branschen. Vissa program tar en statistiskt signifikant förbättring av det primära måttet som den enda framgångsfaktorn för ett experiment. Vissa program anger att det måste finnas en statistiskt signifikant förbättring av sekundära mätvärden (t.ex. intäkter, inköp) för att ett experiment ska betraktas som en vinst.

Du kan skapa ett beslutsramverk i förväg för ett experiment (eller för programmet i stort) för att skapa ett samförstånd om hur dessa scenarier ska hanteras. Detta ramverk kan förändras över tid, men det kan öka hastigheten i beslutsfattandet och åtgärder baserade på resultat. Vi rekommenderar att du använder detta så ofta som det finns debatter om framgångskriterier!

images showing goals of successful experiment

Det finns två viktiga delar i ett beslutsramverk som är bäst i klassen: det har ett rimligt delta för påverkan på intäkterna OCH antingen accepterar eller förkastar att en statistiskt signifikant vinst på det primära måttet är nödvändig. Detta kan vara ett delta som har både positiva och negativa gränser. Det är här Optimizely's konfidensintervall kommer väl till pass. Genom att använda konfidensintervallen på resultatsidan i Optimizely One får du en tydlig indikation på var den "sanna förbättringen" kommer att ligga i intäkter om du implementerar vinnaren. Se till att intervallet inte expanderar baserat på ditt rimliga delta.

Vilka andra sätt finns det att mäta hur framgångsrikt vårt program är?

Den mest förbisedda delen av att sätta upp ett program för experimentering är den mätning som åläggs sig själv. Vi kallar dessa mått för "verksamhetsmått" och de tittar på det övergripande programmet kontra de specifika testerna. Dessa verksamhetsmått är beteenden som vi vet är starka indikatorer på ett hälsosamt program. Om vi anser att vår metodik är sund och i sin tur genererar lärdomar som förbättrar vår kunskap om våra befintliga och nya kunder, är dessa typer av mätvärden bra indikatorer på framgång:

  • Velocity - Antal startade experiment per vecka, månad, kvartal etc.
  • Conclusive Rate - Andelen experiment som når ett statistiskt signifikant tillstånd.
  • Win Rate - Andelen experiment som når ett positivt statistiskt signifikant tillstånd.
  • Lärandegrad - % av upplevelserna som skapade ett handlingsbart lärande.
  • Återanvändningsgrad - % av experimenten som ger information om andra initiativ och affärsmål.
  • Iteration Rate - % av experimenten som itereras som ett nästa steg.

Det finns många andra operativa nyckeltal som du kan drömma om, och dessa kan kompletteras med alla metadata som du sparar om ditt program (t.ex. typ av variationsstrategi, idékälla etc.) för att illustrera vilken inverkan programmet har på ditt företag under en viss tidsperiod.

Kom ihåg att...

Varje experiment är annorlunda! Du kanske inte följer dessa principer till punkt och pricka, men ditt program bör ha en stark och konsekvent syn på hur man definierar primära mätvärden för att bättre förstå resultaten och lärdomarna från ditt experiment. Låt oss veta hur du skulle kunna närma dig detta annorlunda, vad du har sett som en framgång när det gäller att definiera dina mätvärden för experimentet och hur du har närmat dig analysen av intäktspåverkan!

Om författaren