Skalering av eksperimenteringsprogrammets måleparametere

Det er en grunn til at noen eksperimenteringsprogrammer skalerer mens andre stagnerer. Forskjellen ligger ikke i verktøyene eller talentet deres, men i beregningene de måler.

Det er en grunn til at noen eksperimenteringsprogrammer skalerer mens andre stagnerer.

Forrige måned satte jeg meg ned med en digital visepresident i en Fortune 500-forhandler med en kjent utfordring. Seiersraten deres? Over gjennomsnittet i bransjen. Testhastigheten deres? Vekst kvartal for kvartal. Likevel stilte administrerende direktør et spørsmål som stoppet dem brå i kvartalsrapporten:

Vi kjører flere tester enn noensinne, men hvorfor forbedrer ikke dette bunnlinjen vår?

De fleste eksperimenteringsprogrammer sliter fordi de:

Feirer overflategevinster (Se, fargeendringen på knappen fungerte)
Jager testhastighet uten innvirkning (Vi kjørte 50 % flere tester dette kvartalet)
Samler inn vanity-målinger (Vår gevinstrate er over gjennomsnittet i bransjen)

Å sette de riktige målingene er en konstant utfordring vi hjelper kunder med å overvinne, spesielt når de prøver å skalere eksperimenteringsprogrammene sine.

I denne bloggen kan du se:

Hvilke målinger forutsier faktisk programvekst
Hvordan ledende programmer beviser massiv avkastning (uten å manipulere system)
Et praktisk rammeverk for å utvikle målingene dine etter hvert som programmet skaleres
De skjulte målingene med stor innvirkning som de fleste programmer overser

Gode målinger teller ikke bare ting, de forteller historier som driver vekst.

Vanlige målefeil å unngå

Tre vanlige mønstre som hindrer gode programmer i å skaleres:

1. Besettelsen med seiersrater

Programmer feirer ofte seiersrater, men når du graver dypere, er disse "gevinstene" stort sett små justeringer med minimal forretningsmessig innvirkning. Dataene forteller oss at bare 12 % av eksperimentene vinner.

Kilde: Optimizely Evolution of Experimentation Report

Jada, seiersraten er viktig – spesielt når du prøver å få støtte i starten av programmet. Men for å ta programmet til neste modenhetsnivå, må du gå forbi det og begynne å ramme inn verdien av eksperimentering i form av forbedring, og oversette seiersrater til forventet effekt per test.

For eksempel, vil du heller ha tester som vinner 10 % av tiden, men leverer en forbedring på en million dollar? Eller tester som vinner 50 % av tiden, men bare leverer 100 dollar i ekstra inntekter? (Du trenger egentlig ikke å svare på det.)

Hvert eksperiment leverer verdi – tapende tester forhindrer skadelige endringer, mens ufullstendige resultater sparer ressurser fra områder med lav effekt.

2. Hastighetsillusjonen

Testmengde alene forutsier ikke programsuksess. De fleste vellykkede programmer kjører ikke bare flere tester, de kjører bedre. De:

Tester et høyere antall variasjoner samtidig
Endrer ikke bare hastighet, men også større endringer og innvirkning
Gjør større kodeendringer med større effekt på brukeropplevelsen

3. Problemet med overflateberegninger

De fleste programmer sporer dusinvis av beregninger, men sliter med å svare på spørsmål om forretningsmessig innvirkning.

De måler alt unntatt det som betyr noe:

Sporing av klikk, men ikke innvirkning på kundereisen
Telling av sidevisninger, men ikke kjøpsintensjon
Måling av overflateengasjement, men ikke dyp brukeratferd

Type beregninger

Over 90 % av eksperimentene retter seg mot 5 vanlige beregninger:

CTA-klikk
Inntekter
Kasse
Registrering
Legg til i handlekurven

Imidlertid har 3 av disse topp 5 beregningene relativt lav forventet innvirkning.

Bilde: Målinger etter effektandel

Det er tydelig at målinger med høy effekt blir oversett. Til tross for at de bare testes 1 % av tiden, viser søkeoptimalisering den høyeste forventede effekten på 2,3 %.

Kunder som søker konverterer 2–3 ganger mer enn nettlesere
Søkemønstre avslører umiddelbare inntektsmuligheter
Søk uten resultater fremhever produkthull

Reisemålinger

En annen måte å skalere eksperimenteringsprogrammet ditt på er å måle hele kundereiser i stedet for å fokusere på individuelle sidemålinger.

Tenk på din egen produktreise. En kunde tar sjelden en beslutning basert på en enkelt side eller funksjon. De går gjennom en serie interaksjoner, der hver interaksjon bygger på den forrige. Likevel optimaliserer de fleste programmene disse berøringspunktene isolert.

Et stort SaaS-selskap vi jobber med, gikk nylig over fra å kun optimalisere konverteringsfrekvensen på prissiden til å måle hele vurderingsreisen. Deres "vinnende" prissidetest skapte faktisk friksjon lenger ned i salgstrakten. Ved å bytte til reisebasert måling økte de konverteringsfrekvensen.

Viktige reisemålinger å vurdere:

Interaksjonsmønstre på tvers av sider som avslører hvordan brukere faktisk navigerer i produktet ditt
Forlat punkter i komplekse flyter, spesielt flertrinnsprosesser som betaling eller onboarding
Endringer i tilbakevendende besøkendes atferd som signaliserer langsiktig engasjementseffekt
Attribusjon til flere berøringspunkter for å forstå hvilke kombinasjoner som driver konvertering

Sammensatte målinger

Du kan også kombinere målinger på uventede måter. I stedet for å se på forlatelsesfrekvensen for handlekurven isolert, kan du kombinere den med data om kundens livstidsverdi. Potensielle kunder sammenligner ofte alternativer før de forplikter seg større.

Her er eksempler på sammensatte målinger for å oppnå større effekt:

Kundeanskaffelseskostnad kombinert med livstidsverdi avslører den sanne avkastningen på eksperimentering.
Funksjonsadopsjon kombinert med retensjonsmål viser hvilke produktendringer som holder.
Prisfølsomhet analysert sammen med kjøpsfrekvens identifiserer dine mest verdifulle optimaliseringsmuligheter.

Husk at primære målinger varierer etter bransje på grunn av forskjeller i mål, prioriteringer og sporingsmuligheter.

Kilde: Optimizely Evolution of Experimentation Report

Flere tester = mer verdi. Selv data sier at det ikke stemmer.

Er det virkelig så enkelt som at flere tester = mer verdi?

Når du får programmet ditt i gang, for eksempel de første 12–18 månedene, ja – kjør så mange tester som mulig. Det vil hjelpe deg med å bygge en database med suksesshistorier med sikte på å vinne flere ressurser og etablere en eksperimenteringskultur.

Å gå til neste nivå handler imidlertid ikke nødvendigvis om å øke hastigheten. Det handler om å fokusere på kompleksitet og gå utover kosmetiske endringer. Små justeringer har en tendens til å resultere i små forbedringer. Forskningen vår viste at eksperimentene med høyest økning har to ting til felles:

De gjør større kodeendringer med større effekt på brukeropplevelsen.
De tester et høyere antall varianter samtidig.

Mer komplekse eksperimenter som gjør store endringer i brukeropplevelsen, f.eks. priser, rabatter, betalingsflyt, datainnsamling osv., har større sannsynlighet for å generere høyere økninger.

Analytikkens rolle

For å spore reisemålinger og lage sammensatte målinger, trenger du at dataene dine fungerer sammen. Men de fleste eksperimenteringsprogrammer står overfor en grunnleggende hindring ettersom dataene deres befinner seg i siloer. Nettanalyse ett sted, kundedata et annet sted, og eksperimenteringsresultater et helt annet sted.

Det er her lagerbasert analyse endrer spillet.

Test mot enhver måleenhet i lageret ditt, fra inntekter til livstidsverdi, uten komplekse datakanaler.
Svar på sofistikerte forretningsspørsmål på minutter, ikke dager. Generer kohortinnsikt på sparket.
Kjør eksperimenter på tvers av nettet, e-post og CRM ved hjelp av Stats Engine, alt analysert på ett sted.
Oppbevar sensitive data i lageret ditt mens du kjører sofistikerte eksperimenter.
Avslutt metriske debatter med alle som jobber fra de samme lagerdataene.

Se hvorfor lagerbasert analyse er nåtiden og fremtiden for datadrevet eksperimentering.

Analysemulighetene dine bør også gå utover bare å konsolidere data. Listen inkluderer:

Varmekartlegging:Gå utover grunnleggende klikksporing for å forstå hvordan brukerinteraksjoner oversettes til inntekter på tvers av hele kundereisen.
Tilpassede hendelser:Bryt deg løs fra forhåndsdefinerte hendelser og spor all brukeratferd som er viktig for bedriften din, inkludert komplekse interaksjonssekvenser og konverteringsbaner i flere trinn.
Attribusjon til flere berøringspunkter:Forstå hvordan eksperimenter påvirker hele kundereisen, spore baner på tvers av enheter og måle effekten av forsinket konvertering.
Statistisk signifikans: Kjør sofistikerte analyser uten å ofre hastighet, og bruk automatisert testing og sekvensiell analyse for å ta raskere og mer nøyaktige beslutninger.

Disse funksjonene vil gjøre analysemotoren din fra et passivt rapporteringssystem til en aktiv innsiktsgenerator.

Hvordan velge beregninger på ulike programstadier

Hvert vellykket eksperimenteringsprogram går gjennom forskjellige stadier. Slik utvikler du strategien din for målinger i hver fase og vet når du er klar til å gå opp et nivå.

1. Tidlig fase: Bygge grunnlaget

På dette stadiet er hovedmålet ditt å bevise at eksperimentering fungerer. Du kan starte med to eller tre kjernemålinger og et enkelt dashbord.

Fokusområder:

Grunnleggende konverteringsmålinger som er direkte knyttet til inntekter
Testhastighet for å vise programmets momentum
Enkle gevinst/tap-forhold for interessentkommunikasjon

Suksessindikatorer:

Konsekvent statistisk signifikans i resultater
Tydelig dokumentasjon av testlærdommer
Grunnleggende avkastningsberegninger for store seire
Økende interessenters interesse for resultater

Eksempel: Konverteringsfrekvens, testhastighet, enkle gevinst/tap-forhold

2. Vekstfase: Økende effekt

Det er her programmet ditt begynner å drive meningsfull forretningsendring. Målingene som brakte deg hit, vil ikke ta deg til neste nivå.

Viktige overganger:

Gå fra å telle tester til å måle forretningspåvirkning
Begynn å spore inntekter per eksperiment
Introduser reisebaserte målinger
Bygg dypere innsikt i brukeratferd

Varseltegn på at du står fast:

For mange små, overfladiske tester
Vanskeligheter med å koble resultater til inntekter
Begrenset innsikt i brukerreiser
Interessenter som stiller spørsmål ved programverdien

Eksempel: Inntektsøkning, påvirkning av kundereisen, konverteringsrater fra flere kontaktpunkter

3. Avansert fase: Strategisk driver

På dette stadiet blir eksperimentering en kjernevirksomhetsdriver. Målingene dine må gjenspeile denne strategiske rollen.

Avanserte målinger inkluderer:

Sammensatte målinger som avslører skjulte muligheter
Læringshastighet på tvers av team
Målinger av ressurseffektivitet
Strategiske risikounngåelsesrater

Eksempel: Læringshastighet, ressurseffektivitet, strategisk risikounngåelsesrate

Implementeringsveiledning

Fem ting å gjøre for å vurdere målingene dine:

Kartlegg målingshierarkiet ditt: Skill mellom input-målinger (brukerhandlinger) og output-målinger (forretningsresultater). En detaljhandelskunde oppdaget at deres "vellykkede" tester optimaliserte klikk, men skadet kjøp. Mer om hvordan du maksimerer KPI-ene dine.
Still spørsmål til hver måleenhet: Spør «Hvorfor finnes denne måleenheten?» for hver enkelt. En B2B-klient reduserte måleenhetene sine fra 47 til 10 kjernemålinger og så interessentengasjementet doble seg.
Gjennomgå datakildene dine: Sjekk hvor dataene for hver måleenhet kommer fra og hvordan de er samlet inn. Vanlige fallgruver inkluderer silodata og inkonsekvent sporing.
Gjennomgå statistisk tilstand: Bekreft utvalgsstørrelser og signifikansrater. Venter du for lenge på resultater eller tar du beslutninger for raskt?
Sjekk forretningstilpasning: Koble hver måleenhet til et spesifikt forretningsmål. Fjern beregninger som ikke direkte påvirker beslutninger.

Slik gikk Carl Ras fra å spore grunnleggende konverteringsberegninger til å måle komplette kundereiser, og avdekke uventede sammenhenger mellom produktoppdagelse og kjøpsatferd. Resultatet var en økning på 35 % i nettsalg og 10 % høyere gjennomsnittlig ordreverdi.

Sjekkliste for implementering av beregninger:

1. Bygg grunnlaget for beregningene dine

Velg 2–3 primære utdataberegninger
Definer støttende inndataberegninger
Angi tydelige overvåkingsterskler

2. Muliggjør suksess på tvers av team

Opprett delte dashbord
Etabler gjennomgangsprosesser
Spor teamspesifikke effekter

Tre konklusjoner

For å oppsummere, her er tre konklusjoner:

Å forankre en hypotese i data og måle de riktige beregningene
påvirker hvordan team utfører idéutvikling og design. Gå videre til den reisebaserte målingen som fanger opp den komplette kundeopplevelsen.
Fokuser på sammensatte beregninger som kombinerer forskjellige datapunkter for å avdekke dypere innsikt, som å koble kundeanskaffelseskostnader med livstidsverdi.
Tilpass beregninger med programmets modenhet. Start med kjernekonverteringer, utvid deretter til reiseberegninger, og gå til slutt videre til strategiske målinger som driver forretningsbeslutninger.

La oss snakke om eksperimenteringsmålinger: De nye reglene for skalering av programmet ditt