What common metrics mistakes do experimentation teams make?

Two critical mistakes often emerge in metric selection: Misaligned funnel metrics: Using downstream metrics (like revenue) to evaluate upstream changes (like homepage engagement) can lead to misleading conclusions. Metric overload: Including too many metrics creates decision paralysis. Focus on core metrics and page-specific metrics defined in your test plan.

What metrics do our most successful enterprise customers track?

Success in experimentation comes down to tracking two metric types, core business metrics that reflect overall performance, and hypothesis-specific metrics tailored to each experiment. For example, an e-commerce site would track overall purchase conversion as a core metric, while also measuring search bar interactions for a search-focused experiment.

What analytics integrations drive the most value?

Two key integrations: Warehouse native analytics is a great integration for longtail metrics (like return rate) or your core metrics which live in your data warehouse. Behavioral analytics integrations (e.g. Google Analytics) allow for exploration of other metrics that were influenced by your hypothesis, which were not part of the success criteria. An example of this would be noticing your navigation interactions went down if your experiment was increasing the prominence of the search bar in your header.

Posted desember 23, 2024

La oss snakke om eksperimentelle beregninger: De nye reglene for skalering av programmet ditt (I 2025)

av Mark Wakelin

8 min read time

Det er en grunn til at noen eksperimenteringsprogrammer skalerer, mens andre stagnerer. Forskjellen ligger ikke i verktøyene eller talentet, men i hva de måler.

Det er en grunn til at noen eksperimenteringsprogrammer skalerer, mens andre stagnerer.

I forrige måned satte jeg meg ned med en digital direktør i en Fortune 500-forhandler med en velkjent utfordring. Gevinstprosenten deres? Over bransjegjennomsnittet. Hastigheten på testene deres? Øker kvartal etter kvartal. Men i kvartalsgjennomgangen stilte konsernsjefen et spørsmål som fikk dem til å stoppe opp:

Vi kjører flere tester enn noensinne, men hvorfor flytter ikke dette bunnlinjen vår?

De fleste eksperimenteringsprogrammer sliter fordi de:

Feirer overfladiske gevinster (Se, fargeendringen på knappen fungerte)
Jager testhastighet uten å se effekten (Vi kjørte 50 % flere tester dette kvartalet)
Samler inn forfengelighetsmålinger (gevinstprosenten vår er over bransjegjennomsnittet)

Å fastsette de riktige måleparameterne er en konstant utfordring vi hjelper kundene våre med å overvinne, spesielt når de prøver å skalere eksperimenteringsprogrammene sine.

I denne bloggen kan du se:

Hvilke måltall som faktisk forutsier programvekst
Hvordan ledende programmer beviser massiv avkastning (uten å lure systemet)
Et praktisk rammeverk for å utvikle måleparametrene dine etter hvert som programmet skaleres
De skjulte effektmålingene som de fleste programmer overser

Gode måltall teller ikke bare ting, de forteller historier som driver vekst.

Vanlige målefeil du bør unngå

Tre vanlige mønstre som hindrer gode programmer i å skalere:

1. Besettelsen av gevinstprosent

Programmer feirer ofte gevinstrater, men når du graver dypere, er disse "gevinstene" for det meste mindre justeringer med minimal innvirkning på virksomheten. Dataene forteller oss at bare 12 % av eksperimentene gir gevinst.

Win rate across industry

Kilde: Optimizely Evolution of Experimentation Report: Optimizely Evolution of Experimentation Report

Det er klart at gevinstprosenten er viktig - spesielt når du prøver å få oppslutning i begynnelsen av programmet. Men for å ta programmet til neste modenhetsnivå, må du gå forbi dette og begynne å se på verdien av eksperimentering i form av økt effekt, og oversette gevinstprosent til forventet effekt per test.

Vil du for eksempel heller ha tester som vinner i 10 % av tilfellene, men som gir en gevinst på en million dollar? Eller tester som vinner 50 % av gangene, men som bare gir 100 dollar i ekstra inntekter? (Du trenger egentlig ikke å svare på det).

Alle eksperimenter gir verdi - tapende tester forhindrer skadelige endringer, mens uklare resultater sparer ressurser fra områder med lav effekt.

2. Illusjonen om hastighet

Antall tester alene forutsier ikke programsuksess. De mest vellykkede programmene kjører ikke bare flere tester, de kjører bedre tester. De tester

Tester et høyere antall variasjoner samtidig
Skifter ikke bare til hastighet, men også til større endringer og innvirkning
Gjør større kodeendringer med større effekt på brukeropplevelsen

3. Problemet med overfladiske beregninger

De fleste programmer sporer dusinvis av måleparametere, men sliter med å svare på spørsmål om forretningseffekt.

De måler alt annet enn det som betyr noe:

Sporer klikk, men ikke effekten på kundereisen
Teller sidevisninger, men ikke kjøpsintensjon
Måler overflateengasjement, men ikke dyptgående brukeratferd

Type beregninger

Over 90 % av eksperimentene er rettet mot fem vanlige måleparametere:

CTA-klikk
Inntekter
Betaling
Registrering
Legg til i handlekurven

Tre av de fem viktigste beregningene har imidlertid relativt lav forventet effekt.

Bilde: Målinger etter effektandel

Det er tydelig at beregninger med høy effekt blir oversett. Til tross for at de bare testes 1 % av tiden, viser søkeoptimalisering den høyeste forventede effekten på 2,3 %.

Kunder som søker, konverterer 2-3 ganger mer enn nettlesere
Søkemønstre avslører umiddelbare inntektsmuligheter
Søk uten resultat avdekker produktgap

Målinger av kundereisen

En annen måte å skalere eksperimenteringsprogrammet på, er å måle hele kundereiser i stedet for å fokusere på enkeltstående sider.

Tenk på din egen produktreise. En kunde tar sjelden en beslutning basert på én enkelt side eller funksjon. De beveger seg gjennom en rekke interaksjoner, og hver av dem bygger på den forrige. Likevel optimaliserer de fleste programmer fortsatt disse berøringspunktene isolert.

Et stort SaaS-selskap vi jobber med, gikk nylig over fra å optimalisere konverteringsfrekvensen på prissiden til å måle hele vurderingsreisen. Testen av den "vinnende" prissiden skapte faktisk friksjon lenger ned i trakten. Ved å gå over til reisebasert måling økte de konverteringsfrekvensen.

Viktige reisemålinger å ta hensyn til:

Interaksjonsmønstre på tvers av sider som avslører hvordan brukerne faktisk navigerer i produktet ditt
Avbruddspunkter i komplekse flyter, spesielt flerstegsprosesser som betaling eller onboarding
Atferdsendringer hos tilbakevendende besøkende som signaliserer langsiktig innvirkning på engasjementet
Attribusjon av flere berøringspunkter for å forstå hvilke kombinasjoner som driver konvertering

Sammensatte beregninger

Du kan også kombinere målinger på uventede måter. I stedet for å se på andelen kunder som forlater handlekurven isolert, kan du kombinere den med data om kundens livstidsverdi. Potensielle kunder sammenligner ofte alternativer før de forplikter seg til noe større.

Her er noen eksempler på hvordan du kan kombinere ulike måltall for å oppnå større effekt:

Kundeanskaffelseskostnad kombinert med livstidsverdi avslører den virkelige avkastningen på eksperimentering.
Adopsjon av funksjoner kombinert med tall for oppbevaring viser hvilke produktendringer som holder seg.
Prissensitivitet analysert sammen med kjøpsfrekvens identifiserer de mest verdifulle optimaliseringsmulighetene.

Husk at de primære måleparameterne varierer fra bransje til bransje, på grunn av forskjeller i mål, prioriteringer og sporingsmuligheter.

Metrics share by industry

Kilde: Optimizely Evolution of Experimentation Report: Optimizely Evolution of Experimentation Report

Flere tester = mer verdi. Selv data sier at det ikke er sant.

Er det virkelig så enkelt som at flere tester = mer verdi?

Når du starter opp programmet ditt, for eksempel de første 12-18 månedene, ja - kjør så mange tester som mulig. Det vil hjelpe deg med å bygge opp en databank med vellykkede historier med sikte på å vinne flere ressurser og etablere en kultur for eksperimentering.

Å gå videre til neste nivå handler imidlertid ikke nødvendigvis om å øke hastigheten. Det handler om å fokusere på kompleksitet og gå utover kosmetiske endringer. Små justeringer har en tendens til å resultere i små løft. Forskningen vår viste oss at de eksperimentene som gir de største forbedringene, har to ting til felles:

De gjør større kodeendringer med større effekt på brukeropplevelsen.
De tester et høyere antall variasjoner samtidig.

Mer komplekse eksperimenter som gjør store endringer i brukeropplevelsen, f.eks. prising, rabatter, kassaflyt, datainnsamling osv. har større sannsynlighet for å generere høyere uplifts.

Analysens rolle

For å kunne spore reisemålinger og skape sammensatte målinger må dataene dine fungere sammen. Men de fleste eksperimenteringsprogrammer står overfor en grunnleggende hindring, ettersom dataene deres lever i siloer. Nettanalyse på ett sted, kundedata på et annet, og eksperimentresultater et helt annet sted.

Det er her warehouse-native analytics endrer spillet.

Test mot alle beregninger i lageret, fra inntekter til livstidsverdi, uten komplekse datapipelines.
Få svar på sofistikerte forretningsspørsmål på minutter, ikke dager. Generer kohortinnsikt på farten.
Kjør eksperimenter på tvers av nett, e-post og CRM ved hjelp av Stats Engine, alt analysert på ett sted.
Oppbevar sensitive data i lageret ditt mens du kjører avanserte eksperimenter.
Slutt å diskutere måleparametere når alle jobber med de samme dataene fra lageret.

Se hvorfor lagerintegrerte analyser er nåtiden og fremtiden for datadrevne eksperimenter.

Analysemulighetene dine bør også omfatte mer enn bare konsolidering av data. Listen omfatter blant annet

Varmekartlegging: Gå lenger enn grunnleggende klikksporing for å forstå hvordan brukerinteraksjoner omsettes til inntekter på tvers av hele kundereisen.
Egendefinerte hendelser: Frigjør deg fra forhåndsdefinerte hendelser og spor all brukeratferd som er viktig for virksomheten din, inkludert komplekse interaksjonssekvenser og konverteringsveier i flere trinn.
Attribusjon med flere berøringspunkter: Forstå hvordan eksperimenter påvirker hele kundereisen, spor stier på tvers av enheter og mål forsinket konverteringseffekt.
Statistisk signifikans: Kjør sofistikerte analyser uten å ofre hastigheten, ved å utnytte automatiserte tester og sekvensiell analyse for å ta raskere og mer nøyaktige beslutninger.

Disse funksjonene gjør analysemotoren din til en aktiv innsiktsgenerator i stedet for et passivt rapporteringssystem.

Slik velger du måleparametere i ulike programfaser

Alle vellykkede eksperimenteringsprogrammer går gjennom ulike stadier. Slik utvikler du målestrategien din i hver fase og vet når du er klar til å gå videre.

1. Tidlig fase: Bygge grunnlaget

På dette stadiet er hovedmålet å bevise at eksperimentering fungerer. Du kan starte med to eller tre kjernemålinger og et enkelt dashbord.

Experimentation metrics checklist

Fokusområder:

Grunnleggende konverteringsmålinger som er direkte knyttet til inntekter
Testhastighet for å vise fremdriften i programmet
Enkle vinn/tap-forholdstall for kommunikasjon med interessenter

Indikatorer for suksess:

Konsekvent statistisk signifikans i resultatene
Tydelig dokumentasjon av erfaringer fra testene
Grunnleggende ROI-beregninger for store gevinster
Økende interesse for resultatene blant interessentene

Eksempel: Konverteringsrate, testhastighet, enkle vinn/tap-forhold

2. Vekstfase: Utvidet effekt

Det er nå programmet begynner å skape meningsfulle endringer i virksomheten. Målingene som fikk deg hit, vil ikke ta deg til neste nivå.

Viktige overganger:

Gå fra å telle tester til å måle forretningseffekten
Begynn å spore inntekter per eksperiment
Innfør reisebaserte beregninger
Bygg dypere innsikt i brukeratferd

Advarselstegn på at du har kjørt deg fast:

For mange små, overfladiske tester
Vanskeligheter med å koble resultater til inntekter
Begrenset innsikt i brukerreisene
Interessenter stiller spørsmål ved verdien av programmet

Eksempel: Inntektsøkning, innvirkning på kundereisen, konverteringsrater for flere berøringspunkter

3. Avansert stadium: Strategisk drivkraft

På dette stadiet blir eksperimentering en viktig drivkraft for virksomheten. Målingene dine må gjenspeile denne strategiske rollen.

Avanserte beregninger inkluderer

Sammensatte beregninger som avdekker skjulte muligheter
Læringshastighet på tvers av team
Målinger av ressurseffektivitet
Strategisk risikounngåelse

Eksempel: Læringshastighet, ressurseffektivitet, strategisk risikounngåelsesrate

Veiledning for implementering

Fem tips for å vurdere måltallene dine:

Kartlegg målehierarkiet: Skill mellom input-målinger (brukerhandlinger) og output-målinger (forretningsresultater). En detaljhandelskunde oppdaget at deres "vellykkede" tester optimaliserte klikk, men skadet kjøpene. Mer om hvordan du maksimerer KPI-ene dine.
Still spørsmål ved hver eneste måling: Spør "Hvorfor eksisterer denne beregningen?" for hver enkelt. En B2B-kunde reduserte antall målinger fra 47 til 10 kjernemålinger, og opplevde at interessentenes engasjement ble doblet.
Gransk datakildene dine: Sjekk hvor dataene for hver enkelt måleindikator kommer fra, og hvordan de er samlet inn. Vanlige fallgruver er silodata og inkonsekvent sporing.
Gjennomgå den statistiske helsen: Kontroller utvalgsstørrelser og signifikansgrader. Venter du for lenge på resultater, eller tar du beslutninger for raskt?
Sjekk virksomhetstilpasningen: Knytt hver enkelt måling til et spesifikt forretningsmål. Fjern målinger som ikke har direkte innvirkning på beslutninger.

Slik gikk Carl Ras fra å spore grunnleggende konverteringsmålinger til å måle komplette kundereiser, noe som avslørte uventede sammenhenger mellom produktoppdagelse og kjøpsatferd. Resultatet var en økning i nettsalget på 35 % og 10 % høyere gjennomsnittlig ordreverdi.

Sjekkliste for implementering av målinger:

1. Bygg opp grunnlaget for målingene

Velg 2-3 primære utdatamålinger
Definer støttende inndatamålinger
Fastsett klare terskelverdier for overvåking

2. Gjør det mulig å lykkes på tvers av team

Opprett felles dashbord
Etablere gjennomgangsprosesser
Spor teamspesifikke effekter

Frequently asked questions (FAQs)

Two key integrations:

Warehouse native analytics is a great integration for longtail metrics (like return rate) or your core metrics which live in your data warehouse.
Behavioral analytics integrations (e.g. Google Analytics) allow for exploration of other metrics that were influenced by your hypothesis, which were not part of the success criteria. An example of this would be noticing your navigation interactions went down if your experiment was increasing the prominence of the search bar in your header.

Tre korte oppsummeringer

Her er tre ting du kan lære av dette:

Å forankre en hypotese i data og måle de riktige parameterne
påvirker hvordan teamene jobber med idéutvikling og design. Gå videre til reisebaserte målinger som fanger opp hele kundeopplevelsen.
Fokuser på sammensatte måltall som kombinerer ulike datapunkter for å avdekke dypere innsikt, for eksempel ved å koble kundeanskaffelseskostnad med livstidsverdi.
Tilpass målingene til programmets modenhet. Begynn med kjernekonverteringer, utvid deretter til reisemålinger, og gå til slutt videre til strategiske målinger som driver frem forretningsbeslutninger.

Last modified:25.04.2025 21:15:18