Posted august 30, 2021

5 (eller 6) verdier av feature flags for utrulling og eksperimentering

7 min read time

Hvordan får vi egentlig mest igjen for tid, penger og innsats? Vi prioriterer etter beste evne fra backlog og ønskelister innenfor de rammer vi har til utvikling. Men vet vi om resultatet blir bra nok? Vil kunder og brukere faktisk verdsetter det vi lager – i stor nok grad til at investeringen egentlig er lønnsom? Svarene kan finnes gjennom gradvis utrulling og eksperimentering.

Gradvis utrulling og eksperimentering for produkter og tjenester er i bunn og grunn en solid metodikk for utvikling av produkter og tjenester. Vi er alle med i andres eksperimenter hver eneste dag - som regel uten at vi vet om det. Noen får "placebo", andre får vaksine. Formålet er å forstå så tidlig som mulig om en endring eller nyhet har verdi. Om endringen virker til sin hensikt for brukerne som får en opplevelse som er forskjellig fra kontrollgruppen. Gjennom å teste variasjoner forstår vi mer om bruk og verdi.

Den enkle sannhet er faktisk at de aller fleste idéer og endringer ikke har noe målbar postiv verdi for noen. Ofte er konsekvensene negative - som hvis endringen gjør tjenesten forvirrende eller ny funksjon har feil eller dårlig ytelse. Men konsekvensene kan også være indirekte negative - vi dytter noe nytt inn i ene enden, uten helt å forstå at dette kan ha negativ effekt for andre verdiskapende funksjoner som kanskje faller ut i andre enden.

Vi har alle en begrenset båndbredde, og vi har alle begrensninger på tid, innsats og muligheter til å gjøre en forskjell som skaper verdi. En arbeidsmetode basert på eksperiment-drevet utvikling har åpenbare verdier for alle virksomheter. Her er 5 verdier for absolutt alle - uansett utgangspunkt, bransje, virksomhet, organisasjon, eller målsetninger.

#1: Rask idéutvikling - prototyping, eksperimentering og læring

Den klassiske A/B testen er hvor Optimizelys løsninger for eksperimentering startet. Som del av Obamas kampanjer ble forsider testet med tydelig læring om hvilke videoer og budskap som traff best. Dette er en historie som er godt beskrevet her.

I forlengelsen av dette ble også knappen for donasjon til kampanjen testet. Utgangspunktet for en A/B test er å velge "beste" alternativ. Men så enkelt er det ikke alltid, for det kampanjeteamet fant ut var at anmodningene fungerte med svært forskjellig effekt på forskjellige brukergrupper:

Conversion table

Det har utrolig høy verdi å forstå hva forskjellige brukere ønsker og reagerer på. Tidlig (og kontinuerlig) testing gir økt forståelse og innsikt som legger premisser for videre fokus og prioriteringer.

#2: Fokusert iterativ utvikling basert på målbar verdi - snu tidlig, bekreft og forbedre det som virker

En større internasjonal mediebedrift vurderte å innføre bokmerker til innhold for å øke engasjement og insentiv til å registrere seg som bruker. Den enkle tanken er at høyere engasjement i innhold gir mer annonser å vise - og altså høyere inntekter. Det er slett ingen dum tanke, men bør det gjennomføres?

Vanligvis legges slike idéer i Backlog, hvor det gjerne gjøres scoping av behov for implementering - og gjerne med estimater av verdien av den økte trafikken som antas å følge. Hvor på siden skal bokmerker plasseres? I hvilke former skal det vises? Hvordan skal listene over bokmerker prioriteres eller integreres i andre lister over besøkt eller populært innhold? Bokmerkene forutsetter innlogget bruker, så prosessen med å lede brukeren gjennom registrering og innlogging på en intuitiv måte må også designes ut fra bokmerke-knappene. Og om man har opprettet bokmerker, så vil det jo være naturlig at man også kanskje har et eget administrasjonsgrensesnitt for bokmerkene? Hvor kanskje kategorier, beskrivelse og dato for sist brukt kanskje vises som hjelp til egen sortering og prioritering? Story i backlog for den enkle idéen sier nå kanskje 100 timer utvikling - i tillegg til all intern tid for avklaringer, testing og oppfølging i beslutninger som aldri blir tallfestet. Og etter implementering blir en hver funksjonalitet "legacy" som vi drar med oss, og bokmerke funksjonaliteten må ta testes og verifiseres gjentatte ganger for all senere utvikling og redesign.

Ofte tas beslutninger uten å verifisere at funksjonalitet for bokmerker gir reell verdi. At brukere har interesse av funksjonaliteten. Eller at denne interessen også gir en varig endring i adferd som har verdi for virksomheten. Beslutninger basert kun på antagelser og enkeltpersoners sterke meninger.

Den aktuelle mediebedriften gikk i stedet en annen vei. De laget enkleste mulige prototype med bare bare knappen for "Legg til bokmerke". Brukere som klikket på denne fikk i stedet bare en liten popup for å bekrefte om de faktisk ønsket å ha en slik funksjon. En såkalt "Minimum Viable Product" (MVP) som for brukeren ser ut som virkelig funksjonalitet. Akkurat denne varianten kalles en "Painted Door" test - vi viser frem en fin og spennende dør, og så ser vi om brukere faktisk bryr seg med å åpne den opp. I dette tilfellet ble prosjektet med bokmerker skrinlagt før det egentlig kom i gang. Interessen var lavere enn antatt. Verdien var for liten. Tid og penger ble omprioritert til andre oppgaver.

#3: Gradvis utrulling mot målgrupper for økt kvalitet og redusert risiko

La oss si at vi har eksperimentert oss frem til utforming av en ny tjeneste. Vi vet at det er det riktigste vi innenfor økonomiske og praktiske rammer kan levere våre kunder og brukere. Vi jobber hardt med å utvikle den. Uker med hardt arbeid, og testing og verifisering underveis. Vi er trygge på at vi har vinneren klar, vi skrur på alt i produksjon, og annonserer vår nyvinning for alle. Vi gleder oss til å glede alle våre brukere. I stedet går alt ned så snart trykket øker. Eller kanskje løsningen tok unna, men gjentatte feil overveldet kundeservice. Alle varianter av dette er kjente historier som dessverre gjentas altfor ofte.

Det er sjelden vi klarer å vurdere alle effekter i forkant. Og det er slett ikke overraskende, for med både løsninger, brukere og ansatte så er det en seriøst komplisert sammensetning av innsats og effekter som skal gå i takt. Vi kan gjerne ha en god plan og gode forberedelser, men en gradvis utrulling av nyheter til forskjellige brukergrupper, nye geografiske regioner eller andre dimensjoner vil alltid gi mulighet til å justere, forbedre og utvide underveis slik at vi kan utbedre mens vi går.

Slider in Feature Experimentation showing slow rollout

Skjermbilde fra løsningen som viser hvordan man kan definere hvilke målgrupper og hvor mange fra hver som det skal rulles ut til.

Tillit tar lang tid å bygge opp, men kan ødelegges på minutter. En gradvis lansering gir høyere trygghet og lavere risiko.

#4: Dokumentert verdi - faktisk læring om hva som virker for hvem og hvorfor

Eksperimentering gir statistisk signifikante svar på de spørsmål som stilles. Det forvandler tro, håp, meninger og antagelser til dokumenterte svar om hva som er mer eller mindre riktig enn utgangspunktet. Trygghet i dokumentert verdi gir et stadig sterkere fundament for fokus og prioriteringer, spesielt når svar kan forklares gjennom innsikt og læring.

For mange av våre kunder er denne dokumentasjonen nyttig for å sette verdi på områder som ellers er vanskelig å tallfeste. Det gjelder spesielt enheter innen marked, utvikling, produkt og støtte som gjerne står på kostnadssiden i alle regnestykker, men hvor faktisk verdi er mye vanskeligere å dokumentere.

Eksperimentering kan tallfeste all innsatsen som ofte ellers er usynlig i virksomheter.

#5: Bygger kompetanse og kultur for forbedring gjennom data-drevne beslutninger - med store ringvirkninger

Virksomheter endres for alltid ved gjennomføring av et vellykket eksperiment; utforme en hypotese, teste variasjoner mot faktiske brukere, og forme læring og innsikt basert på resultatene som strømmer inn. Denne effekten gjelder ikke bare gleden av eksperiment og testing som går "som antatt" – tvert i mot er det overraskelsene som mer enn noe vil endre kulturen. Overraskelsene (og dem er det mange av) må forklares som noe mer enn et "avvik". Brukere gjør uansett som de gjør ut fra forutsetningene de har, og viser det seg at vi ikke har forstått dette riktig så er det bare å lage nye eksperiment for å forstå og forbedre.

Over tid vil kulturen endres fra bort fra påstander og antagelser. Data-drevne beslutninger vil da flate ut strukturen i virksomheten - alles idéer er nå like mye (eller like lite) verd. Sannheten om verdi skal finnes i erfaringen med utrulling og tallene fra eksperimentene som kjøres underveis.

#6: Økt fart – men det er opp til dere!

Disse 5 fordelene kan utvides med en åpenbare 6. verdi: Økt fart i virksomheten. Det er begrenset med verdier som kan hentes fra ett og annet spedt forsøk på å teste noen endringer og noen funksjoner. Målsetningen må i stedet være å teste mer for raskere og tryggere beslutninger over hele linjen. Kontinuerlig læring og innsikt for riktigere prioritering av tid og ressurser - for høyere verdi for brukerne, og gjennom dette høyere verdi for virksomheten.

Når de fleste opplevde behov, ønsker og gode idéer ikke faktisk har målbar verdi, så blir det åpenbare spørsmålet: Hvor fort kan dere styre vekk fra all innsats som ikke gir verdi - og hvor fort kan dere identifisere hva som faktisk gir verdi slik at effektene kan forsterkes? Det er altfor sent å finne svarene i gamle logger og analyser, eller fjorårets regnskap. Da er alle investeringer allerede gjort, innsatsen lagt ned, båndbredden hos brukere er spist opp, konkurrenter har gått forbi, og goodwill og interesse kanskje skadet for lang tid.

Daniel Ek, gründer i Spotify, sier det ganske enkelt:

"We aim to make mistakes faster than anyone else."

Hva med dere? Hvor tidlig er dere trygge på egne beslutninger - og hvor tidlig tar dere konsekvensene av feil?

Last modified:28.04.2025 14:52:32