Fremtiden for eksperimentering

Etter hvert som utførelsen blir billig, blir klarhet dyrt.

Den røde dronningen fortalte Alice at det kreves all den løpingen du klarer bare for å bli stående på samme sted. KI leverte akkurat den dynamikken til digitale organisasjoner. Team genererer ideer raskere, produserer innhold raskere og kjører eksperimenter raskere enn noensinne. Det gjør konkurrentene deres også.

Samtidig komprimerer KI toppen av trakten. Færre interaksjoner når helt frem til dine egne flater, noe som betyr at mange team nå står overfor to skift på én gang: kostnaden ved å starte eksperimenter kollapser, og trafikken som finnes å lære av, blir stadig knappere.

Det endrer spillet. Å kjøre flere eksperimenter raskere er ikke lenger et konkurransefortrinn i seg selv. Mange team kan nå gjøre det. Fortrinnet kommer av å lære raskere under strammere begrensninger.

Paradokset utførelse-klarhetutførelse-klarhet

Dette er den sentrale spenningen.

KI har gjort det dramatisk billigere å handle, men ikke billigere å vite hvilken handling som er verdt å foreta.

Utførelseskostnadene kollapser. Kostnaden ved klarhet — å vite hva man skal teste, hvilket nøkkeltall som betyr noe, og hva resultatet faktisk betyr — stiger. De teamene som forveksler billigere utførelse med enklere læring, vil optimalisere raskere mot feil utfall.

Eksperimenteringsmodellen ble bygget for knapphet

I store deler av det siste tiåret var eksperimenteringsprogrammer organisert rundt knapphet. Statistisk ekspertise lå hos små datavitenskapsteam. Ingeniørtid var knapp, så tester konkurrerte med veikartarbeidet. Analytikerkapasiteten var begrenset, så tolkning skjedde ofte dager eller til og med uker etter at en test var avsluttet

Disse begrensningene forsvinner raskt. Implementering pleide å være den begrensende funksjonen for eksperimentering. I økende grad er den ikke det.

Vi ser allerede at KI-systemer løfter frem hypoteser, genererer variasjoner av produksjonskvalitet, akselererer testoppsett, oppsummerer resultater, produserer ledelsesklare rapporter og anbefaler nest beste tiltak. For en stor andel av vanlige eksperimenter innen innhold, budskap og layout nærmer marginalkostnaden ved utførelse seg null.

Dataene underbygger dette.

Ifølge en Gartner-prognose (mars 2026) vil kostnaden ved å utføre inferens på en LLM med én billion parametere falle med over 90 % innen 2030 sammenlignet med 2025. Den banen kollapser utførelseskostnadene på tvers av hver KI-assisterte arbeidsflyt, eksperimentering inkludert.

I mellomtiden fant McKinseys globale undersøkelse fra 2025 at 88 % av organisasjonene nå bruker KI i minst én forretningsfunksjon, men at flertallet fortsatt befinner seg i pilotstadier og ennå ikke realiserer en effekt på tvers av hele virksomheten. Adopsjonen skalerer raskere enn evnen til å lære av den, noe som er nettopp det gapet eksperimenteringsprogrammer må tette.

Men å fjerne knapphet fjerner ikke kompleksitet. Det omplasserer den. Flaskehalsen har ikke forsvunnet. Den har flyttet oppstrøms.

Billig utførelse øker volumet raskere enn det øker forståelsen. De virkelige spørsmålene er nå vanskeligere:

Hva prøver vi å lære?
Hvilket utfall betyr noe?
Hvilket nøkkeltall indikerer et ekte signal, ikke bare støy?

Tre ting blir avgjørende menneskelige ansvarsområder.

Å definere nøkkeltallsrammeverket: Nøkkeltallsrammeverket er settet av ledende indikatorer som bør forutsi forretningsutfallet du bryr deg om. Hvis loopen retter seg mot aktivering på dag 7, men dette ikke forutsier kundebevaring over 12 måneder, har organisasjonen bygget en effektiv maskin pekt mot feil mål.

Å sette skinner: En loop som bare er optimalisert for konvertering, vil til slutt finne den mest aggressive veien til konvertering, enten den skaper langsiktig verdi eller ikke. Noen må fortsatt definere begrensningene.

Å vite når man skal overstyre systemet: Noen strategiske trekk presterer dårligere på kort sikt. Systemet vil prøve å gå tilbake til det lokale optimumet. Å vite når man skal holde kursen, er fortsatt menneskelig skjønn.

De fleste eksperimenteringsteam er organisert rundt det å kjøre eksperimenter. Når KI eier det, flytter jobben oppstrøms. Det handler om å bestemme hva som er verdt å lære, hvilket forretningsutfall som er verdt å flytte, og hvilke nøkkeltall som faktisk forteller deg om du lyktes.

Tester du fortsatt sider eller tester du beslutningspolicyer?

Den gamle mentale modellen for eksperimentering var statisk sammenligning: A mot B. To variasjoner, én vinner, lever den. Den modellen er ikke død. Men den er ikke lenger tyngdepunktet.

I økende grad er objektet som testes, ikke en side eller en variasjon. Det er en beslutningspolicy: hva som skal vises, når man skal gripe inn, hvordan man skal rute, hvilket tilbud eller hvilken modell eller prompt som skal kalles, på tvers av nett, app og e-post.

En variasjon er en fast opplevelse. En policy er et sett av regler, sannsynligheter eller innlærte atferder som avgjør hvilken opplevelse som leveres under hvilke betingelser. Den må evalueres på tvers av kontekster, kanaler, brukersegmenter og tid, ikke bare utropes til vinner og leveres.

Spørsmålet er ikke lenger hvilken versjon som presterer bedre. Det er hvilken beslutningslogikk som konsekvent produserer bedre utfall.

De teamene som innser dette tidlig, vil slutte å behandle eksperimentering som en optimaliseringsfunksjon på sidenivå og begynne å behandle den som et system for å evaluere beslutningskvalitet.

Hvordan kobles evals og eksperimenter sammen til én læringsloop?

Etter hvert som beslutningssystemer blir mer dynamiske, bør ikke hver kandidat gå rett inn i live trafikk. Det er her evals blir avgjørende.

Evals er screeninglaget som brukes til å vurdere kvalitet, konsistens og sikkerhet før en kandidat når livebrukere. I praksis kan det bety kuraterte golden datasets, enhetstester for forventet atferd eller modellbasert vurdering mot definerte kriterier. Liveeksperimenter forblir bevislaget for å vise om en endring faktisk flyttet atferd eller forretningsutfall under reelle forhold. Ingen av dem alene er tilstrekkelig.

Andrej Karpathy kjørte 700 eksperimenter på 48 timer uten menneskelig inngripen gjennom sitt open source-autoresearch-system — fordi det hadde et pålitelig offline-eval-nøkkeltall. Agenten fant 20 genuine forbedringer som måneder med manuelt arbeid hadde oversett. Shopifys administrerende direktør replikerte mønsteret over natten for en gevinst på 19 %. Lærdommen: når du har en troverdig eval, kollapser eksperimentkostnaden til nær null. Uten en er volum bare støy

Evals uten eksperimenter produserer kvalitetsvurderinger, ikke kausale bevis. Eksperimenter uten evals sløser bort live trafikk på kandidater som aldri burde ha blitt forfremmet.

Arkitekturen som fungerer, er enkel:

Definer policyen
Test den offline
Send sterkere kandidater inn i trafikken
Mål den kausale effekten
Mat feil tilbake inn i eval-systemet

Evals filtrerer. Eksperimenter beviser.

Dette er allerede synlig i ad tech. Googles Performance Max og Metas Advantage+ genererer og evaluerer kandidatpolicyer kontinuerlig. Loopen kjører kontinuerlig i stedet for å vente på at et menneske skal utrope en vinner.

I løpet av de siste 1–2 årene har de mest fremoverlente produkt- og ingeniørlederne jeg snakker med, begynt å behandle evals som måten å sikre kvaliteten på det de leverer. Men A/B-testing forblir gullstandarden for å bevise at de opplevelsene faktisk forbedrer utfall, særlig når de er LLM-baserte og ikke-deterministiske.

De sterkeste teamene vil slutte å behandle evals og eksperimenter som adskilte praksiser som drives av ulike personer med ulike mål. Verktøyene for å støtte dette fra ende til ende modnes fortsatt på tvers av bransjen, men det arkitektoniske mønsteret er klart: de kobles sammen til én læringsloop.

COE forsvinner ikke. Jobben endrer seg.Jobben endrer seg.

Hvis læringsloopen i økende grad kjører seg selv ved å løfte frem hypoteser, generere variasjoner og tolke resultater, blir spørsmålet hvem som setter grensene den opererer innenfor.

Etter hvert som eksperimentering blir lettere å starte, mer distribuert på tvers av team og mindre avhengig av ingeniørarbeid, kan ikke et sentralt team forbli gjennomgåeren av hver test, tolkeren av hvert resultat og det menneskelige sikkerhetsnettet for hver dårlige beslutning.

Det betyr ikke at styring blir mindre viktig. Det betyr at styring i økende grad vil sitte i selve systemet: skinner for oppsett, designkontroller, nøkkeltallsvarsler, standardiserte evalueringsloop-er og tydeligere eskaleringsveier for de tilfellene som faktisk krever menneskelig skjønn.

Poenget er ikke å fjerne strengheten fra eksperimentering. Det er å slutte å kreve at et lite antall mennesker bærer alt manuelt. COE betyr fortsatt noe fordi mennesker fortsatt må forme prosessen, håndtere unntak og drive adopsjon på tvers av organisasjonen.

COE blir mindre av en gjennomstrømningsflaskehals og mer av en standardeier, endringsagent og eskaleringsvei. Det definerer begrensninger, setter kvalitetskrav, bestemmer hvor menneskelig tilsyn forblir ikke-forhandlingsbart, og hjelper organisasjonen med å ta i bruk nye arbeidsmåter uten å miste strengheten.

Det gamle COE beskyttet disiplinen ved å sentralisere skjønnet. Det neste vil beskytte den ved å utforme systemet og de organisatoriske vanene som demokratiserer skjønnet på en trygg måte.

Statistisk strenghet blir det akkumulerende fortrinnet

Dårlig statistisk inferens skalerer like lett som god inferens. Du risikerer ikke lenger én dårlig test. Du risikerer et system som blir bedre og bedre til å optimalisere feil ting.

De fleste eksperimenteringsprogrammer ble bygget da trafikken var rikelig nok til å tolerere svak metodikk. Team hadde råd til støyete tester, butte nøkkeltall og en god del sløsing. Mange har ikke det lenger. Hvis utførelseskostnaden faller mens trafikken som finnes å lære av blir knappere, oppnår de organisasjonene som lærer effektivt et reelt forsprang.

Det er derfor statistisk strenghet slutter å være metodikkhygiene og blir et strukturelt fortrinn. Å mate data inn i en LLM og be om en konklusjon er ikke statistisk strenghet. Metoder som forbedrer signaleffektiviteten og hever beviskravet vil bety mer: variansreduksjon, sekvensielle tilnærminger, sterkere proxydesign, kontroll av falske positive og strammere kausal disiplin.

Flere eksperimenter er ikke målet. Mer pålitelig læring er det.

Vinnerne i den neste æraen vil ikke ganske enkelt være de teamene som kan starte flere tester. Det vil være de som kan lære raskere under strammere begrensninger uten å senke beviskravet.

Oppsummert ...

Når utførelsen blir billig, blir klarhet dyrt. Den neste æraen av eksperimentering vil ikke bli vunnet av de organisasjonene som kjører flest tester. Den vil bli vunnet av dem som vet hva de prøver å endre, definerer forretningsutfallet som betyr noe, og kan bevise at de endret det. Etter hvert som eksperimentering blir billigere og mer distribuert, forskyves det virkelige fortrinnet mot skjønn, styring og strenghet.

Agentisk eksperimentering

Test, lær og optimaliser kontinuerlig med KI bygget inn i hvert trinn av eksperimenteringen, fra første idé til endelig avgjørelse.

Kilder

Gartner. Gartner Predicts That by 2030, Performing Inference on an LLM Will Cost Over 90% Less Than in 2025. Pressemelding, 25. mars 2026.

McKinsey & Company. The State of AI in 2025: Agents, Innovation, and Transformation. November 2025.

Karpathy, A. autoresearch. GitHub, mars 2026. Dekning: Fortune, 17. mars 2026.