Den røde dronningen fortalte Alice at det kreves all den løpingen du klarer bare for å bli stående på samme sted. KI leverte akkurat den dynamikken til digitale organisasjoner. Team genererer ideer raskere, produserer innhold raskere og kjører eksperimenter raskere enn noensinne. Det gjør konkurrentene deres også.
Samtidig komprimerer KI toppen av trakten. Færre interaksjoner når helt frem til dine egne flater, noe som betyr at mange team nå står overfor to skift på én gang: kostnaden ved å starte eksperimenter kollapser, og trafikken som finnes å lære av, blir stadig knappere.
Det endrer spillet. Å kjøre flere eksperimenter raskere er ikke lenger et konkurransefortrinn i seg selv. Mange team kan nå gjøre det. Fortrinnet kommer av å lære raskere under strammere begrensninger.
Dette er den sentrale spenningen.
Utførelseskostnadene kollapser. Kostnaden ved klarhet — å vite hva man skal teste, hvilket nøkkeltall som betyr noe, og hva resultatet faktisk betyr — stiger. De teamene som forveksler billigere utførelse med enklere læring, vil optimalisere raskere mot feil utfall.
I store deler av det siste tiåret var eksperimenteringsprogrammer organisert rundt knapphet. Statistisk ekspertise lå hos små datavitenskapsteam. Ingeniørtid var knapp, så tester konkurrerte med veikartarbeidet. Analytikerkapasiteten var begrenset, så tolkning skjedde ofte dager eller til og med uker etter at en test var avsluttet
Disse begrensningene forsvinner raskt. Implementering pleide å være den begrensende funksjonen for eksperimentering. I økende grad er den ikke det.
Vi ser allerede at KI-systemer løfter frem hypoteser, genererer variasjoner av produksjonskvalitet, akselererer testoppsett, oppsummerer resultater, produserer ledelsesklare rapporter og anbefaler nest beste tiltak. For en stor andel av vanlige eksperimenter innen innhold, budskap og layout nærmer marginalkostnaden ved utførelse seg null.
Dataene underbygger dette.
Ifølge en Gartner-prognose (mars 2026) vil kostnaden ved å utføre inferens på en LLM med én billion parametere falle med over 90 % innen 2030 sammenlignet med 2025. Den banen kollapser utførelseskostnadene på tvers av hver KI-assisterte arbeidsflyt, eksperimentering inkludert.
I mellomtiden fant McKinseys globale undersøkelse fra 2025 at 88 % av organisasjonene nå bruker KI i minst én forretningsfunksjon, men at flertallet fortsatt befinner seg i pilotstadier og ennå ikke realiserer en effekt på tvers av hele virksomheten. Adopsjonen skalerer raskere enn evnen til å lære av den, noe som er nettopp det gapet eksperimenteringsprogrammer må tette.
Men å fjerne knapphet fjerner ikke kompleksitet. Det omplasserer den. Flaskehalsen har ikke forsvunnet. Den har flyttet oppstrøms.
Billig utførelse øker volumet raskere enn det øker forståelsen. De virkelige spørsmålene er nå vanskeligere:
Tre ting blir avgjørende menneskelige ansvarsområder.
De fleste eksperimenteringsteam er organisert rundt det å kjøre eksperimenter. Når KI eier det, flytter jobben oppstrøms. Det handler om å bestemme hva som er verdt å lære, hvilket forretningsutfall som er verdt å flytte, og hvilke nøkkeltall som faktisk forteller deg om du lyktes.
Den gamle mentale modellen for eksperimentering var statisk sammenligning: A mot B. To variasjoner, én vinner, lever den. Den modellen er ikke død. Men den er ikke lenger tyngdepunktet.
I økende grad er objektet som testes, ikke en side eller en variasjon. Det er en beslutningspolicy: hva som skal vises, når man skal gripe inn, hvordan man skal rute, hvilket tilbud eller hvilken modell eller prompt som skal kalles, på tvers av nett, app og e-post.
En variasjon er en fast opplevelse. En policy er et sett av regler, sannsynligheter eller innlærte atferder som avgjør hvilken opplevelse som leveres under hvilke betingelser. Den må evalueres på tvers av kontekster, kanaler, brukersegmenter og tid, ikke bare utropes til vinner og leveres.
De teamene som innser dette tidlig, vil slutte å behandle eksperimentering som en optimaliseringsfunksjon på sidenivå og begynne å behandle den som et system for å evaluere beslutningskvalitet.
Etter hvert som beslutningssystemer blir mer dynamiske, bør ikke hver kandidat gå rett inn i live trafikk. Det er her evals blir avgjørende.
Evals er screeninglaget som brukes til å vurdere kvalitet, konsistens og sikkerhet før en kandidat når livebrukere. I praksis kan det bety kuraterte golden datasets, enhetstester for forventet atferd eller modellbasert vurdering mot definerte kriterier. Liveeksperimenter forblir bevislaget for å vise om en endring faktisk flyttet atferd eller forretningsutfall under reelle forhold. Ingen av dem alene er tilstrekkelig.
Andrej Karpathy kjørte 700 eksperimenter på 48 timer uten menneskelig inngripen gjennom sitt open source-autoresearch-system — fordi det hadde et pålitelig offline-eval-nøkkeltall. Agenten fant 20 genuine forbedringer som måneder med manuelt arbeid hadde oversett. Shopifys administrerende direktør replikerte mønsteret over natten for en gevinst på 19 %. Lærdommen: når du har en troverdig eval, kollapser eksperimentkostnaden til nær null. Uten en er volum bare støy
Evals uten eksperimenter produserer kvalitetsvurderinger, ikke kausale bevis. Eksperimenter uten evals sløser bort live trafikk på kandidater som aldri burde ha blitt forfremmet.
Arkitekturen som fungerer, er enkel:
- Definer policyen
- Test den offline
- Send sterkere kandidater inn i trafikken
- Mål den kausale effekten
- Mat feil tilbake inn i eval-systemet
Evals filtrerer. Eksperimenter beviser.
Dette er allerede synlig i ad tech. Googles Performance Max og Metas Advantage+ genererer og evaluerer kandidatpolicyer kontinuerlig. Loopen kjører kontinuerlig i stedet for å vente på at et menneske skal utrope en vinner.
I løpet av de siste 1–2 årene har de mest fremoverlente produkt- og ingeniørlederne jeg snakker med, begynt å behandle evals som måten å sikre kvaliteten på det de leverer. Men A/B-testing forblir gullstandarden for å bevise at de opplevelsene faktisk forbedrer utfall, særlig når de er LLM-baserte og ikke-deterministiske.
De sterkeste teamene vil slutte å behandle evals og eksperimenter som adskilte praksiser som drives av ulike personer med ulike mål. Verktøyene for å støtte dette fra ende til ende modnes fortsatt på tvers av bransjen, men det arkitektoniske mønsteret er klart: de kobles sammen til én læringsloop.
Hvis læringsloopen i økende grad kjører seg selv ved å løfte frem hypoteser, generere variasjoner og tolke resultater, blir spørsmålet hvem som setter grensene den opererer innenfor.
Etter hvert som eksperimentering blir lettere å starte, mer distribuert på tvers av team og mindre avhengig av ingeniørarbeid, kan ikke et sentralt team forbli gjennomgåeren av hver test, tolkeren av hvert resultat og det menneskelige sikkerhetsnettet for hver dårlige beslutning.
Det betyr ikke at styring blir mindre viktig. Det betyr at styring i økende grad vil sitte i selve systemet: skinner for oppsett, designkontroller, nøkkeltallsvarsler, standardiserte evalueringsloop-er og tydeligere eskaleringsveier for de tilfellene som faktisk krever menneskelig skjønn.
Poenget er ikke å fjerne strengheten fra eksperimentering. Det er å slutte å kreve at et lite antall mennesker bærer alt manuelt. COE betyr fortsatt noe fordi mennesker fortsatt må forme prosessen, håndtere unntak og drive adopsjon på tvers av organisasjonen.
COE blir mindre av en gjennomstrømningsflaskehals og mer av en standardeier, endringsagent og eskaleringsvei. Det definerer begrensninger, setter kvalitetskrav, bestemmer hvor menneskelig tilsyn forblir ikke-forhandlingsbart, og hjelper organisasjonen med å ta i bruk nye arbeidsmåter uten å miste strengheten.
Dårlig statistisk inferens skalerer like lett som god inferens. Du risikerer ikke lenger én dårlig test. Du risikerer et system som blir bedre og bedre til å optimalisere feil ting.
De fleste eksperimenteringsprogrammer ble bygget da trafikken var rikelig nok til å tolerere svak metodikk. Team hadde råd til støyete tester, butte nøkkeltall og en god del sløsing. Mange har ikke det lenger. Hvis utførelseskostnaden faller mens trafikken som finnes å lære av blir knappere, oppnår de organisasjonene som lærer effektivt et reelt forsprang.
Det er derfor statistisk strenghet slutter å være metodikkhygiene og blir et strukturelt fortrinn. Å mate data inn i en LLM og be om en konklusjon er ikke statistisk strenghet. Metoder som forbedrer signaleffektiviteten og hever beviskravet vil bety mer: variansreduksjon, sekvensielle tilnærminger, sterkere proxydesign, kontroll av falske positive og strammere kausal disiplin.
Vinnerne i den neste æraen vil ikke ganske enkelt være de teamene som kan starte flere tester. Det vil være de som kan lære raskere under strammere begrensninger uten å senke beviskravet.
Når utførelsen blir billig, blir klarhet dyrt. Den neste æraen av eksperimentering vil ikke bli vunnet av de organisasjonene som kjører flest tester. Den vil bli vunnet av dem som vet hva de prøver å endre, definerer forretningsutfallet som betyr noe, og kan bevise at de endret det. Etter hvert som eksperimentering blir billigere og mer distribuert, forskyves det virkelige fortrinnet mot skjønn, styring og strenghet.