The future of experimentation

När utförandet blir billigt blir klarhet dyrt.

Den röda drottningen sa till Alice att det krävs all den spring man kan prestera bara för att stanna på samma plats. AI levererade exakt den dynamiken till digitala organisationer. Team genererar idéer snabbare, producerar innehåll snabbare och kör experiment snabbare än någonsin. Det gör deras konkurrenter också.

Samtidigt komprimerar AI toppen av tratten. Färre interaktioner tar sig hela vägen till dina egna ytor, vilket innebär att många team nu står inför två skiften samtidigt: kostnaden för att starta experiment kollapsar, och trafiken som finns att lära av blir allt knappare.

Det förändrar spelet. Att köra fler experiment snabbare är inte längre en konkurrensfördel i sig själv. Många team kan nu göra det. Fördelen kommer från att lära sig snabbare under hårdare begränsningar.

Paradoxen utförande-klarhetutförande-klarhet

Detta är den centrala spänningen.

AI har gjort det dramatiskt billigare att agera, men inte billigare att veta vilken handling som är värd att vidta.

Utförandekostnaderna kollapsar. Kostnaden för klarhet — att veta vad man ska testa, vilket nyckeltal som spelar roll och vad resultatet faktiskt betyder — stiger. De team som förväxlar billigare utförande med enklare lärande kommer att optimera snabbare mot fel utfall.

Experimenteringsmodellen byggdes för knapphet

Under större delen av det senaste decenniet organiserades experimenteringsprogram kring knapphet. Statistisk expertis fanns hos små datavetenskapsteam. Ingenjörstid var knapp, så tester konkurrerade med roadmap-arbetet. Analytikerkapaciteten var begränsad, så tolkning skedde ofta dagar eller till och med veckor efter att ett test avslutats

Dessa begränsningar försvinner snabbt. Implementeringen brukade vara den begränsande funktionen för experimentering. Allt mer är den inte det.

Vi ser redan hur AI-system lyfter fram hypoteser, genererar variationer av produktionskvalitet, accelererar testuppsättning, sammanfattar resultat, producerar ledningsfärdiga rapporter och rekommenderar nästa bästa åtgärder. För en stor andel av vanliga experiment inom innehåll, budskap och layout närmar sig marginalkostnaden för utförande noll.

Datan bekräftar detta.

Enligt en Gartner-prognos (mars 2026) kommer kostnaden för att utföra inferens på en LLM med en biljon parametrar att falla med över 90 % fram till 2030 jämfört med 2025. Den banan kollapsar utförandekostnaderna över varje AI-assisterat arbetsflöde, experimentering inräknad.

Samtidigt fann McKinseys globala undersökning från 2025 att 88 % av organisationerna nu använder AI i minst en affärsfunktion, men att majoriteten fortfarande befinner sig i pilotstadier och ännu inte realiserar en effekt över hela företaget. Adoptionen skalar snabbare än förmågan att lära av den, vilket är precis det gap experimenteringsprogram behöver sluta.

Men att ta bort knapphet tar inte bort komplexitet. Det omplacerar den. Flaskhalsen har inte försvunnit. Den har flyttat uppströms.

Billigt utförande ökar volymen snabbare än det ökar förståelsen. De verkliga frågorna är nu svårare:

Vad försöker vi lära oss?
Vilket utfall spelar roll?
Vilket nyckeltal indikerar en sann signal, inte bara brus?

Tre saker blir avgörande mänskliga ansvarsområden.

Att definiera nyckeltalsramverket: Nyckeltalsramverket är den uppsättning ledande indikatorer som bör förutsäga det affärsutfall du bryr dig om. Om loopen riktar in sig på aktivering dag 7 men det inte förutsäger kundbehållning över 12 månader, har organisationen byggt en effektiv maskin riktad mot fel mål.

Att sätta skyddsräcken: En loop som bara optimerats för konvertering kommer till slut att hitta den mest aggressiva vägen till konvertering, oavsett om den skapar långsiktigt värde eller inte. Någon måste fortfarande definiera begränsningarna.

Att veta när man ska åsidosätta systemet: Vissa strategiska drag presterar sämre på kort sikt. Systemet kommer att försöka återgå till det lokala optimumet. Att veta när man ska hålla kursen är fortfarande mänskligt omdöme.

De flesta experimenteringsteam är organiserade kring att köra experiment. När AI äger det flyttar arbetet uppströms. Det handlar om att besluta vad som är värt att lära sig, vilket affärsutfall som är värt att flytta och vilka nyckeltal som faktiskt talar om för dig om du lyckades.

Testar du fortfarande sidor eller testar du beslutspolicyer?

Den gamla mentala modellen för experimentering var statisk jämförelse: A mot B. Två variationer, en vinnare, leverera den. Den modellen är inte död. Men den är inte längre tyngdpunkten.

Allt mer är objektet som testas inte en sida eller en variation. Det är en beslutspolicy: vad som ska visas, när man ska ingripa, hur man ska dirigera, vilket erbjudande eller vilken modell eller prompt som ska anropas, över webb, app och e-post.

En variation är en fast upplevelse. En policy är en uppsättning regler, sannolikheter eller inlärda beteenden som avgör vilken upplevelse som levereras under vilka förhållanden. Den måste utvärderas över kontexter, kanaler, användarsegment och tid, inte bara utropas till vinnare och levereras.

Frågan är inte längre vilken version som presterar bättre. Det är vilken beslutslogik som konsekvent producerar bättre utfall.

De team som inser detta tidigt kommer att sluta behandla experimentering som en optimeringsfunktion på sidnivå och börja behandla den som ett system för att utvärdera beslutskvalitet.

Hur kopplas evals och experiment ihop till en enda lärloop?

När beslutssystem blir mer dynamiska bör inte varje kandidat gå rakt in i livetrafik. Det är här evals blir avgörande.

Evals är screeninglagret som används för att bedöma kvalitet, konsekvens och säkerhet innan en kandidat når liveanvändare. I praktiken kan det innebära kurerade golden datasets, enhetstester för förväntat beteende eller modellbaserad bedömning mot definierade kriterier. Liveexperiment förblir bevislagret för att visa om en förändring faktiskt flyttade beteende eller affärsutfall under verkliga förhållanden. Ingetdera räcker ensamt.

Andrej Karpathy körde 700 experiment på 48 timmar utan mänsklig inblandning genom sitt open source-autoresearch-system — eftersom det hade ett tillförlitligt offline-eval-nyckeltal. Agenten fann 20 genuina förbättringar som månader av manuellt arbete hade missat. Shopifys vd replikerade mönstret över en natt för en vinst på 19 %. Lärdomen: när du har en pålitlig eval kollapsar experimentkostnaden till nära noll. Utan en är volym bara brus

Evals utan experiment producerar kvalitetsbedömningar, inte kausala bevis. Experiment utan evals slösar livetrafik på kandidater som aldrig borde ha befordrats.

Arkitekturen som fungerar är okomplicerad:

Definiera policyn
Testa den offline
Skicka starkare kandidater in i trafiken
Mät den kausala effekten
Mata tillbaka misslyckanden in i eval-systemet

Evals filtrerar. Experiment bevisar.

Detta syns redan inom ad tech. Googles Performance Max och Metas Advantage+ genererar och utvärderar kandidatpolicyer kontinuerligt. Loopen körs kontinuerligt i stället för att vänta på att en människa ska utropa en vinnare.

Under de senaste 1–2 åren har de mest framåtblickande produkt- och ingenjörsledare jag talar med börjat behandla evals som sättet att säkerställa kvaliteten på det de levererar. Men A/B-testning förblir guldstandarden för att bevisa att de upplevelserna faktiskt förbättrar utfall, särskilt när de är LLM-baserade och icke-deterministiska.

De starkaste teamen kommer att sluta behandla evals och experiment som separata praktiker som drivs av olika personer med olika mål. Verktygen för att stödja detta från början till slut mognar fortfarande i branschen, men det arkitektoniska mönstret är tydligt: de kopplas ihop till en enda lärloop.

COE försvinner inte. Dess uppgift förändras.Dess uppgift förändras.

Om lärloopen alltmer kör sig själv genom att lyfta fram hypoteser, generera variationer och tolka resultat, blir frågan vem som sätter gränserna den verkar inom.

I takt med att experimentering blir lättare att starta, mer distribuerad över team och mindre beroende av ingenjörsarbete, kan ett centralt team inte förbli granskaren av varje test, tolken av varje resultat och det mänskliga skyddsnätet för varje dåligt beslut.

Det betyder inte att styrning blir mindre viktig. Det betyder att styrning alltmer kommer att sitta i själva systemet: skyddsräcken för uppsättning, designkontroller, nyckeltalsvarningar, standardiserade utvärderingsloopar och tydligare eskaleringsvägar för de fall som faktiskt kräver mänskligt omdöme.

Poängen är inte att ta bort stringensen från experimentering. Det är att sluta kräva att ett litet antal personer manuellt bär allt. COE spelar fortfarande roll eftersom människor fortfarande måste forma processen, hantera undantag och driva adoption över hela organisationen.

COE blir mindre av en genomströmningsflaskhals och mer av en standardägare, förändringsagent och eskaleringsväg. Det definierar begränsningar, sätter kvalitetsribbor, beslutar var mänsklig tillsyn förblir icke förhandlingsbar och hjälper organisationen att anamma nya arbetssätt utan att förlora stringensen.

Det gamla COE skyddade disciplinen genom att centralisera omdömet. Nästa kommer att skydda den genom att utforma det system och de organisatoriska vanor som demokratiserar omdömet på ett säkert sätt.

Statistisk stringens blir den ackumulerande fördelen

Dålig statistisk inferens skalar lika lätt som god inferens. Du riskerar inte längre ett dåligt test. Du riskerar ett system som blir bättre och bättre på att optimera fel sak.

De flesta experimenteringsprogram byggdes när trafiken var riklig nog att tolerera svag metodik. Team hade råd med brusiga tester, trubbiga nyckeltal och en hel del slöseri. Många har inte det längre. Om utförandekostnaden faller medan trafiken som finns att lära av blir knappare, vinner de organisationer som lär sig effektivt en verklig fördel.

Det är därför statistisk stringens slutar vara metodikhygien och blir en strukturell fördel. Att mata in data i en LLM och be om en slutsats är inte statistisk stringens. Metoder som förbättrar signaleffektiviteten och höjer beviskravet kommer att spela större roll: variansreduktion, sekventiella ansatser, starkare proxydesign, kontroll av falska positiva och stramare kausal disciplin.

Fler experiment är inte målet. Mer tillförlitligt lärande är det.

Vinnarna i nästa era kommer inte helt enkelt att vara de team som kan starta fler tester. De kommer att vara de som kan lära sig snabbare under hårdare begränsningar utan att sänka beviskravet.

Sammanfattningsvis ...

När utförandet blir billigt blir klarhet dyrt. Nästa era av experimentering kommer inte att vinnas av de organisationer som kör flest tester. Den kommer att vinnas av dem som vet vad de försöker förändra, definierar det affärsutfall som spelar roll och kan bevisa att de förändrade det. I takt med att experimentering blir billigare och mer distribuerad förskjuts den verkliga fördelen mot omdöme, styrning och stringens.

Agentisk experimentering

Testa, lär och optimera kontinuerligt med AI inbyggd i varje steg av experimenteringen, från första idé till slutgiltigt beslut.

Källor

Gartner. Gartner Predicts That by 2030, Performing Inference on an LLM Will Cost Over 90% Less Than in 2025. Pressmeddelande, 25 mars 2026.

McKinsey & Company. The State of AI in 2025: Agents, Innovation, and Transformation. November 2025.

Karpathy, A. autoresearch. GitHub, mars 2026. Bevakning: Fortune, 17 mars 2026.

Framtiden för experimentering

Paradoxen utförande-klarhetutförande-klarhetutförande-klarhetutförande-klarhetutförande-klarhetutförande-klarhetutförande-klarhetutförande-klarhetutförande-klarhetutförande-klarhet