Statistisk signifikans

Vad är statistisk signifikans?

Statistisk signifikans är sannolikheten för att skillnaden i konverteringsgrader mellan en given variant och baslinjen inte beror på slumpen. Med andra ord anger det hur säkra vi kan vara på att resultaten från ett experiment är verkliga och inte slumpmässiga.

Vid A/B-testning och konverteringsgradsoptimering (CRO) är statistisk signifikans ett grundläggande koncept. Innan du agerar på experimentresultat måste du vara säker på att de observerade skillnaderna återspeglar verkliga effekter och inte slumpmässiga variationer.

Varför är statistisk signifikans viktigt?

Utan statistisk signifikans riskerar du att agera baserat på brus och fatta beslut som faktiskt försämrar prestandan. De viktigaste skälen till att det är viktigt:

Undvika falska positiver – Förhindrar att slumpmässiga variationer feltolkas som verkliga förbättringar
Välgrundad beslutsfattning – Säkerställer att förändringar baseras på evidens, inte gissningar
Riskminskning – Skyddar mot att lansera dåliga varianter och försämra befintliga resultat
Resursoptimering – Hjälper till att avsluta experiment med tillräckliga datapunkter

Påverkande faktorer: Urvalsstorlek och effektstorlek

Två nyckelfaktorer avgör om ett test uppnår statistisk signifikans:

Urvalsstorlek

Ju fler besökare som deltar i ett experiment, desto mer tillförlitliga är resultaten. En alltför liten urvalsstorlek leder till otillförlitliga slutsatser. Som en tumregel: ju mindre den förväntade effekten är, desto mer trafik behöver du för att tillförlitligt kunna upptäcka den.

Effektstorlek

Effektstorlek är omfattningen av skillnaden mellan varianterna. Små effekter kräver större urval för att påvisas. Om du förväntar dig en ökning av konverteringsgraden på 0,1 % behöver du betydligt mer trafik än vid en förväntad ökning på 5 %.

Hypotestestning och p-värden

Statistisk signifikans bedöms vanligtvis genom hypotestestning:

Nollhypotes – Antagandet att det inte finns någon skillnad mellan kontroll och variant
Alternativhypotes – Påståendet att en verklig skillnad existerar
p-värde – Sannolikheten för att få de observerade resultaten om nollhypotesen vore sann. Ett p-värde under alpha-tröskeln (vanligtvis 0,05) anses vara statistiskt signifikant
alpha – Signifikanströskeln som du fastställer innan experimentet börjar; med alpha = 0,05 accepterar du 5 % sannolikhet för ett falskt positivt resultat

Optimizelys Stats Engine

Optimizelys Stats Engine är ett innovativt alternativ till traditionell frekventistisk hypotestestning. Den är speciellt utvecklad för A/B-testning i praktiken och erbjuder följande fördelar:

Alltid giltig inferens – Du kan titta på resultat när som helst utan att öka risken för en uppblåst falsk positiv frekvens
Inget fast urvalsproblem – Inget behov av att vänta på en fördefinierad urvalsstorlek
Sekventiell testning – Experiment kan stoppas tidigt när tillräcklig evidens finns
Konfidenssekvenser – Istället för rigida konfidensintervall används kontinuerligt giltiga konfidenssekvenser

Bästa praxis för statistisk signifikans

Fastställ urvalsstorlek i förväg – Beräkna nödvändig trafik innan du startar testet
Avbryt inte tester i förtid – Låt experiment köra tillräckligt länge för att samla tillräckliga data
Sätt alpha i förväg – Definiera din signifikanströskel innan testet börjar
Beakta multipel testning – Att testa flera mätvärden samtidigt ökar sannolikheten för falska positiver
Utvärdera praktisk signifikans – Statistisk signifikans innebär inte automatiskt praktisk relevans; beakta även effektstorleken