Type 1-feil

Hva er en type 1-feil?

En type 1-feil (eller type I-feil) er et begrep innen statistikk som brukes om en type feil som gjøres i en test når det utropes en konklusiv vinner selv om testen faktisk ikke er konklusiv.

Vitenskapelig sett omtales en type 1-feil som forkastelse av en sann nullhypotese, ettersom en nullhypotese defineres som hypotesen om at det ikke er noen signifikant forskjell mellom spesifiserte populasjoner, og at enhver observert forskjell skyldes utvalgs- eller forsøksfeil.

Med andre ord er en type 1-feil som en "falsk positiv", en feilaktig tro på at en variasjon i en test har gitt en statistisk signifikant forskjell.

Dette er bare én av feiltypene, for det motsatte av en type 1-feil er en type 2-feil, som defineres som manglende forkastelse av en falsk nullhypotese eller et falskt negativt resultat.

Hvorfor oppstår type 1-feil?

Feil kan lett oppstå når statistikk misforstås eller brukes feil under A/B-testing og produkteksperimenter.

I statistikk er begrepet statistisk feil en integrert del av det å teste en hypotese.

Ingen hypotesetest er noen gang sikker. Fordi hver test er basert på sannsynligheter, er det alltid en liten risiko for å trekke en feilaktig konklusjon (for eksempel en type 1-feil (falsk positiv) eller type 2-feil (falsk negativ).

Statistisk signifikans har tradisjonelt blitt beregnet under forutsetning av at testen går innenfor en fast tidsramme og avsluttes så snart den passende utvalgsstørrelsen er nådd. Dette er det som kalles en "fast horisont".

Metoden med "fast horisont" forutsetter at du først tar en beslutning etter at den endelige utvalgsstørrelsen er nådd.

Det er selvfølgelig ikke slik det fungerer i A/B-testingens verden. Uten en forhåndsbestemt utvalgsstørrelse (og resultater som ikke er statistisk signifikante), er det lett å gjøre en type 1-feil.

Hypotesetester har et nivå av statistisk signifikans knyttet til seg, betegnet med den greske bokstaven alfa, α.

Tallet som α representerer, er et uttrykk for hvor stor tillit man har til at resultatene av testen er korrekte. I det digitale markedsføringsuniverset er standarden nå at statistisk signifikante resultater har en alfaverdi på 0,05 eller 5 % signifikansnivå.

Et konfidensnivå på 95 % betyr at det er 5 % sjanse for at testresultatene dine er et resultat av en type 1-feil (falsk positiv).

Hvorfor er det viktig å være oppmerksom på type 1-feil?

Den viktigste grunnen til å være på vakt mot type 1-feil er at de kan ende opp med å koste bedriften din mye penger.

Hvis du gjør en feilaktig antakelse og deretter endrer de kreative komponentene på en landingsside basert på denne antakelsen, kan du risikere å skade kundekonverteringsfrekvensen din i betydelig grad.

Den beste måten å unngå type 1-feil på, er å øke konfidensgrensen og kjøre eksperimenter lenger for å samle inn mer data.

Eksempel på type 1-feil

La oss se på en hypotetisk situasjon. Du har ansvaret for et netthandelsnettsted, og du tester variasjoner for landingssiden din. Vi skal undersøke hvordan en type 1-feil vil påvirke salget ditt.

Hypotesen din er at en endring av CTA-knappen "Kjøp nå" fra grønn til rød vil øke konverteringen betydelig sammenlignet med den opprinnelige siden.

Du lanserer A/B-testen og sjekker resultatene innen 48 timer. Du oppdager at konverteringsfrekvensen for den nye grønne knappen (5,2 %) overgår den opprinnelige (4,8 %) med et konfidensnivå på 90 %.

Du er begeistret, erklærer den grønne knappen som en vinner og gjør den til standardside.

To uker senere dukker sjefen din opp på skrivebordet ditt med spørsmål om et stort fall i konverteringer. Når du sjekker dataene dine, ser du at dataene for de siste to ukene indikerer at den opprinnelige fargen på CTA-knappen faktisk var vinneren.

Hva er det som har skjedd? Selv om eksperimentet ga et statistisk signifikant resultat med et konfidensintervall på 90 %, betyr det fortsatt at 10 % av gangene vil konklusjonen fra eksperimentet faktisk være feil eller føre til falske positive resultater.

Slik unngår du type 1-feil

Du kan bidra til å unngå type 1 ved å øke det nødvendige signifikansnivået før du tar en beslutning (til for eksempel 95 % eller 99 %) og ved å kjøre eksperimentet lenger for å samle inn mer data. Statistikk kan imidlertid aldri fortelle oss med 100 % sikkerhet om én versjon av en nettside er best. Statistikk kan bare gi sannsynlighet, ikke sikkerhet.

Betyr dette at A/B-tester er ubrukelige? Ikke i det hele tatt. Selv om det alltid er en sjanse for å gjøre en type 1-feil, vil du statistisk sett likevel ha rett mesteparten av tiden hvis du setter et høyt nok konfidensintervall. Som i ingeniørfag og andre fagområder er det ikke mulig å oppnå absolutt sikkerhet, men ved å angi det riktige konfidensintervallet kan vi redusere risikoen for å gjøre feil til et akseptabelt nivå.