A/A-testing

Hva er A/A-testing?

A/A-testing bruker A/B-testing til å teste to identiske versjoner av en eksperimentbaseline mot hverandre. Det typiske formålet med å kjøre en A/A-kalibreringstest er å validere eksperimentoppsettet ditt.

Mer spesifikt er en A/A-test en prosedyre for datapålitelighet og kvalitetssikring som evaluerer implementeringen av alle eksperimentsammenligningene dine. Det anbefales å kjøre A/A-kalibreringstester med jevne mellomrom.

Tommelfingerregelen er å kjøre dem kvartalsvis. I de fleste tilfeller bør flertallet av A/A-kalibreringstestresultatene vise at konverteringsforbedringen mellom de identiske baselinesidene er statistisk inkonklusiv.

Hvorfor teste identiske sider?

I noen tilfeller kan det hende du ønsker å overvåke konverteringer på siden der du kjører A/A-testen for å spore antall konverteringer og fastslå baseline-konverteringsraten før du starter en A/B- eller multivariat test.

I de fleste andre tilfeller er A/A-testen en metode for å dobbeltsjekke effektiviteten og nøyaktigheten til A/B-testingprogramvaren. Du bør se etter om programvaren rapporterer at det er en statistisk signifikant (>95 % statistisk signifikans) forskjell mellom kontrollen og variasjonen. Hvis programvaren rapporterer at det er en statistisk signifikant forskjell, er det et problem. Du bør kontrollere at programvaren er korrekt implementert på nettstedet eller mobilappen din.

Kalibreringstestdata kan også gi innsikt i eksperimenteringsprogrammet ditt. Å bruke en A/A-kalibreringstest er en utmerket måte å måle analysoppsettet ditt på. Ved å kjøre den samme varianten to ganger i det samme eksperimentet kan du få en benchmark-KPI å måle mot. Testdataene bør vise hva din gjennomsnittlige konverteringsrate å slå er.

Ting å huske på med A/A-testing:

Når du kjører en A/A-test, er det viktig å merke seg at det alltid er en mulighet for å finne en forskjell i konverteringsrate mellom identiske baselinesider. Den statistiske signifikansen til resultatene dine er en sannsynlighet, ikke en sikkerhet. Dette er ikke nødvendigvis en dårlig refleksjon av A/B-testingplattformen, ettersom det alltid er et element av tilfeldighet når det gjelder testing.

Når du kjører en A/B-test, husk at den statistiske signifikansen til resultatene dine er en sannsynlighet, ikke en sikkerhet. Selv et statistisk signifikansnivå på 95 % representerer en 1 av 20 sjanse for at resultatene du ser skyldes tilfeldig variasjon. I de fleste tilfeller bør A/A-testen din rapportere at konverteringsforbedringen mellom kontrollen og variasjonen er statistisk inkonklusiv – fordi den underliggende sannheten er at det ikke finnes noen forskjell å finne.

Hvordan påvirker A/A-testing konverteringsrater?

Fordi det ikke gjøres noen faktisk endring i de ulike versjonene i eksperimentet, bør det ikke påvirke konverteringsratene. Hvis flertallet av A/A-kalibreringstestresultatene dine viser en (signifikant) forskjell i konverteringsrater, kan dette indikere et problem med eksperimentimplementeringen din, for eksempel kontroll av alle målrettingsregler og dokumentasjon. Sørg for å sjekke alle målrettingsregler og dokumentasjon for å forhindre falske positive resultater.

Bør du legge til en ekstra baseline i en A/B-test og lage en A/A/B-test?

Og hva med dupliserte baseliner og dupliserte testvariasjoner, som en A/B/A/B-test? Dette er vanlige spørsmål. Én måte å validere en A/B-test på kan være å legge til en kopi av A-varianten i eksperimentet.

Men nei. Du bør aldri, aldri gjøre dette. A/A-kalibreringstester må ligge i sitt eget separate rom, sitt eget eksperiment. Man bør vurdere en stor distribusjon av A/A-kalibreringstestresultater, i stedet for å bedømme ytelse basert på et enkelt eksperiment som tester én enkelt baseline mot en annen enkelt baseline.

Når du kombinerer flere baseliner med testvariasjoner, straffer du unødvendig ytelsen til testvariasjonene dine. Sagt på en annen måte: flere baseliner kombinert med testvariasjoner vil kannibalisere eksperimentresultatene.

For en A/B/A/B-test gir det ikke en sikrere eller mer pålitelig opplevelse å legge til flere baseliner i et eksperiment. Videre utsetter to eller flere baseliner kombinert med et vilkårlig antall testvariasjoner eksperimentøren for en høy risiko for bekreftelsesskjevhet: de gir det forventede resultatet for stor betydning. Optimizely fraråder alle å legge til en ekstra baseline sammen med testvariasjoner, da dette ofte er et svært misforstått forsøk fra eksperimentører på å beskytte seg mot feil.

Forebygging av falske positive resultater i A/B-testingverktøy, og hvorfor det er viktig

Å kjøre eksperimenter kan være utmerket for å optimalisere konverteringsrater eller påvirke andre forretningskritiske metrikker. Men hvis du ikke kan stole på at programvaren nøyaktig holder oversikt over testresultatene, motvirker dette hele formålet med å ha testprogramvare i utgangspunktet. Resultatene må være:

Pålitelige: Kan du stole på at testresultatene er nøyaktige og gjenspeiler virkeligheten.
Nøyaktige: Det er avgjørende å sørge for at utvalgsstørrelsene er store nok og at resultatene er stabile.
Signifikante resultater: Er resultatene for variant B meningsfullt og konsekvent forskjellige fra A-varianten.

A/B-testing og eksperimenteringsprogramvare, som lar deg kjøre mer enn bare A/B-tester, er laget for å gi markedsførere tillit til testresultatene sine. Å kjøre en A/A-test tar for seg de to første av de nevnte punktene, slik at du vet at det tredje, signifikante resultater, er nøyaktige og kan stoles på.

Hvordan A/A-testdata kan hjelpe analyseverktøyet ditt og omvendt

Å bruke en A/A-test er en utmerket måte å måle analysoppsettet ditt på. Ved å kjøre den samme varianten to ganger i det samme eksperimentet kan du få en benchmark-KPI å måle mot. Testdataene bør vise hva din gjennomsnittlige konverteringsrate å slå er.

Hvordan spiller analyseverktøyet ditt inn i dette? Analyseverktøyet ditt, sannsynligvis Google Analytics, bør allerede spore konverteringsratene dine. Så hvis du kjører en A/A-test for å måle benchmarkmetrikker, bør ikke disse være (nesten) de samme? Korrekt!

A/A-testing er en vanlig praksis for å validere verktøy mot seg selv, men også mot andre leverandører. Hvis du allerede vet at konverteringsratene i Google Analytics spores nøyaktig, bør A/A-testen din vise (nesten) det samme.

Hjelp! A/B-testverktøyene og analyseverktøyene mine viser forskjellige konverteringsrater etter en A/A-test

Sørg for å kjøre noen vanlige feilsøkingstrinn:

Sjekk utvalgsstørrelsen for testen din. Selv om denne testen aldri vil oppnå statistisk signifikans, fordi det ikke er noen reell forskjell mellom de to variantene å måle, er det likevel viktig å kjøre testen på et betydelig antall besøkende for å validere nøyaktigheten.
Sjekk målrettingsreglene for begge verktøyene. Fordi de fleste eksperimenteringsregler må kjøres øverst i sidenes head, eller kan kjøres server-side, og analyseverktøyet ditt kanskje kjører i noe som Google Tag Manager, kan det hende at reglene for hvilke sider begge verktøyene skal utløses på er forskjellige. Sørg for å teste og sjekke oppsett og dekning på tvers av begge.

Gode minimumsutvalgsstørrelser for A/A-tester

Store utvalgsstørrelser er ikke alltid nødvendige for A/A-kalibreringstester, fordi du faktisk ikke endrer noe i variantene. For eksempel er det å kjøre en A/A-kalibreringstest på hjemmesiden en utmerket idé, ettersom dette er blant de mest besøkte sidene for mange nettsteder og det kan raskt hjelpe med å identifisere eventuelle problemer med oppsettet ditt. Å bruke en mindre viktig landingsside er også et alternativ, men ta alltid hensyn til eksterne faktorer. Hvis trafikken på denne siden varierer mye, for eksempel på grunn av betalte budsjetter, er det kanskje ikke den beste siden å kjøre testen på. Du ser etter en side med stabile konverteringsrater å bruke som benchmark.

Optimizely Experiment-statistikkmotor og A/A-testing:

Når du kjører en A/A-test med Web/Feature/ produkteksperimentering, kan du i de fleste tilfeller forvente at resultatene fra testen er inkonklusive – noe som betyr at konverteringsforskjellen mellom identiske variasjoner ikke vil nå statistisk signifikans. Faktisk vil antallet A/A-tester som viser inkonklusive resultater være minst like høyt som signifikansgrensen angitt i prosjektinnstillingene dine (90 % som standard).

I noen tilfeller kan du imidlertid se at én variasjon presterer bedre enn en annen, eller at en vinner er erklært for ett av målene dine. Det konklusive resultatet av dette eksperimentet oppstår rent tilfeldig, og bør bare skje i 10 % av tilfellene hvis du har satt signifikansgrensen til 90 %. Hvis signifikansgrensen er høyere (for eksempel 95 %), er sjansen for å støte på en konklusiv A/A-test enda mindre (5 %).

Fortsett å lære

Klar for å dykke dypere inn i eksperimenteringens verden?

Her er hva vi anbefaler: