A/A-test

Hva er A/A-testing?

A/A-testing bruker A/B-testing til å teste to identiske versjoner av et eksperimentoppsett opp mot hverandre. Det typiske formålet med å kjøre en A/A-kalibreringstest er å validere eksperimentoppsettet ditt.

Nærmere bestemt er en A/A-test en prosedyre for datapålitelighet/kvalitetssikring for å evaluere gjennomføringen av alle sammenligningene av eksperimentene dine. Det anbefales å kjøre A/A-kalibreringstester med jevne mellomrom.

Den generelle tommelfingerregelen er å kjøre dem hvert kvartal. I de fleste tilfeller bør resultatene av A/A-kalibreringstestene vise at konverteringsforbedringen mellom identiske utgangssider ikke er statistisk signifikant.

Hvorfor teste identiske sider?

I noen tilfeller kan det være lurt å overvåke konverteringer på siden der du kjører A/A-testen, for å spore antall konverteringer og bestemme baseline-konverteringsfrekvensen før du starter en A/B- eller multivariat test.

I de fleste andre tilfeller er A/A-testen en metode for å dobbeltsjekke effektiviteten og nøyaktigheten til A/B-testprogramvaren. Du bør se etter om programvaren rapporterer at det er en statistisk signifikant (>95 % statistisk signifikans) forskjell mellom kontroll og variasjon. Hvis programvaren rapporterer at det er en statistisk signifikant forskjell, er det et problem. Da bør du sjekke at programvaren er riktig implementert på nettstedet eller i mobilappen din.

Data fra kalibreringstester kan også gi innsikt i eksperimenteringsprogrammet ditt. Å bruke en A/A-kalibreringstest er en fin måte å måle analyseoppsettet ditt på. Ved å kjøre den samme varianten to ganger i det samme eksperimentet kan du få en referanse-KPI å måle mot. Dataene fra testen bør vise hva den gjennomsnittlige konverteringsfrekvensen din er.

Ting du må huske på med A/A-testing:

Når du kjører en A/A-test, er det viktig å være oppmerksom på at det alltid er en mulighet for å finne en forskjell i konverteringsfrekvens mellom identiske basissider. Den statistiske signifikansen av resultatene dine er en sannsynlighet, ikke en sikkerhet. Dette er ikke nødvendigvis en dårlig refleksjon av A/B-testplattformen, da det alltid er et element av tilfeldighet når det gjelder testing.

Når du kjører en A/B-test, må du huske på at den statistiske signifikansen av resultatene dine er en sannsynlighet, ikke en sikkerhet. Selv et statistisk signifikansnivå på 95 % representerer en sjanse på 1 av 20 for at resultatene du ser, skyldes tilfeldigheter. I de fleste tilfeller bør A/A-testen din rapportere at konverteringsforbedringen mellom kontrollen og variasjonen er statistisk ufullstendig - fordi den underliggende sannheten er at det ikke er noen å finne.

Hvordan påvirker A/A-tester konverteringsraten?

Fordi det ikke gjøres noen faktiske endringer i de ulike versjonene i eksperimentet, bør det ikke påvirke konverteringsfrekvensen. Hvis flertallet av resultatene fra A/A-kalibreringstestene dine viser en (betydelig) forskjell i konverteringsfrekvensen, kan det tyde på et problem med gjennomføringen av eksperimentet, for eksempel at du må sjekke alle målrettingsreglene og dokumentasjonen. Sørg for å sjekke alle målrettingsreglene og dokumentasjonen for å forhindre falske positiver.

Bør du legge til en ny baseline i en A/B-test og opprette en A/A/B-test?

Og hva med dupliserte baselines og dupliserte testvarianter, som en A/B/A/B-test? Dette er vanlige spørsmål. En måte å validere en A/B-test på kan være å legge til et duplikat av A-varianten i eksperimentet.

Men nei. Dette bør du aldri, aldri gjøre. A/A-kalibreringstester må ligge i sitt eget rom, sitt eget eksperiment. Man bør vurdere en stor distribusjon av A/A-kalibreringstester, i stedet for å bedømme ytelsen på et enkelt eksperiment som tester en enkelt grunnlinje mot en annen enkelt grunnlinje.

Når du kombinerer flere grunnlinjer med testvariasjoner, straffer du unødvendig ytelsen til testvariasjonene dine. Sagt på en annen måte, vil flere baseline kombinert med testvariasjoner kannibalisere resultatene av eksperimentet.

For en A/B/A/B-test gir det ikke en sikrere eller tryggere opplevelse å legge på flere baselines i et eksperiment. To eller flere baselines kombinert med en hvilken som helst mengde testvariasjoner utsetter dessuten eksperimentøren for en høy risiko for bekreftelsesskjevhet: de gir det forventede resultatet for stor betydning. Optimizely fraråder alle å legge til en ekstra baseline ved siden av testvariasjoner, da det ofte er et svært misforstått forsøk fra eksperimentatorene på å beskytte seg mot feil.

Forebygging av falske positiver i A/B-testverktøy, og hvorfor det er viktig

Eksperimenter kan være gode for å optimalisere konverteringsfrekvenser eller påvirke andre forretningskritiske måltall. Men hvis du ikke kan stole på at programvaren holder nøyaktig oversikt over testresultatene, motvirker dette formålet med å ha testprogramvare til å begynne med. Resultatene må være

Pålitelige: Kan du stole på at testresultatene er nøyaktige og gjenspeiler virkeligheten.
Nøyaktige: Det er viktig å sørge for at utvalgsstørrelsene er store nok og at resultatene er stabile.
Signifikante resultater: Er resultatene for variant B meningsfylt og konsekvent forskjellige fra A-varianten?

A/B-testing og eksperimenteringsprogramvare, som lar deg kjøre mer enn bare A/B-tester, er ment å gi markedsførere tillit til testresultatene sine. Ved å kjøre en A/A-test takler du de to første av de nevnte punktene, slik at du vet at det tredje, signifikante resultater, er nøyaktige og til å stole på.

Hvordan data fra A/A-tester kan hjelpe analyseverktøyet ditt og vice versa

Å bruke en A/A-test er en flott måte å måle analyseoppsettet ditt på. Ved å kjøre den samme varianten to ganger i det samme eksperimentet, kan du få en referanse-kpi å måle mot. Dataene fra testen bør vise hva den gjennomsnittlige konverteringsfrekvensen din er.

Hvordan spiller analyseverktøyet ditt inn i dette? Analyseverktøyet ditt, sannsynligvis Google Analytics, bør allerede spore konverteringsfrekvensene dine. Så hvis du kjører en A/A-test for å måle referansemetikk, burde ikke disse være (nesten) de samme? Det stemmer!

A/A-testing er en vanlig praksis for å validere verktøy mot seg selv, men også mot andre leverandører. Hvis du allerede vet at konverteringsfrekvensene i Google Analytics spores nøyaktig, bør A/A-testen din vise (nesten) det samme.

Jeg trenger hjelp! A/B-testverktøyene og analyseverktøyene mine viser forskjellige konverteringsfrekvenser etter en A/A-test

Sørg for at du kjører noen vanlige feilsøkingstrinn:

Sjekk utvalgsstørrelsen på testen din. Selv om denne testen aldri vil oppnå statistisk signifikans, fordi det ikke er noen reell forskjell mellom de to variantene som skal måles, er det likevel viktig å kjøre testen på et betydelig antall besøkende for å validere at den er nøyaktig.
Sjekk målrettingsreglene for begge verktøyene. Fordi de fleste eksperimentregler må kjøres øverst på sidehodet, eller kan kjøres på serversiden, og analyseverktøyet ditt kanskje kjører i noe som Google Tag Manager, kan det være at reglene for hvilke sider som skal utløse begge verktøyene, kan være forskjellige. Sørg for å teste og sjekke oppsett og dekning på tvers av begge.

Gode minimumsstørrelser på utvalg for A/A-tester

Det er ikke alltid nødvendig med store utvalgsstørrelser for A/A-kalibreringstester, fordi du faktisk ikke endrer noe i variantene. Det er for eksempel en god idé å kjøre en A/A-kalibreringstest på startsiden, siden dette er en av de mest besøkte sidene på mange nettsteder ograskt kanbidra til å identifisere eventuelle problemer med oppsettet ditt. Det er også et alternativ å bruke en ikke-viktig landingsside, men ta alltid hensyn til eksterne faktorer. Hvis trafikken på denne siden svinger mye, for eksempel på grunn av betalte budsjetter, er det kanskje ikke den beste siden å kjøre testen på. Du er ute etter en side med stabile konverteringsfrekvenser som du kan sammenligne med.

Optimizely Experiment statistikkmotor og A/A-test:

Når du kjører en A/A-test med Web/Feature/produkteksperimentering, kan du i de fleste tilfeller forvente at resultatene fra testen ikke er entydige - det betyr at konverteringsforskjellen mellom identiske varianter ikke vil nå statistisk signifikans. Faktisk vil antallet A/A-tester som viser inkonklusive resultater, være minst like høyt som signifikansgrensen som er angitt i prosjektinnstillingene dine (90 % som standard).

I noen tilfeller kan du imidlertid se at én variant gir bedre resultater enn en annen, eller at det kåres en vinner for ett av målene dine. Det avgjørende resultatet av dette eksperimentet er rent tilfeldig, og bør bare inntreffe i 10 % av tilfellene hvis du har satt signifikansgrensen til 90 %. Hvis signifikansgrensen din er høyere (for eksempel 95 %), er sjansen for å få en avgjørende A/A-test enda mindre (5 %).

Fortsett å lære

Er du klar for å ta et dypere dykk inn i eksperimenteringens verden?

Her er hva vi anbefaler:

Lærdommer fra 127 000 eksperimenter
Guide til produkteksperimentering
5 myter som ødeleggerA/B-testingsprogrammetditt