A/A-testning

Vad är A/A-testning?

A/A-testning använder A/B-testning för att testa två identiska versioner av en experiments baslinje mot varandra. Det typiska syftet med att köra ett A/A-kalibreringstest är att validera din experimentuppsättning.

Mer specifikt är ett A/A-test en procedur för datatillförlitlighet och kvalitetssäkring som utvärderar implementeringen av alla dina experimentjämförelser. Det rekommenderas att köra A/A-kalibreringstester på regelbunden basis.

Den allmänna tumregeln är att köra dem kvartalsvis. I de flesta fall bör majoriteten av dina A/A-kalibreringstestresultat visa att konverteringsförbättringen mellan de identiska baslinjsidorna är statistiskt icke-konklusiv.

Varför testa identiska sidor?

I vissa fall kanske du vill övervaka konverteringar på sidan där du kör A/A-testet för att spåra antalet konverteringar och fastställa baslinjen för konverteringsgraden innan du påbörjar ett A/B-test eller multivariat test.

I de flesta andra fall är A/A-testet en metod för att dubbelkontrollera effektiviteten och noggrannheten hos A/B-testningsprogramvaran. Du bör kontrollera om programvaran rapporterar att det finns en statistiskt signifikant (>95 % statistisk signifikans) skillnad mellan kontrollen och varianten. Om programvaran rapporterar att det finns en statistiskt signifikant skillnad är det ett problem. Du bör kontrollera att programvaran är korrekt implementerad på din webbplats eller mobilapp.

Kalibreringstestdata kan också ge insikter i ditt experimenteringsprogram. Att använda ett A/A-kalibreringstest är ett utmärkt sätt att mäta din analysuppsättning. Att köra samma variant två gånger i samma experiment kan ge dig ett benchmark-KPI att mäta mot. Testdatan bör visa vad din genomsnittliga konverteringsgrad att slå är.

Saker att tänka på vid A/A-testning:

När du kör ett A/A-test är det viktigt att notera att det alltid finns en möjlighet att hitta en skillnad i konverteringsgrad mellan identiska baslinjsidor. Den statistiska signifikansen för dina resultat är en sannolikhet, inte en säkerhet. Detta är inte nödvändigtvis en dålig återspegling av A/B-testningsplattformen, eftersom det alltid finns ett element av slumpmässighet när det gäller testning.

När du kör ett A/B-test, tänk på att den statistiska signifikansen för dina resultat är en sannolikhet, inte en säkerhet. Även en statistisk signifikansnivå på 95 % representerar en chans på 1 av 20 att de resultat du ser beror på slumpen. I de flesta fall bör ditt A/A-test rapportera att konverteringsförbättringen mellan kontrollen och varianten är statistiskt icke-konklusiv – eftersom den underliggande sanningen är att det inte finns någon skillnad att hitta.

Hur påverkar A/A-testning konverteringsgrader?

Eftersom ingen faktisk förändring görs av de olika versionerna i experimentet bör det inte påverka konverteringsgrader. Om majoriteten av dina A/A-kalibreringstestresultat visar en (signifikant) skillnad i konverteringsgrader kan det tyda på ett problem med din experimentimplementering, som att kontrollera alla målgruppsregler och dokumentation. Se till att kontrollera alla målgruppsregler och dokumentation för att förhindra falska positiva resultat.

Bör du lägga till en andra baslinje i ett A/B-test och skapa ett A/A/B-test?

Och vad sägs om duplicerade baslinjer och duplicerade testvarianter, som ett A/B/A/B-test? Det här är vanliga frågor. Ett sätt att validera ett A/B-test kan vara att lägga till en kopia av A-varianten i experimentet.

Men nej. Du bör aldrig, aldrig göra detta. A/A-kalibreringstester måste finnas i sitt eget separata utrymme, sitt eget experiment. Man bör utvärdera en stor distribution av A/A-kalibreringstestresultat, istället för att bedöma prestanda baserat på ett enda experiment som testar en enskild baslinje mot en annan enskild baslinje.

När du kombinerar flera baslinjer med testvarianter bestraffar du onödigt prestandan för dina testvarianter. Med andra ord, flera baslinjer i kombination med testvarianter kommer att kannibalisera experimentresultaten.

För ett A/B/A/B-test innebär det att lägga till fler baslinjer i ett experiment inte en säkrare eller mer pålitlig upplevelse. Dessutom utsätter två eller fler baslinjer i kombination med valfritt antal testvarianter experimentören för en hög risk för bekräftelsebias: de tillskriver det förväntade utfallet för stor betydelse. Optimizely avråder alla från att lägga till en andra baslinje tillsammans med testvarianter eftersom det ofta är ett mycket missriktat försök av experimentörer att skydda sig mot fel.

Förhindra falska positiva resultat i A/B-testningsverktyg, och varför det är viktigt

Att köra experiment kan vara utmärkt för att optimera konverteringsgrader eller påverka andra affärskritiska mätvärden. Men om du inte kan lita på att programvaran korrekt håller reda på testresultat motverkar det syftet med att ha testningsprogramvara överhuvudtaget. Resultaten måste vara:

Tillförlitliga: Kan du lita på att testresultaten är korrekta och återspeglar verkligheten.
Noggranna: Att säkerställa att urvalsstorlekarna är tillräckligt stora och att resultaten är stabila är avgörande.
Signifikanta resultat: Är resultaten för variant B meningsfullt och konsekvent annorlunda jämfört med A-varianten.

A/B-testning och experimenteringsprogramvara, som låter dig köra mer än bara A/B-tester, är avsedda att ge marknadsförare tillit till sina testresultat. Att köra ett A/A-test hanterar de två första av de ovan nämnda punkterna så att du vet att den tredje, signifikanta resultat, är korrekta och kan litas på.

Hur A/A-testdata kan hjälpa ditt analysverktyg och vice versa

Att använda ett A/A-test är ett utmärkt sätt att mäta din analysuppsättning. Genom att köra samma variant två gånger i samma experiment kan det ge dig ett benchmark-KPI att mäta mot. Testdatan bör visa vad din genomsnittliga konverteringsgrad att slå är.

Hur spelar ditt analysverktyg in i det? Ditt analysverktyg, troligtvis Google Analytics, bör redan spåra dina konverteringsgrader. Så om du kör ett A/A-test för att mäta benchmarkmätvärden, borde dessa inte vara (nästan) desamma? Korrekt!

A/A-testning är en vanlig metod för att validera verktyg mot sig själva, men också mot andra leverantörer. Om du redan vet att dina konverteringsgrader i Google Analytics spåras korrekt bör ditt A/A-test visa (nästan) samma resultat.

Hjälp! Mina A/B-testverktyg och analysverktyg visar olika konverteringsgrader efter ett A/A-test

Se till att du kör några vanliga felsökningssteg:

Kontrollera urvalsstorleken för ditt test. Även om detta test aldrig kommer att uppnå statistisk signifikans, eftersom det inte finns någon verklig skillnad mellan de två varianterna att mäta, är det fortfarande viktigt att köra testet på ett tillräckligt stort antal besökare för att validera dess noggrannhet.
Kontrollera målgruppsreglerna för båda verktygen. Eftersom de flesta experimenteringsregler måste köras högst upp i sidans head, eller kan köras server-side, och ditt analysverktyg kanske körs i något som Google Tag Manager, kan reglerna för vilka sidor som ska aktivera båda verktygen skilja sig åt. Se till att testa och kontrollera uppsättningar och täckning för båda.

Bra minimala urvalsstorlekar för A/A-tester

Stora urvalsstorlekar behövs inte alltid för A/A-kalibreringstester, eftersom du faktiskt inte ändrar något i varianterna. Till exempel, att köra ett A/A-kalibreringstest på startsidan är en utmärkt idé, eftersom detta är bland de mest besökta sidorna för många webbplatser och snabbt kan hjälpa till att identifiera eventuella problem med din uppsättning. Att använda en mindre viktig landningssida är också ett alternativ, men ta alltid hänsyn till externa faktorer. Om trafiken fluktuerar mycket på denna sida, till exempel på grund av betalda budgetar, kanske det inte är den bästa sidan att köra testet på. Du letar efter en sida med stabila konverteringsgrader att använda som benchmark.

Optimizely Experiments statistikmotor och A/A-testning:

När du kör ett A/A-test med Web/Feature/ produktexperimentering, kan du i de flesta fall förvänta dig att resultaten från testet är icke-konklusiva – vilket innebär att konverteringsskillnaden mellan identiska varianter inte uppnår statistisk signifikans. Faktum är att antalet A/A-tester som visar icke-konklusiva resultat kommer att vara minst lika högt som signifikanströskeln som angetts i dina projektinställningar (90 % som standard).

I vissa fall kan du dock se att en variant presterar bättre än en annan eller att en vinnare utses för ett av dina mål. Det konklusiva resultatet av detta experiment sker rent av en slump och bör bara inträffa i 10 % av fallen om du har ställt in din signifikanströskel till 90 %. Om din signifikanströskel är högre (säg 95 %) är chansen att stöta på ett konklusivt A/A-test ännu mindre (5 %).

Fortsätt lära dig

Redo att fördjupa dig i experimenteringens värld?

Här är vad vi rekommenderar: