A/A-Testing

Was ist A/A-Testing?

Beim A/A-Testing wird A/B-Testing eingesetzt, um zwei identische Versionen einer Experiment-Baseline gegeneinander zu testen. Der typische Zweck eines A/A-Kalibrierungstests ist die Validierung Ihres Experiment-Setups.

Konkret ist ein A/A-Test ein Verfahren zur Datenzuverlässigkeit/Qualitätssicherung, um die Implementierung all Ihrer Experiment-Vergleiche zu bewerten. Es wird empfohlen, A/A-Kalibrierungstests in regelmäßigen Abständen durchzuführen.

Als Faustregel gilt, sie vierteljährlich durchzuführen. In den meisten Fällen sollte die Mehrheit Ihrer A/A-Kalibrierungstestergebnisse zeigen, dass die Conversion-Verbesserung zwischen den identischen Baseline-Seiten statistisch nicht schlüssig ist.

Warum identische Seiten testen?

In einigen Fällen möchten Sie möglicherweise On-Page-Conversions überwachen, wobei Sie den A/A-Test durchführen, um die Anzahl der Conversions zu erfassen und die Baseline-Conversion Rate zu ermitteln, bevor Sie einen A/B- oder multivariaten Test starten.

In den meisten anderen Fällen ist der A/A-Test eine Methode zur Überprüfung der Effektivität und Genauigkeit der A/B-Testing-Software. Sie sollten prüfen, ob die Software einen statistisch signifikanten (>95 % statistische Signifikanz) Unterschied zwischen Kontrolle und Variante meldet. Wenn die Software einen statistisch signifikanten Unterschied meldet, ist das ein Problem. Sie sollten überprüfen, ob die Software korrekt auf Ihrer Website oder Mobile App implementiert ist.

Kalibrierungstestdaten können auch Einblicke in Ihr Experimentation-Programm liefern. Die Verwendung eines A/A-Kalibrierungstests ist eine hervorragende Möglichkeit, Ihr Analytics-Setup zu messen. Wenn Sie dieselbe Variante zweimal im selben Experiment ausführen, erhalten Sie einen Benchmark-KPI, den Sie verfolgen können. Die Testdaten sollten zeigen, welche durchschnittliche Conversion Rate es zu übertreffen gilt.

Was Sie beim A/A-Testing beachten sollten:

Beim Durchführen eines A/A-Tests ist es wichtig zu beachten, dass ein Unterschied in der Conversion Rate zwischen identischen Baseline-Seiten immer möglich ist. Die statistische Signifikanz Ihrer Ergebnisse ist eine Wahrscheinlichkeit, keine Gewissheit. Dies ist nicht unbedingt ein schlechtes Zeichen für die A/B-Testing-Plattform, da beim Testen immer ein Element der Zufälligkeit vorhanden ist.

Beachten Sie bei jedem A/B-Test, dass die statistische Signifikanz Ihrer Ergebnisse eine Wahrscheinlichkeit und keine Gewissheit ist. Selbst ein statistisches Signifikanzniveau von 95 % bedeutet eine Chance von 1 zu 20, dass die beobachteten Ergebnisse auf Zufall zurückzuführen sind. In den meisten Fällen sollte Ihr A/A-Test ergeben, dass die Conversion-Verbesserung zwischen Kontrolle und Variante statistisch nicht schlüssig ist – denn die zugrunde liegende Wahrheit ist, dass es keinen Unterschied zu finden gibt.

Wie wirkt sich A/A-Testing auf Conversion Rates aus?

Da keine tatsächliche Änderung an den verschiedenen Versionen im Experiment vorgenommen wird, sollte es die Conversion Rates nicht beeinflussen. Wenn die Mehrheit Ihrer A/A-Kalibrierungstestergebnisse einen (signifikanten) Unterschied in den Conversion Rates zeigt, könnte dies auf ein Problem mit Ihrer Experiment-Implementierung hinweisen, z. B. die Überprüfung aller Targeting-Regeln und der Dokumentation. Stellen Sie sicher, dass Sie alle Targeting-Regeln und die Dokumentation überprüfen, um falsch-positive Ergebnisse zu vermeiden.

Sollten Sie eine zweite Baseline zu einem A/B-Test hinzufügen und so einen A/A/B-Test erstellen?

Und was ist mit doppelten Baselines und doppelten Testvarianten, wie bei einem A/B/A/B-Test? Das sind häufige Fragen. Eine Möglichkeit, einen A/B-Test zu validieren, könnte darin bestehen, ein Duplikat der A-Variante zum Experiment hinzuzufügen.

Aber nein. Das sollten Sie niemals tun. A/A-Kalibrierungstests müssen in ihrem eigenen separaten Bereich, ihrem eigenen Experiment, durchgeführt werden. Man sollte eine große Verteilung von A/A-Kalibrierungstestergebnissen bewerten, anstatt die Leistung anhand eines einzelnen Experiments zu beurteilen, das eine einzelne Baseline gegen eine andere einzelne Baseline testet.

Wenn Sie mehrere Baselines mit Testvarianten kombinieren, bestrafen Sie die Leistung Ihrer Testvarianten unnötig. Anders ausgedrückt: Mehrere Baselines in Kombination mit Testvarianten kannibalisieren die Experimentergebnisse.

Bei einem A/B/A/B-Test sorgt das Hinzufügen weiterer Baselines in einem Experiment nicht für ein sichereres oder zuverlässigeres Erlebnis. Darüber hinaus setzen zwei oder mehr Baselines in Kombination mit einer beliebigen Anzahl von Testvarianten den Experimentator einem hohen Risiko von Bestätigungsfehler (Confirmation Bias) aus: Dem erwarteten Ergebnis wird zu viel Bedeutung beigemessen. Optimizely rät davon ab, eine zweite Baseline neben Testvarianten hinzuzufügen, da dies oft ein fehlgeleiteter Versuch von Experimentatoren ist, sich gegen Fehler abzusichern.

Falsch-positive Ergebnisse in A/B-Testing-Tools vermeiden – und warum das wichtig ist

Experimente durchzuführen kann hervorragend zur Optimierung von Conversion Rates oder zur Beeinflussung anderer geschäftskritischer Kennzahlen sein. Aber wenn Sie sich nicht darauf verlassen können, dass die Software die Testergebnisse korrekt erfasst, verfehlt die Testing-Software ihren Zweck. Die Ergebnisse müssen:

Vertrauenswürdig: Können Sie darauf vertrauen, dass die Testergebnisse korrekt sind und die Realität widerspiegeln.
Genau: Es ist entscheidend, dass die Stichprobengrößen ausreichend groß und die Ergebnisse stabil sind.
Signifikante Ergebnisse: Sind die Ergebnisse für Variante B bedeutsam und konsistent unterschiedlich zur A-Variante.

A/B-Testing- und Experimentation-Software, mit der Sie mehr als nur A/B-Tests durchführen können, soll Marketern Vertrauen in ihre Testergebnisse geben. Die Durchführung eines A/A-Tests adressiert die ersten beiden der oben genannten Punkte, damit Sie wissen, dass der dritte Punkt – signifikante Ergebnisse – korrekt und vertrauenswürdig ist.

Wie A/A-Testdaten Ihr Analytics-Tool unterstützen können und umgekehrt

Die Verwendung eines A/A-Tests ist eine hervorragende Möglichkeit, Ihr Analytics-Setup zu messen. Wenn Sie dieselbe Variante zweimal im selben Experiment ausführen, erhalten Sie einen Benchmark-KPI, den Sie verfolgen können. Die Testdaten sollten zeigen, welche durchschnittliche Conversion Rate es zu übertreffen gilt.

Welche Rolle spielt Ihr Analytics-Tool dabei? Ihr Analytics-Tool, wahrscheinlich Google Analytics, sollte Ihre Conversion Rates bereits erfassen. Wenn Sie also einen A/A-Test durchführen, um Benchmark-Metriken zu messen, sollten diese (nahezu) identisch sein? Richtig!

A/A-Testing ist eine gängige Praxis, um Tools gegen sich selbst, aber auch gegen andere Anbieter zu validieren. Wenn Sie bereits wissen, dass Ihre Google Analytics Conversion Rates korrekt erfasst werden, sollte Ihr A/A-Test (nahezu) dasselbe Ergebnis zeigen.

Hilfe! Meine A/B-Test-Tools und Analytics-Tools zeigen nach einem A/A-Test unterschiedliche Conversion Rates

Stellen Sie sicher, dass Sie einige gängige Schritte zur Fehlerbehebung durchführen:

Überprüfen Sie die Stichprobengröße Ihres Tests. Obwohl dieser Test niemals statistische Signifikanz erreichen wird, da es keinen echten Unterschied zwischen den beiden Varianten zu messen gibt, ist es dennoch wichtig, den Test mit einer ausreichenden Anzahl von Besuchern durchzuführen, um seine Genauigkeit zu validieren.
Überprüfen Sie die Targeting-Regeln für beide Tools. Da die meisten Experimentation-Regeln am Anfang des Seiten-Heads ausgeführt werden müssen oder serverseitig ausgeführt werden können und Ihr Analytics-Tool möglicherweise in etwas wie Google Tag Manager läuft, kann es sein, dass die Regeln, auf welchen Seiten beide Tools ausgelöst werden, voneinander abweichen. Stellen Sie sicher, dass Sie Setups und Abdeckung beider Tools testen und überprüfen.

Gute Mindeststichprobengrößen für A/A-Tests

Große Stichprobengrößen sind für A/A-Kalibrierungstests nicht immer erforderlich, da Sie an den Varianten tatsächlich nichts ändern. Zum Beispiel ist die Durchführung eines A/A-Kalibrierungstests auf der Startseite eine ausgezeichnete Idee, da diese zu den meistbesuchten Seiten vieler Websites gehört und schnell helfen kann, Probleme mit Ihrem Setup zu erkennen. Die Verwendung einer weniger wichtigen Landing Page ist ebenfalls eine Option, aber berücksichtigen Sie immer externe Faktoren. Wenn der Traffic auf dieser Seite stark schwankt, beispielsweise aufgrund bezahlter Budgets, ist sie möglicherweise nicht die beste Seite für den Test. Sie suchen nach einer Seite mit stabilen Conversion Rates als Benchmark.

Die Optimizely Experiment Stats Engine und A/A-Testing:

Wenn Sie einen A/A-Test mit Web/Feature/ Product Experimentation durchführen, können Sie in den meisten Fällen erwarten, dass die Testergebnisse nicht schlüssig sind – das bedeutet, dass der Conversion-Unterschied zwischen identischen Varianten keine statistische Signifikanz erreicht. Tatsächlich wird die Anzahl der A/A-Tests mit nicht schlüssigen Ergebnissen mindestens so hoch sein wie der in Ihren Projekteinstellungen festgelegte Signifikanzschwellenwert (standardmäßig 90 %).

In einigen Fällen können Sie jedoch feststellen, dass eine Variante die andere übertrifft oder ein Gewinner für eines Ihrer Ziele ermittelt wird. Das schlüssige Ergebnis dieses Experiments tritt rein zufällig auf und sollte nur in 10 % der Fälle vorkommen, wenn Sie Ihren Signifikanzschwellenwert auf 90 % eingestellt haben. Wenn Ihr Signifikanzschwellenwert höher ist (z. B. 95 %), ist die Wahrscheinlichkeit eines schlüssigen A/A-Tests sogar noch geringer (5 %).

Weiter lernen

Bereit für einen tieferen Einblick in die Welt des Experimentierens?

Unsere Empfehlungen: