Veröffentlicht am 17. April

CUPED: Die Verringerung der Varianz beim A/B-Testing ist nicht neu, aber die meisten machen es falsch

CUPED steht für Controlled-experiment Using Pre-Existing Data (Kontrolliertes Experiment mit bereits vorhandenen Daten), ein statistischer Trick zur Verringerung der Varianz, indem das historische Nutzerverhalten vor Beginn des Tests verwendet wird.

Misha Datsenko
von Misha Datsenko
icon

ZEIT...

ist die Ursache dafür, dass gute Tests nie eine statistische Signifikanz erreichen.

Viele A/B-Tests enden auf dem Friedhof der "nicht aussagekräftigen" Ergebnisse, die knapp unterhalb der Signifikanzschwelle liegen. Aufgrund der langsamen Datenerfassung und der hohen Varianz der Metriken kann es frustrierend schwer sein, echte Effekte bei der Neugestaltung Ihrer Website oder Ihrer Preisstrategie zu erkennen.

Was wäre, wenn Sie Ihre Konfidenzintervalle verkleinern und die statistische Aussagekraft Ihrer Experimente mit den Ihnen bereits vorliegenden Daten erhöhen könnten?

An dieser Stelle kommt CUPED ins Spiel. CUPED steht für Controlled-experiment Using Pre-Existing Data (Kontrolliertes Experiment mit bereits vorhandenen Daten) und ist ein cleverer statistischer Trick zur Verringerung der Varianz, indem das historische Nutzerverhalten vor Beginn des Tests genutzt wird.

KI kann zwar bei der Entwicklung von Testideen und der Analyse der Ergebnisse helfen, aber sie kann nicht das Kernproblem lösen, dass wir genügend Daten benötigen, um sichere Entscheidungen zu treffen. CUPED kann es.

CUPED in action

Bildquelle: Optimizely

Und das Beste daran? Sie können es auch verwenden! Lassen Sie uns sehen, wie. 👇

Die Effizienzlücke beim Experimentieren

Die Herausforderung des Experimentierens ist je nach Branche unterschiedlich:

  • E-Commerce Sites führen in der Regel Tests über mehrere Wochen durch
  • SaaS-Produkte erfordern oft längere Testzeiträume
  • Mediensites erzielen aufgrund des höheren Verkehrsaufkommens möglicherweise schnellere Ergebnisse

Und das nur, wenn sie überhaupt abgeschlossen werden. Viele werden einfach aufgegeben, wenn die Ergebnisse nicht schlüssig sind.

Warum ist das so? Drei Hauptgründe:

  1. Hohe Varianz bei den Metrikdaten: Die Engagement-Metriken schwanken naturgemäß stark zwischen den einzelnen Nutzern, so dass es schwierig ist, die tatsächlichen Auswirkungen zu erkennen.
  2. Begrenzter Traffic: Nicht jedes Unternehmen ist Google. Die meisten Unternehmen haben Schwierigkeiten, genügend Nutzer für ein Experiment zu gewinnen.
  3. Opportunitätskosten: Jede Woche, die ein Experiment läuft, ist eine weitere Woche, in der Sie Entscheidungen und potenzielle Verbesserungen hinauszögern. Längere Experimente bedeuten weniger Tests, die Sie in einem bestimmten Zeitrahmen durchführen können, was Ihre Lerngeschwindigkeit und Produktentwicklung insgesamt verlangsamt.

Wenn Ihr durchschnittliches Experiment mehrere Wochen braucht, um eine statistische Signifikanz zu erreichen, erfordert eine hohe Varianz in Ihren Metriken eine größere Stichprobengröße. Wenn die Metriken zwischen den Nutzern stark schwanken, benötigen Sie mehr Daten, um echte Verbesserungen von zufälligem Rauschen zu unterscheiden.

CUPED macht einen entscheidenden Unterschied, indem es diese Varianz durch Daten aus der Zeit vor dem Experiment reduziert. So können Sie mit kleineren Stichprobengrößen statistische Sicherheit erreichen und klarere Signale aus den bereits vorhandenen Daten extrahieren, anstatt einfach mehr Daten zu sammeln.

Dies verwandelt einen schmerzhaft langsamen Lernzyklus in ein effizienteres Experimentieren. Das ist die Lücke in der Effizienz des Experimentierens, die CUPED zu schließen hilft.

Stellen Sie sich vor, Sie versuchen, die Auswirkungen eines neuen Website-Designs auf das Engagement der Benutzer zu messen.

Das ist Sam, ein Product Manager bei einem E-Commerce-Unternehmen. Sam führt seit 3 Wochen einen Homepage-Test durch, der noch immer keine statistische Signifikanz erreicht hat. Die Besucherzahlen sind konstant, aber die Conversion Rates variieren stark zwischen den Benutzern. Das Führungsteam wird ungeduldig und verlangt nach Ergebnissen.

Hier ist das Problem: Sams Metriken sind zu verrauscht.

Einige Benutzer konvertieren natürlich mit höheren Raten, unabhängig davon, welche Testvariante sie sehen. Diese bereits vorhandene Varianz erschwert es, die tatsächlichen Auswirkungen von Sams Designänderungen zu erkennen.

An dieser Stelle macht CUPED den Unterschied. Selbst bei geringem Traffic oder minimalem Lifting können Sie mit CUPED schneller und zuverlässiger zu Ergebnissen kommen.

Es ist wie ein Vergleich von Äpfeln mit Äpfeln statt von Äpfeln mit Orangen, der es Sam ermöglicht, die wahren Auswirkungen des neuen Designs mit weniger Daten zu erkennen.

Lassen Sie uns tiefer eintauchen, woher CUPED kommt und wie es funktioniert.

Wie CUPED Ihre vorhandenen Daten in schnellere Gewinne verwandelt

Microsoft Research veröffentlichte 2013 ein Papier, in dem CUPED vorgestellt wurde: Controlled-experiment Using Pre-Existing Data.

Eine statistische Methode, die Ihre A/B-Tests effizienter macht, indem sie Daten nutzt, die Ihnen bereits vorliegen.

Early Adopters bei Microsoft berichteten über erhebliche Verbesserungen ihrer Funktionen bei Tests. Unternehmen wie Netflix und Airbnb haben seitdem ähnliche Ansätze mit beeindruckenden Ergebnissen umgesetzt.

Das Besondere an CUPED ist seine elegante Einfachheit. Es verwendet Daten aus der Zeit vor dem Experiment als Kovariate, um die Varianz in Ihren Kennzahlen zu reduzieren.

Wenn Sie messen möchten, wie sich eine neue Funktion auf die Ausgaben der Nutzer auswirkt, wäre es dann nicht hilfreich, zu berücksichtigen, wie viel diese Nutzer vor Ihrem Experiment ausgegeben haben?

Genau auf diese Weise filtert CUPED das Rauschen heraus, so dass Sie das Signal klarer erkennen können.

Um den Wert von CUPED wirklich zu schätzen, müssen wir seine Nemesis, die Varianz, verstehen.

Die Varianz ist der Grund dafür, dass zwei scheinbar identische Nutzer ein völlig unterschiedliches Verhalten an den Tag legen können:

  • Der eine gibt $10 auf Ihrer Site aus
  • Ein anderer gibt $150 aus
  • Und Sie versuchen, eine 5%ige Verbesserung des durchschnittlichen Bestellwerts zu erkennen

Sehen Sie das Problem?

Bei Metriken, die von Natur aus eine hohe Varianz aufweisen, wie z.B. Umsatz oder Engagement, werden kleine Behandlungseffekte unter Bergen von statistischem Rauschen begraben. Es ist, als ob Sie versuchen würden, ein Flüstern bei einem Rockkonzert zu hören.

CUPED funktioniert, indem es Daten aus der Zeit vor dem Experiment als Kovariate in Ihre Analyse einbezieht.

Diese Verengung der Konfidenzintervalle macht CUPED so effektiv. Dieselben Daten und dieselbe Effektgröße, aber plötzlich können Sie sie sehen.

Da wir nun wissen, wie CUPED funktioniert, sollten wir uns ansehen, wo es die größte Wirkung erzielt.

Nicht alle Metriken profitieren gleichermaßen von CUPED...

Hier ist, was Sie wissen müssen:

1. Besondere Überlegungen: Ertragskennzahlen

Umsatzkennzahlen weisen oft eine extrem hohe Varianz auf. Einige Benutzer geben vielleicht 5 $ aus, andere 500 $.

Wenn Sie CUPED auf Umsatzkennzahlen anwenden:

  • Suchen Sie nach einer Korrelation zwischen den Ausgaben in der Vergangenheit und den aktuellen Ausgaben
  • Ziehen Sie die Segmentierung von Kunden mit hohem und niedrigem Wert in Betracht.
  • Seien Sie vorsichtig bei neuen Benutzern, die keine Ausgabenhistorie haben.

Ein häufiger Implementierungsfehler ist die Verwendung von Kovariaten, die von der Behandlung beeinflusst werden, was zu verzerrten Ergebnissen führen kann. Eine Erfolgsmethode ist es, Kovariaten zu wählen, die vor Beginn des Experiments gemessen werden.

2. Wann Sie CUPED verwenden sollten

Am besten geeignet für: Numerische Metriken mit hoher Varianz

Diese Metriken erfahren mit CUPED die größte Verbesserung, weil sie typischerweise

  • Hohe natürliche Varianz zwischen den Nutzern
  • Starke Korrelation zwischen den Werten vor dem Experiment und während des Experiments

🚫 Weniger effektiv für: Binäre Metriken für die Conversion

Wie man den CUPED-Schalter in Optimizely umlegt

Optimizely macht die Verwendung von CUPED ganz einfach:

  • Kompatible Metriken: Funktioniert mit numerischen Metriken (Umsatz, Engagementzahlen), aber nicht mit binären Conversion-Metriken
  • Pre-Experiment Daten: Verwendet die Werte Ihrer Targeting-Kennzahlen vor dem Experiment als Kovariaten
  • Unterstützt in Optimizely Analytics: Funktionen auf Snowflake, BigQuery und Databricks
  • Implementierung: Einfaches Umschalten in den Einstellungen des Experiments, keine komplexen Berechnungen erforderlich
  • Datenanforderungen: Benötigt historische Daten für analysierte Metriken; keine Auswirkung auf neue Metriken ohne Historie
  • Erwartetes Ergebnis: Verringert die Varianz und reduziert möglicherweise die Anforderungen an die Stichprobengröße um 30-50% für Metriken, die mit dem historischen Verhalten korrelieren

Hier sehen Sie, wie es mit und ohne CUPED aussieht.

Ohne CUPED

Results without CUPED

Bildquelle: Optimizely

Jetzt, mit CUPED

Results with CUPED

Bildquelle: Optimizely

Drei Schlussfolgerungen...

Die Zukunft des Experimentierens liegt nicht nur in der Durchführung von mehr Tests, sondern in der Durchführung intelligenterer Tests. CUPED ist Ihr erster Schritt in diese Richtung.

  1. Gesteigerte Effizienz: Mit CUPED haben Sie eine höhere Chance, ein signifikantes Ergebnis eines kleineren Effekts zu sehen.
  2. Nicht alle Metriken profitieren gleichermaßen: Konzentrieren Sie sich bei der CUPED-Implementierung auf numerische Messgrößen mit hoher Varianz, bei denen Sie die größten Gewinne sehen werden.
  3. Die Komplexität der Implementierung variiert: Moderne Plattformen machen CUPED auch ohne statistisches Fachwissen zugänglich, aber das Verständnis der Prinzipien hilft Ihnen, es effektiv anzuwenden.

Sind Sie bereit, intelligentere Tests durchzuführen?

Beginnen Sie damit, eine Metrik mit hoher Varianz in Ihrem Experimentieren zu identifizieren. Führen Sie einen direkten Vergleich zwischen Ihrer herkömmlichen Analyse und einem mit CUPED verbesserten Test durch.

Sie werden wahrscheinlich engere Konfidenzintervalle und klarere Ergebnisse sehen und möglicherweise schon Tage früher eine statistische Signifikanz erreichen, als Sie es sonst getan hätten.

Der Weg zu effizienterem Experimentieren beginnt mit diesem einfachen Schritt. Ihr zukünftiges Ich wird sich fragen, wie Sie jemals ohne ihn getestet haben.