CUPED: Alles, was Sie über Techniken zur Varianzreduktion wissen müssen, um mehr aus Ihren A/B-Tests herauszuholen.

17. Apr. 2025

CUPED steht für Controlled-experiment Using Pre-Existing Data, ein statistischer Ansatz zur Reduzierung der Varianz durch die Verwendung historischer Benutzerdaten vor Beginn des Tests.

ZEIT...

ist der Grund dafür, dass gut konzipierte Experimente manchmal keine statistische Signifikanz erreichen.

Viele A/B-Tests landen im Friedhof der „nicht aussagekräftigen“ Ergebnisse und verharren knapp unterhalb der Signifikanzschwelle. Langsame Datenerfassung und stark schwankende Metriken können die Erkennung tatsächlicher Effekte bei Website-Relaunches oder Preisstrategien frustrierend schwierig machen. Was wäre, wenn Sie Ihre Konfidenzintervalle verfeinern und die statistische Aussagekraft Ihrer Experimente mithilfe bereits vorhandener Daten erhöhen könnten? Hier kommt CUPED ins Spiel. CUPED steht für Controlled-experiment Using Pre-Existing Data und ist ein statistischer Ansatz zur Reduzierung der Varianz.

Bildquelle: Optimizely

Und das Beste daran? Sie können es auch nutzen! Sehen wir uns an, wie. 👇

Die Effizienzlücke bei Experimenten

Die Herausforderung des optimalen Zeitpunkts für Experimente variiert je nach Branche:

  • E-Commerce-Websites führen Tests typischerweise über mehrere Wochen durch
  • SaaS-Produkte benötigen oft längere Testzeiträume
  • Medien-Websites erzielen aufgrund höherer Besucherzahlen möglicherweise schnellere Ergebnisse

Und das auch nur, wenn sie überhaupt zu einem Ergebnis führen. Viele werden einfach abgebrochen, wenn die Ergebnisse unklar bleiben.

Warum ist das so? Drei Hauptgründe:

  1. Hohe Varianz der Metrikdaten: Engagement-Metriken schwanken naturgemäß stark zwischen den Nutzern, wodurch es schwierig ist, tatsächliche Effekte zu erkennen.
  2. Begrenzter Traffic: Nicht jedes Unternehmen ist Google. Die meisten Unternehmen haben Schwierigkeiten, genügend Nutzer für ein Experiment zu gewinnen.
  3. Opportunitätskosten: Jede Woche, die ein Experiment läuft, bedeutet eine weitere Woche Verzögerung bei Entscheidungen und potenziellen Verbesserungen. Längere Experimente bedeuten weniger Tests, die Sie in einem bestimmten Zeitraum durchführen können. Dies verlangsamt Ihre Lerngeschwindigkeit und die Produktentwicklung. Eine hohe Varianz einer Metrik erfordert eine größere Stichprobe, um statistische Signifikanz zu erreichen. Dies kann angesichts des Besucheraufkommens Wochen dauern. Wenn Metriken zwischen Nutzern stark schwanken, benötigen Sie mehr Daten, um einen tatsächlichen Unterschied von einem reinen Zufall zu unterscheiden. CUPED reduziert diese Varianz mithilfe von Daten aus der Zeit vor dem Experiment entscheidend. So erreichen Sie statistische Signifikanz mit kleineren Stichproben und gewinnen klarere Signale aus den bereits vorhandenen Daten, anstatt einfach weitere zu sammeln. Dies wandelt einen mühsamen Lernprozess in ein effizienteres Experimentierprogramm um. Dies ist die Effizienzlücke bei Experimenten, die CUPED zu schließen hilft.

    Lassen Sie uns genauer betrachten, woher CUPED kommt und wie es funktioniert.

    Wie CUPED Ihre vorhandenen Daten in schnellere Erfolge verwandelt

    Microsoft Research veröffentlichte 2013 eine Studie, in der CUPED vorgestellt wurde: Kontrolliertes Experiment mit bereits vorhandenen Daten.

    Eine statistische Methode, die Ihre A/B-Tests effizienter macht, indem sie Ihre bereits vorhandenen Daten nutzt.

    Frühe Anwender bei Microsoft berichteten von deutlichen Verbesserungen ihrer Testmöglichkeiten. Unternehmen wie Netflix und Airbnb haben seitdem ähnliche Ansätze mit beeindruckenden Ergebnissen implementiert.

    Was CUPED auszeichnet, ist seine elegante Einfachheit. Es verwendet Daten vor dem Experiment als Kovariate, um die Varianz Ihrer Metriken zu reduzieren.

    Wenn Sie messen möchten, wie sich eine neue Funktion auf die Ausgaben der Nutzer auswirkt, wäre es nicht hilfreich zu berücksichtigen, wie viel diese Nutzer vor Ihrem Experiment ausgegeben haben?

    Genau so filtert CUPED das Rauschen heraus, damit Sie das Signal klarer erkennen können.

    Wie CUPED die Varianz tatsächlich reduziert

    Um den Wert von CUPED wirklich zu verstehen, müssen wir seinen größten Feind, die Varianz, verstehen.

    Varianz ist der Grund, warum zwei scheinbar identische Nutzer völlig unterschiedliche Verhaltensweisen zeigen können:

    • Einer gibt 10 $ auf Ihrer Website aus
    • Ein anderer gibt 150 $ aus
    • Und Sie versuchen, eine Verbesserung des durchschnittlichen Bestellwerts um 5 % zu erkennen

    Siehe die Problem?

    Bei Kennzahlen mit naturgemäß hoher Varianz, wie Umsatz oder Nutzerinteraktion, gehen kleine Behandlungseffekte im statistischen Rauschen unter. Es ist, als würde man versuchen, ein Flüstern bei einem Rockkonzert zu hören.

    Und hier ist der Grund, warum CUPED so effektiv ist…

    CUPED passt Ihre Kennzahlenwerte anhand historischer Daten derselben Nutzer an. Wenn Nutzer A üblicherweise 200 € ausgibt und während Ihres Experiments 210 €, während Nutzer B üblicherweise 20 € ausgibt und während Ihres Experiments 30 € ausgibt, erkennt CUPED, dass beide Nutzer ihre Ausgaben trotz der absoluten Differenz um etwa denselben Prozentsatz erhöht haben.

    Diese Anpassung reduziert die Varianz, indem sie die Unterschiede zwischen den Nutzern normalisiert und so die Standardabweichung Ihrer Kennzahl verringert. Da Konfidenzintervalle die Standardabweichung in ihrer Berechnung berücksichtigen, führt eine kleinere Standardabweichung zu engeren Konfidenzintervallen – wodurch die Wahrscheinlichkeit steigt, mit denselben Daten statistische Signifikanz zu erreichen.

    Gleiche Daten und gleiche Effektstärke, aber plötzlich ist sie sichtbar.

    Nachdem wir nun die Funktionsweise von CUPED verstanden haben, sehen wir uns an, wo es die größte Wirkung erzielt.

    Nicht alle Kennzahlen profitieren gleichermaßen von CUPED…

    Das sollten Sie wissen:

    1. Besondere Aspekte: Umsatzkennzahlen

    Umsatzkennzahlen weisen oft eine extrem hohe Varianz auf. Manche Nutzer geben 5 € aus, andere 500 €.

    Bei der Anwendung auf Umsatzkennzahlen sucht CUPED nach einer Korrelation zwischen vergangenen und aktuellen Ausgaben. Daher ist CUPED für neue Nutzer, für die keine bisherigen Ausgabendaten vorliegen, nicht effektiv.

    Ein häufiger Implementierungsfehler ist die Verwendung von Kovariaten, die durch die Behandlung beeinflusst werden, was zu verzerrten Ergebnissen führen kann. Es empfiehlt sich, Kovariaten zu wählen, die vor Beginn des Experiments gemessen werden.

    2. Wann sollte man CUPED verwenden? ✅ Ideal für: Numerische Metriken mit hoher Varianz Umsatz pro Besucher Durchschnittlicher Bestellwert Sitzungsdauer Diese Metriken verbessern sich mit CUPED am meisten, da sie typischerweise Folgendes aufweisen: Hohe natürliche Varianz zwischen Nutzern Starke Korrelation zwischen Werten vor und während des Experiments Weniger effektiv für: Binäre Konvertierung Metriken

    So aktivieren Sie CUPED in Optimizely

    Optimizely macht die Verwendung von CUPED einfach:

    • Kompatible Metriken: Funktioniert mit numerischen Metriken (Umsatz, Engagement-Zahlen), aber nicht mit binären Konversionsmetriken
    • Daten vor dem Experiment: Verwendet die Werte Ihrer Zielmetriken vor dem Experiment als Kovariaten
    • Unterstützt in Optimizely Analytics: Funktionen für Snowflake, BigQuery und Databricks
    • Implementierung:Einfache Aktivierung/Deaktivierung in den Experimenteinstellungen, keine komplexen Berechnungen erforderlich
    • Datenanforderungen: Benötigt historische Daten für analysierte Metriken; keine Auswirkung auf neue Metriken ohne historische Daten
    • Erwartetes Ergebnis: Reduziert die Varianz und kann so den Stichprobenumfang für Metriken verringern, die mit dem historischen Verhalten korrelieren

    So sieht es mit und ohne CUPED aus.

    Ohne CUPED

Bildquelle: Optimizely

Mit CUPED ergibt sich nun ein Unterschied in der Länge des Konfidenzintervalls.

Bildquelle: Optimizely

Drei wichtige Erkenntnisse...

Die Zukunft des Experimentierens besteht nicht nur darin, mehr Tests durchzuführen, sondern intelligentere Tests. CUPED ist Ihr erster Schritt in diese Richtung.

  1. Erhöhte Effizienz: Sie haben eine höhere Wahrscheinlichkeit, mit derselben Stichprobengröße signifikante Ergebnisse zu erzielen.
  2. Nicht alle Metriken profitieren gleichermaßen: Konzentrieren Sie die CUPED-Implementierung auf numerische Metriken mit hoher Varianz, da Sie hier die größten Verbesserungen erzielen.
  3. Die Implementierungskomplexität variiert: Es gibt verschiedene Möglichkeiten, CUPED zu implementieren, und verschiedene Kovariaten können ausgewählt werden. Optimizely nutzt historische Metrikdaten, die den meisten Anwendungsfällen unserer Kunden entsprechen.

Bereit für intelligentere Tests?

Identifizieren Sie zunächst eine Metrik mit hoher Varianz in Ihrem Testprogramm. Führen Sie einen direkten Vergleich zwischen Ihrer herkömmlichen Analyse und einem CUPED-optimierten Test durch.

Sie werden wahrscheinlich engere Konfidenzintervalle, klarere Ergebnisse und möglicherweise statistische Signifikanz für einen Test erzielen, der sonst nicht aussagekräftig gewesen wäre.

Der Weg zu effizienteren Experimenten beginnt mit diesem einfachen Schritt. Sie werden sich später fragen, wie Sie jemals ohne ihn getestet haben.