Mehrarmiger Bandit

Eine Mehrarmiger-Bandit-Lösung ist eine komplexere Version des A/B-Testing, die Machine Learning Algorithmen nutzt, um Traffic dynamisch auf Varianten zu verteilen

Was ist das Problem des Mehrarmigen Banditen?

Im Marketing ist eine Mehrarmiger-Bandit-Lösung eine „intelligentere" oder komplexere Version des A/B-Testing, die Machine Learning Algorithmen nutzt, um Traffic dynamisch auf gut performende Varianten zu verteilen, während weniger Traffic auf unterdurchschnittlich performende Varianten entfällt.

Der Begriff „Mehrarmiger Bandit" stammt aus einem hypothetischen Experiment, bei dem eine Person zwischen mehreren Aktionen wählen muss (d. h. Spielautomaten, die „einarmigen Banditen"), jeweils mit unbekannter Auszahlung. Das Ziel ist es, durch eine Reihe von Entscheidungen das beste oder profitabelste Ergebnis zu ermitteln. Zu Beginn des Experiments, wenn Wahrscheinlichkeiten und Auszahlungen unbekannt sind, muss der Spieler entscheiden, welchen Automaten er betätigt, in welcher Reihenfolge und wie oft. Dies ist das „Problem des Mehrarmigen Banditen".

Beispiele für den Mehrarmigen Banditen

Ein reales Beispiel für das Problem des Mehrarmigen Banditen ist, wenn eine Nachrichten-Website entscheiden muss, welche Artikel einem Besucher angezeigt werden. Ohne Informationen über den Besucher sind alle Klick-Ergebnisse unbekannt. Die erste Frage lautet: Welche Artikel erhalten die meisten Klicks? Und in welcher Reihenfolge sollten sie erscheinen? Das Ziel der Website ist es, das Engagement zu maximieren, aber es stehen viele Inhalte zur Auswahl, und es fehlen Daten, die bei der Verfolgung einer bestimmten Strategie helfen würden.

Die Nachrichten-Website hat ein ähnliches Problem bei der Auswahl, welche Anzeigen ihren Besuchern angezeigt werden sollen. In diesem Fall möchten sie die Werbeeinnahmen maximieren, verfügen aber möglicherweise nicht über genügend Informationen über den Besucher, um eine bestimmte Werbestrategie zu verfolgen. Ähnlich wie bei den Nachrichtenartikeln steht ihnen in der Regel eine große Anzahl von Anzeigen zur Auswahl. Welche Anzeigen erzielen den maximalen Umsatz für ihre Nachrichten-Site?

Die Website muss eine Reihe von Entscheidungen treffen, jeweils mit unbekanntem Ergebnis und unbekannter „Auszahlung".

Lösungen für den Mehrarmigen Banditen

Informatiker haben viele verschiedene Lösungen entwickelt, um das Problem des Mehrarmigen Banditen anzugehen. Nachfolgend finden Sie eine Liste der am häufigsten verwendeten Mehrarmiger-Bandit-Lösungen:

  1. Epsilon-Greedy

    Dies ist ein Algorithmus zur kontinuierlichen Balance zwischen Exploration und Exploitation. (Bei „Greedy"-Experimenten wird immer der Hebel mit der höchsten bekannten Auszahlung gezogen, es sei denn, eine zufällige Aktion wird ausgeführt.) Ein zufällig gewählter Arm wird in einem Bruchteil ε der Fälle gezogen. In den übrigen 1-ε der Fälle wird der Arm mit der höchsten bekannten Auszahlung gezogen.

  2. Upper Confidence Bound

    Diese Strategie basiert auf dem Prinzip „Optimismus angesichts von Unsicherheit" und geht davon aus, dass die unbekannten durchschnittlichen Auszahlungen jedes Arms basierend auf beobachtbaren Daten so hoch wie möglich sein werden.

  3. Thompson Sampling (Bayesianisch)

    Bei dieser randomisierten Wahrscheinlichkeitsabgleich-Strategie sollte die Anzahl der Züge für einen bestimmten Hebel seiner tatsächlichen Wahrscheinlichkeit entsprechen, der optimale Hebel zu sein.

Wie sich kontextuelle Banditen von Standard-Mehrarmigen-Banditen unterscheiden

Ein kontextueller Bandit ist ein fortschrittlicher Personalisierung-Algorithmus, der den Mehrarmiger-Bandit-Ansatz durch die Einbeziehung benutzerspezifischer Daten erweitert. Während traditionelle Mehrarmige Banditen dabei helfen, gewinnende Varianten zu identifizieren, bestimmen kontextuelle Banditen, welche Variante für jeden einzelnen Besucher am besten funktioniert.

Der „Kontext" bezieht sich auf besucherspezifische Informationen wie Gerätetyp, Standort, vergangenes Verhalten oder Kaufhistorie. Diese Daten ermöglichen es dem Machine-Learning-Modell, intelligentere Entscheidungen darüber zu treffen, welche Inhalte angezeigt werden sollen, um die Conversions zu maximieren.

Wie kontextuelle Banditen funktionieren:

  1. Lernphase: Das Modell beginnt mit 100 % Exploration und weist Besuchern zufällig Varianten zu, um vielfältige Daten für Vorhersagen zu sammeln.
  2. Balance zwischen Exploration und Exploitation: Sobald genügend Besucherverhalten-Daten gesammelt sind, nutzt das Modell Exploitation (Bereitstellung personalisierter Varianten). Es passt die Explorations-/Exploitation-Raten dynamisch an, wenn es mehr Ereignisse erhält.
  3. Kontinuierliche Anpassung: Das Modell behält etwas Exploration bei (maximal 95 % Exploitation), um kontinuierliches Lernen sicherzustellen und verpasste Chancen zu vermeiden.

Anstatt manuell komplexe Targeting-Regeln für verschiedene Benutzersegmente zu erstellen, lernen kontextuelle Banditen diese Zusammenhänge automatisch und liefern das relevanteste Erlebnis für jeden Besucher in Echtzeit. Dieser Ansatz eliminiert Rätselraten und ermöglicht echte 1:1-Personalisierung im großen Maßstab – entscheidend im heutigen wettbewerbsintensiven Umfeld, in dem die Aufmerksamkeitsspannen begrenzt und die Erwartungen an Personalisierung hoch sind.

Der wesentliche Unterschied zwischen kontextuellen Banditen und traditionellen Mehrarmigen Banditen ist der Kontext. Während Standard-Mehrarmige-Banditen eine einzige gewinnende Variante für alle Benutzer suchen, identifizieren kontextuelle Banditen die beste Variante für jeden Benutzer basierend auf seinen spezifischen Attributen.

  • A/B-Testing: Feste Traffic-Aufteilung mit Einheits-Gewinnerauswahl
  • Mehrarmige Banditen: Dynamische Traffic-Zuweisung auf der Suche nach einer insgesamt „besten" Variante
  • Kontextuelle Banditen: Personalisierte Erlebnisse basierend auf dem Benutzerkontext (Gerät, Standort, Verhalten)

Mehrarmige Banditen vs. A/B-Testing

Bei der Entscheidung, ob Mehrarmige Banditen anstelle von A/B-Testing eingesetzt werden sollen, müssen Sie den Kompromiss zwischen Exploitation und Exploration abwägen (manchmal auch als „Verdienen oder Lernen" bekannt).

Der Schlüssel zum Verständnis des Unterschieds zwischen traditionellem A/B-Testing und Mehrarmigen Banditen ist das Konzept von Exploitation versus Exploration:

  • Exploration: Verschiedene Varianten werden Besuchern gezeigt, um herauszufinden, welche am besten performt
  • Exploitation: Die am besten performende Variante wird gezeigt, um Conversions zu maximieren

Beim A/B-Testing gibt es eine begrenzte Phase reiner Exploration, in der Traffic gleichmäßig auf Version A und Version B verteilt wird. Sobald ein Gewinner feststeht, beginnt eine lange Phase der Exploitation, in der 100 % der Benutzer die gewinnende Variante sehen. Ein Problem bei diesem Ansatz ist, dass Ressourcen für die unterlegene Variante verschwendet werden, während versucht wird, Daten zu sammeln und den Gewinner zu ermitteln.

Beim Mehrarmiger-Bandit-Testing sind die Tests adaptiv und umfassen gleichzeitig Phasen der Exploration und Exploitation. Sie verlagern den Traffic schrittweise in Richtung gewinnender Varianten, anstatt Sie zu zwingen, bis zum Ende eines Experiments auf die Bestimmung eines Gewinners zu warten. Dieser Prozess ist schneller und effizienter, da weniger Zeit damit verbracht wird, Traffic an offensichtlich unterlegene Varianten zu senden.

Einer der größten Nachteile des Mehrarmiger-Bandit-Testing ist die rechnerische Komplexität. Einfach ausgedrückt: Es ist schwieriger und ressourcenintensiver, Mehrarmiger-Bandit-Tests durchzuführen.

Metrik A/B-Testing Mehrarmiger Bandit
Zeit bis zur Implementierung des Gewinners Durchschnittlich 2–4 Wochen Kann innerhalb von Tagen beginnen
Erforderlicher Traffic Höher (feste Zuweisung) Geringer (adaptive Zuweisung)
Opportunitätskosten Hoch (etablierte p-Werte) ~5–15 % Conversion-Verlust während des Testzeitraums ~1–5 % Conversion-Verlust während des Testzeitraums
Statistische Aussagekraft Hoch (etablierte p-Werte) Moderat (Fokus auf Regret-Minimierung)
Optimal für Testdauer Langfristig (Wochen/Monate) Kurzfristig (Tage/Wochen)
Rechnerische Komplexität Gering Moderat bis hoch

Wann Mehrarmige Banditen eingesetzt werden sollten

Es gibt einige bekannte Situationen, in denen Mehrarmiger-Bandit-Testing typischerweise am besten funktioniert:

  1. Überschriften und kurzfristige Kampagnen: Die Opportunitätskosten des Wartens auf A/B-Test-Ergebnisse machen Bandit-Algorithmen zur besseren Wahl für kurzlebige Inhalte wie Überschriften-Testing für neue Artikel oder Feiertagsaktionen.

  2. Langfristige dynamische Veränderungen: Wenn sich das getestete Element so stark verändert, dass die Ergebnisse eines A/B-Tests im Laufe der Zeit ungültig werden, bieten Mehrarmige Banditen eine Alternative zum wiederholten Testen durch kontinuierliche Exploration.

  3. Targeting: Targeting ist ein weiteres Beispiel für den langfristigen Einsatz von Bandit-Algorithmen. Wenn bestimmte Benutzertypen häufiger vorkommen als andere, kann der Mehrarmige Bandit gelernte Targeting-Regeln früher auf häufigere Benutzer anwenden und gleichzeitig bei weniger häufigen Benutzern weiter experimentieren.

  4. Automatisierung für Skalierung: Wenn Sie mehrere Komponenten kontinuierlich optimieren müssen, bietet der Mehrarmiger-Bandit-Ansatz ein Framework, um den Optimierungsprozess für risikoarme Probleme teilweise zu automatisieren, deren individuelle Analyse zu kostspielig wäre.

Wann kontextuelle Banditen eingesetzt werden sollten

Kontextuelle Banditen liefern in diesen Szenarien erheblichen Geschäftswert:

  1. Personalisierung im großen Maßstab: Wenn Sie für jeden Benutzer wirklich personalisierte Erlebnisse bieten müssen statt Einheitsansätze – die richtigen Inhalte zur richtigen Zeit an die richtige Person liefern.
  2. Dynamische Anpassung: Wenn Sie ein System benötigen, das in jeder Sitzung die beste Variante bereitstellt, selbst wenn sich die Benutzerpräferenzen weiterentwickeln.
  3. Eliminierung von Opportunitätskosten: Im Gegensatz zu A/B-Tests, die Wochen oder Monate benötigen, um statistische Signifikanz zu erreichen, beginnen kontextuelle Banditen sofort mit der Optimierung und reduzieren die Exposition gegenüber unterdurchschnittlichen Varianten in Echtzeit.
  4. Wartungsarme Optimierung: Für Seiten, deren Inhalte sich nicht zu häufig ändern. Im Laufe der Zeit wird das ML-Modell mit den gesammelten Daten präziser, was dies zu einer „Einrichten und vergessen"-Optimierung macht, die kontinuierlich laufen kann.

Wie Optimizely Mehrarmige Banditen einsetzt

Optimizely Web Experimentation und Feature Experimentation verwenden verschiedene Mehrarmiger-Bandit-Algorithmen, um die Traffic-Zuweisung zwischen Varianten intelligent zu ändern und ein Ziel zu erreichen. Je nach Ihrem Ziel wählen Sie zwischen den folgenden Zielsetzungen:

1. Stats Accelerator

Statistisch signifikante Variante so schnell wie möglich finden.

  • Verkürzt die Dauer des Experiments, indem mehr Besuchern die Variante gezeigt wird, die eine bessere Chance hat, statistische Signifikanz zu erreichen.
  • Maximiert die Anzahl der Erkenntnisse aus Experimenten in einem Zeitraum, sodass Sie weniger Zeit mit dem Warten auf Ergebnisse verbringen.
  • Versucht, so viele signifikante Varianten wie möglich zu entdecken.

2. Mehrarmiger Bandit (MAB)

Belohnung maximieren und Regret minimieren.

  • Ermöglicht es Ihnen, während des Experiment-Lebenszyklus so viel Wert wie möglich aus der führenden Variante zu schöpfen, damit Sie die Kosten suboptimaler Erlebnisse vermeiden.
  • Erzeugt keine statistische Signifikanz.
  • Verwendet den Thompson-Sampling-Algorithmus für binäre Metriken.
  • Verwendet den Epsilon-Greedy-Algorithmus für numerische Metriken.

3. Kontextueller Bandit

Wirklich personalisierte Erlebnisse bereitstellen.

  • Fortschrittliche baumbasierte Machine-Learning-Modelle, die Erlebnisse mit individuellen Benutzerkontexten abgleichen
  • Bietet 1:1-Personalisierung im großen Maßstab ohne manuelle Segmentierung
  • Ideal für die Erstellung dauerhafter Personalisierung-Programme, die sich an veränderndes Besucherverhalten anpassen