Was ist das Problem des Mehrarmigen Banditen?
Im Marketing ist eine Mehrarmiger-Bandit-Lösung eine „intelligentere" oder komplexere Version des A/B-Testing, die Machine Learning Algorithmen nutzt, um Traffic dynamisch auf gut performende Varianten zu verteilen, während weniger Traffic auf unterdurchschnittlich performende Varianten entfällt.
Der Begriff „Mehrarmiger Bandit" stammt aus einem hypothetischen Experiment, bei dem eine Person zwischen mehreren Aktionen wählen muss (d. h. Spielautomaten, die „einarmigen Banditen"), jeweils mit unbekannter Auszahlung. Das Ziel ist es, durch eine Reihe von Entscheidungen das beste oder profitabelste Ergebnis zu ermitteln. Zu Beginn des Experiments, wenn Wahrscheinlichkeiten und Auszahlungen unbekannt sind, muss der Spieler entscheiden, welchen Automaten er betätigt, in welcher Reihenfolge und wie oft. Dies ist das „Problem des Mehrarmigen Banditen".
Beispiele für den Mehrarmigen Banditen
Ein reales Beispiel für das Problem des Mehrarmigen Banditen ist, wenn eine Nachrichten-Website entscheiden muss, welche Artikel einem Besucher angezeigt werden. Ohne Informationen über den Besucher sind alle Klick-Ergebnisse unbekannt. Die erste Frage lautet: Welche Artikel erhalten die meisten Klicks? Und in welcher Reihenfolge sollten sie erscheinen? Das Ziel der Website ist es, das Engagement zu maximieren, aber es stehen viele Inhalte zur Auswahl, und es fehlen Daten, die bei der Verfolgung einer bestimmten Strategie helfen würden.
Die Nachrichten-Website hat ein ähnliches Problem bei der Auswahl, welche Anzeigen ihren Besuchern angezeigt werden sollen. In diesem Fall möchten sie die Werbeeinnahmen maximieren, verfügen aber möglicherweise nicht über genügend Informationen über den Besucher, um eine bestimmte Werbestrategie zu verfolgen. Ähnlich wie bei den Nachrichtenartikeln steht ihnen in der Regel eine große Anzahl von Anzeigen zur Auswahl. Welche Anzeigen erzielen den maximalen Umsatz für ihre Nachrichten-Site?
Die Website muss eine Reihe von Entscheidungen treffen, jeweils mit unbekanntem Ergebnis und unbekannter „Auszahlung".
Lösungen für den Mehrarmigen Banditen
Informatiker haben viele verschiedene Lösungen entwickelt, um das Problem des Mehrarmigen Banditen anzugehen. Nachfolgend finden Sie eine Liste der am häufigsten verwendeten Mehrarmiger-Bandit-Lösungen:
-
Epsilon-Greedy
Dies ist ein Algorithmus zur kontinuierlichen Balance zwischen Exploration und Exploitation. (Bei „Greedy"-Experimenten wird immer der Hebel mit der höchsten bekannten Auszahlung gezogen, es sei denn, eine zufällige Aktion wird ausgeführt.) Ein zufällig gewählter Arm wird in einem Bruchteil ε der Fälle gezogen. In den übrigen 1-ε der Fälle wird der Arm mit der höchsten bekannten Auszahlung gezogen.
-
Upper Confidence Bound
Diese Strategie basiert auf dem Prinzip „Optimismus angesichts von Unsicherheit" und geht davon aus, dass die unbekannten durchschnittlichen Auszahlungen jedes Arms basierend auf beobachtbaren Daten so hoch wie möglich sein werden.
-
Thompson Sampling (Bayesianisch)
Bei dieser randomisierten Wahrscheinlichkeitsabgleich-Strategie sollte die Anzahl der Züge für einen bestimmten Hebel seiner tatsächlichen Wahrscheinlichkeit entsprechen, der optimale Hebel zu sein.
Wie sich kontextuelle Banditen von Standard-Mehrarmigen-Banditen unterscheiden
Ein kontextueller Bandit ist ein fortschrittlicher Personalisierung-Algorithmus, der den Mehrarmiger-Bandit-Ansatz durch die Einbeziehung benutzerspezifischer Daten erweitert. Während traditionelle Mehrarmige Banditen dabei helfen, gewinnende Varianten zu identifizieren, bestimmen kontextuelle Banditen, welche Variante für jeden einzelnen Besucher am besten funktioniert.
Der „Kontext" bezieht sich auf besucherspezifische Informationen wie Gerätetyp, Standort, vergangenes Verhalten oder Kaufhistorie. Diese Daten ermöglichen es dem Machine-Learning-Modell, intelligentere Entscheidungen darüber zu treffen, welche Inhalte angezeigt werden sollen, um die Conversions zu maximieren.
Wie kontextuelle Banditen funktionieren:
- Lernphase: Das Modell beginnt mit 100 % Exploration und weist Besuchern zufällig Varianten zu, um vielfältige Daten für Vorhersagen zu sammeln.
- Balance zwischen Exploration und Exploitation: Sobald genügend Besucherverhalten-Daten gesammelt sind, nutzt das Modell Exploitation (Bereitstellung personalisierter Varianten). Es passt die Explorations-/Exploitation-Raten dynamisch an, wenn es mehr Ereignisse erhält.
- Kontinuierliche Anpassung: Das Modell behält etwas Exploration bei (maximal 95 % Exploitation), um kontinuierliches Lernen sicherzustellen und verpasste Chancen zu vermeiden.
Anstatt manuell komplexe Targeting-Regeln für verschiedene Benutzersegmente zu erstellen, lernen kontextuelle Banditen diese Zusammenhänge automatisch und liefern das relevanteste Erlebnis für jeden Besucher in Echtzeit. Dieser Ansatz eliminiert Rätselraten und ermöglicht echte 1:1-Personalisierung im großen Maßstab – entscheidend im heutigen wettbewerbsintensiven Umfeld, in dem die Aufmerksamkeitsspannen begrenzt und die Erwartungen an Personalisierung hoch sind.
Der wesentliche Unterschied zwischen kontextuellen Banditen und traditionellen Mehrarmigen Banditen ist der Kontext. Während Standard-Mehrarmige-Banditen eine einzige gewinnende Variante für alle Benutzer suchen, identifizieren kontextuelle Banditen die beste Variante für jeden Benutzer basierend auf seinen spezifischen Attributen.
- A/B-Testing: Feste Traffic-Aufteilung mit Einheits-Gewinnerauswahl
- Mehrarmige Banditen: Dynamische Traffic-Zuweisung auf der Suche nach einer insgesamt „besten" Variante
- Kontextuelle Banditen: Personalisierte Erlebnisse basierend auf dem Benutzerkontext (Gerät, Standort, Verhalten)
Mehrarmige Banditen vs. A/B-Testing
Bei der Entscheidung, ob Mehrarmige Banditen anstelle von A/B-Testing eingesetzt werden sollen, müssen Sie den Kompromiss zwischen Exploitation und Exploration abwägen (manchmal auch als „Verdienen oder Lernen" bekannt).
Der Schlüssel zum Verständnis des Unterschieds zwischen traditionellem A/B-Testing und Mehrarmigen Banditen ist das Konzept von Exploitation versus Exploration:
- Exploration: Verschiedene Varianten werden Besuchern gezeigt, um herauszufinden, welche am besten performt
- Exploitation: Die am besten performende Variante wird gezeigt, um Conversions zu maximieren
Beim A/B-Testing gibt es eine begrenzte Phase reiner Exploration, in der Traffic gleichmäßig auf Version A und Version B verteilt wird. Sobald ein Gewinner feststeht, beginnt eine lange Phase der Exploitation, in der 100 % der Benutzer die gewinnende Variante sehen. Ein Problem bei diesem Ansatz ist, dass Ressourcen für die unterlegene Variante verschwendet werden, während versucht wird, Daten zu sammeln und den Gewinner zu ermitteln.
Beim Mehrarmiger-Bandit-Testing sind die Tests adaptiv und umfassen gleichzeitig Phasen der Exploration und Exploitation. Sie verlagern den Traffic schrittweise in Richtung gewinnender Varianten, anstatt Sie zu zwingen, bis zum Ende eines Experiments auf die Bestimmung eines Gewinners zu warten. Dieser Prozess ist schneller und effizienter, da weniger Zeit damit verbracht wird, Traffic an offensichtlich unterlegene Varianten zu senden.
Einer der größten Nachteile des Mehrarmiger-Bandit-Testing ist die rechnerische Komplexität. Einfach ausgedrückt: Es ist schwieriger und ressourcenintensiver, Mehrarmiger-Bandit-Tests durchzuführen.