Introducing Optimizely Opal
an all-new AI platform. See how it works
Veröffentlicht am 06. April 2023

Warehouse-spezifische Leistungsoptimierung: Abfragezeit-Sampling

Priyendra Deshwal
von Priyendra Deshwal
3 min read time

Mit dem Optimizely Warehouse-Native Analytics Performance Pack können Enterprise-Benutzer jetzt Explorationen über gesampelte Daten durchführen. Wie nicht anders zu erwarten, laufen solche Untersuchungen um Größenordnungen schneller als ihre nicht gesampelten Varianten. Die Sampling-Funktion von Optimizely Warehouse-Native Analytics wurde implementiert, um sicherzustellen, dass die Ergebnisse von Stichprobenexplorationen statistisch zuverlässig sind und für wichtige Geschäftsentscheidungen verwendet werden können.

Hintergrund

Warehouse-native Produktanalysen bieten den Kunden ein überzeugendes Trio von Vorteilen:

  • Zugang zu allen Geschäftsdaten: Kunden müssen nicht mehr entscheiden, welche Teilmenge von Daten sie an Produktanalysetools der ersten Generation senden. Alle Daten im Warehouse sind jederzeit für die Analyse verfügbar.
  • Sicherheit und Kontrolle: Keine Daten verlassen jemals das Warehouse des Kunden.
  • Kosten & Skalierung: Die Preismodelle von Anbietern der ersten Generation skalieren bei hohen Ereignismengen schlecht. Warehouse-native Produktanalysen sind aufgrund der elastischen, nutzungsabhängigen Preismodelle moderner Data Warehouses deutlich günstiger.

Neben diesen offensichtlichen Vorteilen gibt es eine Frage, die sich jeder stellt.

Wird mein Data Warehouse über genügend Kapazität verfügen, um diese Abfragen zu unterstützen?

Und die Antwort lautet: Ja. Optimizely Warehouse-Native Analytics vereint eine Reihe von Techniken, die eine interaktive Warehouse-Native-Produktanalyse ermöglichen. Das Abfragezeit-Sampling ist eine dieser Techniken.

Wie Sampling funktioniert

Viele der statistischen Ideen, die dem Sampling zugrunde liegen, sind wohlbekannt. Auf hohem Niveau betrachtet man eine Stichprobe der Daten (z.B. 20%), berechnet das Ergebnis und skaliert das Ergebnis dann 5x hoch, um die 20%ige Stichprobenrate auszugleichen. Meinungsforscher tun dies ständig, wenn sie Meinungsumfragen über eine Stichprobe der Bevölkerung durchführen und Wahlergebnisse vorhersagen. So wie es bei Wahlen darum geht, die Menschen zu zählen, die für ihre bevorzugten Kandidaten stimmen, geht es bei der Produktanalyse darum, die Nutzer zu zählen, die bestimmten Kohorten angehören, bestimmte Produktmeilensteine erreichen usw.

Es gibt zwei wichtige Regeln, die Sie beim Sampling beachten sollten:

  1. Die Stichprobe muss unvoreingenommen sein. In der Analogie zur Wahl muss jeder Wähler die gleiche Chance haben, in die Stichprobe aufgenommen zu werden. Nebenbei bemerkt: Dies ist der Grund für die meisten Ungenauigkeiten bei Wahlvorhersagen, aber das ist ein Thema für einen anderen Tag.
  2. Ein Nutzer muss entweder vollständig in die Stichprobe einbezogen oder vollständig von ihr ausgeschlossen werden. Es sollte nicht der Fall sein, dass der Ereignisverlauf eines Benutzers nur teilweise in die Stichprobe aufgenommen wird.

Die Stichprobenimplementierung von Optimizely Warehouse-Native Analytics berücksichtigt beide Anforderungen. Es gibt mehrere technische Details in Bezug auf das Datenlayout, die Auswahl der Stichprobengröße usw., die hier nicht behandelt werden können. All diese Details fügen sich jedoch zu einem schönen Erlebnis für den Endbenutzer zusammen, das schnell und intuitiv ist.

Der Benutzer muss nur aus drei Optionen wählen:

  1. Aktiviert - Schnellere Antwort: Diese Einstellung bevorzugt eine schnelle Abfrageausführung gegenüber der Genauigkeit der Ergebnisse. Dies ist ideal, wenn Sie eine Abfrage iterieren.
  2. Aktiviert - Höhere Präzision: Abfragen mit dieser Einstellung sind immer noch deutlich schneller als Abfragen ohne Abtastung, aber sie bevorzugen die Ergebnisgenauigkeit gegenüber der Geschwindigkeit der Abfrageausführung.
  3. Deaktiviert: Damit wird das Sampling vollständig deaktiviert und die Abfragen werden ganz normal ohne Sampling ausgeführt.

Für die meisten Abfragen bedeutet dies, dass ein hohes Maß an Vertrauen (z.B. 99%) besteht, dass die wahren Ergebnisse sehr nahe (z.B. innerhalb von 0,5%) an den Ergebnissen der Stichproben liegen. Diese Art von starker statistischer Garantie ermöglicht es Kunden, wichtige Geschäftsentscheidungen auf der Grundlage von Stichprobenuntersuchungen zu treffen.

Ein wichtiges Detail in diesem Zusammenhang ist, dass Optimizely Warehouse-Native Analytics keine Stichproben von Ereignissen zum Zeitpunkt des Ingestions vornimmt. Dies unterscheidet sich deutlich von anderen Anbietern, bei denen die Kunden gezwungen sind, während der Aufnahme von Ereignissen Stichproben zu nehmen, um hohe Kosten für die Aufnahme von Ereignissen zu vermeiden. Ein Ereignis, das zum Zeitpunkt der Ingestion abgetastet wird, ist für immer verloren.

Mit Optimizely Warehouse-Native Analytics bestimmt Ihre Sampling-Strategie nicht Ihre Datenstrategie.

In unserem Warehouse-Native-Modell empfehlen wir unseren Kunden, jedes letzte Ereignis im Warehouse zu speichern und das Sampling-Verhältnis dynamisch an die Anforderungen ihres Anwendungsfalls anzupassen.

Optimizely Warehouse-Native Analytics basiert auf unserer firmeneigenen Skriptsprache für Analysen, NetScript. Optimizely Warehouse-Native Analytics Benutzer interagieren mit Point-and-Click-Explorationen. Diese Erkundungen erzeugen NetScript, das in das SQL kompiliert wird, das an das Warehouse gesendet wird. NetScript ist eine wichtige Grundlage für unseren Sampling-Ansatz. Die aktuelle Version des Samplings funktioniert mit den meisten Explorationsvorlagen, einschließlich Trichter, Pfadanalyse, Retention und Ereignis-Segmentierung. Die nächste Version dieser Funktion wird in der Lage sein, Sampling auf eine viel breitere Klasse von Abfragen anzuwenden und unseren Kunden noch größere Kosteneinsparungen zu ermöglichen.

  • Analysen
  • Last modified: 21.04.2025 18:29:56