Veröffentlicht am 01. Februar 2023

Haben Sie Ereignisdaten in Databricks?

Priyendra Deshwal
von Priyendra Deshwal
a screenshot of a computer

Wenn Sie Ereignisdaten haben, die direkt in Databricks landen, sind Sie wahrscheinlich ein reifes Datengeschäft, das sich an den Prinzipien des Modern Data Stack orientiert. In diesen Daten liegt ein Schatz an Erkenntnissen verborgen. Verfügen Sie über die richtigen Analysetools, um diese Erkenntnisse zu erschließen und so den größtmöglichen Nutzen für Ihr Unternehmen zu erzielen?

Ereignisdaten

In den letzten Jahren hat das Volumen der von Unternehmen gesammelten Daten explosionsartig zugenommen. Dies ist auf die zunehmende Digitalisierung, die allgegenwärtige Instrumentierung digitaler Erlebnisse, die wachsende Zahl vernetzter Geräte und die Automatisierung zurückzuführen. Diese Explosion findet hauptsächlich in der Kategorie der Ereignisdaten statt.

Ereignisdaten erfassen die Abfolge der Ereignisse hinter jedem Geschäftsprozess. Beispiele für Ereignisdaten sind: Produktinstrumentierung, Anwendungsprotokolle, Interaktionen bei Online-Spielen, Interaktionen in sozialen Medien, E-Commerce-Bestellungen, Marktplatzauktionen, Kreditkartentransaktionen, Aktienhandel, Verfolgung von Logistikflotten, IoT-Sensormesswerte, usw.

Databricks

In der Vergangenheit landeten Ereignisdaten nie in einem Data Warehouse. Sie landeten in speziellen Blackbox-Speichern von anwendungsspezifischen SaaS-Diensten. Data Warehouses waren für eine kleine Teilmenge von zusammengefassten Daten aus transaktionalen Geschäftssystemen wie ERP oder CRM reserviert. Aber das ändert sich schnell. Zunehmend landen Ereignisdaten in modernen Cloud Data Warehouses wie Databricks. Es ist jetzt möglich, Ereignisdaten in PB-Größe in Data Warehouses kostengünstig zu speichern, zu sichern, zu verwalten und darauf zuzugreifen.

Die Speicherung von Ereignisdaten in Databricks hat drei große Vorteile:

  1. Eine einzige Quelle der Wahrheit - Unternehmen möchten alle ihre Daten an einem Ort haben, ohne Silos/Kopien in mehreren Speichern. Alle Daten in einem zentralisierten Databricks haben den Vorteil der Datenkonsistenz, Sicherheit und Governance.
  2. Geschäftskontextbezogene Analysen - Wenn sich Ereignisdaten in Databricks befinden, können sie mit Daten aus anderen Geschäftssystemen wie Finanzen, Support, Vertrieb usw. kombiniert werden, um die Analysen von Ereignisdaten geschäftsrelevanter zu machen.
  3. Kosten - Durch die Trennung von Speicher und Rechenleistung in Databricks können Sie PBs von Daten in günstigen Objektspeichern speichern. Sie zahlen für die Datenverarbeitung nur dann, wenn auf sie zugegriffen wird, und zwar im Verhältnis zur Menge der abgerufenen Daten.

Analyse von Ereignisdaten

Welche Analysetools eignen sich am besten für Ereignisdaten in Databricks? Traditionelle Analysetools für Ereignisdaten wie Amplitude und Mixpanel für die Produktanalyse oder Adobe Analytics und Google Analytics für die Web-/Marketinganalyse funktionieren nicht mit dem Data Warehouse. SQL- und BI-Tools wie Looker und Tableau sind nicht dafür ausgelegt, spezielle ereignisorientierte Analysen auszudrücken und effizient zu berechnen.

Eine neue Art von Warehouse-nativen Tools für die Ereignisdatenanalyse entsteht für den modernen Datenstapel. Optimizely Warehouse-Native Analytics ist ein Vorreiter in diesem Bereich.