Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?

Dr. Kurt Stockinger Dozent für Informatik

Zürcher Hochschule für Angewandte Wissenschaften

DW 2013, 12. November 2013, Zürich

Inhalt

•  Überblick über ZHAW und Data Science Lab •  Use Cases für Analyse von Applikations- und Query-Logs •  Technologien:

•  Datenbanken •  Hadoop •  Splunk

•  Implementierung der Use Cases mit den 3 Technologien

CV Kurt Stockinger

•  Dozent an der ZHAW seit 1. August 2013 •  2007-2013:

Data Warehouse & Business Intelligence Architect bei Credit Suisse, Zürich & Forschungsprojekte mit ETH Zürich

•  2004-2007: Forschungstätigkeit am Lawrence Berkeley National Laboratory, Berkeley, Kalifornien (Scientific Data Management)

•  2002-2003: Forschungstätigkeit am CERN (Grid Computing, Datenbanken)

•  1999-2001: Doktorat in Informatik am CERN (Zugriffsoptimierung für objektorientierte Datenbanken) Gastforscher am California Institute of Technology, Pasadena, Kalifornien

Zürcher Hochschule für Angewandte Wissenschaften (ZHAW)

•  Geht zurück auf Technikum in Winterthur •  Gegründet 1874 •  Seit 2007 existiert Name ZHAW:

•  Zusammenschluss mehrerer Hochschulen im Kanton Zürich •  Zurzeit mehr als 10‘000 Studierende •  Standorte in Zürich, Winterthur und Wädenswil

•  Prominentester Dozent:

•  1901: Albert Einstein

Datalab = Data Science @ ZHAW

•  Eines der ersten Data Science Labs in Europa (wenn nicht sogar das

erste) •  Zusammenschluss von Informatikern, Statistikern, Mathematikern und

Physikern zur Lösung von Data Science Problemen in Forschung und Lehre: •  Institut für Angewandte Informationstechnologie

•  www.init.zhaw.ch •  Institut für Datenanalyse und Prozessdesign

•  www.idp.zhaw.ch

Data Scientist

T. Stadelmann, K. Stockinger, M. Braschler, M. Cieliebak, G. Baudinot, O. Dürr, A. Ruckstuhl, Applied Data Science in Europe. In: European Computer Science Summit. ECSS 2013. Amsterdam, The Netherlands: IEEE. http://pd.zhaw.ch/publikation/upload/204718.pdf

Inhalt

Use Cases

•  Web Log Analyse •  Applikations Log Analyse •  DWH Query Log Analyse

Web Log Analyse

•  Gegeben: •  Log Files von Webserver für eCommerce:

•  z.B. Online Shop, eBanking, Produktdokumentation & Hilfe

•  Gesucht:

•  Welche Artikel werden gesucht? •  Wie verändert sich das Suchverhalten über die Zeit? •  Von welchen Lokationen greifen die Benutzer darauf zu? •  Welche Seiten wurden nie angesehen?

Beispiel: Web Log

91.57.78.223 - - [09/Sep/2013:00:00:06 +0200] "GET /assets/static/dojo-0.4.3-custom-4.1.5/nls/dojo_de.js HTTP/1.1" 200 884 "http://www.superapp.info/product/DataScienceKit" "Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/28.0.1500.71 Chrome/28.0.1500.71 Safari/537.36"

Standardisierte Logs::

Applikations Log Analyse

•  Gegeben: •  Logfiles von unterschiedlichen Applikationen der eigenen Firma •  Jedes Logfile hat anderes Format •  Jede Applikation hat andere Funktionen, die für Auswertung relevant sind

•  Gesucht: •  Wer sind die Hauptkunden? •  Werden bestimmte Funktionen einer Applikation aufgerufen? •  Was sind die häufigsten Fehlermeldungen über welchen zeitlichen Verlauf? •  Sieht man Korrelationen zwischen einzelnen Ereignissen?

Beispiel: Applikationslog

2013/10/11 – getUser(„Schrödinger“) – Visting time: 32 sec 2013-Oct-14,14:30 Error – User „xyz“ not allowed to execute task 2013-27-10 eCommerce: Buy artile: „Schrödinger‘s Cat Trilogy, Robert Anthon Wilson, 1979“

Logs von unterschiedlichster Struktur::

DWH Query Log Analyse

•  Gegeben: •  DWH Query Logs (ausgeführte SQL Statements)

•  Gesucht: •  Wer hat welche Queries ausgeführt? •  Über welchen Zeitraum? •  Gibt es Korrelationen zwischen den Benutzern? •  Welche Tabellen wurden am häufigsten abgefragt? •  Gibt es Zugriffsverletzungen oder sind bestimmte Zugriffsrechte falsch

vergeben?

Beispiel: DWH Query Log im XML Format

<xml> <audit> <username> john_smith </username> <timestamp> 21/12/2012 23:59:59 </timestamp> <sql_query> SELECT * FROM sales S, customers C WHERE S.customer_ID = C.id AND C.hair_color = black </sql_query> … </audit>

</xml>

Inhalt

Data Warehouse basierend auf relationale Datenbanktechnologie

§  Relationale Datenbanken seit den 70er

§  ETL (extract, transform, load) = Kitt zwischen DWH-Schichten

§  Sehr effizient für Prozessierung von struktierten und normalisierten Daten

§  Parallele Datenbank für High Performance

Hadoop Überblick

Map Reduce Map Reduce

Node 1 Node N

Hadoop

“A scalable, fault-tolerant, distributed storage and computation platform”

Pig Überblick

Pig Latin ist eine SQL-ähnliche Sprache Jedes Statement wird on-the-fly in MapReduce kompiliert Pig Statements werden auf Hadoop ausgeführt

PIG Script

Runtime compiler

MapReduce Code

Hadoop cluster

Map Map Map

Shuffle & Sort

Reduce Reduce

Final results stored in

Splunk Überblick

Kommerzielles, closed-source Produkt zur Indizierung und Suche von Log-Daten

Intuitives Interface und Suchsprache (entspricht Goolge-Suche + Erweiterungen)

Indizes sind verteilt, jedoch keine Replication von Daten und Index

Kombination von Hadoop und Splunk

Inhalt

Datenbanken

•  Grundsätzlich sind Datenbanken für Analyse von strukturieren Daten konzipiert

•  Log Files sind jedoch semi-strukturiert oder unstrukturiert •  Extrahierungsschritt muss ausserhalb der Datenbank erfolgen

(Textextrahierung) •  Danach können Ergebnisse strukturiert in Datenbank abgelegt werden •  Visualisierung und Analyse erfolgt typischer Weise via Business

Intelligence Tools

•  Pro: •  Etablierte Tools vorhanden •  Gute Unterstützung von Zugriffsverwaltung

•  Con: •  Drei unterschiedliche Tools notwendig •  Eigentlich haben wir hier kein Datenbankproblem 23

Hadoop

•  Log Files können direkt mit Hadoop prozessiert werden: •  Low-level API: MapReduce + Java •  High-level Progammiersprache: Pig Latin

•  Analyse und Auswertung erfolgt ebenfalls in Hadoop •  Visualisierung der Ergebnisse mit anderem Tool

•  Pro: •  End-to-end-processing in einem skalierbaren Tool •  Open-source Software

•  Con: •  Zugriffsverwaltung noch nicht ausgereift •  Visualisierung durch externes Tool •  Know-how noch nicht so stark verbreitet (Data Scientists werden benötigt)

Splunk

•  Log Files können direkt mit Splunk prozessiert werden: •  Web Log Files werden direkt erkannt •  Python API erlaubt Erweiterungen

•  Visualisierung erfolgt direkt mit Splunk •  Zugriffsberechtigungen können über Dashboards gesteuert werden

•  Pro: •  Integriertes System (End-to-end Auswertung + Visualisierung) •  Zugriffsverwaltung •  Kombination mit Hadoop möglich

•  Con: •  Entwicklung von komplexen Dashboards nicht trivial •  Gewisse Lernkurve für Aufsetzen der Infrastruktur und Einschulung der

Entwickler 25

Nächste Schritte

•  Analyse von Log Files ermöglicht breite Anwendungsmöglichkeiten

•  Recommender Systems: •  Vorschlagen von ähnlichen Produkten •  Anwendungen:

•  Marketing, etc.

•  Machine Learning: •  Lernen von Benutzerverhalten und Zugriffsmuster •  Erkennen von Produktaffinitäten von Benutzern •  Anwendung:

•  Marketing, Fraud detection, Kundenbetreuung

Zusammenfassung

•  Analyse von Log Files ist kein Datenbankproblem und sollte nicht über das DWH gemacht werden.

•  Kombination mit Hadoop erlaubt skalierbaren Ansatz. •  Einsatz von Splunk hat sich in der Praxis gut bewährt. •  Log Analyse ist typisches Problem für Data Scientists:

•  Weltweit eine rare Spezies •  Aber:

•  Swiss Data Science Workshop im März 2014: Anmeldung ab Mitte Nov. •  Wir arbeiten an einem Curriculum für Data Scientists. •  DAS Data Science für Herbstsemester 2014 geplant. •  Kontakt: Kurt.Stockinger@zhaw.ch

Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?

Technology

Our experiences throughout the 3 year journey · Splunk – Hardware is now available for Splunk expansion • Splunk begins to ﬁll monitoring gaps, acts as “glue” • Splunk

Relationale Cloud Datenbanken

We4IT docLinkr - Notes Datenbanken auf mobilen Endgeräten

Referent / Redner Benjamin Tiggemann · 2015-07-08 · Splunk for Exchange Splunk for Enterprise Security* Splunk for Vmware Splunk for PCI Compliance* Splunk for Windows Splunk for

Splunk Spark Integration - GitHub Pageslitaotao.github.io/files/4. splunk_spark.pdf · Splunk Spark Integration ... • Splunk"products:""! Splunk"Enterprise"! ... splunk_spark Created

Informatik/IT-Studium an der - uni-hildesheim.de¤sentation_IT... · Betriebswirtschaft 2 Int. Rechnungswesen Praktikum Datenbanken Projektarbeit Informatik, Betriebswirtschaft oder

Splunk Review - University of Birmingham · Ref: Splunk Review, Dec 2014 Mohammad Rameez Shafsad itinnovation@contacts.bham.ac.uk Indexing 2.2.1 Searching using splunk Splunk uses

Skrip - Vorlesung Datenbanken 1dblabor.fh-stralsund.de/skripte/Skript Datenbanken I.pdf · Einführung Datenbanken - 3 - 1.1 Generationen der Entwicklung von Datenbanken • 1. Generation

stoQ’ing your Splunk - SANS · PDF filestoQ’ingyour Splunk Ryan Kovar, Splunk Marcus LaFerrera, PUNCH SANS DFIR 2016

Netﬁlter Iptables for Splunk Documentation - Read … · Netﬁlter Iptables for Splunk Documentation, Release 0 Splunk Answers Splunk has a strong community of active users and

Introduction to Security – VO 05: Testing · Grundlagen des Testens ... Datenbanken, Konﬁgurationen, ...) ... Uberwachen des Prozesses durch Debugger z.B. gdb oder

Splunk Developer & Admin Certification Training...This Splunk course also includes various topics of Splunk, such as installation and configuration, Splunk Syslog, Syslog Server, log

データ分析プラットフォーム「Splunk」 - Panasonicdl.it-sol.jpn.panasonic.com/data/splunk/splunk.pdfTitle データ分析プラットフォーム「Splunk」 Author パナソニック

Program Overview - Splunk...mission-critical services. None. Splunk Enterprise System Administration Splunk Enterprise Data Administration Splunk Cloud Administration Implementing

Splunk user group - automating Splunk with Ansible

Rivium Splunk Windows · o Splunk Enterprise Security * o uberAgent* o Splunk App for Web Analytics Common Splunk Apps & Add-ons 15 SplunkingWIndows o Splunk Add-on for Microsoft

WS2006/2007 Vorlesung: Datenbanken und Internet Copyright 2006 – DBIS/Dr. Karsten Tolle Validating XML Parser Application XML-Datei XML-Schema oder DTD

Tenable and Splunk Integration · Splunk Splunkreceivesvulnerabilitydatacollectedby SecurityCenter Nessus NessusHost Scans,Nes-susPlugins Splunk SplunkreceivesvulnerabilitydatacollectedbyNes-

Konzepte temporaler Datenbanken Taoufik Saissi Hassani

Cloud Conf - Datenbanken in der Cloud