View
221
Download
0
Category
Preview:
Citation preview
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Face/Off – Big Data Discovery Analysen auf Hadoop.
DOAG Konferenz Nürnberg, 17.-19. November 2015 Harald Erb ORACLE Business Analytics, EMEA
++ Neuer Film ++ Carmageddon 2013 ++
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
• Harald Erb • Principal Sales Consultant
• Business Analytics Architecture Domain Lead - DE/CH Cluster
• Kontakt
+49 (0)6103 397-403
• harald.erb@oracle.com
Referent
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Safe Harbor Statement
The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into any contract. It is not a commitment to deliver any material, code, or functionality, and should not be relied upon in making purchasing decisions. The development, release, and timing of any features or functionality described for Oracle’s products remains at the sole discretion of Oracle.
Safe Harbor Statement
The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into any contract. It is not a commitment to deliver any material, code, or functionality, and should not be relied upon in making purchasing decisions. The development, release, and timing of any features or functionality described for Oracle’s products remains at the sole discretion of Oracle.
3
Konzept: Data Lab
Werkzeuge unc Mittel zur interaktiven Datenanalyse von
beliebigen Kombinationen strukturierter und
unstrukturierter Datenquellen
Enthält alle für das Daten-Projekt benötigten Kopien vorhandener Unternehmensdaten und extern
beschafften Data Sets
Anwendung geeigneter statistischer Verfahren , Optimierung der
Parameter und Auswahl eines Modells, das die Aufgabenstellung
am besten erfüllt
Data Discovery
Analytical Sandbox Data Science
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 5
Oracle Information Management Referenzarchitektur – Konzeptansicht
Data Lab = Arbeitsumgebung für Datenprojekte
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 6
Aktivitäten im Rahmen des Analyseprozesses
Data Discovery
Quelle: O’Reilly Article : ”Data Analysis: Just one component of the Data Science workflow”
Data Discovery Modeling Analytical
Apps
Ingest & Clean
Manage & Update
Aquire
Store & Expose
Visual Analysis
Wrangle
Featurize
Interactive Queries
Train
Update
Model
Evaluate
Deploy
Monitor
Build
Train
Data Insights Models
Enrichments Features Vectors
Zeitaufwändig (50...80% von der Gesamtzeit)
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 7
Mit Hadoop-Bordmitteln: HDFS und Hive Command Line Tools
Data Discovery
Unix / Linux – ähnliche Befehle für Dateioperationen im Hadoop Distributed File System (HDFS) SQL-Abfragen mit der Hive Command Line (Hive CLI)
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 8
Mit Cloudera-Bordmitteln: Impala MPP*) SQL Engine und HUE **)
Data Discovery
**) Grafische Benutzeroberfläche HUE (Hadoop User Experience) von Cloudera: SQL Abfrage einer Hive-Tabelle mit Ergebnisdarstellung als Diagramm
*) Impala erlaubt interaktive Ad-hoc-Abfragen mit SQL-Syntax. Anstelle von MapReduce wird eine massive Parallelverarbeitungs- (Massive Parallel Processing – MPP) Engine verwendet, die derjenigen in herkömmlichen relationalen (RDBMS) ähnelt. Bei dieser Architektur können die Daten in HDFS- oder HBase-Tabellen schneller als mit Hive abgefragt werden
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 9
Oracle Big Data Discovery: “The Visual Face of Hadoop”
Find Explore Transform Discover Share
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data Discovery
10
Unterstützt den Team-Ansatz – anstatt von Data Scientists allein abhängig zu sein
DWH / OLTP
Databases
Database Administrator
(Enterprise IT)
Hadoop
ETL/ELT Specialist
(Enterprise IT , member of
Data Factory)
Data Engineer
Data Science
Discovery Output
Business Analyst
New KPI, Report Requirement
Data Scientist
New Data Set (cleaned / enriched)
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 14
Per Datei-Upload und Direktzugriff auf Datenbanken aus der Analytical Sandbox
Oracle Big Data Discovery mit Daten versorgen
data.gov.uk
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 15
Automatisiertes/manuelles Laden mit dem BDD Command Line Tool (EDP_CLI)
Oracle Big Data Discovery mit Daten versorgen
19
20
; ; ;
Dateien liegen im Hadoop Distributed File System, passend dazu wird eine Hive Tabelle angelegt und mit Daten geladen (z.B. via HUE)
Beispiel für einen manuellen Aufruf des Ladeprozesses mit dem Oracle Big Data Discovery Command Line Tool
Ergebnis: Nach erfolgreichem Ladeprozess mit dem Oracle Big Data Discovery Command Line Tool ist das neue Data Set in der BDD Studio Anwendung verwendbar
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 16
Data Sets aus der Analytical Sandbox – gut organisiert und leicht auffindbar
Oracle Big Data Discovery
Copyright © 2014, Oracle and/or its affiliates. All rights reserved. |
Find Explore Transform Discover Share
Oracle Big Data Discovery by Example Teil 1
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 22
Wie Daten(-Samples) aus Hadoop verarbeitet werden
Oracle Big Data Discovery – Blick hinter die Kulissen
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 23
Oracle Big Data Discovery – Deployment (Variante #1)
Diagram adopted from RittmannMead 2015
Commodity Hadoop Cluster
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 24
Direkt installierbar auf der Oracle Big Data Appliance
Oracle Big Data Discovery – Deployment (Variante #2)
B
Node 1 Node 2 Node 3 Node 4 Node 5 Node 6 … n Balancer
CM Agent
DataNode
Failover Controller
JournalNode
NameNode
NodeManager
Puppet
Puppet Master
ZooKeeper
CM Agent
DataNode
Failover Controller
JournalNode
MySQL Backup
NameNode
NodeManager
Puppet
ZooKeeper
CM Server
CM Agent
DataNode
JobHistory
JournalNode
MySQL Primary
NodeManager
Puppet
ResourceManager
ZooKeeper
CM Agent
DataNode
Hive, Hue, Oozie, Solr
NodeManager
ODI Agent
Puppet
ResourceManager
Weblogic Server
Dgraph
HDFS Agent
CM Agent
Puppet
CM Agent
DataNode
NodeManager
Puppet
• One Dedicated Big Data Discovery Node: Runs BDD-specific processes only, no Hadoop services run on this node, provides storage for Dgraph
• Ab Big Data Appliance Softwareversion 4.3 automatisch mit Mammoth installierbar
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 25
Big Data Appliance
» Exalytics Steckbrief (Modell X5-4) – 4 Intel Xeon© E7-8895 v3 Serie, 8- 72 CPU-Kerne
– 2…3 TB RAM, 4,8TB PCI Flash
– Zwei 40 GB/s infiniband ports und Ethernet port
» Das Beste aus beiden Welten: – Exalytics beschleunigt explorative Analysen
– Hadoop skaliert bei Datentransformationen und Datenanreicherungsprozessen
» Skalierbar – Zusätzliche User und Daten können störungsfrei
hinzugenommen werden
» Einfache Bereitstellung – Big Data Discovery auf Exalytics = Analyse-Engine
– Mit Oracle Big Data Appliance kombinierbar
B
Oracle Exalytics = Edge Server mit Infiniband-Anbindung an Oracle Big Data Appliance
Oracle Big Data Discovery – Deployment (Variante #3)
Copyright © 2014, Oracle and/or its affiliates. All rights reserved. |
Find Explore Transform Discover Share
Oracle Big Data Discovery by Example Teil 2
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Data Lab: Data Discovery und Analytics im Zusammenspiel
Oracle Advanced Analytics
Oracle Big Data Discovery
Statistische Modelle entwickeln/testen
Keine unnötige Datenbewegung; die Algorithmen zu den Daten bringen
Oracle R und Data Mining für massiv-parallele Berechnungen in Hadoop oder in der Oracle Datenbank
Direkt abfragbar via SQL und mit Oracle BI Werkzeugen
Unbekannte Datensets für Analytics & Datenprojekte auffinden
Art und Qualität der Daten inspizieren
Daten für weitere analytische Aufgaben transformieren und anreichern
Zusammenhänge in den Daten erkennen
Erkenntnisse mit Fachkollegen teilen
Ergebnisse in das Tagesgeschäft
übertragen
Interpretieren & Evaluieren
Selektion, Aufbereitung & Transformation
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle R Enterprise (ORE)
» Erlaubt verteilte Verarbeiung großer Datenmengen
» Profitiert von DB Funktionen, z.B. Security & SQL-Zugriff
» R Studio = GUI für Data Analysten
32
Oracle Data Mining (ODM)
» Implementiert im Oracle Databank-Kernel
» Direkter Zugriff via PL/SQL API & SQL-Operatoren
» Oracle Data Miner GUI ist Bestandteil vom SQL Developer
Data Science mit Oracle Advanced Analytics
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 33
Big Data mit dem Oracle Exa* Product Stack selbst erleben!
Wie weiter?
www.ise-informatik.de
ISE Information Systems Engineering
Hauptsitz in Gräfenberg, NL in München und Nürnberg
IT-Services / Consulting für Großunternehmen und den Mittelstand
Schwerpunkte:
Oracle Core Technology Database (RAC), Application Server (WebLogic)
Oracle Exadata / Big Data Appliance / Exalytics eXtreme Performance
Oracle Data Warehousing, Business Intelligence und Analytics
Oracle Exadata Migrations
Performance Analysis & Optimization
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Wie weiter? Get Your Hands Dirty mit Oracle‘s Big Data Lite Developer VM
www.oracle.com/technetwork/community/developer-vm Imaginary company example
Free
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
» BI Community Event im Rahmen der DOAG K+A Di. 17.11.2015 ab 18:30, Landbierparadies Nürnberg Wodanstr. 15
» Unconference: OWB – Was Nun? Di. 17.11.2015 / 15 Uhr
» Data Vault Forum Heute: Mi. 18.11.2015 / 15 Uhr Galileo Lounge, Ebene 3
» Data Integration Day 2015 Mi. 9.12.2015 / 10 Uhr, Sulzbach (Taunus)
» DOAG BI Konferenz 8.-9.6.2016, Bonn, Kameha
DOAG BI Community - Veranstaltungen
35
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 36
Recommended