View
174
Download
4
Category
Tags:
Preview:
DESCRIPTION
http://www.solidq.com Presentación que se realizó en el evento de lanzamiento en Valencia y A Coruña los días 17 y 19 de Junio respectivamente. Big Data con Windows Azure HDInsight, con
Citation preview
Big Data con Windows Azure
HDInsight
Yolanda Olmedo Rodríguez
Data Platform Specialist
yolmedo@solidq.com
Antonio Soto
COO
asoto@solidq.com
2
Agenda
•¿Qué es Big Data?
•Y… ¿Qué es Hadoop?• HDFS
• Map Reduce
•HDInsight
•Ecosistema HDInsight
•Explotación de la información
© 2014 SolidQ
3© 2014 SolidQ
¿Qué es Big Data?
•Tratamiento y análisis de gran cantidad de datos.
•Alto volumen, alta velocidad y alta variedad de información que exigen un procesamiento rentable para la obtención de conomiciento y la toma de decisiones.
Big Data
4© 2014 SolidQ
¿Qué es Big Data? – Las 4 V’s
Volumen
Velocidad
Variedad
Variabilidad
5© 2014 SolidQ
Hadoop (I)
•Plataforma para almacenamiento de datos y análisis para Big Data
•Open Source
•Optimizado para manejar• Datos masivos a través de paralelismo
• Variedad de datos (estructurados y no estructurados)
•No para OLTP / OLAP
•Componentes principals• HDFS: Hadoop Distribution File System
• MapReduce
6© 2014 SolidQ
HDInsight
•HDInsight es la distribución de Microsoft de Apache Hadoop que se ejecuta en Windows.
•On premise. Instalación en Windows Server
•On Azure: Despliegue en la nube
© 2014 SolidQ 7
Distributed Storage(HDFS)
Query(Hive)
Distributed Processing(Map Reduce)
Scripting(Pig)
NoSQL Database(HBase)
Metadata(HCatalog)
Data
Inte
gra
tion
( OD
BC
/ SQ
OO
P/ R
EST)
Busin
ess In
tellig
ence
(E
xcel, Po
werV
iew
…)
Machine Learning (Mahout)
Graph(Pegasus)
Stats processing (RHadoop)
Pipeline / workflow(Oozie)
Log fi
le
aggre
gatio
n(Flu
me)
PDW
World’s Data (Azure Data Marketplace)
AD, System CenterWindows Azure Storage
Ecosistema HDInsight/Hadoop
9© 2014 SolidQ
DEMOCreación cluster HDInsight
10© 2014 SolidQ
HDFS
•Sistema de archivos distribuido para grandes conjuntos de datos
•Replicación de los datos
•Tolerancia a fallos
•Patrón pocas escrituras, muchas lecturas
12© 2014 SolidQ
Map Reduce
•Map Reduce es el núcleo de Hadoop
•Modelo de procesamiento paralelo
•Divide un trabajo en pequeñas tareas
•Tolerancia a fallos
•Se ejecuta en los nodos donde residan los datos
14© 2014 SolidQ
MapReduce
MapReduce
Mapper
Mapper
Mapper
Reducer
Reducer
Reducer
Mezclay
ordena
15
Haga clic en el icono para agregar una imagen
Haga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagen
Haga clic en el icono para agregar una imagen
EscenarioDatos de clima y consumo de cerveza
•Analizar grandes volúmenes de información respecto del clima y su correlación de consumo, relacionado con períodos estacionales
16© 2014 SolidQ
DEMOMap Reduce
17© 2014 SolidQ
Hadoop: Hive
•Sistema Data Warehouse para Hadoop
•Consultas Ad-hoc
•Lenguaje de consulta como SQL: HiveQL
•Por detás ejecuta MapReduce
HDFS
Map Reduce
Hive
19© 2014 SolidQ
Hadoop: Sqoop
• Importación y Exportación: RDBMS HDFS, Hive..
• SQL Server, MySQL, Oracle
SQOOP
RDBMS
20
Explotación de la información
© 2014 SolidQ
Microsoft Excel
21© 2014 SolidQ
DEMOHadoop
Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino América, ésta es tu
oportunidad.
http://summit.solidq.com
Síguenos:
Recommended