##SQLSatMadrid
Big Data con Hadoop en SQL Server SSIS 2016Ángel M. Rayo
##SQLSatMadrid
¿Quién soy?
Ángel M. Rayo twitter.com/oyara Technology Lead Expert en Netmind Más de 9.000 horas de experiencia formativa Microsoft Certified Trainer desde 2005
MCDBA SQL 2000 – MCSA SQL 2014
##SQLSatMadrid
Agenda
Hadoop HDInsight SQL Server SSIS 2016 Referencias
##SQLSatMadrid
HADOOPBig Data con Hadoop en SQL Server SSIS 2016
##SQLSatMadrid
Hadoop
Procesado distribuido
Grandes conjuntos de
datos
Clústeres de ordenadores
Modelos de programación
sencillos
Apache™ Hadoop®
##SQLSatMadrid
Hadoop
• 2003 – Google File System
• 2004 – MapReduce
• 2006 – Hadoop 0.1.0
• 2011 – Hadoop 1.0
• 2015 – Hadoop 1.7
• 25 de agosto de 2016 – Hadoop 2.7.3
##SQLSatMadrid
Hadoop – Componentes
Hadoop Common
Hadoop Distributed File System
(HDFS™)
Hadoop YARN Hadoop MapReduce
Apache™ Hadoop®
##SQLSatMadrid
Hadoop – Otros componentes
##SQLSatMadrid
Hadoop
##SQLSatMadrid
HDINSIGHTBig Data con Hadoop en SQL Server SSIS 2016
##SQLSatMadrid
HDInsight
• Servicio Hadoop alojado en Microsoft Azure• Gestión de clústeres
• Framework diseñado para:
• Gestión
• Análisis
• Reporting
• Utiliza la distribución Hortonworks Data Platform (HDP)
##SQLSatMadrid
HDInsight
##SQLSatMadrid
HDInsight – Uso
• Hadoop as a Service (HaaS)
• Crear soluciones y servicios Big Data
• Administrar y monitorizar clústeres Hadoop
• Analizar y generar estadísticas de:
• Disponibilidad
• Utilización
##SQLSatMadrid
HDInsight – Creación
##SQLSatMadrid
SQL SERVER SSIS 2016Big Data con Hadoop en SQL Server SSIS 2016
##SQLSatMadrid
SQL Server
• ¿Hace falta decir qué es? ;-)
• Sistema gestor de bases de datos relacionales Microsoft
• 1989 – SQL Server 1.0
• 1 de junio de 2016 – SQL Server 2016 (14.0)
##SQLSatMadrid
SQL Server 2016 – Servicios y herramientas
Service Broker
Replication Services
Analysis Services
Reporting Services
Notification Services
Visual Studio
Integration Services
SQL Server Management
Studio
Full Text Search Service
Business Intelligence Dev Studio
SQLCMD
##SQLSatMadrid
SQL Server 2016 SSIS
• Plataforma de integración datos y aplicaciones de flujos
de trabajo
• Herramienta Data Warehouse rápida y flexible
• ETL
• Extraction
• Transformation
• Loading
##SQLSatMadrid
SQL Server 2016 SSIS
Data Transformation Services (DTS)
SQL Server Integration
Services (SSIS)
Disponible desde SQL Server 6.5 a SQL Server 2000
Disponible desde SQL Server 2005.NET como base de ejecución
Control FlowData FlowEvent HandlersPackage Explorer
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Situación desde SQL Server 2016• Se incluye Hadoop como fuente de datos
• SSIS 2016 se integra con soluciones Big Data
Situación hasta SQL Server 2014• Podemos utilizar Hadoop mediante conexión ODBC
• Acceso a recursos con scripts PowerShell
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Gestor de conexiones• WebHCat – API REST
Apache™ Hive
• WebHDFS – API
REST HDFS
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Tareas de flujo de control (Control Flow)
Hadoop File System Task
Hadoop Hive Task Hadoop Pig Task
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Hadoop File System Task
Funcionamiento• Obtiene, copia o mueve ficheros
• Utiliza la API REST del clúster
• El acceso es directo al almacén HDFS
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Hadoop File System Task
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Hadoop Hive Task
Funcionamiento• Envía consultas HiveQL
• Utiliza la API REST WebHCat (aka Templeton)
• Funcionamiento mediante sistema de colas
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Hadoop Hive Task
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Hadoop Pig Task
Funcionamiento• Envía scripts Pig
• Pig Latin + API REST de WebHCat (aka Templeton)
• Funcionamiento mediante sistema de colas
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Hadoop Pig Task
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Tareas de flujo de datos (Control Flow)
HDFS File Source HDFS File Destination
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
HDFS File Source
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
HDFS File Destination
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Otros componentes• Azure Feature Pack for Integration Services (SSIS)
• Componentes:
• Gestores de conexiones Azure
• Tareas
• Componentes de flujo de datos (Data Flow)
• Azure Blob Enumerator• https://www.microsoft.com/en-us/download/details.aspx?id=49492
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Gestores de conexiones Azure
Azure Storage Connection
Manager
Azure Subscription Connection
Manager
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Tareas
Azure HDInsight Hive
Task
Azure HDInsight Pig
Task
Azure HDInsight
Create Cluster Task
Azure HDInsight
Delete Cluster Task
Azure Blob Upload Task
Azure Blob Download
Task
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Componentes Data Flow
Azure Blob Source
Azure Blob Destionation
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Azure Blob Enumerator
##SQLSatMadrid
Referencias
Hadoop• http://hadoop.apache.org/
HDInsight• https://azure.microsoft.com/es-es/services/hdinsight/
SQL Server 2016• http://www.microsoft.com/es-es/server-cloud/products/sql-server/default.aspx
##SQLSatMadrid
Gracias
¡GRACIAS!
@oyara
@netmindIT
##SQLSatMadrid
BIG Thanks to SQLSatMadrid Sponsors
##SQLSatMadrid
4 Sponsor Sessions at 11:40
Don’t miss them, they might be getting distributing some awesome prizes!
HPE SolidQ KABEL TSD Consulting
Also BIG Raffle prizes at the end of the event provided by:Plainconcepts, SolidQ, Kabel, TSD Consulting, Pyramid Analytics & sqlpass.es