Upload
coiicv
View
79
Download
0
Tags:
Embed Size (px)
Citation preview
ITI – Instituto Tecnológico de Informática
www.i$.es formacion@i$.es
Big Data Analy,cs: el valor de los datos
23 de abril de 2015
Copyright 2014-‐2015 Ins$tuto Tecnológico de Informá$ca (ITI) Prohibida la reproducción total o parcial sin permiso del ITI
ITI – Instituto Tecnológico de Informática
u Introducción a Big Data
u ¿Qué hacemos con los datos?
u Big Data Analytics
u Oportunidades en Big Data Analytics
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Fuente Venturebeat
Introducción a Big Data
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Introducción a Big Data
En 2011 se generó y almacenó más de 1 Zettabyte de datos
El 80% de la información es desestructurada
Las empresas sólo aprovechan en torno al 5% de la información generada
El volumen de datos generados cada año crece de forma exponencial en todos los sectores
El 90% de la información existente ha sido generada en los dos últimos años
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Introducción a Big Data
En 2020, 30mil millones de dispositivos estarán conectados a internet
¿Cuáles son las fuentes de datos?
• Datos propios
• Open Data • Redes sociales
• Telecomunicaciones
• Comercio electrónico • Internet de las Cosas o M2M
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Introducción a Big Data
Seminario Big Data
¿Qué es Big Data?
Big Data es un término que hace referencia a una cantidad de datos tal que supera la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable
Fuente: Wikipedia
¿Estamos hablando sólo de VOLUMEN de datos?
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
La problemática Big Data
Características de Big Data (las 4 v’s)
Fuente: IBM
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
La problemática Big Data: Volumen
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
• Tecnologías habituales no son capaces de manejar con soltura este ingente volumen de información
• Ha sido necesario crear técnicas y tecnologías para conseguir: • Bases de datos altamente escalables • Sistemas de archivos distribuidos autogestionados • Tratamiento masivo de datos
• El estándar más extendido es Hadoop • También han proliferando soluciones cloud (IaaS) para dar respuesta
a las necesidades de elasticidad
La problemática Big Data: Volumen
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
• Hace años: nombre, edad, dirección... • Datos estructurados y organizados, como los de cualquier BBDD convencional • Campos bien definidos, con información bien especificada
La problemática Big Data: Variedad
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
• Hoy en día, 80% datos no estructurados: imágenes, vídeos, tuits, documentos completos... ¡Y no sólo en un $po de sector!
• Datos producidos por humanos para que los humanos los consuman: Gramá$ca, Contexto, Cultura... Semán,ca
• Aparición de nuevas tecnologías especializadas en almacén de este $po de datos:
• NoSQL: • NewSQL:
La problemática Big Data: Variedad
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
La problemática Big Data: Variedad
Fuente: Sunil Soares
Fuente: Dzone
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
• ¿Qué $empo de respuesta podemos ofrecer con esos volúmenes de datos? • ¿Podemos analizarlos en ,empo real si así se requiere? (no de forma periódica o
cercana al $empo real) • ¿Podemos conseguir esos $empos cuando hablamos de Vídeos, Imágenes,
Documentos...? • ¿Nos valen los servidores de BBDD tradicionales? • BBDD NoSQL y NewSQL in-‐memory:
La problemática Big Data: Velocidad
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
La problemática Big Data: Velocidad
• Ejemplos: • Detección de fraudes en transacciones bancarias • Análisis de riesgos para la compra de acciones • Dashboards inteligentes • Mensajes virales en redes sociales (twitter) • Interacciones en juegos online (MMOG) • Recogida de datos en sensores (logs) • …
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
• Establecer hasta qué punto podemos confiar en los datos que tenemos. • Incluye: la fiabilidad, la precisión, la confiabilidad • Descartar aquellos datos que no son veraces:
• Eliminar duplicados • Arreglar entradas parciales • Eliminar entradas nulas o en blanco • Inconsistencias en formato • ...
La problemática Big Data: Veracidad
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Fuente Venturebeat
¿Qué hacemos con los datos?
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
¿Qué hacemos con los datos?
Seminario Big Data
• El problema es que hay mucha información: – Interna – Externa
• ... pero no tenemos una idea clara de
cómo explotarla – A nivel tecnológico – A nivel estratégico
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
¿Qué hacemos con los datos?
Seminario Big Data
hfps://www.centrodeinnovacionbbva.com/
hfps://www.telecomitalia.com/$t/en/bigdatachallenge
hfp://ibmhadoop.challengepost.com/
No os preocupéis, no somos los únicos con este problema:
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
¿Qué hacemos con los datos?
Seminario Big Data
hfps://www.youtube.com/watch?v=BtCwjfU2Rro
hfps://www.youtube.com/watch?v=vP4QTyVQTUo
Muuuchos datos de flujo de corrientes
¿Y si les agregamos...? Salinidad, Temperatura, Color, Vientos...
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
¿Qué hacemos con los datos?
Seminario Big Data
Muuuchos datos de flujo de dinero
¿Y si les agregamos información social? ¿Estaban relacionados con algún evento? ¿Podemos preverlo en futuras situaciones?
hfps://www.youtube.com/watch?t=33&v=8J3T3UjHbrE
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
¿Qué hacemos con los datos?
Seminario Big Data
• En defini$va: – Necesitamos saber de qué estamos hablando al referirnos a BigData
– Necesitamos conocer las tecnologías e infraestructura necesarias para la explotación del Big Data
– Necesitamos estudiar la estrategia para sacar valor a esos datos
• ¿Por nosotros mismos? • ¿Vendiéndolos a terceros?
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Fuente Venturebeat
Big Data Analytics
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
• Almacenar datos no es suficiente • Extraer valor de los datos es la clave • Información = Ventaja competitiva
• 20% del tiempo se invierte en buscar datos • 61% de los ejecutivos quieren acceso rápido a datos • 80% de las decisiones se toman en base a datos
• Las empresas necesitan: • Descubrir tendencias • Evaluar el impacto • Dirigirse al target (personalizar) • Mejorar sus procesos • Apoyo en la toma de decisiones
Big Data Analytics
Seminario Big Data
El negocio de datos
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Big Data Analytics Terminología del uso y análisis de datos
Término Marco temporal Significado
Decision Support 1970-‐1985 Uso del análisis de datos para ayudar a la toma de decisiones
Execu$ve Support 1980-‐1990 Enfocado a análisis de datos para toma de decisiones de ejecu$vos senior
Online Anali$cal Processing (OLAP)
1990-‐2000 Sorware para analizar tablas de datos mul$dimensionales
Business Intelligence 1989-‐2005 Herramientas para ayuda a la toma de decisiones basadas en los datos, con especial énfasis en repor$ng
Analy$cs 2005-‐2010 Enfocado a análisis estadís$co y matemá$co para la toma de decisiones
Big Data Analy$cs 2010-‐actualmente
Enfocado al análisis de grandes volúmenes de datos, desestructurados y muy variables
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Big Data Analytics
“Proceso de examinar BigData para extraer patrones ocultos, correlaciones desconocidas y cualquier otro tipo de información
que pueda ser de utilidad para la tomar mejores decisiones” SAS Institute
• Big Data Analytics:
• se pueden analizar grandes volúmenes de datos que el análisis tradicional y el Business Intelligence hasta el momento no eran capaces de manejar.
• No hay necesidad de descartar datos. • Reducimos los tiempos de días a horas. Y de horas a minutos.
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Big Data Analytics
• Aproximaciones para Analytics: – Reactivas:
• Business Intelligence: informes ad-hoc, informes estándar, OLAP, e incluso algunas alertas y notificaciones relacionadas con el análisis de datos históricos.
• Big Data BI: similar al anterior, pero manejando inmensos volúmenes de datos. En ambos casos los métodos son reactivos.
– Proactivas:
• Big Analytics: se trata de usar análisis
estadístico, minería de datos, forecasting, modelado predictivo, u optimización, tomando decisiones proactivas.
• BigData Analytics: nos permite extraer información relevante de terabytes, petabytes y exabytes.
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Big Data Analytics
¿Cuáles son esas nuevas
herramientas o técnicas que nos permiten hacer el análisis de esas inmensas cantidades
de datos?
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca Seminario Big Data
Big Data Analytics: Ecosistema
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca Seminario Big Data
Tecnologías base Soluciones diseñadas para resolver las dificultades genéricas en Big Data
Big Data Analytics: Ecosistema
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca Seminario Big Data
Infraestructura Soluciones encargadas de procesar, almacenar y, en ocasiones, analizar
Big Data Analytics: Ecosistema
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca Seminario Big Data
Análisis Soluciones diseñadas específicamente para recoger, organizar y analizar datos para obtener información de valor: • Analytics • Visualization • Business Inteligence
Big Data Analytics: Ecosistema
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca Seminario Big Data
Aplicaciones Soluciones que prestan servicios en torno al mercado de la toma de datos para su análisis: • Specific applications • Data Sources
Big Data Analytics: Ecosistema
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Fuente Venturebeat
Oportunidades en BigData Analytics
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Analizar datos
• Estudiar las necesidades y estrategia de la empresa
• Estudiar las preguntas que se quieren contestar
• Estudiar qué datos nos ayudan a contestar dichas preguntas
• Preparar los datos • Explotar los datos • Presentar los resultados
Vender Datos
• Empresas que cuentan con grandes volúmenes de datos
• Quizás haya gente interesada en explotar esos datos
• ¿Cómo los organizo? ¿Cómo los pongo a disposición de terceros?
• ¿Qué infraestructura necesito?
34
Oportunidades del Big Data Analytics
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Oportunidades del Big Data Analytics
Si quiero explotar los datos para mejorar mi negocio: • Conocer que Twitter y Facebook tienen un montón de datos, o que un solo
genoma humano ocupa varios gigabytes, no nos ayuda mucho • Las preguntas que debemos hacernos son:
¿Cuál es la estrategia de mi empresa? ¿Qué datos necesito para ayudar a esa estrategia?
¿Qué preguntas hay que contestar para ayudar a esa estrategia? ¿Cuánta inversión necesitaremos para hacerlo?
¿Qué retorno espero obtener?
• En definitiva: ¿Cómo podemos sacar partido a los datos?
35
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Oportunidades del Big Data Analytics
• Formas de conseguir valor:
– Reducción de costes. E.g.: • Mejoras de eficiencia energética alineando producción con consumo • Mejoras en cálculo de rutas para flotas
– Mejora en la toma de decisiones. E.g.: • ¿De qué países me vendrán los clientes en las próximas semanas? ¿Podría
asignar turnos a los trabajadores de mis hoteles en base a esa información? • ¿Dónde está teniendo más repercusión mi nuevo producto? ¿Debería invertir en
publicidad en el resto de países?
– Mejora en los productos y servicios. E.g.: • Aplicación de “People You May Know” de LinkedIn. Una de las primeras apuestas
de BigData de la compañía. • Consiguieron un 30% más de clics por parte de usuarios que con cualquier otra
iniciativa anterior. Muchas otras compañías lo han copiado: twitter, facebook...
36
¡Es importante no invertir más de lo que espero obtener a cambio!
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Oportunidades del Big Data Analytics
Escenarios para la empresas que quieran analizar datos: • Empresas que cuentan con datos propietarios y únicos:
– Amazon, Visa, Facebook, ... – Tienen una ventaja competitiva clara. Y muy probablemente no nos necesitan...
• Empresas que están en posición de genera gran volumen de información
digital: – No están seguros cómo almacenar todos sus históricos – Intuyen, pero no conocen el potencial real – No saben cómo analizar esos datos más allá de con técnicas de BI. – Están lejos de poder analizar datos desestructurados (e.g. documentos de texto) – Requieren de expertos en manejo de datos
37
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Oportunidades del Big Data Analytics
• Aquellas empresas que cuentan con pocos datos, pero relevantes, pueden: – Complementar el análisis de sus datos con datos de terceros – Comprar datos a terceros (Suele ser caro. Hay que medir bien el ROI) – Incorporar OpenData (Es un reto encontrarla y otro reto sacarle valor) – Vender sus datos
• Una frase lo resume todo: “We don’t have better algorithms. We just have more data”
Peter Norvig, Director de Investigación de Google
38
• En definitiva:
– Se trata de añadir más fuentes de datos a modelos y predictivos y explicativos ya existentes
– Hay más valor en la adición de datos a los algoritmos que en la mejora de los algoritmos en sí
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Oportunidades del Big Data Analytics
La oferta:
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Oportunidades del Big Data Analytics
Lo que obtenemos:
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Oportunidades del Big Data Analytics
– No tengamos prisas: • Big Data está dando aún sus primeros pasos • Existen muchas tecnologías disponibles hoy en día para trabajar con Big
Data, pero pocas empresas las tienen aún en producción real – Hay aún muchos retos por delante:
• Conocer las estrategias de las empresas y el tipo de datos que tienen y necesitan: ¿sabes de modelos de negocio?
• Conocer las infraestructuras necesarias para desplegar las tecnologías Big Data: ¿sabes de virtualización y de cloud computing?
• Conocer las tecnologías Big Data, a qué escenarios aplican y cómo se complementan entre ellas: ¿conoces un amplio abanico de tecnologías?
• Conocer las últimas técnicas de análisis: ¿sabes de estadística?
• Representar y comunicar los resultados
El horizonte está muy cerca, pero aún estamos a tiempo de reaccionar
41
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Oportunidades del Big Data
42
email: [email protected] twitter: @Francisco_1978
Síguenos en:
Francisco Sánchez Cid Director del Dpto. de Servicios I+D
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
CONTACTO
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Oportunidades del Big Data Analytics
• ¿Nos asustan todas las Vs de BigData? – No os preocupéis, no tenéis porqué cumplirlas todas: V1 o V2 o V3. No V1 y V2 y V3.
• ¿Tus datos llegan a gran velocidad y de forma continua, por ejemplo a través de redes de sensores?
– Ya puedes sacarle partido a las técnicas de procesamiento in-memory y real-time
• ¿Tus datos incorporan mucho texto en lenguaje natural repartido en muchísimos documentos?
– Ya puedes sacarle partido a técnicas de almacén y búsqueda especialmente preparadas para estos escenarios
• ¿Tus datos son muchos pero están perfectamente estructurados?
– Igual puedes apuntarte al carro de NewSQL como alternativa a NoSQL
• ¿Tus datos son “small data”? – Siempre puedes valorar la posibilidad de cruzarlos con BigData generado
externamente.
44
www.iti.es
@i$_$c i$ viewi$videos ITI -‐ Ins$tuto Tecnológico de Informá$ca
Oportunidades del Big Data Analytics
• Los datos están ahí, esperando a ser almacenados y analizados con cariño...
• Muchas empresas siguen teniendo “HIPPO”
– Sus decisiones de basan en: Highest’s Paid Person Opinion. – Small data analytics lleva años con nosotros y aún hay empresarios que basan
la toma de decisiones en su intuición
• El 76% de las empresas ven Big Data como una oportunidad – ...pero sólo el 25% coinciden en una definición común de Big Data
• El 64% de las empresas usan “la nube” de una forma u otra – ...pero sólo el 33% de ellas la usan para almacenar Big Data
¡Aún queda camino por recorrer! 45