View
495
Download
1
Tags:
Embed Size (px)
DESCRIPTION
Material de la sesión técnica “BIG DATA: Qué significa realmente y ejemplos de utilización”, realizada el jueves 27 de febrero, y que fue conducida por Oscar Marín, fundador de Outliers y consultor experto en Big Data especializado en el análisis y visualización de datos, redes sociales, datos urbanos y aportación del valor a los datos.
Citation preview
Big DataValor y Mercado
Óscar Marín Miró@outliers_es
www.outliers.es
1
Contenidos
‣Historia‣Las 3 V’s‣Problema, Solución y Fenómeno
¿Qué es Big Data? Pitfalls‣Data vs Big Data‣Data Science vs Big Data‣Costes ocultos
Herramientas+Escenarios
‣Ecosistema Hadoop‣NoSQL‣Real-time
Valor del Big Data
‣Los Gigantes de la Generación de Datos‣Nadamos en un mar de datos‣Sectores de Aplicación
Bibliografía
2
¿Qué es el Big Data?
“Data will help us” - Jonathan Harris
3
Historiahttp://assets.outliers.es/infographics/BigData_A_Brief_History.pdf
4
“Big Data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications”
http://en.wikipedia.org/wiki/Big_data
¿Qué es el Big Data?
5
- Big Data y las 3 ‘V’
- Velocidad
- Volumen
- Variedad
http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf
¿Qué es el Big Data?
6
- Twitter: 340 millones de tweets diarios (~= 1TB/día)
- Facebook: 800 millones de status diarios
-Google: 1000 millones de consultas diarias
http://www.slideshare.net/gigaom/the-3vs-of-big-data-variety-velocity-and-volume-from-structuredata-2012
¿Qué es el Big Data? (de verdad)
7
Explosión de Uso Explosión Social
Explosión Móvil
¿Qué es el Big Data? (de verdad)
8
Big Data: Dimensiones
‣Problema: 3 V’s‣Solución: Herramientas‣Fenómeno: Posibilidades
9
El Valor de Big Data
http://labratrevenge.com/pdx
10
http://7.mshcdn.com/wp-content/uploads/2012/06/DataNeverSleeps.jpg
El V
alor
de
Big
Dat
a
11
El Valor de Big Data:Big Data Analysis
‣Estadístico‣Texto‣Análisis de Redes Sociales‣Análisis GeoEspacial
12
El Valor de Big Data:Ámbitos de Aplicación
‣Marketing/Publicidad/Comunicación‣Customer Insights‣Growth Hacking‣Salud‣Escalabilidad
13
El Valor de Big Data:Publicidad
https://de5w14y12gh72.cloudfront.net/website/bluefin_mit-tech-review.pdf
14
El Valor de Big Data:Customer Insights
http://innovabbva.outliers.es/mapas.html
15
El Valor de Big Data:Growth Hacking
‣Impactos de tests A/B‣Incrementar el Retention Rate‣Incrementar los leads‣Incremental el engagement
16
El Valor de Big Data:Growth Hacking
https://www.youtube.com/watch?v=eqeS8US10_k
17
El Valor de Big Data:Salud
https://www.23andme.com/ancestry/
18
El Valor de Big DataCiencias Sociales
http://www.pewinternet.org/2014/02/20/part-2-conversational-archetypes-six-conversation-and-group-network-structures-in-twitter/#network-type-6-support-network
19
El Valor de Big Data:Publicidad
http://blog.marketo.com/2013/09/get-more-email-opens-and-clicks-using-behavioral-targeting.html
20
El Valor de Big DataEscalabilidad
http://www.slideshare.net/davidpoblador/spotify-bcn2013slideshare
21
El Valor de Big DataAntropología
http://www.brainpickings.org/index.php/2014/01/17/uncharted-big-data/
http://www.ted.com/talks/what_we_learned_from_5_million_books.html
22
El Valor de Big DataUrbanismo
http://bcnbeats.outliers.es/
23
Big Data Pitfalls
24
Big Data vs Data
‣Big Data ~= MB/s o volúmenes de TB‣El 90% de los trabajos hablan de Big Data y quieren decir Data‣No es lo mismo coger datos de Twitter que ser Twitter‣Se confunde el fenómeno con el problema
25
Data Science vs Big Data
‣Técnicamente:‣Data Science crea modelos‣Big Data provee de infraestructura ‣En la práctica:‣Si creas un modelo a partir de una muestra de Big Data haces Big Data‣Los perfiles son COMPLETAMENTE diferentes!!‣Big Data sin Data Science no es NADA
26
Big Data: Costes Ocultos
‣Computer Science First, Big Data Second!!‣Probar en muestras significativas, SIEMPRE‣Llegar hasta la presentación de los datos con la muestra, lo más rápido posible‣Funcionar con hipótesis
27
Herramientas
28
¿Qué es un Cluster Hadoop?
Un conjunto de servidores (nodos), sobre el que se ejecutan procesos MapReduce y que comparten datos mediante HDFS (Hadoop Distributed File System
El ecosistema Hadoop
29
MAPREDUCE: Divide y vencerás
MAP:Función de procesado.Los datos se particionan y se pasa cada ‘trozo’ a una función ‘map’La función ‘map’ es sin estado
REDUCEFunción de reducciónLa salida del map es la entrada del reduceSe usa para consolidar y eliminar redundancias
Ecosistema Hadoop
30
MAPREDUCE: Contar las palabras de un fichero
MAP:< Hello, 1> < World, 1>
< Bye, 1> < World, 1>
REDUCE:< Hello, 1> < World, 2> < Bye, 1>
Ecosistema Hadoop
31
MAPREDUCE: Control
‣ Se ejecutan ‘jobs’ que el framework divide en ‘tasks’
‣ Master JobTracker
‣ TaskTracker por nodo
Ecosistema Hadoop
32
HDFS
‣ Implementa un único sistema de ficheros ‘juntando las capacidades’ de todos los nodos
‣ Es transparente para el programador
‣ Se implementa tolerancia a fallos con nodos de ‘backup’
Ecosistema Hadoop
33
HDFS
http://codemphasis.wordpress.com/2012/09/27/big-data-hadoop-hdfs-and-mapreduce/
Ecosistema Hadoop
34
http://oreilly.com/data/radarreports/planning-for-big-data.csp
Ecosistema Hadoop
35
VS
Soluciones NoSQL
36
Soluciones NoSQL: MongoDB
37
Problemas de las BBDD relacionales
‣ Leer datos completos es costoso (‘joins’)
‣ Transacciones (‘integridad’)
‣ Escalabilidad
‣ Cambio del modelo de datos (migraciones)
38
Soluciones NoSQL
‣ Almacenes clave-valor (Redis, BerkeleyDB, Tokyo Cabinet)
‣ Orientadas a documento (MongoDB, CouchDB, ElasticSearch, Solr)
‣ Orientadas a columnas (Cassandra, HBase, BigTable)
39
Real-time processing
‣ Batch vs Real-time
‣ Hadoop anclado en Java
‣ Spark (Scala)
‣ Storm (Clojure)
http://www.ibm.com/developerworks/library/os-spark/#resources
40
Outliers Collective: Nuestras Herramientas
‣ Visualización: D3.js
‣ Análisis:
‣ Texto: Python + Pattern
‣ Redes: Networkx + Gephi
‣ Estadística: R
‣ Persistencia: MongoDB, ElasticSearch
‣41
Trabajos y ejemplos
http://assets.outliers.es/15memociones/
42
http://elpais.com/especiales/2014/planeta-futuro/mapa-de-migraciones/
Outliers Collective+Prodigioso Volcán, 2014
43
http://www.324.cat/eleccions-catalunya-2012/tuitometre
Outliers Collective, 2012
44
http://www.paginasamarillas.es/
En Paradigma Tecnológico, 2009-2011
45
http://www.lainformacion.com/
En Paradigma Tecnológico, 2008
46
Outliers Collective y Yolanda Quintana, 2013
http://viralgezi.outliers.es/
47
Outliers Collective, Alberto González Paje, Rafael Höhr, 2013
http://innovabbva.outliers.es/
48
http://flocker.outliers.es
Outliers Collective, 2013
49
http://assets.outliers.es/SocialGood/
Outliers Collective + Alberto González, 2013
50
http://vimeo.com/71084828
http://bcnbeats.outliers.es/
Outliers Collective + Telenoika + Rocío Márquez + Patricia Benitez + Alberto González, 2013
51
#LoQueCrece: IdeasForChange + Outliers Collective
52
Referencias
http://www.goodreads.com/shelf/show/big-data
53
¿Preguntas?¡Gracias por el interés!
54