65
Big Data Valor y Mercado Óscar Marín Miró @outliers_es www.outliers.es

Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UAB

Embed Size (px)

Citation preview

Big Data Valor y Mercado

Óscar Marín Miró@outliers_es

www.outliers.es

Contenidos

‣Historia‣Las 3 V’s‣Problema, Solución y Fenómeno

¿Qué es Big Data? Pitfalls‣Data vs Big Data‣Data Science vs Big Data‣Costes ocultos

Herramientas+Escenarios

‣Ecosistema Hadoop‣NoSQL‣Real-time

Valor del Big Data

‣Los Gigantes de la Generación de Datos‣Nadamos en un mar de datos‣Sectores de Aplicación

Bibliografía

¿Qué es el Big Data?

“Data will help us” - Jonathan Harris

Historiahttp://assets.outliers.es/infographics/BigData_A_Brief_History.pdf

“Big Data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications”

http://en.wikipedia.org/wiki/Big_data

¿Qué es el Big Data?

- Big Data y las 3 ‘V’

- Velocidad

- Volumen

- Variedad

http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf

¿Qué es el Big Data?

- Twitter: 340 millones de tweets diarios (~= 1TB/día)

- Facebook: 800 millones de status diarios

- Google: 1000 millones de consultas diarias

http://www.slideshare.net/gigaom/the-3vs-of-big-data-variety-velocity-and-volume-from-structuredata-2012

¿Qué es el Big Data? (de verdad)

Explosión de Uso Explosión Social

Explosión Móvil

¿Qué es el Big Data? (de verdad)

Big Data: Dimensiones

‣Problema: 3 V’s‣Solución: Herramientas‣Fenómeno: Posibilidades

El Valor de Big Data

http://labratrevenge.com/pdx

http://7.mshcdn.com/wp-content/uploads/2012/06/DataNeverSleeps.jpg

El V

alor

de

Big

Dat

a

El Valor de Big Data:Big Data Analysis

‣Estadístico‣Texto‣Análisis de Redes Sociales‣Análisis GeoEspacial

El Valor de Big Data:Ámbitos de Aplicación

‣Marketing/Publicidad/Comunicación‣Customer Insights‣Growth Hacking‣Salud‣Escalabilidad

El Valor de Big Data:Publicidad

https://de5w14y12gh72.cloudfront.net/website/bluefin_mit-tech-review.pdf

El Valor de Big Data:Customer Insights

http://innovabbva.outliers.es/mapas.html

El Valor de Big Data:Location Analytics

https://meraki.cisco.com/

El Valor de Big Data:Growth Hacking

‣Impactos de tests A/B‣Incrementar el Retention Rate‣Incrementar los leads‣Incremental el engagement

El Valor de Big Data:Growth Hacking

https://www.youtube.com/watch?v=eqeS8US10_k

El Valor de Big Data:Salud

https://www.23andme.com/ancestry/

El Valor de Big Data:Publicidad

http://blog.marketo.com/2013/09/get-more-email-opens-and-clicks-using-behavioral-targeting.html

El Valor de Big DataEscalabilidad

http://www.slideshare.net/davidpoblador/spotify-bcn2013slideshare

El Valor de Big DataAntropología

http://www.brainpickings.org/index.php/2014/01/17/uncharted-big-data/

http://www.ted.com/talks/what_we_learned_from_5_million_books.html

El Valor de Big DataUrbanismo

http://bcnbeats.com

El Valor de Big DataUrbanismo

http://bcnbeats.com

El Valor de Big DataUrbanismo

http://bcnbeats.com

Big Data Pitfalls

Big Data vs Data

‣Big Data ~= MB/s o volúmenes de TB‣El 90% de los trabajos hablan de Big Data y quieren decir Data‣No es lo mismo coger datos de Twitter que ser Twitter‣Se confunde el fenómeno con el problema

Data Science vs Big Data

‣Técnicamente:‣Data Science crea modelos‣Big Data provee de infraestructura ‣En la práctica:‣Si creas un modelo a partir de una muestra de Big Data haces Big Data‣Los perfiles son COMPLETAMENTE diferentes!!‣Big Data sin Data Science no es NADA

Big Data: Costes Ocultos

‣Computer Science First, Big Data Second!!‣Probar en muestras significativas, SIEMPRE‣Llegar hasta la presentación de los datos con la muestra, lo más rápido posible‣Funcionar con hipótesis

Herramientas

¿Qué es un Cluster Hadoop?

Un conjunto de servidores (nodos), sobre el que se ejecutan procesos MapReduce y que comparten datos mediante HDFS (Hadoop Distributed File System

El ecosistema Hadoop

MAPREDUCE: Divide y vencerás

MAP:Función de procesado.Los datos se particionan y se pasa cada ‘trozo’ a una función ‘map’La función ‘map’ es sin estado

REDUCEFunción de reducciónLa salida del map es la entrada del reduceSe usa para consolidar y eliminar redundancias

Ecosistema Hadoop

MAPREDUCE: Contar las palabras de un fichero

MAP:< Hello, 1> < World, 1>

< Bye, 1> < World, 1>

REDUCE:< Hello, 1> < World, 2> < Bye, 1>

Ecosistema Hadoop

MAPREDUCE: Control

‣ Se ejecutan ‘jobs’ que el framework divide en ‘tasks’

‣ Master JobTracker

‣ TaskTracker por nodo

Ecosistema Hadoop

HDFS

‣ Implementa un único sistema de ficheros ‘juntando las capacidades’ de todos los nodos

‣ Es transparente para el programador

‣ Se implementa tolerancia a fallos con nodos de ‘backup’

Ecosistema Hadoop

HDFS

http://codemphasis.wordpress.com/2012/09/27/big-data-hadoop-hdfs-and-mapreduce/

Ecosistema Hadoop

http://oreilly.com/data/radarreports/planning-for-big-data.csp

Ecosistema Hadoop

VS

Soluciones NoSQL

Soluciones NoSQL: MongoDB

Problemas de las BBDD relacionales

‣ Leer datos completos es costoso (‘joins’)

‣ Transacciones (‘integridad’)

‣ Escalabilidad

‣ Cambio del modelo de datos (migraciones)

Soluciones NoSQL

‣ Almacenes clave-valor (Redis, BerkeleyDB, Tokyo Cabinet)

‣ Orientadas a documento (MongoDB, CouchDB, ElasticSearch, Solr)

‣ Orientadas a columnas (Cassandra, HBase, BigTable)

NoSQL: Elasticsearch

http://www.elasticsearch.org/

NoSQL: Elasticsearch

http://www.elasticsearch.org/overview/kibana/

Big Data: Streaming

TwitterGet

GetSentiment

GetInfluence

Index

in out

outin

out

in

Big Data: Spark

‣ Procesado en memoria (x100 faster)

‣ Data pipe-lines (streaming)

‣ APIs: Java, Scala, Python (2-5 menos código)

‣ El proyecto más activo del ecosistema Hadoop

‣ “Data-sharing”

‣ “Big Data Unifier”

Big Data: Spark

Hadoop vs Spark

Real-time processing

‣ Batch vs Real-time

‣ Hadoop anclado en Java

‣ Spark (Scala)

‣ Storm (Clojure)

http://www.ibm.com/developerworks/library/os-spark/#resources

Outliers Collective: Nuestras Herramientas

‣ Visualización: D3.js

‣ Análisis:

‣ Texto: Python + Pattern

‣ Redes: Networkx + Gephi

‣ Estadística: R

‣ Persistencia: MongoDB, ElasticSearch

Trabajos y ejemplos

Profile mining‘Podemos’ fanbase affiliation

https://medium.com/@outliers/mineria-de-perfiles-politicos-en-twitter-19972efaf309

Profile miningPSOE fanbase affiliation

https://medium.com/@outliers/mineria-de-perfiles-politicos-en-twitter-19972efaf309

Profile mining‘Podemos’ fanbase jobs

https://medium.com/@outliers/mineria-de-perfiles-politicos-en-twitter-19972efaf309

Profile mining‘PP’ fanbase jobs

https://medium.com/@outliers/mineria-de-perfiles-politicos-en-twitter-19972efaf309

http://elpais.com/especiales/2014/planeta-futuro/mapa-de-migraciones/

Outliers Collective+Prodigioso Volcán, 2014

http://www.324.cat/eleccions-catalunya-2012/tuitometre

Outliers Collective, 2012

http://www.lainformacion.com/

En Paradigma Tecnológico, 2008

Outliers Collective y Yolanda Quintana, 2013

http://viralgezi.outliers.es/

Outliers Collective, Alberto González Paje, Rafael Höhr, 2013

http://innovabbva.outliers.es/

#LoQueCrece-@pentagrowth: IdeasForChange + Outliers Collective

http://flocker.outliers.es

Outliers Collective, 2013

http://assets.outliers.es/SocialGood/

Outliers Collective + Alberto González, 2013

http://vimeo.com/71084828

http://bcnbeats.outliers.es/

Outliers Collective + Telenoika + Rocío Márquez + Patricia Benitez + Alberto González, 2013

Referencias

http://www.goodreads.com/shelf/show/big-data

¿Preguntas? ¡Gracias por el interés!