13
BIG DATA: Extraer y visualizar grandes volúmenes de datos Visualizaciones en tiempo real sobre Twitter Fernando Zunino @fzunino Pauline Morrison Fell @polinmf Thursday, June 21, 12

Big Data : Extraer y visualizar grandes volúmenes de datos

Embed Size (px)

DESCRIPTION

Presentación en HacksHackers Buenos Aires #HHBA de nuestra experencia construyendo Tribatics.com y Flowics.com aplicando tecnologías de Big Data.

Citation preview

Page 1: Big Data : Extraer y visualizar grandes volúmenes de datos

BIG DATA: Extraer y visualizar grandes volúmenes de datos

Visualizaciones en tiempo real sobre Twitter

Fernando Zunino@fzunino

Pauline Morrison Fell@polinmf

Thursday, June 21, 12

Page 2: Big Data : Extraer y visualizar grandes volúmenes de datos

Acerca de Zauber

• Somos una boutique de software y lab con base en Argentina y Estados Unidos que provee servicios a una alta gama de líderes de la industria y startups de internet en América Latina y Silicon Valley.

• Nos especializamos en proyectos de Consumer Web, Social Analytics y Big Data. Combinamos nuestros servicios de desarrollo boutique con un laboratorio de I+D para desarrollar nuevos emprendimientos y productos.

Big Data: Extraer y visualizar grandes volúmenes de datos

Visualizaciones en tiempo real sobre Twitter

Thursday, June 21, 12

Page 3: Big Data : Extraer y visualizar grandes volúmenes de datos

Nuestra experiencia con Twitter APIs

Big Data: Extraer y visualizar grandes volúmenes de datos

Visualizaciones en tiempo real sobre Twitter

Al Jazeera - Twitter Dashboard

Coca Cola - Social World Cup

CABA - Elecciones legislativas 2011

La Nacion - Elecciones presidenciales 2011

JSConfAr - Visualizing Tweets

Zauberlabs - Tweet Discover

Thursday, June 21, 12

Page 4: Big Data : Extraer y visualizar grandes volúmenes de datos

• Procesa social media data a gran escala para entregar reportes en tiempo real

• Identifica patrones demográficos y de comportamiento de seguidores y conversaciones en Twitter

• Usa ML y NLP para entregar perfiles sociales aumentados con información nueva respecto de APIs existentes o perfiles de usuarios.

Big Data: Extraer y visualizar grandes volúmenes de datos

Visualizaciones en tiempo real sobre Twitter

Value insights on social audiences and conversations

Plataforma online que:

Diseñada para:

• Investigación de mercado online

• Monitoreo de marcas en tiempo real

• ROI en Social Media

• Estrategias en Social Media

Análisis de audiencias

online

Thursday, June 21, 12

Page 5: Big Data : Extraer y visualizar grandes volúmenes de datos

• Construir infografías animadas sobre temas en Twitter

• Enriquecer noticias con contenido social

• Ofrecer una segunda pantalla para un programa de TV

• Aumentar la participación en un evento

• Cubrir el buzz en eventos grandes o internacionales

Big Data: Extraer y visualizar grandes volúmenes de datos

Visualizaciones en tiempo real sobre Twitter

Build your own Twitter real-time visualizations

Plataforma online que permite:

Diseñada para:

• Periodistas, Bloggers, Directores de Contenido, Marketeers, Organizadores de Eventos, Emisoras

Visualizacio-nes animadas

de Twitter

Thursday, June 21, 12

Page 6: Big Data : Extraer y visualizar grandes volúmenes de datos

Cómo lo construimos

Big Data: Extraer y visualizar grandes volúmenes de datos

Visualizaciones en tiempo real sobre Twitter

FRONTEND

INFRAESTRUCTURA

BACKEND

TWITTER API

Storm

Oozie

ELB, EC2, S3Elastic Map Reduce

Route53, CloudWatch

Rest APIStreaming API

Thursday, June 21, 12

Page 7: Big Data : Extraer y visualizar grandes volúmenes de datos

Desafíos tecnológicos

• Límites API Twitter

• Big Data

• Manejo de datos no estructurados

• Inferencia de atributos ocultos

Big Data: Extraer y visualizar grandes volúmenes de datos

Visualizaciones en tiempo real sobre Twitter

Thursday, June 21, 12

Page 8: Big Data : Extraer y visualizar grandes volúmenes de datos

Límites API Twitter

• Rest API limitada a 350 requests por ahora por IP

• Streaming API (statuses/filter) está limitada si tweets exceden el 1% del Firehose

• Partners de Twitter (Gnip, DataSift) pueden ser una opción para obtener un acceso mayor

Big Data: Extraer y visualizar grandes volúmenes de datos

Visualizaciones en tiempo real sobre Twitter

Thursday, June 21, 12

Page 9: Big Data : Extraer y visualizar grandes volúmenes de datos

Big Data• Twitter en #

• 400M tweets por dia (http://www.theverge.com/2012/6/6/3069424/twitter-400-million-total-daily-tweets)

• 140M usuarios activos (http://blog.twitter.com/2012/03/twitter-turns-six.html)

• Generación de estadísticas en tiempo real

• Stream Processing => Storm

• Generación de estadísticas sobre los usuarios

• Batch Processing => Hadoop (Map Reduce, Pig)

Big Data: Extraer y visualizar grandes volúmenes de datos

Visualizaciones en tiempo real sobre Twitter

Thursday, June 21, 12

Page 10: Big Data : Extraer y visualizar grandes volúmenes de datos

Manejo de datos no estructurados

• Ubicación

• 5% de tweets utilizan GeoLocation API

• 72% Ingresan datos de ubicación en forma no estructurada

• Utilizamos técnicas de NLP e Information Retrieval para detectar ubicación

Big Data: Extraer y visualizar grandes volúmenes de datos

Visualizaciones en tiempo real sobre Twitter

Thursday, June 21, 12

Page 11: Big Data : Extraer y visualizar grandes volúmenes de datos

Inferencia de atributos ocultos

• Datos demográficos de usuarios no están presentes

• Tipo de Usuario

• Hombre/Mujer/Compañia

• Rango etario

• Machine Learning al rescate!

• Se utilizan técnicas de aprendizaje supervisado para detectar dichos atributos

Big Data: Extraer y visualizar grandes volúmenes de datos

Visualizaciones en tiempo real sobre Twitter

Thursday, June 21, 12

Page 12: Big Data : Extraer y visualizar grandes volúmenes de datos

Demos

Big Data: Extraer y visualizar grandes volúmenes de datos

Visualizaciones en tiempo real sobre Twitter

Boca vs Universidad de Chile

Rio+20 Malvinas

Elecciones en Mexico

Thursday, June 21, 12

Page 13: Big Data : Extraer y visualizar grandes volúmenes de datos

Gracias!

Big Data: Extraer y visualizar grandes volúmenes de datos

Visualizaciones en tiempo real sobre Twitter

Preguntas?

Thursday, June 21, 12