Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas

Ganando la I-COMData-Science Hackathon 2016

L.F. Chiroque, R. Cuevas, J.M. Carrascosa, C. Iordanou

Grupo de Usuarios de R de Madrid Madrid, 10 noviembre 2016

Cumbre global I-COM 2016Consorcio comercial enfocado en el uso de datos y medidas de marketing para la obtención de ventajas de negocio.

Lugar de encuentro (Sevilla 2016) para alrededor de 100 asociaciones en 40 países representando a comerciales, agencias y medios de comunicación.

2ª edición de la I-COM Data Science Hackathon (Madrid)

La competiciónDos categorías: Scientist & Master Levels

Participantes (14 equipos):

Reto personal: pulso academia vs. industria

El equipo UC3M

COSTASJUANMI

LUISFO

RUBÉN

El RetoEn 24 horas, los equipos participantes tienen que ser capaces de predecir tendencias, dado con un conjunto de datos de un año.

Caso de uso: tendencias de ‘hair care’ (cuidado capilar)

Datos de entrada Dispusimos de una muestra de datos del 2013 (~10 días antes) JSON objects

tweet | id | user info | timestamp | device info | hashtags | FAV count | RT count | gnip/klout info | language | …

~3 M tweets desde ene. a dic. del 2015 conteniendo la palabra clave ‘hair’

Predecir: #tweets / hashtag durante Q1-2016 [ log(#tweets + 1) ] Sólo se consideran hashtags con >= 9 tweets durante Q4-2015 (~11K hashtags)

El Reto (cont.)Evaluación

Cuantitativo - 50% Coeficiente de correlación de Pearson

Qualitativo - 50% Valor de negocio, narración y arte & tecnología

Dos rondas Ronda 1: Dos finalistas por categoría Ronda 2: Presentación durante la cumbre global I-COM (Sevilla)

Bonus: Premio del público I-COM

La HackathonEl resumen

PROGRESO

TIEMPOSTART

11 PM10 AM 8 AM 10 AM

END

La HackathonConsideraciones

Evaluación: coef. de correlación en la estimación #tweets/hashtag Método supervisado: usamos Q4-2015 como 'solución' (ground truth)

Sólo consideramos hashtags con >= 5 #tweets durante Q3-2015

División aleatoria 70% entrenamiento - 30% test Modelos

Modelos de series temporals

Modelos de regresión

Machine Learning

La HackathonEl proceso

RAW DATA FEATURE EXTRACTION

TRAINING SETSMODELO DE REGRESIÓN

PREPARACIÓN DE DATOS ALGORITMO

GRANULARIDAD

SEMANALMENSUAL

TRIMESTRAL

24 FEATURES

#TWEETS#FOLLOWERS#RETWEETS

USER FEATURES

La HackathonResultados preliminares

PREDICCIÓN DE #TWEETS POR HASHTAG Q4-2015 (MÉTRICA: CORRELACIÓN DE PEARSON

PREDICCIÓN BASADA EN INFORMACIÓN TRIMESTRAL

AGREGADA

PREDICCIÓN BASADA EN INFORMACIÓN MENSUAL

AGREGADA

La HackathonModelo elegido

Modelo lineal generalizado PCA —> 12 componentes & Análisis factorial #TW_Q4 ~ #TW_Q3 + #TW_Q2 + #TW_Q1 + #TW_sep + #TW_ago Coeficiente de correlación con el conjunto de test ~0.77

Modelo del error

ERROR DE PREDICCIÓN

NÚM. DE TWEETSPOR HASHTAG

PEARSON CORR ~ -0.8

Resultados de la HackathonCoeficiente de correlación: 0.81

1er resultado de nuestra categoría y 2º general

Equipo UC3M

La aplicación de negocioPara Unilever

TOP HASHTAGSTENDENCIAS Q1-2016

≈?

PALABRAS CLAVE RELACIONADAS CON 'PELO’ DE INTERÉS PARA

UNILEVER

TOP HASHTAGSTENDENCIAS

RELACIONADAS CUIDADO CAPILAR

Q1-2016

SIMILARIDAD SEMANTICA

La aplicación de negocioParticipación (engagement)

medir la cuota de 'voz’ y hashtags de la competencia amplificar contenidos de tendencias clave con participación social y ofertas en tiempo real crear contenidos, encuentas, and tweets de pago acerca de hashtags tendencia

Divulgación (sharing) amplificar tendencias clave y actividad de usuarios clave focalizar la participación en 'conversaciones’ más relevantes con gran potencial de impacto

La aplicación de negocio

PARTICIPACIÓN DIVULGACIÓN

La Final

+ Premio del público

El código

https://github.com/luisfo/icom_dsh16

https://github.com/luisfo/icom_dsh16

GRACIAS

Ganando la I-COMData-Science Hackathon 2016

L.F. Chiroque, R. Cuevas, J.M. Carrascosa, C. Iordanou

Grupo de Usuarios de R de Madrid Madrid, 10 noviembre 2016

Documents

Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas