Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Ganando la I-COMData-Science Hackathon 2016
L.F. Chiroque, R. Cuevas, J.M. Carrascosa, C. Iordanou
Grupo de Usuarios de R de Madrid Madrid, 10 noviembre 2016
Cumbre global I-COM 2016Consorcio comercial enfocado en el uso de datos y medidas de marketing para la obtención de ventajas de negocio.
Lugar de encuentro (Sevilla 2016) para alrededor de 100 asociaciones en 40 países representando a comerciales, agencias y medios de comunicación.
2ª edición de la I-COM Data Science Hackathon (Madrid)
La competiciónDos categorías: Scientist & Master Levels
Participantes (14 equipos):
Reto personal: pulso academia vs. industria
El equipo UC3M
COSTASJUANMI
LUISFO
RUBÉN
El RetoEn 24 horas, los equipos participantes tienen que ser capaces de predecir tendencias, dado con un conjunto de datos de un año.
Caso de uso: tendencias de ‘hair care’ (cuidado capilar)
Datos de entrada Dispusimos de una muestra de datos del 2013 (~10 días antes) JSON objects
tweet | id | user info | timestamp | device info | hashtags | FAV count | RT count | gnip/klout info | language | …
~3 M tweets desde ene. a dic. del 2015 conteniendo la palabra clave ‘hair’
Predecir: #tweets / hashtag durante Q1-2016 [ log(#tweets + 1) ] Sólo se consideran hashtags con >= 9 tweets durante Q4-2015 (~11K hashtags)
El Reto (cont.)Evaluación
Cuantitativo - 50% Coeficiente de correlación de Pearson
Qualitativo - 50% Valor de negocio, narración y arte & tecnología
Dos rondas Ronda 1: Dos finalistas por categoría Ronda 2: Presentación durante la cumbre global I-COM (Sevilla)
Bonus: Premio del público I-COM
La HackathonEl resumen
PROGRESO
TIEMPOSTART
11 PM10 AM 8 AM 10 AM
END
La HackathonConsideraciones
Evaluación: coef. de correlación en la estimación #tweets/hashtag Método supervisado: usamos Q4-2015 como 'solución' (ground truth)
Sólo consideramos hashtags con >= 5 #tweets durante Q3-2015
División aleatoria 70% entrenamiento - 30% test Modelos
Modelos de series temporals
Modelos de regresión
Machine Learning
La HackathonEl proceso
RAW DATA FEATURE EXTRACTION
TRAINING SETSMODELO DE REGRESIÓN
PREPARACIÓN DE DATOS ALGORITMO
GRANULARIDAD
SEMANALMENSUAL
TRIMESTRAL
24 FEATURES
#TWEETS#FOLLOWERS#RETWEETS
USER FEATURES
La HackathonResultados preliminares
PREDICCIÓN DE #TWEETS POR HASHTAG Q4-2015 (MÉTRICA: CORRELACIÓN DE PEARSON
PREDICCIÓN BASADA EN INFORMACIÓN TRIMESTRAL
AGREGADA
PREDICCIÓN BASADA EN INFORMACIÓN MENSUAL
AGREGADA
La HackathonModelo elegido
Modelo lineal generalizado PCA —> 12 componentes & Análisis factorial #TW_Q4 ~ #TW_Q3 + #TW_Q2 + #TW_Q1 + #TW_sep + #TW_ago Coeficiente de correlación con el conjunto de test ~0.77
Modelo del error
ERROR DE PREDICCIÓN
NÚM. DE TWEETSPOR HASHTAG
PEARSON CORR ~ -0.8
Resultados de la HackathonCoeficiente de correlación: 0.81
1er resultado de nuestra categoría y 2º general
Equipo UC3M
La aplicación de negocioPara Unilever
TOP HASHTAGSTENDENCIAS Q1-2016
≈?
PALABRAS CLAVE RELACIONADAS CON 'PELO’ DE INTERÉS PARA
UNILEVER
TOP HASHTAGSTENDENCIAS
RELACIONADAS CUIDADO CAPILAR
Q1-2016
SIMILARIDAD SEMANTICA
La aplicación de negocioParticipación (engagement)
medir la cuota de 'voz’ y hashtags de la competencia amplificar contenidos de tendencias clave con participación social y ofertas en tiempo real crear contenidos, encuentas, and tweets de pago acerca de hashtags tendencia
Divulgación (sharing) amplificar tendencias clave y actividad de usuarios clave focalizar la participación en 'conversaciones’ más relevantes con gran potencial de impacto
La aplicación de negocio
PARTICIPACIÓN DIVULGACIÓN
La Final
+ Premio del público
GRACIAS
Ganando la I-COMData-Science Hackathon 2016
L.F. Chiroque, R. Cuevas, J.M. Carrascosa, C. Iordanou
Grupo de Usuarios de R de Madrid Madrid, 10 noviembre 2016