1. BIG DATA 30 MIN HOW TO September 2014 M. en I. Tenoch
Gonzalez [email protected] @tenoch_g
Linkedin.com/in/tenochgonzalez
2. CAFETERA CONECTADA A TWITTER!
3. QUE ES BIG DATA Conjuntos de datos que son muy grandes para
manipular con mtodos o herramientas estndar.
4. QUE ES BIG DATA Conjuntos de datos que son muy grandes para
manipular con mtodos o herramientas estndar.
5. QUE ES BIG DATA Gartner usa las siguientes vs para hablar de
Big Data. volumen la cantidad de data. velocidad la velocidad en
que se genera y fluye la informacin en la empresa. variedad el tipo
de data disponible. veracidad que tan confiable es la informacin.
valor que representa para la empresa.
6. QUE ES BIG DATA Gartner usa las siguientes vs para hablar de
Big Data. volumen la cantidad de data. velocidad la velocidad en
que se genera y fluye la informacin en la empresa. variedad el tipo
de data disponible. veracidad que tan confiable es la informacin.
valor que representa para la empresa.
7. BIG DATA DESCRIPCIN GRFICA.
8. DE DONDE SALIERON TANTOS DATOS? Google propuso soluciones a
sus problemas de almacenamiento, consulta y procesamiento de
informacin: Google File System y Map Reduce
9. CUANDO TIENES UN MARTILLO TODO SE VE COMO UN CLAVO.
10. UNA BUENA SOLUCIN SIRVE PARA MS DE UN PROBLEMA.
11. COMO EMPEZAR! Is the Data! Is the Data! Vamos con una
historia
12. HISTORIA DE HORROR.
13. PORQUE PREOCUPARSE? Se supone que los cientficos de datos
son magos no?
14. UN ALGORITMOS SLO ES TAN BUENO COMO LOS DATOS CON LOS QUE
LOS ALIMENTAS
15. NO IMPORTA EL TAMAO DE TU PROYECTO.
16. Tu data set debe ser Completo. Correcto. Conectable .
17. Que es critico para tu negocio? Estn los campos crticos
para la empresa guardados en el sistema? guardamos las urls que
referimos http://example.com/123?referrer=ourclient.com
COMPLETO
18. Que es critico para tu negocio? Estn los campos crticos
para la empresa guardados en el sistema? guardamos las urls que
referimos http://example.com/123?referrer=ourclient.com Campo
critico para el negocio referrer=ourclient.com COMPLETO
19. Volumen. Se estn guardando tantos datos como esperas?
Google analytics dice que tienes 50,000 visitas y tu tienes datos
de 500 :S Perdiendo 99% de los datos. Revisa el volumen.
COMPLETO
20. Captura eventos no slo errores! Todo lo que hacen en tu
app, sitio, servicio, etc. COMPLETO
21. Fecha del servicio. Hora que se busc el viaje. Lugar y hora
de origen. Lugar y hora de destino. Tiempo del viaje. Clima Monto
de la transaccin. Cliente SERVICIO DE TRANSPORTE DE PASAJEROS
22. Fecha del servicio. Hora que se busc el viaje. Lugar y hora
de origen. Lugar y hora de destino. Tiempo del viaje. Clima. Monto
de la transaccin. Cliente. VIAJES
23. Fecha del servicio. Hora que se busc el viaje. Lugar y hora
de origen. Lugar y hora de destino. Tiempo del viaje. Clima. VIAJES
SLO CAPTURABAN: Monto de la transaccin. Cliente. THE HORROR!!!
24. REVISA CONTRA EL SENTIDO COMN. CORRECTO
25. M : 579 H : 6870 ?????? Por mucho tiempo no se capturaba el
genero del usuario y en los datos se haca default a M REVISAN Y LOS
RESULTADOS
26. NO SABES? NULL
27. Unique ID? CONECTABLE??
28. No hacemos e-commerce La mayora de las compaas de
retail/financieras no llevan la conexin entre el cliente y la
compra. CONECTABLE??
29. CONECTABLE?? 3 vez mi numero de cliente???
30. HERRAMIENTAS UTILES EN EL CAMPO
31. Conjunto de utileras que permiten trabajar los logs desde
terminal. En python Est en github pip install csvkit Est en github
JSON, SQL CSVKIT
32. Utileras en lnea de comandos para anlisis de datos. En
python Est en github pip install data_hacks Est en github JSON, SQL
DATA_HACKS
33. DATA_HACKS
34. iPython Numpy Scipy PyMC Matplotlib Pandas COMO SE TRABAJA
CON LOS DATOS? NO ES FCIL PERO ES POSIBLE.
35. PORQUE HACER ESTO? 5 Historias de xito con ciencia de
datos.
36. SISTEMA DE RECOMENDACIONES BASADO EN LO QUE HAZ VISTO,
COMPRADO Y WISH LIST
37. PUBLICIDAD ENFOCADA A PERFILES ESPECIFICOS
38. QUE PERSONAS ES MAS PROBABLE QUE CAMBIEN SU VOTO SI SE LES
CONTACTAY PORQUE MEDIO. EL EQUIPO SE ADJUDICA 3 A 4% DE
VENTAJA.
39. PUBLICIDAD ENFOCADA POR REGIN NO POR PAS.
40. SE ALIO CON SAP ANALISIS DEL EQUIPO E INDIVIDUAL. LOGRARON
BAJAR EL TIEMPO DE POSESIN DE 3.4 A 1.1 SEGUNDOS