43
BIG DATA 30 MIN HOW TO September 2014 M. en I. Tenoch Gonzalez [email protected] @tenoch_g Linkedin.com/in/ tenochgonzalez

Big data data How to y casos de exito

Embed Size (px)

Citation preview

  1. 1. BIG DATA 30 MIN HOW TO September 2014 M. en I. Tenoch Gonzalez [email protected] @tenoch_g Linkedin.com/in/tenochgonzalez
  2. 2. CAFETERA CONECTADA A TWITTER!
  3. 3. QUE ES BIG DATA Conjuntos de datos que son muy grandes para manipular con mtodos o herramientas estndar.
  4. 4. QUE ES BIG DATA Conjuntos de datos que son muy grandes para manipular con mtodos o herramientas estndar.
  5. 5. QUE ES BIG DATA Gartner usa las siguientes vs para hablar de Big Data. volumen la cantidad de data. velocidad la velocidad en que se genera y fluye la informacin en la empresa. variedad el tipo de data disponible. veracidad que tan confiable es la informacin. valor que representa para la empresa.
  6. 6. QUE ES BIG DATA Gartner usa las siguientes vs para hablar de Big Data. volumen la cantidad de data. velocidad la velocidad en que se genera y fluye la informacin en la empresa. variedad el tipo de data disponible. veracidad que tan confiable es la informacin. valor que representa para la empresa.
  7. 7. BIG DATA DESCRIPCIN GRFICA.
  8. 8. DE DONDE SALIERON TANTOS DATOS? Google propuso soluciones a sus problemas de almacenamiento, consulta y procesamiento de informacin: Google File System y Map Reduce
  9. 9. CUANDO TIENES UN MARTILLO TODO SE VE COMO UN CLAVO.
  10. 10. UNA BUENA SOLUCIN SIRVE PARA MS DE UN PROBLEMA.
  11. 11. COMO EMPEZAR! Is the Data! Is the Data! Vamos con una historia
  12. 12. HISTORIA DE HORROR.
  13. 13. PORQUE PREOCUPARSE? Se supone que los cientficos de datos son magos no?
  14. 14. UN ALGORITMOS SLO ES TAN BUENO COMO LOS DATOS CON LOS QUE LOS ALIMENTAS
  15. 15. NO IMPORTA EL TAMAO DE TU PROYECTO.
  16. 16. Tu data set debe ser Completo. Correcto. Conectable .
  17. 17. Que es critico para tu negocio? Estn los campos crticos para la empresa guardados en el sistema? guardamos las urls que referimos http://example.com/123?referrer=ourclient.com COMPLETO
  18. 18. Que es critico para tu negocio? Estn los campos crticos para la empresa guardados en el sistema? guardamos las urls que referimos http://example.com/123?referrer=ourclient.com Campo critico para el negocio referrer=ourclient.com COMPLETO
  19. 19. Volumen. Se estn guardando tantos datos como esperas? Google analytics dice que tienes 50,000 visitas y tu tienes datos de 500 :S Perdiendo 99% de los datos. Revisa el volumen. COMPLETO
  20. 20. Captura eventos no slo errores! Todo lo que hacen en tu app, sitio, servicio, etc. COMPLETO
  21. 21. Fecha del servicio. Hora que se busc el viaje. Lugar y hora de origen. Lugar y hora de destino. Tiempo del viaje. Clima Monto de la transaccin. Cliente SERVICIO DE TRANSPORTE DE PASAJEROS
  22. 22. Fecha del servicio. Hora que se busc el viaje. Lugar y hora de origen. Lugar y hora de destino. Tiempo del viaje. Clima. Monto de la transaccin. Cliente. VIAJES
  23. 23. Fecha del servicio. Hora que se busc el viaje. Lugar y hora de origen. Lugar y hora de destino. Tiempo del viaje. Clima. VIAJES SLO CAPTURABAN: Monto de la transaccin. Cliente. THE HORROR!!!
  24. 24. REVISA CONTRA EL SENTIDO COMN. CORRECTO
  25. 25. M : 579 H : 6870 ?????? Por mucho tiempo no se capturaba el genero del usuario y en los datos se haca default a M REVISAN Y LOS RESULTADOS
  26. 26. NO SABES? NULL
  27. 27. Unique ID? CONECTABLE??
  28. 28. No hacemos e-commerce La mayora de las compaas de retail/financieras no llevan la conexin entre el cliente y la compra. CONECTABLE??
  29. 29. CONECTABLE?? 3 vez mi numero de cliente???
  30. 30. HERRAMIENTAS UTILES EN EL CAMPO
  31. 31. Conjunto de utileras que permiten trabajar los logs desde terminal. En python Est en github pip install csvkit Est en github JSON, SQL CSVKIT
  32. 32. Utileras en lnea de comandos para anlisis de datos. En python Est en github pip install data_hacks Est en github JSON, SQL DATA_HACKS
  33. 33. DATA_HACKS
  34. 34. iPython Numpy Scipy PyMC Matplotlib Pandas COMO SE TRABAJA CON LOS DATOS? NO ES FCIL PERO ES POSIBLE.
  35. 35. PORQUE HACER ESTO? 5 Historias de xito con ciencia de datos.
  36. 36. SISTEMA DE RECOMENDACIONES BASADO EN LO QUE HAZ VISTO, COMPRADO Y WISH LIST
  37. 37. PUBLICIDAD ENFOCADA A PERFILES ESPECIFICOS
  38. 38. QUE PERSONAS ES MAS PROBABLE QUE CAMBIEN SU VOTO SI SE LES CONTACTAY PORQUE MEDIO. EL EQUIPO SE ADJUDICA 3 A 4% DE VENTAJA.
  39. 39. PUBLICIDAD ENFOCADA POR REGIN NO POR PAS.
  40. 40. SE ALIO CON SAP ANALISIS DEL EQUIPO E INDIVIDUAL. LOGRARON BAJAR EL TIEMPO DE POSESIN DE 3.4 A 1.1 SEGUNDOS
  41. 41. CIENCIA DE DATOS ES DE CAMPEONES!
  42. 42. TE DAMOS TODA LA PERSPECTIVA [email protected] @tenoch_g