16
¿Ciencia de Datos en Periodismo? A 33k pies! Liliana Millán [email protected] @silil3 Marzo 2017

Data science aplicado a periodismo

Embed Size (px)

Citation preview

¿Ciencia de Datos en Periodismo? A 33k pies!Liliana Millán [email protected] @silil3 Marzo 2017

Agenda+ Minería de texto - IR+ Grafos como herramienta de organización de información+ NER - Name Entity Recognition+ Wrap it all

Minería de Texto - IR

Un sistema de recuperación de información IR está compuesto por 3 elementos:

+ Una colección de documentos+ Una consulta (con uno más términos)+ Ordenar la colección de acuerdo a una medida de relevancia con respecto a la

consulta realizada

Ejemplo de un IR

Query de consulta

Colección de documentos ordenadas por relevancia (PageRank) al query de consulta

IR - ¿qué necesito?

+ Requieres de un conjunto de documentos sobre los que quieres realizar una búsqueda de relevancia

+ Seleccionar el algoritmo/método para calcular la relevancia: + TF/IDF: Frecuencia de una palabra en el documento y en toda la colección+ BM25: Frecuencia y tamaños + LSI: Contexto, polisemia y sinonimia+ LDA: Obtención de tópicos de manera ‘automática’, diferentes proporciones de pertenencia → Los

mails de Sarah Palin, los de Hillary Clinton!!!

+ Para clasificar texto: Requieres de tener una taxonomía —generalmente proporcionada por el periodista/editor—

Taxonomía

¿Para qué?

+ Para que puedas clasificar automáticamente un contenido a un tema(s) + Organización de contenido+ ¿Cuánto contenido hay generado de? Pocos de medio ambiente, muchos de

política+ Recomendación de contenidos —otras investigaciones que se parecen a la tuya—

Grafos

+ Representación de información+ Nodos: Personas, empresas, notas, ...+ Relaciones: Hijo de, proveedor, ..+ Atributos: Fechas, montos, ...

+ Permiten analizar los datos de una manera diferente aplicando ‘Teoría de Grafos’+ 6 grados de separación+ Diámetro de la red+ Comunidades+ Número de triángulos+ ...

Casos de uso

+ Identificación de relaciones anómalas: fraudes, corrupción+ Falta de relación entre nodos que deberían tener relación: recomendaciones+ Identificación de comunidades (y propiedades): Nodos que son hubs

—prestanombres—, nodos de separación entre empresas/personas+ Identificación de caminos más cortos: Cómo llego de esta persona a esta otra… a

quién tengo que contactar.+ Comportamiento en el tiempo: Asignaciones atípicas —licitaciones que siempre

son ganadas por la misma empresa—

→ Compranet es un muy buen ejemplo! ╭(◔ ◡ ◔)/

CompraNet

+ Bajar datos de https://compranet.funcionpublica.gob.mx/web/login.html (2010-2017, 2002-2011)

+ Generar archivo csv con los datos de vendedor, comprador, precio (origen, destino, atributo)

+ Cargar datos a bases de datos de grafos: Neo4j, Gephi+ Analizar los datos ‘consultando’ la base de datos de grafos: identificación de

relaciones ‘raras’ (Neo4j)+ Analizar los datos con teoría de grafos (Gephi) cuántas comunidades existen, se

comportan como mundo pequeño?, diámetro del grafo,

CompraNet

+ Año: 2004+ Nodos: 1,427+ Enlaces: 53,323+ Tamaño: Monto+ Color: Comunidad+ Grafo: bipartita - proveedores,

licitadores

Herramienta: Gephi

¿Cómo automatizar la creación del grafo?

+ Named Entity Recognition (NER)+ Personas+ Empresas+ Lugares+ Fechas+ Relaciones

+ ¿Cómo?+ Gramática específica: + Estadística+ Machine learning :) (no supervisado, supervisado)

Siempre de la mano de un editor|periodista|lingüista|experto en el problema

Stanford NER: http://nlp.stanford.edu/software/CRF-NER.shtml

Wrap it all - Panama papers

+ Obtener los documentos (¿en Español?)+ Identificación automática de temas con LDA + Generar un NER —¿ocupar uno ya hecho?—

identificar:+ Personas+ Empresas+ Relaciones+ Fechas+ Montos

+ Generar un archivo con los nodos y las aristas+ Cargar el archivo a Neo4j+ Cargar el archivo a Gephi - cuántas comunidades?

Grados de separación entre empresas/personas

PERO!

+ Todos estos análisis son específicos al idioma!!! + No ocupes herramientas que estén hechas para el idioma inglés! Requieres de uno

en español —hay varios :)—+ Nunca dejes de lado al experto en cada punto, la sinergia de un equipo

multidisciplinario te traerá muchos beneficios:+ Periodista|Editor+ Experto en el tema+ Científico de datos

Gracias :)

Preguntas ????

[email protected]