Upload
liliana-millan
View
251
Download
0
Embed Size (px)
Citation preview
¿Ciencia de Datos en Periodismo? A 33k pies!Liliana Millán [email protected] @silil3 Marzo 2017
Agenda+ Minería de texto - IR+ Grafos como herramienta de organización de información+ NER - Name Entity Recognition+ Wrap it all
Minería de Texto - IR
Un sistema de recuperación de información IR está compuesto por 3 elementos:
+ Una colección de documentos+ Una consulta (con uno más términos)+ Ordenar la colección de acuerdo a una medida de relevancia con respecto a la
consulta realizada
Ejemplo de un IR
Query de consulta
Colección de documentos ordenadas por relevancia (PageRank) al query de consulta
IR - ¿qué necesito?
+ Requieres de un conjunto de documentos sobre los que quieres realizar una búsqueda de relevancia
+ Seleccionar el algoritmo/método para calcular la relevancia: + TF/IDF: Frecuencia de una palabra en el documento y en toda la colección+ BM25: Frecuencia y tamaños + LSI: Contexto, polisemia y sinonimia+ LDA: Obtención de tópicos de manera ‘automática’, diferentes proporciones de pertenencia → Los
mails de Sarah Palin, los de Hillary Clinton!!!
+ Para clasificar texto: Requieres de tener una taxonomía —generalmente proporcionada por el periodista/editor—
¿Para qué?
+ Para que puedas clasificar automáticamente un contenido a un tema(s) + Organización de contenido+ ¿Cuánto contenido hay generado de? Pocos de medio ambiente, muchos de
política+ Recomendación de contenidos —otras investigaciones que se parecen a la tuya—
Grafos
+ Representación de información+ Nodos: Personas, empresas, notas, ...+ Relaciones: Hijo de, proveedor, ..+ Atributos: Fechas, montos, ...
+ Permiten analizar los datos de una manera diferente aplicando ‘Teoría de Grafos’+ 6 grados de separación+ Diámetro de la red+ Comunidades+ Número de triángulos+ ...
Ejemplo
+ Game of Thrones+ 107 personajes+ 3er libro ‘A Storm of
Swords’+ https://anthonybonato.co
m/2016/04/13/the-mathematics-of-game-of-thrones/
Casos de uso
+ Identificación de relaciones anómalas: fraudes, corrupción+ Falta de relación entre nodos que deberían tener relación: recomendaciones+ Identificación de comunidades (y propiedades): Nodos que son hubs
—prestanombres—, nodos de separación entre empresas/personas+ Identificación de caminos más cortos: Cómo llego de esta persona a esta otra… a
quién tengo que contactar.+ Comportamiento en el tiempo: Asignaciones atípicas —licitaciones que siempre
son ganadas por la misma empresa—
→ Compranet es un muy buen ejemplo! ╭(◔ ◡ ◔)/
CompraNet
+ Bajar datos de https://compranet.funcionpublica.gob.mx/web/login.html (2010-2017, 2002-2011)
+ Generar archivo csv con los datos de vendedor, comprador, precio (origen, destino, atributo)
+ Cargar datos a bases de datos de grafos: Neo4j, Gephi+ Analizar los datos ‘consultando’ la base de datos de grafos: identificación de
relaciones ‘raras’ (Neo4j)+ Analizar los datos con teoría de grafos (Gephi) cuántas comunidades existen, se
comportan como mundo pequeño?, diámetro del grafo,
CompraNet
+ Año: 2004+ Nodos: 1,427+ Enlaces: 53,323+ Tamaño: Monto+ Color: Comunidad+ Grafo: bipartita - proveedores,
licitadores
Herramienta: Gephi
¿Cómo automatizar la creación del grafo?
+ Named Entity Recognition (NER)+ Personas+ Empresas+ Lugares+ Fechas+ Relaciones
+ ¿Cómo?+ Gramática específica: + Estadística+ Machine learning :) (no supervisado, supervisado)
Siempre de la mano de un editor|periodista|lingüista|experto en el problema
Stanford NER: http://nlp.stanford.edu/software/CRF-NER.shtml
Wrap it all - Panama papers
+ Obtener los documentos (¿en Español?)+ Identificación automática de temas con LDA + Generar un NER —¿ocupar uno ya hecho?—
identificar:+ Personas+ Empresas+ Relaciones+ Fechas+ Montos
+ Generar un archivo con los nodos y las aristas+ Cargar el archivo a Neo4j+ Cargar el archivo a Gephi - cuántas comunidades?
Grados de separación entre empresas/personas
PERO!
+ Todos estos análisis son específicos al idioma!!! + No ocupes herramientas que estén hechas para el idioma inglés! Requieres de uno
en español —hay varios :)—+ Nunca dejes de lado al experto en cada punto, la sinergia de un equipo
multidisciplinario te traerá muchos beneficios:+ Periodista|Editor+ Experto en el tema+ Científico de datos