Upload
frederic-kaplan
View
1.451
Download
0
Embed Size (px)
Citation preview
11
Transformer 4 millions d’articles en un système d’information FREDERIC KAPLAN DIGITAL HUMANITIES LABORATORY
!!En partenariat avec
Le Temps La Bibliothèque nationale suisse
2
4 millions d’articles 200 ans d’information !Le Journal de Genève (1826 > 1998) 550 000 pages / 2 000 000 articles La Gazette de Lausanne (1798 > ) 450 000 pages / 1 700 000 articles Le Nouveau Quotidien (1991 > 1998) 50 000 pages / 200 000 article
3
Que peut-on apprendre d’un tel corpus ?
9
Nous souhaitons transformer ce corpus de texte en un système d’information.
10
Un projet qui s’étale sur presque dix ans.
11
2005 : Etude sur la numérisation par la Bibliothèque nationale suisse
12
2006 : Projet pilote de numérisation du « Journal de Genève » accepté par la BN en collaboration avec la Bibliothèque de Genève et Le Temps.
13
2008 : Mise en ligne annoncée au Salon du Livre de Genève.
14
2008-2009 : Numérisation de la “Gazette de Lausanne” et “Nouveau Quotidien”
15
Mise en ligne d’un moteur de recherche permet la recherche “plein texte” dans l’ensemble du corpus.
16
2009 : Numérisation de l’Express et de l’ Impartial, en collaboration avec la BN, la bibliothèque cantonale de Neuchâtel et la bibliothèque de la ville de la Chaux de Fonds.
17
2009 : Puis, numérisation du « Confédéré" (Martigny) et du « Nouvelliste" et "Feuille d’avis du Valais », en collaboration avec la "Médiathèque Valais ».
18
2011 : L’EPFL participe à la redaction d’un projet de recherche nationale sur les “Humanités digitales”. Le corpus des trois journaux numérisés est identifiés comme un des plus intéressant à exploiter.
19
2011 : Numérisation par la BCU et Edipresse de la « Feuille d’avis de Lausanne/24heures » et « La Tribune de Lausanne/Le Matin »
20
2012 : Avant même, la création du laboratoire d’humanités digitales, rencontre avec le Temps pour la mise en place d’un projet de recherche collaboratif sur ce corpus.
21
2012 : Signature d’un convention de recherche entre l’EPFL et le Temps.
22
2013 : Mise en place d’un comité scientifique regroupant historiens et journalistes.
23
Alain Clavien, Université de Fribourg Marie-Christine Doffey, BN Frédéric Koller, Le Temps Joëlle Kuntz, Le Temps Enrico Natale, infoclio.ch François Vallotton, Université de Lausanne
24
2014 : Soutien financier la Bibliothèque Nationale au Projet.
25
2014 : Lancement d’une nouvelle indexation du corpus en utilisant une approche “Big data”.
26
2014 : Mise en ligne d’un “n-gram viewer” pour le corpus du “Journal de Genève”.
27
2014 : Extension sur les autres corpus et analyses comparatives
28
2015 : Indexation sémantique du corpus. Mise en ligne d’un “Facebook” du passé à partir des données extraites.
29
Avec ce corpus en extension, la Suisse a un outil stratégique précieux, unique en Europe.
30
1 million de pages
31
Comment se représenter un tel corpus de documents ?
32
Mis bout à bout : Plusieurs centaines de kms de documents
33
1 milliard de mots !
34
Un “mégatexte”
35
L’archive complète occupe 21 Terabytes. !
36
1 kilo
1 page de texte
37
1 mega
500 pages 1 photo
38
1 giga
1 heure de video
39
1 tera
Toute les conversation d’une vie en mp3
500 h video
Texte d’un million de livres
Notre archive
40
1 peta
Archives du Net en 2012
Données produites chaque année par le LHC au CERN
41
Un journal est un média structuré. Sa structure évolue au cours du temps
42
Comment évolue le nombre d’article par an sur 200 ans ?
43
Le nombre d’ar?cles par année croit linéairement en fonc?on du temps.
!"!!!!!!
!5'000!!!!
!10'000!!!!
!15'000!!!!
!20'000!!!!
!25'000!!!!
!30'000!!!!
!35'000!!!!
!40'000!!!!
!45'000!!!!
!50'000!!!!
1800! 1820! 1840! 1860! 1880! 1900! 1920! 1940! 1960! 1980! 2000! 2020!
44
Le nombre de caractères par année se stabilise à la fin du XIXe siècle puis recommence à croitre dans les années 1960.
!"!!!!!!
!20000'000!!!!
!40000'000!!!!
!60000'000!!!!
!80000'000!!!!
!100000'000!!!!
!120000'000!!!!
1800! 1820! 1840! 1860! 1880! 1900! 1920! 1940! 1960! 1980! 2000! 2020!
45La taille des ar?cles oscille.
0"
100"
200"
300"
400"
500"
600"
700"
1800" 1820" 1840" 1860" 1880" 1900" 1920" 1940" 1960" 1980" 2000" 2020"
46
Analyse des distributions temporelles de séquences de mots (n-grammes)
47
48
49
n-‐gramme : sequence de n mots consécu?fs.
50
Nous sommes en train d’indexer l’ensemble du corpus jusqu’à n=9.
51
Nous avons en par?culier déjà générer un milliard de courbes correspondant au 1-‐gramme du journal de Genève.
52
53
54
Fonda?on du club en 1890
55
Un corpus comme le notre est différent de celui Google Books dans la mesure où il caractérise un média spécifique avec ses caractéris?ques par?culières.
56
En étudiant ce corpus nous pouvons non seulement étudier l’évolu?on culturelle mais aussi l’évolu?on du média lui-‐même.
57
En comparant systéma?quement comment deux medias rendent compte des évènements du monde nous pourrons tenter de caractériser finement leur biais.
58
“Champ attentionnel” d’un média
59
Attention temporelle
60
61
différents régimes de stabilisa?on
62
63
64
65
Attention spatiale
66
67
Point de bascule
68
Equivalence a`en?onnelle
69
70
71
73
Ex : Trouver un mot qui génère un pic.
74
pic a`en?onnel
75
76
pic de découverte
stabilisa?on
77
pic des piccard
78
Ex : Trouver un mot qui génère un peigne.
79
80
Ex : Trouver un mot qui croit dans le temps.
81
82
83
84
85
86
87
Ex : Trouver un mot qui décroit dans le temps.
88
89
90
91
Ex : Trouver un mot qui fait une colline
92
93
Ex : Trouver un mot qui fait deux collines
94
95
Ex : Trouver deux courbes qui se rejoignent en une seule.
96
97
98
99
100
Ex : Trouver un mot qui remplace un autre.
101
102
Ex : Quelle est la courbe du mot voiture ?
103
104
Ex : Les Beatles sont-ils plus célèbres que le Christ ?
105
106
Ex : Qui l’emporte le bien ou le mal ?
107
108
Ex : Qui l’emporte le haut ou le bas ?
109
110
Ex : Qui l’emporte le chien ou le chat ?
111
112
Ex : Qui l’emporte la musique, la peinture ou la littérature ?
113
114
Ex : Qui l’emporte Mozart, Debussy ou Vivaldi ?
115
116
Ex : Qui l’emporte le rouge, le bleu ou le jaune ?
117
118
Ex : Qui l’emporte le 1, le 10 ou le 100 ?
119
120
Ex : Qui l’emporte le 100, le 1000 ou le 10000 ?
121
122
Ex : Est-ce que cela marche si les nombres sont écrits en lettres ?
123
124
Ex : Qui l’emporte entre le million ou le milliard ?
125
126
Richesse et l’importance stratégique de ce corpus de presse.
127
Potentiel de l’analyse comparative avec les autres corpus numérisés.
128
La prochaine étape est l’indexation sémantique
129
130
131
132
Une nouvelle manière de classifier et de naviguer au sein des ar?cles.
133
La possibilité de construire un “Facebook” du passé.
134
Rendez-‐vous dans un an.
135125
dhlab.epfl.ch [email protected] @frederickaplan