Transformer 4 millions d'articles de presse en un système d'information

11

Transformer 4 millions d’articles en un système d’information FREDERIC KAPLAN DIGITAL HUMANITIES LABORATORY

!!En partenariat avec

Le Temps La Bibliothèque nationale suisse

2

4 millions d’articles 200 ans d’information !Le Journal de Genève (1826 > 1998) 550 000 pages / 2 000 000 articles La Gazette de Lausanne (1798 > ) 450 000 pages / 1 700 000 articles Le Nouveau Quotidien (1991 > 1998) 50 000 pages / 200 000 article

3

Que peut-on apprendre d’un tel corpus ?

9

Nous souhaitons transformer ce corpus de texte en un système d’information.

10

Un projet qui s’étale sur presque dix ans.

11

2005 : Etude sur la numérisation par la Bibliothèque nationale suisse

12

2006 : Projet pilote de numérisation du « Journal de Genève » accepté par la BN en collaboration avec la Bibliothèque de Genève et Le Temps.

13

2008 : Mise en ligne annoncée au Salon du Livre de Genève.

14

2008-2009 : Numérisation de la “Gazette de Lausanne” et “Nouveau Quotidien”

15

Mise en ligne d’un moteur de recherche permet la recherche “plein texte” dans l’ensemble du corpus.

16

2009 : Numérisation de l’Express et de l’ Impartial, en collaboration avec la BN, la bibliothèque cantonale de Neuchâtel et la bibliothèque de la ville de la Chaux de Fonds.

17

2009 : Puis, numérisation du « Confédéré" (Martigny) et du « Nouvelliste" et "Feuille d’avis du Valais », en collaboration avec la "Médiathèque Valais ».

18

2011 : L’EPFL participe à la redaction d’un projet de recherche nationale sur les “Humanités digitales”. Le corpus des trois journaux numérisés est identifiés comme un des plus intéressant à exploiter.

19

2011 : Numérisation par la BCU et Edipresse de la « Feuille d’avis de Lausanne/24heures » et « La Tribune de Lausanne/Le Matin »

20

2012 : Avant même, la création du laboratoire d’humanités digitales, rencontre avec le Temps pour la mise en place d’un projet de recherche collaboratif sur ce corpus.

21

2012 : Signature d’un convention de recherche entre l’EPFL et le Temps.

22

2013 : Mise en place d’un comité scientifique regroupant historiens et journalistes.

23

Alain Clavien, Université de Fribourg Marie-Christine Doffey, BN Frédéric Koller, Le Temps Joëlle Kuntz, Le Temps Enrico Natale, infoclio.ch François Vallotton, Université de Lausanne

24

2014 : Soutien financier la Bibliothèque Nationale au Projet.

25

2014 : Lancement d’une nouvelle indexation du corpus en utilisant une approche “Big data”.

26

2014 : Mise en ligne d’un “n-gram viewer” pour le corpus du “Journal de Genève”.

27

2014 : Extension sur les autres corpus et analyses comparatives

28

2015 : Indexation sémantique du corpus. Mise en ligne d’un “Facebook” du passé à partir des données extraites.

29

Avec ce corpus en extension, la Suisse a un outil stratégique précieux, unique en Europe.

30

1 million de pages

31

Comment se représenter un tel corpus de documents ?

32

Mis bout à bout : Plusieurs centaines de kms de documents

33

1 milliard de mots !

34

Un “mégatexte”

35

L’archive complète occupe 21 Terabytes. !

36

1 kilo

1 page de texte

37

1 mega

500 pages 1 photo

38

1 giga

1 heure de video

39

1 tera

Toute les conversation d’une vie en mp3

500 h video

Texte d’un million de livres

Notre archive

40

1 peta

Archives du Net en 2012

Données produites chaque année par le LHC au CERN

41

Un journal est un média structuré. Sa structure évolue au cours du temps

42

Comment évolue le nombre d’article par an sur 200 ans ?

43

Le nombre d’ar?cles par année croit linéairement en fonc?on du temps.

!"!!!!!!

!5'000!!!!

!10'000!!!!

!15'000!!!!

!20'000!!!!

!25'000!!!!

!30'000!!!!

!35'000!!!!

!40'000!!!!

!45'000!!!!

!50'000!!!!

1800! 1820! 1840! 1860! 1880! 1900! 1920! 1940! 1960! 1980! 2000! 2020!

44

Le nombre de caractères par année se stabilise à la fin du XIXe siècle puis recommence à croitre dans les années 1960.

!"!!!!!!

!20000'000!!!!

!40000'000!!!!

!60000'000!!!!

!80000'000!!!!

!100000'000!!!!

!120000'000!!!!

1800! 1820! 1840! 1860! 1880! 1900! 1920! 1940! 1960! 1980! 2000! 2020!

45La taille des ar?cles oscille.

0"

100"

200"

300"

400"

500"

600"

700"

1800" 1820" 1840" 1860" 1880" 1900" 1920" 1940" 1960" 1980" 2000" 2020"

46

Analyse des distributions temporelles de séquences de mots (n-grammes)

47

48

49

n-‐gramme : sequence de n mots consécu?fs.

50

Nous sommes en train d’indexer l’ensemble du corpus jusqu’à n=9.

51

Nous avons en par?culier déjà générer un milliard de courbes correspondant au 1-‐gramme du journal de Genève.

52

53

54

Fonda?on du club en 1890

55

Un corpus comme le notre est différent de celui Google Books dans la mesure où il caractérise un média spécifique avec ses caractéris?ques par?culières.

56

En étudiant ce corpus nous pouvons non seulement étudier l’évolu?on culturelle mais aussi l’évolu?on du média lui-‐même.

57

En comparant systéma?quement comment deux medias rendent compte des évènements du monde nous pourrons tenter de caractériser finement leur biais.

58

“Champ attentionnel” d’un média

59

Attention temporelle

60

61

différents régimes de stabilisa?on

62

63

64

65

Attention spatiale

66

67

Point de bascule

68

Equivalence a`en?onnelle

69

70

71

72

Un prototype est en ligne h`p://jdg.dhlab.ch/

http://jdg.dhlab.ch/

73

Ex : Trouver un mot qui génère un pic.

74

pic a`en?onnel

75

76

pic de découverte

stabilisa?on

77

pic des piccard

78

Ex : Trouver un mot qui génère un peigne.

79

80

Ex : Trouver un mot qui croit dans le temps.

81

82

83

84

85

86

87

Ex : Trouver un mot qui décroit dans le temps.

88

89

90

91

Ex : Trouver un mot qui fait une colline

92

93

Ex : Trouver un mot qui fait deux collines

94

95

Ex : Trouver deux courbes qui se rejoignent en une seule.

96

97

98

99

100

Ex : Trouver un mot qui remplace un autre.

101

102

Ex : Quelle est la courbe du mot voiture ?

103

104

Ex : Les Beatles sont-ils plus célèbres que le Christ ?

105

106

Ex : Qui l’emporte le bien ou le mal ?

107

108

Ex : Qui l’emporte le haut ou le bas ?

109

110

Ex : Qui l’emporte le chien ou le chat ?

111

112

Ex : Qui l’emporte la musique, la peinture ou la littérature ?

113

114

Ex : Qui l’emporte Mozart, Debussy ou Vivaldi ?

115

116

Ex : Qui l’emporte le rouge, le bleu ou le jaune ?

117

118

Ex : Qui l’emporte le 1, le 10 ou le 100 ?

119

120

Ex : Qui l’emporte le 100, le 1000 ou le 10000 ?

121

122

Ex : Est-ce que cela marche si les nombres sont écrits en lettres ?

123

124

Ex : Qui l’emporte entre le million ou le milliard ?

125

126

Richesse et l’importance stratégique de ce corpus de presse.

127

Potentiel de l’analyse comparative avec les autres corpus numérisés.

128

La prochaine étape est l’indexation sémantique

129

130

131

132

Une nouvelle manière de classifier et de naviguer au sein des ar?cles.

133

La possibilité de construire un “Facebook” du passé.

134

Rendez-‐vous dans un an.

135125

dhlab.epfl.ch [email protected] @frederickaplan

Data & Analytics

Transformer 4 millions d'articles de presse en un système d'information