135
1 1 Transformer 4 millions d’articles en un système d’information FREDERIC KAPLAN DIGITAL HUMANITIES LABORATORY En partenariat avec Le Temps La Bibliothèque nationale suisse

Transformer 4 millions d'articles de presse en un système d'information

Embed Size (px)

Citation preview

Page 1: Transformer 4 millions d'articles de presse en un système d'information

11

Transformer 4 millions d’articles en un système d’information FREDERIC  KAPLAN  DIGITAL  HUMANITIES  LABORATORY

!!En partenariat avec

Le Temps La Bibliothèque nationale suisse

Page 2: Transformer 4 millions d'articles de presse en un système d'information

2

4 millions d’articles 200 ans d’information !Le Journal de Genève (1826 > 1998) 550 000 pages / 2 000 000 articles La Gazette de Lausanne (1798 > ) 450 000 pages / 1 700 000 articles Le Nouveau Quotidien (1991 > 1998) 50 000 pages / 200 000 article

Page 3: Transformer 4 millions d'articles de presse en un système d'information

3

Que peut-on apprendre d’un tel corpus ?

Page 4: Transformer 4 millions d'articles de presse en un système d'information
Page 5: Transformer 4 millions d'articles de presse en un système d'information
Page 6: Transformer 4 millions d'articles de presse en un système d'information
Page 7: Transformer 4 millions d'articles de presse en un système d'information
Page 8: Transformer 4 millions d'articles de presse en un système d'information
Page 9: Transformer 4 millions d'articles de presse en un système d'information

9

Nous souhaitons transformer ce corpus de texte en un système d’information.

Page 10: Transformer 4 millions d'articles de presse en un système d'information

10

Un projet qui s’étale sur presque dix ans.

Page 11: Transformer 4 millions d'articles de presse en un système d'information

11

2005 : Etude sur la numérisation par la Bibliothèque nationale suisse

Page 12: Transformer 4 millions d'articles de presse en un système d'information

12

2006 : Projet pilote de numérisation du « Journal de Genève » accepté par la BN en collaboration avec la Bibliothèque de Genève et Le Temps.

Page 13: Transformer 4 millions d'articles de presse en un système d'information

13

2008 : Mise en ligne annoncée au Salon du Livre de Genève.

Page 14: Transformer 4 millions d'articles de presse en un système d'information

14

2008-2009 : Numérisation de la “Gazette de Lausanne” et “Nouveau Quotidien”

Page 15: Transformer 4 millions d'articles de presse en un système d'information

15

Mise en ligne d’un moteur de recherche permet la recherche “plein texte” dans l’ensemble du corpus.

Page 16: Transformer 4 millions d'articles de presse en un système d'information

16

2009 : Numérisation de l’Express et de l’ Impartial, en collaboration avec la BN, la bibliothèque cantonale de Neuchâtel et la bibliothèque de la ville  de la Chaux de Fonds.

Page 17: Transformer 4 millions d'articles de presse en un système d'information

17

2009 : Puis, numérisation du « Confédéré" (Martigny) et du « Nouvelliste" et "Feuille d’avis du Valais », en collaboration avec la "Médiathèque Valais ».

Page 18: Transformer 4 millions d'articles de presse en un système d'information

18

2011 : L’EPFL participe à la redaction d’un projet de recherche nationale sur les “Humanités digitales”. Le corpus des trois journaux numérisés est identifiés comme un des plus intéressant à exploiter.

Page 19: Transformer 4 millions d'articles de presse en un système d'information

19

2011 : Numérisation par la BCU et Edipresse de la « Feuille d’avis de Lausanne/24heures » et « La Tribune de Lausanne/Le Matin »

Page 20: Transformer 4 millions d'articles de presse en un système d'information

20

2012 : Avant même, la création du laboratoire d’humanités digitales, rencontre avec le Temps pour la mise en place d’un projet de recherche collaboratif sur ce corpus.

Page 21: Transformer 4 millions d'articles de presse en un système d'information

21

2012 : Signature d’un convention de recherche entre l’EPFL et le Temps.

Page 22: Transformer 4 millions d'articles de presse en un système d'information

22

2013 : Mise en place d’un comité scientifique regroupant historiens et journalistes.

Page 23: Transformer 4 millions d'articles de presse en un système d'information

23

Alain Clavien, Université de Fribourg Marie-Christine Doffey, BN Frédéric Koller, Le Temps Joëlle Kuntz, Le Temps Enrico Natale, infoclio.ch François Vallotton, Université de Lausanne

Page 24: Transformer 4 millions d'articles de presse en un système d'information

24

2014 : Soutien financier la Bibliothèque Nationale au Projet.

Page 25: Transformer 4 millions d'articles de presse en un système d'information

25

2014 : Lancement d’une nouvelle indexation du corpus en utilisant une approche “Big data”.

Page 26: Transformer 4 millions d'articles de presse en un système d'information

26

2014 : Mise en ligne d’un “n-gram viewer” pour le corpus du “Journal de Genève”.

Page 27: Transformer 4 millions d'articles de presse en un système d'information

27

2014 : Extension sur les autres corpus et analyses comparatives

Page 28: Transformer 4 millions d'articles de presse en un système d'information

28

2015 : Indexation sémantique du corpus. Mise en ligne d’un “Facebook” du passé à partir des données extraites.

Page 29: Transformer 4 millions d'articles de presse en un système d'information

29

Avec ce corpus en extension, la Suisse a un outil stratégique précieux, unique en Europe.

Page 30: Transformer 4 millions d'articles de presse en un système d'information

30

1 million de pages

Page 31: Transformer 4 millions d'articles de presse en un système d'information

31

Comment se représenter un tel corpus de documents ?

Page 32: Transformer 4 millions d'articles de presse en un système d'information

32

Mis bout à bout : Plusieurs centaines de kms de documents

Page 33: Transformer 4 millions d'articles de presse en un système d'information

33

1 milliard de mots !

Page 34: Transformer 4 millions d'articles de presse en un système d'information

34

Un “mégatexte”

Page 35: Transformer 4 millions d'articles de presse en un système d'information

35

L’archive complète occupe 21 Terabytes. !

Page 36: Transformer 4 millions d'articles de presse en un système d'information

36

1 kilo

1 page de texte

Page 37: Transformer 4 millions d'articles de presse en un système d'information

37

1 mega

500 pages 1 photo

Page 38: Transformer 4 millions d'articles de presse en un système d'information

38

1 giga

1 heure de video

Page 39: Transformer 4 millions d'articles de presse en un système d'information

39

1 tera

Toute les conversation d’une vie en mp3

500 h video

Texte d’un million de livres

Notre archive

Page 40: Transformer 4 millions d'articles de presse en un système d'information

40

1 peta

Archives du Net en 2012

Données produites chaque année par le LHC au CERN

Page 41: Transformer 4 millions d'articles de presse en un système d'information

41

Un journal est un média structuré. Sa structure évolue au cours du temps

Page 42: Transformer 4 millions d'articles de presse en un système d'information

42

Comment évolue le nombre d’article par an sur 200 ans ?

Page 43: Transformer 4 millions d'articles de presse en un système d'information

43

Le  nombre  d’ar?cles  par  année  croit  linéairement  en  fonc?on  du  temps.  

!"!!!!!!

!5'000!!!!

!10'000!!!!

!15'000!!!!

!20'000!!!!

!25'000!!!!

!30'000!!!!

!35'000!!!!

!40'000!!!!

!45'000!!!!

!50'000!!!!

1800! 1820! 1840! 1860! 1880! 1900! 1920! 1940! 1960! 1980! 2000! 2020!

Page 44: Transformer 4 millions d'articles de presse en un système d'information

44

Le  nombre  de  caractères  par  année  se  stabilise  à  la  fin  du  XIXe  siècle  puis  recommence  à  croitre  dans  les  années  1960.

!"!!!!!!

!20000'000!!!!

!40000'000!!!!

!60000'000!!!!

!80000'000!!!!

!100000'000!!!!

!120000'000!!!!

1800! 1820! 1840! 1860! 1880! 1900! 1920! 1940! 1960! 1980! 2000! 2020!

Page 45: Transformer 4 millions d'articles de presse en un système d'information

45La  taille  des  ar?cles  oscille.

0"

100"

200"

300"

400"

500"

600"

700"

1800" 1820" 1840" 1860" 1880" 1900" 1920" 1940" 1960" 1980" 2000" 2020"

Page 46: Transformer 4 millions d'articles de presse en un système d'information

46

Analyse des distributions temporelles de séquences de mots (n-grammes)

Page 47: Transformer 4 millions d'articles de presse en un système d'information

47

Page 48: Transformer 4 millions d'articles de presse en un système d'information

48

Page 49: Transformer 4 millions d'articles de presse en un système d'information

49

n-­‐gramme  :    sequence  de  n  mots  consécu?fs.

Page 50: Transformer 4 millions d'articles de presse en un système d'information

50

Nous  sommes  en  train  d’indexer  l’ensemble  du  corpus  jusqu’à    n=9.  

Page 51: Transformer 4 millions d'articles de presse en un système d'information

51

Nous  avons  en  par?culier  déjà  générer  un  milliard  de  courbes  correspondant  au  1-­‐gramme  du  journal  de  Genève.  

Page 52: Transformer 4 millions d'articles de presse en un système d'information

52

Page 53: Transformer 4 millions d'articles de presse en un système d'information

53

Page 54: Transformer 4 millions d'articles de presse en un système d'information

54

Fonda?on  du  club  en  1890

Page 55: Transformer 4 millions d'articles de presse en un système d'information

55

Un  corpus  comme  le  notre  est  différent  de  celui  Google  Books  dans  la  mesure  où  il  caractérise  un  média  spécifique  avec  ses  caractéris?ques  par?culières.  

Page 56: Transformer 4 millions d'articles de presse en un système d'information

56

En  étudiant  ce  corpus  nous  pouvons  non  seulement  étudier  l’évolu?on  culturelle  mais  aussi  l’évolu?on  du  média  lui-­‐même.  

Page 57: Transformer 4 millions d'articles de presse en un système d'information

57

En  comparant  systéma?quement  comment  deux  medias  rendent  compte  des  évènements  du  monde  nous  pourrons  tenter  de  caractériser  finement  leur  biais.    

Page 58: Transformer 4 millions d'articles de presse en un système d'information

58

“Champ attentionnel” d’un média

Page 59: Transformer 4 millions d'articles de presse en un système d'information

59

Attention temporelle

Page 60: Transformer 4 millions d'articles de presse en un système d'information

60

Page 61: Transformer 4 millions d'articles de presse en un système d'information

61

différents  régimes  de  stabilisa?on

Page 62: Transformer 4 millions d'articles de presse en un système d'information

62

Page 63: Transformer 4 millions d'articles de presse en un système d'information

63

Page 64: Transformer 4 millions d'articles de presse en un système d'information

64

Page 65: Transformer 4 millions d'articles de presse en un système d'information

65

Attention spatiale

Page 66: Transformer 4 millions d'articles de presse en un système d'information

66

Page 67: Transformer 4 millions d'articles de presse en un système d'information

67

Point  de  bascule

Page 68: Transformer 4 millions d'articles de presse en un système d'information

68

Equivalence  a`en?onnelle

Page 69: Transformer 4 millions d'articles de presse en un système d'information

69

Page 70: Transformer 4 millions d'articles de presse en un système d'information

70

Page 71: Transformer 4 millions d'articles de presse en un système d'information

71

Page 72: Transformer 4 millions d'articles de presse en un système d'information

72

Un  prototype  est  en  ligne  h`p://jdg.dhlab.ch/  

Page 73: Transformer 4 millions d'articles de presse en un système d'information

73

Ex : Trouver un mot qui génère un pic.

Page 74: Transformer 4 millions d'articles de presse en un système d'information

74

pic  a`en?onnel

Page 75: Transformer 4 millions d'articles de presse en un système d'information

75

Page 76: Transformer 4 millions d'articles de presse en un système d'information

76

pic  de  découverte

stabilisa?on

Page 77: Transformer 4 millions d'articles de presse en un système d'information

77

pic  des  piccard

Page 78: Transformer 4 millions d'articles de presse en un système d'information

78

Ex : Trouver un mot qui génère un peigne.

Page 79: Transformer 4 millions d'articles de presse en un système d'information

79

Page 80: Transformer 4 millions d'articles de presse en un système d'information

80

Ex : Trouver un mot qui croit dans le temps.

Page 81: Transformer 4 millions d'articles de presse en un système d'information

81

Page 82: Transformer 4 millions d'articles de presse en un système d'information

82

Page 83: Transformer 4 millions d'articles de presse en un système d'information

83

Page 84: Transformer 4 millions d'articles de presse en un système d'information

84

Page 85: Transformer 4 millions d'articles de presse en un système d'information

85

Page 86: Transformer 4 millions d'articles de presse en un système d'information

86

Page 87: Transformer 4 millions d'articles de presse en un système d'information

87

Ex : Trouver un mot qui décroit dans le temps.

Page 88: Transformer 4 millions d'articles de presse en un système d'information

88

Page 89: Transformer 4 millions d'articles de presse en un système d'information

89

Page 90: Transformer 4 millions d'articles de presse en un système d'information

90

Page 91: Transformer 4 millions d'articles de presse en un système d'information

91

Ex : Trouver un mot qui fait une colline

Page 92: Transformer 4 millions d'articles de presse en un système d'information

92

Page 93: Transformer 4 millions d'articles de presse en un système d'information

93

Ex : Trouver un mot qui fait deux collines

Page 94: Transformer 4 millions d'articles de presse en un système d'information

94

Page 95: Transformer 4 millions d'articles de presse en un système d'information

95

Ex : Trouver deux courbes qui se rejoignent en une seule.

Page 96: Transformer 4 millions d'articles de presse en un système d'information

96

Page 97: Transformer 4 millions d'articles de presse en un système d'information

97

Page 98: Transformer 4 millions d'articles de presse en un système d'information

98

Page 99: Transformer 4 millions d'articles de presse en un système d'information

99

Page 100: Transformer 4 millions d'articles de presse en un système d'information

100

Ex : Trouver un mot qui remplace un autre.

Page 101: Transformer 4 millions d'articles de presse en un système d'information

101

Page 102: Transformer 4 millions d'articles de presse en un système d'information

102

Ex : Quelle est la courbe du mot voiture ?

Page 103: Transformer 4 millions d'articles de presse en un système d'information

103

Page 104: Transformer 4 millions d'articles de presse en un système d'information

104

Ex : Les Beatles sont-ils plus célèbres que le Christ ?

Page 105: Transformer 4 millions d'articles de presse en un système d'information

105

Page 106: Transformer 4 millions d'articles de presse en un système d'information

106

Ex : Qui l’emporte le bien ou le mal ?

Page 107: Transformer 4 millions d'articles de presse en un système d'information

107

Page 108: Transformer 4 millions d'articles de presse en un système d'information

108

Ex : Qui l’emporte le haut ou le bas ?

Page 109: Transformer 4 millions d'articles de presse en un système d'information

109

Page 110: Transformer 4 millions d'articles de presse en un système d'information

110

Ex : Qui l’emporte le chien ou le chat ?

Page 111: Transformer 4 millions d'articles de presse en un système d'information

111

Page 112: Transformer 4 millions d'articles de presse en un système d'information

112

Ex : Qui l’emporte la musique, la peinture ou la littérature ?

Page 113: Transformer 4 millions d'articles de presse en un système d'information

113

Page 114: Transformer 4 millions d'articles de presse en un système d'information

114

Ex : Qui l’emporte Mozart, Debussy ou Vivaldi ?

Page 115: Transformer 4 millions d'articles de presse en un système d'information

115

Page 116: Transformer 4 millions d'articles de presse en un système d'information

116

Ex : Qui l’emporte le rouge, le bleu ou le jaune ?

Page 117: Transformer 4 millions d'articles de presse en un système d'information

117

Page 118: Transformer 4 millions d'articles de presse en un système d'information

118

Ex : Qui l’emporte le 1, le 10 ou le 100 ?

Page 119: Transformer 4 millions d'articles de presse en un système d'information

119

Page 120: Transformer 4 millions d'articles de presse en un système d'information

120

Ex : Qui l’emporte le 100, le 1000 ou le 10000 ?

Page 121: Transformer 4 millions d'articles de presse en un système d'information

121

Page 122: Transformer 4 millions d'articles de presse en un système d'information

122

Ex : Est-ce que cela marche si les nombres sont écrits en lettres ?

Page 123: Transformer 4 millions d'articles de presse en un système d'information

123

Page 124: Transformer 4 millions d'articles de presse en un système d'information

124

Ex : Qui l’emporte entre le million ou le milliard ?

Page 125: Transformer 4 millions d'articles de presse en un système d'information

125

Page 126: Transformer 4 millions d'articles de presse en un système d'information

126

Richesse et l’importance stratégique de ce corpus de presse.

Page 127: Transformer 4 millions d'articles de presse en un système d'information

127

Potentiel de l’analyse comparative avec les autres corpus numérisés.

Page 128: Transformer 4 millions d'articles de presse en un système d'information

128

La prochaine étape est l’indexation sémantique

Page 129: Transformer 4 millions d'articles de presse en un système d'information

129

Page 130: Transformer 4 millions d'articles de presse en un système d'information

130

Page 131: Transformer 4 millions d'articles de presse en un système d'information

131

Page 132: Transformer 4 millions d'articles de presse en un système d'information

132

Une  nouvelle  manière  de  classifier  et  de  naviguer  au  sein  des  ar?cles.

Page 133: Transformer 4 millions d'articles de presse en un système d'information

133

La  possibilité  de  construire  un  “Facebook”  du  passé.

Page 134: Transformer 4 millions d'articles de presse en un système d'information

134

Rendez-­‐vous  dans  un  an.

Page 135: Transformer 4 millions d'articles de presse en un système d'information

135125

dhlab.epfl.ch [email protected]  @frederickaplan