56
FlashInformatique.epfl.ch p/a EPFL - Domaine IT - Station 8 - CH 1015 Lausanne - tél. +41 21 69 322 11 Data Digital Diffusion Document Données DRM 21.08.2012 été 2012

Flash informatique 2012 - no spécial été - D

  • Upload
    epfl

  • View
    227

  • Download
    3

Embed Size (px)

DESCRIPTION

journal informatique de l'Ecole Polytechnique Fédérale de Lausanne du 21 août 2012

Citation preview

Page 1: Flash informatique 2012 - no spécial été - D

FlashInformatique.epfl.ch

p/a EPFL - Domaine IT - Station 8 - CH 1015 Lausanne - tél. +41 21 69 322 11

DataDigitalDiffusionDocumentDonnéesDRM

21.08.2012été

2012

Page 2: Flash informatique 2012 - no spécial été - D

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique222

On the importance of visual display tools in the new data world.

De l’importance des outils de visualisation dans le nouveau monde des données.

Sur le point de prendre un fusain ou un crayon pour dessiner une couverture de ce numéro spécial D (Documents, Données,…), pourquoi ne pas en choisir un bon échantillon, en faire un graphe et le proposer à la maquettiste pour une adap-tation?… Gephi, (www.gephi.org), qui mériterait un bel article dans la rubrique Logiciel Libre m’a permis de réaliser rapidement la chose en prenant des données en provenance du réseau. Les routeurs d’une certaine importance délivrent les traces de tous les flux qui les traversent à des fins de facturation ou de sécurité.

Netflow est un format bien répandu de ces flux qui donnent, entre autres, adresse source, adresse destination, port source, port destination ainsi que le nombre de bytes ache-minés. En prenant un tout petit échantillon de ce qui a traversé en sortie notre routeur vers Switch la journée du 15 juin entre 10h et 12h avec les ports utilisés par le Web (80 et 443) et en agrégeant les adresses de l’EPFL par subnet on se retrouve avec assez de nœuds pour faire de belles images… Nous sommes submergés de données. Tous les automates en fournissent et nous en concevons tous les jours de nou-veaux et de plus en plus complexes pour nous simplifier la vie… Heureusement, parmi ceux-ci, il y en a qui permettent de visualiser les données, pour y voir plus clair ou pour les faire parler plus vite. Comme le dit Vit-toria Rezzonico dans la conclusion de son article sur R: «L’affichage des données est un art…»

(FI5/2012, flashinformatique.epfl.ch/spip.php ?article2552). Dans le domaine scientifique pour leur interprétation autant que dans les médias pour la qualité de la communication, la visualisation des données ou l’infographie a pris une importance exceptionnelle. Les nouveaux dispositifs de lecture qui sont devenus les supports de prédilection pour les revues scientifiques ou grand public, ne sont pas pour rien dans cette évolution. Datavisualization.ch suit de très près l’état de cet art et offre une sélection impressionnante d’outils. La conjugaison de plusieurs savoirs (informatique, design, communication) s’im-pose aujourd’hui pour réussir une visualisation correcte des données, l’haptique viendra demain se rendre indispensable pour permettre de toucher leur public.

Pour en savoir plus sur Gephi, voir l’article An Open Source Software for Explo-ring and Manipulating Networks de Mathieu Bastian, Sebastien Heymann et Mathieu Jacomy – gephi.org/publications/gephi-bastian-feb09.pdf. n

21.08.2012SP

FlashInformatique.epfl.ch

p/a EPFL - Domaine IT - Station 8 - CH 1015 Lausanne - tél. +41 21 69 322 11

SP ÉTÉ 2012

O

NN

E ÉS

EC O

D

U

NM

TS

D

83.201.39.19074.125.232.122

EPFL-135

8.20.213.100

93.88.240.99

173.194.32.77

204.160.120.126

212.170.239.12

83.140.105.62

194.149.246.24

174.35.6.3

80.77.144.35

67.228.66.123

EPFL-21

173.194.32.113

173.194.35.15

204.145.91.20

81.22.37.125

85.218.96.175

208.94.2.104

208.92.53.43

195.24.233.60

62.109.145.8074.117.185.150

EPFL-140

217.29.163.117

79.183.195.243

EPFL-104

173.194.35.20

194.150.236.159

173.194.35.42

124.193.167.187.248.125.23

81.7.230.121

50.19.104.28

50.16.231.96

199.59.149.243

85.17.80.120

EPFL-183

195.141.85.93

205.251.209.161

61.158.249.154

184.184.112.165

74.125.232.97

68.67.179.212

123.125.115.62

EHE-101

61.135.218.37

173.194.35.40

178.250.0.100

EPFL-239

188.60.88.121

171.67.113.220

130.190.36.39

216.52.208.152

2.19.76.20

69.171.229.74

195.24.233.55

217.163.21.3762.210.65.204

65.52.109.7

EPFL-232

173.194.35.59

80.239.255.120

EPFL-67

193.218.102.53216.115.111.47

67.195.186.127

217.163.21.40

93.17.88.225

EPFL-37

65.52.109.72

174.35.4.151

66.235.139.166

173.194.35.49

122.226.169.183

193.134.74.26

125.39.120.140

138.100.41.103195.176.255.143

180.76.5.53

91.191.146.206

85.218.29.30192.33.204.216

67.228.183.35

91.232.96.13

110.75.34.138

EPFL-152

99.198.125.117

12.130.81.249

64.215.255.80

74.125.232.124

184.72.11.140

EPFL-6

199.7.55.72

69.171.224.37

EPFL-55

184.154.163.58

64.215.255.16

66.249.72.146

EPFL-245

EPFL-222

198.151.217.241

62.161.94.223

EPFL-244

80.239.255.107

72.55.189.164

71.45.133.177

208.91.128.58

199.168.13.75

173.194.35.8

206.17.82.1

174.35.6.20

89.207.18.181174.35.7.3

95.172.94.28

68.67.185.247

74.125.13.25

198.151.217.248

EHE-99

217.26.52.8

212.47.171.87EPFL-62216.191.247.139

192.33.210.16

217.108.165.25

66.220.146.94

199.59.148.87

81.22.37.155

194.126.157.11

91.189.89.90

61.135.201.238

157.55.17.194

90.52.194.142

EPFL-14

83.140.105.187

208.94.1.92

EPFL-43

EPFL-154

213.5.132.15

38.100.179.210

94.23.243.218

222.128.196.101

195.176.255.81

195.12.228.164

195.141.38.31

114.80.190.99

212.239.25.139

91.198.174.225

79.125.16.23

50.17.243.165

193.46.238.92

69.171.224.55

157.56.248.9199.59.150.41

83.79.82.180

EPFL-247

173.194.32.116

62.161.94.222

174.35.4.144

174.35.7.21

178.94.46.121

137.254.16.69

EPFL-90

EPFL-110

EPFL-99

EPFL-179

66.235.138.18

EPFL-5

66.220.151.82

195.176.255.88

77.75.72.52

213.92.10.33

193.200.220.200

195.176.255.135

46.0.19.156

EPFL-65

149.20.69.23

77.238.178.122

173.194.35.56

85.218.94.112

93.91.236.98

88.190.36.183

160.92.7.69

68.232.35.119

78.40.123.10

130.223.28.155

66.220.151.78

EPFL-187

129.194.8.73

EPFL-157

75.101.163.8

83.172.200.234195.141.85.90

85.17.80.124

195.176.255.83

62.2.105.15417.171.8.16

212.47.171.72

217.154.245.50

173.194.32.127

208.71.123.72

174.35.7.26

67.225.203.125

213.205.32.19

174.35.7.7

157.166.224.246173.192.42.179

87.248.203.253

74.125.13.56

EPFL-34

212.239.41.101

212.227.192.198

2.19.79.144

86.194.220.48

EPFL-129

EPFL-36

78.111.253.47173.194.35.35

EPFL-195

EPFL-241

174.35.6.9

EPFL-94

213.180.204.90

59.98.107.139

62.28.70.52

184.72.228.198

EPFL-49

EPFL-76

194.62.234.39

74.125.232.100

61.182.131.25

EPFL-13

93.57.15.123

EPFL-240

64.95.73.13

85.125.84.13393.184.220.33 173.194.35.58

EPFL-237

212.95.67.222

23.21.183.70

EPFL-105

207.241.148.88

31.186.231.25

74.125.232.121

95.172.94.35

194.54.81.182

208.66.66.71

92.123.74.72

193.49.247.199

207.46.13.163

180.76.6.231

71.116.245.210

72.21.214.159

EPFL-160

212.95.67.200193.247.166.73

213.202.98.213

124.83.195.239

74.125.71.105

62.212.85.145

EPFL-153

EHE-100

192.167.23.210

72.250.245.121

74.125.232.104

212.147.54.162

174.35.6.24

219.142.127.20

114.108.157.112

88.198.41.164

2.19.73.133

119.188.40.81

46.228.164.14

50.57.4.218

EPFL-38

176.34.197.122

195.141.85.94

195.176.255.151

91.121.118.146

81.26.166.70

220.181.181.226

188.121.55.80

85.218.94.154

178.154.205.251

81.18.191.158

208.94.0.105

EPFL-20

68.67.185.210

82.199.80.141

203.209.224.55

46.105.9.255

74.125.232.96

EPFL-134

78.46.70.205184.73.219.64

176.34.132.201

68.67.179.135

194.7.148.38

123.125.65.93

84.16.76.181

88.255.82.102

192.33.202.32

192.33.203.124

EPFL-201

65.52.110.143

212.71.120.204

77.75.76.72

EPFL-125

46.211.9.16

208.94.2.106

205.251.242.133

174.35.5.6

183.91.4.73

193.110.128.197

212.47.171.86

66.249.72.26

195.24.233.57

207.46.13.114

173.194.35.19

EPFL-42

180.76.5.196

173.194.35.48

74.125.232.98 213.199.181.90

80.74.154.241

EPFL-155180.149.135.236

74.125.13.82

217.163.21.36

174.35.7.22

195.154.120.71

199.59.241.216

208.94.0.161

130.14.29.110

61.55.171.32

91.202.121.21

83.43.195.135

180.76.5.170

184.73.200.194

EPFL-87

92.123.65.194

23.22.95.8

69.171.227.71

91.220.100.250

95.172.94.62EPFL-246

182.55.248.100

EPFL-25389.93.216.254

81.19.88.103

93.88.240.54

217.163.21.34

173.194.35.5

199.59.148.82

68.67.185.208

2.14.89.153

EPFL-196

77.75.72.19

207.46.13.211

EPFL-50

66.220.151.88

183.60.52.68

60.29.242.148

174.35.6.7

EPFL-46

46.182.41.58

94.127.76.140

206.53.176.104

95.131.121.196

173.194.35.10

208.74.76.163

195.1.229.60

193.247.166.51

60.28.212.53

130.14.29.109

74.125.232.103

220.181.181.227

182.118.12.156

EPFL-77

184.73.198.91

192.33.203.72

23.21.182.156

217.174.118.194

66.231.94.105

EPFL-203

23.21.160.167

91.213.227.150

EPFL-238

173.194.35.0

223.132.27.137173.194.35.38

46.105.100.222

EPFL-53

110.49.241.190

217.163.21.38

188.62.41.102

212.103.75.210

194.112.241.5

66.244.153.192

220.181.181.221

31.186.231.31

173.194.35.24

80.237.153.97

83.221.236.51

EPFL-41

EPFL-89

64.34.200.154

85.218.7.66

87.249.105.26

87.248.121.190

67.215.229.165

138.108.7.20

37.59.16.162

74.125.13.73

8.20.213.76

174.35.6.12

66.249.72.117

23.21.182.111

31.24.80.31

180.76.5.111

173.194.35.4

114.113.158.55

77.72.113.34

194.150.245.142

193.50.216.106

70.167.227.245

94.100.179.68

217.146.179.200

195.176.255.89

174.35.4.146

68.168.112.46

193.169.66.18

180.76.5.136

123.125.46.36

50.97.151.194

199.7.50.72

199.7.57.72

184.154.197.3

EPFL-156

EPFL-82

195.176.255.84

69.36.34.24

93.88.240.50

86.219.132.103

173.194.35.13

85.13.135.248

180.76.5.98

92.123.74.64

EPFL-209

EPFL-48

50.116.55.164

74.86.70.106

173.194.32.83

74.125.79.94

218.104.71.174

17.154.66.38

208.69.152.105

64.4.61.95

221.123.170.40

212.25.65.1

199.127.194.80

129.132.95.202

205.186.187.171220.181.181.230

192.33.202.3

EHE-66

208.94.0.99

64.236.124.229

66.249.72.80

217.20.138.66

EPFL-11

66.249.72.75

174.35.4.134

50.116.55.35

93.88.243.116

194.20.158.105

79.110.86.233

174.35.6.10

94.245.70.55

84.16.80.85

83.139.126.203

84.16.68.224

EPFL-121

61.158.249.138

65.93.127.113

70.25.39.180

74.15.179.217

174.92.229.9

173.178.205.109

70.48.126.210

24.139.31.55

46.137.187.111

78.109.88.177

130.158.6.56

195.186.17.100

82.98.105.20

141.249.145.40

202.108.23.27

66.220.145.44

62.211.72.133

81.26.216.23

74.125.13.54

122.11.51.16

199.7.51.190

199.16.173.23

123.125.114.64123.125.115.75

61.8.48.57

82.192.95.92

174.37.214.243

124.247.239.63

188.61.27.235

85.4.91.201

84.16.80.92

205.251.209.29

184.105.67.85

80.251.169.132

54.240.162.172

66.196.66.212

65.55.255.16

87.248.202.160

184.72.234.3

66.220.151.9481.88.105.182

68.67.185.252

74.86.70.107

195.81.229.100

184.169.79.33

109.214.139.195

159.245.16.100

94.245.68.221

208.81.234.117

113.142.3.12

193.110.128.199

188.132.215.82

123.125.50.28

21.08.2012SP

FlashInformatique.epfl.ch

p/a EPFL - Domaine IT - Station 8 - CH 1015 Lausanne - tél. +41 21 69 322 11

SP ÉTÉ 2012

O

NN

E ÉS

EC O

D

U

NM

TS

D

FlashInformatique.epfl.ch

p/a EPFL - Domaine IT - Station 8 - CH 1015 Lausanne - tél. +41 21 69 322 11

FlashInformatique.epfl.ch

p/a EPFL - Domaine IT - Station 8 - CH 1015 Lausanne - tél. +41 21 69 322 11

DONNÉESO C U M E N T S

SPÉCIALÉTÉ

2012

21.08.2012SP

Les couvertures auxquelles vous avez échappé[email protected], EPFL – Domaine IT, illustrateur de la couverture

Page 3: Flash informatique 2012 - no spécial été - D

3SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

[email protected], EPFL – Domaine IT

D comme data, D comme donnée, D comme document?Pour ne pas trancher, il nous est apparu pratique et prudent de nous en tenir à la lettre D.Cette quatrième lettre de l’alphabet est le symbole de la porte, c’est bon signe ! Le dessin même de la lettre évoque le chambranle de celle-ci dans la cité ou le triangle de l’ouverture de la tente pour les nomades que l’on retrouve dans le delta.Initiale d’un Début ou d’un Départ pour un numéro spécial du Flash infor-matique qui voulait traiter de ce que deviennent les documents en ce début du XXI° siècle où nous ne lisons plus, n’écrivons plus, n’archivons plus, ne pensons plus comme hier. Bien sûr, nous ne nous baignons jamais deux fois dans la même encre et les formes du livre n’ont toujours fait que changer, en nous changeant profondément.

Ce numéro est constitué d’un grand nombre d’articles sur les Données dans tous leurs états, en toutes les langues, sur tous les supports, au point de laisser le Document somnoler sur son étagère. Il ne se fait pas oublier pour autant ! Tout départ est une aventure et celui du numérique dans lequel nous sommes engagés prend l’allure d’un grand saut inquiétant. Nous sommes encore peu habitués à ces chiffres astronomiques et à ces croissances exponentielles et même si la terminologie du nuage ou de l’immatériel se veut rassurante, il est bien légitime de s’inquiéter et de penser confiance et pérennité.

Un Exaoctet (Eo) de données représente environ 10.000 fois la capacité de la Bibliothèque du Congrès Américain.L’humanité a produit environ 5 Eo de données depuis son avènement jusqu’en 2003. En 2010, il suffisait de deux jours environ pour produire la même quantité [1].

Ce numéro du FI nous le révèle une fois de plus, nous n’avons jamais été aussi merveilleusement outillés, mais toute technique étant à la fois remède et poison, il nous faut bien compter sur l’acquisition de savoirs pour apprendre à Discerner.

[1] blog.dewost.com/big-data-petites-reflexions

Page 4: Flash informatique 2012 - no spécial été - D

flash informatique444 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

Information technology and open-source: power-ful tools for post-Fukushima environmentally con-cerned citizens.

Les technologies de l’information et les logiciels ou-verts: de puissants outils pour les citoyens soucieux de l’environnement après Fukushima.

Le triple meltdown de la centrale de Fukushima, conséquence duterrible tremblement de terre et tsunami ayant ravagé le nord-est du Japon en mars 2011, a réveillé le spectre dormant de la peur nucléaire. Née à Hiroshima et Nagasaki, puis nourrie abondam-ment durant la guerre froide et l’intensive période d’essais nu-cléaires atmosphériques l’accompagnant, cette peur a finalement atteint pleinement la population civile lors des accidents de Three Mile Island, aux États-Unis, puis le pire jusqu’à Fukushima, Tcher-nobyl, en Ukraine quelques années plus tard.C’est pourquoi en ce beau week-end de mars 2011 suivant la catastrophe, de multiples questions se posaient. Faut-il, en plus des tremblements de terre et des tsunamis, craindre un danger invisible, pouvant potentiellement mener à des problèmes graves de santé, des cancers ? Mon environnement a-t-il été contaminé ? Est-il raisonnable de rester à Fukushima ? À Tokyo ? Au Japon ?Seules des données indépendantes de qualité peuvent non seu-lement commencer à répondre à toutes ces questions, mais aussi permettre une investigation détaillée des conséquences de l’acci-dent, ainsi qu’un travail de décontamination où cela est néces-saire. Durant les premières semaines suivant la catastrophe, les seules sources publiant de telles données étaient le Ministère de l’Éducation, de la Culture, des Sports, des Sciences et de la Tech-nologie du Japon (MEXT) et Tokyo Electric Company (TEPCO). Mal-heureusement, les données publiées par ces deux entités étaient au mieux lacunaires, avec seulement quelques points dans la pré-fecture de Fukushima, mais souvent aussi terriblement anciennes, de plusieurs jours, semaines, voire mois. Ajoutés à cela, un manque de transparence total dans les communications ainsi qu’un intérêt clair à manipuler les données ont contribué à décrédibiliser les mesures officielles de la radioactivité.

Safecast: crowdsourcing et radioactivité

C’est cette pénurie d’informations officielles qui a poussé un nombre important de citoyens à prendre la responsabilité de me-surer la radioactivité afin de garantir leur sécurité et celle de leur famille. Bien qu’un simple compteur Geiger soit suffisant pour cela, face à une demande aussi soudaine que massive, les stocks mondiaux furent épuisés après seulement une semaine. Et c’est

SafecastMesures citoyennes de la radioactivité à l’âge de l’Internet

Robin Scheibler, [email protected], designer, fabricant et réparateur de bGeigie (senseur mobile de radioactivité) à Safecast Japan

à ce moment-là que quelque chose de magique est arrivé. Les citoyens ayant pu se procurer un compteur commencèrent à dif-fuser leurs mesures sur l’Internet, par l’intermédiaire d’un graphe en temps réel, ou simplement en posant l’appareil devant une webcam. En une semaine, plusieurs dizaines de flux de données étaient déjà disponibles en particulier sur Pachube & (renommé Cosm récemment), une plate-forme de partage ciblant l’Internet des objets.C’est dans ces conditions, durant la semaine suivant le 11 mars 2011, qu’est né Safecast (www.safecast.org), une organisation bénévole dont le but est de fournir une information de qualité sur les niveaux de radioactivité. La première itération fut de rassem-bler toutes les données accessibles sur l’Internet, mais jusque-là éparses, et de les visualiser sur une seule carte. Cette première carte incluait alors aussi bien les données gouvernementales que citoyennes. Cependant, tous ces senseurs disponibles en ligne à ce moment-là étaient des senseurs fixes offrant certes une excel-lente résolution temporelle, mais peu de couverture spatiale, lais-sant de grandes zones vides de mesures, ou presque, après avoir zoomé sur une zone particulière.Cet effet rendait en pratique cette carte d’un intérêt limité étant donné que dans la plupart des cas, chaque individu est concerné tout particulièrement par les niveaux dans son environnement direct. Afin de répondre à ce besoin et remplir la carte simulta-nément, la première idée fut l’utilisation collective des compteurs Geiger et le partage en ligne des données collectées. Safecast prêta alors des compteurs contre la promesse de partager les résultats via un formulaire sur notre site Web. Ce fut le début du crowd-sourcing &.

BentoGeigie: vers une mobilité des sen-seurs

Ce système bien que répondant efficacement à un besoin humain a cependant rapidement montré ses limites quant à son efficacité en matière de collecte de données. Principal obstacle, l’aspect ma-nuel demandant beaucoup de temps pour un nombre de mesures récoltées finalement pas si élevé. Toutefois, ce système a introduit l’élément crucial de la mobilité des senseurs eux-mêmes afin de couvrir un territoire extrêmement large avec un nombre d’appa-reils limité. La suite logique fut donc de fixer un compteur Geiger sur une voiture et d’enregistrer le niveau de radioactivité ainsi que la position à intervalles réguliers et pour toute la durée du voyage.Il est intéressant de noter que la toute première incarnation de ce système n’utilisait que des éléments accessibles à tout un chacun, mis à part le compteur Geiger. Le compteur est scotché contre la vitre côté passager, écran contre l’intérieur du cockpit, senseur pointant à l’extérieur. La valeur affichée est alors photographiée avec un smartphone, les données GPS sont automatiquement

Page 5: Flash informatique 2012 - no spécial été - D

55SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

ajoutées au fichier qui est ensuite transféré vers un compte Flickr. Par la suite, une carte peut être générée avec un logiciel comme iPhoto par exemple. Cette méthode, bien que difficilement exten-sible à grande échelle à cause de son format difficile à lire au-tomatiquement (photographie d’un écran), montre que tous les outils nécessaires sont disponibles.

Après un premier prototype utilisant un netbook, un simple GPS USB, un Arduino ainsi que l’indispensable compteur Geiger, le Bento Geiger, ou bGeigie pour faire court, est finalement déve-loppé au Tokyo Hackerspace. Il s’agit d’un système indépendant entièrement contenu dans une boîte rectangulaire faisant penser à une boîte à déjeuner, ou bento en japonais. Le cœur du système est un Arduino, une plate-forme de développement rapide conçue à la base pour les artistes et bricoleurs, munie d’une carte d’exten-sions spécialement créée pour Safecast et qui inclut un GPS, une carte SD et une connexion à la sortie audio du compteur Geiger. Une fois fermé, le senseur est complètement étanche et peut être attaché à une voiture au moyen de deux sangles que l’on fixe dans une fenêtre et quelques ventouses pour la stabilité. Une fois allu-mé, le senseur compte le nombre d’impulsions venant du comp-teur dans un intervalle de 5 secondes puis enregistre cette valeur, accompagnée des coordonnées géographiques et du temps dans un fichier sur la carte SD. Une fois le voyage terminé, les données récoltées sont extraites de la carte et transférées dans la base de données, à partir de laquelle peut maintenant être créée une carte détaillée des niveaux de radiation.Depuis le premier prototype créé environ un mois après la ca-tastrophe, environ quarante unités ont été construites, princi-palement manuellement. Ces unités sont ensuite prêtées à des bénévoles qui vont quadriller leur ville, ou l’utiliser lors de leurs

déplacements quotidiens. Après avoir couvert ce qu’ils peuvent, les senseurs sont renvoyés à Safecast afin d’être redéployés chez d’autres bénévoles. Cette méthode a permis en moins d’une an-née, de récolter plus de trois millions de points de mesure uniques, principalement dans le nord-est du Japon, mais aussi dans le reste du monde, entre autres Hong Kong, la Californie, la Finlande, et même la Suisse.

Open source et action citoyenne

L’un des points forts de Safecast est un engagement absolu à publier toutes nos données libres de droits et sans restriction aucune. À cette fin, les données sont publiées sous une licence Creative Commons 0, c’est-à-dire directement dans le domaine public. Cela afin qu’il n’y ait aucune barrière à l’utilisation de ces données à des fins scientifiques ou informatives. Pour complé-ter cela, nous fournissons l’ensemble de nos données sur notre site Web en téléchargement libre dans un format texte et lisible automatiquement par ordinateur (https://api.safecast.org/system/measurements.tar.gz).En plus des données, tous les logiciels et hardwares développés à Safecast utilisent des licences open source, permettant d’être réutilisés avec très peu de contraintes. Le but est double. D’une part, le développement a été incroyablement accéléré par la réu-tilisation de code et designs déjà existants, ce qui a permis par exemple de concevoir et construire complètement un prototype de senseur en seulement un mois. D’autre part, de telles licences sont particulièrement appropriées dans le cadre d’une opération citoyenne, car elles permettent à d’autres groupes indépendants de créer leurs propres senseurs et ainsi leur propre jeu de données. Ceci est particulièrement souhaitable, car plus de données sont nécessairement mieux que moins de données, mais aussi, car les résultats ainsi produits indépendamment vont mutuellement ren-forcer leur crédibilité.

Un activisme environnemental nécessaire

La révolution industrielle du XIXe siècle et les prodigieuses avan-cées scientifiques qui l’ont accompagnée jusqu’à nos jours ont of-fert à l’humanité une sécurité et un confort tels qu’elle n’en avait jamais connu. Le revers de la médaille est bien entendu la pollu-

Safecast, mesures citoyennes de la radioactivité à l’âge de l’Internet

Page 6: Flash informatique 2012 - no spécial été - D

6666 flash informatique66 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique

tion engendrée et ses conséquences sur la santé. Cette pollution se caractérise en particulier par des fuites ou rejets de substances toxiques dans la nature, tels que les incidents de Minamata au Japon dans les années 1940, la contamination de poulet par de la dioxine en Belgique en 1999 et de porc en Irlande en 2008. À cela vient s’ajouter la pollution engendrée par les conflits armés ou les tests d’armes, en particulier les retombées d’essais nucléaires atmosphériques, maintenant bannis, mais aussi par exemple l’uti-lisation massive d’agent orange, un herbicide particulièrement toxique, par l’armée américaine au Vietnam. Et bien entendu, les retombées d’accidents de centrales atomiques telles que Tcherno-byl ou Fukushima.Il est indéniable que la régulation et le contrôle de l’industrie afin de limiter la pollution environnementale et ses effets sur la santé relèvent des gouvernements et organes officiels. Malheu-reusement, il arrive trop souvent que la vigilance de ces organes se relâche après de longues périodes sans incident notable, ou alors, plus sinistrement, sous l’influence de puissants groupes d’influence industriels. Dans ces cas-là, il est de la responsabilité des citoyens de prendre en mains le contrôle environnemental et d’informer les autorités ainsi que la population lorsque des situa-tions problématiques sont découvertes.Bien que l’activisme environnemental ne soit pas nouveau en soi, l’émergence de l’Internet et des technologies de fabrication numérique ont complètement changé la donne. Il est, de nos jours, abordable pour des particuliers de faire fabriquer des pièces mécaniques sur mesure grâce aux imprimantes 3D. La découpe

Safecast, mesures citoyennes de la radioactivité à l’âge de l’Internet

laser et les machines-outils à commande numérique, jusqu’à ré-cemment réservées à l’industrie, sont maintenant utilisables par tout un chacun en particulier grâce aux FabLab et hackerspaces, des espaces communautaires partageant les frais d’achat de ces machines et offrant une formation concernant leur utilisation. En parallèle, cette communauté naissante se retrouve sur la toile ou elle partage idées, design, mode d’emploi, hardware et software. Cette prodigieuse révolution a finalement remis entre les mains des citoyens le pouvoir de contrôler leurs environnements. Et comme nous l’avons constaté au Japon après Fukushima, ils vont en faire usage quand ce sera nécessaire. n

GLOSSAIRE &crowd-sourcing: mot construit en référence à l’outsourcing qui

consiste à externaliser certaines tâches, le crowd-sourcing consiste à utiliser la créativité, l’intelligence et le savoir-faire d’un grand nombre d’internautes.

Pachube (on prononce Patch bay): service Web qui permet de connecter et partager en temps réel les données d’un capteur. Racheté il y a quelques mois, le service a évolué et s’appelle désormais cosm.com.

Carte de l’EPFL à Lucens: http://maps.safecast.org/drive/647

Page 7: Flash informatique 2012 - no spécial été - D

7SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

Il pleuvait ce matin-là et Jen avait oublié son parapluie. Il le savait pourtant que le temps allait être maussade, ils l’avaient annoncé à la radio tout à l’heure. Cela, et autre chose… une nouvelle, glissée entre la météo et 120 secondes, un flash info … oui … mais à quel propos ?À vrai dire, Jen avait d’autres choses en tête. Il devait absolument avancer dans sa recherche, car son professeur l’avait convoqué pour un point de situation. Il lui manquait encore quelques réfé-rences, les résultats du labo, en un mot plusieurs heures de travail et des nuits blanches en perspective.Il chassa les gouttes glissant sur ses cheveux mi longs et évita ma-chinalement la flaque d’eau qui s’accumulait toujours au même endroit, là devant le seuil de la Bibli. Il poussa ensuite la porte qui bien qu’automatique ne s’ouvrait jamais d’elle-même et entra.

Madame Saihdo enfila son duffle-coat et regarda sa montre. Il était déjà huit heures et demie. Jamais elle n’arriverait à temps pour la séance de neuf heures en prenant les trans-ports en commun. Elle sauta donc dans sa voiture, alluma l’autoradio et démarra. Arrivée sur le campus, toutes les places à proximité de son bureau étaient prises par d’autres véhicules… qui n’avaient de surcroit pas de vignettes. Cette fois elle allait vraiment être en retard. La séance se déroula mal, comme d’habitude aucune décision ne fut prise et le Professeur Tournedos monopolisa inutilement la parole.

Une mauvaise journéeGuilaine Baud-Vittoz, [email protected], EPFL - Information scientifique et bibliothèques, responsable Services et Formations aux Utilisateurs

Il était déjà 10 heures et Madame Saihdo était maintenant de fort mauvaise humeur. Elle s’installa derrière son bureau et ouvrit sa boîte mail. Un sourire éclaira enfin son visage, M. Bir-cher lui avait envoyé le lien sur l’article recommandé la veille.

Jen alla s’assoir à sa place fétiche. Lumineuse, calme, mais pas trop, une vue imprenable sur l’extérieur et sur cette jolie brune qui devait arriver dans une heure ou deux, juste avant qu’il ne reparte au labo. Mais une sensation inhabituelle d’inconfort fit rapide-ment son apparition. Qu’y avait-il de si différent aujourd’hui ? D’un mouvement d’épaule, il chassa ses doutes et se remit à son ordi-nateur. Google scholur, bromarr. Que lui avait dit Anah déjà ? Que les bibliothécaires lui avaient recommandé un outil plus efficace et paramétrable pour la gestion de ses références, un logiciel du nom de Zorro, Zorroooo. Non, il divaguait ! Il lui redemanderait le nom exact cet après-midi.Las, il ne trouvait pas de nouvelle référence dans les premières pages de Google scholar (il s’était tout de même souvenu !) Rien non plus dans le catalogue ou dans les bases de données. Étrange… d’ailleurs, ces derniers semblaient plus lents qu’à l’ordi-naire, on aurait même dit qu’ils étaient incomplets. Bon, il fallait se résigner, oser monter là haut et aller voir l’homme ou la femme derrière le guichet : le bibliothécaire. Pourvu que ce soit le même que la dernière fois, celui qui parlait bien anglais et avait su com-prendre son sujet de recherche en quelques phrases.

La bibliothèque de l’[email protected], EPFL - Information scientifique et bibliothèques, cheffe du service

A contribution to the Flash informatique special edition is definitely a challenge to undertake for librarians. So let’s try to do it with humour and im-agination, but also with seriousness and rigor.

C’est avec humour et imagination, mais aussi avec sérieux et rigueur que la Bibliothèque de l’EPFL a souhaité relever le défi d’une contribution à ce nu-méro spécial du Flash informatique.

Il est vrai qu’en tant que spécialistes de l’information, nous savons combien nous pouvons apporter à l’étudiant, à l’enseignant et au chercheur. Dans une société où l’information nous arrive de toute part et a pris une valeur stratégique et économique de premier plan, notre cœur de métier bat plus que jamais.

Mais il est aussi vrai que nous devons apprendre à mieux valori-ser nos services et nos compétences, à sortir de notre discrétion quasi culturelle, à changer l’image du bibliothécaire traditionnel à chignon et lunettes: de l’acquisition de ressources, papier et électroniques, aux formations à l’information literacy, en pas-sant par le conseil sur le droit d’auteur, l’aide à la bibliométrie, la sensibilisation aux grands enjeux de la diffusion de l’information scientifique…, nous aurions de quoi vous conter.Vous voulez en savoir plus ? Commencez par lire notre petite nou-velle et nos articles sur quelques aspects importants touchant à l’information, aux données et aux documents. Puis venez nous voir ou, encore mieux, nous pouvons venir vous rencontrer !

Article du FI-EPFL 2012 sous licence CC BY-SA 3.0 / I. Kratz

Page 8: Flash informatique 2012 - no spécial été - D

8888 flash informatique88 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique

Clic, clic et reclic. Vingt fois que Madame Saidho rafraîchis-sait la page de son navigateur et l’article ne s’affichait tou-jours pas. Pourtant, ce journal était accessible en temps nor-mal ! Elle le savait mieux que quiconque vu qu’elle en avait demandé l’abonnement. Remontée, elle empoigna le télé-phone et appela la Bibliothèque. Les sonneries résonnaient interminablement à son oreille, augmentant sa frustration… Personne ! Elle raccrocha d’un coup sec, pestant contre les fonctionnaires jamais là lorsque l’on avait besoin d’eux et décida d’appeler son contact direct à la bibliothèque. Mon-sieur… elle n’arrivait décidément pas à se rappeler son nom. Lui d’habitude toujours disponible, prêt à l’orienter et lui donner les meilleurs conseils, n’était pas joignable non plus. Exaspérée, Madame Saidho laissa un message peu aimable sur le répondeur et envoya également un e-mail libérateur dans lequel elle ne mâcha pas ses mots.

La matinée touchait à sa fin, Jen n’avait trouvé personne pour l’orienter et l’inconnue de la table en face n’avait pas montré le bout de son nez en trompette. La pluie continuait son chant mélancolique contre les vitres. Décidément, le temps reflétait ses états d’âme, il était donc temps de rejoindre les autres pour le dé-jeuner et passer à des questions beaucoup plus terre à terre. Sand-wich ou menu 2 de la cafétéria ? Le menu 1 était toujours infâme…Une heure plus tard, Jen rejoint le laboratoire où l’ordinateur avait passé la nuit à cracher des données. À défaut d’une bibliographie convaincante, il aurait peut-être quelques résultats concrets à présenter. Il s’approcha de l’écran tel un papillon attiré par une ampoule incandescente et ne fut pas déçu. Chiffres et nombres, nombres et chiffres se chevauchaient et s’entremêlaient. Si nom-breux que cela en était presque indécent… Mais il manquait à Jen une constante pour achever ses calculs. Ses camarades ne la connaissant pas, il ne savait trop à qui s’adresser. Bah, wikipédia lui fournirait sans doute la solution. À lui de convaincre mainte-nant son professeur de faire jouer son réseau pour obtenir des données similaires afin de les comparer. Le mieux serait d’y avoir accès directement en ligne !

Après quelques sushis et un coca light en guise de repas de midi, Madame Saidho se plongea dans la lecture du plan que lui avait envoyé son rendez-vous de 17 heures. Au bout de quelques minutes, elle leva les yeux au ciel et se frotta les tempes. Mais comment osait-il lui présenter une telle bibliographie ? Il n’avait donc pas appris à utiliser un logi-ciel approprié ? Sans parler de ses citations… complètement fausses ! Au moins n’avait-elle pas décelé de trace de plagiat dans ses écrits. Dire qu’ils avaient dû hier encore sanction-ner un étudiant, car il avait innocemment repris et remanié un article vieux de dix ans. Décidément, Madame Saidho ne comprenait pas comment des jeunes nés avec une souris au creux de la main n’arrivaient pas à maîtriser les ficelles du labyrinthe de l’information. Ils avaient pourtant l’air si à l’aise avec toutes les technologies.Madame Saidho reprit son téléphone et composa à nouveau le numéro de son contact à la Bibliothèque. D’autres jour-naux s’étaient révélés inaccessibles ce matin, l’empêchant de préparer sa conférence. Toujours pas de réponse.

Une mauvaise journée

À bout de patience, Madame Saidho se dit que Jen avait intérêt à être ponctuel s’il ne voulait pas se retrouver face à une porte close. Elle serait mieux à travailler chez elle.

Jen justement se dépêchait. Laissant Anah s’énerver et pester, car elle n’arrivait ni à mettre sa thèse en ligne ni à consulter celle de son ancien collègue, il attrapa son ordinateur portable et se dirigea vers le bureau de son professeur. Il tapa quelques coups discrets à la porte…

Entrez, je vous attendais ! répondit-elle sèchement.Madame Saidho n’avait pas l’air d’excellente humeur et Jen sentit que l’entretien ne serait peut-être pas aussi productif qu’il l’espé-rait. Il la salua et, poliment, lui demanda ce qui n’allait pas.

- Je n’ai accès à aucune de mes ressources habituelles, cela depuis ce matin. C’est extrêmement agaçant, d’autant plus que personne à la Bibliothèque ne répond à mes appels au secours.

– C’est étrange, j’ai aussi rencontré des problèmes toute la jour-née… C’est bien la première fois que cela arrive.

– Oui, effectivement. C’est comme si tout accès à l’information n’était plus possible. Comme si le courant ne passait plus de-puis ce matin…

Alors, lentement, la nouvelle refoulée remonta à la mémoire de Madame Saidho et de Jen. La radio… ce matin, juste après la mé-téo… lui n’avait enregistré que le sketch, elle était concentrée sur la route, obnubilée par sa séance et son retard. Ils l’avaient tous deux oublié, le Flash info: «… En ce jour de septembre, un étrange virus a attaqué les Bibliothécaires, et seulement eux. D’origine psychologique, il aurait affaibli de manière simultanée et pour l’instant inexpliquée l’ensemble de la profession. Apparemment, l’élément déclencheur aurait été une phrase type répétée en boucle provoquant un court-circuit neuronal.Nous leur souhaitons un prompt rétablissement, et en attendant leur retour, évoquons ces tranches de vie partagées avec nos bi-bliothécaires fétiches: la première carte de bibliothèque, offerte comme une promesse d’ouverture à la Connaissance, les fausses excuses inventées pour justifier un retard et tenter de faire annu-ler l’amende, le taux de citation demandé en urgence pour l’audit du labo. Sans oublier bien sûr, le bibliothécaire fronçant les sour-cils à l’arrivée d’une boisson ou d’un téléphone portable dans la zone de lecture, et cette mémorable séance de formation où nous avions appris ce que nous aurions dû savoir depuis plus de trois ans déjà… Et surtout, surtout LE livre, l’article qui nous manquait et que lui seul savait trouver, nous sauvant in extremis d’une dé-pression avant publication !…»

Le silence de l’eau tombant toujours du ciel envahissait la pièce, Madame Saidho et Jen n’osaient se regarder. La phrase, ce fameux code provoquant l’épidémie dramatique: Mais à quoi donc servent encore les bibliothécaires dans ce monde de données virtuelles… Combien de fois l’avaient-ils pensée ? Alors qu’en fait… Dans un même élan, Madame Saidho et Jen allumèrent leur ordi-nateur et se précipitèrent sur un site de livraison de fleurs. Leurs partenaires bibliothécaires méritaient bien cela.

Article du FI-EPFL 2012 sous licence CC BY-SA 3.0 /G. Baud-Vittoz

Page 9: Flash informatique 2012 - no spécial été - D

9SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

Will students in the future be able to access papers you write today?

Pourrons-nous mettre à disposition des futurs étu-diants les documents que vous rédigez aujourd’hui ?

Pourrez-vous encore ouvrir dans dix ans le fichier que vous avez créé la semaine dernière ? Le logiciel que vous avez utilisé existera-t-il encore ? Et que faites-vous lorsque vous rédigez un document avec des personnes qui n’utilisent pas le même logiciel ? Entre interopérabilité, pérennité et liberté, les logiciels libres prennent une importance fondamentale pour les étudiants, les enseignants, les chercheurs et les bibliothécaires.Nous, bibliothécaires, travaillons tous les jours en priorité pour vous donner accès à l’information dont vous avez besoin. Mais la pérennité des documents nous préoccupe. Car si nous pouvons vous mettre un document à disposition, nous cherchons à faire en sorte que ce soit encore le cas dans dix ans. L’arrivée des docu-ments électroniques ne nous a pas ôté ce rôle. Bien au contraire !Toutefois, le passage à l’ère numérique a ajouté un intermédiaire dans la chaîne de mise à disposition des documents: le logiciel. La lecture des documents imprimés ne nécessitait aucune techno-logie. Aujourd’hui, en plus de se poser la question où et comment trouver une information pertinente et de qualité, le lecteur doit aussi se poser la question de savoir s’il pourra y avoir accès. Laissons de côté les problèmes d’accès liés aux modèles écono-miques de l’édition scientifique (voir article de Julien Junod sur l’Open Access) et aux DRM (voir article d’Alain Borel) pour se concentrer sur le rôle du logiciel 1.Les étudiants ne peuvent plus travailler sans ordinateur et doivent apprendre à utiliser toute une série de logiciels pendant leurs études. Or, le choix de ces logiciels est loin d’être anodin. Ils sont aux deux extrémités du cycle de vie d’un document. Que ce soit pour des données de la recherche ou pour une publication, un logiciel est nécessaire lors de la production. Le lecteur ou le cher-cheur qui souhaite consulter les données a quant à lui besoin d’un logiciel pour y accéder. Le choix du logiciel est encore moins anodin lorsqu’on sait qu’un étudiant utilisera la majeure partie de sa future carrière le logiciel qu’il a appris à utiliser pendant ses études. Mais en quittant l’EPFL, il ne profitera plus du prix étudiant ou d’une licence payée par le DIT.Dès la création d’un document, l’étudiant est potentiellement confronté à un problème simple: comment travailler depuis plu-sieurs ordinateurs ? Que ce soit pour un travail personnel sur le-

Les logiciels libres et les bibliothè[email protected], EPFL - Information scientifique et bibliothèques, bibliothécaire en charge des formations aux utilisateurs

quel il souhaite plancher en cours et à la maison, ou un travail de groupe pour lequel il doit collaborer avec ses camarades, l’étu-diant doit choisir le logiciel qu’il utilisera. Un problème de com-patibilité peut sérieusement compliquer une activité aussi banale que rédiger un document.La licence d’un logiciel propriétaire est souvent payante, ce qui représente un frein pour un étudiant. Admettons qu’il ne s’agisse là que d’un détail, car il existe des logiciels propriétaires gratuits. De toute façon il y a bien plus gênant: le logiciel propriétaire pro-duit généralement un format propriétaire qui ne peut être lu par aucun autre logiciel. L’utilisation de différents logiciels pour tra-vailler sur un même document est donc exclue.Les services en ligne peuvent offrir une solution à ce problème, mais exposent l’étudiant à un autre danger: la pérennité des don-nées n’est pas garantie. La possibilité d’accéder à un document n’est déjà pas assurée avec l’utilisation d’un logiciel propriétaire, car s’il disparaît, le logiciel n’évolue plus, rendant à terme les do-cuments produits par son intermédiaire illisibles. Mais dans le cas d’un service en ligne, la situation est encore plus périlleuse. Les documents étant sur les serveurs du prestataire (et non sur l’ordi-nateur de l’utilisateur), les données deviennent instantanément inaccessibles si ce service ferme. Dans l’optique d’un accès aussi large que possible à l’information, le risque n’est pas acceptable.Les logiciels libres apportent des parades à ces risques. Premiè-rement, ils se basent sur des formats ouverts ce qui permet une standardisation des données. Le bénéfice le plus immédiat est l’interopérabilité. Un fichier peut être ouvert et édité par plusieurs logiciels différents. Deuxièmement, le code source d’un logiciel libre est accessible à toute personne intéressée à connaître son fonctionnement. Cela implique que si les créateurs du logiciel arrêtent de le développer, quelqu’un d’autre peut reprendre le flambeau. La disparition du logiciel n’est pas exclue, mais dans le cas d’un logiciel entouré d’une communauté nombreuse et active, les chances sont très réduites.Surtout, n’oublions pas que le logiciel libre, c’est avant tout le droit d’être libre. Libre de comprendre comment fonctionne le logiciel (en accédant au code source). Libre d’adapter le logiciel à ses propres besoins (en modifiant le code source et donc le fonc-tionnement du logiciel). Libre de collaborer avec quiconque. Un logiciel propriétaire ne permet pas cela. D’un côté, il y a les déve-loppeurs qui décident de l’évolution du logiciel et des fonction-nalités à ajouter; de l’autre, il y a les utilisateurs. Si un utilisateur constate un bug, il doit en faire part aux développeurs et attendre que ceux-ci trouvent une solution. Si l’utilisateur souhaite qu’une fonctionnalité soit ajoutée, il doit en faire la demande, attendre et espérer que sa requête sera prise en compte.

1 Les exemples donnés seront du domaine documentaire, mais ces considérations sont valables pour d’autres types de données comme les données de la recherche, par exemple.

Page 10: Flash informatique 2012 - no spécial été - D

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique101010

Le logiciel libre pousse à la collaboration et implique ses utilisa-teurs dans l’évolution du logiciel. Si un utilisateur constate un bug, il peut en faire part à la communauté. Celle-ci l’aidera ou résoudra le problème. Ce modèle est très efficace, car la proba-bilité qu’un bug échappe à tout le monde diminue à mesure que la taille de la communauté augmente. De plus, si un utilisateur souhaite qu’une fonctionnalité soit ajoutée, il peut la développer lui-même ou demander à quelqu’un (pas forcément aux déve-loppeurs initiaux) de le faire.Prenons le cas de Zotero, gestionnaire de bibliographie. La com-munauté participe à la traduction de l’interface. Elle participe aussi à la création des styles de citation, qui déterminent le look d’une bibliographie, ainsi que celui des citations dans le texte. Cela représente une somme de travail telle qu’aucune équipe de déve-loppeurs ne pourrait la prendre en charge. Mais ce n’est pas tout.Un doctorant a créé une extension pour les utilisateurs de LaTeX donnant accès à la bibliothèque Zotero [1] depuis LaTeX, sans l’exportation manuelle requise auparavant. Il a mis à disposition de tous cette fonctionnalité dont il avait besoin. Il existe égale-ment une application pour Android et une autre pour iPad. Ni l’une ni l’autre ne sont l’œuvre de l’équipe de développeurs.Il est important de relever que l’implication dans la communauté d’un logiciel libre ne nécessite pas forcément des compétences en programmation. Les utilisateurs qui trouvent des bugs, qui posent des questions ou demandent de nouvelles fonctionnalités parti-cipent tout autant au développement du logiciel.

L’ activité d’un service de bibliothèque est centrée sur la mise à disposition d’une information de qualité, sur place, à distance, sur tous supports. L’interopérabilité, la pérennité et un accès aussi libre que possible sont très importants à nos yeux, tout comme l’est le travail collaboratif. Les logiciels libres sont un choix naturel. C’est la raison pour laquelle nous les mettons en avant chaque fois que c’est possible et pertinent. n

Référence

[1] Zotero, un logiciel libre de gestion bibliographique, flashinformatique.epfl.ch/spip.php?article2188

Article du FI-EPFL 2012 sous licence CC BY-SA 3.0 / R. Grolimund

What if all scientific publications were freely acces-sible on the Internet ?

Et si tous les résultats de la recherche étaient en accès libre sur Internet ?

La publication en libre accès (en anglais Open Access ou OA) permet d’offrir gratuitement des documents en ligne. N’importe qui peut alors accéder au contenu, à condition d’être connecté à Internet. Le plus souvent, ceci est réalisé au moyen d’un bascule-ment de la facturation: dans le cas des articles, les frais de publi-cation ne sont plus couverts par les abonnements aux revues, ils sont directement pris en charge par les auteurs (selon le modèle le plus répandu, d’autres possibilités existent). Ne payent plus ceux qui lisent, mais ceux qui écrivent.

Ce que le libre accès n’est pas

Mouvement philosophique ou modèle économique, ce mode de publication n’implique pas d’autres aspects qu’on lui attribue vo-lontiers. Le contenu librement accessible n’est pas nécessairement libre de droits. Une consultation sans entrave n’implique pas une totale liberté d’utilisation, qui relève des questions de propriété intellectuelle, indépendamment du modèle choisi.La publication en libre accès n’est pas forcément une activité bé-névole, comme en atteste le nombre croissant d’éditeurs commer-ciaux qui l’adoptent. La liberté d’accéder n’entraîne pas la liberté de publier. Les revues sérieuses reprennent le principe des comités de lecture [1], ou imaginent de nouveaux systèmes pour contrôler la qualité éditoriale nécessaire à leur réputation (PLoS ou Fron-tiers). On voit des formules à succès côtoyer des journaux obscurs, tout comme dans le modèle traditionnel.

Qu’en est-il à l’EPFL ?

Les institutions de recherche disposent principalement de deux outils pour mettre en œuvre le libre accès, surnommés voies verte et dorée.Par le biais d’Infoscience [2], l’archive institutionnelle maison, l’EPFL soutient activement la voie verte. Celle-ci consiste à mettre à disposition du public une copie de l’article publié dans une revue payante, pour autant que l’auteur obtienne le consente-ment de l’éditeur, ce qui est souvent le cas. Officiellement, tous les membres de l’École sont encouragés à le faire. Dans la pratique, seul un tiers des publications répertoriées sont déposées dans l’archive, selon un pointage réalisé l’année passée [3].Ce premier aspect du libre accès est le plus pragmatique, puisqu’il perpétue le système payant traditionnel, tout en offrant un se-

Les logiciels libres et les bibliothèques

L’Open Access à l’[email protected],EPFL - Information scientifique et bibliothèques, bibliothécaire en charge du dossier libre accès

Page 11: Flash informatique 2012 - no spécial été - D

11SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

L’Open Access à l’[email protected],EPFL - Information scientifique et bibliothèques, bibliothécaire en charge du dossier libre accès

autre côté, le monde de l’édition, qui se sentait très menacé par l’arrivée du libre accès, se résout progressivement à adopter ce modèle, bousculé par des nouveaux venus comme PLoS ou Bio-med Central, qui ont fait la preuve de son succès et de sa renta-bilité. Dans ce bras de fer, ni les craintes des éditeurs, ni les espoirs des bibliothécaires ne semblent s’être réalisés.Le mode de facturation traditionnel est un héritage direct d’une époque à laquelle le rôle des éditeurs et des bibliothèques consis-tait à fabriquer, diffuser et archiver des documents de papier. Or, comme il est impossible de contrôler la dissémination de docu-ments électroniques – aucune réponse efficace n’ayant été trou-vée au problème du piratage – le libre accès n’apporterait-il tout simplement pas la seule solution de financement viable dans un monde d’internautes qui considèrent le téléchargement gratuit comme un dû ?

Références

[1] Le DOAJ, le répertoire des périodiques en libre accès, soumet les éditeurs à des vérifications strictes avant de référencer un journal: www.doaj.org.

[2] infoscience.epfl.ch[3] ROTH, Dylan. État de la publication en Open Access dans

les disciplines scientifiques présentes à l’EPFL. 2011. infoscience.epfl.ch/record/169218.

[4] Voir par exemple: DAVIS, Philip M. Open access, readership, citations: a randomized controlled trial of scientific journal publishing. The FASEB Journal, mars 2011. Ou encore une bibliographie plus complète de ce sujet controversé qui a fait l’objet de nombreuses recherches: opcit.eprints.org/oacitation-biblio.html.

[5] Une augmentation de près de 400% sur une période couvrant les vingt dernières années, selon le rapport ARL Statistics 2008-2009. Association of Research Libraries, Washington. www.arl.org/bm~doc/arlstat09.pdf

[6] HOUGHTON, John et al. Economic implications of alterna-tive scholarly publishing models: Exploring the costs and benefits, rapport du Joint Information Systems Committee. 2009. Une nouvelle étude, plus quantitative et consolidée quant aux modèles utilisés, est sur le point de paraître. ie-repository.jisc.ac.uk/278/

[7] Selon le Web of science, on passe de près de deux millions de publications répertoriées en 1995 à un peu moins de cinq millions et demi en 2011.

Article du FI-EPFL 2012 sous licence CC BY-SA 3.0 / J. Junod

cond canal de diffusion gratuit. Le désavantage est une double facturation (au prix des abonnements s’ajoute la maintenance d’une infrastructure de publication sur Internet), et une barrière psychologique (un article téléchargé directement depuis la plate-forme de l’éditeur a souvent plus fière allure).L’idéal serait donc la voie dorée, soit la publication dans une revue dont l’intégralité du contenu est disponible en libre accès. On allie alors prestige et gratuité. Pour l’instant, cette démarche reste en-tièrement à la charge des laboratoires. Ni la bibliothèque ni l’École n’ont conclu de partenariats avec les éditeurs dans le but de dimi-nuer les frais de publication.Toujours selon l’étude citée, dans un peu moins de 5% des cas, les chercheurs ont choisi ce modèle et ont accepté de s’acquitter d’une facture s’élevant souvent à deux ou trois mille francs. Cette situation pourrait évoluer avec la constitution d’un fonds d’aide à la publication en libre accès, qui est en cours de discussion au Fonds National et à la Conférence des recteurs des universités suisses.

Enjeux

Parmi les arguments avancés en faveur du libre accès figure en première place celui d’une plus grande diffusion. Malheureuse-ment, la mesure fiable d’un effet du libre accès sur le nombre de citations et de téléchargements se heurte à des difficultés métho-dologiques considérables. À l’heure actuelle, personne n’est en mesure de fournir des statistiques complètes et comparables qui viendraient conforter ou mettre en doute ce postulat au demeu-rant raisonnable [4]. Les bibliothèques avaient aussi fondé beau-coup d’espoir sur le libre accès pour contenir la hausse du prix des abonnements aux périodiques [5]. Mais que l’on facture à la sortie où à l’entrée du circuit ne changera rien à l’affaire: le prix des revues augmente avec leur réputation. Une période de tran-sition qui verrait cœxister les deux systèmes risque également de générer des coûts supplémentaires. Cependant, si l’on inclut les retours sur investissement dans l’analyse, des bénéfices pourraient être envisagés à long terme [6].L’explosion du nombre d’articles publiés, qui, encouragé par la po-litique du publish or perish, a plus que doublé ces quinze dernières années [7], n’aidera pas non plus à faire baisser le montant de la facture. De nombreux scientifiques doivent faire face aux sou-haits contradictoires émis par les institutions, qui encouragent la publication en libre accès, mais exigent surtout que les articles pa-raissent dans des revues à fort facteur d’impact. Ces deux aspects n’étant pas conciliables dans tous les domaines de la recherche, le choix est souvent vite fait entre principes moraux et survie.Tout au plus, dans un monde où tout le monde est poussé à écrire et où plus personne n’a le temps de lire, paraît-il plus raisonnable de faire payer le privilège d’écrire plutôt que de pénaliser les per-sonnes qui consacrent un peu de leur temps à la lecture. D’un

Page 12: Flash informatique 2012 - no spécial été - D

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique121212

How to cite research data efficiently with the help of digital object identifiers (DOI) and the Datacite consortium.

Une citation pérenne grâce au système des digital object identifiers (DOI) et au consortium Datacite.

La problématique de la citation de sources numériques en ligne est bien connue [1]. Que ce soit des données primaires & ou des données secondaires &, le problème est identique. L’adresse URL est la solution de facilité, mais après quelques années, il est rare que celle-ci soit encore fonctionnelle. Alors, comment confor-ter l’apport indiscutable des liens hypertextes en garantissant leur pérennité ? Le concept de Digital Object Identifier (DOI) lancé en l’an 2000 par l’International DOI Foundation apporte une solution efficace à ce problème.Un DOI est une chaîne de caractères qui commence par 10. et contient un / (par exemple 10.1016/j.iheduc.2003.11.004). En ajoutant ce DOI à la suite de l’URL http://dx.doi.org on obtient une nouvelle URL http://dx.doi.org/10.1016/j.iheduc.2003.11.004. Celle-ci est par construction nettement plus pérenne que l’URL originale (dans ce cas précis http://www.sciencedirect.com/science/article/pii/S1096751603000897, URL qui sera amenée à changer à chaque fois que le service Sciencedirect sera renommé). Le sys-tème DOI enregistre chaque DOI ainsi que l’URL vers laquelle il doit être redirigé. Il vient d’être publié en tant que norme ISO [2].Ce procédé est largement établi et utilisé notamment par plus de 3000 éditeurs, regroupés au sein du consortium CrossRef &. Plus de 54 millions de documents numériques ont à ce jour un DOI. Les fournisseurs d’information s’engagent au moment de l’enregistrement d’un DOI à maintenir son fonctionnement pé-renne. À chaque migration de leur système informatique, fusion de plusieurs organisations ou changement de nom, l’URL associée à un DOI doit être mise à jour. De plus, lors de l’enregistrement de l’URL associée à un DOI, l’éditeur a la possibilité d’ajouter d’autres informations (comme le titre d’un article, ses auteurs…) dans un format structuré. L’énorme base de données ainsi créée est en-suite utilisable gratuitement par les bibliothèques pour améliorer leurs services. À l’EPFL, nous l’utilisons notamment dans le cadre de l’archive institutionnelle Infoscience [3] ainsi que pour notre résolveur de liens SFX [4].Depuis 2010, de nombreuses bibliothèques se sont réunies dans un autre consortium, appelé Datacite [5], qui leur permet d’attribuer des DOI. Comme le nom du consortium l’indique, le but premier de ce consortium est de fournir des DOI à des données primaires de la recherche qui seraient stockées, par exemple, dans les systèmes d’information des bibliothèques universitaires. La bibliothèque de l’EPFL, en collaboration avec l’EPFZ [6], a rejoint ce consortium.

La citation des données de [email protected], EPFL - Information scientifique et bibliothèques, bibliothécaire spécialiste IT

Elle est donc désormais à même d’attribuer des DOI à des docu-ments ou données qui lui sont confiés par le biais d’Infoscience. Ce service est d’autant plus important pour les données primaires, car certaines ne seront probablement jamais publiées par des édi-teurs scientifiques.Une des premières applications concrètes de ce mécanisme porte sur les thèses. Toutes les thèses de l’EPFL ont désormais un DOI qui a la forme suivante 10.5075/epfl-thesis-4088 où 4088 est le numéro de la thèse. Ainsi, chaque doctorant peut citer sa thèse avec un lien pérenne vers le pdf dès qu’il connaît le numéro de sa thèse. Ce DOI sera d’ailleurs prochainement imprimé sur la page de cou-verture de la thèse. Les applications ultérieures de ce mécanisme concerneront probablement les données primaires. Mais de ce cô-té-là, rien n’est encore clairement établi. Quelles données doivent être conservées, dans quel format, pendant combien de temps ? Quelles métadonnées doivent être associées à ces données ? Quels sont les droits sur ces données, quelle licence utiliser ? Au niveau de la citation, des questions se posent sur la granularité à adopter pour l’attribution des DOI. Attribue-t-on un DOI pour un ensemble de données, ou bien un DOI pour chaque sous-ensemble ?Votre bibliothèque suit l’état de l’art dans ces différents domaines, notamment par sa participation au consortium Datacite et au projet e-lib.ch qui a pour but de penser la bibliothèque numé-rique de demain au niveau suisse. N’hésitez pas à nous contacter en cas de questionnements !

Références

[1] DELLAVALLE et al. Information Science: Going, Going, Gone: Lost Internet References. Science 2003 302: 787-788 (doi:10.1126/science.1088234)

[2] Information et documentation — Système d’identifiant numérique d’objet, norme ISO 26324:2012:2012-05

[3] infoscience.epfl.ch [4] library.epfl.ch/tools/?pg=sfx [5] datacite.org[6] www.doi.ethz.ch/index_f.html

Article du FI-EPFL 2012 sous licence CC BY-SA 3.0 / L. Walter

GLOSSAIRE &CrossRef: agence officielle d’enregistrement des DOI (digital

object identifier) pour les éditeurs scientifiques.

données primaires: résultats bruts d’expériences, mesures effectuées par des machines, relevés météorologiques,…

données secondaires: documents décrivant et analysant des résultats obtenus, généralement basés sur des données primaires.

Page 13: Flash informatique 2012 - no spécial été - D

13SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

This paper deals with the consequences of Digital Rights Management/DRM systems for libraries, with specific examples at the EPFL Library.In fact, librarians consider that such systems hin-der their users’ access to information. Furthermore, they are seriously problematic for the preservation of documents.

Cet article traite des conséquences pour les biblio-thèques (en général, et la Bibliothèque de l’EPFL en particulier) des systèmes de Digital Rights Manage-ment/DRM. Les bibliothécaires considèrent en effet que ces systèmes sont un obstacle à l’accès à l’infor-mation pour les lecteurs et posent, de plus, de graves problèmes de conservation des documents.

Même dans le monde feutré des bibliothèques, il y a des sujets qui énervent. En effet, nous autres bibliothécaires sommes très attachés au principe de la liberté d’accès à l’information, ce qui nous oblige logiquement à prendre position face à certains pro-blèmes socio-technologiques de ce début de XXIe siècle. Et par-fois, croyez-le ou non, cela peut faire du bruit. Eh oui.Avec l’essor de la littérature numérique, les DRM (Digital Rights Management, expression désignant toutes sortes de systèmes de protection de données numériques contre la copie) sont devenus un sujet très sensible pour les bibliothèques [1]. Ils sont en effet en conflit avec plusieurs des principes qu’elles défendent. Exa-minons par exemple le code de déontologie des bibliothécaires suisses [2]. De par leur nature même, les DRM s’opposent à la promotion de l’accès aux documents: le contrôle imposé par le producteur est incompatible avec la diffusion du savoir prônée par les bibliothèques. D’autre part, les DRM sont un obstacle sup-plémentaire, peut-être insurmontable, pour la préservation des documents numériques, rendue déjà passablement compliquée par les questions de pérennité des systèmes et des formats. Les bibliothécaires sentent donc que leur responsabilité est engagée dans cette problématique.Les réactions les plus virulentes sont en général le fait d’activistes individuels (à petite échelle, votre serviteur n’est pas le dernier à pester contre les DRM chaque fois que l’occasion s’en pré-sente), mais parfois la résistance s’organise plus formellement. Par exemple, la Déclaration des droits numériques du lecteur (Readers’ Bill of Rights for Digital Books) recueille l’adhésion d’un nombre croissant de lecteurs (évidemment), mais aussi de biblio-thécaires [3], et même d’auteurs.

DRM et bibliothè[email protected], EPFL - Information scientifique et bibliothèques, bibliothécaire coordinateur de team

logos de la Déclaration des droits numériques du lecteur (images sous licence Creative Commons Attribution-ShareAlike; source: readersbillofrights.info,

réalisation originale Nina Paley)

Les organisations professionnelles sont impliquées dans le débat depuis des années, avec bien sûr un langage plus mesuré. Dès 2002, la commission sur le droit d’auteur et les questions légales de l’IFLA (International Federation of Library Associations and Institutions, principale organisation internationale représentant les intérêts des bibliothèques et de leurs usagers), s’est inquiétée des répercussions des DRM sur les services rendus [4]. En 2005, l’Association des Bibliothèques et Bibliothécaires Suisses (BBS, au-jourd’hui BIS) prenait position sur les modifications de la Loi fédé-rale sur le droit d’auteur et les droits voisins (LDA) proposées par la Confédération et se prononçait contre les DRM en ce qui concerne les œuvres littéraires [5]. L’article 39a de la LDA, qui interdit le contournement des mesures techniques de protection du droit d’auteur, est tout de même entré dans la loi, mais il est important de noter que l’alinéa 4 autorise néanmoins le contournement si le but est une utilisation licite du contenu protégé. Les exceptions au droit d’auteur dont bénéficient les bibliothèques (par exemple le droit de créer des copies d’archive, LDA art. 24 al. 1bis) restent donc garanties par la loi.Où se place votre bibliothèque dans tout ça ? La Bibliothèque de l’EPFL a en fait assez peu de problèmes pratiques avec les DRM, ce genre de technologie étant peu répandu dans le domaine de l’in-formation scientifique et donc beaucoup moins important pour nous que pour des bibliothèques de lecture publiques. En général, la seule restriction d’accès aux ressources documentaires numé-riques est un contrôle par adresse IP, plus rarement un mot de passe. On peut imaginer plusieurs explications à cette absence de DRM. Pour commencer, il faut se souvenir que la documentation scientifique numérique a vraiment décollé avec les périodiques électroniques, à partir du milieu des années 90. Proposés par les éditeurs avant le phénomène Napster &, les articles en ligne n’ont pas été encombrés de mesures de protection particulières et les chercheurs se sont habitués à cette situation assez confortable. D’autre part, on peut imaginer qu’il serait assez peu rentable pour les éditeurs de développer des DRM pour du contenu s’adressant à la communauté la mieux armée pour les contourner ! Quoi qu’il en

Page 14: Flash informatique 2012 - no spécial été - D

14141414 flash informatique1414 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique

soit, le même genre de politique a généralement été appliqué aux livres électroniques (ebooks) et autres ressources documentaires numériques dans les domaines scientifiques et techniques.Néanmoins, la vigilance reste de mise: le monde de l’édition grand public semble beaucoup plus sensible à la tentation du DRM, et il serait regrettable que la contagion gagne notre tour d’ivoire. La politique documentaire de la bibliothèque est de favoriser autant que possible les contenus indépendants de la plate-forme et non encombrés de DRM (critères aussi appliqués par le Consortium des Bibliothèques Universitaires Suisses [6]) et d’éviter ceux qui ne suivraient pas ces principes. Malheureusement, ce n’est pas toujours possible et nous sommes parfois contraints d’obtenir la documentation réclamée par nos lecteurs auprès de fournisseurs moins conciliants. La plate-forme DawsonEra &, qui héberge certains ebooks de notre collection, en est un exemple. C’est par-fois la seule façon d’obtenir un livre spécifique sous forme élec-tronique; or la copie et l’impression des livres proposés sur cette plate-forme sont limitées à 5% du texte. De surcroît les docu-ments ne peuvent être téléchargés pour une consultation hors connexion que pour une durée de quelques jours, après lesquels ils expirent et deviennent illisibles. Nous rencontrons aussi des documents à durée de vie limitée dans le cadre plus restreint de la fourniture d’articles par d’autres bibliothèques (service appelé prêt entre bibliothèques ou PEB dans notre jargon). La British Li-brary, qui est une de nos sources pour ce service, nous envoie des articles scannés au format PDF protégés par un DRM qui les rend illisibles après quelques jours. Nous sommes donc forcés de les imprimer dès réception pour être sûrs que la personne qui nous a demandé un article pourra effectivement le lire.Pour finir, nous devons mentionner que conformément à l’article 39b de la LDA, le Conseil fédéral a mis en place un Observatoire des mesures techniques (OMET) qui veille à ce que les mesures de protection n’étendent pas artificiellement la portée du droit d’au-teur. En cas de problème ou de plainte, l’OMET peut faire office de médiateur ou de rapporteur auprès des autorités compétentes – une sorte de Monsieur Prix des DRM, en quelque sorte. Ces derniers mois, l’Observatoire a commencé à s’intéresser à l’utili-sation de mesures techniques dans le domaine de la littérature scientifique. Un groupe de travail comprenant des représentants de plusieurs bibliothèques universitaires suisses (dont la Biblio-thèque de l’EPFL) s’est réuni le 30 avril dernier pour un premier état des lieux: l’expérience de nos collègues de toute la Suisse est assez semblable à la nôtre. Afin d’approfondir cette question et d’avoir une idée plus nette de la situation, le groupe s’est lancé dans la préparation d’une enquête plus systématique auprès de toutes les institutions universitaires. Les résultats d’une telle en-quête devraient décider de l’opportunité ou non d’actions plus concrètes.En résumé, les DRM sont perçus par les bibliothèques comme un obstacle sérieux au service public qui est notre mission première. À l’heure actuelle, les bibliothèques scientifiques comme celle de l’EPFL sont relativement à l’abri de ce problème, mais suivent avec attention l’évolution du marché pour éviter une dégradation de leurs services.

Références

[1] JACQUESSON, Alain. Du livre enchaîné aux DRM. BBF. 2011, n° 3, p. 36-41. bbf.enssib.fr/consulter/bbf-2011-03-0036-007 [consulté le 21.06.12]

[2] www.bis.info/images/stories/documents/Verband/deontolo-gie.pdf [consulté le 21.06.12]

[3] labibapprivoisee.wordpress.com/2011/03/14/boudons-les-catalogues-des-gros-editeurs-bourres-de-drm/ [consulté le 21.06.12]

[4] www.ifla.org/en/node/452 [consulté le 21.06.12][5] www.bis.info/images/stories/documents/Fachthemen/Urhe-

berrecht/stellung_uhr_fuer_bbs.pdf [consulté le 21.06.12][6] infoscience.epfl.ch/record/165930/files/ebooks_bis2011.pdf

[consulté le 21.06.12].

Article du FI-EPFL 2012 sous licence CC BY-SA 3.0 / A. Borel

GLOSSAIRE &DawsonEra: plate-forme de vente de livres électroniques, distri-

buant des titres de plusieurs centaines d’éditeurs. Cette forme d’agrégation de contenu permet de trouver relativement facile-ment un titre donné sous forme électronique et de l’acheter, au prix de conditions d’accès généralement plus restrictives en comparaison avec d’autres sources (l’agrégateur ayant inté-rêt à proposer aux éditeurs qu’il souhaite attirer sur sa plate-forme les conditions qui leur paraîtront les plus favorables).

Napster: un des premiers systèmes de partage de fichiers peer-to-peer réellement populaires (démarré en 1999). Attaqué en justice par l’industrie musicale américaine à cause de la distribution très large de fichiers MP3 piratés, le service a fermé en 2001.

DRM et bibliothèques

Page 15: Flash informatique 2012 - no spécial été - D

15SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

SavoirLibre is a new Web platform that aims at strengthening the dissemination, visibility and ac-cessibility of scientific knowledge among the general public. This project was presented for the first time during the 13th edition of the LSM (Libre Software Meeting) on 12th July 2012. The beta version of savoirlibre.net is already online and the completed version will be available in autumn 2012.

SavoirLibre est une nouvelle plate-forme Web dont le but est de renforcer la diffusion, la visibilité et l’accessibilité des savoirs scientifiques auprès du grand public. Ce projet a été présenté pour la pre-mière fois à l’occasion de la 13ème édition des RMLL (Rencontres Mondiales du Logiciel Libre) le 12 juillet 2012. La version bêta du site savoirlibre.net est en ligne et la sortie de la version aboutie est prévue pour l’automne 2012.

Quelle est la proportion des savoirs produits au sein des institu-tions scientifiques qui accèdent à l’espace public ? Quel est l’im-pact ou l’influence des savoirs produits au sein des universités sur la société ? Qu’advient-il des savoirs communiqués lors des évé-nements scientifiques ? Les savoirs produits au sein des universités peuvent-ils intéresser le grand public ? Voici quelques questions qui sont à la base du développement du projet SavoirLibre.

À l’origine du projet

Trois principaux constats sont à l’origine de la création de la plate-forme SavoirLibre:1 Le volume des connaissances scientifiques double actuelle-

ment tous les cinq ans, alors que la transmission des fruits de la recherche vers les citoyens et les citoyennes reste très faible. 50% des contenus scientifiques produits ne sont lus que par leurs propres auteurs et éditeurs, et 90% des recherches ne sont jamais citées. Un énorme fossé s’est creusé entre la quan-tité des savoirs produits et leur diffusion 1.

2 Notre époque est marquée par des mutations politiques, économiques, technologiques et environnementales déter-minantes pour l’avenir de l’humanité. L’accès à des connais-sances scientifiques à propos de ces mutations pourrait aider les citoyens et les citoyennes à mieux conscientiser ces pro-blèmes et à se mobiliser davantage pour y faire face.

3 Le bassin lémanique compte de nombreuses institutions uni-versitaires de renommée internationale. De ce fait, un grand

SavoirLibre, pour la diffusion des savoirs [email protected], fondateur de la plate-forme SavoirLibre, savoirlibre.net

nombre de recherches sont menées dans la région et de nom-breux événements scientifiques y sont organisés, ce qui draine des chercheurs de pointe du monde entier. Or, beaucoup de ces recherches, qui pourraient potentiellement intéresser le grand public, sont complètement ignorées de ce dernier. De même, certains événements scientifiques ne sont pas suffisamment visibles et restent confinés dans des cercles res-treints de spécialistes, alors qu’ils seraient susceptibles d’inté-resser les citoyens; ce qui pourrait aussi générer des échanges constructifs entre le monde scientifique et la société.

Ainsi, beaucoup de moyens sont investis dans la production de nouvelles connaissances, alors que les structures de communi-cation de la recherche sont encore trop peu développées. Une meilleure communication des fruits de la recherche permettrait de mieux valoriser les connaissances produites et de les partager davantage avec le grand public.

Décloisonner et valoriser les savoirs

Les nouvelles technologies d’information et de communication offrent des ressources très intéressantes pour opérer un décloi-sonnement des connaissances scientifiques. La plate-forme sa-voirlibre.net a été construite sur la base du système de gestion de contenu libre WordPress & qui offre un éventail très large de possibilités afin d’atteindre l’objectif principal du projet: valoriser

1 CRIBB, Julian, SARI, Tjempaka. Open science, sharing knowlege in the global century. Ed. CSIRO. Collingwood. 2010

Page 16: Flash informatique 2012 - no spécial été - D

16161616 flash informatique1616 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique

les savoirs en les rendant plus accessibles pour le grand public, grâce à un travail de médiatisation des événements scientifiques sur Internet comme des conférences, des colloques, ou la sortie de publications. Les contenus produits par SavoirLibre s’adressent donc avant tout au grand public. Cependant, SavoirLibre effectue aussi un travail de documentation des événements scientifiques sur Internet; ceci permet, d’une part, de les pérenniser tout en augmentant leur visibilité et par là-même leur impact; et d'autre part, de valoriser le travail des chercheurs et des chercheuses sur la scène scientifique internationale en leur mettant à disposition un support d’édition complémentaire aux revues scientifiques.L’information sur la plate-forme est organisée de manière simple et compréhensible en suivant seulement trois catégories princi-pales: événement, auteur et thème. Elle est rapidement acces-sible et comprend des fichiers textes, audios et vidéos qui peuvent être librement téléchargés et partagés. Les données sont toujours introduites et contextualisées ce qui facilite leur compréhension. SavoirLibre inscrit aussi sa démarche dans une recherche esthé-tique. L’unité visuelle de sa plate-forme permet l’identification des contenus qu’elle produit et la qualité esthétique de ses éléments graphiques vise à élargir son public à des non-spécialistes.SavoirLibre se positionne comme une plate-forme intersavoirs et ouverte, qui entend accueillir tout savoir pouvant intéresser le grand public; qu’il provienne des sciences sociales, des sciences exactes ou, encore, d’espaces extra-institutionnels. SavoirLibre est pour le moment totalement autofinancé et a débuté ses travaux en février 2010 en couvrant plusieurs événements organisés par l’Université de Lausanne et le Collège International de Philo-sophie de Paris &.

Article du FI-EPFL 2012 sous licence CC BY-SA 3.0 /

O. Odermatt

SavoirLibre, pour la diffusion des savoirs scientifiques

SavoirLibre poursuit les objectifs spécifiques suivants:1 rapprocher la société du monde scientifique et de l’univer-

sité;2 renforcer les usages citoyens des savoirs scientifiques;3 stimuler les débats sur les enjeux contemporains de société

dans l’espace public;4 offrir un espace de réflexion interdisciplinaire et intersavoir

sur les enjeux de société contemporains;5 documenter les événements scientifiques sur Internet afin

d’augmenter leur impact;6 offrir une fenêtre de visibilité aux chercheurs et aux cher-

cheuses sur Internet afin de valoriser leurs travaux sur la scène scientifique internationale.

1 L’archivage permet de documenter les événements scientifiques par leur enregistrement et leur mise à disposi-tion sur Internet.

2 Un service de médiatisation qui consiste à réaliser des contenus audiovisuels à partir des sujets abordés lors des événements scientifiques. L’objectif est de présenter de manière synthétique et exemplifiée les propos des cher-cheurs et de les rendre plus accessibles et plus attractifs.

3 La mise en lien permet de relier des contenus produits par SavoirLibre à des contenus complémentaires qui se trouvent à l’intérieur et à l’extérieur de la plate-forme.

4 La mise en réseau consiste à augmenter la visibilité des contenus produits par la plate-forme grâce à l’utilisation des réseaux sociaux et de la liste de diffusion SavoirLibre.

5 Le référencement permet d’améliorer le positionnement et donc la visibilité des contenus de SavoirLibre sur les mo-teurs de recherche.

6 Les contenus sont produits exclusivement sous licences Creative Commons afin de renforcer leur diffusion et de garantir leur accès au plus grand nombre.

GLOSSAIRE &Collège International de Philosophie de Paris (CIPh):

organisme de recherche et de formation à la recherche ouvert au public où s'engagent et se croisent des pratiques philo-sophiques inédites. Situé à Paris, il fonctionne sur le modèle des universités ouvertes, dont il se distingue par le souci de donner un accès à la recherche en mouvement, plutôt qu'à un savoir constitué. www.ciph.org

WordPress: système de gestion de contenu libre écrit en PHP reposant sur une base de données MySQL. WordPress est distribué par Automattic. www.wordpress.org. W

W = tiré de Wikipédia

Page 17: Flash informatique 2012 - no spécial été - D

17SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

Licences libres et Open [email protected], EPFL –STI - IGM - LENI (Laboratoire d’énergétique industrielle)

How Open Access and Creative Commons licenses can apply to academic and research fields and what are the benefits.

Comment le Libre Accès et les licences Creative Commons peuvent s’appliquer aux domaines aca-démiques et de recherche et quels en sont les inté-rêts.

Pour commencer, Creative Commons

Le but de Creative Commons [1] (CC) est de proposer de manière simple et licite des alternatives aux droits de propriété intellec-tuelle établis dans une juridiction, y compris en Suisse et en Eu-rope. À travers six contrats, ou licences Creative Commons [2], un auteur peut appliquer un moyen de régir les conditions de réu-tilisation et/ou de distribution de ses œuvres, de manière moins restrictive que le copyright en vigueur.Les licences Creative Commons ont été publiées la première fois le 16 décembre 2002, puis ont régulièrement évolué. La version actuelle (depuis 2007 aux USA) est la 3.0.L’objectif de l’organisation est de permettre l’évolution d’une œuvre tout au long de sa diffusion en encourageant sa circu-lation, son échange et sa modification, de façon analogue aux différents types de licences [3] régissant les logiciels libres.

Les six contrats

Les six contrats types de Creative Commons sont issus de combi-naisons de quatre options principales:

Paternité (en anglais Attribution, BY): obligation de citer l’auteur.

Interdiction de l’utilisation commerciale (en anglais Non commercial, NC): empêchement par l’auteur d’un usage commercial.

Modification (en anglais No Derivs, ND): interdiction de modifier l’œuvre originale.

Partage à l’identique (en anglais Share Alike, SA): distri-bution de toutes créations dérivées selon la même licence ou non.

Certaines combinaisons n’étant pas compatibles entre elles, et le droit de paternité étant une condition sine qua non, il ne reste que les six contrats suivants: BY, BY-ND, BY-NC-ND, BY-NC, BY-NC-SA, BY-SA:

Paternité

PaternitéPas de modification

PaternitéPas de modificationPas d’utilisation commerciale

PaternitéPas d’utilisation commerciale

PaternitéPas d’utilisation commerciale Partage à l’identique

PaternitéPartage à l’identique

creativecommons.fr/licences/faq/

À noter qu’il existe une septième possibilité, la licence Creative Commons Zéro (CCØ) [4] dont le but est de renoncer au maxi-mum à ses droits d’auteur pour s’approcher au plus près du do-maine public.Il existe de nombreux exemples d’utilisation de ces licences, comme l’album The Wired CD [5], les photos de campagne d’Oba-ma [6], ainsi que les très nombreuses photographies sur Flickr [7], le film le Bal des Innocents [8], les articles de l’encyclopédie Wiki-pédia [9], les données géographiques d’OpenStreetMap [10] ou encore les articles du groupe logiciel libre [11] de l’EPFL. Mi-2011, Creative Commons International a publié un document sur la réussite de créateurs ayant placé leur contenu sous licence Crea-tive Commons, The Power of Open [12], qui donne des exemples aussi variés que concrets.

Fondation du mouvement libre accès

La signature de l’Open Access Initiative [13] à Budapest en 2001 est considérée comme le premier rassemblement fondateur du mouvement libre accès. En 2003, la Déclaration de Berlin sur le Libre Accès à la Connaissance en Sciences exactes, Sciences de la vie, Sciences humaines et sociales [14], construite et basée sur l’initiative de Budapest, est fondatrice du mouvement Libre Accès.Comme le montrent ces citations, les signataires de cette décla-ration ont pour but la facilitation d’accès et d’utilisation des connaissances scientifiques:

Page 18: Flash informatique 2012 - no spécial été - D

18181818 flash informatique1818 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique

L’Internet a fondamentalement transformé les réalités matérielles et économiques de la diffusion de la connais-sance scientifique et du patrimoine culturel. Pour la toute première fois, l’Internet nous offre la possibilité de constituer une représentation globale et interactive de la connaissance humaine, y compris son patrimoine culturel, et la garantie d’un accès mondial.[…]Nous remplissons par trop imparfaitement notre mission de diffusion de la connaissance si l’information n’est pas mise rapidement et largement à la disposition de la socié-té. De nouveaux modes de diffusion de la connaissance, non seulement sous des formes classiques, mais aussi, et de plus en plus, en s’appuyant sur le paradigme du libre accès via l’Internet, doivent être mises en place. Nous définissons le libre accès comme une source universelle de la connaissance humaine et du patrimoine culturel ayant recueilli l’approbation de la communauté scientifique. Dans le but de concrétiser cette vision d’une représenta-tion globale et accessible de la connaissance, le Web du futur doit être durable, interactif et transparent. Le conte-nu comme les outils logiciels doivent être librement acces-sibles et compatibles.

En plus d’assurer l’accès à la publication et sa pérennité, la déclara-tion garantit la reproductibilité des documents dans la définition d’une contribution au libre accès:

Les contributions au Libre Accès se composent de résultats originaux de recherches scientifiques, de données brutes et de métadonnées, de documents sources, de représenta-tions numériques de documents picturaux et graphiques, de documents scientifiques multimédias.

Contrairement à ce que l’on pourrait croire, le libre accès ne se li-mite donc pas seulement à la publication finale, mais donne égale-ment accès aux éléments ayant permis cette publication. Le paral-lèle avec les fichiers sources d’un logiciel open source est évident. Parmi les 382 signataires [15] actuels de la Déclaration de Berlin, quelques institutions suisses y participent: les Académies suisses des sciences, la Conférence des recteurs (Universités et HEP), le Fonds national suisse de la recherche scientifique (FNS), l’ETHZ, les Universités de Fribourg, Saint-Gall et Zurich.Au niveau européen il existe l’Open Access Infrastructure for Re-search in Europe (OpenAIRE) [16], qui vise à soutenir la mise en œuvre du libre accès en Europe selon les directives de l’European Research Council (ERC) [17].

Open Access

L’Open Access [18], contrairement à l’Open Content, ne donne pas le droit de modifier le contenu de la publication, mais se contente d’assurer sa disponibilité et d’associer le contenu à un ou plusieurs auteurs. À l’inverse des contenus multimédia ou logiciels, ce point est crucial dans le milieu scientifique, car la

modification d’une publication sans la recherche qui l’a consti-tuée perd tout son sens. Les licences Creative Commons peuvent être utilisées pour permettre l’utilisation de publications en Open Access. Deux voies sont possibles:z la voie dite verte, où l’auteur publie dans un journal puis ar-

chive lui-même sa version du papier;z la voie en or, où l’auteur rend immédiatement public son ar-

ticle via le site de la revue ou via un Open Access Journal.Une des plates-formes la plus connue pour la voie en or est la Public Library of Science (PLoS) [19] qui, depuis 2003, a eu la volonté de créer une bibliothèque ouverte en ligne dédiée à plu-sieurs domaines médicaux ou scientifiques. La revue est payée par une contribution financière à laquelle sont soumis les articles pu-bliés. Ce modèle auteur-payeur est parfois critiqué, pourtant les études montrent que son coût n’est pas forcément supérieur et surtout que le taux de citation des articles en Open Access est plus important que celui des articles en modèle Pay-to-access [20].Le concept de l’Open Access est de rendre l’article disponible im-médiatement en ligne, sans frais d’accès et sans restriction sur la redistribution ou l’utilisation ultérieure, tant que l’auteur et la source sont cités comme spécifié dans la licence Creative Com-mons.

Connaissances scientifiques et Creative Commons

L’organisation Creative Commons cherche également à dévelop-per l’accès à la connaissance en proposant des supports simples:z En 2005, Creative Commons a lancé le projet Science Com-

mons [21] dont le but premier est de développer une poli-tique et des outils pour aider à la réutilisation (aka réutilisabi-lité) des recherches et des données de recherche.

z Parallèlement à la recherche, Creative Commons pense aussi au monde de l’éducation en créant, en 2007, ccLearn [22] qui est dédié à la promotion de l’utilisation des Open Educational Resources (OER) [23], ou Ressources Éducatives Libres (REL) en français, ainsi que de l’Open Learning. Leur mission est de réduire les barrières légales, techniques et sociales pour le par-tage et la réutilisation du matériel éducatif.

Open Education

Toujours dans l’idée d’éliminer les barrières à la connaissance, des modèles d’éducation libres ont vu le jour sur la base des principes de l’Open Access. Les plus prestigieuses universités ont mainte-nant des cours disponibles pour tous et gratuitement, le MIT et Harvard se sont associés pour la plate-forme edX [24] alors que Princeton, Stanford, University of California, Berkeley, University of Michigan-Ann Arbor, and University of Pennsylvania ont lancé Coursera [25].

Licences libres et Open Access

Page 19: Flash informatique 2012 - no spécial été - D

1919SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

Un grand acteur du savoir libre est l’Open Course Ware Consortium [26] qui en plus de fournir une plate-forme à des universités (par exemple pour l’Institut des sciences et technologies de Paris [27]), a organisé l’Open Educa-tion Week [28] qui visait à informer sur le mouvement de l’éducation ouverte et sur son impact sur l’enseignement et l’apprentissage dans le monde entier.Le site Why Open Education Matters [29] propose des courts-métrages qui expliquent les bénéfices et les pro-messes des ressources d’éducation libres pour les ensei-gnants, les étudiants et les écoles partout dans le monde.En 2004, l’Open Knowledge Foundation [30] est créée au Royaume-Uni dans un but non lucratif pour promouvoir la culture libre dans les domaines où les données peuvent être ouvertes, comme l’éducation et la science. Différents projets disponibles sur le site promeuvent l’accès libre et gratuit, la liberté de redistribution et de réutilisation, sans aucune restriction.

Où trouver des ressources et où publier

Parmi la multitude de sites concernés par l’Open Access, en voici une sélection:z Directory of Open Access Journals (DOAJ) [31]: compte un

peu moins de 8000 revues et semble être un bon point de départ.

z Registry of Open Access Repositories (ROAR) [32]: donne des informations sur la taille et le statut des dépôts à travers le monde.

z ArXiv [33]: une des plus anciennes archives de prépublica-tions électroniques compte 765 000 e-prints en Physique, Ma-thématique, Informatique, Biologie, Finance et Statistiques.

z Public Library of Science (PLoS) [34]: indexé par Scopus [35], CrossRef [36], ainsi que par Google Scholar [37].

z InTech [38]: 1800 livres, 13 journaux et presque 14 millions de téléchargements. Très actif dans les domaines de la médecine et de l’ingénierie.

z Open Access Infrastructure for Research in Europe (OpenAIRE) [39]: au niveau européen, flirte avec les 10 000 publications et propose aussi des contenus non anglophones.

z Association Savoir Libre [40]: va lancer sa plate-forme en au-tomne prochain. Bien que dans les grandes lignes le concept soit le même que pour les autres plates-formes, l’association a pour but de stimuler les débats entre scientifiques et citoyens et d’encourager l’analyse interdisciplinaire des thèmes de société contemporains. Lire aussi l’article de Omar Odermatt, SavoirLibre pour la diffusion des savoirs scientifiques dans ce journal.

z Open-access.net [41]: permet de répondre à la demande croissante que l’Open Access doit couvrir en Suisse. Son but est de rassembler sur sa plate-forme des informations épar-pillées et de les rendre accessibles à différents groupes cibles. Open-access.net permet également de répondre aux ques-tions juridiques [42] de l’Open Access en Suisse.

z À l’EPFL: Infoscience [43] permet la soumission de publica-tions selon la voie verte, alors que la bibliothèque [44] permet la recherche de ressources Open Access. Lire aussi l’article de Julien Junod, Open Access à l’EPFL dans ce journal.

Conclusion

La production et la diffusion des connaissances dans le monde actuel dépendent presque totalement des outils informatiques. Cependant des barrières légales, techniques et sociales sont en-core présentes et entravent la libre diffusion de la connaissance de manière globale. Les différentes initiatives présentées dans cet article ont comme point commun la mise en exergue ainsi que la promotion du partage et de l’échange de ces connaissances au moyen de différents outils mis à disposition. Les connaissances, et plus particulièrement les publications scientifiques, n’ont d’intérêt que si elles sont lues et appréciées (nombre de citations). L’éva-luation de la publication et la réputation de l’auteur dépendent fortement de l’accessibilité aux publications, car au final c’est la communauté scientifique qui se régule et se modère d’elle-même.La chaîne de la libre connaissance, du support didactique à la recherche finale, a déjà bon nombre d’adhérents qui souhaitent sa démocratisation globale. Un partage plus important des connais-sances actuelles en Open Access serait un enrichissement impor-tant pour l’humanité et profiterait à la majorité.

Licences libres et Open AccessConférence Creative Commons – Bibliothèque de l’EPFL

Partager, télécharger, utiliser légalement… Grâce aux Creative Commons !

Jeudi 25 octobre de 15h00 à 19h00 au Forum du Rolex Learning Center, entrée gratuite, inscription obligatoire

Rencontre organisée par la Bibliothèque de l’EPFL à l’oc-casion du dixième anniversaire des licences CC (Creative Commons).Depuis 10 ans déjà, les licences CC permettent de parta-ger et de réutiliser du contenu publié librement sur Inter-net. Avec cette rencontre, vous serez en mesure de mieux comprendre les nouvelles pratiques de la création et de la diffusion à l’ère numérique, de mieux cerner les diffé-rentes utilisations qui peuvent être faites de ces licences, mais également de mieux maîtriser leur fonctionnement et leurs atouts.Informations et inscriptions sur: go.epfl.ch/lib-cc

Page 20: Flash informatique 2012 - no spécial été - D

20202020 flash informatique2020 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique

Pour en découvrir plus

Classement antéchronologique:

z BOULOGNE, François. Nouveaux enjeux de la publication scientifique. 23 avril 2012. sciunto.wordpress.com/2012/05/16/publication-dune-synthese-personnelle-surla-publication-scientifique/.

z JEAN, Benjamin. Option Libre. Du bon usage des licences libres. Décembre 2011. Framasoft. framabook.org/option-libre-du-bon-usage-des-licences-libres.

z SCHÜTZ, Frédéric, POSSOZ, Anne. Licences Libres en toute (ré)créativité. Flash informatique spécial rentrée. 16 septembre 2011. flashinformatique.epfl.ch/spip.php ?article2475.

z MASUTTI, Christophe. Pour libérer les sciences. 15 décembre 2010. linuxetleschoses.tuxfamily.org/sciencelibre & www.framablog.org/index.php/post/2010/12/20/pour-liberer-les-sciences-christophe-masutti.

z RUTTER, Michael Patrick, SELLMAN, James. Uncovering open access. 9 novembre 2010. OpenSource.com. opensource.com/education/10/10/uncovering-openaccess. (traduction dispo-nible sur www.framablog.org/index.php/post/2010/12/11/de-couvrir-le-libre-acces).

z DURAND-BARTHEZ, Manuel. Droits d’auteur & Publication scientifique. Mai 2009. www.univ-bordeaux.fr/ddoc/urfist/do-cuments/durand-barthez.pdf.

z THYS, Laurence. Aspects juridiques de la publication scientifique. 2009. www.ciuf.be/cms/images/stories/ciuf/bi-blio-theques/guidejuridique.pdf.

z Divers auteurs. Libre accès (édition scientifique). Wikipédia. 27 juillet 2006. fr.wikipedia.org/wiki/Libre_accès_(édition_scientifique).

Références

[1] creativecommons.org[2] creativecommons.org/licenses/[3] SCHÜTZ, Frédéric, POSSOZ, Anne. Licences Libres en toute

(ré)créativité. Flash informatique spécial rentrée, 16 septembre 2011, flashinformatique.epfl.ch/spip.php ?ar-ticle2475

[4] creativecommons.org/publicdomain[5] creativecommons.org/wired[6] www.flickr.com/photos/whitehouse & www.framablog.org/

index.php/post/2009/05/03/photographie-obama-davos-creative-commons

Licences libres et Open Access

[7] www.flickr.com/search/ ?l=cc[8] www.ecrivains.org/le-bal-des-innocents/[9] www.wikipedia.org[10] www.openstreetmap.org[11] flashinformatique.epfl.ch/spip.php ?article2283[12] thepowerofopen.org[13] www.soros.org/openaccess[14] oa.mpg.de/files/2010/04/BerlinDeclaration_wsis_fr.pdf[15] oa.mpg.de/lang/en-uk/berlin-prozess/signatoren/[16] www.openaire.eu[17] erc.europa.eu/documents/erc-scientific-council-guidelines-

open-access[18] en.wikipedia.org/wiki/Open_access[19] www.plos.org[20] www.nature.com/nature/focus/accessdebate/21.html[21] sciencecommons.org[22] wiki.creativecommons.org/Creative_Commons_-_ccLearn[23] www.oercommons.org[24] www.edxonline.org[25] www.coursera.org[26] www.ocwconsortium.org[27] www.paristech.org[28] www.openeducationweek.org[29] whyopenedmatters.org[30] okfn.org[31] www.doaj.org[32] roar.eprints.org[33] arXiv.org[34] www.plos.org[35] www.scopus.com[36] www.crossref.org[37] scholar.google.com[38] www.intechopen.com[39] www.openaire.eu[40] savoirlibre.net[41] open-access.net[42] open-access.net/ch_en/general_information/legal_issues/[43] infoscience.epfl.ch[44] library.epfl.ch/en/ebooks/

Article du FI-EPFL 2012 sous licence CC BY-SA 3.0 / N. Borboën

Page 21: Flash informatique 2012 - no spécial été - D

21SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

This paper presents a global approach to the con-cept of document which takes into account its digi-tal evolution. It is a summary of a paper published in 2003 by Roger T. Pédauque, a multidisciplinary group of research scholars, which analyses the con-cept of document under three aspects: the docu-ment as a form (as a material or immaterial object), sign (as meaningful object) or medium (as commu-nication vector).

Objet de notre quotidien, le document nous paraît si évident qu'il ne semble pas nécessaire de le défi-nir précisément. Et pourtant, l’exercice pourrait se révéler plus ardu qu’il n’y paraît. Information, don-née, texte, fichier, papier, article, feuille, ressource, image, courrier, etc. cette sélection de termes employés parfois comme synonymes ou pour dési-gner des objets similaires, nous montre à quel point l’objet document peut être complexe, et ce d’autant plus qu’il s’est trouvé enrichi, augmenté par le pas-sage au numérique. Mais cette évolution, si elle lui a conféré une plus grande plasticité, a également induit, pour l’objet matériel que nous connaissions jusqu’ici, une perte de stabilité.

En 2003, dans un article intitulé Document: forme, signe et médium, les re-formulations du numérique [1], un collectif de chercheurs transdisciplinaires, réunis sous le pseudonyme de de Roger T. Pédauque, se propose d’analyser la notion de docu-ment dans son passage au numérique et de le définir selon trois axes d’études: 1 anthropologique (le document/forme comme objet à voir), 2 cognitive (le document/texte comme objet à penser) et 3 sociale (le document/relation comme objet à transmettre). Les caractéristiques dégagées dans chaque axe sont vues comme des traits dominants de celui-ci. Elles n’excluent pas les caracté-ristiques mises en lumière par les autres approches, mais mettent en évidence plusieurs dimensions du document, perméables entre elles, et qui s’éclairent mutuellement.Cet article se propose de présenter brièvement ces trois dimen-sions du document, illustrées par des propositions de définition, qui évoluent au gré des apports du numérique.

Le document comme forme

Ici le document est traité comme un objet, matériel ou immaté-riel. Le document est un objet ou une inscription dont on repère

Forme, signe et … évasionVers une définition du document numé[email protected], EPFL - Domaine IT - KIS, responsable du projet GED

les frontières et que l’on peut directement percevoir, sans utiliser d’outil. Le support traditionnel dominant est le papier, la trace l’écriture, manuscrite ou imprimée.Une première définition du document est ainsi posée par cette équation:

Document = support + inscriptionLa musique enregistrée, le cinéma puis l’audiovisuel ont introduit un premier changement, en rendant l’utilisation d’un outil néces-saire à la perception du contenu.Le passage de l’analogique au numérique a fondamentalement modifié la notion de support en permettant de mêler texte, image, son et animation. La publication électronique a ensuite rendu possible la production à la demande d’un document (à l’écran ou sur papier), déplaçant l’attention initialement portée au support vers la publication elle-même. Le passage au numérique a également induit des changements profonds au niveau de l’inscription. Dans le contexte numérique, celle-ci peut être rapprochée de la notion de codage utilisée en informatique et qui permet de manipuler, transporter des objets. Toujours dans ce contexte (et par analogie à la définition de programme informatique Programme = logiciel + données), la définition de document numérique peut être résumée ainsi:

Document numérique = structure + donnéesComme on le sait, la structure peut énormément varier d’un docu-ment à l’autre, allant du très au très peu, voire pas, structuré. Deux courants de recherche analysent cette structuration. Le premier part de l’analogique pour aller vers le numérique, il concerne les procédés de dématérialisation des documents papier classiques, ou numérisation, qui se basent sur le traitement de l’image et la reconnaissance de formes. Le second courant fait le cheminement inverse: les documents sont reconstitués à partir d’algorithmes en remontant leur structure ou logique interne pour rendre le texte lisible à l’écran. Ces recherches ont débouché sur la bureautique, puis la publication électronique et ont trouvé une application à grande échelle avec la révolution du Web. À ce niveau, le Web peut être vu comme une infinité de documents reliés entre eux.Ces deux courants ont mis en évidence deux niveaux fondamen-taux de structuration des documents: z la structure logique, c’est-à-dire la construction d’un docu-

ment en parties et sous parties articulées entre elles, et dont l’élément de structure le plus bas est le texte ou le signal ana-logique (unifié sous différents formats: unicode, MPEG, …)

z la représentation formelle de la présentation avec la notion de balisage qui décrit la structure d’un document plutôt que ses caractéristiques physiques.

Le succès de la norme XML &, et de ces dérivés, est probable-ment dû à la convergence de ces mouvements.Ceci permet de modifier l’équation du document en y insérant ces nouvelles caractéristiques:

Page 22: Flash informatique 2012 - no spécial été - D

22222222 flash informatique2222 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique

Document XML = Données structurées + mise en forme [2]

«Le numérique a déplacé la question du support du docu-ment, qui en assurait la stabilité grâce à la fixité de l’inscrip-tion, vers la problématique de sa structure (…). [E]n sépa-rant de façon radicale la structure logique d’un texte de sa représentation visuelle, elle autorise des traitements formels différents pour un même contenu, à une échelle inédite».

Pédauque, 2003De cet axe, une première définition, partielle, du document est proposée:

«Un document numérique est un ensemble de données orga-nisées selon une structure stable associée à des règles de mise en forme permettant une lisibilité partagée entre son concepteur et ses lecteurs»

Pédauque, 2003

Le document comme signe Cet axe d’étude traite du document comme objet signifiant. Une définition du document traditionnel pourrait être exprimée par l’équation suivante:

Document = inscription + sensLe support est devenu ici secondaire. L’importance est donnée au contenu porteur de sens et matérialisé par l’inscription. Ce sens se définit par rapport au contexte de production et de diffusion du document qui va conditionner son interprétation.Trois idées-forces émergent de cette approche :1 La création: la mise en document est une manière pour nous

d’appréhender ce qui nous entoure. En réalisant des docu-ments, nous classons nos idées, organisons notre discours pour nous aider à penser le monde. La notion de genre tex-tuel et de collection ici est fondamentale: les documents sont regroupés dans de grandes catégories dont les différents élé-ments sont en relation. Le classement varie selon les situations et les époques, il marque nos représentations sociales.

2 L’interprétation: un document n’a de sens que s’il est lu ou interprété par un lecteur (au sens large), et cette interpréta-tion dépend du contexte dans lequel elle se fait. Un même document pourra être compris de manière différente selon l’époque et la situation sociale ou individuelle du lecteur.

3 Les signes: tout objet est potentiellement un signe et pour-rait être un document. En ce sens, une carotte de glace, un échantillon de tissu, un animal dans un zoo, etc. [3], sont des documents, car ils sont décrits, classés et inventoriés dans un système de représentation. Mais la grande majorité des docu-ments sont construits à partir du langage écrit ou parlé.

Ces trois idées ont permis l’invention des langages documen-taires organisés de façon associative ou hiérarchique (références bibliographiques, index, thésaurus, résumés, etc.), conséquence de l’explosion documentaire qui s’est manifestée dès la fin XIXe siècle. Il a ainsi été possible de construire à partir des documents (ou des images ou des objets eux-mêmes) un langage formel permettant de les classer pour les retrouver à la demande.Plus récemment, les outils de traitement automatique de la langue sont apparus, issus du travail commun d’informaticiens et de linguistes pour traiter une problématique similaire. Ils ont eu des résultats spectaculaires dans leur application au Web sous

forme de moteurs. La démarche a consisté à isoler les éléments logiques pour les modéliser. À la lumière de ces éléments, l’équation définissant un document pourrait être modifiée comme suit:

Document numérique = texte informé + connaissancesTexte informé signifiant que le texte (au sens large, y compris au-dio-visuel) pourrait être soumis à un traitement afin d’en repérer les unités d’information. Le remplacement de sens par connais-sances introduit la notion de personnalisation pour un lecteur ou un usager donné.L’arrivée du Web sémantique avec une structuration toujours plus formalisée des documents (XML) et l’insistance sur l’indexation (RDF &) a encore modifié la portée de ces évolutions en intro-duisant les ontologies. Ce n’est plus tant un ensemble de fichiers reliés entre eux qui est visé, mais la constitution d’un réseau qui utilise pleinement les capacités de calcul des machines connectées pour le traitement sémantique des textes. Des métadonnées que l’on peut modéliser et combiner prennent alors toute leur valeur.L’équation peut ainsi être complétée :

Document WS = texte informé + ontologiesSelon cet axe d’étude, une nouvelle définition, toujours partielle, du document peut être proposée:

«Un document numérique est un texte dont les éléments sont potentiellement analysables par un système de connaissance en vue de son exploitation par un lecteur compétent»

Pédauque, 2003

Document comme médium

Ici c’est la fonction sociale du document qui est analysée. Le do-cument est principalement considéré comme vecteur d’un mes-sage entre des personnes. Deux idées sous-tendent cette approche:1 Le document a pour fonction de prouver.2 Le document a pour fonction d’informer.

«Un document donne un statut à une information. Il est porté par un groupe social qui le suscite, le diffuse, le sauve-garde et l’utilise».

Pédauque, 2003C’est également un discours rattaché à son auteur par une si-gnature. Il a donc une valeur d’évidence de l’activité (avec un sens plus large que la notion de preuve juridique) et une valeur d’information, de renseignement, de témoignage.La définition suivante est avancée:

Document = inscription + légitimitéLes documents sont vus ici comme des outils de régularisation des sociétés humaines. Ils permettent de communiquer et de pérenni-ser les lois, normes et les informations nécessaires à leur fonction-nement. L’organisation politique et sociale s’appuie sur l’échange de documents.Une économie interne du document s’est construite à partir des évolutions technologiques qui le constituent et des modalités de la mise en document. Mettre en document peut être vu comme un acte de communication entre un ou plusieurs expéditeurs et un ou plusieurs destinataires. La dynamique de cette mise en do-cument est étudiée principalement selon deux axes: le premier s’intéresse à la communication organisationnelle et étudie les do-

Forme, signe et … évasion

Page 23: Flash informatique 2012 - no spécial été - D

2323SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

cuments dans un processus de travail, le second analyse la communication des médias et s’intéresse au processus de publication.Une nouvelle équation définissant le document est proposée:

Document numérique = texte + procédure

L’avènement du Web a de nouveau induit un changement d’échelle éten-dant le numérique à la société toute entière et permettant à tout un chacun d’être à la fois producteur et consom-mateur de documents. L’augmentation du nombre de documents ainsi mis à disposition ne permet plus de repérer, filtrer ces documents de la manière classique, c’est-à-dire a priori. Ceci doit plutôt se faire a posteriori, selon divers procédés qui tiennent comptent des liens pointant vers les documents eux-mêmes et des algorithmes des moteurs de recherche. Une troisième équation est proposée, qui intègre cette importance prise par le Web:

Document Web = publication + accès repéréDans cette équation,

«la publication seule ne ferait plus la légitimité, il faudrait lui adjoindre la notoriété par le repérage de l’accès».

Pédauque, 2003Une troisième définition du document est avancée:

«Un document numérique est la trace de relations sociales reconstruites par les dispositifs informatiques».

Pédauque, 2003

En conclusion

Dans chacun de ses axes, la notion de contrat de lecture est sou-lignée au travers de la lisibilité dans le premier, de la compréhen-sion dans le second et de la sociabilité dans le troisième. Il est pro-bable que dans ces trois dimensions s’incarne la notion moderne de document.

«Un document ne serait finalement qu’un contrat entre des hommes dont les qualités anthropologiques (lisibilité-per-ception), intellectuelles (compréhension-assimilation) et so-ciales (sociabilité-intégration) fonderaient une part de leur humanité, de leur capacité à vivre ensemble».

Pédauque, 2003

Pour aller plus loin

z PÉDAUQUE, Roger T. Le texte en jeu. Permanence et trans-formation du document 2005. [sic 00001401 - version 1]. archivesic.ccsd.cnrs.fr/sic_00001401.

Forme, signe et … évasion

GLOSSAIRE &RDF (Ressources Description Framework): modèle de métadon-

nées défini par le W3C.

XML (Extensible Markup Language): est un langage informatique de balisage générique qui dérive du SGML. W

W = tiré de Wikipédia

z PÉDAUQUE, Roger T. Document et modernité. 2006 [sic 00001741-version 1]. archivesic.ccsd.cnrs.fr/sic_00001741.

z SALAÜN, Jean-Michel. Vu, lu, su: Les architectes de l'infor-mation face à l'oligopole du Web. Editions de la Découverte (09 février 2012).

Références

[1] PÉDAUQUE, Roger T. Document: forme, signe et médium, les re-formulations du numérique. Version 3. 8-07-2003. @rchiveSIC (2003) [sic_00000511 - version 1]. archivesic.ccsd.cnrs.fr/sic_00000511

[2] En rappelant que stricto senso, la norme XML ne définit pas de mise en forme, celle-ci est définie par XSL.

[3] Voir également l’article de ERTZSCHEID, Olivier. L’homme est un document comme les autres: du World Wide Web au World Life Web. Hermes, 53 (2009) 33-40 [sic_00377457 - version 2]. archivesic.ccsd.cnrs.fr/sic_00377457. [consultation 05.07.2012].n

OTLET Paul, Traité de documentation: le livre sur le livre, théorie et pratique. Bruxelles. Editions Mundaneum. 1934. 431 p.

Page 24: Flash informatique 2012 - no spécial été - D

flash informatique242424 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

Welcome to the nascent Web of Data.

Après des années de tâtonnements, le Web est enfin prêt à accueillir toute la richesse de vos données, et cela dans des formats ouverts et interopérables…

Quel format choisir pour publier ses données en ligne ? Malgré l’engouement extraordinaire pour l’Open Data et le partage de données, le problème du choix du format se pose encore et tou-jours. Les formats antédiluviens ou semi-propriétaires (tels CSV ou Excel) sont bien sûr à proscrire, pour leur manque d’expres-sivité d’une part, et leur manque d’ouverture d’autre part. XML demeure un bon choix pour publier des documents. Il se révèle par contre peu pratique pour la publication de données brutes, de par la rigidité de ses schémas et la difficulté inhérente à mixer des éléments XML provenant de documents hétérogènes. JSON a le vent en poupe pour l’échange de données point à point, même si le format n’a jamais été prévu pour modéliser ou intégrer des données complexes.

Publier ses données sous forme de Linked Open [email protected], Université de Fribourg, directeur de eXascale Infolab

La solution la plus prometteuse dans ce domaine est peut-être le LOD &, formalisme moderne et standardisé par l’organe faîtier du Web, le W3C.

L’émergence du Web des données

Tout commence en 2006 par une note publiée par Tim Berners-Lee promulguant une méthode de publication des données tirant partie de l’architecture du Web [1]. Le créateur du Web met en avant quatre principes fondamentaux qui sont toujours à la base de la publication de Linked Open Data:1. utiliser des URI & pour identifier les objets ou données à par-

tager;2. utiliser des URI HTTP afin que n’importe qui puisse déréféren-

cer lesdites URI, par exemple en utilisant un navigateur Web;3. fournir des informations structurées en RDF & lorsque les-

dites URI sont déréférencées;4. et, finalement, inclure des liens vers d’autres URI similaires

dans les informations ainsi fournies.

As of September 2011

MusicBrainz

(zitgist)

P20

Turismo de

Zaragoza

yovisto

Yahoo! Geo

Planet

YAGO

World Fact-book

El ViajeroTourism

WordNet (W3C)

WordNet (VUA)

VIVO UF

VIVO Indiana

VIVO Cornell

VIAF

URIBurner

Sussex Reading

Lists

Plymouth Reading

Lists

UniRef

UniProt

UMBEL

UK Post-codes

legislationdata.gov.uk

Uberblic

UB Mann-heim

TWC LOGD

Twarql

transportdata.gov.

uk

Traffic Scotland

theses.fr

Thesau-rus W

totl.net

Tele-graphis

TCMGeneDIT

TaxonConcept

Open Library (Talis)

tags2con delicious

t4gminfo

Swedish Open

Cultural Heritage

Surge Radio

Sudoc

STW

RAMEAU SH

statisticsdata.gov.

uk

St. Andrews Resource

Lists

ECS South-ampton EPrints

SSW Thesaur

us

SmartLink

Slideshare2RDF

semanticweb.org

SemanticTweet

Semantic XBRL

SWDog Food

Source Code Ecosystem

Linked Data

US SEC (rdfabout)

Sears

Scotland Geo-

graphy

ScotlandPupils &Exams

Scholaro-meter

WordNet (RKB

Explorer)

Wiki

UN/LOCODE

Ulm

ECS (RKB

Explorer)

Roma

RISKS

RESEX

RAE2001

Pisa

OS

OAI

NSF

New-castle

LAASKISTI

JISC

IRIT

IEEE

IBM

Eurécom

ERA

ePrints dotAC

DEPLOY

DBLP (RKB

Explorer)

Crime Reports

UK

Course-ware

CORDIS (RKB

Explorer)CiteSeer

Budapest

ACM

riese

Revyu

researchdata.gov.

ukRen. Energy

Genera-tors

referencedata.gov.

uk

Recht-spraak.

nl

RDFohloh

Last.FM (rdfize)

RDF Book

Mashup

Rådata nå!

PSH

Product Types

Ontology

ProductDB

PBAC

Poké-pédia

patentsdata.go

v.uk

OxPoints

Ord-nance Survey

Openly Local

Open Library

OpenCyc

Open Corpo-rates

OpenCalais

OpenEI

Open Election

Data Project

OpenData

Thesau-rus

Ontos News Portal

OGOLOD

JanusAMP

Ocean Drilling Codices

New York

Times

NVD

ntnusc

NTU Resource

Lists

Norwe-gian

MeSH

NDL subjects

ndlna

myExperi-ment

Italian Museums

medu-cator

MARC Codes

List

Man-chester Reading

Lists

Lotico

Weather Stations

London Gazette

LOIUS

Linked Open Colors

lobidResources

lobidOrgani-sations

LEM

LinkedMDB

LinkedLCCN

LinkedGeoData

LinkedCT

LinkedUser

Feedback

LOV

Linked Open

Numbers

LODE

Eurostat (OntologyCentral)

Linked EDGAR

(OntologyCentral)

Linked Crunch-

base

lingvoj

Lichfield Spen-ding

LIBRIS

Lexvo

LCSH

DBLP (L3S)

Linked Sensor Data (Kno.e.sis)

Klapp-stuhl-club

Good-win

Family

National Radio-activity

JP

Jamendo (DBtune)

Italian public

schools

ISTAT Immi-gration

iServe

IdRef Sudoc

NSZL Catalog

Hellenic PD

Hellenic FBD

PiedmontAccomo-dations

GovTrack

GovWILD

GoogleArt

wrapper

gnoss

GESIS

GeoWordNet

GeoSpecies

GeoNames

GeoLinkedData

GEMET

GTAA

STITCH

SIDER

Project Guten-

berg

MediCare

Euro-stat

(FUB)

EURES

DrugBank

Disea-some

DBLP (FU

Berlin)

DailyMed

CORDIS(FUB)

Freebase

flickr wrappr

Fishes of Texas

Finnish Munici-palities

ChEMBL

FanHubz

EventMedia

EUTC Produc-

tions

Eurostat

Europeana

EUNIS

EU Insti-

tutions

ESD stan-dards

EARTh

Enipedia

Popula-tion (En-AKTing)

NHS(En-

AKTing) Mortality(En-

AKTing)

Energy (En-

AKTing)

Crime(En-

AKTing)

CO2 Emission

(En-AKTing)

EEA

SISVU

education.data.g

ov.uk

ECS South-ampton

ECCO-TCP

GND

Didactalia

DDC Deutsche Bio-

graphie

datadcs

MusicBrainz

(DBTune)

Magna-tune

John Peel

(DBTune)

Classical (DB

Tune)

AudioScrobbler (DBTune)

Last.FM artists

(DBTune)

DBTropes

Portu-guese

DBpedia

dbpedia lite

Greek DBpedia

DBpedia

data-open-ac-uk

SMCJournals

Pokedex

Airports

NASA (Data Incu-bator)

MusicBrainz(Data

Incubator)

Moseley Folk

Metoffice Weather Forecasts

Discogs (Data

Incubator)

Climbing

data.gov.uk intervals

Data Gov.ie

databnf.fr

Cornetto

reegle

Chronic-ling

America

Chem2Bio2RDF

Calames

businessdata.gov.

uk

Bricklink

Brazilian Poli-

ticians

BNB

UniSTS

UniPathway

UniParc

Taxonomy

UniProt(Bio2RDF)

SGD

Reactome

PubMedPub

Chem

PRO-SITE

ProDom

Pfam

PDB

OMIMMGI

KEGG Reaction

KEGG Pathway

KEGG Glycan

KEGG Enzyme

KEGG Drug

KEGG Com-pound

InterPro

HomoloGene

HGNC

Gene Ontology

GeneID

Affy-metrix

bible ontology

BibBase

FTS

BBC Wildlife Finder

BBC Program

mes BBC Music

Alpine Ski

Austria

LOCAH

Amster-dam

Museum

AGROVOC

AEMET

US Census (rdfabout)

fig. 1 – le LOD Cloud, où chaque nœud représente un jeu de données et chaque lien un ensemble d’interconnexions entre deux jeux de données. En septembre 2011, le LOD Cloud comptait plus de 30 milliards de triples. Il croît aujourd’hui de manière exponentielle. richard.cyganiak.de/2007/10/lod/lod-datasets_2011-09-19.pdf

Page 25: Flash informatique 2012 - no spécial été - D

2525SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

GLOSSAIRE &LOD (Linked Open Data): méthode de publi-

cation de données s’appuyant sur les technologies Web (URIs, liens, RDF) et promulguant l’interconnexion des jeux de données.

OWL (Web Ontology Language): supplante RDFS en permettant la définition de schémas de données complexes.

RDF (Resource Description Framework): pierre angulaire du Web sémantique

et du LOD, RDF modélise les données sous forme de triples <sujet, prédicat, objet>. <http://is.gd/paper182, dc:creator, http://is.gd/phil_cm>, par exemple, encode le fait que phil_cm est le créa-teur du document paper182.

RDFS (RDF Schema): couche schéma de RDF, qui permet de spécifier le schéma de ses données RDF en définissant des hiérarchies de classes et de prédicats.

SPARQL: langage de requêtes structuré, pendant de SQL pour les données RDF.

URI (Uniform Resource Identifier): courte chaîne de caractères identifiant une res-source sur un réseau physique ou abs-traite, et dont la syntaxe respecte une norme d’Internet. Un URI doit permettre d’identifier une ressource de manière permanente, même si la ressource est déplacée ou supprimée. W

W = tiré de Wikipédia

Le résultat de cette potion magique en quatre points ? L’émer-gence d’un Web de données ouvertes et interconnectées, le LOD Cloud (fig. 1). De la BBC au New York Times en passant par les gouvernements américain ou britannique, un nombre toujours croissant d’acteurs choisissent LOD pour publier leurs données. L’avantage de cette approche tient en un mot: intégration. Alors qu’il faut souvent des semaines pour intégrer des données rela-tionnelles ou XML hétérogènes, il suffit d’une requête SPARQL & (l’équivalent LOD de SQL) pour intégrer des jeux de données LOD, quels que soient leurs schémas et leur provenance.

LOD: mode d’emploi

Le processus de publication commence bien sûr par la conversion de ses données en RDF. Plusieurs solutions sont envisageables pour accomplir cette tâche. D2R [2], par exemple, est une solu-tion générique qui permet de transformer semi-automatique-ment des bases de données relationnelles en RDF par le biais de mappings configurables. XML2RDF [3] permet, lui, de convertir des documents XML. D’autres outils tels Protégé [4] ou IWB [5] fournissent des interfaces complètes pour éditer à la fois les don-nées RDF et leurs schémas RDFS & (RDF Schema) ou OWL &.Une fois les données transformées en RDF, il est de bon ton de les lier à d’autres données existantes sur le LOD Cloud afin de promouvoir l’interopérabilité des jeux de données (cf. point 4 ci-dessus). Ces liens peuvent être établis au niveau des schémas (en écrivant des correspondances entre le schéma de ses données et d’autres schémas ou ontologies), ou au niveau des données elles-mêmes, en les reliant à d’autres données LOD de manière semi-automatique (p. ex., en utilisant Silk [6] ou en explorant des bases de données LOD comme DBpedia [7]).Reste finalement à publier les données ainsi obtenues. Là encore, plusieurs solutions sont possibles. La plus simple est sans doute de fournir un dump des données et de le référencer sur un cata-logue en ligne (tel ckan [8]). Une autre solution est de charger ses données dans une base de données RDF (comme Virtuoso [9], Owlim [10], ou une base de données classique supportant le RDF telle que DB2 ou Oracle) et de fournir une interface de requêtes (SPARQL end-point) afin que tout un chacun puisse directement interroger et intégrer ce nouveau jeu de données avec des don-nées existantes, et ce de manière dynamique.De nombreuses ressources sont disponibles en ligne pour vous aider dans cette démarche. Linkeddata.org est sans doute un www.w3.org/DesignIssues/LinkedData.html

bon point de départ pour explorer l’univers LOD. Le jeu en vaut-il la chandelle ? D’après la Loi de Metcalf, l’utilité d’un réseau d’information est proportionnelle au carré du nombre de ses connexions. Alors, données liées ou données esseulées, le choix est peut-être moins cornélien qu’il n’y paraît.

Références

[1] www.w3.org/DesignIssues/LinkedData.html[2] d2rq.org/[3] www.gac-grid.de/project-products/Software/XML2RDF.html[4] protege.stanford.edu/[5] www.fluidops.com/information-workbench/[6] www4.wiwiss.fu-berlin.de/bizer/silk/[7] dbpedia.org/[8] thedatahub.org/group/lodcloud[9] virtuoso.openlinksw.com/[10] www.ontotext.com/owlim

NB: Philippe Cudré-Mauroux est Professeur FNS à l’Université de Fribourg. Il sera Program Committee Chair de l’Interna-tional Semantic Web Conference 2012 qui se déroulera à Boston en novembre. Webpage: diuf.unifr.ch/xi/ n

Publier ses données sous forme de Linked Open Data

Page 26: Flash informatique 2012 - no spécial été - D

flash informatique262626 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

At the European Open Data Week which took place in Nantes from 21 to 26 May 2012, Hubert Guillaud was invited to give a talk on the data Web, to go beyond and broaden the particular issue of re-using public data. This talk is reproduced hereunder.

À l’occasion de la Semaine européenne de l’Open Data [1] qui se déroulait à Nantes du 21 au 26 mai 2012, Hubert Guillaud était invité à faire une pré-sentation sur le Web des données, pour dépasser et élargir la problématique particulière de la réutilisa-tion des données publiques. En voici la transcription qui est également disponible sur le blog www.inter-netactu.net [2].

Nous sommes passés d’un Web de l’information et de la connais-sance à un Web de données. «Les données sont le nouveau pétrole de l’économie» [3], expliquait le consultant Clive Humby dès 2006. Tim O’Reilly et John Battelle ne disaient pas autre chose quand ils imaginaient le concept de Web² [4] devenu depuis (et il serait intéressant de regarder comment) celui des Big Data &. Nous n’échapperons pas à l’exploitation maximale de la puissance des données par l’analyse, la combinaison, la représentation, la recherche, le traitement…

Tout est données

Le Web est un écosystème de bases de données interconnectées. Les données sont partout, sous forme d’énormes répertoires de données produisant elles-mêmes leurs propres données, car la

façon même dont nous interrogeons ces données devient elle-même source de données. C’est d’ailleurs la première des données, la plus accessible, la plus importante, celle de nos comportements en ligne, de nos historiques de navigations.

Tout est information. Tout est données. Mais c’est avant tout un monde du temps réel, de l’immédiateté. Les données ne cessent de s’accumuler, mais ce sont les plus récentes qui ont toujours le plus d’importance, car elles permettent de comprendre à la fois le monde d’aujourd’hui et prédire le monde de demain. «90% de l’ensemble des données du monde ont été créées ces deux dernières années» [5], estimait récemment Stephen Gold d’IBM lors d’une présentation au récent Webcom de Montréal. Nous vivons un datadéluge: l’essentiel des données que nous utili-serons dans deux ans n’aura rien à voir avec celles que nous utilisons aujourd’hui. Les données sont un nouveau pétrole iné-puisable, mais qu’on brûle aussi rapidement que le précédent.Le Web est devenu «la base de données de nos intentions», affirmait John Battelle en 2003 [6]. Le moindre de nos clics sert à la construire. Notre surf, notre historique, ce sur quoi nous cli-quons, ce sur quoi nous nous attardons en ligne est tracé, mesuré et influe sur ce à quoi nous accédons. La moindre de nos actions sur l’Internet est une donnée, même le temps passé sur une page. Ce sont nos comportements qui font l’Internet.La première des données, le pétrole non raffiné, est bien celle de nos comportements en ligne, ces milliards de clics que nous faisons sur le Web à chaque instant. Ces bases de données de petits cookies que nous transportons par-devers nous via nos navigateurs. Nous sommes devenus Midas. Tout ce que nous tou-chons devient données, devient or, pétrole. «L’informatique se dissout dans nos comportements» expliquait déjà en 2007 Adam Greenfield [7]. Le Web nous trace en permanence. Nous n’avons pas le droit de ne pas y être tracés, insistait Alexis Madrigal [8].

Vers un Nouveau Monde de donnéesHubert Guillaud, rédacteur en chef d’InternetActu.net et responsable de la veille à la Fondation Internet nouvelle génération, fing.org

Page 27: Flash informatique 2012 - no spécial été - D

2727SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

Mais ne nous y trompons pas. Ce ne sont pas les données pu-bliques ni les données ouvertes qui sont le seul pétrole de cette économie. Ce sont d’abord nos données personnelles: «Les don-nées personnelles sont le nouveau pétrole de l’Internet et la nou-velle monnaie du monde numérique», soulignait Meglena Kuneva, Commissaire européenne à la consommation en 2009. Et les données personnelles sont la prochaine génération de données à ouvrir, comme l’expliquait récemment David Eaves [9], spécialiste de ces questions.

… je te dirai qui tu es

Vous avez certainement dû voir cette vidéo [10] des lunettes de réalité augmentée de Google et plus encore l’une de ses paro-dies, qui augmente l’interaction que nous avons avec la réalité des publicités [11]. En préparant votre café, vous avez automatique-ment de la publicité qui s’affiche en contexte. Comme l’illustre le projet Google Glass [12], les données vont s’immiscer toujours plus près de nous, au cœur de nos comportements et de notre intimité, se nourrissant de l’un et de l’autre.

Il n’y a presque plus de données qui ne soient pas personnelles. Tout le monde se souvient des fichiers de logs d’AOL [13], c’est-à-dire le journal des utilisations d’Internet de plusieurs dizaines de milliers d’utilisateurs, qui ont permis, rien qu’en observant ce que ces utilisateurs ont recherché en ligne, d’en identifier un très

grand nombre. Ces données ne portaient pourtant aucune infor-mation nominative. Il n’empêche. Elles ont permis d’identifier des gens, simplement en observant les sites sur lesquels ils se sont rendus. Aujourd’hui, par exemple, la startup Face.com permet d’analyser n’importe quelle image du Web, de vous donner des informations sur un visage: à savoir si c’est un homme, s’il sourit, son âge. La start-up est même capable de reconnaître des gens en photo ou en vidéo nominativement avec une assez incroyable précision, en puisant dans des banques d’images documentées (où les noms sont renseignés), comme le net en regorge – c’est l’exemple de l’identification des personnages de Star Trek [14]. Demain, quand vous publierez une photo sur l’Internet, l’infras-tructure sera capable non seulement d’identifier les métadonnées associées à l’image (date de prise de vue, appareil, etc.), mais éga-lement de reconnaître qui est sur la photo, avec toutes les avan-tages et les dérives que cela comporte. Le croisement d’énormes capacités de traitements et de tout aussi vastes bases de données signe la fin des données personnelles [15].Bien sûr, toutes les données ne sont pas devenues personnelles (les horaires de transports, les données de capteurs environne-mentaux, les documents administratifs… par exemple), mais une masse considérable de données qui ne l’étaient pas a priori sont en passe de le devenir. D’autant plus que leur couplage, chaque jour plus facile, peut à chaque moment faire basculer des données sans valeur en données à caractère personnel. Les données trans-forment l’Internet en un lieu où les gens n’ont plus d’anonymes que leur nom. Et celui-ci, en fait, n’a plus beaucoup d’importance. Il n’est plus un rempart contre la personnalisation.

Voici une application qui s’appelle SceneTAP [16]. Elle consiste à installer une simple caméra dans un bar. Celle-ci va compter les gens présents afin d’évaluer le taux de remplissage, en utili-sant l’API & de Face.com (dont nous parlions juste avant), elle va être capable de déterminer le pourcentage de filles et de gar-çons, leurs âges moyens respectifs et demain peut-être d’identifier les personnes présentes. SceneTAP va ainsi permettre à chacun depuis son application pour smartphone de voir, en temps réel, quels sont les bars qui bougent aux alentours. Est-ce que la popu-lation qui est à l’intérieur correspond à celle que je recherche… comme l’expliquait Yves Eudes dans un récent numéro du Monde magazine.

Vers un Nouveau Monde de données

Page 28: Flash informatique 2012 - no spécial été - D

28282828 flash informatique2828 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique

Le plus intéressant dans cet exemple, ne repose pas tant dans les nouvelles données issues de ce système, que d’observer comment elles fonctionnent, comment elles se reproduisent et se démulti-plient entre elles. Installer une caméra dans un bar n’a pas d’intérêt en soi. L’intérêt c’est le couplage des données que la caméra pro-duit avec d’autres bases de données, comme celles de Face.com.On ne produit pas seulement plus de données. Ce qu’il faut com-prendre, c’est que ces données sont désormais en réseau. Et du fait même qu’elles sont en réseau, elles se démultiplient et pro-duisent de nouvelles données. Les données ne sont pas enfer-mées dans des silos, le fait même qu’elles puissent se combiner, s’interroger les unes les autres, produit un nouvel Internet, une nouvelle infrastructure basée sur l’échange de données [17]. C’est l’économie des API [18], des mashups & de services, l’un des points clef de la structure de ce Nouveau Monde de données. Nos systèmes sociotechniques ont accès à une foultitude de bases de données permettant de reconfigurer les données à la volée, de leur donner du sens par leur croisement même.

Dans ce Nouveau Monde, la moindre de nos actions produit des données, comme l’illustre très bien cet exemple, parmi des di-zaines de milliers d’autres. Ashtmapolis [19] consiste en un petit capteur GPS qui se branche au bout de n’importe quel inhalateur de ventoline que prennent les asthmatiques. Ce capteur connecté permet de renseigner, sans avoir à remplir le moindre formulaire, les zones où les asthmatiques souffrent, simplement en l’utili-sant. Il produit des cartographies permettant aux asthmatiques de documenter le réel à plusieurs, de s’entraider pour repérer les zones dangereuses, les zones à pollen par exemple, qu’ils pourront plus facilement éviter. Asthmapolis est une parfaite illustration du monde de capteurs qui se met en place. Le prix modique des cap-teurs, leur bidouillabilité permet d’envisager leur démultiplication, et ce, sans qu’on y pense, sans avoir à faire d’action de renseigne-ment de données. C’est l’Internet des objets, l’Internet des cap-teurs qui vient documenter notre monde réel, l’hybridant d’une ombre d’information partout et en tout temps. Nous entrons dans un monde où toutes nos actions, même la plus insignifiante, produisent potentiellement des données, de manière volontaire, comme à notre insu.

Tout est appelé à devenir des données

J’aime beaucoup cet exemple de lunettes [20] développé par Ro-salind Picard directrice du Groupe de recherche sur l’informatique affective au MIT [21], car elle permet d’entrouvrir de nouveaux horizons pour comprendre jusqu’où va aller cette mise en don-nées du monde. Ce sont des lunettes qui servent à mesurer notre niveau d’interaction réel avec les autres. Cette paire de lunettes a pour fonction d’aider celui qui la porte à décoder les émotions de la personne avec qui il discute. Les lunettes sont équipées d’une petite caméra qui surveille plusieurs points du visage de son in-terlocuteur et leurs mouvements pour le décrypter. Des petites lumières rouges, jaunes et vertes installées sur le bord du champ de vision permettent de traduire les expressions de l’interlocu-teur selon qu’elles sont négatives, neutres ou positives. L’idée der-rière ce projet, c’est de voir comment les détecteurs d’émotions peuvent nous aider à mieux nous comprendre mutuellement. La plupart du temps, nous n’arrivons pas à repérer les signes de com-munication non verbaux que nous avons lors de nos interactions physiques. Demain, ces signes non verbaux seront décodés par nos systèmes techniques et viendront nous aider à comprendre les autres, à mesurer nos temps de paroles pour nous montrer par exemple que nous ne laissons pas assez de temps d’expression à ceux avec lesquels nous discutons. La production de données est appelée à s’immiscer dans les plis les plus intimes de nos interac-tions sociales.

Vers un Nouveau Monde de données

Page 29: Flash informatique 2012 - no spécial été - D

2929SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

Dans ce Nouveau Monde de données, nous allons également avoir de nouveaux producteurs et de nouveaux modes de production de données. Tout et tout le monde va produire des données. Elle ne sera pas seulement le fait de systèmes techniques ou d’institu-tions, qui étaient les principaux producteurs de données, mais elle va être de plus en plus le fait d’individus, comme le montrent les cartographies d’Usahidi [22], FixMyStreet [23] ou Leon à Méri-gnac [24]. La donnée va être coproduite par des utilisateurs et des capteurs toujours plus nombreux, toujours plus accessibles (et accessibles de partout) via l’Internet mobile.Mais si l’on parle d’une démultiplication des données, il faut éga-lement évoquer la transformation des modalités de traitement, ces algorithmes qui nous gouvernent [25]. On observe sou-vent l’émergence massive de données, comme matière première de la connaissance, de la représentation, de la discussion, de la décision, de la production, de l’évaluation… Mais on interroge peu le rôle de la collecte et du traitement des données. Pourtant, nous sommes de plus en plus confrontés à un tissage complexe qui va de la discrétisation des données (c’est-à-dire la manière dont elles sont produites et collectées) à la programmabilité des données (c’est-à-dire la manière dont elles sont traitées, programmées, algorithmisées).

L’utilisateur face à l’algorithme

Nous sommes tous producteurs de données. Mais peut-on relé-guer l’infrastructure et l’architecture, la manière dont celles-ci sont utilisées, à des spécialistes et à des programmes face aux-quels nous nous sentons démunis et face auxquels nous pourrions n’avoir plus aucun pouvoir. Il semble essentiel de regarder où sont les lieux de pouvoir des systèmes techniques et comment faire que le code, l’algorithme puissent demain être plus accessibles à tous. Face au déluge de données, il nous faut aussi nous intéresser aux formes de traitement auxquelles les données donnent lieu. Quelle est la place de l’utilisateur dans les traitements dont nous sommes tributaires, comme ceux qui disposent de site Internet sont tributaires des changements algorithmiques du moteur de recherche de Google (les Google Dance) pouvant les faire passer d’un très bon classement à un très mauvais, simplement parce que l’algorithme qui produit ces classements a changé. Dans ce Nou-veau Monde de données, nous devons interroger les traitements bâtis par les statisticiens, physiciens, mathématiciens, ingénieurs et spécialistes des réseaux, pour savoir quelle est la place de l’utili-sateur dans ces traitements. Comment un monde couvert de don-nées devient un monde qui rend du pouvoir à l’utilisateur plutôt qu’il ne l’aliène ? Si on connait les régulations qui encadrent la collecte de données, on connait moins celles qui encadrent les modalités de traitement des données, notamment tels qu’ils ont désormais lieux dans les mashups de services, dans les échanges entre API que nous évoquions précédemment.C’est cet ensemble: ces données, multipliées par ces données en réseau, ces nouveaux modes de production, ces nouveaux types de producteurs, et ces nouvelles modalités de traitement qui créent un Nouveau Monde de données. C’est le monde des #big-data. Un monde conduit (data driven) par les données dont il faut comprendre le but, les enjeux, l’objectif. À quoi vont-elles servir ? Qui va les traiter ? Comment ?

Ce Nouveau Monde ne produit pas des données pour des données. Le but de ce Nouveau Monde n’est pas de produire des fichiers Excel pour des fichiers Excel. Regardez comment fonctionne la Google Car, cette voiture sans conducteur, qui vient d’être auto-risée à rouler dans le Nevada [26]. «La voiture autonome consiste à analyser et prédire le monde 20 fois par seconde», expliquait Anthony Levandowski, responsable du projet de voiture autonome de Google [27]. Elle est un pur produit de données [28]. Elle ne fonctionne que par les données qu’elle capte de son environne-ment (elle est bardée de capteurs), mais également de données distantes comme la configuration des routes issues du projet Google Maps et des données de géolocalisation.Ce Nouveau Monde analyse le monde réel en permanence dans le but de produire de la prévisibilité [29], de rendre le monde pré-dictible. Nous sommes confrontés à un avenir où tout va être pré-visible par les autres, via le nuage informatique et la façon dont nous sommes liés via l’Internet.Ce Nouveau Monde cherche à nous permettre en permanence de situer nos comportements dans l’univers social, via un maelström de données comportementales sur lesquelles seront appliqués des algorithmes prédictifs. Derrière les produits de données, c’est bien évidemment notre perception de nous-mêmes qui va s’en trouver modifiée. Car nous sommes au centre de ce monde de données.

Vers un Nouveau Monde de données

Page 30: Flash informatique 2012 - no spécial été - D

30303030 flash informatique3030 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique

Rester maîtres des données

Nous sommes au centre de ce festin de données. Et comme dans tout Nouveau Monde, nous devons apprendre à y survivre.Nous avons besoin d’outils capables de nous rendre plus ano-nymes ou de nous rappeler de l’être. Nous avons besoin d’outils capables de mentir pour nous selon les personnes à qui l’on s’adresse, les systèmes que l’on autorise à se connecter à nos don-nées ou aux données que d’autres collectent sur nous. Plus que jamais, nous avons besoin d’identités actives [30], c’est-à-dire, comme le proposait l’intuition de Daniel Kaplan et Charles Népote de la Fing, non seulement d’être maîtres des données que nous libérons, mais surtout de faire en sorte que leurs conséquences nous soient transparentes.Comment s’assurer que ces informations que nous émettons ou qui transitent par nous et nos objets ne puissent pas permettre d’identification formelle ou d’interprétation qui nous échappent ? Comment séparer qui je suis d’où je suis ? Pourquoi trop de sys-tèmes enregistrent-ils des données qu’ils n’ont pas besoin de conserver ? C’est d’ailleurs l’argumentaire d’un rapport de l’EFF (Electronic Frontier Foundation) [31] sur la confidentialité de nos localisations, qui s’inquiète de savoir si nous pourrons toujours nous déplacer sans que nos moindres mouvements soient systématique-ment et secrètement enregistrés par un tiers pour une utilisation ultérieure, comme le font déjà nos téléphones mobiles mouchards.«Il faut construire des systèmes qui ne collectent pas les don-nées en premier lieu» [32] recommandent-ils, simplement sous le prétexte que ce serait la voie la plus facile… Pour cela, il faut que les systèmes de traitement soient conçus en intégrant un large éventail de politiques de confidentialité. Il faut construire des systèmes géolocalisés qui ne sachent pas où nous sommes, c’est-à-dire des titres de transport qui n’enregistrent pas l’endroit où nous sommes par exemple ou des modules de géolocalisation anonymes, avec des identifiants dynamiques, qui ne permettent pas de corréler simplement une personne et un lieu… Pour les mi-litants de l’EFF, les techniques cryptographiques doivent être sys-tématiquement exploitées afin, par exemple qu’un service sache localiser quelqu’un, identifier qu’il a un compte sur un service, lui appliquer un tarif (à un péage urbain ou au passage par un por-tillon de métro par exemple…), mais sans dire qui il est. Une autre couche d’information doit lui permettre, s’il le souhaite, de discu-ter ou localiser ses amis… Sans que tout cela ne soit accessible en clair pour chacun des services utilisés, comme c’est trop souvent le cas actuellement. Les protocoles cryptographiques nécessaires existent. Ils représentent certes un défi technique et nécessitent des investissements, mais ils sont seuls en mesure de nous per-mettre d’échapper à la transparence de nos déplacements tout en tirant avantage des services géolocalisés.Il y a un enjeu à faciliter l’exploitation des données comme le clament O’Reilly et Battelle, mais aussi à raréfier les informations qu’elles portent. Cette opposition engendre un point de tension dont il va être difficile de trouver l’équilibre. Mais si on veut prô-ner un droit à l’oubli, un droit à l’erreur, un droit à l’accès aux données qui transitent par nous, il va non seulement falloir facili-ter leur exploitation, mais surtout faciliter leur accès, leur gestion. Demain plus qu’aujourd’hui, tous les champs des formulaires ne doivent pas être obligatoires.

Nous avons besoin d’un meilleur accès à la collecte de données, de meilleures garanties quant aux règles qui régissent les proces-sus (afin qu’elles ne puissent être changées unilatéralement par exemple) et de meilleures assurances et protections quant à la dissémination des données.

Dans ce Nouveau Monde, nous avons besoin de nouveaux repères. Nous avons besoin de nous approprier les données que nous produisons pour comprendre ce qu’elles produisent. Nous avons besoin d’outils, d’expérimentations, de méthodologies. Nous avons besoin de lieux, d’espaces, physiques ou virtuels, ouverts, de ressources organisées pour échanger et comprendre ce Nouveau Monde. C’est à cela que devraient ou pourraient servir les Info Labs [33], un concept de lieu ouvert que nous vous invitons à préciser et discuter avec nous. Nous avons besoin d’organiser col-lectivement les formes d’appropriation culturelles de ce Nouveau Monde dans lequel nous pénétrons. Nous avons besoin plus que jamais d’espaces pour le comprendre, ensemble.

Remerciements

Cette présentation puise dans de nombreux articles présentés sur InternetActu.net [34] et en partie compilés dans Un Monde de données [35], un livre numérique de la collection Washing Ma-chine [36] disponible chez tous les libraires électroniques.

Références

[1] Semaine européenne de l’Open Data: www.opendataweek.org/

[2] www.internetactu.net/2012/06/01/vers-un-nouveau-monde-de-donnees/

[3] Clive Humby: ana.blogs.com/maestros/2006/11/data_is_the_new.html

[4] Concept de Web²: www.internetactu.net/2009/09/01/le-Web-a-la-puissance-2-le-Web-20-cinq-ans-plus-tard/

[5] Stephen Gold d’IBM: t.co/1kPp4YyJ[6] John Battelle: battellemedia.com/archives/2003/11/the_da-

tabase_of_intentions.php

Vers un Nouveau Monde de données

Page 31: Flash informatique 2012 - no spécial été - D

3131SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

[7] Adam Greenfield www.internetactu.net/2007/12/21/com-ment-proteger-notre-vie-privee-dans-un-monde-ou-la-tracabilite-explose/

[8] Alexis Madrigal: www.internetactu.net/2012/04/26/les-li-mites-du-ciblage-publicitaire-personnalise/

[9] David Eaves: eaves.ca/2012/03/29/next-generation-open-data-personal-data-access/

[10] www.youtube.com/watch ?v=9c6W4CCU9M4[11] Projet Google Glass: https://plus.google.

com/111626127367496192147/posts[12] Vidéo sur l’interaction avec la publicité: www.youtube.com/

watch ?v=_mRF0rBXIeg&feature=youtu.be[13] Logs d’AOL: www.internetactu.net/2006/09/07/a-qui-appar-

tiennent-mes-logs/[14] Idendification des personnages de Star Trek: www.techno-

velgy.com/ct/Science-Fiction-News.asp ?NewsNum=2262[15] La fin des données personnelles: www.internetactu.

net/2009/09/21/critique-du-web²-34-toutes-les-donnees-sont-devenues-personnelles/

[16] SceneTAP: www.scenetap.com/[17] L’Internet des API: www.internetactu.net/2011/06/21/com-

prendre-facebook-33-linternet-des-api-le-Web-des-appli-cations/

[18] Économie des API: www.slideshare.net/3scale/the-api-eco-nomy-api-provider-perspective-european-identity-sum-mit-2012

[19] Ashtmapolis: asthmapolis.com/[20] Exemple de lunettes: www.internetactu.net/2011/09/15/

augmenter-notre-intelligence-emotionnelle/[21] Groupe de recherche sur l’informatique affective au MIT:

affect.media.mit.edu/

[22] Usahidi: ushahidi.com/[23] www.fixmystreet.com/[24] Leon à Mérignac: leon.merignac.com/[25] Ces algorithmes qui nous gouvernent: www.internetactu.

net/2012/01/05/reseaux-sociaux-33-ces-algorithmes-qui-nous-gouvernent/

[26] Voiture sans conducteur: www.numerama.com/maga-zine/217 36-les-voitures-sans-conducteur-arrivent-au-ne-vada.html

[27] www.wired.com/magazine/2012/01/ff_autonomouscars/all/1[28] Vers des produits de données: www.internetactu.

net/2011/10/04/vers-des-produits-de-donnees/[29] www.internetactu.net/2009/11/18/la-capacite-predictive-

de-nos-systemes-socio-techniques-va-t-elle-tuer-notre-libre-arbitre/

[30] Identités actives: fing.org/ ?-Identites-actives-[31] Electronic Frontier Foundation: https://www.eff.org/wp/

locational-privacy[32] Que faire face à la puissance des données: www.internetac-

tu.net/2009/10/26/critiques-du-web²-44-que-faire-face-a-la-puissance-des-donnees/

[33] Info Labs: www.internetactu.net/2012/05/15/avons-nous-besoin-dinfo-labs/

[34] InternetActu: www.internetactu.net/[35] Un Monde de données: www.publie.net/fr/

ebook/9782814505063/un-monde-de-données[36] Washing Machine: www.publie.net/fr/list/collection-3587

-washing-machine/page/1/date n

Vers un Nouveau Monde de données

GLOSSAIRE &API ( Application Programming Interface):

interface fournie par un programme informatique qui permet l’interaction des programmes les uns avec les autres, de manière analogue à une interface homme-machine, qui rend possible l’interaction entre un homme et une machine. W

Big Data: expression anglophone utilisée pour désigner des ensembles de don-nées qui deviennent tellement volumi-neux qu’ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l’analyse et la visualisation des données doivent être redéfinis. Les perspec-

tives du traitement des big data sont énormes, notamment pour l’analyse d’opinions ou de tendances indus-trielles, la génomique, l’épidémiologie ou la sécurité. W

mashup: application composite dont le contenu provient de la combinaison de plusieurs sources d’information.

W = tiré de Wikipédia

Page 32: Flash informatique 2012 - no spécial été - D

flash informatique323232 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

The laboratory notebook is an essential tool in re-search. It allows experimental follow-up and data organization. This article aims to present its evolu-tion towards the electronic era and to introduce the EPFL campus-wide project focusing on improving the research data management.

Le cahier de laboratoire est un outil clef du travail de recherche. Il permet le suivi des expériences et l’organisation des résultats. Cet article a pour but de présenter son évolution vers l’ère de l’informatique et d’introduire le projet d’amélioration de la gestion des données de recherche actuellement en cours à l’EPFL.

Contexte du projet à l’EPFL

Dans cet article, nous nous concentrerons sur un projet initié par le Doyen à la Recherche, Prof. Benoît Deveaud-Plédran en colla-boration avec le Doyen de la Faculté des Sciences de la Vie, Prof. Didier Trono. L’objectif vise à améliorer la gestion des données de recherche dans l’environnement académique.Le problème de base s’articule autour de la forte augmentation des volumes de données générées par la recherche et de leur or-ganisation. Le besoin est particulièrement fort dans les sciences de la vie, principalement dû aux limites pratiques du cahier de laboratoire traditionnel, cet outil indispensable aux scientifiques-chercheurs-explorateurs pour mémoriser leur savoir.Le CSIN, Coordination des Systèmes d’INformation, est en charge de mener à bien ce projet en proposant des solutions informa-tiques de type ELN (Electronic Lab Notebook) et LIMS (Laboratory Information Mangement System). Ce projet exploratoire permettra d’acquérir de l’expérience afin de réitérer la démarche dans d’autres facultés.En mars 2012, le CSIN a procédé à une première phase d’analyse auprès de 27 laboratoires des SV. Cette première étape a permis de distinguer plus précisément les problèmes actuels et leurs consé-quences. Les prochaines étapes consisteront à identifier et évaluer une sélection de logiciels répondant aux besoins des chercheurs en Sciences de la Vie. Dès le mois d’octobre 2012 et avec le sou-tien technique du DIT, cinq laboratoires pilotes pourront tester un logiciel de leur choix en conditions réelles.

L’analyse sur le terrain

La Faculté SV fait face à une explosion des volumes de données informatiques. Les nouveaux équipements de recherche, de plus

Données de recherche et cahier de [email protected], EPFL - Coordination des systèmes d’information, responsable du projet gestion des données de recherche

en plus performants, génèrent de grandes quantités de données. L’avènement de la génomique et des séquenceurs ADN à haut débit révolutionne la recherche sur le vivant et les perspectives de découvertes. D’autres domaines sont également d’importants générateurs de données. Par exemple l’imagerie avec les nouveaux équipements de microscopie et d’imagerie médicale où la protéo-mique avec les spectromètres de masse sont également d’impor-tants générateurs de données.L’évolution de ces équipements n’est pas sans conséquence. Les besoins en terme de calculs et traitements s’amplifient. Les super-calculateurs (HPC) et les compétences des bio-informaticiens sont indispensables aujourd’hui pour interpréter les données produites.Parallèlement aux traitements, les ressources en terme de stoc-kage deviennent très importantes. Le SV-IT, service informatique de proximité, propose des espaces de stockage de qualité profes-sionnelle pour la conservation ainsi que le backup des données (sv-it.epfl.ch/page-8073-fr.html).Le volume officiellement utilisé pour tous les laboratoires SV est d’environ 65 To. De plus, des données de recherche sont égale-ment gérées dans l’environnement Vital-IT du Swiss Institute Bioinformatics (www.vital-it.ch). Or, l’analyse au sein des laboratoires visités (27) a mis à la lumière plus de 500 To dispersés sur des supports de stockage tels que CD, DVD, disques durs internes et externes, NAS locaux et autres four-nisseurs d’espaces de stockage indépendants de l’EPFL.Devant les importants volumes de données à conserver et la charge financière que cela représenterait, les laboratoires se sont tournés vers des systèmes de stockage grand public, car meilleur marché. Malheureusement, les performances sont limitées ou ina-daptées aux besoins et les taux de panne sont élevés, générant des catastrophes humaines et des scènes de désolation devant des disques durs inertes ou autres DVD illisibles contenant les années de travail de l’utilisateur. En plus des besoins en ressources informatiques performantes liées au traitement et au stockage, les laboratoires SV font égale-ment face à des problèmes d’organisation logique ou scientifique des données informatiques.

L’organisation des données

Le cahier de laboratoire est l’outil principal pour organiser les informations de recherches. Aujourd’hui au format papier, il est (ou devrait être) utilisé par tous les chercheurs pour dire ce qu’il fait, faire ce qu’il dit et prouver ce qu’il a fait. C’est un élément d’excellence sur le plan des pratiques de la recherche qui peut être perçu sous différents angles:

Page 33: Flash informatique 2012 - no spécial été - D

3333SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

ScientifiqueC’est un élément de mémoire et de transfert de connaissances en interne, preuve du savoir-faire du laboratoire et permettant d’établir sa compétence.

TraçabilitéC’est un élément indispensable à une démarche qualité, preuve du professionnalisme du chercheur au sein de la communauté scientifique, permettant de répondre à des exigences règlemen-taires et de garantir la traçabilité des résultats.

JuridiqueC’est un élément de protection de la propriété intellectuelle, preuve du savoir-faire du laboratoire à une date précise permet-tant la signature de contrat, le dépôt de brevets ou la résolution de litige.Pour simplifier, le cahier de laboratoire permet de lier les informa-tions de recherche, les conditions d’expérimentation et les résul-tats obtenus dans un ou plusieurs documents.

Les limites du cahier papier traditionnel

Si le cahier de laboratoire traduit une volonté de partage et de mémorisation de l’information au sein du laboratoire et de la communauté scientifique, il présente un certain nombre de li-mites difficilement surmontables et dont les évolutions techno-logies des équipements amplifient les effets.Le chercheur devant le plus souvent traiter des résultats obte-nus de divers appareillages via des outils informatiques, le cahier papier n’est donc plus utilisable directement. Il n’y a plus de conti-nuité entre les données extraites de l’équipement (données pri-maires), les données traitées (données secondaires) et les résultats finaux (données concluantes), d’où un problème d’organisation des données de traçabilité des informations.Une autre limitation se situe au niveau de la retranscription, parfois fastidieuse, des résultats issus des appareils de mesure. L’efficacité et la qualité de la rédaction sont limitées, car le cahier papier demande de convertir toutes les données dans un format papier. Si aujourd’hui un tableau Excel imprimé peut encore être collé sur une page de cahier, il n’est pas possible d’imprimer et de coller avec un tube de colle des images hautes résolutions, des séquences ADN, des vidéos, des sons, ou autres analyses spectro-métriques.

Données de recherche et cahier de laboratoire

Voici un exemple d’évolution d’un équipement de recherche:

un microscope en 1743 et en 2012

et voici comment a évolué le cahier de laboratoire:

en 1743 et en 2012

Page 34: Flash informatique 2012 - no spécial été - D

34343434 flash informatique3434 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique

De plus, les cahiers papier sont dégradables et leur sécurité tient à des bonnes pratiques de laboratoires (GLP – Good Laboratory Practice), d’utilisation et de conservation. D’un poinr de vue régle-mentaire, l’authentification de chaque passage du cahier peut se révéler très contraignante avec un flux de signatures/validations rarement accompli selon les règles de l’art.La rédaction d’articles est souvent un pénible travail de re-cherche documentaire dans de nombreux cahiers papier, parfois difficilement interprétable. Et quand vient le moment de retrou-ver des données informatiques relatives à un passage du cahier de labo prouvant un résultat important, il faut s’armer de patience et fouiller dans les données dispersées sur une multitude de supports informatiques, processus pouvant être long et décourageant.À noter que le partage et la réutilisation des données sont quasi-ment impossibles, car liés au raisonnement, au style rédactionnel, à l’écriture de chacun et à l’éventuelle accessibilité des cahiers archivés par les précédents chercheurs.Il en résulte un manque d’homogénéité général et une réelle difficulté à effectuer des recherches dans les nombreux travaux archivés, d’où une capitalisation et une valorisation limitées du savoir.

Les conséquences sont multiples, par exemple:z la perte des données primaires et secondaires,z l’incapacité à reproduire une expérience,z la perte des connaissances acquises durant les travaux de

recherche,z le gaspillage de ressources financières et matérielles pour ré-

générer les données perdues,z la difficulté à rassembler les données pour la rédaction d’ar-

ticles, en cas de conflits (preuves) ou pour le dépôt de brevets.

Ces conséquences influencent la qualité de la recherche. Aux États-Unis par exemple, les agences de fonds l’ont bien compris et deviennent de plus en plus pointilleuses par rapport à ces notions de gestion des données. Depuis le 18 janvier 2011, le NSF (Natio-nal Science Foundation), www.nsf.gov/eng/general/dmp.jsp) exige des candidats de prévoir une description et une planification des méthodes de gestion des données informatiques qui seraient gé-nérées grâce à l’éventuelle obtention du fonds.

Les solutions électroniques

Les laboratoires industriels sont les premiers à développer des so-lutions pour répondre à ces problèmes de gestion. Dès les années 1990, des prototypes de cahiers de laboratoires électroniques sont apparus. Ils n’ont pas obtenu le succès escompté du fait de la lourdeur de leur implémentation et de la complexité de leur fonc-tionnement.En 1995, à l’initiative d’une dizaine de sociétés pharmaceutiques, des standards ont été définis et le développement des ELN (Elec-tronic Laboratory Notebook) a été initié. Le développement des technologies informatiques, notamment sur le Web, a permis de commercialiser une seconde génération d’ELN plus souples et efficaces. Parallèlement, la publication de la première version du 21CFR Part 11 par la FDA (Food and Drug Administration aux USA) trai-

tant de la gestion des enregistrements et de la signature électro-nique, a fortement incité l’industrie pharmaceutique à adopter un environnement informatique de travail moderne et sécurisé.Au début des années 2000 apparaissent les premières solutions clefs en main commercialisées principalement pour les secteurs de la chimie médicinale et les sites de développement des grandes entreprises pharma. Les ELN étaient alors très spécialisés sur un métier et inadaptés au large secteur de la R&D.Avec l’éclatement de la bulle Internet et la crise de l’informatique des années 2001 – 2003, les projets de développement d’ELN ont été considérablement ralentis. Mais, dès 2004, avec l’accroisse-ment des budgets liés à la gestion des données issues de la R&D, un fort développement de l’activité du marché des solutions in-formatiques pour le marché des sciences de la vie et de la chimie a permis de faire évoluer les ELN vers des solutions plus perfor-mantes.Le marché des ELN se développe depuis 2005 de 30% à 40% par année. La chimie médicinale n’est plus le seul domaine abordé par les ELN et d’autres domaines comme la biotechnologie peuvent aujourd’hui trouver des solutions à leurs besoins. Le marché de l’ELN représentait en 2011 environ 50 millions de dollars, mais reste en deçà des 450 millions de dollars de ventes annuelles d’autres solutions informatiques comme les LIMS (Laboratory Information Management System), sujet que nous aborderons un peu plus loin dans cet article.

Les avantages du cahier de laboratoire électronique

Quel que soit le domaine de recherche, le cahier de laboratoire électronique est un outil qui permet à l’utilisateur d’enregistrer au quotidien tous ses travaux, d’assurer la traçabilité de l’expérimen-tation scientifique, de l’idée à la conclusion. L’ELN facilite la création, la formalisation, l’organisation, l’accès et le partage des données de recherche électroniques en se confor-mant aux normes légales, réglementaires et scientifiques.Il s’appuie sur une infrastructure de stockage informatique cen-tralisée et évolutive dont l’utilisateur n’a plus à ce soucier. Fini les crises de nerfs dues aux disques durs externes récalcitrants, aux commandes Shell barbares ou aux fastidieux transferts de don-nées manuels d’un ordinateur à l’autre.

Les avantages:z enregistrer électroniquement les travaux effectués pour un

projet de recherche;z offrir un accès centralisé à toutes les données liées à une ex-

périence;z être consulté à distance (via le Web);z fluidifier les flux d’informations (collecte, organisation et res-

titution);z accéder rapidement à l’information (indexation et outils de

recherche);z faciliter la rédaction de comptes rendus, de synthèses et de

rapports scientifiques;z standardiser les descriptions des expériences et la saisie des

informations;

Données de recherche et cahier de laboratoire

Page 35: Flash informatique 2012 - no spécial été - D

3535SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

z assurer la traçabilité des données informatiques;z réduire les risques associés au support papier;z assurer une organisation pérenne des données.

L’utilisation de logiciels de type ELN permettrait d’améliorer l’or-ganisation des données, la gestion des connaissances et de garan-tir la pérennité du savoir-faire au sein des laboratoires.

Le LIMS, complément indispensable en Sciences de la Vie

L’informatisation à grande échelle dans la R&D et en particulier dans les Sciences du Vivant a permis le développement de logiciels LIMS (Laboratory Information Management System). Les premiers LIMS apparaissent en 1980 avec comme objectif d’assurer le suivi des échantillons de laboratoire. Rapidement adoptés par l’indus-trie, ils assurent la traçabilité et une grande reproductibilité par l’utilisation de processus normalisés.Le LIMS devient alors indispensable pour un suivi efficace des pro-duits ou échantillons sur l’ensemble des phases d’élaboration dans un labo. En perpétuelle évolution, les solutions LIMS intègrent aujourd’hui des fonctionnalités comme:z la gestion des échantillons;z la gestion des protocoles de laboratoire;z des outils d’analyses de résultats;z des outils de reporting;z des possibilités de connexion avec d’autres systèmes d’infor-

mations scientifiques (ELN ou logiciels d’analyse de données);z l’intégration des flux de données des équipements;z des bases de données centralisées (plasmids, oligos, chimiques,

protéines, etc.);z la gestion de l’inventaire du laboratoire;z la gestion des achats de consommables.z la gestion des stocks.

Les évolutions des LIMS tendent à créer des chevauchements avec certaines fonctionnalités des ELN. Cette conversion fonctionnelle assez récente permet d’envisager, à court terme, une fusion de ces deux systèmes.Le plus important à retenir est que le LIMS reste principalement centré sur les échantillons et leur analyse, alors que l’ELN, plus global, est dédié aux expériences et permet d’en tracer la concep-tion, le suivi, la méthodologie d’analyse et l’interprétation des ré-sultats. L’ELN assure également la structuration des informations et des données informatiques, il garantit ainsi une réutilisabilité des informations aux chercheurs.

Les principales difficultés à surmonter

Malgré les bénéfices envisageables de l’utilisation d’outils infor-matiques de gestion (ELN ou LIMS) et de la nécessité d’évoluer vers des systèmes informatisés, un long chemin reste à parcourir et des obstacles restent à surmonter avant de généraliser leur uti-lisation au sein de notre environnement académique. Par exemple:

z la grande variété de domaines que devraient couvrir les solu-tions informatiques;

z la standardisation des processus de recherche (sans nuire à la créativité);

z l’opinion de l’utilisateur globalement satisfait du papier;z la méconnaissance des améliorations qu’ameneraient des ou-

tils informatiques;z les aspects humains, réticences aux changements, effets Big

Brother;z le manque de recul et la peur de l’inconnu.

La transition du système papier, colle et stylo vers des systèmes électroniques demandera du temps et d’importantes collabora-tions entre communauté scientifique et les services informatiques.

La suite du projet

L’analyse sur le terrain a mis en exergue la complexité du su-jet, mêlant règlements sur les processus de recherche, respects des principes organisationnels, normalisation de l’information scientifique, outils informatiques et… facteurs humains.Différentes mesures sont en cours d’élaboration, notamment la création d’un règlement sur la gestion des données de recherche au niveau de l’EPFL définissant par exemple la période minimale de conservation des données, les conditions cadres et les moyens à disposition.Le DIT et le CSIN travaillent à l’identification d’une solution de stockage informatique centralisée, mutualisée et évolutive répon-dant aux nouveaux besoins de stockage.En octobre 2012, afin de mieux cerner les améliorations qu’offrent les ELN et les LIMS, nous procéderons à une phase pilote auprès de cinq laboratoires de la Faculté des Sciences de la Vie. Impliqués dès l’étape de sélection du logiciel, les membres des laboratoires pourront utiliser une solution en conditions réelles durant une période de 4 à 5 moisLes conclusions de cette évaluation seront rendues pour la fin février 2013.L’expérience acquise durant cette phase à caractère exploratoire sera très utile pour l’implémentation ultérieure d’outils informa-tiques au sein d’autres facultés intéressées par cette démarche d’amélioration de la gestion des données de recherche.Si le sujet a piqué votre curiosité, nous nous tenons à votre dis-position pour plus d’informations ou pour procéder à une ana-lyse approfondie de la situation dans votre laboratoire. Vos expé-riences, conseils et remarques seront les bienvenus. n

Données de recherche et cahier de laboratoire

Page 36: Flash informatique 2012 - no spécial été - D

flash informatique363636 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

Cloud Computing techniques have the potential to address data- and compute-intensive challenges in academic research and education, for example in the field of scientific data life cycle management. However, it currently raises new issues in the fields of laws and regulations, economics, dependency and loss of control. Could national or community-specific approaches help make this technology pal-atable?

Les techniques du Cloud Computing sont promet-teuses pour répondre aux défis modernes de l’IT aca-démique comme ceux du cycle de vie (accès, trai-tement, sauvegarde) de l’information scientifique. Mais elles apportent leur lot de problèmes légaux, économiques ainsi que de dépendance et de perte de contrôle. Est-ce qu’une approche nationale ou communautaire pourrait nous aider à bénéficier du cloud?

Les services basés sur le modèle du cloud [1] sont largement ré-pandus dans le monde universitaire: qui n’utilise pas d’engins de recherche tels que Google ou Bing ? De nombreux étudiants par-tagent des fichiers sur des services comme Dropbox. L’utilisation d’outils de collaboration tels que Gmail ou Skype ou de réseaux sociaux en ligne comme Facebook ou Linke-dIn ne se limite plus à la vie privée. Quelques chercheurs curieux ont déjà trouvé que, munis d’une simple carte de crédit, ils peuvent créer des systèmes impressionnants et stocker des quantités énormes de données sur des services comme l’AWS de Amazon, Azure de Microsoft, Google App Engine/Google Compute Engine et j’en passe.

Soucis de perte de contrôle

Si les services cloud sont très utiles et agréables à utiliser, il reste souvent un sentiment de ma-laise chez l’utilisatrice ou l’utilisateur. Parmi les questions qu’on peut se poser, citons:

Où sont mes données ? Savoir où se trouve ce à quoi l’on tient apporte toujours un certain réconfort. C’est la même chose pour les données importantes … même si on ne peut pas être à 100% sûr que le disque que l’on tient dans sa main sera effectivement

Cloud, une question de confiance [email protected], team leader, Peta-Solutions, SWITCH

lisible au moment opportun. Dans le cloud, le lieu de stockage est diffus, quasiment par définition. Un autre aspect de lieux concerne le cadre légal, dont je vais parler plus loin.

Qui a accès à mes données ? Dans mon institution, je peux savoir (au moins approximative-ment) qui a la possibilité d’accès aux données que je stocke sur les systèmes, et en estimer les risques. Dans le cloud, cela n’est guère transparent. À part les opérateurs du service, on peut se soucier également des tiers qui ont des désirs plus ou moins légitimes de fouiller dans ces données. Dans ce contexte, on entend souvent parler du USA PA-TRIOT act qui donne aux organismes (américains) d’application de la loi des pouvoirs assez larges et discrets sur les données gérées par des sociétés américaines au sens large [2]. Il faut dire que les lois dans la plupart des pays européens confèrent des privilèges similaires à leurs autorités respectives [3].

Qui va m’aider en cas de soucis ? L’efficacité et l’économie des services cloud sont dues en grande partie à un niveau très élevé d’automatisation. Le service à la clientèle traditionnel — c’est-à-dire par des êtres humains — est un peu contradictoire avec ce modèle.

Qui va payer la facture ? Un grand nombre de services cloud sont offerts sans rémunéra-tion, ce qui est au premier abord fort sympathique. Mais fournir

intérieur du Centre de traitement de données de Facebook à Prineville dans l’Oregon. Photographie de Alan Brandt

Page 37: Flash informatique 2012 - no spécial été - D

3737SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

des services a un coût, et les fournisseurs de services veulent, pour la plupart, que cela rapporte; on peut ainsi se demander qui joue le rôle du client. Certains disent que l’utilisateur n’est en fait pas le client, mais la marchandise que le fournisseur vend à ses vrais clients, ceux qui payent pour la publicité. En fait la marchandise, c’est l’attention de l’utilisateur et/ou des informations démo-graphiques, qui peuvent être d’une précision assez surprenante, incluant des informations sur son comportement qu’on aurait tendance à considérer confidentielles.

Le cloud sera-t-il encore là pour moi demain ? Ce qui nous mène à des questions de pérennité. Même si l’on accepte l’affichage de publicité et des intrusions dans sa sphère privée, il reste un risque si le business case ne fonctionne pas: soit le service qu’on a commencé à apprécier devient soudain payant, soit le fournisseur se voit obligé de trouver d’autres moyens d’y trouver son compte, qui risquent de changer les conditions d’usage en défaveur de l’utilisateur. Ou bien le service disparaît tout simplement; en donnant assez de temps aux utilisateurs d’en extraire leurs données, on l’espère, et si possible, sous une forme utilisable ailleurs.

Solution: un cloud à moi tout seul ?

Tout cela peut paraître bien inquiétant, et certains vont se dire qu’il vaut mieux éviter tous ces risques en construisant des clouds privés (private clouds). Ceux-ci épousent les principes techniques des grands clouds publics: virtualisation, gestion automatisée, interfaces self-service; mais dans le contexte d’une entreprise. Aujourd’hui, presque tous les grands fournisseurs de matériel informatique pour l’entreprise vendent ce type de solutions: HP, IBM, Dell, Cisco, EMC² et autres. Mais en choisissant cette alternative, on risque de passer à côté d’une grande partie des avantages: l’échelle sera forcément limi-tée, les prix vont plutôt ressembler aux systèmes high-end, et l’ac-cès depuis l’extérieur sera entravé par les firewalls, ce qui ne faci-lite pas les applications partagées avec le monde hors entreprise, y compris des employés qui sont prêts à travailler depuis l’extérieur.

Surtout, on n’arrive pas à se débarrasser d’une grande partie du travail qu’on devrait peut-être outsourcer à des spécialistes afin de mieux pouvoir se concentrer sur le cœur de son métier.

Et si un peu de perte de contrôle, ça en valait la peine ?

Si on revisite les questions du début de l’article avec objectivité, il y a pour chaque question des arguments allant dans le sens inverse:

Où sont mes données ? Les données dans le cloud sont vraisemblablement mieux proté-gées — entre autres grâce à la distribution spatiale — que celles qu’on garde près de soi.

Qui a accès ? Les personnes qui font tourner le cloud sont des professionnels avec un sens éthique élevé, et à qui leurs employeurs, pour leur propre intérêt, ont instauré des règles strictes sur l’accès aux don-nées de leurs clients, avec des mécanismes de protection et d’au-dit. Dans la plupart des entreprises, ces mécanismes sont encore lacunaires, ce qui confère un grand pouvoir, et donc une grande responsabilité, aux super users.

Qui va m’aider ?Les systèmes grand public sont généralement assez conviviaux, surtout quand ils ont de la concurrence. Et vous pourrez sans doute trouver assistance dans des forums ou auprès de connais-sances.

Qui paie ? Il y a souvent la possibilité, surtout pour les entreprises, d’avoir un accès payant sans publicité, et même avec du support humain. Sur la question de la pérennité, ce n’est pas si problématique dans des segments du marché où la concurrence fonctionne. Et les solutions in-house ont leur lot de risques, surtout quand ils dé-pendent de personnes qui vont un jour vous quitter, par exemple

Cloud, une question de confiance

salle de stokage du DIT à la fin du 20ème siècle; bandes magnétiques et cartouches sont alignées à perte de vue

Page 38: Flash informatique 2012 - no spécial été - D

38383838 flash informatique3838 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique

quand elles finissent leur thèse. Notons qu’une objectivité totale est mal placée ici: à risques égaux, on va préférer les risques an-ciens, qu’on a en quelque sorte apprivoisés, aux risques nouveaux, plus difficiles à évaluer faute d’expérience. Au fond, faire confiance et déléguer des responsabilités à des tiers, c’est une base du progrès de notre société vers le partage de tra-vail et la spécialisation. On peut y regretter le danger d’aliénation, mais il faut avouer que ce développement nous a apporté pas mal d’avantages, et de toute façon il semble difficile à stopper. Comme nous avons appris à confier notre argent aux banques, et nos vies à des médecins, pilotes etc., on va peut-être finir par céder nos données même les plus importantes à des spécialistes anonymes. Mais ce sera un long processus, et on aimerait éviter les trop grosses bourdes, si possible.

Archivage des données scientifiques: vers un cloud académique suisse ?

Un des grands défis pour l’université est la gestion de la connais-sance sous forme numérique. Ceci ne comprend pas seulement les e-publications, mais aussi les données primaires et secondaires utilisées dans leur production. La situation actuelle est insatisfai-sante à plus d’un égard: les données générées par des scientifiques, souvent à grands coûts et efforts, sont trop rarement partagées avec d’autres chercheurs, et se perdent trop souvent après la fin d’un projet ou d’une thèse, faute de moyens et de motivation. Même quand les données sont conservées, il est souvent difficile de les utiliser, soit à cause des formats problématiques, soit pour des raisons logistiques. La CUS (conférence universitaire suisse) va lancer un projet 2013-2016 sous le nom Information scientifique: accès, traitement et sauvegarde pour étudier cette problématique. Les solutions cloud ont beaucoup de potentiel comme infrastruc-ture de base pour une gestion améliorée de données scientifiques: elles pourraient fournir de la capacité de stockage économe, ac-cessible à travers l’Internet sans entraves de bande passante limi-tée, liée avec des possibilités de traitement sur place, par exemple sous la forme de services de location de VM (machines virtuelles). Pour des raisons de souveraineté, il est souhaité que ces infras-tructures soient sous contrôle suisse. C’est une belle occasion pour l’ensemble des universités d’étudier différentes options pour se doter d’une telle infrastructure: avec des partenaires industriels, en fédérant les private clouds émergeant des universités, ou pour-quoi pas en mandatant une organisation commune, comme cela s’est fait avec SWITCH pour le réseau académique voilà presque 25 ans. Quel que soit le résultat, SWITCH est prêt à assister les universités dans leurs choix, en vue de trouver une solution — qui sera forcément un compromis — correspondant aux critères tech-niques, économiques et de gouvernance. Un tel cloud suisse, encore plus s’il est contrôlé par les Hautes Écoles, pourrait aider à surmonter les inhibitions que de nom-breuses universités ont par rapport au cloud, pour des raisons légales, mais aussi de contrôle. Il reste à espérer que cela ne va pas mener à un nouveau réduit helvétique, mais nous aider à maitriser cette technologie afin de pouvoir mieux bénéficier des atouts des grands clouds industriels, ainsi que de contribuer à la stratégie cloud au niveau européen [4].

Cloud, une question de confiance

Références

[1] Quand cet article parle du cloud, je focalise sur des carac-téristiques suivantes: des systèmes matériels/logiciels d’un ensemble d’équipements consumer-grade — donc bon marché grâce à l’échelle et la compétitivité du marché — sous une gestion centralisée et hautement automatisée, permettant une grande évolutivité (scalability); basés sur ce genre d’infrastructures, des services grand public et accessibles par Internet, qui sont financés par la publicité, facturés à l’usage, ou soutenus par des modèles hybrides style freemium. Pour une définition plus rigoureuse de Cloud Computing, il y a l’excellent travail de NIST (NIST SP800-145, nist.gov).

[2] Cette loi concerne toutes les sociétés qui ont une attache aux États-Unis, et également si les données sont stockées en dehors du territoire américain, Microsoft et Google ont dû clarifier ce point: www.zdnet.com/blog/igeneration/microsoft-admits-patriot-act-can-access-eu-based-cloud-data/11225 et www.wiwo.de/politik/ausland/datenspeiche-rung-google-server-in-europa-vor-us-regierung-nicht-si-cher/5156042.html.

[3] Hogan Lovells. White Paper on Governmental Access to Data in the Cloud Debunks Faulty Assumption That US Access is Unique. May 2012. www.hldataprotection.com/2012/05/articles/international-eu-privacy/hogan-lo-vells-white-paper-on-governmental-access-to-data-in-the-cloud-debunks-faulty-assumption-that-us-access-is-unique/.

[4] KROES, Neelie. A European Cloud Strategy. Discours du 25 juin 2012. europa.eu/rapid/pressReleasesAction.do ?aged=0&format=HTML&guiLanguage=en&language=EN&reference=SPEECH/12/490 n

Page 39: Flash informatique 2012 - no spécial été - D

39SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

Trust the clouds.How to use cloud computing without any security risk?

Faites confiance aux nuages.Comment faire pour utiliser le Cloud computing sans risque pour la sécurité ?

Avec l’été apparaît un florilège de questionnaires ludiques:z regardez-vous les nuages avant de sortir ?z faites-vous confiance aux prévisions météo ?z aimez-vous les cerfs-volants ?z prenez-vous les avions ?z êtes-vous en sécurité dans un vol transatlantique ?z connaissez-vous les nuages informatiques (Cloud) ?z utilisez-vous les nuages (Cloud) ?

Notre horizon de travail s’élargit sans fin. Du terminal nous sommes passés à l’ordinateur individuel. Par la suite, nous sommes tombés dans la toile et ses multiples périphériques. Maintenant, on nous propose le Cloud comme lieu d’hébergement de nos données.

Nuages noirs sur les données

En feuilletant le dernier best-seller à l’ombre des palmiers, on re-trouve la joie du farniente et la délectation de récupérer son livre maculé de protection solaire. Une fois sa lecture terminée, il finira peut-être sa course dans une valise ou sera abandonné dans la chambre d’hôtel, voire oublié dans l’avion.Si vous utilisez une tablette numérique pendant les vacances, le scénario est différent. Votre appareil résiste faiblement à l’intru-sion du sable et à une immersion involontaire dans l’eau de mer. Il est également improbable que vous oubliiez l’appareil dans votre lieu de villégiature. La destruction du livre sera rapidement réali-sée par un geste de votre doigt.La seule liaison de votre tablette est l’éther d’où vous téléchargez un jeu pour remplacer ce succès de librairie. Sans le savoir, votre visite sur le magasin électronique vous expose à deux dangers imperceptibles:z un déluge d’ondes électromagnétiques,z une utilisation du Cloud à l’insu de votre plein gré.

Si les nuages conservent vos données, le côté évanescent et im-matériel représente une source d’inquiétudes:z à qui faire confiance ?z où se trouvent mes données ?z qui y a accès ?

Sérénité dans les [email protected], EPFL -STI, coordinateur informatique à la Faculté des Sciences et Techniques de l’Ingénieur

Le responsable informatique est confronté aux mêmes problèmes, il se pose les mêmes interrogations multipliées par le nombre d’utilisateurs. Pour se soustraire à ce questionnement, il va peut-être le bannir: non, cet outil nuageux n’est pas admis dans l’envi-ronnement de notre entreprise.Cette logique peut engendrer une spirale de mesures de plus en plus restrictives, une paranoïa numérique:z interdire les services faisant appel aux nuages,z empêcher la gestion des machines par les usagers,z supprimer les clés USB,z verrouiller l’accès au lecteur de DVD,z supprimer Internet.

Ce cauchemar est démultiplié quand un responsable de l’entre-prise amène un iPad. Cet appareil possède uniquement deux in-terfaces:z USB pour se synchroniser avec le poste de travail,z réseau sans fil, le reste du temps.Tous les dispositifs de protection disparaissent, la tablette propose même de se passer d’ordinateur, l’ensemble des opérations se fait à travers les nuages.

Interdire ou éduquer ?

Il est aisé pour un responsable réseau d’interdire l’accès à un ser-vice. Le moyen le plus efficace est d’exclure la plage d’adresses IP du fournisseur.Cette censure devient plus difficile quand il s’agit d’une appli-cation qui fait appel à plusieurs nuages pour irriguer le service. iTunes utilise le nuage d’Apple, mais également d’autres sources comme Amazon.Finalement, l’usager bien informé peut ouvrir une connexion VPN privée qui permet de contourner toutes les mesures de modé-ration de trafic Internet. De données clairement identifiables, on se retrouve devant des données encapsulées dans un flux crypté impénétrable pour l’entreprise. Le comble est que l’objectif de la politique de prohibition est esquivé.

Domiciliation des donnéesLa vision classique de la conservation des informations est une délimitation physique. Elle est représentée par les trois cercles concentriques: l’utilisateur, son ordinateur, son entreprise. Le monde extérieur est identifié comme une menace. Une relation de confiance s’établit entre chaque niveau interne, l’information est dupliquée et conservée. Cette vision est rassurante, je travaille sur mon ordinateur qui est dans l’entreprise, isolé du dehors.

Page 40: Flash informatique 2012 - no spécial été - D

40404040 flash informatique4040 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique

moi-même, mon ordinateur et mon entreprise versus le monde extérieur

En réalité, quand des éléments personnels sont contenus dans l’appareil, ils deviennent de facto incorporés dans l’entreprise. Par exemple, mes musiques, mes photos, mes livres, mes vidéos sont strictement privés, mais peuvent se retrouver dans mon ordina-teur de bureau.

Moi-même, mes informations privées, mon travail, mon ordinateur et mon entreprise versus le monde extérieur

Logiquement, le responsable informatique va exclure ces données privées de la sauvegarde, mais en cas de vol ou de crash de mon ordinateur, je serais fort mécontent si je ne les récupère pas.

Moi-même, mes informations privées, mon travail, mon ordinateur et mon entreprise versus le monde extérieur

Cette promiscuité se retrouve également dans le courrier élec-tronique, contient-il uniquement des données professionnelles ?

Les nuages

Il y a 5 ans, le téléphone intelligent (smartphone) était réservé aux responsables ou aux passion-nés, le choix de l’appareil était dicté par la compatibilité avec le sys-tème informatique de l’entreprise. Pour la messagerie de Microsoft (Exchange), uniquement les appa-reils avec Windows Mobile étaient acceptables.Au même moment est apparu l’iPhone qui est rapidement devenu un nouveau paradigme. D’un éco-système fermé de messagerie, on passe à un choix simple correspon-dant aux acteurs du marché (Micro-soft Exchange, mobileMe, Google Gmail, Yahoo, AOL et les autres). Cette liberté acquise, les utilisateurs ont pris l’habitude d’amener leurs propres matériels pour travailler en entreprise (Bring Your Own Device). L’ubiquité des données des nuages combinées avec les équipements des usagers entrainent un modèle innovant.

moi-même, mes appareils, mes informations privées et professionnelles, les nuages et mon entreprise versus le monde extérieur

A priori, ce modèle est un cauchemar pour la sécurité des don-nées:z de l’entreprise ?z privées ?z qui est le propriétaire ?z où sont-elles conservées ?Le marché de la synchronisation des informations dans les nuages est en plein essor. Chaque constructeur cherche à se positionner comme fournisseur exclusif de services.Un récent article de la revue électronique Ars Technica décrit les principaux acteurs du marché et leurs caractéristiques: arstech-nica.com/gadgets/2012/04/cloud-storage-a-pricing-and-feature-guide-for-consumers/.Le leader de ce marché est DropBox, un débat revient régulière-ment au premier plan: faut-il l’interdire ou l’autoriser ?Ce service dans les nuages offre:z une intégration directe dans les ordinateurs, c’est un emplace-

ment dans la hiérarchie du disque,

Sérénité dans les nuages

Windows OS X Linux Android iOS WindowsPhone

Web

third-party clients

disponibilité des outils de synchronisation selon les plates-formes ©Ars Technican disponible et n indisponible

Page 41: Flash informatique 2012 - no spécial été - D

4141SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

z une synchronisation entre plusieurs appareils (les documents sont automatiquement dupliqués),

z un hébergement dans les nuages (les éléments synchronisés sont également accessibles par un navigateur Web),

z une possibilité de partager des informations.Quatre composants supplémentaires expliquent son succès:z gratuit avec un quota de 2Go,z la capacité de revenir sur une version antérieure des docu-

ments,z une disponibilité sur quasiment toutes les plates-formes: Mac

OS, Windows, Linux, iOS, Android, BlackBerry;z et avantage non négligeable, une myriade d’applications qui

intègrent ce service.La seule lacune à relever est l’absence de client natif sur Windows Phone.

En autorisant DropBox dans l’entreprise, on se retrouve devant trois dilemmes, les données ne sont pas chez nous, je ne sais pas ce qui est sauvegardé, l’entreprise peut faire faillite ou être pour-suivie par la justice du pays hôte (en l’occurrence les États-Unis).Le premier réflexe d’une équipe informatique pour répondre à ces contraintes serait de recréer le service. Cela représente un travail très conséquent qui entrainerait immanquablement une version allégée sans saveur. Si la culture multiplate-forme n’est pas pré-sente dans l’entreprise, le projet risque une annihilation mutuelle par les spécialistes de chaque chapelle.Trois pistes permettent d’envisager son utilisation en entreprise:z encrypter les données,z sauvegarder la hiérarchie d’un appareil,z créer un compte DropBox pour chacun.

Encrypter les données

un document encrypté contenu dans les nuages

La principale crainte est que les informations confidentielles soient lues par une personne tierce. L’encodage permet de répondre faci-lement à ce problème. Naturellement, le programme choisi doit être compatible avec le nuage utilisé.

Difficulté supplémentaire, les applications doivent être disponibles pour toutes les plates-formes (Mac OS, Linux, Windows et iOS).Pour DropBox, il existe une solution logicielle remplissant ces critères, KeePass. L’article de Jean-Daniel Bonjour sur ce produit open source décrit son utilisation quotidienne: flashinformatique.epfl.ch/spip.php ?article2180.Si ce produit est, au départ, prévu pour conserver des mots de passe, il peut contenir n’importe quel fichier texte.Le principal intérêt de KeePass est de disposer de clients gra-tuits ou payants sur la totalité des plates-formes utilisées avec DropBox.Avec cette méthode, la sécurité est triple:z le document est encodé,z le compte dans les nuages possède un accès authentifié,z la communication se fait par un canal sécurisé.

TrueCrypt est un challenger sérieux. Il permet de créer un fichier encrypté contenant l’équivalent d’une hiérarchie de dossiers et de documents. Son seul défaut actuel est de ne pas disposer de client synchronisé sur iOS avec DropBox.

base de données encryptées avec KeePass, synchronisées avec DropBox

La taille du fichier encrypté est un paramètre essentiel, chaque modification d’un fichier encodé entraine son transfert complet. Un volume raisonnable se mesure en kilo-octets voire en méga-octets. Il faut également tenir compte des déplacements à l’étran-ger qui pourraient engendrer un trafic Internet trop important, rapidement ruineux.À titre d’exemple, je partage une base de données dans DropBox avec mon collègue. Contenue dans un fichier KeePass, elle en-globe les informations des machines gérées conjointement. Sa taille est de 25 Ko, sa synchronisation ne pose aucun problème, même à travers une connexion téléphonique GSM.En outre, il est préférable de conserver encryptés uniquement des documents sans mise en forme.Par exemple, un article complémentaire sur l’utilisation des nuages devient 85 fois plus volumineux avec les illustrations en PDF (14’537 octets en format texte et 1’246’059 octets en pdf), flashinformatique.epfl.ch/IMG/pdf/2-12-page4-2.pdf.

Sérénité dans les nuages

Page 42: Flash informatique 2012 - no spécial été - D

42424242 flash informatique4242 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique

Sauvegarder la hiérarchie d’un appareilMaintenant que les données sensibles sont sécurisées, car enco-dées, comment s’assurer de disposer d’une copie dans l’entreprise ?Avec DropBox, tous les appareils synchronisés possèdent les mêmes documents, si le service disparaît, un duplicata est conser-vé sur chacun d’entre eux. La sauvegarde de l’une de ces machines est suffisante pour garantir l’intégrité des informations.

Créer un compte pour chacun L’idée de créer un accès dans le nuage pour chaque employé peut sembler excessive (avec l’’adresse de messagerie utilisée comme nom d’utilisateur).Qui serait le possesseur de ce compte, l’individu ou l’entreprise ?Dans de nombreuses firmes, le contenu de la boite de messagerie est la propriété de l’entreprise malgré le caractère nominatif de l’e-mail. Ainsi, au départ de l’employé, les données des services dans les nuages liées à ces identifications restent dans son patri-moine.Apple applique un principe similaire: chaque entrée iTunes corres-pond à une adresse de messagerie. Si l’entreprise administre ces comptes, elle gère les informations conservées. A priori compli-quée, cette méthode de gouvernance permet de séparer la sphère privée du travail.

Confiance dans les nuages

Les nuages sont intrinsèquement du même niveau de qualité que les services offerts à l’intérieur de l’entreprise.La confiance doit être évaluée pour chaque outil qu’il soit interne ou externe, des parades comme l’encryption du contenu doivent nous faire prendre conscience de l’importance d’avoir des mots de passe sûrs. Quand les entreprises ne maintiennent pas correcte-ment vos informations, comme récemment LinkedIn, leurs divul-gations entrainent la révélation au monde entier d’un accès. Si ce mot de passe est réutilisé dans un autre contexte, le risque de cascade sécuritaire est extrême (il ouvre une réaction en chaîne pouvant mener aux données de l’entreprise, LindedIn > Google > Yahoo > EPFL).Aux chantres de la simplicité qui me proposent d’employer mon compte Google/Facebook/LinkedIn comme source unique d’authentification, je réponds que j’utilise une méthode plus com-plète:z pour chaque service, machine, compte, je crée un mot de

passe complexe,z ils sont conservés dans un fichier crypté par une clé,z les fichiers sont déposés dans DropBox, automatiquement

synchronisés sur tous les appareils sous mon contrôle,z les clés sont détenues dans ma mémoire !Naturellement, la perte des sésames due à un oubli ou à un ac-cident brise ce schéma. Par précaution, ces clés sont conservées dans des enveloppes scellées dans un coffre-fort physique.Curieusement, nous acceptons encore d’échanger du courrier électronique sans garantie de l’expéditeur avec un contenu ap-paraissant en clair sur l’entier de son parcours, une vraie carte postale. Dans le cas de brevet ou de contrat échangé par e-mail non encrypté, le problème de sécurité provient bien de la manière d’utiliser l’outil, mais pas de son fonctionnement. n

Sérénité dans les nuages

Some personal thoughts after reading the book Delete by V. Mayer-Schönberger.

Quelques réflexions suite à la lecture du livre Delete de Mayer-Schönberger.

À la fin du XVIIIe siècle, le philosophe Jeremy Bentham imagine un type d’architecture carcérale qu’il nomme le Panoptique. Un gardien, logé dans une tour centrale, observe tous les prisonniers, enfermés dans des cellules individuelles autour de la tour, sans que ceux-ci puissent savoir qu’ils sont observés. Ce dispositif devait ainsi créer un sentiment d’omniscience invisible chez les détenus. En 1975, Michel Foucault met ce terme au centre de sa réflexion en étendant le dispositif de Bentham:

Mais le panoptisme ne doit pas être compris comme un édifice onirique: c’est le diagramme d’un mécanisme de pou-voir ramené à sa forme idéale; son fonctionnement abstrait de tout obstacle, résistance ou frottement, peut bien être présenté comme un pur système architectural et optique: c’est en fait une figure qu’on peut et qu’on doit détacher de tout usage spécifique.

(Surveiller et punir, Gallimard, 1975)

En 2009, Viktor Mayer-Schönberger, actuellement professeur à l’OII (Oxford Internet Institute), parle dans son ouvrage Delete: The Virtue of Forgetting in the Digital Age [1] d’un panop-tique numérique, un espace dans lequel nous sommes constam-ment sous le regard des autres. Pour illustrer son propos, V. Mayer-Schönberger nous présente deux anecdotes emblématiques et une nouvelle de Jorge Luis Borges.

Andrew Feldmar est un psychothérapeute à Vancouver. Son his-toire a été rapportée dans le New York Times. Un jour il décide d’aller au Tacoma International Airport de Seattle pour accueillir un ami. Au passage de la frontière canado-américaine, il est goo-glé par un garde-frontière. Le garde-frontière découvre un article que M. Feldmar a écrit dans les années 1990 à propos de ses expé-riences avec du LSD. Sur la base de cet élément, le garde demande à M. Feldmar si cela est exact. Celui-ci répond positivement et se voit empêché d’entrer aux États-Unis, non seulement pour ce jour-là, mais pour toujours. Signalons qu’avant de recevoir l’auto-risation de retourner au Canada, après cinq heures de garde, il a dû signer une lettre d’aveu, dans laquelle il reconnaît avoir violé le U.S. Controlled Substance Act.

Delete ou la vertu de l’oubli à l’âge digital [email protected], EPFL - Domaine IT

Page 43: Flash informatique 2012 - no spécial été - D

43SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

Delete ou la vertu de l’oubli à l’âge digital [email protected], EPFL - Domaine IT

Il rappelle l’importance de l’oubli social. En effaçant les mémoires externes, écrit-il, la société accepte que l’individu évolue avec le temps, puisse apprendre de ses expériences passées et modifier son comportement. Au contraire, une société qui enregistre tout nous enchaîne à nos actions passées, rendant toute échappée im-possible. Il conclut que, sans une certaine forme d’oubli, le pardon devient une entreprise difficile. Quelles solutions ? Parce que se souvenir et oublier est une dé-marche humaine, Viktor Mayer-Schönberger pense à fixer une date d’expiration pour toutes les informations que nous stockons. Lorsqu’elle est atteinte, l’information est détruite, c’est-à-dire ou-bliée. Comme nous devrions fixer nous-mêmes ces dates d’expi-ration, cela nous rappellerait que la plupart des informations ne sont pas intemporelles, mais liées à un contexte spécifique dans le temps, et qu’elles perdent de leur valeur et de leur importance dans la durée. Il poursuit en signalant qu’une certaine forme d’ou-bli graduel, d’information qui rouille serait plus proche de l’oubli humain. Mais il faut également de nouvelles approches, des droits à l’information privée, des lois…

Quelques pistes:z un bouton pour supprimer l’enregistrement de vos 10 der-

nières requêtes de recherche ?z la possibilité de demander, au moment du téléchargement de

vos images , une date d’expiration ?z ou bien une solution radicale: l’abstinence digitale. Mais

sommes-nous prêts à renoncer aux bénéfices offerts par le partage des données?

Je vous laisse découvrir vous-mêmes les autres propositions de l’auteur de l’essai, ainsi que la présentation de son livre qu'il a faite chez Google: www.youtube.com/watch?v=GRmoX7MbLp0..

À l’autre extrême du spectre de cette problématique de la mémoire numérique, Gordon Bell, le père de la gamme PDP-11, aujourd’hui chez Microsoft, ne quitte plus une SenseCam qu’il porte autour du cou depuis 2003. Gordon Bell vise une immortalité numérique en enregistrant tous les moments de sa vie, documents, pages Web … À suivre dans son livre: Total Recall: How the E-Memory Re-volution Will Change Everything, co-signé avec Jim Gemmell.

Référence

[1] MAYER-SCHÖNBERGER, Viktor. Delete: The Virtue of For-getting in the Digital Age, Princeton University Press n

Le deuxième cas est tout aussi instructif. Il y a quelques années, Stacy Snyder, 25 ans, enseignante stagiaire à la Conestoga Val-ley High School de Lancaster (Pennsylvanie), a posté sur sa page MySpace une photo d’elle portant un chapeau de pirate, un gobelet à la main, légendée Pirate éméché. Ayant découvert ladite page, son superviseur lui a expliqué que l’image témoignait d’un manque de professionnalisme, et la doyenne de la School of Education de l’université de Millersville où Stacy était inscrite a jugé que c’était pour ses élèves mineurs une incitation virtuelle à la consommation d’alcool. Quelques jours avant la date prévue, l’université a refusé de lui délivrer son diplôme d’enseignante.La jeune femme a poursuivi l’université en justice, l’accusant d’avoir violé le Premier amendement en la pénalisant pour son comportement (parfaitement légal) en dehors des heures de tra-vail. Mais en 2008, un juge fédéral de district a rejeté sa demande, au motif que si Stacy Snyder était bien une employée du service public, sa photo ne se rapportait à aucun sujet d’intérêt public et que son Pirate éméché ne relevait donc pas du discours protégé.

Jorge Luis Borges dans sa nouvelle Funes ou la mémoire fait le récit suivant. Funes est un jeune homme qui, depuis un accident de cheval, a perdu la capacité d’oublier. Il est capable de lire et de se souvenir de centaines de livres, mot pour mot, mais il est inca-pable d’en tirer aucun savoir, car cela nécessite de l’abstraction, de la généralisation, et par conséquent l’oubli des détails, ce que Funes ne peut plus faire. Il est pour toujours prisonnier dans les détails de son passé et meurt peu de temps après.

Ces trois exemples doivent nous aider, selon Viktor Mayer-Schön-berger, à comprendre les changements fondamentaux que nous impose la mémoire numérique. Premièrement, d’ordre cognitif, avec une perte d’abstraction que l’on peut résumer ainsi : là où il y avait autrefois une forêt, nous ne percevons plus que les arbres; deuxièmement, le souvenir autrefois difficile et coûteux, devient le défaut et l’oubli une exception coûteuse. Coûteuse effective-ment quand on songe que les quelques secondes qu’il faut pour examiner chaque photo numérique et décider s’il convient de la conserver ou non, nous coûtent plus que l’espace que cette photo prendra sur notre disque dur. Coûteuse en temps aussi, si vous décidez de faire le ménage dans vos 45,234 mails de votre compte gmail !Viktor Mayer-Schönberger insiste, la mémoire numérique crée un panoptique temporel, dans lequel nous devons prendre en compte le fait que non seulement nous sommes observés, mais que les générations futures pourront observer ce que nous sommes en train de faire. Avec pour résultat éventuel, la peur que ces informations numériques soient brandies contre nous, dix ans plus tard, lorsqu’on cherchera un emploi ou demandera un prêt bancaire…

Page 44: Flash informatique 2012 - no spécial été - D

flash informatique444444 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

Making data freely accessible and reusable for more transparency, innovation and efficiency — that is Open Data.

Ouvrir les données publiques, de façon libre et réu-tilisable pour plus de transparence, d’efficacité et d’innovation – c’est ça, l’Open Data.

Dans nos gouvernements et administrations publics, les données occupent aujourd’hui plus que jamais une place centrale. Que ce soit dans l’administration des finances fédérales, des services sociaux, dans les domaines des infrastructures publiques ou de l’éducation, le traitement de ces données, leur stockage, leur ar-chivage sont au cœur de l’activité de nos institutions publiques.

dessin de Rolf Willi

Avec le développement fulgurant des technologies de l’informa-tion et la montée en puissance d’Internet, la gestion de ces don-nées publiques a pris de nouvelles dimensions. Il est par exemple vite apparu qu’un usage mal intentionné des données personnelles représentait une menace sérieuse pour le respect de la sphère privée du citoyen. C’est ainsi qu’en 1983 la Suisse adopte la Loi sur la protection des données (LPD) [1] définissant de manière précise les types de données faisant partie de la sphère privée et ne devant en aucun cas être utilisées sans l’aval de la personne concernée. Si une partie des données stockées dans les bases de données de nos administrations relève de la sphère privée, une autre partie est publique et d’intérêt général (voir encart Données privées et données publiques). Les pays anglo-saxons ainsi que les états du nord de l’Europe reconnurent très tôt la valeur et l’importance de ces données publiques. C’est ainsi que dans les années soixante

Open Government Data en Suisse Vers plus de transparence, d’efficacité et d’innovation grâce à l’ouverture des données publiques

[email protected], @ecolix, fondateur et membre du comité Opendata.ch & consultant en software engineering chez innoQ

déjà ils adoptèrent une charte prônant le libre accès à l’infor-mation pour tous (Freedom of Information Act) [2]. De manière similaire, fût adoptée en Suisse en 2006 la Loi fédérale sur la transparence [3] visant «à promouvoir la transparence quant à la mission, l’organisation et l’activité de l’administration (…) en garantissant l’accès aux documents officiels.:1 Toute personne a le droit de consulter des documents officiels

et d’obtenir des renseignements sur leur contenu de la part des autorités.

2 Elle peut consulter les documents officiels sur place ou en demander une copie. La législation sur le droit d’auteur est réservée.

3 Si les documents officiels ont déjà été publiés par la Confé-dération sur papier ou sous forme électronique, les conditions énoncées aux al. 1 et 2 sont réputées remplies.» (LTrans, Art. 1)

Après la Loi sur la protection des données, nous assistons donc à un changement de paradigme: désormais, toutes les informa-tions et tous les documents de l’administration fédérale sont accessibles au public. Ce droit peut être restreint si des intérêts publics ou privés prépondérants s’y opposent. Plusieurs cantons et grandes communes ont depuis 2006 introduit un tel principe de transparence.

Ouvrir les données publiques ? À quoi ça sert ?

On serait tenté de croire que cette loi fédérale sur la transparence est suffisante. Pourquoi faut-il encore une ouverture complète des données publiques ? Pourquoi veut-on encore aller plus loin ? Qu’est-ce donc que ce mouvement Open Data ? Les services publics financés par le gouvernement ont pour tâche de créer, gérer et publier des données dans un cadre juridique bien précis. Ces données sont nécessaires à leur fonctionnement. Si par exemple un service est en charge de la planification du réseau de distribution d’eau, il va devoir dresser une cartographie précise des différentes conduites d’eau, leur âge, leur type… idem pour la planification des routes, des espaces verts, des crèches,… La liste est encore très longue ! Toutes ces données couvrent un très grand nombre de domaines (voir encart Données privées et données publiques). Elles ont pour la plupart du temps un potentiel so-cio-économique allant bien au-delà du cadre prescrit par la loi. Nos autorités sont donc assises sur un véritable trésor de données largement sous-utilisées. En effet la législation actuelle régie par la Loi sur la transparence est basée sur une approche passive où les prestations sont délivrées sur demande. Le mouvement Open Government Data propose au contraire une approche active où les données publiques sont mises en libre accès dans un for-mat non propriétaire afin de pouvoir être réutilisées. Nous passons donc d’un modèle passif basé sur la demande à un modèle actif

Page 45: Flash informatique 2012 - no spécial été - D

4545SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

Open Government Data en Suisse

Données privées

Le type d’information tombant sous le coup de la loi sur la protection des données:z des données personnelles (ou nominatives) permettant

l’identification directe ou indirecte d’une personne phy-sique (noms, prénoms, adresses (physique et électro-nique), numéro de téléphone, lieu et date de nais-sance, numéro de sécurité sociale, numéro de carte de paiement, plaque d’immatriculation d’un véhi-cule, photo, empreinte digitale, ADN, etc.)

z des opinions ou activités religieuses, philosophiques, politiques ou syndicales,

z des données se rapportant à la santé, à la sphère intime ou à l’appartenance à une race,

z des mesures d’aide sociale,z des poursuites ou sanctions pénales et administratives;z …Tous ces types de données sont privés et ne doivent en aucun cas être rendus publics sans l’aval de la personne intéressée.

Données publiques

Les données publiques regroupent des informations d’inté-rêt général collectées par nos autorités et administrations. C’est ces données sur lesquelles se concentre le mouvement Open Government Data. La liste est longue et il n’est pas aisé d’en faire un inventaire exhaustif. À titre d’exemple, les données publiques peuvent contenir des informations dans les domaines suivants:z la citoyenneté: résultats d’élections, cartes des bureaux

de vote, cartes électorales, décès, mariages, naissances, répertoire des prénoms déclarés…

z l’urbanisme: fonds de cartes des plans de voirie, tracés des routes, description des trottoirs, volume du bâti…

z les services publics: liste des établissements scolaires, des écoles maternelles et élémentaires, des crèches, des haltes-garderies, des piscines…

z l’environnement: liste des parcs et jardins, carte des arbres d’alignement, bâtiments, référentiels de la flore, …

z la culture: liste d’ouvrages disponibles, notices des œuvres de fonds des musées, statistiques des prêts dans les bibliothèques, …

z …

Données privées et données publiquesPour mieux appréhender ce qu’est l’Open Government Data, il est important de bien faire la différence entre les données faisant partie de la sphère privée tombant sous le coup de la loi sur la protection des données et les données d’intérêt général appartenant à la sphère publique. Comme représenté sur la figure ci-après, l’Open Government Data ne concerne que les données publiques.

public

privateData

OpenGovernment

OpenData

GovernmentData

OpenGovernment

Data

OpenGovernment

Page 46: Flash informatique 2012 - no spécial été - D

46464646 flash informatique4646 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique

basé sur l’offre. Le guichet servi par un fonctionnaire attendant les requêtes du citoyen est remplacé par une grande surface self-service ouverte 24 heures sur 24.Les bénéfices d’une telle ouverture des données publiques se font sentir dans trois domaines: la transparence, l’innovation et les économies de coûts de fonctionnement.

TransparenceLa transparence permet aux citoyens de voir et de comprendre. En s’ajoutant aux organes de contrôle déjà en place, elle per-met une surveillance par le citoyen des activités de nos autorités (principe many eyes). Elle permet également une meilleure adé-quation entre l’offre des services publics et les besoins du citoyen ainsi qu’une meilleure acceptation du travail des administrations gouvernementales. Ces divers aspects liés à la transparence sont au cœur du développement ces 20 dernières années de ce que l’on a appelé le New Public Management et l’E-gouvernement. La transparence est une condition essentielle au succès de la mise en place d’une coopération réussie entre les citoyens et l’administra-tion permettant aux individus d’apporter une contribution active à la gestion de l’État, de l’amélioration de son efficacité et de la qualité de ses services.

Innovation L’ouverture des données publiques stimule l’innovation. En effet ces données peuvent être réutilisées par des entreprises privées pour donner naissance à de nouveaux services. L’expérience anglo-saxonne a de plus montré comment l’ouverture de don-nées publiques fait naître un nouveau marché où journalistes, développeurs et entrepreneurs se spécialisent dans la représen-tation et l’interprétation de ces données publiques pour définir de nouveaux services. Un des premiers bénéficiaires de ce marché émergent de services constitue bien évidemment les institutions publiques elles-mêmes. La Suisse ne doit pas laisser passer un tel potentiel d’innovation.

Économie des coûtsUn troisième avantage potentiel est l’économie des coûts. En effet la collecte, la création, la vérification, le croisement et le stockage de données effectués par nos administrations engendrent des coûts considérables. En utilisant l’architecture simple et robuste offerte par le Web ainsi que des formats de données non pro-priétaires, il est possible d’accéder et d’utiliser ces données avec un minimum de frais de fonctionnement. Un accès Internet et un navigateur Web suffisent. Les premiers bénéficiaires de cet accès facilité aux données sont à n’en pas douter les administrations elles-mêmes. En effet la même interface Web peut être utilisée, aussi bien pour l’échange interne d’information entre deux dépar-tements d’une même administration que pour celui d’un citoyen voulant accéder à des données publiques.

Quelles sont les mesures à prendre ?

Plusieurs jeux de données sont déjà disponibles en libre accès et font partie intégrante des services de certains départements. C’est le cas notamment des offices de statistiques, des centres de géo-informations ou des services d’archives. Par conséquent l’ouver-

ture généralisée et complète de toutes les données publiques peut se faire par l’intermédiaire de ces services déjà existants. Afin de réaliser pleinement le potentiel lié à l’ouverture et à la réutilisation des données publiques, un engagement et une colla-boration de différents acteurs est nécessaire:z Les politiques doivent définir au niveau fédéral, cantonal et

communal un cadre législatif et exécutif permettant une ou-verture et une réutilisation des données publiques;

z Les responsables des administrations publiques doivent eux assurer le financement, l’organisation et la réalisation tech-nique liées à une mise à disposition des données dans des for-mats ouverts interprétables par une machine ;

z Les citoyens ainsi que les organisations civiques doivent dans une démarche participative utiliser et s’approprier ces don-nées publiques pour intensifier le dialogue avec nos autorités ;

z Les médias doivent se saisir de ces données, et par l’intermé-diaire des techniques de journalisme de données, les analyser, les interpréter et surtout les visualiser permettant ainsi à un large public d’en comprendre la signification;

z Les développeurs de logiciels doivent utiliser ces données pu-bliques afin de développer de nouvelles applications ;

z Le corps enseignant à tous les niveaux doit inclure dans ses programmes l’analyse, l’interprétation et la réutilisation des données publiques.

Naissance de l’association Opendata.ch

près d’une centaine de développeurs, designers et citoyens porteurs d’idées se sont retrouvés au mois de septembre 2011 à Lausanne et à Zurich pour le premier ate-lier make.opendata.ch. make.opendata.ch/doku.php?id=event:2011-09

Le mouvement Open Government Data en Suisse est encore jeune. Il a débuté fin 2010. Initié par le /ch/open [4] et SI [5] un groupe de travail autour de l’ouverture des données publiques a été créé. En collaboration avec le groupe parlementaire pour une infor-matique durable [6], ce groupe de travail a organisé en juin 2011 aux Archives fédérales à Berne la première conférence Open-

Open Government Data en Suisse

Page 47: Flash informatique 2012 - no spécial été - D

4747SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

Open Government Data en Suisse

Les ateliers make.opendata.ch

Devons-nous attendre que les autorités aient ouvert com-plètement les données publiques ? Non. Nous pouvons déjà nous mettre au travail avec les données que nous avons. C’est précisément la fonction des ateliers make.opendata.ch (en anglais aussi appelé Open Data Hackathon). Ces ateliers sont des événements exploratoires organisés par l’asso-ciation Opendata.ch qui permettent à des développeurs, jour-nalistes, graphistes et citoyens porteurs d’idées de produire des prototypes pour expliciter ce qu’il est possible de réaliser avec les données publiques déjà exis-tantes. Se voulant dé-libérément ouverte et participative, l’orga-nisation est volontairement flexible et légère. Les résultats délivrés et l’expérience immersive (voir la vidéo [7]) d’un tel campus sont incomparables! La liste complète des pro-jets [8] peut-être consultée sur le site make.opendata.ch. Ici quelques exemples d’applications réalisées dans le cadre de ces ateliers:

Visualisation interactive du budget de la ville de Berne

Cette application [9] permet de naviguer de manière inte-ractive dans le budget de la ville de Berne. Nul besoin d’être un expert comptable pour se faire une idée des dépenses de la ville.

Where did my taxes go ?

Cette application [10] permet à tout citoyen zurichois de se faire une idée rapide de la manière dont ses impôts sont dépensés par la ville de Zurich.

How green is my street ?

Partant des données de consommation d’électricité de chaque bâtiment de Lausanne, cette application [11] per-met de se faire une idée de la consommation moyenne de son quartier.

Page 48: Flash informatique 2012 - no spécial été - D

48484848 flash informatique4848 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique

data.ch [12]. Cette première rencontre au niveau fédéral connut un large succès et a été suivie de la rédaction d’un manifeste ainsi que de diverses actions parlementaires.

Faisant suite à cette première conférence, au mois de septembre 2011 a eu lieu le premier campus make.opendata.ch [13] de Suisse (voir encart Les ateliers make.opendata.ch). Durant deux jours une centaine de développeurs, journalistes, gra-phistes et citoyens porteurs d’idées ont imaginé comment réuti-liser les données publiques disponibles. Au total une vingtaine de projets ont vu le jour. Afin de fédérer les efforts, l’association Opendata.ch a été fondée le 19 janvier 2012. Le rôle de son comité [14] est d’une part de soutenir les parlementaires et d’aider les administrations à faire le pas de l’ouverture et, d’autre part, de mettre sur pied les ate-liers make.opendata.ch [15] ainsi que d’organiser la conférence annuelle Opendata.ch. Depuis la naissance de l’association Opendata.ch, les choses sont allées vite et le mouvement ne cesse de prendre de l’ampleur: deux autres ateliers make.opendata.ch ont été organisés sur Ge-nève, Zurich et Berne [16]. Au total près de 300 développeurs, journalistes, graphistes et citoyens se sont à nouveau retrouvés et ont donné naissance à toute une série de nouveaux projets / applications ou visualisations.Au niveau fédéral, faisant suite aux diverses actions parlemen-taires [17] le département fédéral des archives a entamé la créa-tion d’un inventaire des documents pouvant être rendus publics. Au mois de mars 2012 le Conseil fédéral a approuvé une révision totale de la loi sur la météorologie (LMét) qui prévoit notamment le libre accès à toutes les prestations de base et données clima-tiques et météorologiques du service météorologique national [18]. Enfin le 28 juin dernier s’est déroulée à Zurich la deuxième conférence Opendata.ch 2012 [19] lors de laquelle furent pré-sentés les résultats de la première étude faite sur les divers aspects liés à l’ouverture des données publiques en Suisse [20]. La ville de Zurich, coorganisatrice de l’événement, a égale-ment lancé officiellement son nouveau portail Open Govern-ment Data [21]. Un nouvel atelier make.opendata.ch [22] sur le thème de la santé est prévu pour la fin du mois de septembre 2012 sur Genève et Bâle.

Perspectives

L’ouverture des données publiques en Suisse n’en est qu’à ses débuts. Beaucoup de choses restent encore à faire. Cependant comme la bien dit l’ancien président français Nicolas Sarkozy «C’est un chemin sans retour». La plupart du temps nos autorités ont déjà compris l’intérêt et les enjeux liés à une ouverture des données publiques. Elles restent cependant encore prudentes et hésitent encore à s’atteler à sa mise en œuvre. Cela demandera un peu de temps. En bons Suisses, nous avançons prudemment, à petits pas, … mais sûrement !

Open Government Data en Suisse

Références

[1] www.admin.ch/ch/f/rs/235_1/index.html[2] fr.wikipedia.org/wiki/Freedom_of_Information_Act[3] www.ejpd.admin.ch/content/ejpd/fr/home/themen/staat_

und_buerger/ref_gesetzgebung/ref_abgeschlossene_pro-jekte0/ref_oeffentlichkeitsprinzip.html

[4] www.ch-open.ch[5] www.s-i.ch[6] www.durabilite-numerique.ch[7] www.youtube.com/watch ?v=ZTfBtS5RXOI[8] make.opendata.ch/doku.php ?do=search&id=%40project[9] t.preus.se/bernbudget2012/ 10] wheredidmytaxesgo.nelm.io[11] opendata.utou.ch/lausanne/[12] www.durabilite-numerique.ch/2011/06/open-gov-data-c/[13] fr.opendata.ch/projects/make-opendata-ch-2011/[14] opendata.ch/organisation/board/[15] make.opendata.ch[16] make.opendata.ch/doku.php ?id=event:2012-03[17] 1: www.parlament.ch/f/suche/pages/geschaefte.aspx ?ges-

ch_id=20113346, 2: www.parlament.ch/f/suche/pages/geschaefte.aspx ?gesch_id=20113358, 3: www.parlament.ch/f/suche/pages/geschaefte.aspx ?gesch_id=20113380, 4: www.parlament.ch/f/suche/pages/geschaefte.aspx ?ges-ch_id=20113902, 5: www.parlament.ch/f/suche/pages/ges-chaefte.aspx ?gesch_id=20113884

[18] www.news.admin.ch/dokumentation/00002/00015/index.html?lang=fr&msg-id=43617

[19] fr.opendata.ch/2012/06/22/conference-opendata-ch-2012-pour-un-acces-libre-et-une-reutilisation-des-don-nees-publiques-en-suisse/

[20] www.itopia.ch/repository/Publikationen/OGD_Studie_Schweiz_Juni_2012.pdf

[21] data.stadt-zuerich.ch/portal/de/index/ogd/daten.html[22] fr.opendata.ch/projects/make-opendata-ch-2012-la-sante/

n

Page 49: Flash informatique 2012 - no spécial été - D

4949SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

The case for tablets in education beyond the media enthusiasm.

Le point sur le potentiel des outils mobiles en éduca-tion au delà de l’engouement médiatique.

La dernière décennie a connu un développement fulgurant des dispositifs mobiles comme les liseuses (en anglais e-book pour electronic book) et les tablettes tactiles (ou pad en anglais). Outre leur usage domestique et de loisirs, ces outils offrent des poten-tialités inédites pour les situations d’enseignement, de formation et de travail. Du fait de leur faible encombrement facilitant la mobilité, ces dispositifs permettent de consulter des documents dans des contextes variés (salle de classe, musée, etc.) tout en gar-dant les avantages du numérique (flexibilité de la présentation de l’information, outil de recherche dans une grande quantité de données, par exemple). Toutefois, l’utilisation de ces outils mobiles n’est pas neutre en termes d’activité de l’utilisateur. En effet, du fait d’un écran de taille réduite, ces outils proposent de nouveaux formats de pré-sentation de l’information et de nouveaux modes d’interaction avec le contenu, ce qui a des conséquences en amont sur la conception des documents et des interfaces, et en aval sur les usages que l’on peut en faire. Or c’est bien de la qualité des usages que dépendra in fine l’efficacité de l’outil.

Tablettes, liseuses, ordinateurs, qu’est-ce que ça change en termes d’interaction ?

Dotés de fonctionnalités spécifiques, les différents outils numériques n’offrent pas tous les mêmes possibili-tés en termes d’usage. Alors que les li-seuses sont, comme leur nom l’indique, destinées principalement à la lecture et à la consultation de documents, les tablettes sont plutôt assimilables à des ordinateurs de taille réduite, dont les fonctionnalités sont similaires à celles de leurs grands frères.Toutefois, la taille réduite de l’écran a des répercussions non négligeables sur la présentation et l’organisation de l’information. Tout d’abord, elle oblige à repenser l’organisation classique des

Du bon usage des [email protected], Université de Genève, professeure en Technologies de l’information et processus d’apprentissage à la Faculté de Psychologie et Sciences de l’éducation & directeur de TEFCA

zones informationnelles et de navigation, cette dernière étant en général accessible à la demande, mais pas de manière per-manente. Pour faciliter la recherche de contenu, la conception de documents pour ces supports doit privilégier les structures peu hiérarchiques, des unités d’information brèves de la taille de l’écran si possible, et des titres de chapitres explicites.Un deuxième élément important en termes d’interaction per-sonne-machine est la disparition des périphériques d’entrée cla-vier – souris, remplacé le plus souvent par une interface tactile, à l’exception de certaines liseuses qui disposent seulement de boutons de navigation insérés dans le cadre. À la différence des premiers Tablet PC, l’interaction tactile multitouch des tablettes n’est pas une simple transposition de l’interaction avec la sou-ris ou avec un stylet, elle obéit à une autre logique où le geste devient porteur de signification. Que ce soit le feuilletage ou le zoom, l’interaction se rapproche d’un geste naturel, ce qui rend l’interface plus intuitive, plus facile à apprendre et plus agréable à utiliser. D’autre part, l’interface tactile réintroduit la coordination œil-main: à la différence de l’interaction avec la souris, l’œil suit et contrôle ce que fait la main, comme pour l’écriture, le dessin et autres activités de précision. Seul un entraînement intensif per-met d’effectuer un geste précis sans contrôle direct, comme en musique. Même si l’utilisateur chevronné ne sent pas de difficulté à utiliser une souris, l’interaction n’en reste pas moins consomma-trice de ressources cognitives, même minimes, pour rétablir le lien entre le geste et son résultat. L’interface tactile réalise ainsi l’idéal de la manipulation directe imaginée par Norman notamment, où

mur d’info de BFMTV sur iPad

Page 50: Flash informatique 2012 - no spécial été - D

50505050 flash informatique5050 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique

l’utilisateur interagit directement avec les objets de l’interface plutôt qu’au travers d’un langage de commandes et où le résultat de ses actions est perçu directement et immédiatement. Cette ap-proche a donné naissance aux interfaces graphiques telles qu’on les connaît depuis les années 1980. Avec l’interface tactile, c’est aussi les menus hiérarchiques qui disparaissent, remplacés par des onglets ou des murs d’images que l’on peut feuilleter horizontale-ment. Offrant une interaction simplifiée, paraissant plus naturelle, la tablette minimise les ressources mobilisées par l’utilisateur pour la manipulation de l’interface. Bien sûr l’interface tactile n’a pas que des avantages, notamment en termes de contrôle utilisateur. En effet, le doigt est un pointeur beaucoup moins précis que la souris et l’interface tactile réagit au moindre contact, y compris involontaire, ce qui peut poser problème dans des situations de mobilité. L’interface tactile n’est pas non plus forcément la meilleure option en termes de sécurité (contact involontaire), de robustesse (écran fragile, sensible aux salissures) et de luminosité (écran peu lisible en pleine lumière, hormis certaines liseuses à écran réflectif et technologie e-ink). Finalement, une interaction simplifiée ne permet pas la subtilité offerte par les applications PC. La tablette est donc plutôt réservée à des usages ponctuels, en situation de mobilité ou avec de jeunes enfants.

Quels atouts pour l’apprentissage et l’enseignement ?

Nous parlerons ici des tablettes plutôt que des liseuses, dans la mesure où les liseuses offrent des fonctionnalités limitées que l’on peut retrouver dans les tablettes. On l’a vu, l’interface tactile change radicalement le mode d’interaction avec les documents et applications, introduisant de nouvelles habitudes, de nou-veaux éléments d’interfaces, de nouvelles affordances (incitations à l’action générées par les éléments de l’environnement). Pour les situations d’enseignement, cette interaction plus directe est d’abord un atout pour les apprenants qui peuvent mobiliser toute leur attention à la compréhension du sujet plutôt qu’à la manipu-lation de l’interface. C’est d’autant plus vrai pour les jeunes enfants non lecteurs, qui s’approprient les interfaces tactiles en quelques minutes. Du côté de l’enseignant, une interaction simplifiée est également un atout, car la tâche qui occupe l’essentiel des res-sources cognitives de l’enseignant est la gestion de ses 25 élèves ou ses 150 étudiants: mobiliser leur attention, les engager dans la réflexion, faciliter leur compréhension. Un dernier avantage et non des moindres est le prix réduit de l’objet par rapport à un ordina-teur standard pour la plupart des usages que l’on en fait en classe.

Sur la question de l’apport de cet outil aux apprentissages, si l’on se fie aux médias qui ne tarissent pas d’éloge sur les tablettes, on aurait enfin trouvé la solution idéale pour dynamiser l’enseigne-ment et favoriser l’apprentissage. Mais est-ce bien le cas ? Bien que les tablettes offrent des atouts convaincants en termes d’in-teraction, il faut se méfier des affirmations rapides. Comme pour tout support numérique, c’est moins ce que l’outil fait qui importe que ce que l’on peut faire avec cet outil. De ce point de vue, les tablettes possèdent trois caractéristiques intéressantes pour les situations d’enseignement:z Tout d’abord elles sont mobiles, ce qui permet une utilisation

flexible en salle de classe ou en extérieur, voire une utilisation par l’étudiant à la maison si la tablette est confiée personnel-lement à l’élève.

z Elles sont minimalement intrusives par comparaison aux or-dinateurs fixes et même portables: leur écran horizontal ne perturbe pas les interactions entre étudiants ou entre ensei-gnants et étudiants, elles peuvent facilement se ranger au côté des outils plus traditionnels, livres et cahiers.

z Enfin elles offrent l’atout de la spontanéité: rapidement opé-rationnelles à l’allumage, les applications sont robustes et fa-ciles d’utilisation comme on l’a dit précédemment ; en outre, l’interface tactile permet de passer facilement d’activités indi-viduelles à des activités collectives puisque l’interaction n’est pas limitée par la présence d’une seule souris.

Ces trois caractéristiques assurent aux tablettes une qualité d’in-teraction que les ordinateurs ne possèdent pas: la continuité, au sens où cet outil ne perturbe pas le déroulement pratique de l’en-seignement et s’intègre aux outils usuels de la classe. S’il est jugé facile à utiliser et potentiellement utile, un outil qui ne perturbe pas les modes opératoires des utilisateurs aura plus de chance d’être accepté, puis utilisé au maximum de ses potentialités.

Des usages au service des apprentissages

Si la tablette offre de nombreux atouts comme outil personnel de l’élève, elle ne se substitue pas à des dispositifs pour la classe entière (tableau blanc interactif par exemple) qui sont plutôt des outils de l’enseignant. La tablette peut être utilisée dans la plupart des usages de l’ordinateur personnel, que l’on classera en quatre catégories en fonction de la plus-value apportée par le support numérique. Pour chaque catégorie, on distinguera un versant uti-lisation de ressources et un versant production par les élèves de contenu ou ressources.

Stockage et réutilisationCela paraît trivial aujourd’hui, l’ordi-nateur par le truchement du Web permet l’accès à une quantité d’in-formation virtuellement infinie sur à peu près n’importe quel sujet. Pour-tant cette possibilité est peu utilisée en situation d’enseignement, que ce soit à l’école obligatoire ou dans l’enseignement supérieur, en partie à cause de la pléthore de documents retrouvés pour chaque requête et

Du bon usage des tablettes

images sous licence CC BY-NC-ND 3.0/Stéphanie Burton, Philippe Devaud et l’équipe fri-tic. www.fri-tic.ch.

Page 51: Flash informatique 2012 - no spécial été - D

5151SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

leur fiabilité variable, mais aussi, car une autre voix que celle de l’enseignant s’inviterait en classe. Tout le monde s’accorde sur l’importance de former les jeunes élèves à la recherche d’informa-tion, mais personne n’est volontaire, sous prétexte que les élèves le feraient couramment chez eux. Or les études montrent bien que les compétences de recherche des 12-15 ans ne sont pas si déve-loppées lorsqu’il s’agit de sujets complexes, mais surtout que la plupart n’ont aucune compréhension de la façon dont le Web ou les moteurs de recherche fonctionnent. Et au-delà des procédures d’utilisation des moteurs de recherche, il s’agit bien de former à la culture numérique, dont l’évaluation de la fiabilité des sources et du contenu trouvé. Sur le versant production, l’ordinateur offre la possibilité de stocker une production et la réviser ultérieurement, capacité évidente, mais sur laquelle se base la plupart des usages professionnels. Ces documents peuvent à leur tour être rendus ac-cessibles sur le Web, comme dans l’initiative wikimini (www.wiki-mini.ch) où les jeunes élèves écrivent des articles encyclopédiques pour leurs pairs, passant de consommateurs à acteurs du Web.

VisualisationC’est peut-être la plus-value du numérique que les enseignants mobilisent le plus: la capacité de fournir des visualisations dy-namiques et interactives. Que ce soit des vidéos documentaires ou des simulations permettant d’expérimenter des phénomènes physiques inaccessibles autrement, il s’agit de s’appuyer sur la puissance du traitement visuel humain pour appréhender des phénomènes complexes, qu’ils soient du domaine de l’histoire ou des sciences. Sur tablette, l’interaction tactile et individualisée permet à l’étudiant de se concentrer uniquement sur le contenu, qu’il manipulera selon ses propres hypothèses et rythmes de com-préhension. Au-delà de la consultation, les élèves peuvent égale-ment construire des visualisations: montage multimédia pour un exposé, carte heuristique, construction 3D sur la base de plan sur des jeux créatifs type Minecraft &.

copie d’écran du jeu Minecraft

Traitement automatiqueUn ordinateur est d’abord un outil permettant d’effectuer des calculs, capable de traiter une grande quantité de données dans un temps réduit. Il s’agit de déléguer les processus de bas niveau, qui sont acquis, mais prennent du temps, pour que l’humain puisse avoir le temps et les ressources cognitives pour les proces-

sus de haut niveau comme le raisonnement. Au-delà de l’usage de la calculatrice auquel on pense immédiatement, d’autres outils offrent cette possibilité de délégation: les exerciseurs par exemple, offrent une correction automatique de réponses standards, per-mettant un entraînement individualisé et un feedback immédiat, plus efficace. L’enseignant, libéré de la correction, peut alors vi-sualiser le profil de réponse de l’étudiant et proposer une explica-tion et des exercices adaptés. Les exerciseurs les plus élaborés sont capables de conseiller eux-mêmes les exercices à faire en fonction des résultats de l’élève. Sur le versant production, les outils de programmation accessibles aux néophytes (par exemple scratch) se développent aussi sur tablette, permettant de construire des activités interactives pour les autres.

Communication et collaborationL’usage de l’ordinateur est maintenant indissociable des outils de communication qui lui sont attachés, du courrier Internet aux réseaux sociaux. Pour l’enseignement, ce sont plutôt les outils de production collaborative qui vont nous intéresser. On citera tout d’abord les wikis, éditeurs collaboratifs asynchrones de pages Web, qui permettent de produire des encyclopédies locales pointant sur des références externes. Sur tablettes, des outils de prise de notes individuels (comme evernote), plus faciles à appréhender que des wikis, sont souvent utilisés comme répositoires de notes produites par des élèves ou groupes d’élèves. Les outils de mindmapping ou de collections de liens comme pearltrees & offrent la plupart du temps des fonctionnalités d’édition collaborative. La tablette permet également une utilisation collaborative de simulations et exerciseurs. Outre l’aspect pratique du travail de groupe pour la gestion de la classe, la collaboration oblige les élèves à expliciter leur compréhension de la situation et à confronter les hypothèses, pour s’engager dans une véritable activité d’apprentissage.

Les usages passés en revue ci-dessus sont relativement peu in-novants, et peu perturbateurs en termes de modes opératoires enseignants. Il existe des usages plus innovants de la technologie, comme le papier digital, feuille de papier équipé d’un code matri-ciel activant une adresse Internet sur un équipement qui peut être une tablette. La TinkerLamp & développée par les chercheurs de l’EPFL est de ce type. Le papier digital a pour avantage de per-mettre une gestion papier des activités informatiques, réalisant une continuité avec les classeurs papier habituellement utilisés par l’enseignant.Peu encombrantes, faciles d’utilisation et offrant des capacités très similaires à un ordinateur standard, les tablettes pourraient bien avoir un bel avenir en éducation, si on garde à l’esprit que ce n’est pas l’outil qui apporte à l’apprentissage, mais les activités que cet outil permet de faire. n

GLOSSAIRE &Minecraft: Minecraft est un jeu vidéo de type sandbox (construc-

tion libre, bac à sable). www.minecraft.net W

pearltrees: service gratuit qui permet à chacun d’organiser et partager ce qu’il aime dans Internet. www.pearltrees.com W

TinkerLamp: www.simpliquity.com/tinkerlamp.php W = tiré de Wikipédia

Du bon usage des tablettes

Page 52: Flash informatique 2012 - no spécial été - D

flash informatique525252 SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

Where we see that the issue of data sustainability is not new.

Où l’on voit que la question de la pérennité des do-cuments ne date pas d’hier.

La plupart des grands textes de l’antiquité nous sont parvenus grâce aux copies successives des scribes du moyen âge. C’est le cas des écrits d’Archimède. Tout ce que l’on connaît aujourd’hui des travaux de ce mathématicien grec se limite à 3 livres, appelés A, B et C. La dernière trace de A, ce fut en 1564 dans la biblio-thèque d’un humaniste italien. La dernière fois qu’on a entendu parler de B, c’est en 1311, comme faisant partie de la bibliothèque papale à Vierbo, au nord de Rome. C’est grâce à des copies que leur contenu est arrivé jusqu’à nous. Le codex & C ne fut décou-vert qu’en 1906 et est arrivé au musée d’art Walters de Baltimore, le 19 janvier 1999. En réalité, le codex était caché à l’intérieur d’un livre de prières qu’un moine, un certain Johannes Myrones avait achevé d’écrire le 14 avril 1229. Par manque de parchemin, ce moine avait recy-clé sept vieux parchemins usagés dont le codex C d’Archimède. Après avoir soigneusement effacé les textes, Johannes a coupé les feuillets en 2, les a reliées, tournées de 90 degrés et y a écrit ses prières. Les sept parchemins originaux avaient laissé la place à un palimpseste &, ici un livre de prières. Ce livre de prières fut découvert par J. L. Heiberg en 1906. À l’aide d’une simple loupe, il recopia le plus de texte qu’il pouvait et découvrit ainsi des textes d’Archimède totalement inconnus, ne figurant ni dans A, ni dans B: la Méthode et le Stomachion &, ce qui fit de ce codex un des plus célèbres manuscrits au monde. Ce livre aurait dû finir sa vie dans une institution, si un acheteur privé n’en avait fait l’acquisition en 1998. Quelle était sa motiva-tion ? Sauver cette œuvre unique afin de donner la possibilité aux rares personnes capables de lire les textes d’Archimède en grec ancien d’y avoir accès. Il a rassemblé des amis d’Archimède, et a décidé de payer leur travail. Cela représentait de grosses sommes, mais pas autant qu’on pourrait le penser, car ces spécialistes ne venaient pas pour l’argent, mais pour Archimède. Ils venaient de tous les horizons, physique des particules, philologie classique, conservation des livres, mathématiques antiques, gestion des données, imagerie scientifique et programmation. Et ils se sont mis à travailler tous ensemble sur le manuscrit.

Restauration

Ce livre en très mauvais état avait continué à se dégrader après la découverte de Heiberg: des forgeries & y ont été rajoutées et les moisissures se sont étendues. Avant de commencer à travailler avec l’imagerie, il a fallu 4 ans pour démanteler le palimpseste et garantir sa conservation future. Après s’être débarrassé de la colle qui avait été rajoutée sur le dos du codex, il a fallu ôter méca-niquement et très soigneusement la cire qui recouvrait le texte. En effet, ce livre, ayant été utilisé lors de cérémonies du rite grec orthodoxe, était imprégné de cire de bougies. Il est difficile de dire à quel point l’état du livre était mauvais, très souvent il était même en lambeaux. Normalement, dans un livre, on ne se préoc-cupe pas des petits morceaux, mais ici chacun pouvait contenir un morceau du texte d’Archimède.

une page typique du palimpseste d’Archimède. Le manuscrit original du texte d’Archimède est écrit de droite à gauche, dissimulé sous le texte de prières écrites de haut en bas. Par The Walters Museum (www.archimedespalimpsest.net) [CC-BY-3.0 via Wikimedia Commons]

Le palimpseste d’Archimède de Syracuse à Baltimore [email protected], EPFL - Domaine IT, responsable communication

Page 53: Flash informatique 2012 - no spécial été - D

5353SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

Imagerie et calcul

Il a fallu également plusieurs mois de tâtonnements avant que les équipes d’imagerie et de calcul numérique aboutissent à une méthode satisfaisante pour différencier les prières du texte d’Ar-chimède, puis vint le travail sur les 174 folios & du codex.

Experts

Ce fut ensuite le tour des experts en grec ancien, en manuscrits du Moyen Âge, en histoire des mathématiques qui ont travaillé sur les images mises à leur disposition, à la recherche des mots ou lettres manquantes, travail de plusieurs années qui a enfin per-mis de prendre connaissance de ces textes d’Archimède, parmi les plus importants pour la science. En même temps, d’autres textes anciens très intéressants qui provenaient des autres parchemins furent mis en évidence.

GLOSSAIRE &codex: un livre manuscrit relié avec une

couverture, au début l’écriture se faisait sur du parchemin (peau animale) puis à partir du XIIIème siècle sur du papier.

folio: une feuille qui a deux côtés recto et verso. Le codex dont il est question ici avait 177 folios au départ, mais il en manque 3, peut-être sont-ils quelque part dans un musée ou sur les murs d’un collectionneur.

forgerie: le terme est propre à l’expertise en écritures. Il s’agit du fait de fabri-

quer un faux en écriture, soit de toutes pièces, soit en réutilisant des parties authentiques existantes, auxquelles des parties forgées sont ajoutées habilement de façon à laisser croire que l’ensemble serait authentique. W

palimpseste: dérivé des termes grecs palin (de nouveau) et psan (frotter), ce terme signifie que le parchemin a été frotté à plusieurs reprises. Pour créer un parchemin, il faut gratter la peau d’un animal, et si l’on veut réutiliser un par-chemin qui a déjà servi, il faut le gratter à nouveau.

stomachion (appelé aussi loculus d’Archimède): puzzle, sorte d’ancêtre du Tangram, contient 14 pièces de formes variées qui tiennent toutes dans un carré.

W = tiré de Wikipédia

Où il est question de supports et de formats

La Méthode a sans doute été écrite dans une lettre d’Archimède qui vivait à Syracuse à Eratosthène d’Alexandrie (celui-là même qui fit la première mesure de la circonférence de la Terre à partir de la distance entre Assouan et Alexandrie). Lettre écrite sur un rouleau de papyrus, comme c’était l’habitude à l’époque, elle a été ensuite retransmise sur des parchemins de codex lors des premiers siècles de notre ère. Avec déjà la problématique de changement de support et de format bien connue aujourd’hui… sur un rouleau le texte est écrit dans la longueur, dans un codex sur des folios ! un codex pouvant contenir bien plus d’informa-tions qu’un rouleau. Aux IXe et Xe siècles, souvent dans l’Empire byzantin, les codex furent recopiés plusieurs fois, avec entre-temps changement de fonte (passage des majuscules aux mi-nuscules). Les textes redécouverts au XXe siècle ont été écrits au Xème siècle, à une époque plus proche de la nôtre que de celle d’Archimède et Archimède lui-même n’aurait sans doute pas pu les lire à cause de toutes les transformations subies.

Le palimpseste d’Archimède de Syracuse à Baltimore

Creative Common Licence

Un des résultats de cette expérience est une réflexion sur ce qui différencie les livres et les données dans le domaine des manus-crits anciens. Les livres eux-mêmes doivent être gardés par des institutions spécialisées garantissant leur conservation. À l’oppo-sé, les données doivent être accessibles au plus grand nombre de personnes susceptibles de les étudier. C’est le choix qui a été fait au musée d’art Walters de Baltimore. Persuadé que la connais-sance des documents anciens ne passera à l’avenir que par la comparaison et l’assemblage de textes situés dans des lieux dis-persés, le conservateur du musée Walters a décidé de mettre sous licence Creative Commons toutes les données brutes du projet palimpseste à la disposition des internautes. Par ailleurs, il a mis plus de 19000 images d’objets de la collection dans wikimedia [1], et encourage tous les institutions et musées à suivre son exemple.

Conclusion

J’ai découvert l’histoire de ce palimpseste par une conférence TED de Will Noel, conservateur au musée d’art Walters de Baltimore [2]; je renvoie ceux qui voudraient en savoir plus à la lecture du livre co-écrit par William Noel et Reviel Netz [3]. On y apprend entre autres qu’Archimède était l’inventeur de l’application des mathématiques et des modèles abstraits au monde physique à la base de tous les traitements numériques d’images qui ont juste-ment servi à redécouvrir ses textes !

Références

[1] commons.wikimedia.org/wiki/Category:Media_contribu-ted_by_the_Walters_Art_Museum

[2] www.ted.com/talks/lang/en/william_noel_revealing_the_lost_codex_of_archimedes.html

[3] Le codex d’Archimède, William Noel et Reviel Netz, JC Lattès n

Page 54: Flash informatique 2012 - no spécial été - D

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012flash informatique545454

Un mot: tablette – quelques regards: étymologie, technologie et illustration.

Qui suis-je ? – HRB

Je suis jeune, moins de deux ans et demi;je suis plus petite qu’un ordinateur portable, moins de dix pouces;je suis plus grande qu’un smartphone, plus de sept pouces;je suis légère, moins d’un kilo;je suis rapidement disponible;je suis plate comme une galette;je suis noire comme une ardoise;j’ai une bonne mémoire, 1 Giga de RAM vive et jusqu’à 64 Gigas de mémoire interne;je fonctionne dans toutes les positions grâce à mon gyroscope;je n’aime pas les souris;je suis tactile, j’aime les doigts, pas les gants, j’aime aussi certains stylets;je surfe sur le Net comme personne;je travaille sans fil, en Bluetooth ou en Wi-Fi;je fonctionne sur batteries rechargeables;j’ai un port USB;mon système d’exploitation est Android ou iOS;je stocke tout sur un SSD (solid-state drive);j’ai une place à tenir dans les carnets de dessins, je peux servir de liseuse;je mets à disposition une caméra et un appareil photo;je propose un clavier virtuel pour les notes;je peux intégrer un GPS;je remplace aisément la pile d’encyclopédies au salon, mais pas comme tabouret d’appoint;mon mode d’interac-tion avec l’utilisa-teur est intuitif, donc pas besoin d’apprentissage;certaines écoles font des économies de papier sur mon dos et bientôt, peut-être, j’allége-rai les cartables des écoliers…

[email protected], géologue et [email protected], EPFL – Domaine [email protected], EPFL - DIT, rédacteur KIS et Médiacom

Tablette – FR

Voici un bon exemple d’un mot qui illustre à quel point la langue est vivante. Il n’est pas très éloigné le temps où une tablette évo-quait bien des objets sauf un iPad, un Kindle, etc. Personnelle-ment, la première chose à laquelle me fait penser le mot tablette, c’est l’hôtesse dans l’avion qui vient vous dire:- Nous allons atterrir, pouvez-vous relever votre tablette ?Techniquement, cette petite planche horizontale n’est pas ce qu’il y a de plus révolutionnaire, mais tout de même, que de repas mangés dans des conditions acceptables grâce à elles. Mes études de lettres devraient me faire songer aux tablettes sumériennes, 3000 avant Jésus-Christ – on ne prenait pas encore l’avion à cette époque. Mais j’en sais encore moins sur ce sujet que sur la tablette padeuse, et je ne peux m’empêcher de me demander si les scribes mangeaient dessus… Ce qui me fait penser aux tablettes de cho-colat, les deux, celles qui sont emballées dans un joli papier alu-minium scandaleusement polluant, et celles, musclées, dont on se prend à rêver lorsqu’on devient un peu bedonnant, sâgesse oblige. Il y a également la tablette de médicaments qui protège dans ses petites alcôves pelliculées des remèdes divers et variés. Le mot tablette appartient à la famille étymologique de table, et que

de repas me reviennent aussitôt en mémoire, pris à la table de la

cuisine, et des tablées d’amis, des réunions, puis on songe à une table

plus sérieuse, la table de travail, ou plus grave, la table d’opération. Au

fil des sens, on trouverait également le tablier de cuisine, le tabloïd sans

cesse critiqué, mais toujours parcouru, le tabulateur jamais au bon endroit,

voire même dialectalement la taule. En tant que scribe fédéral, j’affectionne plus

particulièrement le sens de la tablette sur laquelle on peut écrire quelques mots,

prendre des notes. Et il est récent pour moi que ce mot se soit mis à désigner avant tout

ce qui ressemble à la Porte des Étoiles de Star-gate, avec au centre l’i-ni-ma-gi-na-ble il y a

peu, c’est-à-dire un monde que je peux toucher du bout du doigt - que de souris sauvées. Ce qui

ne nous économise pas, table ou tablette, de la nettoyer de temps à autre, sans quoi la finesse de l’objet

est dégradée par des maculatures grasses qui, loin de rappeler les nobles ratures manuscrites, témoignent du passage de l’animal-humain qui laisse l’empreinte de son passage, comme un escar-got ses bavures diamantées, sur les voies fulgurantes de l’univers virtuel. nune tablette !

Page 55: Flash informatique 2012 - no spécial été - D

55SPÉCIAL ÉTÉ – D – 21 AOÛT 2012

Les couvertures auxquelles vous avez échappé Richard Timsit 2

e-Dito Richard Timsit 3

Safecast – Mesures citoyennes de la radioactivité à l’âge de l’Internet Robin Scheibler 4

La bibliothèque de l’EPFL Isabelle Kratz 7

Une mauvaise journée Guilaine Baud-Vittoz 7

Les logiciels libres et les bibliothèques Raphaël Grolimund 9

L’Open Access à l’EPFL Julien Junod 10

La citation des données de recherche Lionel Walter 12

DRM et bibliothèques Alain Borel 13

SavoirLibre pour la diffusion des savoirs scientifiques Omar Odermatt 15

Licences libres et Open Access Nicolas Borboën 17

Forme, signe et … évasion Vers une définition du document numérique Patricia Plaza-Gruber 21

Publier ses données sous forme de Linked Open Data Philippe Cudré-Mauroux 24

Dans ce numéro

Vers un Nouveau Monde de données Hubert Guillaud 26

Données de recherche et cahier de laboratoire Gaël Anex 32

Cloud, une question de confiance Simon Leinen 36

Sérénité dans les nuages Laurent Kling 39

Delete ou la vertu de l’oubli à l’âge digital Francis Lapique 42

Open Government Data en Suisse – Vers plus de transparence, d’efficacité et d’innovation grâce à l’ouverture des données publiques Antoine Logean 44

Du bon usage des tablettes Mireille Bétrancourt 49

Le palimpseste d’Archimède de Syracuse à Baltimore Jacqueline Dousson 52

Mot-croisé: TABLETTE Esteban Rosales, Appoline Raposo de Barbosa, & Frédéric Rauss 54

Prochaines parutions

No Délai de rédaction Parution

6 16.08.12 14.09.12

7 27.09.12 16.10.12

8 25.10.12 13.11.12

tout public public averti expert

ImpressumRevue consacrée aux technologies de l’information, éditée par le Domaine IT de l’EPFL (DIT). Les articles n’engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d’autres entités). Toute reproduction, même par-tielle, n’est autorisée qu’avec l’accord de la rédaction et des auteurs.

Rédacteurs en chef:Jacqueline Dousson & Richard Timsit,[email protected] en page & graphisme: Appoline Raposo de BarbosaComité de rédaction:Jean-Daniel Bonjour, Patrice Fumasoli, Florence Hagen, Laurent Kling, Julia Paolini, François Roulet, Christophe Salzmann & Predrag Viceic

Impression: Atelier de Reprographie EPFLTirage: 4000 exemplairesAdresse Web: flashinformatique.epfl.chAdresse: Domaine IT EPFLStation 8, CH-1015 LausanneTéléphone: +41 21 69 32246 & 32247Abonnement au FI par e-mail à: [email protected]

Page 56: Flash informatique 2012 - no spécial été - D

FlashInformatique.epfl.ch

p/a EPFL - Domaine IT - Station 8 - CH 1015 Lausanne - tél. +41 21 69 322 11

DataDigitalDiffusionDocumentDonnéesDRM

ISSN 1420-7192