Upload
lou-burnard
View
322
Download
0
Embed Size (px)
DESCRIPTION
Pendant 30 ans l'application des technologies informatiques aux defis de la recherche en sciences humaines et sociales s'est revelee d'une importance croissante, presque a devenir incontournable pour ceux qui s'occupe des aspects culturelles de la vie contemporaine, vu l'omnipresence de l'informatique la-dedans. Cette application des technologies omnipresentes s'est meme dotee d'une nouvelle nomination, revelant ainsi son status comme discipline emergeante: les humanites numeriques. En traceant l'evolution de ce terme, et de ses usages actuels, je propose de faire un peu le bilan des resultats concrets de ces experiences jusqu'a present et de reflechir sur les effets concretes a attendre dans nos disciplines linguistiques.
Citation preview
De ‘Literary and Linguistic Computing’ jusqu'aux‘Humanites numeriques’
quelle importance pour la science des langues?
Lou Burnard
1/52
2/52
3/52
Textes numériques vs. données numériques
Le traitement informatisé des données concerne les chiffres,les quantités, les tendances statistiques...
Le traitement informatisé des textes concerne les mots,l'écriture, la langue...
L'informatique a donc systématiquement opposé les“donnees” aux “textes”
en traitant les textes comme si elles étaient des données
en traitant les donnees comme si elles n'étaient pas des textes
4/52
(cf Burnard, 1984)
5/52
eBooks
Les textes numériques se présentent comme des livresimprimés... mais on ne doit pas se laisser séduire par lesmétaphores !
Est-ce qu'on numérise les textes juste pour le plaisir de lesdistribuer dans un nouveau marché avec une nouvelletechnologie ? .
6/52
Conclusions
Il n'y a pas de retour sur le tournant numérique: lesinfrastructures scientifiques sont désormais numerisées
Les modèles économiques de l'infrastructure scientifique sonten train d'évoluer
Les changements plutot quantitatifs apportées par lenumérique provoquent des changements qualitatifs.
La numérisation massive rend possible de nouveauxperspectives sur la langue.
7/52
Le numérique incontournable
Les objets de recherches dans les SHS sont devenusnumériques
Les méthodes des SHS ne peuvent pas échapper àl'environnement technologique qui nous englobe
Une transition du “web de documents” vers le “web dedonnées” s'effectue actuellement
Les questions politiques et culturelles restent, mais leurcontexte évolue dans un monde de plus en plus “ouvert”
Pour commencer, une petite leçon d'histoire...
8/52
9/52
1949-1980
L'age des héros ...Padre Busa et l'Index ThomasticumThe Brown CorpusThesaurus Linguae Graecaeetc.
Concordances, analyse stylistique, études sur l'auctorialité,corpus de langue
L'ordinateur central géré par des ingenieurs sérieux en blouseblanche lançait des travaux en batch qui étaient transmis à unefile d'attente puis exécutés pour produire des sorties
10/52
Colloque ALLC No. 6 (1980)
11/52
Problèmes d'auctorialité
From A.Q. Morton Paul, the man and the myth (1966)
12/52
LLC: ce qui compte, c'est de compter
Les objets et les résultats principes sont
Les concordances (un objet en lui meme)
Des statistiques riches et complexes
Il y a une hypothèse plus ou moins explicite que le “style” ou“registre” seraient identifiable de manière statistique
Aux Etats Unis, histoire de “cliometrics” et Time on the Cross(1974)
13/52
LLC est également une revue et un colloque
.
......http://llc.oxfordjournals.org/
14/52
LLC est vivant et bien vivant en France
Text considéré comme un phénomène statistique
Maurice Tournier Les mots de mai 68
Analyse factorielle et fouille de données
Applications marketing
Textometrie
15/52
16/52
1980-1994
Institutionalisation
Les historiens réinvestissent le champs
Humanities Computing : une Discipline Universitaire ?
Projet “text encoding”
17/52
Années 80 : décennie d'une foi illimitée dans lestechnologies
Dans les universités les ressources et méthodes numériquesbien que percues comme étranges et difficiles trouvaient aussileur placeAu Royaume Uni
Computers in Teaching InitiativeArts and Humanities Data Service
Une nouveauté ou une amélioration du passé?
L'arrivée du centre HC
18/52
Communautés
E-mail et listes de diffusion : HumanistParadigmes de texte eléctronique
Oxford Text Archive, Projet GutenbergPublishing sur CD-ROM : OED
Traitement de langage naturel et intelligence artificiel
Financement public important pour des activitésd'infrastructure
A la fois national and européen
Peut on gagner de l'argent dans la publication electronique?L'informatique personelle? Sur l' Internet?
19/52
Institutionalisation
De nouveaux instances d'enseignment et de support pourl'application de l'informatique aux SHS apparaissent
En faisant le bilan, on les valorise...
20/52
Réapparition de la quellenkritik
En France, J-P Genet et d'autres proposent l'idée que lesdonnées historiques une fois numerisées pourraient servir àenrichir une analyse
Encore systematisée en Allemagne par Manfred Thaller avec lelogiciel kleio, un sgbd textuel avant la lettre
Une Association for History and Computing nait en 1987
21/52
Défi pour le HC
Mais Humanities Computing ne possède aucune théoriesousjacente!
Quel principe peut on identifier pour justifier la mise enrelation des outils employés par le HC ?On propose les traditions scientifiques (”scholarly primitives”)
La recherche effectuée selon des traits externesL'analyse selon des traits internesLes associations selon des perceptions partagées
Ce qui serviraient à valoriser et controler l'efficacité des outilsproposés
22/52
It's all about modelling, stupid
23/52
24/52
Les inconvenients des ressources numériques (circa 1989)Elles ne fonctionnent pas(Il faut bien choisir son ordinateur pour les faire fonctionner)Elles sont difficiles a trouverElles ne sont pas disponible en BU, ni mentionnées dans lesrevuesElles ne sont pas cataloguées de manière cohérent, ou pas dutoutElles ne sont pas fiablesElles émergent d'un contexte inconnu, pas (toujours) trèsscientifiqueElles bougent tout le tempsElles ne restent pas au memes endroitElles disparaissent, se transforment, ou deviennent inutisablessans préavisEt surtout...
.
......Elles utilisent vraiment trop de plusieurs formats d'encodagemutuellement incompréhensibles !!
25/52
L'effet Babel
Bien sûr il existe plusieurs lectures possibles pour la plupart destextes...
... et (malheureseument) plusieurs manières d'expression pour ceslectures!
26/52
Encodage ou babel?
Bonne nouvelle: il existe des logiciels capables de traduireentre 500 formats divers
Mauvaise nouvelle: on en a besoin
27/52
Encodage ou babel?
Bonne nouvelle: il existe des logiciels capables de traduireentre 500 formats divers
Mauvaise nouvelle: on en a besoin
27/52
Encodage ou babel?
Bonne nouvelle: il existe des logiciels capables de traduireentre 500 formats divers
Mauvaise nouvelle: on en a besoin
27/52
La science repose sur une continuité des connaissances
Conserver les “bytes” d'un encodage ne suffit pas
Il faut aussi une continuité de compréhension: l'encodage doitetre auto-descriptif
Transmettre nos interprétations
.
......D'où l' importance de laTEI (Text Encoding Initiative)http://www.tei-c.org
28/52
TEI: le résultat le plus significatif de HC?
D'origine une réponse aux problèmes posés par l'incohérencedes formats et le manque des standards numériques
La TEI est devenue un seul modèle encyclopédique des“particularités significatives” des ressources textuelles
Et une infrastructure capable de répondre aux besoins etpriorités évolutifs de la communauté scientifique
29/52
Exemple: les tablettes Vindolanda
30/52
TEI en pratique
Travaux collaboratifs de transcription scientifique
Des conventions Leiden au standard Epidoc
31/52
32/52
1995 - ?
Pendant que nous théorisions...Le web est arrivé!Le tournant numérique transforme les archives et lesbibliothèquesLa numérisation de masse s'effectueLes traitements numériques se déplacent sur des grilles deservices, et/ou des systèmes domestiquesLes résaux sociaux emergent sur Internet
Convergence et travaux collectifs : méthodes ‘scientifique’On s'interoge sur, par exemple, l'édition classique, et lesméthodes collectives (cloud/crowd computing)On s'aperçoit du besoin des infrastructures numériques
33/52
La cycle de vie scientifique
34/52
Les humanités numériques sont partout
Comme M Jourdain, je fais des digital humanities sans lesavoir?
Les DH ne sont-elles qu'une gamme de technologies a lamode?
“When the mode of the music changes, the walls of the palaceshake”
35/52
Digital humanities Manifesto 2.0
http://dev.cdh.ucla.edu/digitalhumanities/2009/05/29/the-digital-humanities-manifesto-20/#0
36/52
Les manifestes, ça on les connait...
37/52
Définition
1. Le tournant numérique pris par la société modifie etinterroge les conditions de production et de diffusion dessavoirs....
3. Les digital humanities désignent une transdiscipline,porteuse des méthodes, des dispositifs et des perspectivesheuristiques liés au numérique dans le domaine des Scienceshumaines et sociales..
38/52
Nous constatons...
que se sont multipliées les expérimentations dans le domainedu numérique en SHS depuis un demi-siècle ;
que le numérique induit une présence plus forte descontraintes techniques et donc économiques dans larecherche ; que cette contrainte est une opportunité pourfaire évoluer le travail collectif ;
qu’il existe un certain nombre de méthodes éprouvées,inégalement connues et partagées ;
qu’existent de multiples communautés particulières issues del’intérêt pour des pratiques, des outils ou des objetstransversaux divers
39/52
Déclarations
Nous, acteurs des digital humanities, nous nous constituons encommunauté … sans frontières. … multilingue etmultidisciplinaire.
Nous avons pour objectifs ... l’enrichissement du savoir et dupatrimoine collectif, au-delà de la seule sphère académique.
Nous appelons à l’intégration de la culture numérique dans ladéfinition de la culture générale du XXIe siècle.
40/52
The economics of abundance
Digital Humanities implies the multi-purposing and multiplechanneling of humanistic knowledge: no channel excludes theother. Its economy is abundance based, not one based uponscarcity ... though notions of humanistic research are everywhereunder institutional pressure, there is (potentially) plenty for all. And,indeed, there is plenty to do.
41/52
L'importance de ne pas lire
“What can you do with a million books?” (Greg Crane)
“Although there is still a need for close-reading... we neverdon't not read” (John Unsworth)Une nouvelle synthèse de methodes :
Linguistique de corpusReconnaissances des patronsData miningVisualisation
ou une réappropriation des techniques anciens?
42/52
Le défi: comprendre l'énormité des données disponibles
Quelques outils disponible aujourd'hui pour traiter un millionde livres:
http://books.google.com/ngramshttp://www.etalab.gouv.fr/http://rechercheisidore.fr/
Mais bouger de l'étude de l'oeuvre a l'étude du contexte resteproblematique pour certains ...
43/52
http://www.scottishcorpus.ac.uk/corpus/diaview/
44/52
45/52
46/52
Comment effectuer une telle démarche?
It's not rocket science (pas besoin d'avoir fait saint cyr) !
Un balisage riche et sémantique ( par exemple TEI-XML)
Une politique d'Open Access
Une infrastructure permettant l'intégration et l'archivagepérenne des données
47/52
Repenser l'édition numérique
On est dans un monde où les documents prolifèrent, mais lestextes risquent de disparaitre
Nous avons besoin de conserver nos interprétations, noslectures, pour construire les éditions numériques
Sans perdre les vertus traditionelles d'un empirisme sceptique
48/52
Composants de l'édition numérique
Images de pages (ou d'autres surfaces)
Transcriptions, éventuellement annotées
Edition/s synthètiques
Traduction modernes, sommaires
Annotations paratextuelles, glossaires, prefaces,bibliographie...
Descriptions des sources; métadonnées
Pointeurs sur des “Factoids”
49/52
Convergence
Le numérique nous permet, voire oblige, d'en faire des mashup : par exemple de combiner :
Un SIG sur les lieux dans la mer d' AegéanUn index cartographique des toponymes de la meme régionUn corpus de textes où ces toponymes sont attestés(La TEI traite maintenant et les entités nommées et leur noms)
De telles activités nécéssitent des compétences philologiques,a priori nonautomatisable
Et une politique d'accès ouvert
50/52
Un rôle majeur pour les SHSNous comprenons les objets textuels
De quelle manière se presente ce discours?Quelles sont les histoires qu'il raconte?
Nous connaissons l'hermeneutiquequelle est la portée de ce discours?Qu'est-ce qu'il veut dire – mais ne dit pas ?
Voici notre contribution au web sémantique.
51/52
Merci de votre attention!
52/52