2
SCHEMA DE CHAÎNE DE TRAITEMENT PERSÉE Créaon d’ouls pour l'interrogaon de référenels et l'établissement de liens InVisu (USR 3103 CNRS/INHA) Persée (UMS 3602/ Université de Lyon/ CNRS/ENS Lyon) IFAO (Instut Français d’Archéologie Orientale, Le Caire, Egypte) PARTENARIAT CORPUS EXHAUSTIF - Travaux du Comité (annuel) : 1882-1953, 41 volumes - Index général (1914) - Documents iconographiques : 683 planches OBJECTIFS Numérisaon des minutes et travaux du Comité de Conservaon des monuments de l'art arabe Indexaon des noms de sites, personnes, alignements sur des référenels existants (Geonames,etc. ) Enrichissements du texte grâce à la créaon de lien avec des référenels externes Récolement du corpus DOCUMENTS NON MASSICOTABLES DOCUMENTS MASSICOTABLES Numérisaon - Scanners de livres - Résoluon : 400 dpi - Profondeur : 256 niveaux de gris et couleurs - Format : ff non compressé - Contrôle qualité Numérisaon - Scanners de livres - Résoluon : 400 dpi - Profondeur : 256 niveaux de gris et couleurs - Format : ff non compressé - Images bitmap G4 - Contrôle qualité Intégraon chaîne Persée Renommage, binarisaon (TiffG4) Post traitements - Reconnaissance opque de caractère (OCR) - Redressement des images et pose des marges - Conversion de formats - Neoyage des images et amélioraon de leur qualité - Versement des données sur des serveurs d’objets (Aldo) - Versement sur un espace de sauvegarde Documentaon et indexaon - Créaon de métadonnées bibliographiques et de structure - Balisage du texte intégral (niveaux de tres, références bibliographiques, illustraons, tableaux) - Indexaon à parr des éléments d’un référenel toponymique Export XML : généraon des données de diffusion, propagaon et archivage - Format des images diffusées : JPEG - container METS - md bibliographiques : DC, MODS, marcXML - texte intégral : TEI Diffusion: www.persee.fr Propagaon OAI-PMH, Z3950, indexaon Isidore, moteurs de recherche web, etc. Archivage Données archivables sur plateforme PAC (CINES) Préparaon matérielle et modélisaon du corpus - Idenficaon de chaque document et organisaon du corpus - Descripon physique de chaque document - Constuon des lots de numérisaon pour le prestataire PRESTATAIRE PERSEE PERSEE INSTITUT FRANÇAIS D’ARCHÉOLOGIE ORIENTALE Titre de niveau 2 Titre de niveau 2 Note biographique Entrée nommée Le projet Athar. Les monuments du Caire. Indexation topographique multilingue des monuments de l’art copte et islamique Aurélie MONTEIL Persée - UMS 3602, Université de Lyon, École Normale Supérieure de Lyon, CNRS Emmanuelle PERRIN InVisu- USR 3103, CNRS/INHA Le projet « Athar. Les monuments du Caire » a pour ambion la numérisaon et la diffusion des Travaux du Comité de Conservaon des monuments de l'art arabe. Cee publicaon annuelle idenfie, recense et décrit les monuments anciens de l'art copte et islamique. Pour les historiens et les historiens de l'art qui étudient l'historiographie de l'art copte et islamique ainsi que l'histoire de la préservaon du patrimoine égypen, ce corpus constue une source d'informaons unique. Sa valeur est principalement fondée sur le nombre de monuments décrits, sur la somme d'informaons tech- niques issues des chaners de restauraon, sur la prosopographie des acteurs impliqués ainsi que sur les nombreuses archives photographiques. Par son grand intérêt scienfique mais également à cause de la dégradaon progressive des anciens monu- ments (aujourd'hui sur les 800 monuments idenfiés depuis 1880, 300 ont déjà disparu), il est important d'oeuvrer pour la conservaon des archives des monuments du Caire. Le projet Athar, porté par le Laboratoire InVisu (USR 3103 CNRS/INHA), l’UMS Persée et l’IFAO, a pour ambi- on la diffusion en open access de la collecon des Travaux du Comité de Conservaon des Monuments de l'art arabe, ainsi qu'une indexaon TEI du texte intégral. Pour ce faire, l'équipe InVisu a développé un référen- el sur les monuments du Caire permeant de regrouper autour d’une même forme de référence, ses diffé- rentes variantes orthographiques et typographiques ; l’UMS Persée a adapté son module d'encodage TEI afin de pouvoir exploiter ce référenel. Le projet permera, via le portail Persée, l'exploitaon du référenel pour le parcours de la collecon et la recherche de monuments, la diffusion des documents, et l'interopéra- bilité avec d'autres systèmes d'informaons (data.bnf.fr, geonames, etc...) LE PROJET ATHAR Le laboratoire InVisu en partenariat avec l’IFAO fournit l’ensemble de la collecon à l’UMS Persée. Cee der- nière prend en charge une pare de la numérisaon du fond, la créaon des métadonnées et leur diffusion. Le travail documentaire est enèrement réalisé par le laboratoire InVisu. Ce travail documentaire est une procédure de mise en valeur de la structure éditoriale des documents et constue une forte plus-value à la simple diffusion des images de pages numérisées. Le corpus est composé de quatre types documentaires disncts : les procès-verbaux, les rapports, les index et listes de monuments. Cee première descripon éditoriale est ensuite complétée par une phase de documentaon permeant de mere en lumière la composion de chaque secon. La documentaon met en évidence la structure interne de ces unités documentaires (tres de niveau, bibliographie, tableaux, illustraons). C'est au cours de cee étape que les liens sont réalisés vers le référenel (SKOS) via l'applicaon développée par Persée, JGalith.(cf « L'indexaon toponymique : le module TEI »). LA DIFFUSION DES DONNÉES Le lien entre l’index et les documents est réalisé à parr de «JGalith», l’oul développé par l’UMS Persée et permeant la créaon de métadonnées. L'index créé par le laboratoire InVisu est exploité dès la phase de numérisaon : - il constue un diconnaire des formes de référence et des formes associées ulisé pour améliorer les résultats de l'OCR - il est exploité pour localiser les différentes formes de nom de chaque monument et les associer avec la forme de référence correspondante. Lors de la producon des données desnées à la diffusion, les liens sont établis entre le texte encodé en TEI et l'index toponymique produit par le la- boratoire InVisu. A l’issu du travail documentaire, l’index mullingue obtenu offre une synthèse des différentes formes typographiques existantes pour le nom. L’UMS Persée propose la diffusion de l’ensemble de la collecon des Travaux du Comité de Conservaon des monuments de l'art arabe numérisée et de ses metadonnées. Le portail se caractérise par une polique acve de mise à disposion des données en open access et open data permeant un échange et une réulisaon des données. Cela se manifeste concrètement par un accès libre, gratuit et illimité aux données, la possibilité de ré- cupérer les metadonnées produites, assurer l’alimentaon et permere le moissonnage d’autres plateformes. Une base de données triplestore est mise en place afin de permere les requêtes via le langage SPARQL. L’interopérabilité assure une propagaon rapide des données, elle est promue par la mise à disposion d'un large éventail de documents XML res- pectant les normes et standards en vigueur dans chaque communauté (TEI, MARC, METS, etc.) ainsi que les ouls permeant leur indexaon. Au terme du travail effectué sur cee collecon, les différentes métadonnées produites alimenteront d’autres portails : le Sudoc et les catalogues de bi- bliothèques (MarcXML), d'autres plateformes de diffusion open access en sciences humaines et sociales telle qu’Isidore (Dublin Core, TEI). Enfin, ce référenel sera intégré au web sémanque fondé sur les principes du linked data. Ce projet prévoit le versement des référenels dans la base IdRef (format MADS) afin d'enrichir les noces d’autorités toponymiques du Sudoc. Cee démarche vient compléter la collaboraon déjà en- gagée entre la BnF et le laboratoire InVisu autour de l'indexaon du fond Beniminio Facchinelli (photographe acf au Caire de 1876 et 1895). L’index des toponymes a également servi à alimenter le géocorpus Geonames et propose une géolocalisaon des sites. Colloque Humanités numériques et anquités. 2-4 septembre 2015, MSH-Alpes, Grenoble Exemple du travail documentaire réalisé sur une page L’INDEXATION TOPONYMIQUE: LE MODULE TEI LE TRAITEMENT DOCUMENTAIRE DU CORPUS Exemple de liens créés vers le réferentiel SKOS sur une page numérisée Illustraon: Bab El Vizir, entre 1873 et 1895. Beniminio Facchinelli. Fond BNF Gallica, Recueil. Photographies posives. Oeuvre de Beniami- no Facchinelli. [hp://gallica.bnf.fr/ark:/12148/btv1b10508622s] Concrètement, au cours de la phase de documentaon, des zones de texte sont localisées dans l'image de page, leur contenu extrait par OCR peut-être corrigé. Par comparaison à l'index, des liens sont proposés vers les entrées les plus proches. La sélecon d'une des proposions permet d'établir un lien entre la forme ren- contrée dans le texte, son équivalent corrigé présent dans l'index et la forme de référence correspondante. Une fois le lien vers l'index établi, il donnera lieu à la généraon, dans le document TEI final, à la descripon d'une enté nommée sous la forme : <name ref="hp://cairogazeeer.fr/invisu/re- source/ark:/67717/4c36b1ef9438cdf9209bed0b6c4cf184">Mosquée Sultan Aboul-Ela</name> Ici, la référence à l’URI du concept SKOS se rajoute au terme recherché « Mosquée Sultan Aboul-Ela ». Cee forme normalisée permet une exploitaon riche par le portail Persée mais également par d'autres ouls. Sur le portail Persée, le regroupement de plusieurs variantes orthographiques autour d'une seule forme de référence permera l'affichage de celle-ci sous la forme d'un nuage de mots et proposera un accès direct à toutes les occurrences dans l'ensemble de la collecon.

Persee Projet Athar_Indexation multilingue des monuments du Caire

  • Upload
    persee

  • View
    440

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Persee Projet Athar_Indexation multilingue des monuments du Caire

SCHEMA DE CHAÎNE DE TRAITEMENT PERSÉE

Création d’outils pour l'interrogation

de référentiels et l'établissement de liens

InVisu (USR 3103

CNRS/INHA)

Persée (UMS 3602/

Université de Lyon/CNRS/ENS Lyon)

IFAO (Institut Français

d’Archéologie Orientale,Le Caire, Egypte)

PARTENARIAT

CORPUS EXHAUSTIF - Travaux du Comité (annuel) : 1882-1953, 41 volumes - Index général (1914) - Documents iconographiques : 683 planches

OBJECTIFS

Numérisation des minutes et travaux

du Comité de Conservation des monuments de

l'art arabe

Indexation des noms de sites,

personnes, alignements sur des référentiels existants

(Geonames,etc. )

Enrichissements du texte grâce à la création

de lien avec des référentiels externes

Récolement du corpus

DOCUMENTS NON MASSICOTABLES DOCUMENTS MASSICOTABLES

Numérisation- Scanners de livres- Résolution : 400 dpi- Profondeur : 256 niveaux de gris et couleurs- Format : tiff non compressé- Contrôle qualité

Numérisation- Scanners de livres- Résolution : 400 dpi- Profondeur : 256 niveaux de gris et couleurs- Format : tiff non compressé- Images bitmap G4- Contrôle qualité

Intégration chaîne PerséeRenommage, binarisation (TiffG4)

Post traitements- Reconnaissance optique de caractère (OCR)- Redressement des images et pose des marges- Conversion de formats- Nettoyage des images et amélioration de leur qualité- Versement des données sur des serveurs d’objets (Aldo)- Versement sur un espace de sauvegarde

Documentation et indexation- Création de métadonnées bibliographiques et de structure- Balisage du texte intégral (niveaux de titres, références bibliographiques, illustrations, tableaux)- Indexation à partir des éléments d’un référentiel toponymique

Export XML : génération des données de diffusion, propagation et archivage

- Format des images diffusées : JPEG- container METS- md bibliographiques : DC, MODS, marcXML- texte intégral : TEI

Diffusion:

www.persee.fr

PropagationOAI-PMH, Z3950,

indexation Isidore, moteurs de recherche

web, etc.

ArchivageDonnées archivables

sur plateforme PAC (CINES)

Préparation matérielle et modélisation du corpus- Identification de chaque document et organisation du corpus- Description physique de chaque document- Constitution des lots de numérisation pour le prestataire

PRESTATAIRE PERSEE

PERSEE

INSTITUT FRANÇAISD’ARCHÉOLOGIE ORIENTALE

Titre de niveau 2

Titre de niveau 2

Note biographique

Entrée nommée

Le projet Athar. Les monuments du Caire.Indexation topographique multilingue des monuments

de l’art copte et islamiqueAurélie MONTEIL

Persée - UMS 3602, Université de Lyon, École Normale Supérieure de Lyon, CNRS

Emmanuelle PERRIN InVisu- USR 3103, CNRS/INHA

Le projet « Athar. Les monuments du Caire » a pour ambition la numérisation et la diffusion des Travaux du Comité de Conservation des monuments de l'art arabe. Cette publication annuelle identifie, recense et décrit les monuments anciens de l'art copte et islamique.

Pour les historiens et les historiens de l'art qui étudient l'historiographie de l'art copte et islamique ainsi que l'histoire de la préservation du patrimoine égyptien, ce corpus constitue une source d'informations unique. Sa valeur est principalement fondée sur le nombre de monuments décrits, sur la somme d'informations tech-niques issues des chantiers de restauration, sur la prosopographie des acteurs impliqués ainsi que sur les nombreuses archives photographiques. Par son grand intérêt scientifique mais également à cause de la dégradation progressive des anciens monu-ments (aujourd'hui sur les 800 monuments identifiés depuis 1880, 300 ont déjà disparu), il est important d'oeuvrer pour la conservation des archives des monuments du Caire.

Le projet Athar, porté par le Laboratoire InVisu (USR 3103 CNRS/INHA), l’UMS Persée et l’IFAO, a pour ambi-tion la diffusion en open access de la collection des Travaux du Comité de Conservation des Monuments de l'art arabe, ainsi qu'une indexation TEI du texte intégral. Pour ce faire, l'équipe InVisu a développé un référen-tiel sur les monuments du Caire permettant de regrouper autour d’une même forme de référence, ses diffé-rentes variantes orthographiques et typographiques ; l’UMS Persée a adapté son module d'encodage TEI afin de pouvoir exploiter ce référentiel. Le projet permettra, via le portail Persée, l'exploitation du référentiel pour le parcours de la collection et la recherche de monuments, la diffusion des documents, et l'interopéra-bilité avec d'autres systèmes d'informations (data.bnf.fr, geonames, etc...)

LE PROJET ATHAR

Le laboratoire InVisu en partenariat avec l’IFAO fournit l’ensemble de la collection à l’UMS Persée. Cette der-nière prend en charge une partie de la numérisation du fond, la création des métadonnées et leur diffusion. Le travail documentaire est entièrement réalisé par le laboratoire InVisu.

Ce travail documentaire est une procédure de mise en valeur de la structure éditoriale des documents et constitue une forte plus-value à la simple diffusion des images de pages numérisées. Le corpus est composé de quatre types documentaires distincts : les procès-verbaux, les rapports, les index et listes de monuments. Cette première description éditoriale est ensuite complétée par une phase de documentation permettant de mettre en lumière la composition de chaque section. La documentation met en évidence la structure interne de ces unités documentaires (titres de niveau, bibliographie, tableaux, illustrations). C'est au cours de cette étape que les liens sont réalisés vers le référentiel (SKOS) via l'application développée par Persée, JGalith.(cf « L'indexation toponymique : le module TEI »).

LA DIFFUSION DES DONNÉES

Le lien entre l’index et les documents est réalisé à partir de «JGalith», l’outil développé par l’UMS Persée et permettant la création de métadonnées. L'index créé par le laboratoire InVisu est exploité dès la phase de numérisation :- il constitue un dictionnaire des formes de référence et des formes associées utilisé pour améliorer les résultats de l'OCR- il est exploité pour localiser les différentes formes de nom de chaque monument et les associer avec la forme de référence correspondante.Lors de la production des données destinées à la diffusion, les liens sont établis entre le texte encodé en TEI et l'index toponymique produit par le la-boratoire InVisu. A l’issu du travail documentaire, l’index multilingue obtenu offre une synthèse des différentes formes typographiques existantes pour le nom.

L’UMS Persée propose la diffusion de l’ensemble de la collection des Travaux du Comité de Conservation des monuments de l'art arabe numérisée et de ses metadonnées. Le portail se caractérise par une politique active de mise à disposition des données en open access et open data permettant un échange et une réutilisation des données. Cela se manifeste concrètement par un accès libre, gratuit et illimité aux données, la possibilité de ré-cupérer les metadonnées produites, assurer l’alimentation et permettre le moissonnage d’autres plateformes. Une base de données triplestore est mise en place afin de permettre les requêtes via le langage SPARQL.

L’interopérabilité assure une propagation rapide des données, elle est promue par la mise à disposition d'un large éventail de documents XML res-pectant les normes et standards en vigueur dans chaque communauté (TEI, MARC, METS, etc.) ainsi que les outils permettant leur indexation. Au terme du travail effectué sur cette collection, les différentes métadonnées produites alimenteront d’autres portails : le Sudoc et les catalogues de bi-bliothèques (MarcXML), d'autres plateformes de diffusion open access en sciences humaines et sociales telle qu’Isidore (Dublin Core, TEI).

Enfin, ce référentiel sera intégré au web sémantique fondé sur les principes du linked data. Ce projet prévoit le versement des référentiels dans la base IdRef (format MADS) afin d'enrichir les notices d’autorités toponymiques du Sudoc. Cette démarche vient compléter la collaboration déjà en-gagée entre la BnF et le laboratoire InVisu autour de l'indexation du fond Beniminio Facchinelli (photographe actif au Caire de 1876 et 1895). L’index des toponymes a également servi à alimenter le géocorpus Geonames et propose une géolocalisation des sites.

Colloque Humanités numériques et antiquités. 2-4 septembre 2015, MSH-Alpes, Grenoble

Exemple du travail documentaire réalisé sur une page

L’INDEXATION TOPONYMIQUE: LE MODULE TEI

LE TRAITEMENT DOCUMENTAIRE DU CORPUS

Exemple de liens créés vers le réferentiel SKOS sur une page numérisée

Illustration: Bab El Vizir, entre 1873 et 1895. Beniminio Facchinelli. Fond BNF Gallica, Recueil. Photographies positives. Oeuvre de Beniami-no Facchinelli. [http://gallica.bnf.fr/ark:/12148/btv1b10508622s]

Concrètement, au cours de la phase de documentation, des zones de texte sont localisées dans l'image de page, leur contenu extrait par OCR peut-être corrigé. Par comparaison à l'index, des liens sont proposés vers les entrées les plus proches. La sélection d'une des propositions permet d'établir un lien entre la forme ren-contrée dans le texte, son équivalent corrigé présent dans l'index et la forme de référence correspondante. Une fois le lien vers l'index établi, il donnera lieu à la génération, dans le document TEI final, à la description d'une entité nommée sous la forme : <name ref="http://cairogazetteer.fr/invisu/re-source/ark:/67717/4c36b1ef9438cdf9209bed0b6c4cf184">Mosquée Sultan Aboul-Ela</name>Ici, la référence à l’URI du concept SKOS se rajoute au terme recherché « Mosquée Sultan Aboul-Ela ». Cette forme normalisée permet une exploitation riche par le portail Persée mais également par d'autres outils. Sur le portail Persée, le regroupement de plusieurs variantes orthographiques autour d'une seule forme de référence permettra l'affichage de celle-ci sous la forme d'un nuage de mots et proposera un accès direct à toutes les occurrences dans l'ensemble de la collection.

Page 2: Persee Projet Athar_Indexation multilingue des monuments du Caire

Le projet Athar.Indexation multilingue des monuments du Caire.

Emmanuelle PerrinInVisu, USR 3103, CNRS, INHA

Aurélie MonteilPersée - UMS 3602Université de Lyon, École Normale Supérieure de Lyon, CNRS

Résumé :Le projet « Athar. Les monuments du Caire » a pour ambition la numérisation et la diffusion des Travaux duComité de Conservation des monuments de l'art arabe. Cette publication annuelle identifie, recense et décrit les monuments anciens de l'art copte et islamique.

Pour les historiens et les historiens de l'art qui étudient l'historiographie de l'art copte et islamique ainsi quel'histoire de la préservation du patrimoine égyptien, ce corpus constitue une source d'informations unique.Sa valeur est principalement fondée sur le nombre de monuments décrits, sur la somme d'informations techniques issues des chantiers de restauration, sur la prosopographie des acteurs impliqués ainsi que sur les nombreuses archives photographiques. Par son grand intérêt scientifique mais également à cause de la dégradation progressive des anciens monuments (aujourd'hui sur les 800 monuments identifiés depuis 1880, 300 ont déjà disparu), il est important d'oeuvrer pour la conservation des archives des monuments du Caire.

Le projet Athar, porté par le Laboratoire InVisu (USR 3103 CNRS/INHA), l’UMS Persée et l’IFAO, a pour ambition la diffusion en open access de la collection des Travaux du Comité de Conservation des Monuments de l'art arabe, ainsi qu'une indexation TEI du texte intégral. Pour ce faire, l'équipe InVisu a développé un référentiel sur les monuments du Caire permettant de regrouper autour d’une même forme de référence, ses différentes variantes orthographiques et typographiques ; l’UMS Persée a adapté son module d'encodage TEI afin de pouvoir exploiter ce référentiel. Le projet permettra, via le portail Persée, l'exploitation du référentiel pour le parcours de la collection et la recherche de monuments, la diffusion des documents, et l'interopérabilité avec d'autres systèmes d'informations (data.bnf.fr, geonames, etc...)Le projet « Athar. Les monuments du Caire » a pour ambition la numérisation et la diffusion des Travaux duComité de Conservation des monuments de l'art arabe. Cette publication annuelle identifie, recense et décrit les monuments anciens de l'art copte et islamique.Pour les historiens et les historiens de l'art qui étudient l'historiographie de l'art copte et islamique ainsi quel'histoire de la préservation du patrimoine égyptien, ce corpus constitue une source d'informations unique.Sa valeur est principalement fondée sur le nombre de monuments décrits, sur la somme d'informations techniques issues des chantiers de restauration, sur la prosopographie des acteurs impliqués ainsi que sur les nombreuses archives photographiques.Par son grand intérêt scientifique mais également à cause de la dégradation progressive des anciens monuments (aujourd'hui sur les 800 monuments identifiés depuis 1880, 300 ont déjà disparu), il est important d'oeuvrer pour la conservation des archives des monuments du Caire.Le projet Athar, porté par le Laboratoire InVisu (USR 3103 CNRS/INHA), l’UMS Persée et l’IFAO, a pour ambition la diffusion en open access de la collection des Travaux du Comité de Conservation des Monuments de l'art arabe, ainsi qu'une indexation TEI du texte intégral. Pour ce faire, l'équipe InVisu a développé un référentiel sur les monuments du Caire permettant de regrouper autour d’une même forme de référence, ses différentes variantes orthographiques et typographiques ; l’UMS Persée a adapté son module d'encodage TEI afin de pouvoir exploiter ce référentiel. Le projet permettra, via le portail Persée, l'exploitation du référentiel pour le parcours de la collection et la recherche de monuments, la diffusion des documents, et l'interopérabilité avec d'autres systèmes d'informations (data.bnf.fr, geonames, etc...)

Mots-clés : SKOS, XML TEI, interopérabilité, indexation multilingue, MarcXML