Upload
amorette-avril
View
102
Download
0
Embed Size (px)
Citation preview
1
Global Biodiversity Information Facitity Switzerland Global Biodiversity Information Facitity Switzerland http://www.gbif.chhttp://www.gbif.ch
Réalisation du nœud informatique GBIF-CHRéalisation du nœud informatique GBIF-CH Situation auSituation au 31.08.2005 31.08.2005
F. Burri 1, M. Bouzelboudjen 2
1 Collaborateur Scientifique, Service Informatique et Télématique de l’ Université de NeuchâtelE-mai. [email protected], Tel. +41 (0)32 718 20 32, Fax. + 41 (0)32 718 20 00
2 Responsable GIS & Formation, Service Informatique et Télématique de l’ Université de Neuchâtel & Chargé de CoursE-mai. [email protected], Tel. +41 (0)32 718 20 28, Fax. + 41 (0)32 718 20 00
2SITEL, UniNE/31/8/2005
Nœud informatique GBIF-CH Nœud informatique GBIF-CH Thèmes abordés Thèmes abordés
Rappel succinct de l’objectif et des activités Réalisation du portail permettant la publication
d’informations en rapport avec GBIF Suisse , http://www.gbif.ch (ouverture le 31 mai 2005)
Installation et configuration de BioCASe (mai-août 2005)
Etude des problématiques d’intégration de données fortement hétérogènes (juin-juillet 2005) et proposition de concept de validation-normalisation (août 2005)
Modélisation de la base de données centralisées GBIF-CH et élaboration du concept de validation-normalisation des données (juin-août 2005)
3SITEL, UniNE/31/8/2005
Tâches réaliséesTâches réalisées
Rappel succinct de l’objectif et des activités au 1.9.2004 Réalisation du portail permettant la publication
d’informations en rapport avec GBIF Suisse (ouverture en 31 mai 2005)
Installation et configuration de BioCASe (mai-août 2005)
Etude des problèmatiques d’intégration de données (juin-août 2005) qui a débouché sur la proposition de concept de validation et normalisation (août 2005)
Modélisation de la base de données centralisées GBIF-CH et élaboration du concept de validation et normalisation des données (juin-août 2005)
4SITEL, UniNE/31/8/2005
Topologie des «Data Nodes»Topologie des «Data Nodes»
ParticipantNode
GBIFPortail
« Data Node » centralisé
Université de Neuchâtel
«Data Node»satellite
5SITEL, UniNE/31/8/2005
Rappel : Architecture et activités au 1.09.2004 Rappel : Architecture et activités au 1.09.2004 (dernière séance GBIF-CH)(dernière séance GBIF-CH)
Serveur d’applications
Internet
Serveur de base de données
Portail Internet Data Node centralisé
Installation Hardware : Serveur Linux Installation Software : Oracle, DIGIR,
Python, Zope, … Intégration de données test du musée
d’histoire naturelle de Neuchâtel Intégration de données test aux formats
texte et Excel Publication des données sur Intranet via
les outils DIGIR (voir présentation ppt, séance GBIF-CH à Berne, le 01.09.04, www.gbif.ch)
6SITEL, UniNE/31/8/2005
Evolution du cahier des charges Evolution du cahier des charges
depuis le 1.9.2004depuis le 1.9.2004
Nouvelle réorientation du projet par l’abandon des outils DIGIR (comité GBIF-CH)
Nouvelle demande pour l’intégration des données au format ABCD (BioCASe) pour permettre l’intégration d’images
7SITEL, UniNE/31/8/2005
Tâches réaliséesTâches réalisées
Rappel succinct de l’objectif et des activités au 1.9.2004 Réalisation du portail permettant la publication
d’informations en rapport avec GBIF Suisse (ouverture en 31 mai 2005)
Installation et configuration de BioCASe (mai-août 2005)
Etude des problèmatiques d’intégration de données (juin-août 2005) qui a débouché sur la proposition de concept de validation et normalisation (août 2005)
Modélisation de la base de données centralisées GBIF-CH et élaboration du concept de validation et normalisation des données (juin-août 2005)
8SITEL, UniNE/31/8/2005
Publication d’informations en rapport avec Publication d’informations en rapport avec GBIF suisse (sous CMS Jahia)GBIF suisse (sous CMS Jahia)
http://www.gbif.ch
9SITEL, UniNE/31/8/2005
Tâches réaliséesTâches réalisées
Rappel succinct de l’objectif et des activités au 1.9.2004 Réalisation du portail permettant la publication
d’informations en rapport avec GBIF Suisse (ouverture en 31 mai 2005)
Installation et configuration de BioCASe (mai-août 2005)
Etude des problématiques d’intégration de données (juin-août 2005) qui a débouché sur la proposition de concept de validation et normalisation (août 2005)
Modélisation de la base de données centralisées GBIF-CH et élaboration du concept de validation et normalisation des données (juin-août 2005)
10SITEL, UniNE/31/8/2005
Concept BioCASe * Concept BioCASe *
* http://www.biocase.org
11SITEL, UniNE/31/8/2005
Mapping entre les « data » et le modèle ABCDMapping entre les « data » et le modèle ABCD
Genus
OrganisationCode
…
Colonnes de la base de donnéesColonnes de la
base de données
'/
DataSets/ DataSet/ Units/ Unit/ Identifications/ Identification/ TaxonIdentified/ ScientificNameAtomized/ Botanical/ Genus
Datasets/ Dataset/ DatasetDerivation/ Supplier/ Organisation/ OrganisationCodes/ OrganisationCode
Schéma ABCD 1.2*
(*)http://www.bgbm.org/scripts/ASP/TDWG/frame.asp
12SITEL, UniNE/31/8/2005
Interface de « mapping » de BioCASeInterface de « mapping » de BioCASe
13SITEL, UniNE/31/8/2005
Exemple d’interrogation de la base USNEA Exemple d’interrogation de la base USNEA (Standard Biocase Query Tool)(Standard Biocase Query Tool)
14SITEL, UniNE/31/8/2005
Résultat de l’interrogationRésultat de l’interrogation
15SITEL, UniNE/31/8/2005
Détail Projet Usnea – cavernosa –Tuck Détail Projet Usnea – cavernosa –Tuck
16SITEL, UniNE/31/8/2005
Tâches réaliséesTâches réalisées
Rappel succinct de l’objectif et des activités au 1.9.2004 Réalisation du portail permettant la publication
d’informations en rapport avec GBIF Suisse (ouverture en 31 mai 2005)
Installation et configuration de BioCASe (mai-août 2005)
Etude des problématiques d’intégration de données (juin-août 2005) qui a débouché sur la proposition de concept de validation et normalisation (août 2005)
Modélisation de la base de données centralisées GBIF-CH et élaboration du concept de validation et normalisation des données (juin-août 2005)
17SITEL, UniNE/31/8/2005
Etude des problématiques Etude des problématiques d’intégration de donnéesd’intégration de données
Analyse des extraits de base de données à disposition :– DatenBank Sammlung Pinuz, Paläontologistes Institut und Museum
der Universität Zürich (reçue en juin 2005)– Base de données du département de géologie et paléontologie, musée
d’histoire naturelle de Genève (reçue le 16 août 2005)– Base de données du projet USNEA du Conservatoire et Jardin
botanique de Genève (reçue le 25 août 2005)– …
Identification des problèmes :– Formats hétérogènes de données à description variable– Pas de normalisation– Police de caractères– …
18SITEL, UniNE/31/8/2005
Tâches réaliséesTâches réalisées Réalisation du portail permettant la publication
d’informations en rapport avec GBIF Suisse (ouverture en 31 mai 2005)
Installation et configuration de BioCASe (mai-août 2005)
Etude des problématiques d’intégration de données (juin-août 2005) qui a débouché sur la proposition de concept de validation et normalisation (août 2005)
Modélisation de la base de données centralisées GBIF-CH et proposition d’un concept de validation -normalisation des données (juin-août 2005)
19SITEL, UniNE/31/8/2005
Aperçu simplifié du modèle GBIF-CH *Aperçu simplifié du modèle GBIF-CH *
FK_DATASOURCE_INSTITUTION FK_GCHDATA_DATASOURCE
GCHDATA
DAT_IDGCH_IDGCH_DAT_IDGCH_CDE_ID_PAYSGCH_CDE_ID_PHYLUMGCH_CDE_ID_CLASSGCH_CDE_ID_HIGHERTAXON1GCH_CDE_ID_HIGHERTAXON2GCH_CDE_ID_PERIODGCH_CDE_ID_EPOCHGCH_CDE_ID_STAGEGCH_DETERMINATEURNOM2GCH_CDE_ID_TYPESTATUSGCH_COLUNIQUEIDGCH_FAMILYGCH_GENREGCH_SOUSGENREGCH_SPECIESGCH_SUBSPECIESGCH_AUTHORYEARGCH_DETERMINATEURNOMGCH_DETERMINATEURPRENOMGCH_BASIONYMGENUSGCH_BASIONYMEPITHETGCH_SWISSCOORDINATE_XGCH_SWISSCOORDINATE_YGCH_LONGITUDEGCH_LATITUDEGCH_ELEVATIONGCH_DEPTHGCH_COUNTRYGCH_LOCALITYGCH_COUNTYGCH_CONTINENTGCH_WATERBODYGCH_MEMBER
DATASOURCE
DAT_IDINS_IDDAT_INS_IDDAT_CDE_ID_LANGUEDAT_DEPARTEMENTNOMDAT_ABREVDEPARTEMENTDAT_DBIDENTIFICATIONDAT_DBRESPONSABLETITREDAT_DBRESPONSABLEFONCTIONDAT_DBRESPONSABLENOMDAT_DBRESPONSABLEPRENOMDAT_DBRESPONSABLEEMAILDAT_ADDRESSERUEDAT_ADDRESSERUENUMERODAT_ADDRESSECASEPOSTALEDAT_NPADAT_LOCALITEDAT_TELDAT_FAXDAT_DBRESPONSABLETELDIRECTDAT_DATEUPDATEDDAT_CREDATE
INSTITUTION
INS_IDINS_NOMINS_ABREVCHINS_ABREVINTERINS_URLINS_RESPONSABLETITREINS_RESPONSABLEFONCTIONINS_RESPONSABLENOMINS_RESPONSABLEPRENOMINS_RESPONSABLETELDIRECTINS_TELEPHONEINS_FAXINS_RESPONSABLEEMAILINS_ADRESSERUEINS_ADRESSERUENUMEROINS_ADRESSECASEPOSTALEINS_NPAINS_LOCALITEINS_CREDATE
* Extrait de 3 tables du modèle élaboré
20SITEL, UniNE/31/8/2005
Les 51 colonnes de la table GCHDATALes 51 colonnes de la table GCHDATA 1. GCH_COLUNIQUEID 2. GCH_CDE_ID_PAYS 3. GCH_CDE_ID_PHYLUM 4. GCH_CDE_ID_CLASS5. GCH_CDE_ID_ORDER 6. GCH_FAMILY 7. GCH_CDE_ID_HIGHERTAXON1 8. GCH_CDE_ID_HIGHERTAXON2 9. GCH_GENRE 10. GCH_SOUSGENRE 11. GCH_SPECIES 12. GCH_SUBSPECIES 13. GCH_AUTHORYEAR 14. GCH_DETERMINATEURNOM 15. GCH_DETERMINATEURPRENOM
16. GCH_DETERMINATEUR 17. GCH_CDE_ID_TYPESTATUS 18. GCH_BASIONYMGENUS 19. GCH_BASIONYMEPITHET 20. GCH_ORIGINALLABEL 21. GCH_ORIGINALLABELCONTENT
22. GCH_SWISSCOORDINATE_X 23. GCH_SWISSCOORDINATE_Y 24. GCH_LONGITUDE 25. GCH_LATITUDE 26. GCH_ELEVATION 27. GCH_DEPTH
28. GCH_COUNTRY 29. GCH_LOCALITY 30. GCH_COUNTY 31. GCH_CONTINENT 32. GCH_WATERBOBY 33. GCH_CDE_ID_PERIOD 34. GCH_CDE_ID_EPOCH 35. GCH_CDE_ID_STAGE 36. GCH_MEMBER 37. GCH_FORMATION 38. GCH_ZONE 39. GCH_INDIVIDUALCOUNT
40. GCH_MALECOUNT 41. GCH_FEMALECOUNT 42. GCH_ADULTECOUNT 43. GCH_LARVECOUNT 44. GCH_NYMPHECOUNT 45. GCH_ANATOMICALDESCR
46. GCH_COLLECTOR 47. GCH_DAYCOLLECTED 48. GCH_MONTHCOLLECTED49. GCH_YEARCOLLECTED 50. GCH_REFBI 51. GCH_DATELASTMODIFIED
21SITEL, UniNE/31/8/2005
Processus d’intégration de donnéesProcessus d’intégration de données
CoordinationGBIF Suisse
Nœud informatique GBIF Suisse
Institutions
• Récolter• Vérifier• Transmettre selon le modèle
proposé par le nœud informatique
Le nœud informatique propose le modèle pour l’intégration des données
22SITEL, UniNE/31/8/2005
Proposition du nœud informatique pour le Proposition du nœud informatique pour le concept de validation et de normalisation *concept de validation et de normalisation *
Validation, normalisatio
n
OK
Erreurs
Rapport
Database
Données exportées
*Ne pourra être réalisé ultérieurement qu’en fonction des premières expériences d’intégration des données
23SITEL, UniNE/31/8/2005
Proposition du nœud informatique pour la mise Proposition du nœud informatique pour la mise en œuvre du concept de validation automatiqueen œuvre du concept de validation automatique Vérifications automatiques de règles prédéfinies :
– Colonne obligatoirement renseignée– Valeur appartenant à un thésaurus– Unicité – …
Une liste des enregistrements rejetés est produite pendant le processus
Des colonnes peuvent être rejetées sans que l’enregistrement dans son entier soit rejeté
Une liste est produite avec les enregistrements qui possède une ou plusieurs colonnes rejetées
…
24SITEL, UniNE/31/8/2005
Proposition du nœud informatique pour la Proposition du nœud informatique pour la mise en œuvre du concept de normalisationmise en œuvre du concept de normalisation
Le processus de normalisation vise à attribuer des valeurs normalisées (codes) à certaines colonnes :
– Stratigraphie– BotanicalHigherRankTaxon– Pays– Systématique– TypestatusCode
La normalisation permet de : – Fédérer les données saisies dans des langages différents– Étendre les possibilités de corrélation entre les différentes sources de
données– De renseigner automatiquement les niveaux supérieures lacunaires des
valeurs hiérarchiques (Stratigraphie, Systématique, BotanicalHigherRankTaxon)
– Valider les données
25SITEL, UniNE/31/8/2005
Prochaines étapesProchaines étapes
Finalisation du modèle de « mapping » de la base de données GBIF-CH avec les concepts (août-septembre 2005) : ABCD 2.05, ABCD 1.2 et Darwin core 2.0
Intégration des données USNEA selon les concepts définis (septembre-décembre 2005)
Enregistrement de la base de données centralisées GBIF-CH sur GBIF.ORG (dès que des données seront correctement intégrées)
Développement des outils logiciels pour la validation et la normalisation des données (calendrier à définir)
Développement d’outils logiciel (interfaces orientées web) pour l’interrogation des données du portail Suisse (2006-2007)
26SITEL, UniNE/31/8/2005
RéférencesRéférences
Javier Torre, BioCASe Provider Software v. 2.2.0 Installation Guide, 18.07.2005 Javier Torre, MarkusDoering, BioCASe Provider Software v. 2.2.0 Configuration
Guide, 25.08.2005 François Burri, Mahmoud Bouzelboudjen, Architecture du Participant Node
suisse - Situation au 1.9.2004, Berne, Suisse. Présentation disponible sous http://www.gbif.ch
François Burri, Mahmoud Bouzelboudjen, Architecture du Participant Node suisse - Situation au 28.1.2004, Berne, Suisse. Présentation disponible sous http://www.gbif.ch