Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Assiriologia Digitale – TIGRIS V-Lab
Integrazione di e-tools per le e-HumanitiesApplicazione di Tecnologie Digitali agli Studi Umanistici
Daniela Alderuccio – ENEA UT ICT-HPC
SeminarioENEA: La Piattaforma ICTper la Valorizzazione e Fruizione del Patrimonio Culturale
Roma, 21 marzo 2014
Piattaforma Tecnologica ICT: digitalizzazione e fruizione dei dati sui beni culturali
Tecnologia e metodologiaLa creazione di reti di archivi e di Laboratori Virtuali, attraversol’infrastruttura computazionale ENEA-GRID, permette sia l’accessodiretto su web a basi dati distribuite sul territorio, sia l’utilizzo daremoto di strumenti informatici.
Attivitàü Modellazione, simulazione e ricostruzione virtuale 3D di beni,
anche non più esistentiü Accesso remoto ai dati e ai modelli 3D in alta risoluzione ü Analisi e monitoraggio dello stato di conservazioneü Prevenzione di fenomeni di degrado e dei danneggiamenti non
visibili a occhio nudoü Estrapolazione di informazioni sui materialiü Catalogazione e diffusione di documenti digitalizzati e di
informazioni di contestoü Accesso intelligente all’informazione culturaleü Applicazione di Nuove Tecnologie digitali agli studi umanistici
(Integrazione di e-tools per le e-Humanities)ü Formazione a distanza su competenze specialistiche
ENEA-UTICT(C.R. ENEA Casaccia – Bologna – Frascati - Portici)
Salvaguardia Conoscenza Materiale ed Immateriale dall’Antica Mesopotamia
c. 3100 c. 2800 c. 2400 c. 600
barley
http://www.hu.mtu.edu/~scmarkve/2910Su11/WrSys/evolofcuneiform3100-600BC.htm
Direzione della scrittura,
orientamento
e quantità dei simboli
variano nel tempo.
Simboli con più pronunce.
Oj 32, Tavoletta cuneiforme (1800 bC) Source: ENEA / Centro Studi Diyala
Traslitterazione
http://www.afs.enea.it/project/tigris/indexOpen.phphttp://www.afs.enea.it/project/tigris/indexOpen.php
Tavolette «parlanti»
Testi in caratteri cuneiformi:
• Religiosi e opere letterarie «Epopea di Gilgamesh »
• Documentazione amministrativa, legale, mercantile, missive, testi musicali e matematici.
- Prova ad un processo per furto di bestiame IM_51105
- Trasferimento di uomini e pecore IM_51108
- Compravendita di un campo IM_51180
- Richiesta di manodopera per costruire mattoni IM_51193
- Tasse IM_51269
- Protezione città IM_51311
- Controversia su di un campo IM_51382
Tavolette «parlanti»
Tavolette «parlanti»
Contenuto testo cuneiforme
Informazioni:
• Archeologiche (luogo e contesto di ritrovamento, statodi conservazione, etc.)
• Filologiche e Linguistiche (di scrittura, di contenutogrammaticale generale, terminologia, etc.)
• Economiche,• Storiche, etc.,
che consentono di ricostruire l’ambientazione storico-sociale in cui sono fiorite tali testimonianze scritte.
Comunità AssiriologicaIl processo di interpretazione di un testo cuneiforme si avvaledella consultazione di numerose fonti.
Difficoltà interpretative determinano l’esigenza di disporre di :• Riproduzioni in formato digitale delle tavolette originali (rare, fragili,
ospitate in collezioni pubbliche o private ad accesso limitato);
• Trascrizioni e traduzioni dei testi in formato digitale;• Lessici e/o glossari relativi ai testi;• Corpora paralleli in varie lingue;• Presentazioni sinottiche di versioni/intrepretazioni principali;• Disponibilità edizioni e pubblicazioni recenti;• Etichettatura grammaticale e semantica dei testi per indagini
linguistiche;• Lemmatizzazione dei corpora per produzione di liste di frequenze
lemmatizzate;• …
ENEA–GRID • Archiviazione di
grandi quantità didati, e-texts edimmagini digitali
• Accesso ai dati
• Analisi dei dati e visualizzazionerelazioni interne
• InfrastrutturaComputazionaleENEA-GRID
• Accesso alla Conoscenza
• HLT :• Text Analysis & Mining,• Data Mining• Network Analysis &
Visualization
ENEA–GRID • Infrastruttura Computazionale
ENEA-GRID
• Accesso alla Conoscenza
• Human Language Technologies:• Text Analysis/Mining
• Text Clustering• Network Analysis and Visualization
ENEA-GRIDAmbiente Digitale interattivo, dall’elevata potenza computazionale (150 Teraflops), a cui l’utente accede come ad un unico supercomputer virtuale. Ospita risorse di calcolo eterogenee e i laboratori virtuali (Clima, Fluidodinamica, Scienze dei Materiali, Fissione Nucleare, Grafica 3d, e-Humanities)
TIGRIS Virtual LabV-LAB: Ambiente virtuale collaborativo, accessibile dovunque:
- per l’accesso intelligente all’informazione,
- la condivisione e il ri-uso della conoscenza,
- la fruizione e la conservazione del Patrimonio Culturale Digitale Multilingue
Human Language Technologies:• TaLTaC2
• ASTEC • PAJEK
Text Analysis and Mining
NUZI E-DUB.SAR
VARIANTS IN (š)e-ni OR (š)e-en-ni
0
5
10
15
20
25
30
Šeršiia Hupita Muš-teššup
(š)e-ni(š)e-en-ni
Fig. 1
Network Visualization
Fig. 5 - Table: TALTAC2 Concordances snapshot on “Na-i-ge-mar”evidencing that AASOR_XVI_23 and AASOR_XVI_26 share a common witness
Fig
17
Applicazione di Tecnologie Digitalinelle Scienze Umanistiche
in ambiente virtuale collaborativo
per l’Accesso Multilingue alPatrimonio Culturale Documentale
Laboratorio Virtuale ENEA GRID per le e-Humanities
üRealizzazione di TIGRIS (Virtual Lab per l’e-Assiriologia)
ENEA-UTICT(C.R. ENEA Casaccia – Frascati – Portici)
Integrazione in ENEA GRID di e-tools per le e-Humanities:
Lingue e Letterature Antiche, Moderne e Contemporanee -Linguistica – Filologia - Archeologia – Studi Culturali – Storia, ...
Progetto ESHNUNNA
Demo Eshnunnahttp://www.afs.enea.it/project/tigris/indexDemo.php
Grammar ExtractionText Analysis and Mining
OutputsGrammar Extraction
Vocabulary by Word Form(the list of the different words
(types) of the corpus)
Corpus-based Lexicon ExtractionAnalysis of morphological variations
Vocabulary by Lemma
(the list of all the lemmas ,assigned to corpus word forms)
Analysis of the range of the inflectional variants of each word (types) in the corpus
Concordances(a given word (types)/lemma may be sorted by its precedent and following context)
Analysis of syntactic variation(a token can occur in different construction)
Analysis of semantic variation (homonimy and polisemy)
Grammatical Tagging Analysis of different grammatical categories
Semantic Tagging Semantic Analysis
LemmatizzazioneTALTAC2
POS-tagging OutputsLemma
For Grammar Extraction
NOUN(Personal Name/Proper Noun, Common Noun, Toponyms)
Proper NounsCommon Nouns: singular form(without declination)
VERB Infinitive Form
ADJECTIVE Masculine, singular, nominative form
ADVERBS
NUMERALS Cardinal: same form in textsOrdinal: masculine, singular, nominative
CONJUNCTION
PRONOUNS Masculine, singular, nominative
PREFIXES
AFFIXES
Text Clustering - ASTECText Clustering is a data mining technique, which identifies set of documents, sharing common features (i.e., the same topic). Document in the same cluster are similar or highly-related to each other than texts belonging to different clusters.
ASTEC (ASsyriology TExt Clustering)
Risultato del Clustering:
• «campo » : luogo di coltivazione dell’orzo, problemi di irrigazione, come elemento di pagamento,
• « Democrazia nell’Ancient Near East »: problemi e procedure per assegnare la responsabilità su una città alle autorità locali, dopo la morte della persona che aveva rivestito fino ad allora la carica maggiore.
ASTEC (ASsyriology TExt Clustering) is the data mining tool developed by ENEA within the e-ŠNUNNA project, supporting scholars in their assyriological studies. The aim is to discover homogeneous groups and hidden relations in the data, by performing clustering algorithms and setting up measure in the tool.
ASTEC offers a set of clustering algorithms and features, analyzes and discovers homogeneous groups of transliterated and lemmatized texts. Using ASTEC it is possible to underline hidden relations within the e-ŠNUNNA Corpus, easening the discover and extraction of new patterns and information from textual data.
ASTEC is written in Java and is executable in every system as it is independent from the execution platform. This makes ASTEC particuarly suitable for web environments. Furthermore, it is modular and projected to be easily extended with other algorithms and relevance measures. .
TIGRIS Virtual Lab
http://www.afs.enea.it/project/tigris/indexOpen.php
Open Access & Crowdsourcing
OPEN ACCESS TO KNOWLEDGEProducing and sharing Knowledge & Language e-Resources, extracted from collected corpora transliteration (with lemmatization and grammatical tagging) and from research outputs. Manifesto Digital Humanities
• CC BY-NC-SA Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License. http://creativecommons.org/licenses/by-nc-sa/4.0/
• OPEN ARCHIVE INITIATIVE (OAI)
• ENEA Open Archive, ENEA adheres to the principles of the Open Archives Initiative (OAI), for the Open Access of research outputs. “Open Access is the immediate, online, free availability of research outputs that scholars normally give away for free for publication; it includes peer-reviewed journal articles, conference papers and datasets of various kinds”, according to the EU OpenAire Project.
CROWDSOURCING• ENEA aims at encouraging the enlarging of the pool of volunteer collaborators, with the purposes of
receiving and sharing crowdsourced scholarly e-texts and data, to be processed by TalTaC2 software and then to be reviewed by Assyriologists in an iterative process (under CC BY-NC-SA Creative Commons Licence).
IM 51108
http://www.afs.enea.it/project/tigris/indexOpen.phphttp://www.afs.enea.it/project/tigris/indexOpen.php
ENEA Tigris Virtual Lab - ESHNUNNA Project (Tagged by Paola Negri)This work is licensed under a Creative Commons Attribution-Non Commercial-ShareAlike 4.0 International License
IM_51108Forma grafica Occ. totali CAT Lemma Informazioni aggiuntive
[a-na] 1 PREP anaD.$E$.KI-MA.AN.SUM 1 N NANNA-MA.AN.SUM[qi2]-bi2-ma 1 V+J qabu;m -ma -ma rafforzativoum-ma 1 J umma um-ma inizio discorso diretto$u-um-ru-us2-tum 1 N $umrustumvup-pi2 1 N vuppuman-ni-a-am 1 ADJ annu;mi-na 1 PREP ina$e-me-e-em 1 V $emu;m1 1 NUM 1SAG.IR3 1 N wardum4 1 NUM 4UDU.HI.A 1 N immeruma-na 1 PREP anaa-ka-di3-i 1 N akkadu;mI.bu-qu-um-tum 1 N buqumtumi-re-de 1 V redu;m$u-ti-iq 1 V ete:qumla 1 ADV laik-ka-la 1 V kalu;m
TIGRIS Oggi
• Riproduzione Tavolette, Traslitterazioni, Vocabolari, http://www.afs.enea.it/project/tigris/textcorpus4.php
• Traduzionihttp://www.afs.enea.it/project/tigris/textcorpus4trad.php
• Lemmatizzazionihttp://www.afs.enea.it/project/tigris/DocumentClustering2a3.php
TIGRIS Domani
• Open Source Software per Text Analysis/ Mining per testi in cuneiforme (e traslitterazioni) di grandi dimensioni
• Simulazioni dinamiche evolutive storico-linguistiche
• Codifica XML/TEI• Open Linked Data• 3d Printing• …
Conclusioni• La GRID ENEA è un ecosistema digitale virtuale di
collaborazione, conservazione e scambio testi e ricerche (e-texts, e-tools, e-languages resources, vocabolari, lessici, grammatiche, liste di Named Entitites, fonts, etc.).
• Consente, grazie all’elevata potenza computazionale (150 Tflops) :• l’accesso, la condivisione ed il riuso di conoscenza, di
risorse testuali e risorse linguistiche elettroniche (vocabolari, raccolte lessicali di nomi di persona, dizionari multilingue, corporaparalleli, ecc.), di software, di Text Mining Tools, di Studilinguistici quantitativi e comparativi su corpora testualirealizzati mediante software linguistici per computer-aidedanalysis;
• l’ analisi e la visualizzazione di reti di relazione tra i dati.
Bibliografia - Sitografia
• Laboratorio Virtuale TIGRIS http://www.afs.enea.it/project/tigris/indexOpen.php
• Speciale EAI ENEA – «Knowledge, Diagnostics and Preservation of Cultural Heritage http://www.enea.it/it/produzione-scientifica/EAI/anno-2012/knowledge-diagnostics-and-preservation-of-cultural-heritage/knowledge-diagnosis-and-preservation-of-cultural-heritage
• Manifesto Digital Humanities
• http://f.hypotheses.org/wp-content/blogs.dir/171/files/2010/07/Pages-de-Aff_Dh40x60-EN2BIS.pdf
• http://dhdhi.hypotheses.org/1855
• CC BY-NC-SA4.O Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License. http://creativecommons.org/licenses/by-nc-sa/4.0/
• TaLTaC2 http://www.taltac.it/it/index.shtml
• ASTEC http://www.afs.enea.it/project/tigris/ASTEC.php
• PAJEK http://pajek.imfm.si/doku.php?id=download
• Goetze, A., "Fifty Old Babylonian Letter from Harmal" (Sumer 14), 1958, pp.3-78
• Ponti G., Alderuccio D., Mencuccini G., Rocchi A., Bracco G., Migliori S, Negri Scafa P., "Data Mining Tools and GRID Infrastructure for Assyriology Text Analysis" in Proceedings RAI 58th , "Private and State in the Ancient Near East", Leiden (The Netherlands) 2012, http://www.eneagrid.enea.it/papers_presentations/papers/paperRAI2012_v2.0_UNICODEfont.pdf
• Negri Scafa P., Alderuccio D., Bracco ., Migliori S., "A preliminary analysis of a Nuzi scribal family in view of an application in the ENEA-GRID" at RAI 57th "Tradition and Innovation in the Ancient Near East", Rome (Italy), July 4th-8th 2011 http://www.afs.enea.it/project/tigris/RAI57th.pdf
• Negri Scafa P., Alderuccio, D., "A new experimental approach to text computer analysis applied to the Nuzi texts" 55th RAI: "Family in the Ancient Near East: Realities, Symbolisms, and Images", Paris (France), July 6th-9th 2009
Contact: .ti
HOW TO ASK FOR AN ENEA-GRID ACCOUNT
INFO e GRID ACCOUNT