1
IBERIAN ACADEMY DICTIONARIES AS LEXICAL RESOURCES Ana Salgado, NOVA CLUNL 2019, Lisbon, Portugal Domain labelling in Iberian Academy Dictionaries How many domains are represented? What are the most common ones? Are they different? What are the most frequent ones? Is there a systematic label usage? Are there any recent domains that do not appear? What are the criteria for term selection and treatment? Connect wiht us! https://www.facebook.com/clunl ELEXIS Visiting grants: Call 1 Researcher: Ana Salgado Hosting institution: ELEXIS-ES: Real Academia Española (RAE, Spain), Centro de Estudios de la RAE y de la Asociación de Academias de la Lengua Española Institutional affiliation: NOVA CLUNL, Centro de Linguística da Universidade NOVA de Lisboa, Portugal Current position: PhD student in Terminology Period of stay: November 11-30, 2018 17 15 138 8 672 30 715 27 5 16 249 870 112 811 93 160 84 137 209 364 1588 24 21 300 219 92 47 104 13 502 832 69 294 34 81 373 901 904 297 329 208 260 347 1819 436 288 2404 84 267 717 40 559 16 82 2 10 205 166 80 758 461 187 8 75 256 68 107 21 31 12 53 18 170 600 0 500 1000 1500 2000 2500 3000 acústica aeronáutica; astronáutica agricultura alquimia anatomía antropología arquitectura arqueología arte astrología astronomía biología bioquímica botánica carpintería cinegética cinematografía comercio construcción cronología Danza deportes derecho ecdótica ecología economía electricidad; electrónica equitación escultura esgrima estadística filosofía física fisiología fonética; fonología fotografía genética geografía geología geometría gramática heráldica historia imprenta informática ingeniería lingüística marina matemáticas mecánica medicina meteorología métrica militar mitología música náutica numismática óptica ortografía parapsicologia pintura psicología psiquiatria química religión retórica sociología teoría literaria tauromaquia teatro tecnologías telecomunicación topografía transportes televisión urbanismo veterinaria zoología 16 79 417 3 13 1 1 816 54 15 7 132 38 410 64 29 413 30 60 266 22 7 706 8 3494 17 69 4 3 10 15 129 120 105 340 47 13 10 28 5 513 4 1 12 505 9 517 36 14 25 9 40 9 152 2 358 151 29 8 48 24 84 39 18 11 2 10 47 4 235 7 667 94 1110 10 212 180 51 124 120 6 13 4 267 471 359 1 495 139 9 5 4 823 2 1 43 2 110 201 5 785 848 436 156 99 1 3 3 544 163 2430 3 64 148 56 4 890 254 64 1057 1397 6 91 21 6 77 14 5 32 8 10 5 41 206 92 1 5 718 2 3 6 332 177 1371 1 1489 142 18 6 1 8 3 8 94 8 146 234 198 41 13 145 3 5 369 28 1 8 3 163 53 47 3203 26 0 500 1000 1500 2000 2500 3000 3500 4000 acústica… aeronáutica… agricultura… agronomia… álgebra… alveitaria… alvenaria… anatomia… antropologia… apicultura… aritmética… armaria… arqueologia… arquitetura… artilharia… astrologia… astronomia… astronáutica… automobilismo… belas-artes… bacteriologia… balística… biologia… bioquímica… botânica… carniçaria… carpintaria… cartografia… cerâmica… chapelaria… cinegética… cinema, cinematografia… cirurgia… comércio… construção… contabilidade… correios… cosmologia… cristalografia… cronologia… culinária… curtumes… cutelaria… desenho… desporto… diplomática… direito… direito canónico… direito civil… direito comercial… direito fiscal… direito internacional… direito marítimo… eclesiástico… ecologia… economia… eletricidade… eletrotécnica… embriologia… encadernação… engenharia… equitação… escolar… escultura… esgrima… estática… ética… etnografia… etnologia… farmácia… filologia… filosofia… finanças… física… física atómica… fisiologia… fonética… fortificação… fotografia… futebol… genealogia… genética… geodesia… geografia… geologia… geometria… ginástica… gramática… heráldica… hidráulica… hidrografia… higiene… história… história natural… história política… histologia… horticultura… indústria… informática… jardinagem… jurídico, jurisprudência… linguística… literatura… liturgia… lógica… magnetismo… marcenaria… marítima… matemática… mecânica… medicina… medicina legal… metalurgia… meteorologia… métrica… metrologia… militar… mineralogia… mitologia… música… náutica… neurologia… numismática… ocultismo… olaria… óptica… ourivesaria… paleografia… paleontologia… parasitologia… patologia… pecuária… pedagogia… pesca, pescaria… pintura… pirotecnia… piscicultura… política… pré-história… psicanálise… psicofisiologia… psicologia… psiquiatria… química… radiologia… religião… retórica… salinas… sapataria… sericultura… serralharia… siderurgia, siderotecnia… silvicultura… sociologia… tanoaria… tauromaquia… teatro… tecnologia… telecomunicações… telegrafia… teologia… teosofia… teratologia… tipografia… topografia… transportes… trigonometria… venatório… veterinária… vinificação… viticultura… zoologia… zootecnia… Keywords: Lexicography, lexical database, dictionary, domain labelling, term, Terminology. Introduction The production processes of lexicographic work are changing to adapt to the digital era. To respond to the needs (users, interoperability purposes, data structure, consistency), standards have the advantage to facilitate the interoperability. Portuguese Academy Dictionary (DLP) The only complete print edition of a Portuguese Academy Dictionary was published in 2001. With the purpose of enlarging the dictionary, correcting imprecisions and mistakes, and making the dictionary available on the web, we created a database and developed a back-end system to manage the revision, creation and maintenance of the lexicographic service interface. Through a process of reverse engineering, the PDF was converted into XML files annotated using Text Encoding Initiative (TEI) guidelines. The resulting files were imported into an XML aware database (eXist) and are currently under review. To create, edit, delete and validate entries, we are using Oxygen XML Editor. Though not publicly available yet, the lexical data are annotated with elements (attributes) that are suitable for NLP purposes. Simões, Alberto, José João Almeida, & Ana Salgado (2016). “Building a Dictionary using XML Technology”. In 5th Symposium on Languages, Applications and Technologies. Goals To analyse the macro and microstructure of the Diccionario de la lengua española (Real Academia Española) and compare it with the DLP, especially to rethink the theoretical and methodological methods of the lexicographical tradition regarding usage labels that identify specialized lexicon To combine lexicographical and terminological methodologies To create a methodology for the selection, description and/or definition of linguistic and conceptual information (ISO TC37) To improve the macro and microstructures of lexicographical resources To increase the quality of lexical databases Research issues How do lexicographers include terms in Iberian Academy Dictionaries? What is the percentage of terms in Iberian Academy Dictionaries? What do domain labels tell the user? Do they indicate a technical word? Are they useful? Which terms can you find in Iberian Academy Dictionaries? Are they all marked? How can you represent conceptual information? DLP (domain labelling) Proposal for an Iberian agreement Proposal for an agreement between academies leading to a systematic labelling of the specialized use of a particular entry/meaning and its representation. In the digital age, a common and open line is needed to optimize the domain labelling process and its encoding in Iberian Academy Dictionaries, which are seen as structured, organized, standardized, accessible, and interoperable lexical databases. DLE (domain labelling)

IBERIAN ACADEMY DICTIONARIES AS LEXICAL RESOURCES · IBERIAN ACADEMY DICTIONARIES AS LEXICAL RESOURCES Ana Salgado, NOVA CLUNL 2019, Lisbon, Portugal Domain labelling in Iberian Academy

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: IBERIAN ACADEMY DICTIONARIES AS LEXICAL RESOURCES · IBERIAN ACADEMY DICTIONARIES AS LEXICAL RESOURCES Ana Salgado, NOVA CLUNL 2019, Lisbon, Portugal Domain labelling in Iberian Academy

IBERIAN ACADEMY DICTIONARIES AS LEXICAL RESOURCESAna Salgado, NOVA CLUNL 2019, Lisbon, Portugal

Domain labelling in Iberian AcademyDictionaries• How many domains are represented? What are the most common ones?

Are they different? What are the most frequent ones?

• Is there a systematic label usage?

• Are there any recent domains that do not appear?

• What are the criteria for term selection and treatment?

Connect wiht us!

https://www.facebook.com/clunl

ELEXIS Visiting grants: Call 1Researcher: Ana SalgadoHosting institution: ELEXIS-ES: Real Academia Española (RAE, Spain), Centro de Estudios de la RAE y de la Asociación de Academias de la Lengua EspañolaInstitutional affiliation: NOVA CLUNL, Centro de Linguística da Universidade NOVA de Lisboa, PortugalCurrent position: PhD student in TerminologyPeriod of stay: November 11-30, 2018

1715

1388

67230

71527516

249870

112811

93160

84137

209

3641588

2421

300219

9247

10413

502832

69294

34

81373

901904

297

329208

260347

1819436

2882404

84267

71740

559

1682

210

205166

80758

461187

875

25668107

21311253

18170

600

0 500 1000 1500 2000 2500 3000

acústicaaeronáutica; astronáutica

agriculturaalquimia

anatomíaantropologíaarquitecturaarqueología

arteastrología

astronomíabiología

bioquímicabotánica

carpinteríacinegética

cinematografíacomercio

construccióncronología

Danzadeportesderechoecdóticaecología

economíaelectricidad; electrónica

equitaciónescultura

esgrimaestadística

filosofíafísica

fisiologíafonética; fonología

fotografíagenética

geografíageología

geometríagramáticaheráldica

historiaimprenta

informáticaingenieríalingüística

marinamatemáticas

mecánicamedicina

meteorologíamétrica

militarmitología

músicanáutica

numismáticaóptica

ortografíaparapsicologia

pinturapsicología

psiquiatriaquímicareligiónretórica

sociologíateoría literaria

tauromaquiateatro

tecnologíastelecomunicación

topografíatransportes

televisiónurbanismoveterinaria

zoología

1679

41731311

81654

157

13238

41064

29413

3060

266227

7068

349417

69431015

129120105

34047

1310285

5134112

5059

517361425940

9152

2358

1512984824

8439181121047

4235

7667

941110

10212

18051

124120

6134

267471

3591

495139

954

8232143

2110

2015

785848

436156

99133

544163

24303

64148

564

890254

641057

13976

91216

7714532810541

20692

15

718236

332177

13711

1489142

1861838

948

146234

19841

13145

35

36928

183

1635347

320326

0 500 1000 1500 2000 2500 3000 3500 4000

acústica…aeronáutica…

agricultura…agronomia…

álgebra…alveitaria…alvenaria…anatomia…

antropologia…apicultura…aritmética…

armaria…arqueologia…arquitetura…

artilharia…astrologia…

astronomia…astronáutica…

automobilismo…belas-artes…

bacteriologia…balística…biologia…

bioquímica…botânica…

carniçaria…carpintaria…cartografia…

cerâmica…chapelaria…cinegética…

cinema, cinematografia…cirurgia…

comércio…construção…

contabilidade…correios…

cosmologia…cristalografia…

cronologia…culinária…

curtumes…cutelaria…desenho…desporto…

diplomática…direito…

direito canónico…direito civil…

direito comercial…direito fiscal…

direito internacional…direito marítimo…

eclesiástico…ecologia…

economia…eletricidade…

eletrotécnica…embriologia…

encadernação…engenharia…

equitação…escolar…

escultura…esgrima…estática…

ética…etnografia…etnologia…farmácia…filologia…filosofia…finanças…

física…física atómica…

fisiologia…fonética…

fortificação…fotografia…

futebol…genealogia…

genética…geodesia…geografia…geologia…

geometria…ginástica…

gramática…heráldica…

hidráulica…hidrografia…

higiene…história…

história natural…história política…

histologia…horticultura…

indústria…informática…jardinagem…

jurídico, jurisprudência…linguística…literatura…

liturgia…lógica…

magnetismo…marcenaria…

marítima…matemática…

mecânica…medicina…

medicina legal…metalurgia…

meteorologia…métrica…

metrologia…militar…

mineralogia…mitologia…

música…náutica…

neurologia…numismática…

ocultismo…olaria…

óptica…ourivesaria…paleografia…

paleontologia…parasitologia…

patologia…pecuária…

pedagogia…pesca, pescaria…

pintura…pirotecnia…

piscicultura…política…

pré-história…psicanálise…

psicofisiologia…psicologia…

psiquiatria…química…

radiologia…religião…retórica…

salinas…sapataria…

sericultura…serralharia…

siderurgia, siderotecnia…silvicultura…sociologia…

tanoaria…tauromaquia…

teatro…tecnologia…

telecomunicações…telegrafia…

teologia…teosofia…

teratologia…tipografia…

topografia…transportes…

trigonometria…venatório…

veterinária…vinificação…viticultura…

zoologia…zootecnia…

Keywords: Lexicography, lexical database, dictionary, domain labelling, term, Terminology.

IntroductionThe production processes of lexicographic work are changing to adapt to the digital era.To respond to the needs (users, interoperability purposes, data structure, consistency), standards have the advantage to facilitate the interoperability.

Portuguese Academy Dictionary (DLP)The only complete print edition of a Portuguese Academy Dictionary was published in 2001. With the purpose of enlarging the dictionary, correcting imprecisions and mistakes, and making the dictionary available on the web, we created a database and developed a back-end system to manage the revision, creation and maintenance of the lexicographic service interface. Through a process of reverse engineering, the PDF was converted into XML files annotated using Text Encoding Initiative (TEI) guidelines. The resulting files were imported into an XML aware database (eXist) and are currently under review. To create, edit, delete and validate entries, we are using Oxygen XML Editor. Though not publicly available yet, the lexical data are annotated with elements (attributes) that are suitable for NLP purposes.Simões, Alberto, José João Almeida, & Ana Salgado (2016). “Building a Dictionary using XML Technology”. In 5th Symposium on Languages, Applications and Technologies.

Goals• To analyse the macro and microstructure of the Diccionario de la lengua española (Real Academia

Española) and compare it with the DLP, especially to rethink the theoretical and methodological methods of the lexicographical tradition regarding usage labels that identify specialized lexicon

• To combine lexicographical and terminological methodologies• To create a methodology for the selection, description and/or definition of linguistic and conceptual

information (ISO TC37)• To improve the macro and microstructures of lexicographical resources• To increase the quality of lexical databases

Research issues• How do lexicographers include terms in Iberian Academy Dictionaries?• What is the percentage of terms in Iberian Academy Dictionaries?• What do domain labels tell the user? Do they indicate a technical word? Are they useful?• Which terms can you find in Iberian Academy Dictionaries? Are they all marked?• How can you represent conceptual information?

DLP (domain labelling)

Proposal for an Iberian agreement• Proposal for an agreement between academies leading to a systematic

labelling of the specialized use of a particular entry/meaning and its representation.

• In the digital age, a common and open line is needed to optimize the domain labelling process and its encoding in Iberian Academy Dictionaries, which are seen as structured, organized, standardized, accessible, and interoperable lexical databases.

DLE (domain labelling)