17
The Árni Magnússon Institute for Icelandic Studies Department of Lexicography Introduction to our lexicography Kristín Bjarnadóttir [email protected] 24. November 2014

The Árni Magnússon Institute for Icelandic Studies …©ft'n of S'óhjii ^jottalt'n, Dr. Medic. et Chirurgiæ, tttnefnbum S3ataIlt'on Chirurg otb .£>an ^cítícjnar .Konúncjð

  • Upload
    vophuc

  • View
    218

  • Download
    0

Embed Size (px)

Citation preview

The Árni Magnússon Institute for Icelandic Studies Department of Lexicography

Introduction to our lexicography

Kristín Bjarnadóttir [email protected]

24. November 2014

     

Today’s  Topics                              • A  brief  introduc.on  to  the  Department  of  Lexicography  

•   Orðabók  Háskólans  (1944-­‐2006)  • The  Árni  Magnússon  Ins.tute  for  Icelandic  Studies  2006  

• A  liOle  bit  of  history:    The  WriOen  Language  Archive  • Prac.cal  problems  in  Icelandic  lexicography  

• Varia.on:  word  forms  and  spelling  • Sub-­‐categoriza.on  frames  • Lemma.za.on  

• NT  tools  and  methods  

     

       Main  research  topics    at  the  department  

         • Research  on  language  and  usage  –  mainly  from  the  

point  of  lexicography  (word  studies,  phrases,  vocabulary)  

• Lexicography  and  lexicology  –  theore.cal  and  prac.cal  

• Language  technology  –  produc.on  of  language  resources  and  NT  tools  

                   The  Wri:en  Language  Archive  

(Ritmálssafn)            A  classic  collec.on  of  2.5  million  dic.onary  slips,  from  

print.  (1st  ed.  New  Testament:  1540)    •   Work  started  in  1944  •   The  Scope:  The  period  1540  –  1980/85    •   Approx.  700,000  headwords  •   Tradi.onal  dic.onary  excerp.on,  by  reading  •   The  slip:  

•  Headword  (normalized  spelling)  •  Gramma.cal  category  •  Cita.on  (original  spelling)  •  Source  

 hOp://www.arnastofnun.is/page/gagnasofn_ritmalssafn  

     

Specific  Icelandic  Problems  in  Lexicography  

         • The  size  of  the  language  community  –  presently  

330.000  speakers  

• A  long  literary  tradiGon  –  Reykjaholtsmáldagi  (1150  AD),  to  the  present  

• Complex  morphology  –  and  rela.vely  free  word  order    

• Limited  resources  

• But:  The  cohesion  of  the  language  is  notable  …    

The cohesion of Icelandic spelling: Reykjaholtsmáldagi [The Reykjaholt Charter] AD 1150

22%  

76%  

•  Example  from  Fjölnir,  19th  Cà  

•  Hypothesis:  Icelandic  spelling  through  the  language  history  is  regular  enough  to  use  spell  checking  for  normaliza.on  to  the  modern  language  

•  By  normaliza.on,  all  spelling  variants  can  be  found  

•  By  lemma.za.on,  all  inflec.onal  variants  can  be  found  

–  The  by-­‐product  is  coping  with  the  users  spelling  mistakes!  

Historical  difference  in  spelling  

02

stendur eíns mikjið á bakji annarra í örlcgheítum til þessarar skiptunar, sem er vesturamtsins góðu innbúa eígjin eígn, og hvar um hókjiti höndlar, eíns og hins vegar sumir í hinni gjeístlegu röð."

X. í̂bftnnt'ncj m'b (gtnet;gba gjelntr <3amantefin ocj úU ftéft'n of S'óhjii ^jottalt'n, Dr. Medic. et Chirurgiæ, tttnefnbum S3ataIlt'on§ Chirurg otb .£>an§ ^cítícjnar .Konúncjð oorð eicjt'n berlibðflocf. S3tbet)ar .ftlauftri, 1839. 8. 28 blss.

XI. £ji5bafmámunir, famt Gnnilíu Sfauntr, af ©ícutrbi 83reíbfj0rb. 2ínnar drðfloffur. S3iber,ar £Iaujtri, 1839. 121. 144 blss.

Jietta nafn er niikjils til of stutt, því bókjin ætti reíndar að heífa: "látilffdrlegur smntiningur af málleísum, bögumœlum, dönskuslettum, hortittum, klaufalegum orða-tiltækj'um, smekkleisum og öðrum þess húttar smámunum, — sumt frjálst og sumu stolið af Siguroi Breíðfj'úrð." Hjcr eru fáei'n dæmi af hvurju firir sig.

Málleísur og Bögumœli. lanbttcettur, l l 6 (í fleírtölu); intum rann, 23' (firir intu rann/) ; altjlíife/ 23 1 0 (firir ölteítin); be^ti nábum blt'bum, 2 8 ' 3 ; j<$r, 291 2 (firir jó); jgorcjap Cjata, 23T (firir "Borgaragata"); bjógum, 291T (firir hjuggum); fycettulecjra (firir hættulegar) leit þab Út, 29*; (þetta bögrr-mæli er líka dönskusletta); unn, 33 1 9 (firir umii); ípjfi fréttir(?),59fi; í>lbi, 612 0 ; £lm (um sólina), 399; h)ab,3020; oarba, 402 (firir vamd); ffilja frá einl)t>urium, 649 (firir skjilj-ast^við eínhvum); þefib, 6921 (firir þakjið); láta I)cerbum manni tycjbir einar ab íajíi bella, 42*—5; ercji bucjar, 41 T ; cebur, 491S (í fleírtölu); gunbvmarbijj, 5 0 u ; unnt', 5513

(firir ann) ; VtfCjöcettur, 181 3 - 1 4 (í þolanda), og fram eptir því; (það er ekkji kjin, þó höfundurinn sje að fornirða og hafa við innanum þetta, t. a. m.: fcr eg, 3 3 1 1 ' 1 2 ; fíúa, 18 1 4 , og þviumlíkt.)

' ) Firri "ársflokkurinn" cr í sæmilega stóru átta blaða broti. lltif'iiniliii'inn Iiefii- ætlast til að báðir ársflokkarnir irði bundnir saman.

Facsimile  

OCR  

Corrected  original  spelling  

Corrected  modern  spelling  

Jietta nafn er niikjils til of stutt, því bókjin ætti reíndar að heífa: "látilffdrlegur smntiningur af málleísum, bögumœlum, dönskuslettum, hortittum, klaufalegum orða- tiltækj'um, smekkleisum og öðrum þess húttar smámunum,

Þetta nafn er mikjils til of stutt, því bókjin ætti reíndar að heíta: “lítilfjörlegur samtíníngur af málleísum, bögumælum, dönskuslettum, hortittum, klaufalegum orðatiltækjum, smekkleísum og öðrum þess háttar smámunum, — sumt frjálst j Þetta nafn er mikils til of stutt, því bókin ætti reyndar að heita: “lítilfjörlegur samtíningur af málleysum, bögumælum, dönskuslettum, hortittum, klaufalegum orðatiltækjum, smekkleysum og öðrum þess háttar smámunum, — sumt frjálst j

•  A  mul.tude  of  word  forms:  BÍN:    à  fara,  verb  

– Nouns:  up  to  16  inflec.onal  forms  

– Adjec.ves:    up  to  120  inflec.onal  forms  

– Verbs:  up  to  107  inflec.onal  forms  

– bin.arnastofnun.is  

Complex  morphology  

ræna  +  accusa.ve:                ‘rob  someone’  

Hann  rændi  konuna    ‘He  robbed  the  woman’  

 

ræna  +  da.ve:      ‘to  kidnap  someone’  

Hann  rændi  konunni    He  kidnapped  the  woman  

     

       à  snara.is  (1,  ræna),  snara.is  (2,  fara),    

       onp  (fara)  

 

Sub-­‐categorizaGon  frames  

Ar.ficial  headwords,  ‘real  language’  headwords  

 draumórr    !  "  draumórar  

Single  lemmas,  tradi.onal  dic.onary  entries  

Subcategoriza.on  

Phrases  

Idioms  

…    

LemmaGzaGon,  headwords  

Skrambi:    Spell  checking          Normaliza.on          OCR  correc.on  

 Nefnir:    Lemma.za.on    Kvistur:    Compound  Analysis      

   These  tools  are  works  in  progress!  

LT  Tools  

       

Thank  you  for  your  visit                

KrisVn  BjarnadóZr    

[email protected]  bin.arnastofnun.is  arnastofnun.is