The Árni Magnússon Institute for Icelandic Studies Department of Lexicography
Introduction to our lexicography
Kristín Bjarnadóttir [email protected]
24. November 2014
Today’s Topics • A brief introduc.on to the Department of Lexicography
• Orðabók Háskólans (1944-‐2006) • The Árni Magnússon Ins.tute for Icelandic Studies 2006
• A liOle bit of history: The WriOen Language Archive • Prac.cal problems in Icelandic lexicography
• Varia.on: word forms and spelling • Sub-‐categoriza.on frames • Lemma.za.on
• NT tools and methods
Main research topics at the department
• Research on language and usage – mainly from the
point of lexicography (word studies, phrases, vocabulary)
• Lexicography and lexicology – theore.cal and prac.cal
• Language technology – produc.on of language resources and NT tools
The Wri:en Language Archive
(Ritmálssafn) A classic collec.on of 2.5 million dic.onary slips, from
print. (1st ed. New Testament: 1540) • Work started in 1944 • The Scope: The period 1540 – 1980/85 • Approx. 700,000 headwords • Tradi.onal dic.onary excerp.on, by reading • The slip:
• Headword (normalized spelling) • Gramma.cal category • Cita.on (original spelling) • Source
hOp://www.arnastofnun.is/page/gagnasofn_ritmalssafn
Specific Icelandic Problems in Lexicography
• The size of the language community – presently
330.000 speakers
• A long literary tradiGon – Reykjaholtsmáldagi (1150 AD), to the present
• Complex morphology – and rela.vely free word order
• Limited resources
• But: The cohesion of the language is notable …
• Example from Fjölnir, 19th Cà
• Hypothesis: Icelandic spelling through the language history is regular enough to use spell checking for normaliza.on to the modern language
• By normaliza.on, all spelling variants can be found
• By lemma.za.on, all inflec.onal variants can be found
– The by-‐product is coping with the users spelling mistakes!
Historical difference in spelling
02
stendur eíns mikjið á bakji annarra í örlcgheítum til þessarar skiptunar, sem er vesturamtsins góðu innbúa eígjin eígn, og hvar um hókjiti höndlar, eíns og hins vegar sumir í hinni gjeístlegu röð."
X. í̂bftnnt'ncj m'b (gtnet;gba gjelntr <3amantefin ocj úU ftéft'n of S'óhjii ^jottalt'n, Dr. Medic. et Chirurgiæ, tttnefnbum S3ataIlt'on§ Chirurg otb .£>an§ ^cítícjnar .Konúncjð oorð eicjt'n berlibðflocf. S3tbet)ar .ftlauftri, 1839. 8. 28 blss.
XI. £ji5bafmámunir, famt Gnnilíu Sfauntr, af ©ícutrbi 83reíbfj0rb. 2ínnar drðfloffur. S3iber,ar £Iaujtri, 1839. 121. 144 blss.
Jietta nafn er niikjils til of stutt, því bókjin ætti reíndar að heífa: "látilffdrlegur smntiningur af málleísum, bögumœlum, dönskuslettum, hortittum, klaufalegum orða-tiltækj'um, smekkleisum og öðrum þess húttar smámunum, — sumt frjálst og sumu stolið af Siguroi Breíðfj'úrð." Hjcr eru fáei'n dæmi af hvurju firir sig.
Málleísur og Bögumœli. lanbttcettur, l l 6 (í fleírtölu); intum rann, 23' (firir intu rann/) ; altjlíife/ 23 1 0 (firir ölteítin); be^ti nábum blt'bum, 2 8 ' 3 ; j<$r, 291 2 (firir jó); jgorcjap Cjata, 23T (firir "Borgaragata"); bjógum, 291T (firir hjuggum); fycettulecjra (firir hættulegar) leit þab Út, 29*; (þetta bögrr-mæli er líka dönskusletta); unn, 33 1 9 (firir umii); ípjfi fréttir(?),59fi; í>lbi, 612 0 ; £lm (um sólina), 399; h)ab,3020; oarba, 402 (firir vamd); ffilja frá einl)t>urium, 649 (firir skjilj-ast^við eínhvum); þefib, 6921 (firir þakjið); láta I)cerbum manni tycjbir einar ab íajíi bella, 42*—5; ercji bucjar, 41 T ; cebur, 491S (í fleírtölu); gunbvmarbijj, 5 0 u ; unnt', 5513
(firir ann) ; VtfCjöcettur, 181 3 - 1 4 (í þolanda), og fram eptir því; (það er ekkji kjin, þó höfundurinn sje að fornirða og hafa við innanum þetta, t. a. m.: fcr eg, 3 3 1 1 ' 1 2 ; fíúa, 18 1 4 , og þviumlíkt.)
' ) Firri "ársflokkurinn" cr í sæmilega stóru átta blaða broti. lltif'iiniliii'inn Iiefii- ætlast til að báðir ársflokkarnir irði bundnir saman.
Facsimile
OCR
Corrected original spelling
Corrected modern spelling
Jietta nafn er niikjils til of stutt, því bókjin ætti reíndar að heífa: "látilffdrlegur smntiningur af málleísum, bögumœlum, dönskuslettum, hortittum, klaufalegum orða- tiltækj'um, smekkleisum og öðrum þess húttar smámunum,
Þetta nafn er mikjils til of stutt, því bókjin ætti reíndar að heíta: “lítilfjörlegur samtíníngur af málleísum, bögumælum, dönskuslettum, hortittum, klaufalegum orðatiltækjum, smekkleísum og öðrum þess háttar smámunum, — sumt frjálst j Þetta nafn er mikils til of stutt, því bókin ætti reyndar að heita: “lítilfjörlegur samtíningur af málleysum, bögumælum, dönskuslettum, hortittum, klaufalegum orðatiltækjum, smekkleysum og öðrum þess háttar smámunum, — sumt frjálst j
• A mul.tude of word forms: BÍN: à fara, verb
– Nouns: up to 16 inflec.onal forms
– Adjec.ves: up to 120 inflec.onal forms
– Verbs: up to 107 inflec.onal forms
– bin.arnastofnun.is
Complex morphology
ræna + accusa.ve: ‘rob someone’
Hann rændi konuna ‘He robbed the woman’
ræna + da.ve: ‘to kidnap someone’
Hann rændi konunni He kidnapped the woman
à snara.is (1, ræna), snara.is (2, fara),
onp (fara)
Sub-‐categorizaGon frames
Ar.ficial headwords, ‘real language’ headwords
draumórr ! " draumórar
Single lemmas, tradi.onal dic.onary entries
Subcategoriza.on
Phrases
Idioms
…
LemmaGzaGon, headwords
Skrambi: Spell checking Normaliza.on OCR correc.on
Nefnir: Lemma.za.on Kvistur: Compound Analysis
These tools are works in progress!
LT Tools