54
INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

Embed Size (px)

Citation preview

Page 1: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER

Contesti e Concordanze

Collocazioni

Dizionari elettronici

Page 2: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

CITAZIONI

You taught me language, and my profit on’t

Is, I know not how to curse: the red plague rid you

For LEARNING me your language

Citazione da The Tempest in Johnson’s Dictionary

Page 3: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

Due usi di contesti nella lessicografia

Per determinare conoscenze lessicali nel senso discusso nelle due lezioni precedenti Classe grammaticale, accezioni CONCORDANZE

Per identificare aspetti ‘collocazionali’ COLLOCAZIONI

Page 4: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

CONCORDANZE

In Pinocchio, la forma BUONO occorre 11 volte.

Domande che si pone un lessicografo: Quali parti del discorso? Quali sensi? Usati in quali contesti?

Soluzione: le CONCORDANZE

Page 5: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

CONCORDANZE

1   1,    1    |    uomini, sono stati e sono o repubbliche o principati. È principati 2   2,    1    |    indrieto el ragionare delle repubbliche, perché altra volta ne ragionai 3   5,    2    |  assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore 4   8,    1    |    dove si trattassi delle repubbliche. Questi sono quando, o per 5  12,    3   |     vede a' principi soli e repubbliche armate fare progressi grandissimi, 6  13,    6   | Alessandro Magno, e come molte repubbliche e principi si sono armati 7  15,    1   |       molti si sono immaginati repubbliche e principati che non si

CONCORDANZA = forma + contesto

Page 6: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

STRUMENTI INFORMATICI PER LA RICERCA DICONCORDANZE

Esistono oggi moltissimi strumenti che permettono di eseguire il tipo di analisi appena visto automaticamente

Esempi: WORDSMITH distribuito da ICAME (a

pagamento) TextSTAT (gratis) WORDSKETCH (a pagamento)

Page 7: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

TextSTAT

Sviluppato dal Dipartimento di Linguistica Olandese della Freie Universitaet Berlin

Permette di estrarre FREQUENZE e CONCORDANZE da ‘CORPORA’ che includono testi in ASCII, HTML, e WORD

Si puo’ scaricare da: http://www.niederlandistik.fu-berlin.de/textstat/software-en.html

Page 8: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

TextSTAT

Page 9: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

CONCORDANZE: FORME DIVERSE DI CONTESTO

e le colonne e i simulacri e l’ERMEch’abbella agli occhi tuoi quest’ERMO lido,Bruto per l’atra notte in ERMA sede, ERMA terrena sede! Oh quanto affannoSempre caro mi fu quest’ERMO colle,l’ERMA terra contemplo, e di fanciullade’ tuoi steli abbellir l’ERME contrade

ERME Torri, I 2ERMO lido, IV 4ERMA sede, VI 11 ERMA terrena sede, VIII 36ERMO colle, XII 1L’ERMA terra contemplo, XVI 63ERME contrade, XXXIV 8

Page 10: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

COMBINAZIONI DI PAROLE E COLLOCAZIONI

“You can tell a word from the company it keeps” (Firth, 1957)

La competenza lessicale non consiste solo di conoscenza sintattica, morfologica, e semantica

Ma anche di conoscenza in parte arbitraria su quali parole si combinano di preferenza

Page 11: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

Restrizioni sulle combinazioni di parole

Ordine *Il maglione che righe a indossi, *dormire il letto

Restrizioni concettuali ?? Il letto e’ corso a casa

Restrizioni lessicali Francese: crescere = grandir (persone), pousser

(piante) Tedesco: mangiare = essen (persone), fressen

(animali)

Page 12: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

Restrizioni lessicali

The tall boy (*the high boy) Mantenere un segreto (? Conservare

un segreto)

Page 13: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

COLLOCAZIONI

In lessicografia si distingue tradizionalmente tra `normali’ restrizioni lessicali e COLLOCAZIONI

Page 14: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

Collocazioni

Pioggia battente (?? Pioggia intensa) Stendere un documento (? Scrivere un

documento) Lanciare un messaggio

Page 15: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

Intuizione:

In queste combinazioni di parole, stendere, battente, lanciare (i COLLOCATI) sono ‘scelti’ dalle BASI (documento, pioggia, messaggio) per esprimere un significato che non hanno quando usati con altre parole ‘Meaning by collocation’, Firth 1957

Page 16: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

Definizione di collocazione

Una collocazione e’una combinazione di parole soggetta ad una restrizione lessicale per la scelta di una parola (il COLLOCATO) che e’ condizionata da una seconda parola (la BASE)

Page 17: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

Importanza delle collocazioni

A livello avanzato di conoscenza della lingua straniera, le collocazioni fanno la differenza Italiano lavarsi i denti =

Inglese brush one’s teeth (spazzolare) = Tedesco sich Die Zaehne putzen (pulirsi)

Page 18: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

VERBI SUPPORTO (= WEAK VERBS)

Un caso particolare di collocazioni della forma VERBO + NOME in cui la base (il nome) determina il significato del collocato (il verbo) Prendere una decisione,

dare spiegazioni, fare una telefonata, essere in dubbio, avere paura

Il verbo ha un significato generico e spesso contribuisce solo il tempo

Page 19: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

LOCUZIONI od ESPRESSIONI IDIOMATICHE

Differenza fondamentale dalle costruzioni precedenti: il significato non e’ costruito dai costituenti

alzare il gomitotagliare la cordavuotare il saccomosca bianca

Page 20: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

RICERCA AUTOMATICA DI COLLOCAZIONI

Il termine ‘collocazione’ e’ usato in linguistica computazionale in senso piu’ lato per indicare tanto le restrizioni lessicali quanto le collocazioni vere e proprie quanto gli idiomi

Page 21: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

Dalla definizione alla ricerca

Non e’ facile definire il termine ‘collocazione’ in modo da poterne automatizzare la ricerca. Si trovano definizioni Frequentista Fraseologica

Criteri: Definizione dev’essere UTILE dal punto di vista

lessicografico Dev’essere FACILE da OPERAZIONALIZZARE

(e possibilmente, automatizzare)

Page 22: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

Definizione frequentista

Una collocazione e’ ogni combinazione di parole che occorre molto di frequente Piu’ precisamente: ogni combinazione

che occorre piu’ frequentemente di quanto non ci si aspettasse per caso

Problema: pura frequenza non implica interesse lessicografico Ho mangiato, va’ a casa, cosa dire

Page 23: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

COLLOCATI PIU’ FREQUENTI DI ATTENZIONE

Page 24: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

Definizioni fraseologiche

Una collocazione e’ una co-occorrenza di parole soggetta ad una regola di restrizione (Melcuk & Wanner) Troppo generale: esistono molti tipi di

restrizioni

Page 25: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

ALLA RICERCA DI COLLOCAZIONI NEI CORPORA

I metodi per la ricerca automatica di collocazioni sfruttano una combinazione di informazioni: FREQUENZA

Da sola pero’ non e’ sufficiente INFORMAZIONI FRASEOLOGICHE INDICAZIONI DI ‘DISTINZIONE’

Page 26: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

INFORMAZIONI FRASEOLOGICHE

Si utilizzano corpora in cui i token sono stati classificati grammaticalmente

Ci si concentra su alcune combinazioni sintattiche: VERBO NOME NOME AGGETTIVO AGGETTIVO NOME

Page 27: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

Potenziali collocati di documento

Page 28: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

INDICAZIONI DI ‘IMPORTANZA’

Una volta identificate le costruzioni piu’ frequenti, si cerca di stimare quali siano le costruzioni piu’ INTERESSANTI

Le costruzioni interessanti sono quelle che sembrano occorrere con una frequenza maggiore di quella che ci si aspetterebbe

Page 29: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

UN ESEMPIO DI INDICAZIONE DI IMPORTANZA

La MUTUAL INFORMATION e’ una misura che calcola il rapporto tra la PROBABILITA’ di incontrare due parole assieme con la probabilita’ di incontrarle individualmente Intuizione: se la frequenza di occorrenza

di due parole e’ piu’ alta di quel che ci si aspetterebbe, e’ possibile che costituiscano una collocazione

Page 30: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

MUTUAL INFORMATION

Page 31: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

ESEMPIO

Page 32: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

LE PAROLE CON MI PIU’ ALTA NEL WEBBIT

Page 33: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

Scelta tra potenziali candidati

Il passo successivo sarebbe identificare i candidati che Esprimono restrizioni lessicali interessanti Esprimono vere e proprie collocazioni (= in cui il

collocato ha un significato inusuale) Esprimono delle locuzioni (il significato non puo’

essere derivato dai componenti) Questo passo dev’essere fatto a mano!

Page 34: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

Collocazioni e lessicografia

Che differenza c’e’ tra morbido e soffice?

Collocati di morbido: panno, pelle, gomma, burro

Collocati di soffice: erba, sabbia, treccia, superficie

Page 35: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

Letture

Jezek, capitolo 6 Lenci Montemagni e Pirrelli, capitolo 7

Page 36: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

DIZIONARI ELETTRONICI

Page 37: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

Dizionari elettronici

Strumenti informatici usati non piu’ solo per realizzare dizionari cartacei, ma per sviluppare nuovi tipi di dizionari che consentono nuove forme di ricerca

Page 38: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

Tre tipi di dizionari in formato digitale

Versioni digitali di dizionari tradizionali Collins COBUILD, Devoto-Oli, Zingarelli

interattivo Machine Readable Dictionaries

ODE Nuove forme di dizionario

WordNet

Page 39: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

DIZIONARI PER L’INGLESE IN FORMA ELETTRONICA

Oxford English Dictionary, seconda edizione

Oxford Talking Dictionary Concise Oxford Dictionary Learner dictionaries:

Longman Dictionary of Contemporary English (LDOCE)

Collins COBUILD English Dictionary

Page 40: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

CONCISE OXFORD DICTIONARY

RICERCA: Headword search (con *) Hypertext search Full text search (also of phrases / groups)

FILTRI: etymology, phrasal verbs, suffixes

Page 41: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

COLLINS: COBUILD

Disponibile da: http://

www.biblio.unitn.it/BancheDati/BancheDati.asp

Page 42: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

DIZIONARI ELETTRONICI PER L’ITALIANO

Il VELI Zanichelli: CD-ROM Multilingue,

Scaffale Elettronico Devoto-Oli Garzanti: IPA `parla’

Page 43: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

DEVOTO-OLI

Page 44: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

ESEMPIO: DEVOTO-OLI

Ricerca normale Forme di citazione (incrementale)

Hyperlinks Definizione / declinazione Sinonimi / contrari Ricerca avanzata No: pronuncia; citazioni? Limitato: storico

Page 45: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

DEVOTO-OLI: SINONIMI E CONTRARI

Page 46: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

ESEMPIO:ZINGARELLI INTERATTIVO

Page 47: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

MRDS

Distinzione importante: Dizionari consultabili elettronicamente Dizionari MACHINE READABLE Dizionari MACHINE TRACTABLE

Particolarmente utili: dizionari creati per EFL: LDOCE COBUILD

Progetto piu’ ambizioso: ODE in XML

Page 48: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

ESEMPIO: STOCK in LDOCE

0100 a supply (of something) for use: a good stock of food 0200 goods for sale: Some of the stock is being taken without being paid

for 0300 the thick part of a tree trunk 0400 (a) a piece of wood used as a support or handle, as for a gun or

tool (b) the piece which goes across the top of an ANCHOR^1 (1) from side to side

0500 (a) a plant from which CUTTINGs are grown (b) a stem onto which another plant is GRAFTed

0600 a group of animals used for breeding 0700 farm animals usu. cattle; LIVESTOCK 0800 a family line, esp. of the stated character 0900 money lent to a government at a fixed rate of interest 1000 the money (CAPITAL) owned by a company, divided into SHAREs 1100 a type of garden flower with a sweet smell 1200 a liquid made from the juices of meat, bones, etc., used in cooking

…..

Page 49: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

ESEMPIO: ODE su CD-ROM (in XML)

Esempio di database lessicografico in XML (= estremamente machine tractable)

Page 50: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

ODE IN XML: OVERVIEW

Page 51: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

ODE IN XML: FORMATO DELLE ENTRIES

<se>  <cn>815750</cn> - <hg> <hw>stock</hw> </hg> <s1>  <ps>noun</ps> - <s2 num="1">-   <df>the goods or merchandise kept on the premises of a shop or warehouse and available for sale or distribution:</df>   <ex>the store has a very low turnover of stock</ex>   |   </S2> <S2 num=“2”> …… </S2> </S1> <s1> <ps>adjective</ps> …..

Page 52: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

ODE IN XML: INFORMAZIONI NLP

- <nlp>  <sup>merchandise</sup>   <ss>Commerce</ss> - <morph id="01">- <mu sy="NN">  <inf>stock</inf>   <ph>stQk</ph>   </mu>+ <mu sy="NNS">  <ph>stQks</ph>   </mu>  </morph>  </nlp>

Page 53: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

Due dizionari elettronici

ELDIT WordNet

Page 54: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

ELDIT

(Elektronisches Lern(er)wörterbuch Deutsch-Italienisch – Dizionario elettronico per apprendenti italiano-tedesco )

Un esempio di dizionario Per apprendimento Nato in forma elettronica

Lezione su ELDIT: il 9/5