Information retrievalTecniche d’information retrieval
Information retrieval e motori di ricerca( in riferimento a [SA15, Cap. 4] )
Eugenio OmodeoUniversita degli Studi di Trieste.
Trieste, 25.10.2018
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Sunto
Cominciamo con la discussione dei sistemi d’ information retrieval
prima di passare ai motori di ricerca .1
1Per i secondi, una comparazione tecnica e piuttosoto difficile dato che ognimotore realizza le proprie funzionalita mediante tecniche proprietarie i cuidettagli non vengono resi pubblici.Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Visione di un importante inventore del ?? sec.
Much needs to occur, however, between the collection ofdata and observations, the extraction of parallel materialfrom the existing record, and the final insertion of newmaterial into the general body of the common record.
For mature thought there is no mechanical substitute.
But creative thought and essentially repetitive thoughtare very different things. For the latter there are, andmay be, powerful mechanical aids.
[· · · ]
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Visione di un importante inventore del XX sec.
We seem to be worse off than before —for we can enormously extend the record; yet even in itspresent bulk we can hardly consult it.
This is a much larger matter than merely the extractionof data for the purposes of scientific research; it involvesthe entire process by which man profits by his inheritanceof acquired knowledge. The prime action of use isselection , and here we are halting indeed. There may be
millions of fine thoughts, and the account of theexperience on which they are based, all encased withinstone walls of acceptable architectural form; but if thescholar can get at only one a week by diligent search, hissyntheses are not likely to keep up with the current scene.
[· · · ]Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Visione di un importante inventore del XX sec.
Selection, in this broad sense, is a stone adze in thehands of a cabinetmaker.
Vannevar Bush, As we may think, 1945
La selezione, in questo senso,e un’ascia di pietra nelle manidi un ebanista.
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Il memex di Vannevar Bush
Vannevar Bush ( Everett, 11 mar 1890 — Belmont, 30 giu 1974 )e stato uno scienziato e tecnologo statunitense. Fu un inventore ecoordino le attivita di ricerca degli USA durante la seconda guerramondiale; precursore degli ipertesti, e stato l’ideologo del supportodelle attivita di ricerca ai fini del potenziamento delle democrazie.
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Vannevar Bush ( 1890–1974 )
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Scaletta
Information retrievalMansioniOrganizzazione interna
Tecniche d’information retrievalTecniche di analisiTecniche d’indicizzazione e di matching
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
MansioniOrganizzazione interna
Cos’e l’Information retrieval ?
I sistemi d’Information Retrieval sono stati concepiticon l’obiettivo di mediare l’interazione fra l’utente e ilcorpus di documenti che egli desidera interrogare.
Tipicamente, l’utente sottopone al sistema una o piuchiavi di ricerca ( keyword ) che denotano il suobisogno d’informazione e il sistema, consultando ilcorpus, restituisce l’insieme di documenti che sonovalutati come pertinenti rispetto alla richiesta.
[CFM09, pag. 66]
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
MansioniOrganizzazione interna
Efficacia ed efficienza nell’Information retrieval
I L’utente desidera una risposta accurata alla propria richiesta,cioe costituita da tutti i documenti del corpus che sonorilevanti.
I Desidera anche un basso tempo d’attesa tra la formulazionedella richiesta e la ricezione del risultato.
Questi obiettivi sono tra loro contrastanti
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
MansioniOrganizzazione interna
Rappresentazione di sintesi nell’Information retrieval
I sistemi d’I.R. eseguono operazioni di manipolazione del corpusper estrarne una rappresentazione di sintesi del contenutoinformativo di ciascun documento e memorizzare talirappresentazioni in modo efficiente.
L’utente non ha accesso diretto alle rappres. di sintesi
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
MansioniOrganizzazione interna
Esempio d’interrogazione ad un sistema d’I.R.
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
MansioniOrganizzazione interna
Articolazione di un sistema d’Information retrieval
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
MansioniOrganizzazione interna
Analisi e indicizzazione
Le componenti di analisi e indicizzazione
I vengono invocate allorche nuovi documenti vengono aggiuntial sistema e
I alimentano l’archivio dei documenti.
Analisi: Elabora il documento originale memorizzandolo nelcorpus e producendone una rappresentazione disintesi.
Indicizzazione: Ricava dalla rappresentazione di sintesi un indice,i.e. una struttura di accesso efficiente ai documenti.
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
MansioniOrganizzazione interna
Corpus e indice
Almeno a livello concettuale, i due oggetti sono ben diversi:
Corpus: e l’insieme dei documentiinseriti nel sistema;
Indice: e una struttura basata sullerappresentazioni di sintesi.
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
MansioniOrganizzazione interna
Interrogazione e matching
Interrogazione: E la componente cui l’utente somministra leproprie richieste: essa le prepara per la ricerca.
Matching: E la componente che confronta ogni richiesta conl’indice, per individuare nel corpus i documentirilevanti: il risultato.
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
MansioniOrganizzazione interna
Thesaurus
Le fasi di analisi e di matching potranno far uso di un thesaurus edi altre tecniche linguistiche per migliorare l’efficacia delreperimento.
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
MansioniOrganizzazione interna
Un’applicaz. di tecniche d’I.R. ( Si pensi pure a Spotlight )
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Tecniche di analisiTecniche d’indicizzazione e di matching
Eliminazione delle stop word
Si tratta di particelle ( articoli, preposiz., congiunz. ) la cuieliminazione non ha importanti ripercussioni sul contenutoinformativo, ma puo ridurre significativamente ( anchedimezzandola ) la lunghezza del testo.
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Tecniche di analisiTecniche d’indicizzazione e di matching
Eliminazione delle stop word Esempio dell’italiano
http:
//snowball.tartarus.org/algorithms/italian/stop.txt
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Tecniche di analisiTecniche d’indicizzazione e di matching
Estrazione di stem
Il dizionario italiano HOEPLI definisce tema e lemma,2 nel sensodella morfologia, rispettivam. cosı:
5 LING Parte fissa della parola, alla quale si salda ladesinenza producendo la flessione
3 LING Ognuna delle voci definite da un dizionario oda un’enciclopedia
Il processo di stemming consiste nel sostituire tutte le formederivate con il tema corrispondente, per favorire l’estrazione diparole ad elevata rappresentativita.
2Spesso useremo ‘termine’ per ‘lemma’.Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Tecniche di analisiTecniche d’indicizzazione e di matching
Combinazione di desinenze Esempio
http://snowball.tartarus.org/texts/romance.html
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Tecniche di analisiTecniche d’indicizzazione e di matching
Abolizione di desinenze Esempi
http://snowball.tartarus.org/texts/romance.html
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Tecniche di analisiTecniche d’indicizzazione e di matching
Estrazione di stem Esempio lingue romanze
http://snowball.tartarus.org/texts/romance.html
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Tecniche di analisiTecniche d’indicizzazione e di matching
Scelta di termini ad elevato potere discriminante
Queste tecniche mirano a estrarre i termini che megliorappresentano il contenuto informativo di un documento. Se ilcorpus e
eterogeneo, i.e. costituito da documenti riguardanti argomentivari, verranno selezionati come significativi ,all’interno di ciascun documento, quei termini che vioccorrono con maggiore frequenza.
omogeneo: verranno selezionati come distintivi di ciascundocumento quei termini che ricorrono frequentementein un documento ma raramente nel corpus.
In alternativa. . .
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Tecniche di analisiTecniche d’indicizzazione e di matching
. . . ci si rifara a un thesaurus
Un thesaurus correla termini mediante relazioni di
I sinonimıa, come ad es. ( pressappoco ) morsel / mouthful
I iperonimıa / iponimıa, come ad es. computer / elaboratore
I meronimıa / olonimıa, come ad es. dito / mano, ruota / auto
I ecc.
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Tecniche di analisiTecniche d’indicizzazione e di matching
Formulazione manuale / automatica di un thesaurus
Utilizzando strumenti quali http://wordnet.princeton.edu, unutente esperto potra associare manualmente a ogni documentouna lista di termini che ne rappresentano il contenuto informativo.
In alternativa, ci si potra avvalere di strumenti automatici dinatura statistica.
In un approccio combinato, si procedera dai risultati automatici auna convalida / revisione manuale.
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Tecniche di analisiTecniche d’indicizzazione e di matching
Strumenti lessicali utili nella formulazione di un thesaurus
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Tecniche di analisiTecniche d’indicizzazione e di matching
Indicizzazione
L’indice di un corpus e costituito da coppie:
( `i , Ri ) dove ogni `i e un termine e
il corrispondente Ri riferisce l’insieme dei documenticollegati a `i .
Certe tecniche memorizzano negli Ri oltre ai documenti riferitianche:
I la frequenza con cui `i occorre all’interno di Ri ;
I in quali parti di ciascun documento figura `i ;
I la vicinanza nello stesso documento di altri termini.
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Tecniche di analisiTecniche d’indicizzazione e di matching
Matching
L’interfaccia d’interrogazione permette all’utente finale di formulareuna lista di chiavi di ricerca ( usualmente in congiunzione ).
Perche un documento sia restituito nel risultato, il sistema devetrovare almeno un termine che combaci con ciascuna chiave.
Tramite tecniche preparatorie dette di normalizzazione verracostruita una lista di termini di cui effettuare la ricerca.
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Tecniche di analisiTecniche d’indicizzazione e di matching
Matching esatto o per similarita ?
La ricerca di matching esatto e piu semplice, ma in genere menosoddisfacente; quella per similarita puo basarsi su tecniche
sintattiche, quali la distanza di editing che fa apparire cittadelladistante 3 da cittadina, perche basta cambiare trecaratteri per ottenere una dall’altra.
linguistiche, che tengono conto di eventuali relazioniterminologiche fra quanto cercato e quantoesaminato. Ad es:
I citta e centro urbano hanno somiglianzamassima, in quanto sinonimi;
I metropoli e centro urbano sono molto vicini, inquanto correlati da iper-/ipo-nimia.
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Tecniche di analisiTecniche d’indicizzazione e di matching
Il risultato di un’interrogazione
Il risultato sara composto da una lista di documenti con unvalore di rilevanza associato a ciascuna voce della lista.
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )
Information retrievalTecniche d’information retrieval
Tecniche di analisiTecniche d’indicizzazione e di matching
Riferimenti bibliografici
Silvana Castano, Alfio Ferrara, and Stefano Montanelli.Informazione, conoscenza e web — per le scienze umanistiche.Pearson / Addison Wesley, 2009.
Lawrence Snyder and Alessandro Amoroso.FLUENCY –Conoscere e usare l’informatica.Pearson Italia, Milano-Torino, 5a edition, 2015.
Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )