33
Information retrieval Tecniche d’information retrieval Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Eugenio Omodeo Universit` a degli Studi di Trieste. Trieste, 06.11.2018 Eugenio Omodeo Universit` a degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA1

Information retrieval e motori di ricerca ( in riferimento a … · 2018. 11. 6. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Eugenio Omodeo

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

  • Information retrievalTecniche d’information retrieval

    Information retrieval e motori di ricerca( in riferimento a [SA15, Cap. 4] )

    Eugenio OmodeoUniversità degli Studi di Trieste.

    Trieste, 06.11.2018

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    Sunto

    Cominciamo con la discussione dei sistemi d’ information retrieval

    prima di passare ai motori di ricerca .1

    1Per i secondi, una comparazione tecnica è piuttosoto difficile dato che ognimotore realizza le proprie funzionalità mediante tecniche proprietarie i cuidettagli non vengono resi pubblici.Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    Visione di un importante inventore del ?? sec.

    Much needs to occur, however, between the collection ofdata and observations, the extraction of parallel materialfrom the existing record, and the final insertion of newmaterial into the general body of the common record.

    For mature thought there is no mechanical substitute.

    But creative thought and essentially repetitive thoughtare very different things. For the latter there are, andmay be, powerful mechanical aids.

    [· · · ]

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    Visione di un importante inventore del XX sec.

    We seem to be worse off than before —for we can enormously extend the record; yet even in itspresent bulk we can hardly consult it.

    This is a much larger matter than merely the extractionof data for the purposes of scientific research; it involvesthe entire process by which man profits by his inheritanceof acquired knowledge. The prime action of use isselection , and here we are halting indeed. There may be

    millions of fine thoughts, and the account of theexperience on which they are based, all encased withinstone walls of acceptable architectural form; but if thescholar can get at only one a week by diligent search, hissyntheses are not likely to keep up with the current scene.

    [· · · ]Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    Visione di un importante inventore del XX sec.

    Selection, in this broad sense, is a stone adze in thehands of a cabinetmaker.

    Vannevar Bush, As we may think, 1945

    La selezione, in questo senso,è un’ascia di pietra nelle manidi un ebanista.

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    Il memex di Vannevar Bush

    Vannevar Bush ( Everett, 11 mar 1890 — Belmont, 30 giu 1974 )è stato uno scienziato e tecnologo statunitense. Fu un inventore ecoordinò le attività di ricerca degli USA durante la seconda guerramondiale; precursore degli ipertesti, è stato l’ideologo del supportodelle attività di ricerca ai fini del potenziamento delle democrazie.

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    Vannevar Bush ( 1890–1974 )

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    Scaletta

    Information retrievalMansioniOrganizzazione interna

    Tecniche d’information retrievalTecniche di analisiTecniche d’indicizzazione e di matching

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    MansioniOrganizzazione interna

    Cos’è l’Information retrieval ?

    I sistemi d’Information Retrieval sono stati concepiticon l’obiettivo di mediare l’interazione fra l’utente e ilcorpus di documenti che egli desidera interrogare.

    Tipicamente, l’utente sottopone al sistema una o piúchiavi di ricerca ( keyword ) che denotano il suobisogno d’informazione e il sistema, consultando ilcorpus, restituisce l’insieme di documenti che sonovalutati come pertinenti rispetto alla richiesta.

    [CFM09, pag. 66]

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    MansioniOrganizzazione interna

    Efficacia ed efficienza nell’Information retrieval

    I L’utente desidera una risposta accurata alla propria richiesta,cioè costituita da tutti i documenti del corpus che sonorilevanti.

    I Desidera anche un basso tempo d’attesa tra la formulazionedella richiesta e la ricezione del risultato.

    Questi obiettivi sono tra loro contrastanti

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    MansioniOrganizzazione interna

    Rappresentazione di sintesi nell’Information retrieval

    I sistemi d’I.R. eseguono operazioni di manipolazione del corpusper estrarne una rappresentazione di sintesi del contenutoinformativo di ciascun documento e memorizzare talirappresentazioni in modo efficiente.

    L’utente non ha accesso diretto alle rappres. di sintesi

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    MansioniOrganizzazione interna

    Esempio d’interrogazione ad un sistema d’I.R.

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    MansioniOrganizzazione interna

    Articolazione di un sistema d’Information retrieval

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    MansioniOrganizzazione interna

    Analisi e indicizzazione

    Le componenti di analisi e indicizzazione

    I vengono invocate allorché nuovi documenti vengono aggiuntial sistema e

    I alimentano l’archivio dei documenti.

    Analisi: Elabora il documento originale memorizzandolo nelcorpus e producendone una rappresentazione disintesi.

    Indicizzazione: Ricava dalla rappresentazione di sintesi un indice,i.e. una struttura di accesso efficiente ai documenti.

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    MansioniOrganizzazione interna

    Corpus e indice

    Almeno a livello concettuale, i due oggetti sono ben diversi:

    Corpus: è l’insieme dei documentiinseriti nel sistema;

    Indice: è una struttura basata sullerappresentazioni di sintesi.

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    MansioniOrganizzazione interna

    Interrogazione e matching

    Interrogazione: È la componente cui l’utente somministra leproprie richieste: essa le prepara per la ricerca.

    Matching: È la componente che confronta ogni richiesta conl’indice, per individuare nel corpus i documentirilevanti: il risultato.

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    MansioniOrganizzazione interna

    Thesaurus

    Le fasi di analisi e di matching potranno far uso di un thesaurus edi altre tecniche linguistiche per migliorare l’efficacia delreperimento.

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

    http://www.vv-verbavolant.it/portfolios/thesaurus-treccani/http://robweb.altervista.org/grammatica/17_10.htm

  • Information retrievalTecniche d’information retrieval

    MansioniOrganizzazione interna

    Un’applicaz. di tecniche d’I.R. ( Si pensi pure a Spotlight )

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    Tecniche di analisiTecniche d’indicizzazione e di matching

    Eliminazione delle stop word

    Si tratta di particelle ( articoli, preposiz., congiunz. ) la cuieliminazione non ha importanti ripercussioni sul contenutoinformativo, ma può ridurre significativamente ( anchedimezzandola ) la lunghezza del testo.

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    Tecniche di analisiTecniche d’indicizzazione e di matching

    Eliminazione delle stop word Esempio dell’italiano

    http:

    //snowball.tartarus.org/algorithms/italian/stop.txt

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

    http://snowball.tartarus.org/algorithms/italian/stop.txthttp://snowball.tartarus.org/algorithms/italian/stop.txt

  • Information retrievalTecniche d’information retrieval

    Tecniche di analisiTecniche d’indicizzazione e di matching

    Estrazione di stem

    Il dizionario italiano HOEPLI definisce tema e lemma,2 nel sensodella morfologia, rispettivam. cośı:

    5 LING Parte fissa della parola, alla quale si salda ladesinenza producendo la flessione

    3 LING Ognuna delle voci definite da un dizionario oda un’enciclopedia

    Il processo di stemming consiste nel sostituire tutte le formederivate con il tema corrispondente, per favorire l’estrazione diparole ad elevata rappresentatività.

    2Spesso useremo ‘termine’ per ‘lemma’.Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    Tecniche di analisiTecniche d’indicizzazione e di matching

    Combinazione di desinenze Esempio

    http://snowball.tartarus.org/texts/romance.html

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

    http://snowball.tartarus.org/texts/romance.html

  • Information retrievalTecniche d’information retrieval

    Tecniche di analisiTecniche d’indicizzazione e di matching

    Abolizione di desinenze Esempi

    http://snowball.tartarus.org/texts/romance.html

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

    http://snowball.tartarus.org/texts/romance.html

  • Information retrievalTecniche d’information retrieval

    Tecniche di analisiTecniche d’indicizzazione e di matching

    Estrazione di stem Esempio lingue romanze

    http://snowball.tartarus.org/texts/romance.html

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

    http://snowball.tartarus.org/texts/romance.html

  • Information retrievalTecniche d’information retrieval

    Tecniche di analisiTecniche d’indicizzazione e di matching

    Scelta di termini ad elevato potere discriminante

    Queste tecniche mirano a estrarre i termini che megliorappresentano il contenuto informativo di un documento. Se ilcorpus è

    eterogeneo, i.e. costituito da documenti riguardanti argomentivari, verranno selezionati come significativi ,all’interno di ciascun documento, quei termini che vioccorrono con maggiore frequenza.

    omogeneo: verranno selezionati come distintivi di ciascundocumento quei termini che ricorrono frequentementein un documento ma raramente nel corpus.

    In alternativa. . .

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    Tecniche di analisiTecniche d’indicizzazione e di matching

    . . . ci si rifarà a un thesaurus

    Un thesaurus correla termini mediante relazioni di

    I sinoniḿıa, come ad es. ( pressappoco ) morsel / mouthful

    I iperoniḿıa / iponiḿıa, come ad es. computer / elaboratore

    I meroniḿıa / oloniḿıa, come ad es. dito / mano, ruota / auto

    I ecc.

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    Tecniche di analisiTecniche d’indicizzazione e di matching

    Formulazione manuale / automatica di un thesaurus

    Utilizzando strumenti quali http://wordnet.princeton.edu, unutente esperto potrà associare manualmente a ogni documentouna lista di termini che ne rappresentano il contenuto informativo.

    In alternativa, ci si potrà avvalere di strumenti automatici dinatura statistica.

    In un approccio combinato, si procederà dai risultati automatici auna convalida / revisione manuale.

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

    http://wordnet.princeton.edu

  • Information retrievalTecniche d’information retrieval

    Tecniche di analisiTecniche d’indicizzazione e di matching

    Strumenti lessicali utili nella formulazione di un thesaurus

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

    http://www.ilc.cnr.it/iwndb_php/

  • Information retrievalTecniche d’information retrieval

    Tecniche di analisiTecniche d’indicizzazione e di matching

    Indicizzazione

    L’indice di un corpus è costituito da coppie:

    ( `i , Ri ) dove ogni `i è un termine e

    il corrispondente Ri riferisce l’insieme dei documenticollegati a `i .

    Certe tecniche memorizzano negli Ri oltre ai documenti riferitianche:

    I la frequenza con cui `i occorre all’interno di Ri ;

    I in quali parti di ciascun documento figura `i ;

    I la vicinanza nello stesso documento di altri termini.

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    Tecniche di analisiTecniche d’indicizzazione e di matching

    Matching

    L’interfaccia d’interrogazione permette all’utente finale di formulareuna lista di chiavi di ricerca ( usualmente in congiunzione ).

    Perché un documento sia restituito nel risultato, il sistema devetrovare almeno un termine che combaci con ciascuna chiave.

    Tramite tecniche preparatorie dette di normalizzazione verràcostruita una lista di termini di cui effettuare la ricerca.

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    Tecniche di analisiTecniche d’indicizzazione e di matching

    Matching esatto o per similarità ?

    La ricerca di matching esatto è piú semplice, ma in genere menosoddisfacente; quella per similarità può basarsi su tecniche

    sintattiche, quali la distanza di editing che fa apparire cittadelladistante 3 da cittadina, perché basta cambiare trecaratteri per ottenere una dall’altra.

    linguistiche, che tengono conto di eventuali relazioniterminologiche fra quanto cercato e quantoesaminato. Ad es:

    I città e centro urbano hanno somiglianzamassima, in quanto sinonimi;

    I metropoli e centro urbano sono molto vicini, inquanto correlati da iper-/ipo-nimia.

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    Tecniche di analisiTecniche d’indicizzazione e di matching

    Il risultato di un’interrogazione

    Il risultato sarà composto da una lista di documenti con unvalore di rilevanza associato a ciascuna voce della lista.

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

  • Information retrievalTecniche d’information retrieval

    Tecniche di analisiTecniche d’indicizzazione e di matching

    Riferimenti bibliografici

    Silvana Castano, Alfio Ferrara, and Stefano Montanelli.Informazione, conoscenza e web — per le scienze umanistiche.Pearson / Addison Wesley, 2009.

    Lawrence Snyder and Alessandro Amoroso.FLUENCY –Conoscere e usare l’informatica.Pearson Italia, Milano-Torino, 5a edition, 2015.

    Eugenio Omodeo Università degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

    Information retrievalMansioniOrganizzazione interna

    Tecniche d'information retrievalTecniche di analisiTecniche d'indicizzazione e di matching