30
Metodi per il trattamento avanzato di documenti

Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Embed Size (px)

Citation preview

Page 1: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Metodi per il trattamento avanzato di documenti

Page 2: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Quanta analisi del testo nei sistemi di accesso a documenti?

•Motori di ricerca, sistemi di IR classici (parole chiave)– Query: un elenco di parole

– Risposta: un elenco di documenti contenenti le parole

•Sistemi di Document Classification & Retrieval– Query: un elenco di parole con operatori booleani

– Risposta:un elenco di documenti pertinenti

•Sistemi di Information Extraction– Query: una specifica formale del “tipo” di informazioni di interesse

– Risposta:una base di dati strutturata

•Sistemi di “Open-Domain” Question Answering– Query: una domanda qualsiasi in linguaggio naturale

– Risposta:una risposta in linguaggio naturale

Page 3: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Influenza delle metodologie di AI nei sistemi di reperimento di

informazioni

Document Classification:NLP(+) Classif. Algorithms (++)

Information Extraction :NLP(++) KR&Inference (+)

Query Answering: NLP (+++) KR&Inference (++)

Page 4: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Metodi di Classificazione di Documenti (1)

• Obiettivo:– A partire da:

• Un insieme di categorie C: {C1,..Cn}(es: articoli di sport, finanza, medicina..) eventualmente strutturate in una tassonomia

• Un insieme di documenti appartenenti a ciascuna classe Di1.. Di

n.(learning set)

– Apprendi un modello formale hi di ciascuna classe tale che hi(Di

k)= Ci(Dik)

Page 5: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Metodi di Classificazione di Documenti (2)

• Metodo– Rappresenta ogni D mediante un vettore di caratteristiche

f(D)=(<w1,p1>…<wm,pm>)

– Le caratteristiche sono coppie parola/peso

– Vari metodi (statistici+NLP) per selezionare le parole rilevanti e determinare i pesi

– Per ogni classe Ci e set di documenti Dik genera insieme di

esempi S: x = <f(Djk), Ci(Dj

k)> doveCi(Djk)=1 se Dj

k Ci

Page 6: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Esempio:Documento (Reuter’s collection): Colombia opened coffee export registrations for April and May with the National Coffee Growers' Federation setting no limit, Gilberto Arango, president of the private exporters' association, said.

Vettore delle caratteristiche: (Colombia, open, coffee, export, registr, April/date, May/date, National_Coffee_Growers’_Federation/org,

president_Gilberto_Arango/pers, exporter_association)

(in realtà il vettore contiene V attributi binari ai, dove V è la taglia del vocabolario, ai=1 se la parola i-esima di V è presente, inoltre gli attributi possono essere “pesati”, come abbiamo visto nei modelli IR classici)

Page 7: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Metodi di Classificazione di Documenti (3)

• Per ogni classe Ci ed ogni set di esempi D si apprende un modello della classe h(Ci)

• Metodi di apprendimento/ classificazione:

– Modello “bag of words” o vector space model h (Ci) è un

cluster di vettori, centr(Ci) è il “centroide” del cluster

– Le parole sono pesate con tf-idf, la similarità fra un nuovo documento e i modelli delle classi è la cosine similarity già vista per IR

Page 8: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Metodi di Classificazione di Documenti (4)

• Metodi di apprendimento/ classificazione (cont’d)– Funzioni lineari

– Alberi di decisione

h(Ci) =a1w1 +a2w2 + .....amwm

pij<valk

pin>valn

Ci

Page 9: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Metodi di Classificazione di Documenti (5)

• Utilizzo di tecniche di NLP per migliorare la classificazione:– Rimpiazzare i termini con la radice (categorizzare, categorizziamo,

categorizzazione)

– Disambiguazione morfologica (es: piano/agg o piano/nome)

– Identificare termini complessi: nomi propri (president Bill Clinton) terminologia ( real estate) espressioni regolari (date, numeri, espressioni monetarie)

– Espansione semantica: rimpiazzare (alcuni) termini con liste di sinonimi o categorie semantiche (es: money (money,currency,monetary system))

Page 10: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Estrazione di Informazioni (1)•Obiettivo: creazione di una rappresentazione strutturata (template) da informazioni “selezionate” estratte da archivi di testiEs: Sam Swartz retired as executive vice president of the famous hot dog manifacturer, Hupplewhite Inc.He will be succeeded by Harry Himmelfarb.

EVENT leave jobPERSON Sam SwartzPOSITION Executive vice presidentCOMPANY Hupplewhite Inc

EVENT start jobPERSON Harry HimmelfarbPOSITION Executive vice presidentCOMPANY Hupplewhite Inc

Page 11: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Architettura di un sistema di IE

Analisi locale

Analisi del discorso

analisi lessicale

riconoscimento di nomi propri

analisi sintattica parziale

pattern matching

analisi di co-referenze

inferenze

generazione di templates

documenti

informazioni

strutturate

Page 12: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Analisi del testo nei sistemi di IE (1)

• Identificazione dei costituenti : il testo viene segmentato in costrituenti sintattici semplici (vp e np) cui possono eventualmente essere aggiunte informazioni morfo-sintattiche

np e1: Sam Swartz vp: retired as np e2:executive vice president of np e3: the famous hot-dog manifacturer np e4: Hupplewhite Inc.. np e5:He vp: will be succeeded by np e6: Harry Himmelfab

Page 13: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Analisi del testo nei sistemi di IE (2)

• Classificazione dei segmenti:

e1 type: person name "Sam Schartz"e2 type: human role "executive vice

president"e3 type: human org "manifacturer"e4 type: company name : "Hupplewhite Inc."e5 type: person "He"e6 type: person name "Harry Himmelfarb"

Page 14: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Analisi del testo nei sistemi di IE (3)•Pattern matching: L'obiettivo di questa fase è di identificare segmenti di frase che siano istanze di segmenti generalizzati, o patterns.

person retires as position

person is succeded by person

….•I patterns possono essere definiti mediante espressioni regolari, equivalenti ad automi a stati finiti.

Page 15: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Analisi del testo nei sistemi di IE (4)•Coreference resolution L'obiettivo di questa fase è identificare istanze dello stesso concetto, espresse con forme superficiali diverse nel testo.Ad esempio, nella frase di esempio fin qui analizzata, i gruppi nominali e1 (Sam Swartz) e e5 (He) si riferiscono alla stessa entità.•I modelli di risoluzione di co-referenze fanno uso di informazioni sintattiche (ad esempio, "He" deve corrispondere ad una persona maschile singolare) e semantiche.

Page 16: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

KR & reasoning nei sistemi di IE (1)•Inferenze e riempimento dei templates L'obiettivo di questa fase è di riempire i templates con porzioni di testo rilevanti.

Perché ciò sia possibile, è necessario effettuare alcune inferenze il cui obiettivo è stabilire un collegamento -altrimenti non evidente - fra patterns e "slot-fillers" dei templates (o valori degli attributi, se si vuol vedere un template come un vettore di attributi)

Page 17: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

KR & reasoning nei sistemi di IE (2)

Ad esempio se il template è:

IN:EVENT leave jobPERSON leave-job personPOSITION leave-job positionCOMPANY leave-job

companyOUT:EVENT start jobPERSON start-job personPOSITION start-job positionCOMPANY start-job

company

e se i patterns catturati sono: Sam Schwartz]person retires as executive vice

president]position

Harry Himmelfarb]person succeeds Sam Schwartz]person

una necessaria regola di inferenza è:leave_job(X-person,Y-position)succeed(Z-

person,X-person) start-job(Z-person, Y-position)

e simmetricamente:start_job(X-person,Y-position)succeed(X-

person,Z-person) leave-job(Z-person, Y-position)

Page 18: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Valutazione dei Sistemi di IE• Uno dei vantaggi dei sistemi di IE consiste nell'esistenza di

procedure consolidate di valutazione, rappresentate dalle Message Understanding Conferences (MUC)

• http://www.muc.saic.com/proceedings/muc_7_toc.html

• Queste conferenze sono in realtà "gare" di prestazione di sistemi di IE, in cui le prestazioni vengono valutate sulla base di:

- Test set comuni- Indici di prestazione pre-stabiliti dagli organizzatori- Procedure di valutazione comuni, preventivamente

predisposte

Page 19: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Sistemi di “Open-Domain” Question Answering

•Obiettivo: rispondere in LN a domande in LN di argomento qualsiasi

Es (le prime due da TREC-9 http://trec.nist.gov/pubs.html):What tourist attractions are there in Reims?

When was the Brandeburg gate in Berlin built?

I would like to know if ACE has in its DB candidates in the financial area, with 10 years of experience and fluency in English?

•La tecnologia dei sistemi di QA è ancora in fase di definizione/assestamento

Page 20: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Architettura del “miglior” sistema: “FALCON”, della SMU (1)

Knowledge-based QuestionProcessing

Shallow Document Processing

Knowledge-based Answer generation

Page 21: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Fase 1: analisi e trasformazione della domanda

Page 22: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Alcuni metodi utilizzati in questa fase in FALCON

•Identificare riformulazioni di domande simili e mantenere una “cache” di risposte (es: What are tourist attractions in Reims? What can one see in Reims?)

•Dettagliata tassonomia delle Domande( e tipi di Risposta) (es. di “top” classes: DATE, TIME, REASON, MANNER…), collegata con una tassonomia generale (WordNet)

•Stabilire collegamenti fra i termini nella domanda e tassonomia (es: What is the wingspan of a condor?(wingspan QUANTITY)

•Rappresentazione semantica e logica della domanda

QUANTITY

wingspan(x)condor(y) QUANTITY(x)

Wingspan condor

Page 23: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Esempio:

Question: why did David Koresh ask the FBI for a word processor?

Logic representation:

[REASON(x)&David(y)&Koresh(y)&ask(e,x,y,z,p)&FBI(z)&processor(p)&word(p)]

Semantic expansion:

ask ask, enquire, request,make a request

word processor word processor , word processing system

Page 24: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Fase 2: Estrazione di porzioni rilevanti dai documenti

ClassifiedDocuments

DocumentRetrieval Engine

AnswerExtraction

ExpandededQueries

Answer 1

Answer m

Page 25: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Metodi utilizzati in questa fase in FALCON

• Espansione della query:– Espansioni morfologiche: invent:

inventORinventorOR invent– Espansioni lessicali e semantiche (killer:

assassinORkiller, like: likeORprefer)

Page 26: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Fase 3: generazione della risposta

Page 27: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Metodi usati in questa fase in FALCON

• Generazione di una forma semantica per il testo della risposta

• Dapprima tenta di unificare domanda e risposta • IF fail, applica espansioni lessicali finché l’unificazione

non ha successo• Infine, genera una prova abduttiva dalla risposta alla

domanda, eventualmente applicando ulteriori espansioni semantiche.

Page 28: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Esempio•Testo estratto: “Over the week-end Mr Koresh sent a request for a word processor to enable him to record his revelations”

•Forma logica ottenuta:Mr(71)&Koresh(71)&word(72)&processor(72)&&revelations(74)&record(73 74 75)&enable(75 73 76)&request(76)&sent(77 76 78 71)&weekend(78)&_PERSON(71)&DATE(78)

•Esempio di dimostrazione ( e assiomi utilizzati):

Proving:David(1)&Koresh(1)&word(2)&processor(2)&FBI(4)&ask(34215)&_REASON(5)&_PERSON(1)&ORG(4)

unifying axioms: David(1):=Mr(1)..

ask(12345):=sent(1674)&request(6) _ORG(1):=FBI(1)…..

•Se la dimostrazione fallisce, alcune regole di abduzione consentono di unificare costanti che sono differenti ma che sono argomenti dello stesso predicato

Page 29: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Performance di FALCON a TREC-9

• 79% risposte corrette• Il secondo miglior sistema intorno al 55%• I moduli di abduzione e espansione semantica hanno

avuto un ruolo determinante nel 25% dei casi• I progettisti di FALCON sostengono che il ruolo di una

“open-domain linguistic ontology such as WordNet” è stato determinante

Page 30: Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici

Per concludere (sulle tecniche di elaborazione dei testi)

• L’uso di tecniche di AI-intensive è fortemente crescente nei sistemi di accesso a informazioni testuali

• Comunità Europea e DARPA spingono progetti orientati al reperimento, manipolazione, presentazione di contenuti sulla rete (e-content, Semantic web., Open-domain question answering..)

• La disponibilità di “open-domain” Ontologies e linguaggi di

formattazione “intermedia” di documenti (XML etc.) potrà avere un forte impatto sulle prestazioni dei sistemi di DC/IE/QA