Upload
alexandre-duarte
View
599
Download
3
Tags:
Embed Size (px)
Citation preview
Introduc)on to Informa)on Retrieval
1 1 1
Aula 10: Feedback de Relevância e Expansão de
Consulta Alexandre Duarte
1
Ordenação e Recuperação de Dados
2
Resumo da aula de hoje
§ Feedback de relevância interaGvo: melhorar a qualidade dos resultados iniciais informando o sistema sobre a relevância dos resultados retornados
§ Expansão de consulta: melhorar os resultados das consultas adicionando sinônimos e termos relacionados à consulta
2
Agenda
❶ MoGvação
❷ Feedback de relevância: Básico
❸ Feedback de relevância: Detalhes
❹ Expansão de consultas
3
Agenda
❶ MoGvação
❷ Feedback de relevância: Básico
❸ Feedback de relevância: Detalhes
❹ Expansão de consultas
4
5
Como podemos melhorar o recall em uma busca?
§ Principal assunto de hoje: duas formas de aumentar o recall: feedback de relevância e expansão de consulta
§ Como exemplo cosidere a consulta q: [aeronave] . . . § . . . e o documento d contendo avião, mas não contendo “aeronave”
§ Um sistema simples não retornará d para a consulta q. § Mesmo que d seja o documento mais relevante para q! § Queremos mudar isso: § Retornar documentos relevantes mesmo que não haja nenhum termo em comum com a consulta original
5
6
Opção para melhorar o recall
§ Local: Fazer uma análise “local”, sob demanda da consulta do usuário § Principal método: feedback de relevância § Parte 1
§ Global: Fazer uma análise global para produzir um thesaurus § Usar thesaurus para expansão de consultas § Parte 2
6
Agenda
❶ MoGvação
❷ Feedback de relevância: Básico
❸ Feedback de relevância: Detalhes
❹ Expansão de consultas
7
8
Feedback de relevância: Ideia básica
§ O usuário realiza uma consulta simples. § O mecanismo de busca retorna um conjunto de documentos.
§ O usuário marca alguns documentos como relevantes e outros como não relevantes.
§ O mecanismo de busca calcula uma nova representação para a necessidade de informação. Espera-‐se que seja melhor do que a inicial.
§ O mecanismo realiza a mesma busca novamente e retorna novos resultados.
§ Novos resultados têm melhor recall 8
9
Feedback de relevância
§ Isso pode ser feito de forma iteraGva: várias rodadas de feedback.
§ Usaremos o termo recuperação ad hoc para nos referir a recuperação sem feedback de relevância
9
Agenda
❶ MoGvação
❷ Feedback de relevância: Básico
❸ Feedback de relevância: Detalhes
❹ Expansão de consultas
10
11
Conceito chave para feedback de relevância: Centroíde
§ O centroíde é o centro de massa de um conjunto de pontos.
§ Lembre-‐se que representamos documentos como em um espaço.
§ Portanto: podemos calcular o centroide de um conjunto de documentos.
§ Definição: onde D é um conjunto de documentos e é o vetor que uGlizamos para representar um documento d.
11
12
Centroíde: Exemplo
12
13
§ O algoritmo de Rocchio’ implementa o feedback de relevância em um modelo de espaço vetorial.
§ Ele escolhe a consulta que maximiza a seguinte equação
Dr : conjunto de documentos relevantes; Dnr : conjunto de documentos não relevantes
§ ObjeGvo: qopt é o vetor que separa documentos relevantes de documentos não relevantes de forma máxima
13
Algoritmo de Rocchio’
14
Algoritmo de Rocchio’
14
§ O vetor de consulta óGmo é:
§ Movemos o centroíde dos documentos relevantes pela diferença dos dois centroídes.
15
Calcular o vetor de Rocchio’
círculos: documentos relevantes, Xs: documentos não relevantes
15
16
Algoritmo de Rocchio’ ilustrado
: centroíde dos documentos relevantes
16
17
Algoritmo de Rocchio’ ilustrado
não separa os documentos relevantes dos não relevantes. 17
18
Algoritmo de Rocchio’ ilustrado
centroíde dos documentos não relevantes.
18
19
Algoritmo de Rocchio’ ilustrado
19
20
Algoritmo de Rocchio’ ilustrado
-‐ Diferença entre os dois vetores
20
21
Algoritmo de Rocchio’ ilustrado
Adicionar a diferença ao vetor …
21
22
Algoritmo de Rocchio’ ilustrado
… para obter
22
23
Algoritmo de Rocchio’ ilustrado
separa os documentos relevantes dos não relevantes perfeitamente. 23
24
Algoritmo de Rocchio’ ilustrado
separa os documentos relevantes dos não relevantes perfeitamente. 24
25
Terminologia
§ Usamos o nome Rocchio’ para a versão teórica e mais bem ilustrada do algoritmo.
§ A implementação que é atualmente uGlizada na maioria dos casos é denominada SMART – usaremos o nome Rocchio, sem o ‘ , para esta versão.
25
26
Algoritmo de Rocchio 1971 (SMART)
qm: vetor de consulta modificado; q0: vetor de consulta original; Dr e Dnr : conjuntos de documentos sabidamente relevantes e não relevantes; α, β, e γ: pesos
§ A nova consulta se move em direção aos documentos relevantes e para longe dos documentos não relevantes.
§ Tradeoff entre α e β/γ: se temos muitos documentos julgados queremos uma relação β/γ maior.
26
Usado na práGca:
27
Feedback de relevância PosiGvo vs. negaGvo
§ Feedback posiGvo é mais valioso que feedback negaGvo § Por exemplo, setar β = 0.75 e γ = 0.25 para dar maior peso ao feedback posiGvo.
§ Vários sistemas só permitem feedback posiGvo.
27
28
Suposição sobre o feedback de relevância
§ Quando o feedback de relevância consegue melhorar o recall?
§ Suposição S1: O usuário conhece os termos na coleção o suficiente para realizar uma consulta inicial.
§ Suposição S2: Documentos documentos contém termos similares (permiGndo que o usuário possa “pular” de um documento relevante para outro dando o feedback sobre sua relevância).
28
29
Violação de S1
§ Suposição S1: O usuário conhece os termos na coleção o suficiente para realizar uma consulta inicial.
§ Violação: Desvio entre o vocabulário do usuário e o vocabulário da coleção
§ Exemplo: cosmonauta / astronauta
29
30
Violação de S2
§ Suposição S2: Documentos relevantes são similares. § Exemplo de violação: [contradições políGcas governamentais]
§ Vários “protóGpos“ não relacionados § Subsídios para plantadores de tabaco vs. campanhas anG-‐fumo
§ Ajuda a países em desenvolvimento vs. altos impostos de importação para países em desenvolvimento
§ Feedback de relevância para documentos sobre tabaco não vai ajudar na localização de documentos relevantes sobre países em desenvolvimento.
30
31
Avaliação do feedback de relevância
§ UGlizar uma das métricas de avaliação que vimos na úlGma aula, ex., precisão nos top 10: P@10
§ Calcular P@10 para a consulta original q0 § Calcular P@10 para uma consulta q1 modificada pelo feedback de relevância
§ Na maioria dos casos: q1 é espetacularmente melhor que q0!
§ Esta avaliação seria justa?
31
32
Avaliação do feedback de relevância
§ Uma avaliação justa deve considerar a coleção residual: os documentos ainda não julgados pelo usuário.
§ Estudos mostraram que o feedback de relevância pode ser avaliado dessa maneira com sucesso.
§ Conclusão empírica, uma rodada de feedback de relevância é geralmente muito úGl. Uma segunda rodada tem efeito marginal nos resultados.
32
Agenda
❶ MoGvação
❷ Feedback de relevância: Básico
❸ Feedback de relevância: Detalhes
❹ Expansão de consultas
33
34
Expansão de consulta § Expansão de consulta é uma outra forma de aumentar o recall.
§ Usamos a expressão “expansão de consulta global” para nos referir a “métodos globais para expansão de consultas”.
§ Na expansão de consulta global, as consultas são modificadas com base em algum recurso global, de forma independente da consulta.
§ Principal informação uGlizada: (quasi-‐)sinônimos § Uma base da de dados que armazena (quasi-‐)sinônimos é chamado thesaurus.
§ Veremos dois Gpos de thesauri: criados manualmente e criados automaGcamente. 34
35
Exemplo de Expansão de Consulta
35
36
Tipos de feedback do usuário
§ O usuário dá feedback sobre os documentos. § Mais comum em feedback de relevância
§ O usuário dá feedback em palavras ou frases. § Mais comum em expansão de consultas
36
37
Tipos de expansão de consulta
§ Thesaurus manual (manGdo pelos editores, ex., PubMed) § Thesaurus derivado automaGcamente (ex., baseado em esta�sGcas de co-‐ocorrência)
§ Baseado em mineração de logs de equivalência de consultas (comum na web, como no exemplo do carro)
37
38
Expansão de consultas baseada em thesaurus
§ Para cada termo t da consulta, expandir a consulta com palavras listadas no thesaurus como semanGcamente relacionadas a t.
§ Geralmente aumenta o recall § Pode diminuir significaGvamente a precisão § Usado largamente em ferramentas de busca especializadas para ciências e engenharia
§ É muito caro criar e manter um thesaurus manualmente.
38
39
Exemplo de thesaurus manual: PubMed
39
40
Thesaurus gerado automaGcamente § TentaGva de gerar um thesaurus automaGcamente analisando a distribuição das palavras nos documentos
§ Noção fundamental: similaridade entre duas palavras § Definição 1: Duas palavras são similares se co-‐ocorrem com palavras similares. § “carro” ≈ “motocicleta” porque ambas ocorrem com “estrada”, “gasolina” e “placa”, então devem ser similares.
§ Definição 2: Duas palavras são similares se ocorrem em uma dada relação gramaGcal com as mesmas palavras. § Você pode plantar, descascar, comer, etc, maçãs e peras, portanto maçãs e peras devem ser similares.
§ Co-‐ocorrência é mais robusta, relação gramaGcal tem maior precisão. 40