Feedback de relevância e expansão de consulta

Introduc)on to Informa)on Retrieval

1 1 1

Aula 10: Feedback de Relevância e Expansão de

Consulta Alexandre Duarte

[email protected]

1

Ordenação e Recuperação de Dados

2

Resumo da aula de hoje

§  Feedback de relevância interaGvo: melhorar a qualidade dos resultados iniciais informando o sistema sobre a relevância dos resultados retornados

§  Expansão de consulta: melhorar os resultados das consultas adicionando sinônimos e termos relacionados à consulta

2

Agenda

❶  MoGvação

❷  Feedback de relevância: Básico

❸  Feedback de relevância: Detalhes

❹  Expansão de consultas

3

Agenda

❶  MoGvação




4

5

Como podemos melhorar o recall em uma busca?

§  Principal assunto de hoje: duas formas de aumentar o recall: feedback de relevância e expansão de consulta

§  Como exemplo cosidere a consulta q: [aeronave] . . . §  . . . e o documento d contendo avião, mas não contendo “aeronave”

§  Um sistema simples não retornará d para a consulta q. §  Mesmo que d seja o documento mais relevante para q! §  Queremos mudar isso: §  Retornar documentos relevantes mesmo que não haja nenhum termo em comum com a consulta original

5

6

Opção para melhorar o recall

§  Local: Fazer uma análise “local”, sob demanda da consulta do usuário §  Principal método: feedback de relevância §  Parte 1

§  Global: Fazer uma análise global para produzir um thesaurus §  Usar thesaurus para expansão de consultas §  Parte 2

6

Agenda

❶  MoGvação




7

8

Feedback de relevância: Ideia básica

§  O usuário realiza uma consulta simples. §  O mecanismo de busca retorna um conjunto de documentos.

§  O usuário marca alguns documentos como relevantes e outros como não relevantes.

§  O mecanismo de busca calcula uma nova representação para a necessidade de informação. Espera-‐se que seja melhor do que a inicial.

§  O mecanismo realiza a mesma busca novamente e retorna novos resultados.

§  Novos resultados têm melhor recall 8

9

Feedback de relevância

§  Isso pode ser feito de forma iteraGva: várias rodadas de feedback.

§  Usaremos o termo recuperação ad hoc para nos referir a recuperação sem feedback de relevância

9

Agenda

❶  MoGvação




10

11

Conceito chave para feedback de relevância: Centroíde

§  O centroíde é o centro de massa de um conjunto de pontos.

§  Lembre-‐se que representamos documentos como em um espaço.

§  Portanto: podemos calcular o centroide de um conjunto de documentos.

§  Definição: onde D é um conjunto de documentos e é o vetor que uGlizamos para representar um documento d.

11

12

Centroíde: Exemplo

12

13

§  O algoritmo de Rocchio’ implementa o feedback de relevância em um modelo de espaço vetorial.

§  Ele escolhe a consulta que maximiza a seguinte equação

Dr : conjunto de documentos relevantes; Dnr : conjunto de documentos não relevantes

§  ObjeGvo: qopt é o vetor que separa documentos relevantes de documentos não relevantes de forma máxima

13

Algoritmo de Rocchio’

14

Algoritmo de Rocchio’

14

§  O vetor de consulta óGmo é:

§  Movemos o centroíde dos documentos relevantes pela diferença dos dois centroídes.

15

Calcular o vetor de Rocchio’

círculos: documentos relevantes, Xs: documentos não relevantes

15

16

Algoritmo de Rocchio’ ilustrado

: centroíde dos documentos relevantes

16

17


não separa os documentos relevantes dos não relevantes. 17

18


centroíde dos documentos não relevantes.

18

19


19

20


-‐ Diferença entre os dois vetores

20

21


Adicionar a diferença ao vetor …

21

22


… para obter

22

23


separa os documentos relevantes dos não relevantes perfeitamente. 23

24


separa os documentos relevantes dos não relevantes perfeitamente. 24

25

Terminologia

§  Usamos o nome Rocchio’ para a versão teórica e mais bem ilustrada do algoritmo.

§  A implementação que é atualmente uGlizada na maioria dos casos é denominada SMART – usaremos o nome Rocchio, sem o ‘ , para esta versão.

25

26

Algoritmo de Rocchio 1971 (SMART)

qm: vetor de consulta modificado; q0: vetor de consulta original; Dr e Dnr : conjuntos de documentos sabidamente relevantes e não relevantes; α, β, e γ: pesos

§  A nova consulta se move em direção aos documentos relevantes e para longe dos documentos não relevantes.

§  Tradeoff entre α e β/γ: se temos muitos documentos julgados queremos uma relação β/γ maior.

26

Usado na práGca:

27

Feedback de relevância PosiGvo vs. negaGvo

§  Feedback posiGvo é mais valioso que feedback negaGvo §  Por exemplo, setar β = 0.75 e γ = 0.25 para dar maior peso ao feedback posiGvo.

§  Vários sistemas só permitem feedback posiGvo.

27

28

Suposição sobre o feedback de relevância

§  Quando o feedback de relevância consegue melhorar o recall?

§  Suposição S1: O usuário conhece os termos na coleção o suficiente para realizar uma consulta inicial.

§  Suposição S2: Documentos documentos contém termos similares (permiGndo que o usuário possa “pular” de um documento relevante para outro dando o feedback sobre sua relevância).

28

29

Violação de S1

§  Suposição S1: O usuário conhece os termos na coleção o suficiente para realizar uma consulta inicial.

§  Violação: Desvio entre o vocabulário do usuário e o vocabulário da coleção

§  Exemplo: cosmonauta / astronauta

29

30

Violação de S2

§  Suposição S2: Documentos relevantes são similares. §  Exemplo de violação: [contradições políGcas governamentais]

§  Vários “protóGpos“ não relacionados §  Subsídios para plantadores de tabaco vs. campanhas anG-‐fumo

§  Ajuda a países em desenvolvimento vs. altos impostos de importação para países em desenvolvimento

§  Feedback de relevância para documentos sobre tabaco não vai ajudar na localização de documentos relevantes sobre países em desenvolvimento.

30

31

Avaliação do feedback de relevância

§  UGlizar uma das métricas de avaliação que vimos na úlGma aula, ex., precisão nos top 10: P@10

§  Calcular P@10 para a consulta original q0 §  Calcular P@10 para uma consulta q1 modificada pelo feedback de relevância

§  Na maioria dos casos: q1 é espetacularmente melhor que q0!

§  Esta avaliação seria justa?

31

32

Avaliação do feedback de relevância

§  Uma avaliação justa deve considerar a coleção residual: os documentos ainda não julgados pelo usuário.

§  Estudos mostraram que o feedback de relevância pode ser avaliado dessa maneira com sucesso.

§  Conclusão empírica, uma rodada de feedback de relevância é geralmente muito úGl. Uma segunda rodada tem efeito marginal nos resultados.

32

Agenda

❶  MoGvação




33

34

Expansão de consulta §  Expansão de consulta é uma outra forma de aumentar o recall.

§  Usamos a expressão “expansão de consulta global” para nos referir a “métodos globais para expansão de consultas”.

§  Na expansão de consulta global, as consultas são modificadas com base em algum recurso global, de forma independente da consulta.

§  Principal informação uGlizada: (quasi-‐)sinônimos §  Uma base da de dados que armazena (quasi-‐)sinônimos é chamado thesaurus.

§  Veremos dois Gpos de thesauri: criados manualmente e criados automaGcamente. 34

35

Exemplo de Expansão de Consulta

35

36

Tipos de feedback do usuário

§  O usuário dá feedback sobre os documentos. § Mais comum em feedback de relevância

§  O usuário dá feedback em palavras ou frases. § Mais comum em expansão de consultas

36

37

Tipos de expansão de consulta

§  Thesaurus manual (manGdo pelos editores, ex., PubMed) §  Thesaurus derivado automaGcamente (ex., baseado em esta�sGcas de co-‐ocorrência)

§  Baseado em mineração de logs de equivalência de consultas (comum na web, como no exemplo do carro)

37

38

Expansão de consultas baseada em thesaurus

§  Para cada termo t da consulta, expandir a consulta com palavras listadas no thesaurus como semanGcamente relacionadas a t.

§  Geralmente aumenta o recall §  Pode diminuir significaGvamente a precisão §  Usado largamente em ferramentas de busca especializadas para ciências e engenharia

§  É muito caro criar e manter um thesaurus manualmente.

38

39

Exemplo de thesaurus manual: PubMed

39

40

Thesaurus gerado automaGcamente §  TentaGva de gerar um thesaurus automaGcamente analisando a distribuição das palavras nos documentos

§  Noção fundamental: similaridade entre duas palavras §  Definição 1: Duas palavras são similares se co-‐ocorrem com palavras similares. §  “carro” ≈ “motocicleta” porque ambas ocorrem com “estrada”, “gasolina” e “placa”, então devem ser similares.

§  Definição 2: Duas palavras são similares se ocorrem em uma dada relação gramaGcal com as mesmas palavras. §  Você pode plantar, descascar, comer, etc, maçãs e peras, portanto maçãs e peras devem ser similares.

§  Co-‐ocorrência é mais robusta, relação gramaGcal tem maior precisão. 40

Documents

Feedback de relevância e expansão de consulta