40
1 Aula 10: Feedback de Relevância e Expansão de Consulta Alexandre Duarte [email protected] 1 Ordenação e Recuperação de Dados

Feedback de relevância e expansão de consulta

Embed Size (px)

Citation preview

Page 1: Feedback de relevância e expansão de consulta

Introduc)on  to  Informa)on  Retrieval          

1  1  1  

Aula  10:    Feedback  de  Relevância  e  Expansão  de  

Consulta  Alexandre  Duarte  

[email protected]    

1  

Ordenação  e  Recuperação  de  Dados  

Page 2: Feedback de relevância e expansão de consulta

       

2  

Resumo  da  aula  de  hoje  

§  Feedback  de  relevância  interaGvo:  melhorar  a  qualidade  dos  resultados  iniciais  informando  o  sistema  sobre  a  relevância  dos  resultados  retornados  

§  Expansão  de  consulta:  melhorar  os  resultados  das  consultas  adicionando  sinônimos  e  termos  relacionados  à  consulta  

2  

Page 3: Feedback de relevância e expansão de consulta

       

Agenda  

❶  MoGvação  

❷  Feedback  de  relevância:  Básico  

❸  Feedback  de  relevância:  Detalhes  

❹  Expansão  de  consultas  

3  

Page 4: Feedback de relevância e expansão de consulta

       

Agenda  

❶  MoGvação  

❷  Feedback  de  relevância:  Básico  

❸  Feedback  de  relevância:  Detalhes  

❹  Expansão  de  consultas  

4  

Page 5: Feedback de relevância e expansão de consulta

       

5  

Como  podemos  melhorar  o  recall  em  uma  busca?  

§  Principal  assunto  de  hoje:  duas  formas  de  aumentar  o  recall:  feedback  de  relevância  e  expansão  de  consulta  

§  Como  exemplo  cosidere  a  consulta  q:  [aeronave]  .  .  .  §  .  .  .  e  o  documento  d  contendo  avião,  mas  não  contendo  “aeronave”  

§  Um  sistema  simples  não  retornará  d  para  a  consulta  q.  §  Mesmo  que  d  seja  o  documento  mais  relevante  para  q!  §  Queremos  mudar  isso:  §  Retornar  documentos  relevantes  mesmo  que  não  haja  nenhum  termo  em  comum  com  a  consulta  original  

5  

Page 6: Feedback de relevância e expansão de consulta

       

6  

Opção  para  melhorar  o  recall  

§  Local:  Fazer  uma  análise  “local”,  sob  demanda  da  consulta  do  usuário  §  Principal  método:  feedback  de  relevância  §  Parte  1  

§  Global:  Fazer  uma  análise  global  para  produzir  um  thesaurus  §  Usar  thesaurus  para  expansão  de  consultas  §  Parte  2  

6  

Page 7: Feedback de relevância e expansão de consulta

       

Agenda  

❶  MoGvação  

❷  Feedback  de  relevância:  Básico  

❸  Feedback  de  relevância:  Detalhes  

❹  Expansão  de  consultas  

7  

Page 8: Feedback de relevância e expansão de consulta

       

8  

Feedback  de  relevância:  Ideia  básica  

§  O  usuário  realiza  uma  consulta  simples.  §  O  mecanismo  de  busca  retorna  um  conjunto  de  documentos.  

§  O  usuário  marca  alguns  documentos  como  relevantes  e  outros  como  não  relevantes.  

§  O  mecanismo  de  busca  calcula  uma  nova  representação  para  a  necessidade  de  informação.  Espera-­‐se  que  seja  melhor  do  que  a  inicial.  

§  O  mecanismo  realiza  a  mesma  busca  novamente  e  retorna  novos  resultados.  

§  Novos  resultados  têm  melhor  recall  8  

Page 9: Feedback de relevância e expansão de consulta

       

9  

Feedback  de  relevância  

§  Isso  pode  ser  feito  de  forma  iteraGva:  várias  rodadas  de  feedback.  

§  Usaremos  o  termo  recuperação  ad  hoc  para  nos  referir  a  recuperação  sem  feedback  de  relevância  

9  

Page 10: Feedback de relevância e expansão de consulta

       

Agenda  

❶  MoGvação  

❷  Feedback  de  relevância:  Básico  

❸  Feedback  de  relevância:  Detalhes  

❹  Expansão  de  consultas  

10  

Page 11: Feedback de relevância e expansão de consulta

       

11  

   Conceito  chave  para  feedback  de  relevância:  Centroíde  

§  O  centroíde  é  o  centro  de  massa  de  um  conjunto  de  pontos.  

§  Lembre-­‐se  que  representamos  documentos  como  em  um  espaço.  

§  Portanto:  podemos  calcular  o  centroide  de  um  conjunto  de  documentos.  

§  Definição:      onde  D  é  um  conjunto  de  documentos  e                                          é  o  vetor  que  uGlizamos  para  representar  um  documento  d.  

11  

Page 12: Feedback de relevância e expansão de consulta

       

12  

   Centroíde:  Exemplo  

12  

Page 13: Feedback de relevância e expansão de consulta

       

13  

§  O  algoritmo  de  Rocchio’  implementa  o  feedback  de  relevância  em  um  modelo  de  espaço  vetorial.  

§  Ele  escolhe  a  consulta                    que  maximiza  a  seguinte  equação  

     Dr  :  conjunto  de  documentos  relevantes;  Dnr  :  conjunto  de  documentos  não  relevantes  

§  ObjeGvo:  qopt    é  o  vetor  que  separa  documentos  relevantes  de  documentos  não  relevantes  de  forma  máxima  

13  

Algoritmo  de  Rocchio’  

Page 14: Feedback de relevância e expansão de consulta

       

14  

Algoritmo  de  Rocchio’  

14  

§  O  vetor  de  consulta  óGmo  é:  

 §  Movemos  o  centroíde  dos  documentos  relevantes  pela  diferença  dos  dois  centroídes.  

Page 15: Feedback de relevância e expansão de consulta

       

15  

Calcular  o  vetor  de  Rocchio’  

                                                                                                 

círculos:  documentos  relevantes,  Xs:  documentos  não  relevantes    

15  

Page 16: Feedback de relevância e expansão de consulta

       

16  

Algoritmo  de  Rocchio’  ilustrado  

                             :  centroíde  dos  documentos  relevantes  

16  

Page 17: Feedback de relevância e expansão de consulta

       

17  

Algoritmo de Rocchio’ ilustrado

                               não  separa  os  documentos  relevantes  dos  não  relevantes.   17  

Page 18: Feedback de relevância e expansão de consulta

       

18  

Algoritmo de Rocchio’ ilustrado

                               centroíde  dos  documentos  não  relevantes.  

18  

Page 19: Feedback de relevância e expansão de consulta

       

19  

Algoritmo de Rocchio’ ilustrado

19  

Page 20: Feedback de relevância e expansão de consulta

       

20  

Algoritmo de Rocchio’ ilustrado

                                 -­‐                            Diferença  entre  os  dois  vetores  

20  

Page 21: Feedback de relevância e expansão de consulta

       

21  

Algoritmo de Rocchio’ ilustrado

 Adicionar  a  diferença  ao  vetor                      …  

21  

Page 22: Feedback de relevância e expansão de consulta

       

22  

Algoritmo de Rocchio’ ilustrado

                     …  para  obter    

22  

Page 23: Feedback de relevância e expansão de consulta

       

23  

Algoritmo de Rocchio’ ilustrado

                                   separa  os  documentos  relevantes  dos  não  relevantes  perfeitamente.   23  

Page 24: Feedback de relevância e expansão de consulta

       

24  

Algoritmo de Rocchio’ ilustrado

                                   separa  os  documentos  relevantes  dos  não  relevantes  perfeitamente.   24  

Page 25: Feedback de relevância e expansão de consulta

       

25  

Terminologia  

§  Usamos  o  nome  Rocchio’  para  a  versão  teórica  e  mais  bem  ilustrada  do  algoritmo.  

§  A  implementação  que  é  atualmente  uGlizada  na  maioria  dos  casos  é  denominada  SMART  –  usaremos  o  nome  Rocchio,  sem  o  ‘  ,  para  esta  versão.  

25  

Page 26: Feedback de relevância e expansão de consulta

       

26  

Algoritmo  de  Rocchio  1971  (SMART)  

 qm:  vetor  de  consulta  modificado;  q0:  vetor  de  consulta  original;  Dr  e  Dnr  :  conjuntos  de  documentos  sabidamente  relevantes  e  não  relevantes;  α,  β,  e  γ:  pesos  

§  A  nova  consulta  se  move  em  direção  aos  documentos  relevantes  e  para  longe  dos  documentos  não  relevantes.  

§  Tradeoff  entre  α  e  β/γ:  se  temos  muitos  documentos  julgados  queremos  uma  relação  β/γ  maior.  

26  

Usado  na  práGca:  

Page 27: Feedback de relevância e expansão de consulta

       

27  

Feedback  de  relevância  PosiGvo  vs.  negaGvo  

§  Feedback  posiGvo  é  mais  valioso  que  feedback  negaGvo  §  Por  exemplo,  setar  β  =  0.75  e  γ  =  0.25  para  dar  maior  peso  ao  feedback  posiGvo.  

§  Vários  sistemas  só  permitem  feedback  posiGvo.  

27  

Page 28: Feedback de relevância e expansão de consulta

       

28  

Suposição  sobre  o  feedback  de  relevância  

§  Quando  o  feedback  de  relevância  consegue  melhorar  o  recall?  

§  Suposição  S1:  O  usuário  conhece  os  termos  na  coleção  o  suficiente  para  realizar  uma  consulta  inicial.  

§  Suposição  S2:  Documentos  documentos  contém  termos  similares  (permiGndo  que  o  usuário  possa  “pular”  de  um  documento  relevante  para  outro  dando  o  feedback  sobre  sua  relevância).  

28  

Page 29: Feedback de relevância e expansão de consulta

       

29  

Violação  de  S1  

§  Suposição  S1:  O  usuário  conhece  os  termos  na  coleção  o  suficiente  para  realizar  uma  consulta  inicial.  

§  Violação:  Desvio  entre  o  vocabulário  do  usuário  e  o  vocabulário  da  coleção  

§  Exemplo:  cosmonauta  /  astronauta  

29  

Page 30: Feedback de relevância e expansão de consulta

       

30  

Violação  de  S2  

§  Suposição  S2:  Documentos  relevantes  são  similares.  §  Exemplo  de  violação:  [contradições  políGcas  governamentais]  

§  Vários  “protóGpos“  não  relacionados  §  Subsídios  para  plantadores  de  tabaco  vs.  campanhas  anG-­‐fumo  

§  Ajuda  a  países  em  desenvolvimento  vs.  altos  impostos  de  importação  para  países  em  desenvolvimento  

§  Feedback  de  relevância  para  documentos  sobre  tabaco  não  vai  ajudar  na  localização  de  documentos  relevantes  sobre  países  em  desenvolvimento.  

30  

Page 31: Feedback de relevância e expansão de consulta

       

31  

Avaliação  do  feedback  de  relevância  

§  UGlizar  uma  das  métricas  de  avaliação  que  vimos  na  úlGma  aula,  ex.,  precisão  nos  top  10:  P@10  

§  Calcular  P@10  para  a  consulta  original  q0  §  Calcular  P@10  para  uma  consulta  q1  modificada  pelo  feedback  de  relevância  

§  Na  maioria  dos  casos:  q1  é  espetacularmente  melhor  que  q0!  

§  Esta  avaliação  seria  justa?  

31  

Page 32: Feedback de relevância e expansão de consulta

       

32  

Avaliação  do  feedback  de  relevância  

§  Uma  avaliação  justa  deve  considerar  a  coleção  residual:  os  documentos  ainda  não  julgados  pelo  usuário.  

§  Estudos  mostraram  que  o  feedback  de  relevância  pode  ser  avaliado  dessa  maneira  com  sucesso.  

§  Conclusão  empírica,  uma  rodada  de  feedback  de  relevância  é  geralmente  muito  úGl.  Uma  segunda  rodada  tem  efeito  marginal  nos  resultados.  

32  

Page 33: Feedback de relevância e expansão de consulta

       

Agenda  

❶  MoGvação  

❷  Feedback  de  relevância:  Básico  

❸  Feedback  de  relevância:  Detalhes  

❹  Expansão  de  consultas  

33  

Page 34: Feedback de relevância e expansão de consulta

       

34  

Expansão  de  consulta  §  Expansão  de  consulta  é  uma  outra  forma  de    aumentar  o  recall.  

§  Usamos  a  expressão  “expansão  de  consulta  global”  para  nos  referir  a  “métodos  globais  para  expansão  de  consultas”.  

§  Na  expansão  de  consulta  global,  as  consultas  são  modificadas  com  base  em  algum  recurso  global,  de  forma  independente  da  consulta.  

§  Principal  informação  uGlizada:  (quasi-­‐)sinônimos  §  Uma  base  da  de  dados  que  armazena  (quasi-­‐)sinônimos  é  chamado  thesaurus.  

§  Veremos  dois  Gpos  de  thesauri:  criados  manualmente  e  criados  automaGcamente.   34  

Page 35: Feedback de relevância e expansão de consulta

       

35  

Exemplo  de  Expansão  de  Consulta  

35  

Page 36: Feedback de relevância e expansão de consulta

       

36  

Tipos  de  feedback  do  usuário  

§  O  usuário  dá  feedback  sobre  os  documentos.  § Mais  comum  em  feedback  de  relevância  

§  O  usuário  dá  feedback  em  palavras  ou  frases.  § Mais  comum  em  expansão  de  consultas  

36  

Page 37: Feedback de relevância e expansão de consulta

       

37  

Tipos  de  expansão  de  consulta  

§  Thesaurus  manual  (manGdo  pelos  editores,  ex.,  PubMed)  §  Thesaurus  derivado  automaGcamente  (ex.,  baseado  em  esta�sGcas  de  co-­‐ocorrência)  

§  Baseado  em  mineração  de  logs  de  equivalência  de  consultas  (comum  na  web,  como  no  exemplo  do  carro)  

37  

Page 38: Feedback de relevância e expansão de consulta

       

38  

Expansão  de  consultas  baseada  em  thesaurus  

§  Para  cada  termo  t  da  consulta,  expandir  a  consulta  com  palavras  listadas  no  thesaurus  como  semanGcamente  relacionadas  a  t.  

§  Geralmente  aumenta  o  recall  §  Pode  diminuir  significaGvamente  a  precisão  §  Usado  largamente  em  ferramentas  de  busca  especializadas  para  ciências  e  engenharia  

§  É  muito  caro  criar  e  manter  um  thesaurus  manualmente.  

38  

Page 39: Feedback de relevância e expansão de consulta

       

39  

Exemplo  de  thesaurus  manual:  PubMed  

39  

Page 40: Feedback de relevância e expansão de consulta

       

40  

Thesaurus  gerado  automaGcamente  §  TentaGva  de  gerar  um  thesaurus  automaGcamente  analisando  a  distribuição  das  palavras  nos  documentos  

§  Noção  fundamental:  similaridade  entre  duas  palavras  §  Definição  1:  Duas  palavras  são  similares  se  co-­‐ocorrem  com  palavras  similares.  §  “carro”  ≈  “motocicleta”  porque  ambas  ocorrem  com  “estrada”,  “gasolina”  e  “placa”,  então  devem  ser  similares.  

§  Definição  2:  Duas  palavras  são  similares  se  ocorrem  em  uma  dada  relação  gramaGcal  com  as  mesmas  palavras.  §  Você  pode  plantar,  descascar,  comer,    etc,  maçãs  e  peras,  portanto  maçãs  e  peras  devem  ser  similares.  

§  Co-­‐ocorrência  é  mais  robusta,  relação  gramaGcal  tem  maior  precisão.   40