Feedback de relevância e expansão de consulta

Preview:

Citation preview

Introduc)on  to  Informa)on  Retrieval          

1  1  1  

Aula  10:    Feedback  de  Relevância  e  Expansão  de  

Consulta  Alexandre  Duarte  

alexandre@di.ufpb.br    

1  

Ordenação  e  Recuperação  de  Dados  

       

2  

Resumo  da  aula  de  hoje  

§  Feedback  de  relevância  interaGvo:  melhorar  a  qualidade  dos  resultados  iniciais  informando  o  sistema  sobre  a  relevância  dos  resultados  retornados  

§  Expansão  de  consulta:  melhorar  os  resultados  das  consultas  adicionando  sinônimos  e  termos  relacionados  à  consulta  

2  

       

Agenda  

❶  MoGvação  

❷  Feedback  de  relevância:  Básico  

❸  Feedback  de  relevância:  Detalhes  

❹  Expansão  de  consultas  

3  

       

Agenda  

❶  MoGvação  

❷  Feedback  de  relevância:  Básico  

❸  Feedback  de  relevância:  Detalhes  

❹  Expansão  de  consultas  

4  

       

5  

Como  podemos  melhorar  o  recall  em  uma  busca?  

§  Principal  assunto  de  hoje:  duas  formas  de  aumentar  o  recall:  feedback  de  relevância  e  expansão  de  consulta  

§  Como  exemplo  cosidere  a  consulta  q:  [aeronave]  .  .  .  §  .  .  .  e  o  documento  d  contendo  avião,  mas  não  contendo  “aeronave”  

§  Um  sistema  simples  não  retornará  d  para  a  consulta  q.  §  Mesmo  que  d  seja  o  documento  mais  relevante  para  q!  §  Queremos  mudar  isso:  §  Retornar  documentos  relevantes  mesmo  que  não  haja  nenhum  termo  em  comum  com  a  consulta  original  

5  

       

6  

Opção  para  melhorar  o  recall  

§  Local:  Fazer  uma  análise  “local”,  sob  demanda  da  consulta  do  usuário  §  Principal  método:  feedback  de  relevância  §  Parte  1  

§  Global:  Fazer  uma  análise  global  para  produzir  um  thesaurus  §  Usar  thesaurus  para  expansão  de  consultas  §  Parte  2  

6  

       

Agenda  

❶  MoGvação  

❷  Feedback  de  relevância:  Básico  

❸  Feedback  de  relevância:  Detalhes  

❹  Expansão  de  consultas  

7  

       

8  

Feedback  de  relevância:  Ideia  básica  

§  O  usuário  realiza  uma  consulta  simples.  §  O  mecanismo  de  busca  retorna  um  conjunto  de  documentos.  

§  O  usuário  marca  alguns  documentos  como  relevantes  e  outros  como  não  relevantes.  

§  O  mecanismo  de  busca  calcula  uma  nova  representação  para  a  necessidade  de  informação.  Espera-­‐se  que  seja  melhor  do  que  a  inicial.  

§  O  mecanismo  realiza  a  mesma  busca  novamente  e  retorna  novos  resultados.  

§  Novos  resultados  têm  melhor  recall  8  

       

9  

Feedback  de  relevância  

§  Isso  pode  ser  feito  de  forma  iteraGva:  várias  rodadas  de  feedback.  

§  Usaremos  o  termo  recuperação  ad  hoc  para  nos  referir  a  recuperação  sem  feedback  de  relevância  

9  

       

Agenda  

❶  MoGvação  

❷  Feedback  de  relevância:  Básico  

❸  Feedback  de  relevância:  Detalhes  

❹  Expansão  de  consultas  

10  

       

11  

   Conceito  chave  para  feedback  de  relevância:  Centroíde  

§  O  centroíde  é  o  centro  de  massa  de  um  conjunto  de  pontos.  

§  Lembre-­‐se  que  representamos  documentos  como  em  um  espaço.  

§  Portanto:  podemos  calcular  o  centroide  de  um  conjunto  de  documentos.  

§  Definição:      onde  D  é  um  conjunto  de  documentos  e                                          é  o  vetor  que  uGlizamos  para  representar  um  documento  d.  

11  

       

12  

   Centroíde:  Exemplo  

12  

       

13  

§  O  algoritmo  de  Rocchio’  implementa  o  feedback  de  relevância  em  um  modelo  de  espaço  vetorial.  

§  Ele  escolhe  a  consulta                    que  maximiza  a  seguinte  equação  

     Dr  :  conjunto  de  documentos  relevantes;  Dnr  :  conjunto  de  documentos  não  relevantes  

§  ObjeGvo:  qopt    é  o  vetor  que  separa  documentos  relevantes  de  documentos  não  relevantes  de  forma  máxima  

13  

Algoritmo  de  Rocchio’  

       

14  

Algoritmo  de  Rocchio’  

14  

§  O  vetor  de  consulta  óGmo  é:  

 §  Movemos  o  centroíde  dos  documentos  relevantes  pela  diferença  dos  dois  centroídes.  

       

15  

Calcular  o  vetor  de  Rocchio’  

                                                                                                 

círculos:  documentos  relevantes,  Xs:  documentos  não  relevantes    

15  

       

16  

Algoritmo  de  Rocchio’  ilustrado  

                             :  centroíde  dos  documentos  relevantes  

16  

       

17  

Algoritmo de Rocchio’ ilustrado

                               não  separa  os  documentos  relevantes  dos  não  relevantes.   17  

       

18  

Algoritmo de Rocchio’ ilustrado

                               centroíde  dos  documentos  não  relevantes.  

18  

       

19  

Algoritmo de Rocchio’ ilustrado

19  

       

20  

Algoritmo de Rocchio’ ilustrado

                                 -­‐                            Diferença  entre  os  dois  vetores  

20  

       

21  

Algoritmo de Rocchio’ ilustrado

 Adicionar  a  diferença  ao  vetor                      …  

21  

       

22  

Algoritmo de Rocchio’ ilustrado

                     …  para  obter    

22  

       

23  

Algoritmo de Rocchio’ ilustrado

                                   separa  os  documentos  relevantes  dos  não  relevantes  perfeitamente.   23  

       

24  

Algoritmo de Rocchio’ ilustrado

                                   separa  os  documentos  relevantes  dos  não  relevantes  perfeitamente.   24  

       

25  

Terminologia  

§  Usamos  o  nome  Rocchio’  para  a  versão  teórica  e  mais  bem  ilustrada  do  algoritmo.  

§  A  implementação  que  é  atualmente  uGlizada  na  maioria  dos  casos  é  denominada  SMART  –  usaremos  o  nome  Rocchio,  sem  o  ‘  ,  para  esta  versão.  

25  

       

26  

Algoritmo  de  Rocchio  1971  (SMART)  

 qm:  vetor  de  consulta  modificado;  q0:  vetor  de  consulta  original;  Dr  e  Dnr  :  conjuntos  de  documentos  sabidamente  relevantes  e  não  relevantes;  α,  β,  e  γ:  pesos  

§  A  nova  consulta  se  move  em  direção  aos  documentos  relevantes  e  para  longe  dos  documentos  não  relevantes.  

§  Tradeoff  entre  α  e  β/γ:  se  temos  muitos  documentos  julgados  queremos  uma  relação  β/γ  maior.  

26  

Usado  na  práGca:  

       

27  

Feedback  de  relevância  PosiGvo  vs.  negaGvo  

§  Feedback  posiGvo  é  mais  valioso  que  feedback  negaGvo  §  Por  exemplo,  setar  β  =  0.75  e  γ  =  0.25  para  dar  maior  peso  ao  feedback  posiGvo.  

§  Vários  sistemas  só  permitem  feedback  posiGvo.  

27  

       

28  

Suposição  sobre  o  feedback  de  relevância  

§  Quando  o  feedback  de  relevância  consegue  melhorar  o  recall?  

§  Suposição  S1:  O  usuário  conhece  os  termos  na  coleção  o  suficiente  para  realizar  uma  consulta  inicial.  

§  Suposição  S2:  Documentos  documentos  contém  termos  similares  (permiGndo  que  o  usuário  possa  “pular”  de  um  documento  relevante  para  outro  dando  o  feedback  sobre  sua  relevância).  

28  

       

29  

Violação  de  S1  

§  Suposição  S1:  O  usuário  conhece  os  termos  na  coleção  o  suficiente  para  realizar  uma  consulta  inicial.  

§  Violação:  Desvio  entre  o  vocabulário  do  usuário  e  o  vocabulário  da  coleção  

§  Exemplo:  cosmonauta  /  astronauta  

29  

       

30  

Violação  de  S2  

§  Suposição  S2:  Documentos  relevantes  são  similares.  §  Exemplo  de  violação:  [contradições  políGcas  governamentais]  

§  Vários  “protóGpos“  não  relacionados  §  Subsídios  para  plantadores  de  tabaco  vs.  campanhas  anG-­‐fumo  

§  Ajuda  a  países  em  desenvolvimento  vs.  altos  impostos  de  importação  para  países  em  desenvolvimento  

§  Feedback  de  relevância  para  documentos  sobre  tabaco  não  vai  ajudar  na  localização  de  documentos  relevantes  sobre  países  em  desenvolvimento.  

30  

       

31  

Avaliação  do  feedback  de  relevância  

§  UGlizar  uma  das  métricas  de  avaliação  que  vimos  na  úlGma  aula,  ex.,  precisão  nos  top  10:  P@10  

§  Calcular  P@10  para  a  consulta  original  q0  §  Calcular  P@10  para  uma  consulta  q1  modificada  pelo  feedback  de  relevância  

§  Na  maioria  dos  casos:  q1  é  espetacularmente  melhor  que  q0!  

§  Esta  avaliação  seria  justa?  

31  

       

32  

Avaliação  do  feedback  de  relevância  

§  Uma  avaliação  justa  deve  considerar  a  coleção  residual:  os  documentos  ainda  não  julgados  pelo  usuário.  

§  Estudos  mostraram  que  o  feedback  de  relevância  pode  ser  avaliado  dessa  maneira  com  sucesso.  

§  Conclusão  empírica,  uma  rodada  de  feedback  de  relevância  é  geralmente  muito  úGl.  Uma  segunda  rodada  tem  efeito  marginal  nos  resultados.  

32  

       

Agenda  

❶  MoGvação  

❷  Feedback  de  relevância:  Básico  

❸  Feedback  de  relevância:  Detalhes  

❹  Expansão  de  consultas  

33  

       

34  

Expansão  de  consulta  §  Expansão  de  consulta  é  uma  outra  forma  de    aumentar  o  recall.  

§  Usamos  a  expressão  “expansão  de  consulta  global”  para  nos  referir  a  “métodos  globais  para  expansão  de  consultas”.  

§  Na  expansão  de  consulta  global,  as  consultas  são  modificadas  com  base  em  algum  recurso  global,  de  forma  independente  da  consulta.  

§  Principal  informação  uGlizada:  (quasi-­‐)sinônimos  §  Uma  base  da  de  dados  que  armazena  (quasi-­‐)sinônimos  é  chamado  thesaurus.  

§  Veremos  dois  Gpos  de  thesauri:  criados  manualmente  e  criados  automaGcamente.   34  

       

35  

Exemplo  de  Expansão  de  Consulta  

35  

       

36  

Tipos  de  feedback  do  usuário  

§  O  usuário  dá  feedback  sobre  os  documentos.  § Mais  comum  em  feedback  de  relevância  

§  O  usuário  dá  feedback  em  palavras  ou  frases.  § Mais  comum  em  expansão  de  consultas  

36  

       

37  

Tipos  de  expansão  de  consulta  

§  Thesaurus  manual  (manGdo  pelos  editores,  ex.,  PubMed)  §  Thesaurus  derivado  automaGcamente  (ex.,  baseado  em  esta�sGcas  de  co-­‐ocorrência)  

§  Baseado  em  mineração  de  logs  de  equivalência  de  consultas  (comum  na  web,  como  no  exemplo  do  carro)  

37  

       

38  

Expansão  de  consultas  baseada  em  thesaurus  

§  Para  cada  termo  t  da  consulta,  expandir  a  consulta  com  palavras  listadas  no  thesaurus  como  semanGcamente  relacionadas  a  t.  

§  Geralmente  aumenta  o  recall  §  Pode  diminuir  significaGvamente  a  precisão  §  Usado  largamente  em  ferramentas  de  busca  especializadas  para  ciências  e  engenharia  

§  É  muito  caro  criar  e  manter  um  thesaurus  manualmente.  

38  

       

39  

Exemplo  de  thesaurus  manual:  PubMed  

39  

       

40  

Thesaurus  gerado  automaGcamente  §  TentaGva  de  gerar  um  thesaurus  automaGcamente  analisando  a  distribuição  das  palavras  nos  documentos  

§  Noção  fundamental:  similaridade  entre  duas  palavras  §  Definição  1:  Duas  palavras  são  similares  se  co-­‐ocorrem  com  palavras  similares.  §  “carro”  ≈  “motocicleta”  porque  ambas  ocorrem  com  “estrada”,  “gasolina”  e  “placa”,  então  devem  ser  similares.  

§  Definição  2:  Duas  palavras  são  similares  se  ocorrem  em  uma  dada  relação  gramaGcal  com  as  mesmas  palavras.  §  Você  pode  plantar,  descascar,  comer,    etc,  maçãs  e  peras,  portanto  maçãs  e  peras  devem  ser  similares.  

§  Co-­‐ocorrência  é  mais  robusta,  relação  gramaGcal  tem  maior  precisão.   40