Upload
internet
View
104
Download
2
Tags:
Embed Size (px)
Citation preview
CS276AText Retrieval and Mining
Lecture 12
[Utilizando slides de Viktor Lavrenko e Chengxiang Zhai]
Recaptulando
Modelos probabilísticos: Classificação de Texto Naïve Bayes Introdução à Classificação de Texto Modelos Probabilísticos de Linguagem Categorização de texto Naïve Bayes
Hoje
Abordagem Modelo de Linguagem a RI Modelo básico de geração Modelos alternativos
RI probabilístico padrão
consulta
d1
d2
dn
…
Necesside de Informação
coleção de documentos
correspondênciacorrespondência
),|( dQRP
RI baseado em Modelo de Linguagem (LM)
consulta
d1
d2
dn
…
Necessidade de Informação
coleção de documentos
geraçãogeração
)|( dMQP 1dM
2dM
…
ndM
Uma heurística de busca comum é utilizar palavras que vocês espera encontrar em documentos correspondentes como a sua consulta – por que, eu vi Sergey Brin advogando essa estratégia em um programa tarde da noite no meu quarto de hotel, então deve ser bom!
A abordagem LM explorar diretamente essa ideia!
Linguagem Formal (Modelo)
Modelo gerativo Tradicional: gera strings Máquinas de estados finitos ou gramáticas regulares, etc.
Exemplo:
I wish
I wishI wish I wishI wish I wish I wishI wish I wish I wish I wish…
*wish I wish
Modelos de linguagem estocásticos
Modela a probabilidade de gerar strings na linguagem (normalmente todas as strings sobre o alfabeto ∑)
0.2 the
0.1 a
0.01 man
0.01 woman
0.03 said
0.02 likes
…
the man likes the woman
0.2 0.01 0.02 0.2 0.01
multiplicar
Modelo M
P(s | M) = 0.00000008
Modelos de linguagem estocásticos
Modela a probabilidade de gerar qualquer string
0.2 the
0.01 class
0.0001 sayst
0.0001 pleaseth
0.0001 yon
0.0005 maiden
0.01 woman
Modelo M1 Modelo M2
maidenclass pleaseth yonthe
0.00050.01 0.0001 0.00010.2
0.010.0001 0.02 0.10.2
P(s|M2) > P(s|M1)
0.2 the
0.0001 class
0.03 sayst
0.02 pleaseth
0.1 yon
0.01 maiden
0.0001 woman
Modelos de linguagem estocásticos
Um modelo estatístico para geração de texto Distribuição da probabilidade sobre strings em
uma dada linguagem
MP ( | M ) = P ( | M )
P ( | M, )
P ( | M, )
P ( | M, )
Unigram e modelos de alta-ordem
Modelos de Linguagem Unigram
Modelos de Linguagem Bigram (geralmente, n-gram)
Outros Modelos de Linguagem Modelos baseados em gramáticas (PCFGs), etc.
Provavelmente não é a primeira coisa a se tentar em RI
= P ( ) P ( | ) P ( | ) P ( | )
P ( ) P ( ) P ( ) P ( )
P ( )
P ( ) P ( | ) P ( | ) P ( | )
Fácil.Efetivo!
Usando Modelos de Linguagem em RI
Trata cada documento como a base para o modelo (ex.: estatísticas suficientes para Unigram)
Ordena os documentos basedo em P(d | q) P(d | q) = P(q | d) x P(d) / P(q)
P(q) é o mesmo para todos os documentos, ignore P(d) [o anterior] é frequentemente tratado como o
mesmo para todo d Mas poderíamos usar critérios como autoria, tamanho,
genero P(q | d) é a probabilidade de q dado um modelo de d’s
Abordagem formal muito geral
Problema fundamental de LMs
Normalmente não conhecemos o modelo M Mas temos um exemplar de texto representativo para
esse modelo
Estimar um modelo de linguagem do exemplar Então calcule a probabilidade observada
P ( | M ( ) )
M
Modelos de Lingaguem para RI
Abordagens de Modelagem de Linguagem Tenta modelar o processo de geração da
consulta Documentos são ordenados pela probabilidade
de que uma consulta possa ser vista como um exemplar aleatório do respectivo modelo de documento
Abordagem Multinomial
Recuperação baseada em LM probabilístico
Trata a geração de consultas como um processo aleatório.
Abordagem Inferir uma modelo de linguagem para cada
documento. Estimar a probabilidade de gerar a consulta de
acordo com cada um desses modelos. Ordenar os documentos de acordo com essas
probabilidades. Usualmente uma estimativa unigram de palavras
é utilizada Algum trabalho com bigramas, em pararelo a van
Rijsbergen
Recuperação baseada em LM probabilístico
Intuição Usuários …
Têm uma ideia razoável de termos que provavelmente ocorrem em documentos de interesse.
Escolherão termos da consulta que distingue esses documentos de outros na coleção.
Estatísticas da coleção … Partes do modelo de linguagem. Não são utilizadas heuristicamente como em
muitas outras abordagens. Na teoria. Na prática, normalmente há espaço de
manobra para conjuntos de parâmetros empíricos
Probabilidade da geração de consulta (1)
Fórmula de Ordenação
A probabilidade de produzir a consulta dado o modelo de linguagem do
documento d usando MLE (estimativa de probabilidade máxima) é:
Qt d
dt
Qtdmld
dl
tf
MtpMQp
),(
)|(ˆ)|(ˆ
Suposição Unigram :Dado um modelo de linguagem específico, os termos da consulta ocorrem independentemente
),( dttf
ddl
: modelo de linguagem do documento d
: tf puro do termo t no documento d
: número total de tokens no documento d
dM
)|()(
)|()(),(
dMQpdp
dQpdpdQp
Dados insuficientes
Probabilidade zero Pode não querer atribuir probabilidade zero a um
documento que não contenha um ou mais termos da consulta [oferece conjunção semântica]
Abordagem geral Um termo que não ocorre é possível, mas não
mais do que o esperado ao acaso na coleção.
If ,
0)|( dMtp
0),( dttf
cs
cs
cfMtp t
d )|(
tcf : contagem pura do termo t na coleção
: tamanho(número total de tokens na coleção) puro da coleção
Dados insuficientes
Catástrofe da probabilidade zero Precisamos suavizar as probabilidades
Descontar probabilidades não-zero Dar alguma probabilidade a coisas não vistas
Há um grande espaço para abordagens de suavização de distribuição de probabilidades para lidar com esse problema, como adicionar 1, ½ ou às contagens, anteriores Dirichlet, desconto, e interpolação [Veja FSNLP cap. 6 ou CS224N para saber mais]
Uma ideia simples que funciona bem na prática é usar um misto entre a multinomial do documento e a distribuição multinomial da coleção
Modelo misto
P(w|d) = Pmle(w|Md) + (1 – )Pmle(w|Mc) Mescla a probabilidade do documento com a
frequência geral da palavra na coleção. Fixar corretamente é muito importante Um valor alto de lambda torna a busca
conjuntiva – adequada para consultas pequenas Um valor baixo é mais adequado a consultas
longas Pode-se ajustar para otimizar o desempenho
Talvez fazê-lo dependente do tamanho do documento (cf. anterior de Dirichlet ou suavização Witten-Bell)
Resumo do modelo misto básico
Formulação geral do LM para RI
O usuário tem um documento em mente, e gera um consulta a partir deste documento.
A equação representa a probabilidade de que o documento que o usuário tem em mente seja de fato este.
Qt
dMtptpdpdQp ))|()()1(()(),(
modelo geral de linguagem
modelo individual do documento
Exemplo
Coleção de documentos (2 documentos) d1: Xerox divulga lucro mais faturamento está em
queda d2: Lucent diminui perda no trimestre mas
faturamento diminui mais Modelo: unigram MLE dos documentos; = ½ Consulta: faturamento queda
P(Q|d1) = [(1/8 + 2/16)/2] x [(1/8 + 1/16)/2] = 1/8 x 3/32 = 3/256 P(Q|d2) = [(1/8 + 2/16)/2] x [(0 + 1/16)/2] = 1/8 x 1/32 = 1/256
Ordem: d1 > d2
Experimentos de Ponte e Croft
Dados TREC, tópicos 202-250 nos discos 2 e 3 do TREC
Consulta em linguagem natural consistindo de uma sentença cada
TREC, tópicos 51-100 no disco 3 do TREC usando campos conceito
Lista de bons termos<num>Number: 054
<dom>Domain: International Economics
<title>Topic: Satellite Launch Contracts
<desc>Description:
… </desc>
<con>Concept(s):
1. Contract, agreement
2. Launch vehicle, rocket, payload, satellite
3. Launch services, … </con>
<num>Number: 054
<dom>Domain: International Economics
<title>Topic: Satellite Launch Contracts
<desc>Description:
… </desc>
<con>Concept(s):
1. Contract, agreement
2. Launch vehicle, rocket, payload, satellite
3. Launch services, … </con>
Precisão/recall resultados 202-250
Precisão/recall resultados 51-100
Principal diferença é se “Relevancia” figura explicitamente no modelo ou não Abordagem LM tenta acabar com modelo de
relevância Abordagem LM presume que documentos e
expressões de problemas de informação são do mesmo tipo
Tratável computacionalmente, intuitivamente atraente
LM vs. Modelo Prob. para IR
Problemas da abordagem LM básica Suposição de equivalencia entre documento e
informação e representação do problema de informação não é realista
Modelos de linguagem muito simples É difícil integrar Feedback de relevância, assim
como preferências do usuário, e outros assuntos de interesse geral
Não incorpora facilmente frases, passagens e operadores booleanos
Extensões atuais enfocam trazer de volta a relevância no modelo, etc.
LM vs. Modelo Prob. para IR
Extensão: modelo de 3 níveis
Modelo de 3 níveis1. Modelo completo da coleção ( )2. Modelo de tópico específico; modelo de documentos
relevantes ( )3. Modelo de documento individual ( )
Hipótese de Relevância Uma requisição(consulta; tópico) é gerada de um modelo
de tópico específico { , }. Se, e somente se, um documento é relevante para o tópico,
o mesmo modelo se aplica ao documento. Substituirá parte do modelo de documento individual na
explicação do documento. A probabilidade de relevância de um documento
A probabilidade que esse modelo explique parte do documento
A probabilidade de que a combinação { , , } seja melhor que a combinação { , }
CM
dMTM
CM TM
CM TM dMCM dM
Modelo de 3 níveis
consulta
d1
d2
dn
…
Necessidade de Informação
coleção de documentos
geraçãogeração
),,|( dTC MMMQP
1dM
2dM
…
ndM
CM
1TM
2TM
mTM
…),|( TC MMQP
Modelos Alternativos de Geração de Texto
Modelo deconsulta
Consulta
Modelo dedocumento
Documento
Buscardor
Escritor
)|( BuscadorMP
)|( EscritorMP
)|( MConsultaP
)|( MDocP
É o mesmo modelo?
Recuperação usando Modelos de Linguagem
Modelo deConsultaConsulta
Modelo deDocumentoDoc
)|( ConsultawP
)|( DocwP
Recuperação: Probabilidade da Consulta (1), Probabilidade do Documento (2),Comparação do Modelo (3)
1
2
3
Probabilidade da Consulta
P(Q|Dm) O maior problema é estimar o modelo do
documento i.e. técnicas de suavização ao invés de pesos tf.idf
Bons resultados de recuperação ex.: UMass, BBN, Twente, CMU
Problemas ao lidar com feedback de relevância, expansão de consulta e consultas estruturadas
Probabilidade do Documento
Ordena pela razão das probabilidades P(D|R)/P(D|NR) Trata como problema de geração P(w|R) é estimado de P(w|Qm) Qm é a consulta ou modelo de relevância P(w|NR) é estimado pelas probabilidades da coleção P(w)
Problema é a estimativa do modelo de consulta Trata a consulta como gerada por um misto de tópico e
conhecimento prévio Estimar modelo de relevância dos documentos relacionados
(expansão da consulta) Feedback de relevância é facilmente incorporado
Bons resultados de recuperação ex.: UMass no SIGIR 01 Inconsistente com coleções de documentos heterogêneos
Comparação dos Modelos
Estimar os modelos da consulta e do documento e comparar Medida adequada é divergência KL D(Qm||Dm)
equivalente à abordagem de probabilidade da consulta se distribuição empírica simples for utilizada como modelo de consulta
Framework mais geral de minimização de riscos foi proposto Zhai e Lafferty 2001
Resultados melhores que as abordagens de probabilidade da consulta ou probabilidade do documento
Xx m
mmmm xD
xQxQDQD
)(
)(log)()||(
Suavização em dois estágios:Outro motivo para suavização
Consulta = “the algorithms for data mining”
d1: 0.04 0.001 0.02 0.002 0.003 d2: 0.02 0.001 0.01 0.003 0.004
p( “algorithms”|d1) = p(“algorithm”|d2)p( “data”|d1) < p(“data”|d2)
p( “mining”|d1) < p(“mining”|d2)
Mas p(q|d1)>p(q|d2)!
Devemos tornar p(“the”) e p(“for”) menos diferentes para todosos documentos.
Suavização em dois estágios
c(w,d)
|d|P(w|d) =
+p(w|C)
+
1º estágio
-Explica palavras não vistas-Anterior Dirichlet (Bayesian)
(1-) + p(w|U)
2º estágio
-Explica ruído na consulta-Misto de dois componentes
Como utilizar feedback de relevância utilizando abordagem de modelo de linguagem?
Introduz um modelo de consulta & trata feedback como atualização do modelo de consulta Função de recuperação:
Probabilidade da consulta => Divergência KL Feedback:
Baseado em expansão => Baseado no Modelo
Basedo em Expansão vs. Modelo
D)|( DQP
Documento DResultados
Docs Feedback
Modelo Doc
Q
D
)||( DQD
Modelo Doc
Pontuação
Pontuação
Consulta Q
Documento D
Consulta Q
Docs Feedback
Resultados
Feedback Baseadoem Expansão
modifica
modifica
Feedbackbaseado em Modelo
Modelo deConsulta
Probabilidade daConsulta
Divergência KL
Feedback como Interpolação de Modelo
Consulta Q
D
)||( DQD
Documento D
Resultados
Docs FeedbackF={d1, d2 , …, dn}
FQQ )1('
Modelo gerativo
Q
F=0
Sem feedback
FQ '
=1
Feedback completo
QQ '
Modelo de Tradução (Berger e Lafferty)
LMs básicos não resolvem o problema de sinônimos. Ou qualquer desvio na expressão da necessidade de
informação da linguagem dos documentos Um modelo de tradução permite que você gere
palavras de consulta que não estão no documento via “tradução” para sinônimos etc.
Ou para RI em linguagem cruzada, ou RI multimídia
LM Básico Tradução É preciso aprender um modelo de tradução (usando
dicionário ou via tradução estatística de máquina)
)|()|()|( vqTMvPMqP ii Lexiconv
Modelos de linguagem: pro & con
Nova forma de olhar o problema de recuperação de texto com base em modelos probabilíticos de linguagem
Conceitualmente simples e explicativo Modelo matemático formal Uso natural de estatísticas de coleção, não heurística
(quase…) LMs provêem recuperação efetiva e podem ser
melhorados desde que as seguintes condições sejam satisfeitas
Nossos modelos de linguagem são precisas representações dos dados.
Usuários têm alguma noção sobre a distribuição dos termos.*
*Ou nos sofisticamos com modelo de tradução
Comparação com o Espaço Vetorial
Há alguma relação aos modelos tradicionais tf.idf: frequência do termo (sem escala) está
diretamente no modelo as probabilidades fazem a normalização do
comprimento da frequência do termo o efeito de mesclar com uma coleção global de
frequências é similar ao idf: termos raros em uma coleção geral mas comuns em alguns documentos terão maior influência na ordenação
Comparação com Espaço Vetorial
Similar em algum sentido Peso de termo baseado na frequência Termos usados frequentemente como independentes Utilizada frequência inversa documento/coleção Alguma forma de normalização útil do comprimento
Diferente em outros Baseado na probabilidade ao invés da similaridade
Intuições são probabilísticas ao invés de geométricas Detalhes da utilização do comprimento do documento
e frequência de termo, documento, e coleção diferem
Resources
J.M. Ponte and W.B. Croft. 1998. A language modelling approach to information retrieval. In SIGIR 21.
D. Hiemstra. 1998. A linguistically motivated probabilistic model of information retrieval. ECDL 2, pp. 569–584.
A. Berger and J. Lafferty. 1999. Information retrieval as statistical translation. SIGIR 22, pp. 222–229.
D.R.H. Miller, T. Leek, and R.M. Schwartz. 1999. A hidden Markov model information retrieval system. SIGIR 22, pp. 214–221.
[Several relevant newer papers at SIGIR 23–25, 2000–2002.]
Workshop on Language Modeling and Information Retrieval, CMU 2001. http://la.lti.cs.cmu.edu/callan/Workshops/lmir01/ .
The Lemur Toolkit for Language Modeling and Information Retrieval. http://www-2.cs.cmu.edu/~lemur/ . CMU/Umass LM and IR system in C(++), currently actively developed.