Upload
ivo-nascimento
View
2.171
Download
0
Tags:
Embed Size (px)
DESCRIPTION
Esta palestra aborda o problema de processamento de linguagem natural em php, onde não temos a disposição nenhuma ferramenta para este tipo de trabalho e o lançamento do Texta - Text Analizer
Citation preview
PROCESSAMENTO DE LINGUAGEM
em
Ivo Nascimento
PHP
Wednesday, October 19, 11
Ivo Nascimento
Latest ProjectsPEAR
PEAR2Blue Seed
php5minutesianntech.com.br
http://o8o.com.br
Code Repositorygithub.com/iannsp
Wednesday, October 19, 11
Agenda
1. - Por que?2. - Como?2.1 - TF-IDF2.2 - NLP2.3 ?
Wednesday, October 19, 11
Por Que?
Wednesday, October 19, 11
TF-IDFTerm Frequency-Inverse Document Frequency
dado um corpus, analisa o conteúdo
calculando a importância relativa
de um termo.
Wednesday, October 19, 11
tf * idf
Wednesday, October 19, 11
Extração de informação
O desafio de um ser humano não eh deixar para tras a condição de estudante mas descobrir o que estudar.
Wednesday, October 19, 11
Tokenização
$terms =Array(‘O’, ‘desafio’, ‘de’, ‘um’, ‘ser’, ‘humano’, ‘não’, ‘eh’, ‘deixar’, ‘para’, ‘tras’, ‘a’, ‘condição’, ‘de’, ‘estudante’, ‘mas’, ‘descobrir’, ‘o’, ‘que’, ‘estudar’);
Wednesday, October 19, 11
Normalização
$terms =Array(‘o’, ‘desafio’, ‘de’, ‘um’, ‘ser’, ‘humano’, ‘não’, ‘é’, ‘deixar’, ‘para’, ‘tras’, ‘a’, ‘condição’, ‘de’, ‘estudante’, ‘mas’, ‘descobrir’, ‘o’, ‘que’, ‘estudar’);
Wednesday, October 19, 11
Stop-words
$terms =Array(‘o’, ‘desafio’, ‘de’, ‘um’, ‘ser’, ‘humano’, ‘não’, ‘é’, ‘deixar’, ‘para’, ‘tras’, ‘a’, ‘condição’, ‘de’, ‘estudante’, ‘mas’, ‘descobrir’, ‘o’, ‘que’, ‘estudar’);
Wednesday, October 19, 11
Aprendizado
$dictPositive = Array(‘desafio’=>0.2,‘ser’=>0.3,‘humano’ =>0.21,‘deixar’ =>0.21,‘condição’ =>0.33,‘estudante’ =>0.4,‘descobrir’ =>0.133,‘estudar’ =>0.33);
$dictNegative = Array(‘não’ =>0.45,‘tras’ =>0.21);
Wednesday, October 19, 11
Classi!cação
$terms =Array(‘desafio’, ‘ser’, ‘humano’, ‘não’, ‘deixar’, ‘tras’,‘condição’,‘estudante’, ‘descobrir’,‘estudar’);
Positiva#estudante#desafio
Wednesday, October 19, 11
n-gram(bigram,trigram,...)
$BIGRAM=Array((null,‘o’),(‘o’,‘desafio’),(‘desafio’,’de’),(‘de’,’um’),(‘um’,‘ser’),(‘ser’,‘humano’),(‘humano’ ,‘não’),(‘não,’’é’),(‘é’,‘deixar’),(‘deixar’,‘para’),(‘para’,‘tras’),(‘tras’,‘condicao’),(‘condicao’,’de’),(‘de’,‘estudante’),(‘estudante’,‘mas’),(‘mas’,‘descobrir’),(‘descobrir’,’o’),(‘o’,‘que’),(‘que’,‘estudar’),(‘estudar’,null));
O desafio de um ser humano não é deixar para tras a condição de estudante mas descobrir o que estudar.
Wednesday, October 19, 11
Análise
Distância Euclidiana
Coeficiente de Relção de PearsonCoeficiente de Jaccard
Coef. Dice
Qui-quadrado
Filtro Bayesiano
Wednesday, October 19, 11
Problemas da abordagem tf-idf
Termos
ordem não importa
Homógrafos
Wednesday, October 19, 11
NLP
dado um corpus, analisa o conteúdo
e busca compreensão do
todo.
Wednesday, October 19, 11
É uma área da inteligência arti!cial e da linguística que estuda os problemas da geração e compreensão automática
de linguas humanas naturais.(wikipedia)
Wednesday, October 19, 11
NLTK
Natural Language Tool Kit
http://www.nltk.org/
Wednesday, October 19, 11
O evento é bom.
O evento vai ser bom.
O evento foi bom.
O evento já foi bom.
O evento seria bom.
Wednesday, October 19, 11
NLP
O evento é bom.
S
O evento é bom
Wednesday, October 19, 11
The Biggest Question
Where are the NLP and M.P. tools for use in PHP?http://bit.ly/aCbfR0
Wednesday, October 19, 11
PIP (python in PHP)
A unica maneira de rodar a NLTKhttp://bit.ly/n69g0
Wednesday, October 19, 11
Texta - Text Analizer
O Iníciohttp://bit.ly/oZte8b
https://github.com/iannsp/texta
Wednesday, October 19, 11
Texta - Text Analizer
Wednesday, October 19, 11