Click here to load reader
Upload
dangnguyet
View
215
Download
3
Embed Size (px)
Citation preview
1
1
SUPeRB Especificação e exemplos
Luís Miguel Cabral Linguateca
Ultima versão: 15 de Dezembro de 2006
2
WEBWEB
Catálogo daLinguateca
SUPeRB
referência incompletaexpressão URL
Google/YahooAPI
SRU/RW
WebDocuments
WebDocuments
WebDocumentsDocumentos
Web
Interface Web
informação bibliográfica
SUPeRB numa figura só
Validação pelo gestor
CiteSeer
Interacção com o gestor
Interacção com o utilizador
2
3
Validação
ValidaçãoProposta de adição
Validação pelo gestor para incorporar no catálogo
Validação
Validação
Classificação
Classificação pelos utilizadores
Extracção de Elementos bibliográficos
Candidatos a elementos bibliográficos
Extracção de Referências a partir de texto
Candidatos a referências
SUPeRBPesquisa Web
URLReferência incompletaExpressão
Candidatos a URLs
Obter Dados da Web
Texto Referências
Fusão de dados
Informação bibliográfica
Informação bibliográfica (referências e elementos)
4
API serviço WebGoogle/Yahoo
Candidatos a URL
Referência incompleta Expressão
Extractor de elementos bibliográficos
Invocador deserviços
Gerador de consultas
Pesquisa na Web
Documentosrelevantes
WebDocumentsWeb
DocumentsWebDocumentsDocumentos
Web
Consultas a serviços de pesquisa
Resposta dos serviços
Elementos chave(autor, título, ano,..)
3
5
Exemplos:
Expressão ou referência bibliográfica incompletaParâmetros de entrada:
Saída:Lista de URL com possível informação relevante
dizer automatic discourse analyser dizer analyser automatic académico discourse dizer automatic documents discourse analyser dizer references discourse dizer automatic academic
Parâmetro dado: Dizer automatic discourse analyser
Pesquisa na Web
Expressões geradas:http://wotan.liu.edu/docis/dbl/sbiasb/index.htmlhttp://www.portalpsicologia.org/busqueda.jsp?idProfesion=1http://citeseer.ist.psu.edu/machadorino96discourse.htmlhttp://br.groups.yahoo.com/group/lta-l/messages/30?xm=1&m=ehttp://www.shakespeare.uk.net/journal/1_3/cardoso-desousa1_3.htmlhttp://citeseer.ist.psu.edu/salgueiropardo04dizer.htmlhttp://www.inesc-id.pt/pt/indicadores/Ficheiros/2167.pdfhttp://csdl.tamu.edu/~crln/1986bib.htmlhttp://www.csdl.tamu.edu/~crln/1991set.html
URL devolvidos:
6
SRU/RWObtémdados
estruturados
Buscador de
texto
Texto Referências
URL
Acesso à Web para obter texto e informação bibliográfica
Repositorios bibliográficos
InformaçãobibliográficaCache
Filtra URLURL a ignorar repositórios
URL ignorados
Pedido
URL pertencea repositório
Obtém documento original
CiteSeer
Obtém texto
4
7
Extracção de referências de texto
Extrai candidatos de
texto académico
Texto
Candidatos a referências
Filtra candidatos
Extrai candidatos de texto em geral
Extrai cabeçalho
(Artigos e docs científicos (estrutura académica)apresentação(ppt),
outros)
REB
Texto ignorado(listas de palavras,... )
Texto académico(artigo)
Uso de heurísticaspara circunscreverpotenciais candidatos
Candidatos excluídos(Ausência de data ou nomes próprios, candidatos demasiado simples, ou demasiado extensos)
Aumentar importância dada a existência prévia de elementos bibliográficos
Análise daestrutura do texto
8
Texto extraído de um documento
164Data Driven Ontology EvaluationChristopher Brewster., Harith Alani†, Srinandan Dasmahapatra†,Yorick Wilks..Department of Computer Science, University of Shef.eld,211 Portebello Street, Shef.eld, S1 4DP, U.K.{C.Brewster|Y.Wilks}@dcs.shef.ac.uk† School of Electronics and Computer Science,University of Southampton, SO17 1BJ, United Kingdom{ha|sd}@ecs.soton.ac.ukAbstractThe evaluation of ontologies is vital for the growth of the Semantic Web. We consider a number of problems in evaluating a knowledgeartifact like an ontology. We propose in this paper that one approach to ontology evaluation should be corpus or data driven. A corpusis the most accessible form of knowledge and its use allows a measure to be derived of the ‘.t’ between an ontology and a domain of...8. ReferencesAKT, 2003. AKT reference ontology. Available at www.aktors.org/publications/ontology. An ontology of the academic domain.Alani, Harith, Sanghee Kim, David E. Millard, Mark J. Weal, Wendy Hall, Paul H. Lewis, and Nigel R. Shadbolt, 2003. Automatic ontology-based knowledge extraction and tailored biography generation from the web. IEEE Intelligent Systems, 18(1). Brewster, Christopher, Fabio Ciravegna, and Yorick Wilks, 2001. Knowledge acquisition for knowledge management: Position paper.In Proceeding of the IJCAI-2001Workshop on Ontology Learning. Seattle, WA: IJCAI.CIDOC, 2003. The CIDOC conceptual referencemodel....
Exemplo:
Parâmetros de entrada:
Extracção de referências de texto
5
9
Tttulo=Data Driven Ontology Evaluationautor=Christopher Brewsterautor=Harith Alaniautor=Srinandanautor=Dasmahapatraautor=Yorick Wilksresumo=The evaluation of ontologies is …lingua=en
Extracção de referências de texto 1. A informacão recolhida do cabeçalho está já semi-estruturada e, se a
informação estiver disponível (fornecida pelas tarefas anteriores), com URL
2. Lista de referências candidatas, obtidas do texto.
Dois tipos de saída:
Exemplo:
AKT, 2003. AKT reference ontology. Available at www.aktors.org/publications/ontology. An ontology of the academic domain.
Alani, Harith, Sanghee Kim, David E. Millard, Mark J. Weal, Wendy Hall, Paul H. Lewis, and Nigel R. Shadbolt, 2003. Automatic ontology-based knowledge extraction and tailored biography generation from the web. IEEE Intelligent Systems, 18(1).
Brewster, Christopher, Fabio Ciravegna, and Yorick Wilks, 2001. Knowledge acquisition for knowledge management: Position paper.In Proceeding of the IJCAI-2001Workshop on Ontology Learning. Seattle, WA: IJCAI.CIDOC, 2003. The CIDOC conceptual referencemodel.
1.
2.
10
Extracção de elementos bibliográficos
Candidatos a referências
Análise sintáctica dos elementos obtidos
ParaTools
???
separador
REB
Candidatos aelementos bibliográficos
REPENTINO
6
11
Exemplos (1)
Extracção de elementos bibliográficos
Referências em textoParâmetros de entrada:
Saída:Informação estruturada, mantendo o texto fonte
autor=Luís Sarmentotitulo=O SIEMÊS e a sua participação no HAREM e no Mini-HAREMeditor=Diana Santoseditor=Nuno Cardosocolecao=HAREM, a primeira avaliação conjunta de sistemas de reconhecimento de entidades mencionadas para português: documentação e actas do encontroano=2006. texto=Luís Sarmento. "O SIEMÊS e a sua participação no HAREM e no Mini-HAREM". In Diana Santos &Nuno Cardoso (eds.), HAREM, a primeira avaliação conjunta de sistemas de reconhecimento de entidades
mencionadas para português: documentação e actas do encontro. Linguateca:, 2006.
Luís Sarmento. "O SIEMÊS e a sua participação no HAREM e no Mini-HAREM". In Diana Santos & Nuno Cardoso (eds.), HAREM, a primeira avaliação conjunta de sistemas de reconhecimento de entidades mencionadas para português: documentação e actas do encontro. Linguateca:, 2006.
12
Exemplos (2)
Extracção de elementos bibliográficos
Diana Santos & Paulo Rocha. "CHAVE: topics and questions on the Portuguese participation in CLEF". In Carol Peters & Francesca Borri (eds.), Cross Language Evaluation Forum: Working Notes for the CLEF 2004 Workshop (CLEF 2004) (Bath, UK, 15-17 September 2004), Pisa, Italy: IST-CNR, pp. 639-648. Revised as Santos &Rocha (2005) http://www.linguateca.pt/documentos/SantosRochaCLEF2004WN.pdf
autor=Diana Santosautor=Paulo Rochatitulo=CHAVE: topics and questions on the Portuguese participation in CLEFeditor=Carol Peterseditor=Francesca Borricolecao=Cross Language Evaluation Forum: Working Notes for the CLEF 2004 Workshop (CLEF 2004)local=Bath, UKdata= 15-17 September 2004morada=Pisa, Italyeditora=IST-CNRpagina=639-648url= http://www.linguateca.pt/documentos/SantosRochaCLEF2004.pdftexto=Diana Santos & Paulo Rocha. "CHAVE: topics and questions on the Portuguese participation in CLEF". In Carol Peters & Francesca Borri (eds.), Cross Language Evaluation Forum: Working Notes for the CLEF 2004 Workshop (CLEF 2004) (Bath, UK, 15-17 September 2004), Pisa, Italy: IST-CNR, pp. 639-648. Revisedas Santos & Rocha (2005) http://www.linguateca.pt/documentos/SantosRochaCLEF2004.pdf
7
13
Alani, Harith, Sanghee Kim, David E. Millard, Mark J. Weal, Wendy Hall, Paul H. Lewis, and Nigel R. Shadbolt, 2003. Automatic ontology-based knowledge extraction and tailored biography generation from the web. IEEE Intelligent Systems, 18(1).
autor= Harith Alaniautor=Sanghee Kimautor=David E. Millardautor=Mark J. Wealauthor= Wendy Hallautor=Paul H. Lewisautor=Nigel R. Shadboltano=2003titulo=Automatic ontology-based knowledge extraction and tailored biography generation from the webcoleccao=IEEE Intelligent Systemsvolume=18numero=1 texto=Alani, Harith, Sanghee Kim, David E. Millard, Mark J. Weal, Wendy Hall, Paul H. Lewis, and Nigel R.Shadbolt, 2003. Automatic ontology-based knowledge extraction and tailored biography generation from the web.
IEEE Intelligent Systems, 18(1).
Exemplos (3)
Extracção de elementos bibliográficos
14
Fusão da informação bibliográfica
Fusão de referências
Informação bibliográfica refinada
Elementos bibliográficos
Elementos bibliográficos
Elementos bibliográficos
Elementos bibliográficos
REB
Referências bibliográficas
Referências bibliográficas
8
15
tipo=artigotitulo=Applying a Lexical Similarity Measure to Compare Portuguese Term Collectionsautor=Chaves, M.S.autor=Lima, V.L.S.revista=LECTURE NOTES IN COMPUTER SCIENCEano=2004editora=Springer
Fusão da informação bibliográfica
tipo=livrorevista=Lecture Notes in Computer Science : Advances in Artificial Intelligence – SBIA 2004titulo=Applying a Lexical Similarity Measure to Compare Portuguese Term Collectionspáginas=194 - 203ano=2004autor=Marcirio Silveira Chavesautor=Vera Lúcia Strube de Lima
tipo=artigotitulo=Applying a Lexical Similarity Measure to Compare Portuguese Term Collectionsautor=Marcirio Silveira Chavesautor=Vera Lúcia Strube de Limarevista=Lecture Notes in Computer Science : Advances in Artificial Intelligence – SBIA 2004 páginas=194-203ano=2004editora=Springer
Exemplo:
16
Classificação Correcção
classificação
Informação bibliográfica classificada (com tags)
Referências bibliográficas
regras
Informação bibliográfica Validada
Classificação das Referências
9
17
(elemento, classe, relevância)
Elemento Bibliográfico
REB- Repositório de Elementos Bibliográficos
(Elemento,Classe)
Parâmetro: “M. Chaves”
Saída: [(“Marcirio Silveira Chaves”, “pessoa”, 21.0),(“Marcirio Chaves”, pessoa, 7.3) ]
Exemplo:
Avalia Relevância
18
Referência parcialExpressão
Extractor de elementos
bibliográficosInvocador de
consultas
Pesquisa local
Extractor de elementos bibliográficos
URL
Obtém referencias
Obtém texto
web2txt
Obtém cache
Extrai info de documentos
académicos
filtracandidatos
Extrai elementosblibliográficosREB
ParaTools
REPENTINO
Informaçãobibliográfica
Fundereferencias
Pesquisa
Acesso aoconteúdo dos documentos
Extracção de referências
Extracção deelementos
bibliográficos
Fusão de informação bibliográfica
Repositórios
Ignorar
Extrai referências de documentos
académicos
Extrai cabeçalho
ExpressãoReferencia
Referência
Identifica aestrutura do texto