9

Click here to load reader

SUPeRB numa figura só - · PDF fileIn Carol Peters & Francesca Borri (eds.), Cross Language Evaluation Forum: ... (Bath, UK, 15-17 September 2004), Pisa, Italy: IST-CNR, pp. 639-648

Embed Size (px)

Citation preview

Page 1: SUPeRB numa figura só - · PDF fileIn Carol Peters & Francesca Borri (eds.), Cross Language Evaluation Forum: ... (Bath, UK, 15-17 September 2004), Pisa, Italy: IST-CNR, pp. 639-648

1

1

SUPeRB Especificação e exemplos

Luís Miguel Cabral Linguateca

Ultima versão: 15 de Dezembro de 2006

2

WEBWEB

Catálogo daLinguateca

SUPeRB

referência incompletaexpressão URL

Google/YahooAPI

SRU/RW

WebDocuments

WebDocuments

WebDocumentsDocumentos

Web

Interface Web

informação bibliográfica

SUPeRB numa figura só

Validação pelo gestor

CiteSeer

Interacção com o gestor

Interacção com o utilizador

Page 2: SUPeRB numa figura só - · PDF fileIn Carol Peters & Francesca Borri (eds.), Cross Language Evaluation Forum: ... (Bath, UK, 15-17 September 2004), Pisa, Italy: IST-CNR, pp. 639-648

2

3

Validação

ValidaçãoProposta de adição

Validação pelo gestor para incorporar no catálogo

Validação

Validação

Classificação

Classificação pelos utilizadores

Extracção de Elementos bibliográficos

Candidatos a elementos bibliográficos

Extracção de Referências a partir de texto

Candidatos a referências

SUPeRBPesquisa Web

URLReferência incompletaExpressão

Candidatos a URLs

Obter Dados da Web

Texto Referências

Fusão de dados

Informação bibliográfica

Informação bibliográfica (referências e elementos)

4

API serviço WebGoogle/Yahoo

Candidatos a URL

Referência incompleta Expressão

Extractor de elementos bibliográficos

Invocador deserviços

Gerador de consultas

Pesquisa na Web

Documentosrelevantes

WebDocumentsWeb

DocumentsWebDocumentsDocumentos

Web

Consultas a serviços de pesquisa

Resposta dos serviços

Elementos chave(autor, título, ano,..)

Page 3: SUPeRB numa figura só - · PDF fileIn Carol Peters & Francesca Borri (eds.), Cross Language Evaluation Forum: ... (Bath, UK, 15-17 September 2004), Pisa, Italy: IST-CNR, pp. 639-648

3

5

Exemplos:

Expressão ou referência bibliográfica incompletaParâmetros de entrada:

Saída:Lista de URL com possível informação relevante

dizer automatic discourse analyser dizer analyser automatic académico discourse dizer automatic documents discourse analyser dizer references discourse dizer automatic academic

Parâmetro dado: Dizer automatic discourse analyser

Pesquisa na Web

Expressões geradas:http://wotan.liu.edu/docis/dbl/sbiasb/index.htmlhttp://www.portalpsicologia.org/busqueda.jsp?idProfesion=1http://citeseer.ist.psu.edu/machadorino96discourse.htmlhttp://br.groups.yahoo.com/group/lta-l/messages/30?xm=1&m=ehttp://www.shakespeare.uk.net/journal/1_3/cardoso-desousa1_3.htmlhttp://citeseer.ist.psu.edu/salgueiropardo04dizer.htmlhttp://www.inesc-id.pt/pt/indicadores/Ficheiros/2167.pdfhttp://csdl.tamu.edu/~crln/1986bib.htmlhttp://www.csdl.tamu.edu/~crln/1991set.html

URL devolvidos:

6

SRU/RWObtémdados

estruturados

Buscador de

texto

Texto Referências

URL

Acesso à Web para obter texto e informação bibliográfica

Repositorios bibliográficos

InformaçãobibliográficaCache

Filtra URLURL a ignorar repositórios

URL ignorados

Pedido

URL pertencea repositório

Obtém documento original

CiteSeer

Obtém texto

Page 4: SUPeRB numa figura só - · PDF fileIn Carol Peters & Francesca Borri (eds.), Cross Language Evaluation Forum: ... (Bath, UK, 15-17 September 2004), Pisa, Italy: IST-CNR, pp. 639-648

4

7

Extracção de referências de texto

Extrai candidatos de

texto académico

Texto

Candidatos a referências

Filtra candidatos

Extrai candidatos de texto em geral

Extrai cabeçalho

(Artigos e docs científicos (estrutura académica)apresentação(ppt),

outros)

REB

Texto ignorado(listas de palavras,... )

Texto académico(artigo)

Uso de heurísticaspara circunscreverpotenciais candidatos

Candidatos excluídos(Ausência de data ou nomes próprios, candidatos demasiado simples, ou demasiado extensos)

Aumentar importância dada a existência prévia de elementos bibliográficos

Análise daestrutura do texto

8

Texto extraído de um documento

164Data Driven Ontology EvaluationChristopher Brewster., Harith Alani†, Srinandan Dasmahapatra†,Yorick Wilks..Department of Computer Science, University of Shef.eld,211 Portebello Street, Shef.eld, S1 4DP, U.K.{C.Brewster|Y.Wilks}@dcs.shef.ac.uk† School of Electronics and Computer Science,University of Southampton, SO17 1BJ, United Kingdom{ha|sd}@ecs.soton.ac.ukAbstractThe evaluation of ontologies is vital for the growth of the Semantic Web. We consider a number of problems in evaluating a knowledgeartifact like an ontology. We propose in this paper that one approach to ontology evaluation should be corpus or data driven. A corpusis the most accessible form of knowledge and its use allows a measure to be derived of the ‘.t’ between an ontology and a domain of...8. ReferencesAKT, 2003. AKT reference ontology. Available at www.aktors.org/publications/ontology. An ontology of the academic domain.Alani, Harith, Sanghee Kim, David E. Millard, Mark J. Weal, Wendy Hall, Paul H. Lewis, and Nigel R. Shadbolt, 2003. Automatic ontology-based knowledge extraction and tailored biography generation from the web. IEEE Intelligent Systems, 18(1). Brewster, Christopher, Fabio Ciravegna, and Yorick Wilks, 2001. Knowledge acquisition for knowledge management: Position paper.In Proceeding of the IJCAI-2001Workshop on Ontology Learning. Seattle, WA: IJCAI.CIDOC, 2003. The CIDOC conceptual referencemodel....

Exemplo:

Parâmetros de entrada:

Extracção de referências de texto

Page 5: SUPeRB numa figura só - · PDF fileIn Carol Peters & Francesca Borri (eds.), Cross Language Evaluation Forum: ... (Bath, UK, 15-17 September 2004), Pisa, Italy: IST-CNR, pp. 639-648

5

9

Tttulo=Data Driven Ontology Evaluationautor=Christopher Brewsterautor=Harith Alaniautor=Srinandanautor=Dasmahapatraautor=Yorick Wilksresumo=The evaluation of ontologies is …lingua=en

Extracção de referências de texto 1. A informacão recolhida do cabeçalho está já semi-estruturada e, se a

informação estiver disponível (fornecida pelas tarefas anteriores), com URL

2. Lista de referências candidatas, obtidas do texto.

Dois tipos de saída:

Exemplo:

AKT, 2003. AKT reference ontology. Available at www.aktors.org/publications/ontology. An ontology of the academic domain.

Alani, Harith, Sanghee Kim, David E. Millard, Mark J. Weal, Wendy Hall, Paul H. Lewis, and Nigel R. Shadbolt, 2003. Automatic ontology-based knowledge extraction and tailored biography generation from the web. IEEE Intelligent Systems, 18(1).

Brewster, Christopher, Fabio Ciravegna, and Yorick Wilks, 2001. Knowledge acquisition for knowledge management: Position paper.In Proceeding of the IJCAI-2001Workshop on Ontology Learning. Seattle, WA: IJCAI.CIDOC, 2003. The CIDOC conceptual referencemodel.

1.

2.

10

Extracção de elementos bibliográficos

Candidatos a referências

Análise sintáctica dos elementos obtidos

ParaTools

???

separador

REB

Candidatos aelementos bibliográficos

REPENTINO

Page 6: SUPeRB numa figura só - · PDF fileIn Carol Peters & Francesca Borri (eds.), Cross Language Evaluation Forum: ... (Bath, UK, 15-17 September 2004), Pisa, Italy: IST-CNR, pp. 639-648

6

11

Exemplos (1)

Extracção de elementos bibliográficos

Referências em textoParâmetros de entrada:

Saída:Informação estruturada, mantendo o texto fonte

autor=Luís Sarmentotitulo=O SIEMÊS e a sua participação no HAREM e no Mini-HAREMeditor=Diana Santoseditor=Nuno Cardosocolecao=HAREM, a primeira avaliação conjunta de sistemas de reconhecimento de entidades mencionadas para português: documentação e actas do encontroano=2006. texto=Luís Sarmento. "O SIEMÊS e a sua participação no HAREM e no Mini-HAREM". In Diana Santos &Nuno Cardoso (eds.), HAREM, a primeira avaliação conjunta de sistemas de reconhecimento de entidades

mencionadas para português: documentação e actas do encontro. Linguateca:, 2006.

Luís Sarmento. "O SIEMÊS e a sua participação no HAREM e no Mini-HAREM". In Diana Santos & Nuno Cardoso (eds.), HAREM, a primeira avaliação conjunta de sistemas de reconhecimento de entidades mencionadas para português: documentação e actas do encontro. Linguateca:, 2006.

12

Exemplos (2)

Extracção de elementos bibliográficos

Diana Santos & Paulo Rocha. "CHAVE: topics and questions on the Portuguese participation in CLEF". In Carol Peters & Francesca Borri (eds.), Cross Language Evaluation Forum: Working Notes for the CLEF 2004 Workshop (CLEF 2004) (Bath, UK, 15-17 September 2004), Pisa, Italy: IST-CNR, pp. 639-648. Revised as Santos &Rocha (2005) http://www.linguateca.pt/documentos/SantosRochaCLEF2004WN.pdf

autor=Diana Santosautor=Paulo Rochatitulo=CHAVE: topics and questions on the Portuguese participation in CLEFeditor=Carol Peterseditor=Francesca Borricolecao=Cross Language Evaluation Forum: Working Notes for the CLEF 2004 Workshop (CLEF 2004)local=Bath, UKdata= 15-17 September 2004morada=Pisa, Italyeditora=IST-CNRpagina=639-648url= http://www.linguateca.pt/documentos/SantosRochaCLEF2004.pdftexto=Diana Santos & Paulo Rocha. "CHAVE: topics and questions on the Portuguese participation in CLEF". In Carol Peters & Francesca Borri (eds.), Cross Language Evaluation Forum: Working Notes for the CLEF 2004 Workshop (CLEF 2004) (Bath, UK, 15-17 September 2004), Pisa, Italy: IST-CNR, pp. 639-648. Revisedas Santos & Rocha (2005) http://www.linguateca.pt/documentos/SantosRochaCLEF2004.pdf

Page 7: SUPeRB numa figura só - · PDF fileIn Carol Peters & Francesca Borri (eds.), Cross Language Evaluation Forum: ... (Bath, UK, 15-17 September 2004), Pisa, Italy: IST-CNR, pp. 639-648

7

13

Alani, Harith, Sanghee Kim, David E. Millard, Mark J. Weal, Wendy Hall, Paul H. Lewis, and Nigel R. Shadbolt, 2003. Automatic ontology-based knowledge extraction and tailored biography generation from the web. IEEE Intelligent Systems, 18(1).

autor= Harith Alaniautor=Sanghee Kimautor=David E. Millardautor=Mark J. Wealauthor= Wendy Hallautor=Paul H. Lewisautor=Nigel R. Shadboltano=2003titulo=Automatic ontology-based knowledge extraction and tailored biography generation from the webcoleccao=IEEE Intelligent Systemsvolume=18numero=1 texto=Alani, Harith, Sanghee Kim, David E. Millard, Mark J. Weal, Wendy Hall, Paul H. Lewis, and Nigel R.Shadbolt, 2003. Automatic ontology-based knowledge extraction and tailored biography generation from the web.

IEEE Intelligent Systems, 18(1).

Exemplos (3)

Extracção de elementos bibliográficos

14

Fusão da informação bibliográfica

Fusão de referências

Informação bibliográfica refinada

Elementos bibliográficos

Elementos bibliográficos

Elementos bibliográficos

Elementos bibliográficos

REB

Referências bibliográficas

Referências bibliográficas

Page 8: SUPeRB numa figura só - · PDF fileIn Carol Peters & Francesca Borri (eds.), Cross Language Evaluation Forum: ... (Bath, UK, 15-17 September 2004), Pisa, Italy: IST-CNR, pp. 639-648

8

15

tipo=artigotitulo=Applying a Lexical Similarity Measure to Compare Portuguese Term Collectionsautor=Chaves, M.S.autor=Lima, V.L.S.revista=LECTURE NOTES IN COMPUTER SCIENCEano=2004editora=Springer

Fusão da informação bibliográfica

tipo=livrorevista=Lecture Notes in Computer Science : Advances in Artificial Intelligence – SBIA 2004titulo=Applying a Lexical Similarity Measure to Compare Portuguese Term Collectionspáginas=194 - 203ano=2004autor=Marcirio Silveira Chavesautor=Vera Lúcia Strube de Lima

tipo=artigotitulo=Applying a Lexical Similarity Measure to Compare Portuguese Term Collectionsautor=Marcirio Silveira Chavesautor=Vera Lúcia Strube de Limarevista=Lecture Notes in Computer Science : Advances in Artificial Intelligence – SBIA 2004 páginas=194-203ano=2004editora=Springer

Exemplo:

16

Classificação Correcção

classificação

Informação bibliográfica classificada (com tags)

Referências bibliográficas

regras

Informação bibliográfica Validada

Classificação das Referências

Page 9: SUPeRB numa figura só - · PDF fileIn Carol Peters & Francesca Borri (eds.), Cross Language Evaluation Forum: ... (Bath, UK, 15-17 September 2004), Pisa, Italy: IST-CNR, pp. 639-648

9

17

(elemento, classe, relevância)

Elemento Bibliográfico

REB- Repositório de Elementos Bibliográficos

(Elemento,Classe)

Parâmetro: “M. Chaves”

Saída: [(“Marcirio Silveira Chaves”, “pessoa”, 21.0),(“Marcirio Chaves”, pessoa, 7.3) ]

Exemplo:

Avalia Relevância

18

Referência parcialExpressão

Extractor de elementos

bibliográficosInvocador de

consultas

Pesquisa local

Extractor de elementos bibliográficos

URL

Obtém referencias

Obtém texto

web2txt

Obtém cache

Extrai info de documentos

académicos

filtracandidatos

Extrai elementosblibliográficosREB

ParaTools

REPENTINO

Informaçãobibliográfica

Fundereferencias

Pesquisa

Acesso aoconteúdo dos documentos

Extracção de referências

Extracção deelementos

bibliográficos

Fusão de informação bibliográfica

Repositórios

Ignorar

Extrai referências de documentos

académicos

Extrai cabeçalho

ExpressãoReferencia

Referência

Identifica aestrutura do texto