52
Defesa de Mestrado Recife, 09 de setembro de 2013 Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments Orientadora: Ana Carolina Salgado Co-orientadora: Maria da Conceição M. Batista Bruno Felipe de França Souza [email protected]

Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

Embed Size (px)

DESCRIPTION

Defesa de dissertação. Este trabalho fala da concepção de quatro critérios de qualidade da informação para análise da perda e ganho de conceitos semânticos de consultas reformuladas entre peers em um Peer Data Management System (PDMS). Experimentos foram feitos no PDMS SPEED concebido no CIn-UFPE.

Citation preview

Page 1: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

Defesa de Mestrado

Recife, 09 de setembro de 2013

Information Quality Criteria Analysis in Query

Reformulation in Distributed Dynamic Environments

Orientadora: Ana Carolina Salgado

Co-orientadora: Maria da Conceição M. Batista

Bruno Felipe de França [email protected]

Page 2: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

2

Roteiro

Motivação

Fundamentação Teórica

– Reformulação de Consultas;

– Qualidade da Informação;

– Perda Semântica e Degradação da Consulta;

– Correspondências Semânticas (enriquecimento).

Trabalhos Relacionados

Nossa abordagem: Análise de Critérios de QI em Reformulação

de Consultas

– Critérios de perda (especificação e exemplo)

– Critérios de enriquecimento (especificação e exemplo)

Experimentação e Resultados (SPEED)

Considerações Finais

Trabalhos Futuros

Page 3: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

3

Motivação

O uso de diferentes tipos de sistemas para o

compartilhamento de informações, e.g., Sistemas de

Integração de Dados e PDMS (Peer Data

Management System).

Uso intensivo do mecanismo de consulta para obter

dados de diferentes fontes de dados (peers).

Page 4: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

4

Motivação

Reformulação de consultas, eventuais problemas:

– Perda semântica;

– Degradação da consulta;

– Resultados vazios ou incompletos;

Em contraste, podemos ter enriquecimento

semântico de conceitos durante a reformulação da

consulta.

Page 5: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

5

Motivação

Como medir o nível de perda e/ou enriquecimento

semântico de uma consulta?

Este resultado da medição, pode ser oportuno para o

processo de roteamento da consulta em um ambiente

dinâmico e distribuído.

Page 6: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

6

Caracterização do Problema

Roteamento da consulta

– Análise dos conceitos da consulta durante a

reformulação;

– Perda e/ou enriquecimento semântico;

– Geração de medidas de qualidade.

Nosso Foco:

Análise da reformulação da consulta usando critérios de

qualidade da Informação (QI)

Page 7: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

7

Objetivos

Especificar e implementar critérios de QI para a

análise de reformulação de consultas em um PDMS.

Auxiliar o roteamento da consulta, fornecendo

medidas de QI para ajudar na decisão de continuar ou

não o processo de roteamento.

Elucidar os conceitos de perda semântica e

degradação da consulta.

Realizar o experimento da análise da reformulação de

consultas no PDMS SPEED;

Page 8: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

8

Fundamentação Teórica

Page 9: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

9

Reformulação de Consultas

Reformulação da consulta é o processo de reformular

uma consulta entre dois peers com esquemas

heterogêneos.

A reformulação é feita por meio de correspondências

semânticas estabelecidas entre os peers vizinhos.

Correspondências – elemento a elemento.

Page 10: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

10

Reformulação de Consultas

C = Professor, Student, Coordinator, Principal

and Staff

Page 11: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

11

Qualidade da Informação (QI)

QI é um conjunto de critérios usados para medir o

grau de qualidade geral de um sistema.

Pode ser aplicado para medir diversos elementos de

um sistema, e.g., peers, resultados da consulta,

dados.

Os autores Wang & Strong propuseram um artigo

compilando vários critérios de QI para serem usados

em sistemas computacionais.

Page 12: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

12

Correspondências Semânticas

SemMatcher, gera correspondências semânticas entre

dois esquemas representados por ontologias.

Tipos de correspondência:

– Equivalência (1,0);

– SubConceito (0,8);

– SuperConceito (0,5);

– Aproximação (0,3);

– “Parte de” e “Todo” (0,1).

Enriquecimento semântico, ganho de conceitos

semânticos durante a reformulação da consulta.

Page 13: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

13

Perda Semântica e Degradação da Consulta

Perda semântica é a diferença sintática entre a

consulta original e suas reformulações [Delveroudis &

Lekeas 2007].

Alguns autores consideram o termo perda semântica

e degradação da consulta como sinônimos.

Page 14: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

14

Trabalhos Relacionados

Page 15: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

15

Trabalhos Relacionados

Page 16: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

16

Nossa Abordagem

Critérios de QI para Análise da Reformulação da Consulta

Page 17: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

17

Critérios de QI para Análise da Reformulação da

Consulta

Como obtermos medidas de qualidade para

representar a perda de conceitos durante o processo

de reformulação da consulta?

Além disso, como obtermos medidas de qualidade

para representar o enriquecimento de conceitos

durante o processo de reformulação da consulta?

Usando critérios de QI

Page 18: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

18

Critérios de QI para Análise da Reformulação da

Consulta

Critérios de Perda

Page 19: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

19

Critérios de QI para Análise da Reformulação da

Consulta

Nossa definição para perda semântica: é a perda de

conceitos de uma consulta Q devido à reformulação

entre peers com esquemas heterogêneos.

Degradação da Consulta: é a medida acumulada de

perdas semânticas sofrida por uma consulta Q após

sucessivas reformulações sobre esquemas

heterogêneos.

Page 20: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

20

Critérios de QI para Análise da Reformulação da

Consulta

Critério de QI Query Loss Measure (QuLM), o qual

representa a perda semântica de conceitos entre um

par de peers.

Junto com o QuLM está o critério Accumulated Loss

Measure (AccLM) que mede a degradação da

consulta, ou seja, o acumulado de perdas semânticas

em um caminho para onde a consulta foi enviada.

Page 21: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

21

Critérios de QI para Análise da Reformulação da

Consulta

Dado um par de peers P = {Pi, Pj} e uma consulta

reformulada Qj de Pi para Pj definimos a medida de

perda da seguinte maneira:

Page 22: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

22

Critérios de QI para Análise da Reformulação da

Consulta

Dado um conjunto de peers P = {P1, ..., Pn} e um

conjunto de QuLM entre os pares de peers QuLM =

{QuLM1, ..., QuLMn} definimos a medida de

degradação da seguinte maneira:

Page 23: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

23

Critérios de QI para Análise da Reformulação da

Consulta

Exemplificando...

Vamos assumir:

– um conjunto de quatro peers interconectados e

compartilhando informações no domínio de comércio.

– As correspondências semânticas entre os esquemas

dos peers já foram geradas pelo processo de matching

semântico.

– A consulta original submetida no peer P1 foi: vendedor,

shopping, produto, bicicleta.

Page 24: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

24

Critérios de QI para Análise da Reformulação da

Consulta

Page 25: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

25

Critérios de QI para Análise da Reformulação da

Consulta

Page 26: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

26

Critérios de QI para Análise da Reformulação da

Consulta

Page 27: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

27

Critérios de QI para Análise da Reformulação da

Consulta

O caminho que leva ao peer P4 obteve uma medida

de qualidade de 0,2500. Com base neste valor

podemos dizer que este é um caminho com menos

perda semântica em relação à consulta colocada pelo

usuário no peer P1

O processo de roteamento da consulta escolherá o

caminho para o peer P4

Caminho AccLM

P1 –P2 – P3 0,7525

P1 –P2 – P4 0,2500

Page 28: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

28

Critérios de QI para Análise da Reformulação da

Consulta

Critérios de Enriquecimento

Page 29: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

29

Critérios de QI para Análise da Reformulação da

Consulta

Critério de QI Query Enrichment Measure (QuEM), o

qual representa o enriquecimento semântico de

conceitos entre um par de peers.

Junto com o QuEM está o critério Accumulated

Enrichment Measure (AccEM) que mede o produto

acumulado de ganhos semânticos de conceitos da

consulta no caminho para onde foi enviada.

Page 30: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

30

Critérios de QI para Análise da Reformulação da

Consulta

Dado um par de peers P = {Pi, Pj} e uma consulta

reformulada Qj de Pi para Pj definimos a medida de

enriquecimento da seguinte maneira:

Onde |Csubj| é o número de conceitos em Qj (consulta

reformulada) os quais são sub conceitos dos

conceitos em Qi (consulta corrente).

|Csupj| é o número de conceitos em Qj que são super

conceitos dos conceitos em Qi.

Page 31: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

31

Critérios de QI para Análise da Reformulação da

Consulta

Onde |Cclj| é o número de conceitos em Qj os quais

são conceitos aproximados dos conceitos em Qi.

|Cpwj| é o número de conceitos em Qj que são

conceitos parte/todo dos conceitos em Qi.

QuLM e AccLM também são calculados.

Page 32: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

32

Critérios de QI para Análise da Reformulação da

Consulta

Dado um conjunto de peers P = {P1, ..., Pn} e um

conjunto de QuEM entre os pares de peers QuEM =

{QuEM1, ..., QuEMn} definimos a medida de

enriquecimento acumulado da seguinte maneira:

Page 33: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

33

Critérios de QI para Análise da Reformulação da

Consulta

Exemplificando...

Considerando correspondências semânticas super

conceito e sub conceito

Page 34: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

34

Critérios de QI para Análise da Reformulação da

Consulta

Considerando correspondências semânticas super

conceito e sub conceito

Page 35: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

35

Critérios de QI para Análise da Reformulação da

Consulta

Considerando correspondências semânticas super

conceito e sub conceito

Page 36: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

36

Critérios de QI para Análise da Reformulação da

Consulta

O caminho para o peer P4 tem uma medida de perda

semântica menor.

O caminho para o peer P3 tem uma medida de

enriquecimento semântico maior.

Caminho AccLM AccEM

P1 – P2 – P3 0,7525 1,2140

P1 – P2 – P4 0,2500 0,7820

Page 37: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

37

Experimentos e Resultados

Page 38: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

38

Critérios de QI – Experimentos e Resultados

PDMS SPEED

Java

Eclipse

Page 39: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

39

SPEED - Arquitetura

O sistema SPEED é um PDMS baseado em

semântica, composto de pontos cujos esquemas

exportados são representados por ontologias.

Page 40: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

40

Critérios de QI – Experimentos e Resultados

Ações tomadas

Page 41: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

41

Critérios de QI – Experimentos e Resultados

Page 42: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

42

Critérios de QI – Experimentos e Resultados

Em nosso experimento levamos em consideração:

– um conjunto de cinco peers interconectados e

compartilhando informações no domínio de educação.

– A consulta original submetida no peer P2178 foi:

Professor, Manual, Schedule, Monitor.

– Serão obtidas as medidas de perdas e enriquecimento

semânticos.

– As correspondências semânticas consideradas foram:

sub conceito (subconcept), super conceito

(superconcept), aproximação (closeto) e parte/todo

(partof/wholeof)

Page 43: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

43

Critérios de QI – Experimentos e Resultados

De onde vem as correspondências semânticas?

– Arquivo de alinhamento para cada par de peer na

rede.

Page 44: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

44

Critérios de QI – Experimentos e Resultados

Page 45: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

45

Critérios de QI – Experimentos e Resultados

Par de Peers Consulta Reformulada Tipos de Conceitos Adquiridos

P2178 – P2378 Software, VisitingProfessor, Schedule,

Monitor, UndergraduateStudent,

Professor, Manual, Publication

Software closeto Manual,

VisitingProfessor subconcept of

Professor, UndergraduateStudent

superconcept of Monitor, Publication

superconcept of Manual.

P2178 – P2478 VisitingProfessor, Monitor, Professor VisitingProfessor subconcept of

Professor.

P2378- P2978 Software, Course, Schedule, Product,

Professor

Software subconcept of Product, Course

part of UndergraduateStudent, Product

superconcept of Software.

P2478 – P2578 Monitor

Page 46: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

46

Conclusões

Page 47: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

47

Conclusões

Neste trabalho, concebemos critérios de QI que

fornecem medidas semânticas da perda e ganho de

conceitos durante o processo de reformulação da

consulta.

Page 48: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

48

Conclusões – Contribuições

Elucidação e definição dos termos perda semântica e

degradação da consulta;

A especificação de 4 critérios de QI para análise da

reformulação de consultas;

Validação da nossa proposta com a implementação e

experimentos no PDMS SPEED;

Page 49: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

49

Conclusões – Trabalhos Futuros

Investigar outros critérios de QI para ser usado na

avaliação de outros elementos de um ambiente

dinâmico e distribuído;

Avaliação da qualidade dos resultados da consulta.

Implantação e teste em um ambiente real.

Page 50: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

50

Publicações

Artigo: Souza, B. F. F. ; Salgado, A.C ; Batista, M.C.M . Critérios de

Qualidade da Informação em Reformulação de Consultas em um

PDMS: Uma Perspectiva. I Escola Paraibana de Informática, 2011,

João Pessoa.

Artigo: Souza, B. F. F. ; Batista, M.C.M ; Salgado, A.C. Semantic Loss

in Query Reformulation in Dynamic Distributed Environments. 6th

Alberto Mendelzon International Workshop on Foundations of Data

Management (AMW), 2012, Ouro Preto – MG.

Artigo: Freire, C. ; Souza, B. F. F. ; Souza, D. ; Batista, M.C.M ; Salgado,

A. C. Towards an Information Quality Approach to Enhance Query

Routing Processes. 14th International Conference on Information

Integration and Web-based Applications & Services (iiWAS), 2012, Bali -

Indonesia.

Artigo: Freire, C. ; Souza, B. F. F. ; Souza, D. ; Batista, M.C.M ; Salgado,

A. C. Semantic Measures as Information Quality Criteria for Query

Routing Processes. International Journal of Business Intelligence and

Data Mining, 2013.

Page 51: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

51

MUITO OBRIGADO!!!

Page 52: Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments

Defesa de Mestrado

Recife, 09 de setembro de 2013

Information Quality Criteria Analysis in Distributed

Dynamic Environments

Orientadora: Ana Carolina Salgado

Co-orientadora: Maria da Conceição M. Batista

Bruno Felipe de França [email protected]