25
Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto, Michele Dinardo, Vito La Porta Relatore: Michele Dinardo

Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

Embed Size (px)

Citation preview

Page 1: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

Efficient Top-k Query Evaluation on Probabilistic DataChristopher Ré, Nilesh Dalvi, Dan Suciu

University of Washington

Presentazione di:

Giacomo Aceto, Michele Dinardo, Vito La Porta

Relatore: Michele Dinardo

Page 2: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

2

Visione di alto livello

DBMS: risposte esatte su dati precisi I dati sono spesso imprecisi

Match tra oggetti di database diversi Dati estratti automaticamente da testi

Database probabilistici gestiscono l’imprecisione La valutazione delle query SQL è NP-completa Molte risposte dovute a improbabili corrispondenze Utente interessato alle risposte di alta qualità

Efficiente Top-k, ordinato per probabilità

Page 3: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

3

Overview

Esempio motivante e nozioni di baseEsempio motivante e nozioni di base MultisimulazioneMultisimulazione Risultati sperimentaliRisultati sperimentali

Page 4: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

4

Alice necessita di fare estrazione e riconciliazione di dati

• Grande interesse per i dati riguardanti film (attori, registi, ecc)

• Dati ben mantenuti e precisi• Ma mancano le recensioni…

Un database probabilistico può aiutare Alice a memorizzare e

interrogare i suoi dati incerti

Come faccio a sapere a quali

film si riferiscono?

Alice necessita di analisi di confidenza

Sul web ci sono molte

recensioni

Scenario

IMDB

RecensioniRecensioniIn quali anni Anthony Hopkins è apparso in

film con alta votazione?

Quali attori di Pulp Fiction sono apparsi in due film scarsi nei cinque anni

precedenti a Pulp Fiction?

Page 5: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

5

Riconciliazione di dati

Mokey Lovea845

12 Monkeysa282

Titleasin

Monkm656

Twelve Monkeys (1995)m389

Love Storym845

Twelve Monkeysm897

Titlemid

0.1m656a282

0.3m897a845

0.4m389a282

0.3m845a845

0.5m897a282

pmidasin

Tabella di match che cattura l’incertezza

Dati di IMDB

Recensioni di Amazon

1

[ACG02], [CGG03] e [HS95] per score di similarità automatizzati

1

Page 6: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

6

Associamo variabili booleane alle tuple

Tuple come variabili booleane

altrimenti

presente è se

false

ttruee i

i

asin mid p

a282 m897 0.5

a282 m389 0.4

1e

2e

Ogni istruzione SQL costruisce un’espressione di variabili

booleane, secondo l’algebra relazionale probabilistica ([FR97])

Page 7: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

7

Cenni alla Selezione

asin mid p

a282 m897 0.5

a282 m389 0.4

'389'mmid

asin mid

a282 m389

1e2e

2e

Page 8: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

8

Cenni al Prodotto Incrociato

asin mid p

a282 m897 0.5

a282 m389 0.4

asin p

a282 0.51f

11 fe

2e1e

12 fe

asin mid

a282 m897

a282 m389

Page 9: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

9

Cenni alla Proiezione

asin mid p

a282 m897 0.5

a282 m389 0.4

asin

a282 21 ee

2e1e

asin

Page 10: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

10

Formule DNF su Tuple

Obiettivo: ottenere una formula DNF

mri

m1i

2ri

21i

1ri

11iii eeeeeeEt

Ma DNF SAT è NP-completo...

E qui entrano in gioco gli algoritmi

approssimativi...

SATà DNF probabilittp i

Page 11: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

11

Metodo Monte Carlo: intuizione

NX

X

superficie

superficie

lago

terreno

X

superficieNXsuperficie terreno

lago

1000lagosuperficie

Superficie terreno = 1000 m²X colpi di cannoneN numero palle cadute sulla terra

500lagosuperficie

3.333lagosuperficie

375lagosuperficie

Come calcolare la

superficie del lago?

Page 12: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

12

La simulazione riduce l’incertezzaIncertezza sulla probabilità

Dopo N passi di simulazione garantisce, con alta probabilità, che:

Algoritmo di Luby-Karp [LK84]

Na Nb0.0 1.0

enza di confidintervallobaEp NNi ,

Page 13: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

13

Per ogni tupla candidata, applica l’algoritmo di Luby-Karp fino a quando l’intervallo non raggiunge un’ampiezza prefissata ε (N libero).

Simulazione Naive

0.0 1.0

Christopher Walken

Harvey Keitel

Samuel L. Jackson

Bruce Willis

1

3

4

2

ε

ε

Page 14: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

14

Analisi della Simulazione NaiveEsempio:• i = 4• k = 2

ε troppo piccolo ε troppo grande

Non è proprio il meglio che

possiamo avere...

Page 15: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

15

Overview

Esempio motivante e nozioni di baseEsempio motivante e nozioni di base MultisimulazioneMultisimulazione Risultati sperimentaliRisultati sperimentali

Page 16: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

16

Multisimulazione

k-separazione: esiste un insieme T di k intervalli tale che nessuno di essi è annidato ad un intervallo non appartenente a T.

Es.: k = 2

Christopher Walken

Harvey Keitel

Samuel L. Jackson

Bruce Willis

T

Page 17: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

17

Quando la ragione critica diventa vuota...

...otteniamo la k-separazione

Idea chiave: Regione Critica

Ad ogni passo, la regione critica è l’intervallo:

iesimoiesimo bkakdc 1 ,,

Mitico!!!Es.: k = 2

Page 18: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

18

Algoritmo MS_TopK

/*candidate n tupleG* /:),(_ kGTopKMS

1,0,, Assegna 11 nn baba

d docwhile

simulare da un scegli :1 Caso sserdouble cro

simulare da un un scegli :3 Caso ssimalecrosser ma

simulare da un scegli :2 Caso r crosserupper/lowe

dcUpdate ,

end while

Treturn

Page 19: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

19

Algoritmo MS_RankK

Algoritmo ricorsivo che classifica le top-k tuple

),(_ kGTopKMSTk

,1)MS_TopK(TT 21

1),kTopK(TMST k1k _

2),kMS_TopK(TT 1k2k

Es.: k = 2

412 ,GGT

11 GT

2G

1G

3G

4G

1

2

Page 20: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

20

Overview

Esempio motivante e nozioni di baseEsempio motivante e nozioni di base MultisimulazioneMultisimulazione Risultati sperimentaliRisultati sperimentali

Page 21: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

21

Dettagli sull’esperimento

Tabella di match Numero Tuple

Match tra titoli 339k

Match tra attori 6758k

Match tra registi 18k

Amazon IMDB

Attori FilmRecensioni

Page 22: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

22

Tempo di esecuzione

Il metodo naive impiega circa 20 minuti

La multisimulazione ha tempi di risposta nettamente migliori

In quali anni Anthony Hopkins è apparso in film con alta votazione?

Page 23: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

23

Numero Totale di Simulazioni

RankK trae benefici da valori bassi di k;

Per TopK il numero di step è indipendente da k;

Quali attori di Pulp Fiction sono apparsi in

due film scarsi nei cinque anni precedenti

a Pulp Fiction?

Page 24: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

24

Conclusioni

OPT: Algoritmo non deterministico ottimale che conosce il

numero di passi da simulare Confronto con OPT:

1) La multisimulazione compie al più il doppio dei passi di simulazione rispetto a OPT

2) Nessun algoritmo deterministico è migliore su ogni istanza

Estensione: Algoritmo any-time per l’ordinamento

Page 25: Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

25

E se non ci sono domande...

grazie per l’attenzione