32
On the Complexity of Fundamental Problems in Pedigree Analysis Seminar „Aktuelle Themen der Bioinformatik“ Martin Löwer Antonio Piccolboni, Dan Gusfield Johann Wolfgang Goethe Universität Frankfurt a. Fachbereich für Biologie und Informatik

On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Embed Size (px)

Citation preview

Page 1: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

On the Complexity of Fundamental Problems in

Pedigree Analysis

Seminar „Aktuelle Themen der Bioinformatik“

Martin Löwer

Antonio Piccolboni, Dan Gusfield

Johann Wolfgang Goethe Universität Frankfurt a.M.Fachbereich für Biologie und Informatik

Page 2: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

2

Inhalt

1. Motivation2. Stammbäume3. Problemstellungen4. Einschränkungen des Modells5. MaxP ist NP-hart6. Approximierung von MaxP7. Die Klasse #P8. MP ist #P-hart9. Diskussion der Ergebnise

Page 3: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

3

1. Motivation

Hohe Beduetung der Analyse von Stammbaumdaten

Es ist keine worst-case-effiziente Methode für die Berechnung von Wahrscheinlichkeiten in Stammbäumen bekannt

Page 4: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

4

1.1 Zu Zeigen:

Geringe Abweichungen von den Fällen, in denen effiziente Berechnungen möglich sind, führen zur NP-Härte

Approximation nur bis zu einem exponentiellen Faktor möglich

Page 5: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

5

2. Stammbäume

Ein Stammbaum ist ein gerichteter, azyklischer Graph, der Grad der eingehenden Kanten ist bei jedem Knoten 0 oder 2 und der zugehörige Heiratsgraph ist bipartit.

Der Heiratsgraph eines gerichteten Graphen G = (V,E) ist ein ungerichteter Graph H = (V,E*) mit E* = {(v,w) : v,w V und z V : (v,z) E (w,z) E)}

Zyklen im ungerichteten Stammbaum: Inzucht und Zwillinge

Unterscheidung der Individuen in Gründer und Nichtgründer

Page 6: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

6

2.1 Stammbäume

Bekannte Algorithmen:– Lander und Green (1987)– Elston und Steward (1971)

Bisherige Annahme: Inzestzyklen sind die größte Problemquelle

Page 7: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

7

2.2 Stammbäume

Komplette Probleminstanz beinhaltet noch zwei Zufallsvariablen pro Knoten:

Phänotyp und Genotyp Probleme der Stammbaumanalyse

entstehen durch fehlende Werte für diese Variablen

Page 8: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

8

2.3 Stammbäume

Verteilung der Zufallsvariablen:– P(gi) Wahrscheinlichkeitsverteilung des Genotyps

von Gründer i – P(gi|gv(i),gm(i)) Wahrscheinlichkeitsverteilung des

Genotyps von Nichtgründer i– P(yi|gi) Wahrscheinlichkeitsverteilung des

Phänotyps von Individuum i P(gi|gv(i),gm(i)) muß genetische Realität

wiederspiegeln, wird daher oft durch einfache Regeln der Mendelgenetik beschrieben

Page 9: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

9

2.4 Stammbäume

Gesamtwahrscheinlichkeit eines Stammbaums, bzw. der Score:P(G,Y) = Gründer i P(gi) P(yi|gi) Nichtgründer i P(gi|gv(i),gm(i)) P(yi|gi)

Page 10: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

10

3. Die Probleme

MaxP - Maximale Wahrscheinlichkeit:Gegeben sei ein Stammbaum mit Ws‘keitsverteilungen und einer Teilmenge G* der Genotypen G bzw. Y* Phänotypen Y.

Berechne max G\G*,Y\Y* P(G,Y)

MP - Marginale Wahrscheinlichkeit:Gegeben sei ein Stammbaum mit Ws‘keitsverteilungen und einer Teilmenge G* der Genotypen G bzw. Y* Phänotypen Y.

Berechne

P(G*,Y*) = G\G*,Y\Y* P(G,Y)

Page 11: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

11

4. Einschränkungen des Modells

Beschränkung auf Spezialfälle, die in allen anderen Modellen enthalten sind:– Ein Locus– Zwei Chromosomen– Zwei Allele (A und a)– Phänotyp wird vernachlässigt, da 1 zu 1 vom Genotyp

abhängig– Einfaches Mendel‘sches Verebungsmodell ohne Mutationen– Keine Inzestzyklen

Page 12: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

12

5. MaxP ist NP-hart

Beweis durch Reduktion von 3-MIS (Garey et al., 1976)

3-MIS: Maximale unabhänige Knotenmenge in einem Graphen G = (V,E), wobei der maximale Grad eines Knotens drei ist

Im Folgenden sei e = |E| und v = |V|, die Elemente von V werden mit 1,2,....,v benannt, die Lösung von 3-MIS(G) sei s

Page 13: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

13

5.1 Reduktion G MAXP(G)Für jeden Knoten i V:5i, aa 5i+2 5i+4, AA

5i+1, Aa 5i+3

Für jede Kante {i, j} E:5i+2 5j+3

{i, j}, Aa

5i+3 5j+2

{i, j}*, Aa

Insgesamt l = 5v + 2e Individuen

Page 14: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

14

5.2 Wahrscheinlichkeitsverteilung in MAXP(G)

Verteilung für die Gründer:– P(a) = 1/3– P(aa) = 1/9– P(Aa) = P(AA) = 4/9– Wahrscheinlichkeiten stimmen mit dem

Hardy-Weinberg-Gesetz überein

Page 15: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

15

5.3 Beobachtungen

Eine Lösung von MAXP(G), die den Wert 0 annimmt, heißt degeneriert

Wenn eine Lösung von MAXP(G) einen Score von größer als 0 hat, gilt folgendes:

1. i V : weder 5i+2 noch 5i+3 hat den Genotyp aa

2. (i, j) E : 5i+2 und 5j+3 können nicht beide den Genotyp AA annehmen

3. i V : wenn 5i+2 den Genotyp AA hat, muß 5i+3 auch AA haben

Page 16: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

16

5.4 Der Score von MAXP(G)

Eine degenerative Belegung kann nicht optimal sein, denn:

Score(MAXP(G)) 1

36v 22e-2v> 0

Page 17: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

17

Sei s = |{i V: 5i+2 ist mit AA belegt}|, dann hat MAXP(G) genau folgenden Score:

Es gilt dann folgendes:1. Wenn s die Größe des MIS in G ist, dann hat die optimale

Lösung von MAXP(G) mindestens den Wert des obigen Bruchs

2. Wenn eine Lösung von MAXP(G) einen Score von größer 0 hat, dann ist {i V: 5i+2 ist mit AA belegt} eine unabhängige Knotenmenge

3. Wenn die optimale Lösung von MAXP(G) obigen Score hat, dann ist die Größe der maximalen unabhänigen Knotenmenge in G mindestens s

5.5 Der Score von MAXP(G)

1

36v 22e-2v-2s

Page 18: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

18

5.6 Der Score von MAXP(G)

Werden die vorherigen Beobachtungen kombiniert, gilt:

Genau dann wenn der Score von MAXP(G) gleich ist, ist s die Größe der maximalen unabhängigen Knotenmenge in G.

136v 22e-2v-2s

Page 19: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

19

6. Approximieren von MAXP

3-MIS ist von einem Polynominalzeit-Algorithmus nur bis zu einem Faktor von 1,0005 approximierbar, d.h wenn s* die optimale Lösung ist, ist ist s*/s größer als c = 1,0005 (Berman und Karpinski, 1999)

Wir betrachten zuerst den negativen Logarithmus zur Basis 2 von MAXP

Page 20: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

20

6.1 Approximieren von MAXP

Durch die Beschränkung des Grades der Knoten gilt: s* > v/4 und e 3v/2

Die Approximationsrate R von log-MAXP ist dann 1.000071393

Page 21: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

21

6.2 Approximieren von MAXP

Durch die vorherigen Ergebnisse kann man den Score von MAXP(G) folgendermaßen abschätzen:

1

2/8(R-1)l-2R+2Score(MAXP(G)) <

l = 5v+2e = 6 ld 3 -2

Page 22: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

22

6.3 Approximieren von MAXP

Das bedeutet: Das Verhältnis vom optimalen Score zu dem besten durch einen eff. Algorithmus berechenbaren wächst exponentiell mit l, der Stammbaumgröße

Page 23: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

23

7. Die Klasse #P

Ein Sprache gehört zur Klasse #P, wenn die Anzahl ihrer Lösungen von einer NTM in polynomineller Zeit berechnet werden kann

#P-Härte ist analog zur NP-Härte durch die polynominelle Reduktion definiert

Page 24: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

24

8. MP ist #P-hart

Beweis durch Reduktion von #IS (Dyer und Greenhill, 2000)

#IS: Berechne die Anzahl der unabhänigen Knotenmengen in einem Graphen G = (V,E) mit einem maximalen Knotengrad von 3

Im Folgenden sei e = |E| und v = |V|, die Elemente von V werden mit 1,2,....,v benannt, die Lösung von #IS sei S

Page 25: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

25

8.1 Reduktion G MP(G)

Für jeden Knoten i V:3i, AA 3i+2, Aa

3i+1

Page 26: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

26

8.2 Reduktion G MP(G)

Für jede Kante {i, j} E:

({i, j},0), AA 3i+1

({i, j},1)

({i, j},3), Aa

({i, j},8)

({i, j},9), AA

({i, j},4), AA

({i, j},2)

({i, j},6), Aa

({i, j},7)

3j+1

({i, j},5), Aa

Insgesamt 3v + 10e Individuen

Page 27: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

27

8.3 Wahrscheinlichkeitsverteilung in MP(G)

Verteilung für die Gründer wie im vorherigen Beweis

P(AA3i+1)= P(Aa3i+1)=1/2, i {1,...,v} Marginale Wahrscheinlichkeiten für das

Kantengadget in Abängigkeit von 3i+1 und 3j+1:

3i+1 3j+1 P

AA AA 0

AA Aa 3/32

Aa AA 3/32

Aa Aa 3/32

Page 28: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

28

8.4 Marginale Wahrscheinlichkeiten für die Vorfahren von ({i, j},4)

3i+1 3j+1 ({i,j},2) P2 ({i,j},7) P7 P4

AA Aa AA ½ AA 1/4 1 1/8

AA Aa AA ½ Aa ½ ½ 1/8

AA Aa Aa ½ AA 1/4 ½ 1/16

AA Aa Aa ½ Aa ½ 1/4 1/16

Summe 3/8

Aa Aa AA ¼ AA 1/4 1 1/16

Aa Aa AA 1/4 Aa ½ ½ 1/16

Aa Aa Aa ½ AA 1/4 ½ 1/16

Aa Aa Aa ½ Aa ½ 1/4 1/16

Summe 1/4

Page 29: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

29

8.5 Marginale Wahrscheinlichkeiten für die Vorfahren von ({i, j},5)

3i+1 3j+1 ({i,j},1) P1 ({i,j},8) P8 P5

AA Aa AA 1 AA ½ 0 0

AA Aa AA 1 Aa ½ ½ 1/4

Summe 1/4

Aa Aa AA ½ AA ½ 0 0

Aa Aa AA ½ Aa ½ ½ 1/8

Aa Aa Aa ½ AA ½ ½ 1/8

Aa Aa Aa ½ Aa ½ ½ 1/8

Summe 3/8

Page 30: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

30

8.6 Beobachtungen

Falls der Score von MP(G) größer als Null ist, gilt:

1. i V: Genotyp von 3i+1 ist nicht aa

2. {i,j} E: Genotyp von 3i+1 und 3j+1 ist nicht bei beiden AA

Page 31: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

31

8.7 Der Score von MP(G)

Score(MP(G)) = S 3e

2v + 5e

S = Lösung von #IS(G)

Page 32: On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield

Seminar "Aktuelle Themen der Bioinformatik"

32

9. Diskussion der Ergebnisse

NP-Härte gilt auch für komplexere Modelle Beschränkung der Worst-Case Laufzeit von

Algorithmen Ausschluß der Spezialfälle beim

Algorithemndesign Auch der Ausschluß von Inzestzyklen kann

zu hoher Komplexität führen Bei MaxP sind die Ergebnisse von effizienten

Algoryithmen teilweise unbrauchbar (solange P NP)