50
AlgoB seminar, LIGM 26/05/2015 - Champs-sur-Marne Finding a tree in a phylogenetic network Philippe Gambette Main results: joint work with Andreas Gunawan, Anthony Labarre, Stéphane Vialette and Louxin Zhang.

Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

AlgoB seminar, LIGM26/05/2015 - Champs-sur-Marne

Finding a treein a phylogenetic network

Philippe Gambette

Main results: joint work with Andreas Gunawan, Anthony Labarre, Stéphane Vialette and Louxin Zhang.

Page 2: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

• Phylogenetic networks

• Who is who in phylogenetic networks?

• Classes of phylogenetic networks

• The Tree Contaiment Problem

• A quadratic-time algorithm on quasi-stable networks

Outline

Page 3: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Outline

• Phylogenetic networks

• Who is who in phylogenetic networks?

• Classes of phylogenetic networks

• The Tree Contaiment Problem

• A quadratic-time algorithm on quasi-stable networks

Page 4: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Phylogenetic trees

Phylogenetic tree of a set of species

A B C

species tree S

“tokogeny” of individuals

A B C

Page 5: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

A B C

Genetic material transfers

Transfers of genetic material between coexisting species:

• lateral gene transfer

• hybridization

• recombination

S

A B C

Page 6: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

A B C

Genetic material transfers

Transfers of genetic material between coexisting species:

• lateral gene transfer

• hybridization

• recombination

network N

A B C

A B C

species tree S

A B C gene G1

Page 7: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

A B C

Genetic material transfers

Transfers of genetic material between coexisting species:

• lateral gene transfer

• hybridization

• recombination

network N

A B C

incompatible gene trees

A B C

A B C

species tree S

A B C

gene G2

gene G1

Page 8: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Phylogenetic networks

Phylogenetic network: network representing evolution data

• explicit phylogenetic networks

model evolution

• abstract phylogenetic networks

classify, visualize data

TCS

minimum spanning network

SplitsTree

split network

Network

median network

Simplistic

level-2 network

HorizStory

synthesisdiagram

Dendroscope

gallednetwork

Page 9: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Books about phylogenetic networks

Huson, Rupp, Scornavacca, 2011

Morrison, 2011

Dress, Huber, Koolen, Moulton,

Spillner, 2012

Gusfield, 2014

Page 10: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

The Phylogenetic Network Workshop, 27 - 31 Jul 2015, Institute for Mathematical Science (National University of Singapore)

Workshops about phylogenetic networks

The Future of Phylogenetic Networks, 15-19 October 2012, Lorentz Center,Leiden, The Netherlands

Utilizing Genealogical Phylogenetic Networks in

Evolutionary Biology:Touching the Data,

7-11 July 2014, Lorentz Center, Leiden, The Netherlands

Page 11: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Outline

• Phylogenetic networks

• Who is who in phylogenetic networks?

• Classes of phylogenetic networks

• The Tree Contaiment Problem

• A quadratic-time algorithm on quasi-stable networks

Page 12: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Who is who in Phylogenetic Networks?

http://phylnet.univ-mlv.fr

Based on BibAdmin by Sergiu Chelcea+ tag clouds, date histograms, journal lists, keyword definitions, co-author graphs

Analysis of the co-author and keyword graphs: internship of Tushar Agarwal

Who is Who in Phylogenetic Networks, Articles, Authors & Programs

Page 13: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Who is who in Phylogenetic Networks?

Who is Who in Phylogenetic Networks, Articles, Authors & Programs

Analysis of the co-author and keyword graphs: internship of Tushar Agarwal http://phylnet.univ-mlv.fr

Page 14: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Who is who in Phylogenetic Networks?

Gephi visualization of the coauthor network of main authors by Tushar

Page 15: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Who is who in Phylogenetic Networks?

Basé sur BibAdminpar Sergiu Chelcea+ nuages de mots, histogramme des dates, liste des journaux, graphes de co-auteurs, définition des mots-clés.

Who is Who in Phylogenetic Networks, Articles, Authors & Programs

http://phylnet.univ-mlv.fr

Page 16: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Who is who in Phylogenetic Networks?

Page 17: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Who is who in Phylogenetic Networks?

input

software

Page 18: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Who is who in Phylogenetic Networks?

input

software

Eclasses

algorithmic propertiesproblems

Page 19: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Outline

• Phylogenetic networks

• Who is who in phylogenetic networks?

• Classes of phylogenetic networks

• The Tree Contaiment Problem

• A quadratic-time algorithm on quasi-stable networks

Page 20: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Classes of Phylogenetic Networks

regular

normal

level k

tree-sibling

explicitrooted

tree

level-1

level-2

tree-child

nearly stable stable

CLS

geneticallystable

gallednetwork

stable-child

minimumspread k+1

minimumspread 1

minimumspread 3

minimumspread 2

unicyclic

nested

Page 21: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Classes of Phylogenetic Networks

regular

normal

level k

tree-sibling

explicitrooted

tree

level-1

level-2

tree-child

nearly stable stable

CLS

geneticallystable

gallednetwork

stable-child

minimumspread k+1

minimumspread 1

minimumspread 3

minimumspread 2

unicyclic

nested

Analysis ofthe relationshipsand propertiesof thesenetwork classes:internship of Maxime Morgado

Page 22: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Outline

• Phylogenetic networks

• Who is who in phylogenetic networks?

• Classes of phylogenetic networks

• The Tree Contaiment Problem

• A quadratic-time algorithm on quasi-stable networks

Page 23: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

network N

Phylogenetic network reconstruction

{gene sequences}

G1 G2

espèce 1 : AATTGCAG TAGCCCAAAATespèce 2 : ACCTGCAG TAGACCAATespèce 3 : GCTTGCCG TAGACAAGAATespèce 4 : ATTTGCAG AAGACCAAATespèce 5 : TAGACAAGAATespèce 6 : ACTTGCAG TAGCACAAAATespèce 7 : ACCTGGTG TAAAAT distance methods

Bandelt & Dress 1992 - Legendre & Makarenkov 2000 - Bryant & Moulton 2002 - Chan, Jansson, Lam & Yiu 2006

parsimony methodsHein 1990 - Kececioglu & Gusfield 1994 - Jin, Nakhleh,

Snir, Tuller 2009 - Park, Jin & Nakhleh 2010 - Kannan & Wheeler, 2012

likelihood methodsSnir & Tuller 2009 - Jin, Nakhleh, Snir, Tuller 2009 -

Velasco & Sober 2009 - Meng & Kubatko 2009

Page 24: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Problem: methods are usually slow,especially with rapidly increasing sequence length.

{gene sequences}

network N

Phylogenetic network reconstruction

distance methodsBandelt & Dress 1992 - Legendre & Makarenkov 2000 -

Bryant & Moulton 2002 - Chan, Jansson, Lam & Yiu 2006

parsimony methodsHein 1990 - Kececioglu & Gusfield 1994 - Jin, Nakhleh,

Snir, Tuller 2009 - Park, Jin & Nakhleh 2010 - Kannan & Wheeler, 2012

likelihood methodsSnir & Tuller 2009 - Jin, Nakhleh, Snir, Tuller 2009 -

Velasco & Sober 2009 - Meng & Kubatko 2009

G1 G2

espèce 1 : AATTGCAG TAGCCCAAAATespèce 2 : ACCTGCAG TAGACCAATespèce 3 : GCTTGCCG TAGACAAGAATespèce 4 : ATTTGCAG AAGACCAAATespèce 5 : TAGACAAGAATespèce 6 : ACTTGCAG TAGCACAAAATespèce 7 : ACCTGGTG TAAAAT

Page 25: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

{trees}

{gene sequences}

Reconstruction of a tree for each gene present in several species

Guindon & Gascuel, SB, 2003

Tree reconciliation or consensus

Phylogenetic network reconstruction

G1 G2

T1

T2

espèce 1 : AATTGCAG TAGCCCAAAATespèce 2 : ACCTGCAG TAGACCAATespèce 3 : GCTTGCCG TAGACAAGAATespèce 4 : ATTTGCAG AAGACCAAATespèce 5 : TAGACAAGAATespèce 6 : ACTTGCAG TAGCACAAAATespèce 7 : ACCTGGTG TAAAAT

optimal super-network N:- contains the input trees- has the smallest number of reticulations

HOGENOM DatabaseDufayard, Duret, Penel, Gouy, Rechenmann & Perrière, BioInf, 2005

explicit network

http://doua.prabi.fr/databases/hogenom/home.php?contents=hogenom4

Page 26: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

{trees}

{gene sequences}

Reconstruction of a tree for each gene present in several species

Guindon & Gascuel, SB, 2003

Tree reconciliation or consensus

Phylogenetic network reconstruction

G1 G2

T1

T2

espèce 1 : AATTGCAG TAGCCCAAAATespèce 2 : ACCTGCAG TAGACCAATespèce 3 : GCTTGCCG TAGACAAGAATespèce 4 : ATTTGCAG AAGACCAAATespèce 5 : TAGACAAGAATespèce 6 : ACTTGCAG TAGCACAAAATespèce 7 : ACCTGGTG TAAAAT

optimal super-network N:- contains the input trees- has the smallest number of reticulations

HOGENOM DatabaseDufayard, Duret, Penel, Gouy, Rechenmann & Perrière, BioInf, 20051470 species, >290 000 trees

explicit network

http://doua.prabi.fr/databases/hogenom/home.php?contents=hogenom4

Page 27: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

{trees}

{gene sequences}

Reconstruction of a tree for each gene present in several species

Guindon & Gascuel, SB, 2003

Tree reconciliation or consensus

Phylogenetic network reconstruction

G1 G2

T1

T2

espèce 1 : AATTGCAG TAGCCCAAAATespèce 2 : ACCTGCAG TAGACCAATespèce 3 : GCTTGCCG TAGACAAGAATespèce 4 : ATTTGCAG AAGACCAAATespèce 5 : TAGACAAGAATespèce 6 : ACTTGCAG TAGCACAAAATespèce 7 : ACCTGGTG TAAAAT

optimal super-network N:- contains the input trees- has the smallest number of reticulations

HOGENOM DatabaseDufayard, Duret, Penel, Gouy, Rechenmann & Perrière, BioInf, 20051470 species, >290 000 trees

explicit network

http://doua.prabi.fr/databases/hogenom/home.php?contents=hogenom4

Tree Containment Problem

Page 28: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

The Tree Containment Problem (T.C.P.)

Input: A binary phylogenetic network N and a tree T over the same set of taxa.

Question: Does N display T?

Page 29: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

The Tree Containment Problem (T.C.P.)

Input: A binary phylogenetic network N and a tree T over the same set of taxa.

Question: Does N display T?

→ Can we remove one incoming arc, for each vertex with >1 parent in N, such that the obtained tree is equivalent to T?

N

a b c da b c d

T

Page 30: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

The Tree Containment Problem (T.C.P.)

Input: A binary phylogenetic network N and a tree T over the same set of taxa.

Question: Does N display T?

→ Can we remove one incoming arc, for each vertex with >1 parent in N, such that the obtained tree is equivalent to T?

a b c d

T N

a b c d

Page 31: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

The Tree Containment Problem (T.C.P.)

Input: A binary phylogenetic network N and a tree T over the same set of taxa.

Question: Does N display T?

• NP-complete in general (Kanj, Nakhleh, Than & Xia, 2008)

• NP-complete for tree-sibling, time-consistent, regular networks (Iersel, Semple & Steel, 2010)

• Polynomial-time solvable for normal networks, for binary tree-child networks, and for level-k networks (Iersel, Semple & Steel, 2010)

Page 32: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Classes of Phylogenetic Networks and the T.C.P.

regular

normal

level k

tree-sibling

explicitrooted

tree

level-1

level-2

tree-child

nearly stable stable

CLS

geneticallystable

gallednetwork

stable-child

minimumspread k+1

minimumspread 1

minimumspread 3

minimumspread 2

unicyclic

nested

Page 33: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Classes of Phylogenetic Networks and the T.C.P.

regular

normal

level k

tree-sibling

explicitrooted

tree

level-1

level-2

tree-child

nearly stable stable

CLS

geneticallystable

gallednetwork

stable-child

minimumspread k+1

minimumspread 1

minimumspread 3

minimumspread 2

unicyclic

nested

b

b

State of the art

Page 34: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Classes of Phylogenetic Networks and the T.C.P.

regular

normal

level k

tree-sibling

explicitrooted

tree

level-1

level-2

tree-child

nearly stable stable

CLS

geneticallystable

gallednetwork

stable-child

minimumspread k+1

minimumspread 1

minimumspread 3

minimumspread 2

unicyclic

nested

b

b

b

b

b

Our contributions b

Page 35: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Outline

• Phylogenetic networks

• Who is who in phylogenetic networks?

• Classes of phylogenetic networks

• The Tree Contaiment Problem

• A quadratic-time algorithm on quasi-stable networks

Page 36: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Stable and nearly-stable networks

A vertex u is stable if there exists a leaf l such that all paths from the root to l go through u.

A phylogenetic network is stable if every reticulation vertex is stable.

A phylogenetic network is nearly-stable if for each vertex,either it is stable or its parents are.

Page 37: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Strategy to get a quadratic time algorithm for T.C.P.

Given N, a phylogenetic network with n leaves and the input tree T of the T.C.P.

Theorem 1: If N is stable then: #{reticulation vertices of N} ≤ 4(n-1)#{vertices of N} ≤ 9n

Theorem 2: If N is nearly-stable then #{reticulation vertices of N} ≤ 12(n-1)

Theorem 3: Considering a longest path in N, and following a case analysis:• either realize that T is not contained in N • or build a network N’ with less arcs than N such thatT contained in N if and only if T contained in N’

Page 38: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Number of reticulations of a stable network

Decompose N into 2n-2 paths:

• remove one reticulation arc per reticulation,ensuring we get no « dummy leaf », to get a tree T with n leaves

• summarize T into a rooted binary tree T’ with n leaves... and 2n-2 arcs

We can prove (technical) that:each path contains at most 2 reticulation vertices

N

Page 39: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Number of reticulations of a stable network

Decompose N into 2n-2 paths:

• remove one reticulation arc per reticulation,ensuring we get no « dummy leaf », to get a tree T with n leaves

• summarize T into a rooted binary tree T’ with n leaves... and 2n-2 arcs

We can prove (technical) that:each path contains at most 2 reticulation vertices

T

Page 40: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Number of reticulations of a stable network

Decompose N into 2n-2 paths:

• remove one reticulation arc per reticulation,ensuring we get no « dummy leaf », to get a tree T with n leaves

• summarize T into a rooted binary tree T’ with n leaves... and 2n-2 arcs

We can prove (technical) that:each path contains at most 2 reticulation vertices

T T’

Page 41: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Number of reticulations of a stable network

Decompose N into 2n-2 paths:

• remove one reticulation arc per reticulation,ensuring we get no « dummy leaf », to get a tree T with n leaves

• summarize T into a rooted binary tree T’ with n leaves... and 2n-2 arcs

We can prove (technical) that:each path contains at most 2 reticulation vertices

→ N contains at most 4(n-1) reticulation vertices

Page 42: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Number of reticulations of a stable network

« Dummy leaves »?

Deleting reticulation arcs can create « dummy leaves »N

a b c d

Page 43: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Number of reticulations of a stable network

« Dummy leaves »?

Deleting reticulation arcs can create « dummy leaves »N

a b c d

N

a b c d

Page 44: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Number of reticulations of a stable network

Possible to avoid creating « dummy leaves »?

Page 45: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Number of reticulations of a stable network

Possible to avoid creating « dummy leaves »?

Page 46: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Number of reticulations of a stable network

Possible to avoid creating « dummy leaves »?

a b c d

t1 t2 t3

r2r1

X Yt1t2t3

r1r2

Build G(N), bipartite graph such that:• X = reticulation vertices of N

→ all vertices in X have degree 2• Y = tree vertices of N with at least one reticulation child

→ all vertices in Y have degree 1 or 2• edge between x and y iff x is a child of y

Given N

G(N)

Page 47: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Number of reticulations of a stable network

Possible to avoid creating « dummy leaves »?

a b c d

t1 t2 t3

r2r1

X Yt1t2t3

r1r2

Build G(N), bipartite graph such that:• X = reticulation vertices of N

→ all vertices in X have degree 2• Y = tree vertices of N with at least one reticulation child

→ all vertices in Y have degree 1 or 2• edge between x and y iff x is a child of y

→ matching covering every vertex of X → edges to remove from N

Given N

G(N)

Page 48: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Number of reticulations of a nearly-stable network

Reduce nearly-stable networks to stable networks

Page 49: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Deleting reticulation arcs to simplify the question

Simplify N by removing an edge near the end of a longest path P.

Case analysis (8 cases):

Page 50: Finding a tree in a phylogenetic networkigm.univ-mlv.fr/~gambette/Re20150526.pdf · T1 T2 espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce 3 : GCTTGCCG TAGACAAGAAT

Perspectives...

regular

normal

level k

tree-sibling

explicitrooted

tree

level-1

level-2

tree-child

nearly stable stable

CLS

geneticallystable

gallednetwork

stable-child

minimumspread k+1

minimumspread 1

minimumspread 3

minimumspread 2

unicyclic

nested

b

b

b

b

b