33
バイオインフォマティクス (第7回) 慶應義塾大学生命情報学科 榊原康文

バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

バイオインフォマティクス(第7回)

慶應義塾大学生命情報学科

榊原康文

Page 2: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

階層クラスタリングの解:

[1] [2] [3]

A: 0 0 0

B: 1 1 1

C: 2 1 2

D: 3 3 3

A: B: C:

B: 1.732

C: 3.000 1.414

D: 5.196 3.464 2.449

入力ベクトル

A

B C

D

系統樹

距離行列

Page 3: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

進化系統樹とは

◆約40億年前ころ(明確な証拠はない)に最初の生命が誕生

◆系統(phylogeny):◼ 地球上のすべての生物は共通の祖先から進化したと考えたときの,種間の進化的な関係

◼ 進化系統樹(phylogenetic tree)で表現

◆生物学的な分類体系(参考):

◼ 生物を形質(形態,機能,成分)が似たもの同士に分けて体系づける

◼ 「界(かい)」「門(もん)」「綱(こう)」「目(もく)」「科(か)」「属(ぞく)」「種(しゅ)」

◼ 近年では,伝統的な分類体系を系統学の知見を反映させた体系に組替える

Page 4: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

分子進化系統樹

◆分子(配列)進化系統:

◼ すべての配列がある共通祖先の共通遺伝子から受け継が

れたと考えたときの,配列間の進化的な関係

◆注意点:

◼ (形態学的な)生物種の進化系統と配列に基づく分子進化

系統は常に一致するとは限らない

◼ どの配列(タンパク質,RNA配列など)を基にするかによっ

ても得られる分子進化系統樹は異なる

◆祖先の配列は手に入らない

◼ 進化のモデル・仮説が必要

◼ コンピュータと数学・統計が主な解析ツールとなる

Page 5: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

生命の系統樹をつくるためには

◆ rRNAまたはミトコンドリアの配列が用いられる

◼ すべての生物に普遍的に存在

◼ 充分な配列変異の存在,変異の安定性

◆水平伝播があるために,進化系統樹は編目状になる

Page 6: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

系統樹に関する用語

–節点(node),枝(edge),枝長(進化の程度),根(root),葉(leaf)

–有根系統樹(rooted),無根系統樹(unrooted)

–基本的に二分木

有根系統樹無根系統樹

Page 7: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

無根系統樹,有根系統樹

Chickenを外群とした時の有根系統樹

数学的にアルゴリズム的に扱いやすい 生物的進化に関連した分岐を表す

無根系統樹

Page 8: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

進化系統樹

進化系統の簡単なモデル

A CA CC CG T

A CA CC C

A CG T

A CA CC C A CA CC CT GT G AA CG TTA CG

A C

共通祖先の配列

時間

◆枝に沿って変異

◆節点で種分化

Page 9: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

進化系統樹の(再)構築問題

A CA CC C A CA CC CT GT G AA CG TTA CG

系統樹は?

Page 10: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

16S rRNA に基づく生命の進化系統樹

(Doolittle, 2000)

Page 11: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

進化系統樹の(再)構築問題

Human fqtpmviilqaimgsatlamtliift

Chimp fqtpmiiifqaimgsatlaltliift

Gorilla lqtpmviifqaimgsatlamtliift

Seal fqlpmviifqaiiggatlalafitft

Cow fqtpmviifqaiiggatlalalitft

Fin Whale lqtfmviifqaimgettlalafitft

Blue Whale lqtfmviifqaimgettlvlaiitft

Rat fqismiiifqaimggatlvlatitfi

Mouse fqismiiifqaimggatlvlatitfi

Chicken pqismiaffqaimggatlfaatitfi

Cow

root

ChickenSeal

Fin Whale

Blue Whale Mouse

Rat

ChimpHuman

Gorilla?

系統樹に沿って進化したと考えられる生体分子のアライメントが与えられたときに,進化系統樹を構築(発見)する問題

問題のステップ:

1. 系統樹Tのトポロジー(構造)の決定

2. 系統樹Tにおける枝の長さの決定

3. 系統樹Tにおける根の位置の決定

Page 12: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

系統樹の推定手法

◆距離に基づく手法:– UPGMA法,近隣結合法

• 分子時計を仮定,加法性を利用して少しずつ構築

◆系統樹の評価に基づく手法:

– 最節約法,最尤法

• まず,系統樹の評価方法を決めておく

–最節約法:祖先配列から葉までの置換数が小さい

–最尤法:尤度(系統樹からデータ配列を得る確率)が高い

• 評価が最良になるような系統樹を求める– 数え上げ:可能な系統樹から最も評価の良いものを選ぶ

– メトロポリス法:現在の系統樹をちょっとずつ改良してゆく

– などなど

Page 13: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

最(大)節約法

◆ 全ての可能なトポロジーの(無根)系統樹について計算を行う→ 一般に計算量が膨大になる

トポロジー:葉に与えられた配列を割り当て,系統樹の形を一つ定めたもの

◆ 各トポロジーに対して,最小の置換数で説明できる祖先節点の配列を決定する

◆ すべてのトポロジーの中から,最小の置換数で説明できる系統樹を選ぶ

◆ アライメントによって並べられた(縦の)カラム全てについて解析を行う

Page 14: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

最節約法

入力:4つのDNA配列AAGAAAGGAAGA

◆祖先節点の決定:

系統樹全体の置換数の和が

最小になるように決定

◆各カラムは独立に計算可能

Page 15: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

最節約法の問題点◆ 最適解(祖先節点の決定)が複数存在する

◆ 全ての木の探索は膨大な計算時間

◆ 枝ごとの配列変化速度の違いを扱えない

A C A C

A

AA

A C A C

A

A

C

A C A C

C

C

C

いずれも置換数は 2

n は入力配列の数

Page 16: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

距離に基づく手法

距離テーブル:

配列 A: ACGCGTTGGGCGATGGCAAC

配列 B: ACGCGTTGGGCGACGGTAAT

配列 C: ACGCATTGAATGATGATAAT

配列 D: ACACATTGAGTGATAATAAT

A B C D

A 3 7 8

B 6 7

C 3

D

AB間の塩基置換の数

Page 17: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

UPGMA法(unweighted pair group method using

arithmetic averages)

1. アライメントから初期の距離テーブルを計算する

2. 距離が一番近いものを近隣ペアとする

3. クラスタ間距離=配列同士の距離の平均

4. ペアを一つのノードとして,距離テーブルを再構築する

◆ 基本的に,群間平均法(クラスタ間の平均距離)を用いた階層クラスタリング

◆ 分子時計を仮定

◆ UPGMA法の発展形が,NJ法(近隣結合法)

Page 18: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

A B C D E

A 22 39 39 41

B 41 41 43

C 18 20

D 10

E

具体例の計算

DEを近隣ペアとする

新しい距離テーブルA B C DE

A 22 39 40

B 41 42

C 19

DE

AD と AEの平均.

初期距離テーブルA B C D E

A 22 39 39 41

B 41 41 43

C 18 20

D 10

E

A

B

C

D

E

10

12

20

9

4

6

5

Page 19: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

UPGMA法(unweighted pair group method using

arithmetic averages)

1. 各配列のみからなるクラスタを作る

2. 距離 dij が最小のペアを xi, xj 求める

3. クラスタ xi, xjを融合して xk を作る

4. クラスタ間距離を再計算

5. 親節点 xk を高さ dij / 2 の位置に追加

6. クラスタが2個だけになったら,根を高さ dij / 2 に

置いて終了

Page 20: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え
Page 21: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

有根系統樹の根の位置の特定

◆外群

◼ 調べてる配列よりも遠縁である特定の配列

◆外群を使うときに気をつけること

◼ 配列的に似ていて,かつ,充分な違いが必要

◼ あまりに遠縁すぎるとランダムな要素を含んでしまう

系統樹

外群ある系統樹について,根の位置を限定する助けとなる

Page 22: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

Hybridization(雑種形成)

◆ Hybridization は, 異なる種の間の交配によって,染色体を組み合わせることにより起こる

◆ Hybridization は,一般に植物,魚,カエルに限定される

水あさ(water hemp)

ブタ草pigs weed

雑種

Page 23: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

遺伝子の水平伝播

◆バクテリアでは,遺伝子を交換するいくつかのメカニ

ズムが知られている

– Transformation(形質転換)

– Conjugation(接合)

– Transduction(形質導入)

http://www.pitt.edu/~heh1/research.html

(例)

大腸菌とO157株(ベロ毒素)

Page 24: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

網状進化(Reticulate Evolution)の簡単なモデル

ab1 c b3h

PQ

祖先ゲノム

Page 25: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

参考

Page 26: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

最尤法

◆ 確率モデルに基づいて進化系統樹を推定する

◆ 配列の進化の確率モデルを定義して,進化系統樹の尤度を計算する

◆ すべてのトポロジーの中から,尤度が最大となる系統樹を選ぶ

◆ 全ての可能なトポロジーの系統樹について計算を行う

Page 27: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

置換行列

置換確率を行列として表したもの:

=

),|(),|(

),|(),|(

),|(),|(

),|(),|(

),|(),|(

),|(),|(

),|(),|(

),|(),|(

)(

tTTPtTGP

tGTPtGGP

tTCPtTAP

tGCPtGAP

tCTPtCGP

tATPtAGP

tCCPtCAP

tACPtAAP

tS

A C G TA

C

G

T

乗法性 : )()()( stSsStS +=

可逆性 : ba qtbaPqtabP ),|(),|( =

Page 28: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

Jukes-Cantor置換モデル

どの塩基も等確率で置換

=

3

3

3

3

R

=

tttt

tttt

tttt

tttt

rsss

srss

ssrs

sssr

tS )(

置換速度行列 置換行列

)31(4

1 4 t

t er −+= )1(4

1 4 t

t es −−=

※無限時間後の平衡状態A,T,C,Gが1/4ずつ

Page 29: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

木村の置換モデル

トランジション (プリン(A,G)⇒プリン,ピリミジン(C,T)⇒ピリミジン)

とトランスバージョン (プリン⇔ピリミジン) を区別

−−

−−

−−

−−

=

2

2

2

2

R

=

tttt

tttt

tttt

tttt

rsus

srsu

usrs

susr

tS )(

置換速度行列

置換行列

ttt usr −−= 21)1(4

1 4 t

t es −−= )21(4

1 )(24 tt

t eeu +−− −+=

※プリン,ピリミジン間の遷移しやすさを反映

※無限時間後の平衡状態A,T,C,Gが1/4ずつ

Page 30: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

最尤法

(例) x = TATAT,y = TTAAA

①置換行列から,配列 x が t 時間後

に配列 y に置換する確率 P(y | x, t)

を計算する:

3

)1(4

12

)31(4

1

),|(

),|(

),|(

),|(

),|(),|(

44

+=

=

−− tt ee

tP

tP

tP

tP

tPtxyP

TA

AA

TA

AT

TT

②一つのトポロジーの

系統樹の尤度を計

算する:

x1 x2 x3

y

z

t1

t4

t2

t3

③尤度が最大となる

系統樹を選ぶ

P(y | x1, t1)

P(y | x2, t2)

P(z | y, t4)

P(z | x3, t3)

P(y | x1, t1)× P(y | x2, t2)×

P(z | x3, t3)× P(z | y, t4)

Page 31: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

今後の講義の予定

◆ 6月10日: 佐藤健吾先生(第1回)

◆ 6月17日: (株)テンクー 西村邦裕博士 講演

「がんのゲノム医療」

(出席とります!)

◆ 6月24日: 佐藤健吾先生(第2回)

◆ 7月 1日: 佐藤健吾先生(第3回)

◆ 7月 8日: 佐藤健吾先生(第4回)

◆ 7月15日: 授業内期末試験

◆ 7月22日: 休講

Page 32: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

7月15日授業内期末試験について

試験会場: 厚生棟大会議室 (会場がいつもの

教室と異なるので注意!)

試験の要領は通常通り:

◆すべて持ち込み不可

◆遅刻は開始30分(すなわち,15時15分)まで

◆学生証を提示

Page 33: バイオインフォマティクス - Lab...進化系統樹とは 約40億年前ころ(明確な証拠はない)に最初の生命 が誕生 系統(phylogeny): 地球上のすべての生物は共通の祖先から進化したと考え

最節約法の演習問題 学籍番号: 名前: