Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
バイオインフォマティクス(第7回)
慶應義塾大学生命情報学科
榊原康文
階層クラスタリングの解:
[1] [2] [3]
A: 0 0 0
B: 1 1 1
C: 2 1 2
D: 3 3 3
A: B: C:
B: 1.732
C: 3.000 1.414
D: 5.196 3.464 2.449
入力ベクトル
A
B C
D
系統樹
距離行列
進化系統樹とは
◆約40億年前ころ(明確な証拠はない)に最初の生命が誕生
◆系統(phylogeny):◼ 地球上のすべての生物は共通の祖先から進化したと考えたときの,種間の進化的な関係
◼ 進化系統樹(phylogenetic tree)で表現
◆生物学的な分類体系(参考):
◼ 生物を形質(形態,機能,成分)が似たもの同士に分けて体系づける
◼ 「界(かい)」「門(もん)」「綱(こう)」「目(もく)」「科(か)」「属(ぞく)」「種(しゅ)」
◼ 近年では,伝統的な分類体系を系統学の知見を反映させた体系に組替える
分子進化系統樹
◆分子(配列)進化系統:
◼ すべての配列がある共通祖先の共通遺伝子から受け継が
れたと考えたときの,配列間の進化的な関係
◆注意点:
◼ (形態学的な)生物種の進化系統と配列に基づく分子進化
系統は常に一致するとは限らない
◼ どの配列(タンパク質,RNA配列など)を基にするかによっ
ても得られる分子進化系統樹は異なる
◆祖先の配列は手に入らない
◼ 進化のモデル・仮説が必要
◼ コンピュータと数学・統計が主な解析ツールとなる
生命の系統樹をつくるためには
◆ rRNAまたはミトコンドリアの配列が用いられる
◼ すべての生物に普遍的に存在
◼ 充分な配列変異の存在,変異の安定性
◆水平伝播があるために,進化系統樹は編目状になる
系統樹に関する用語
–節点(node),枝(edge),枝長(進化の程度),根(root),葉(leaf)
–有根系統樹(rooted),無根系統樹(unrooted)
–基本的に二分木
有根系統樹無根系統樹
無根系統樹,有根系統樹
Chickenを外群とした時の有根系統樹
数学的にアルゴリズム的に扱いやすい 生物的進化に関連した分岐を表す
無根系統樹
進化系統樹
進化系統の簡単なモデル
A CA CC CG T
A CA CC C
A CG T
A CA CC C A CA CC CT GT G AA CG TTA CG
A C
共通祖先の配列
時間
◆枝に沿って変異
◆節点で種分化
進化系統樹の(再)構築問題
A CA CC C A CA CC CT GT G AA CG TTA CG
系統樹は?
16S rRNA に基づく生命の進化系統樹
(Doolittle, 2000)
進化系統樹の(再)構築問題
Human fqtpmviilqaimgsatlamtliift
Chimp fqtpmiiifqaimgsatlaltliift
Gorilla lqtpmviifqaimgsatlamtliift
Seal fqlpmviifqaiiggatlalafitft
Cow fqtpmviifqaiiggatlalalitft
Fin Whale lqtfmviifqaimgettlalafitft
Blue Whale lqtfmviifqaimgettlvlaiitft
Rat fqismiiifqaimggatlvlatitfi
Mouse fqismiiifqaimggatlvlatitfi
Chicken pqismiaffqaimggatlfaatitfi
Cow
root
ChickenSeal
Fin Whale
Blue Whale Mouse
Rat
ChimpHuman
Gorilla?
系統樹に沿って進化したと考えられる生体分子のアライメントが与えられたときに,進化系統樹を構築(発見)する問題
問題のステップ:
1. 系統樹Tのトポロジー(構造)の決定
2. 系統樹Tにおける枝の長さの決定
3. 系統樹Tにおける根の位置の決定
系統樹の推定手法
◆距離に基づく手法:– UPGMA法,近隣結合法
• 分子時計を仮定,加法性を利用して少しずつ構築
◆系統樹の評価に基づく手法:
– 最節約法,最尤法
• まず,系統樹の評価方法を決めておく
–最節約法:祖先配列から葉までの置換数が小さい
–最尤法:尤度(系統樹からデータ配列を得る確率)が高い
• 評価が最良になるような系統樹を求める– 数え上げ:可能な系統樹から最も評価の良いものを選ぶ
– メトロポリス法:現在の系統樹をちょっとずつ改良してゆく
– などなど
最(大)節約法
◆ 全ての可能なトポロジーの(無根)系統樹について計算を行う→ 一般に計算量が膨大になる
トポロジー:葉に与えられた配列を割り当て,系統樹の形を一つ定めたもの
◆ 各トポロジーに対して,最小の置換数で説明できる祖先節点の配列を決定する
◆ すべてのトポロジーの中から,最小の置換数で説明できる系統樹を選ぶ
◆ アライメントによって並べられた(縦の)カラム全てについて解析を行う
最節約法
入力:4つのDNA配列AAGAAAGGAAGA
◆祖先節点の決定:
系統樹全体の置換数の和が
最小になるように決定
◆各カラムは独立に計算可能
最節約法の問題点◆ 最適解(祖先節点の決定)が複数存在する
◆ 全ての木の探索は膨大な計算時間
◆ 枝ごとの配列変化速度の違いを扱えない
A C A C
A
AA
A C A C
A
A
C
A C A C
C
C
C
いずれも置換数は 2
n は入力配列の数
距離に基づく手法
距離テーブル:
配列 A: ACGCGTTGGGCGATGGCAAC
配列 B: ACGCGTTGGGCGACGGTAAT
配列 C: ACGCATTGAATGATGATAAT
配列 D: ACACATTGAGTGATAATAAT
A B C D
A 3 7 8
B 6 7
C 3
D
AB間の塩基置換の数
UPGMA法(unweighted pair group method using
arithmetic averages)
1. アライメントから初期の距離テーブルを計算する
2. 距離が一番近いものを近隣ペアとする
3. クラスタ間距離=配列同士の距離の平均
4. ペアを一つのノードとして,距離テーブルを再構築する
◆ 基本的に,群間平均法(クラスタ間の平均距離)を用いた階層クラスタリング
◆ 分子時計を仮定
◆ UPGMA法の発展形が,NJ法(近隣結合法)
A B C D E
A 22 39 39 41
B 41 41 43
C 18 20
D 10
E
具体例の計算
DEを近隣ペアとする
新しい距離テーブルA B C DE
A 22 39 40
B 41 42
C 19
DE
AD と AEの平均.
初期距離テーブルA B C D E
A 22 39 39 41
B 41 41 43
C 18 20
D 10
E
A
B
C
D
E
10
12
20
9
4
6
5
UPGMA法(unweighted pair group method using
arithmetic averages)
1. 各配列のみからなるクラスタを作る
2. 距離 dij が最小のペアを xi, xj 求める
3. クラスタ xi, xjを融合して xk を作る
4. クラスタ間距離を再計算
5. 親節点 xk を高さ dij / 2 の位置に追加
6. クラスタが2個だけになったら,根を高さ dij / 2 に
置いて終了
有根系統樹の根の位置の特定
◆外群
◼ 調べてる配列よりも遠縁である特定の配列
◆外群を使うときに気をつけること
◼ 配列的に似ていて,かつ,充分な違いが必要
◼ あまりに遠縁すぎるとランダムな要素を含んでしまう
系統樹
外群ある系統樹について,根の位置を限定する助けとなる
Hybridization(雑種形成)
◆ Hybridization は, 異なる種の間の交配によって,染色体を組み合わせることにより起こる
◆ Hybridization は,一般に植物,魚,カエルに限定される
水あさ(water hemp)
ブタ草pigs weed
雑種
遺伝子の水平伝播
◆バクテリアでは,遺伝子を交換するいくつかのメカニ
ズムが知られている
– Transformation(形質転換)
– Conjugation(接合)
– Transduction(形質導入)
http://www.pitt.edu/~heh1/research.html
(例)
大腸菌とO157株(ベロ毒素)
網状進化(Reticulate Evolution)の簡単なモデル
ab1 c b3h
PQ
祖先ゲノム
参考
最尤法
◆ 確率モデルに基づいて進化系統樹を推定する
◆ 配列の進化の確率モデルを定義して,進化系統樹の尤度を計算する
◆ すべてのトポロジーの中から,尤度が最大となる系統樹を選ぶ
◆ 全ての可能なトポロジーの系統樹について計算を行う
置換行列
置換確率を行列として表したもの:
=
),|(),|(
),|(),|(
),|(),|(
),|(),|(
),|(),|(
),|(),|(
),|(),|(
),|(),|(
)(
tTTPtTGP
tGTPtGGP
tTCPtTAP
tGCPtGAP
tCTPtCGP
tATPtAGP
tCCPtCAP
tACPtAAP
tS
A C G TA
C
G
T
乗法性 : )()()( stSsStS +=
可逆性 : ba qtbaPqtabP ),|(),|( =
Jukes-Cantor置換モデル
どの塩基も等確率で置換
−
−
−
−
=
3
3
3
3
R
=
tttt
tttt
tttt
tttt
rsss
srss
ssrs
sssr
tS )(
置換速度行列 置換行列
)31(4
1 4 t
t er −+= )1(4
1 4 t
t es −−=
※無限時間後の平衡状態A,T,C,Gが1/4ずつ
木村の置換モデル
トランジション (プリン(A,G)⇒プリン,ピリミジン(C,T)⇒ピリミジン)
とトランスバージョン (プリン⇔ピリミジン) を区別
−−
−−
−−
−−
=
2
2
2
2
R
=
tttt
tttt
tttt
tttt
rsus
srsu
usrs
susr
tS )(
置換速度行列
置換行列
ttt usr −−= 21)1(4
1 4 t
t es −−= )21(4
1 )(24 tt
t eeu +−− −+=
※プリン,ピリミジン間の遷移しやすさを反映
※無限時間後の平衡状態A,T,C,Gが1/4ずつ
最尤法
(例) x = TATAT,y = TTAAA
①置換行列から,配列 x が t 時間後
に配列 y に置換する確率 P(y | x, t)
を計算する:
3
)1(4
12
)31(4
1
),|(
),|(
),|(
),|(
),|(),|(
44
−
+=
=
−− tt ee
tP
tP
tP
tP
tPtxyP
TA
AA
TA
AT
TT
②一つのトポロジーの
系統樹の尤度を計
算する:
x1 x2 x3
y
z
t1
t4
t2
t3
③尤度が最大となる
系統樹を選ぶ
P(y | x1, t1)
P(y | x2, t2)
P(z | y, t4)
P(z | x3, t3)
P(y | x1, t1)× P(y | x2, t2)×
P(z | x3, t3)× P(z | y, t4)
今後の講義の予定
◆ 6月10日: 佐藤健吾先生(第1回)
◆ 6月17日: (株)テンクー 西村邦裕博士 講演
「がんのゲノム医療」
(出席とります!)
◆ 6月24日: 佐藤健吾先生(第2回)
◆ 7月 1日: 佐藤健吾先生(第3回)
◆ 7月 8日: 佐藤健吾先生(第4回)
◆ 7月15日: 授業内期末試験
◆ 7月22日: 休講
7月15日授業内期末試験について
試験会場: 厚生棟大会議室 (会場がいつもの
教室と異なるので注意!)
試験の要領は通常通り:
◆すべて持ち込み不可
◆遅刻は開始30分(すなわち,15時15分)まで
◆学生証を提示
最節約法の演習問題 学籍番号: 名前: