45
バイオインフォマティクス 配列データ解析4 博幸

バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

バイオインフォマティクス配列データ解析4

藤 博幸

Page 2: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

アラインメントのアルゴリズムについて- 動的計画法 (dynamic programing) -

動的計画法は組み合わせ最適化の⼀般的な⼿法であり、配列アラインメントばかりでなくバイオインフォマティクスの様々な分野で利⽤されている

Page 3: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

p.11 参照

Page 4: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

二本の配列から可能なアラインメントの例

ギャップ・ペナルティ

g(L)=α+β(L-1) :Lはギャップの長さ

Page 5: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

A - T G G C TA A G S - - W

物理化学的性質の似ていないアミノ酸-10

物理化学的性質の類似するアミノ酸+5

⼀致するアミノ酸+10

アミノ酸ペアに対するスコア

Page 6: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

可能なアラインメントの数

全てを数え上げ てスコア最大のものを見つけることは困難

動的計画法(dynamic programming)が利用される。

長さmとnの配列の可能なアラインメントの数をc(m, n)とする。挿入/欠失を除くと並置される残基対が同じ組み合わせのアラインメントの数をg(m, n)とする。この時、 g(m, n) < c(m, n)。k個の残基がそれぞれ並置されているとすると、一方の配列からはmCk通りの対応させる残基を選べる。同様に他方の残基礎からもnCk通りの対応させる残基を選べる。よって

g(m, n) = Sk=1to min{m,n} mCk nCk = m+n Cn

m = nの場合を考えてみると、Stirlingの公式を用いてg(n, n) = 2n Cn ~ 22n / pn

n = 10 の場合、g(10,10) = 187079n =100 の場合、g(100,100) = 9.066177 × 1058

Page 7: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

可能なアラインメントの中で⼀つを選択する

⽬的関数を定め、それを最⼤化(最⼩化)するものを求めるという形で選択

アミノ酸残基ペアに対するスコアとギャップペナルティを⽤いたアラインメントスコア(alignment score)を⽬的関数として、それを最⼤化するものを最適アラインメント(optimal alignment)として選択

Page 8: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

p.12 参照

Page 9: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

p.13 参照

Page 10: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

p.13 参照

Page 11: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

p.12 参照

Page 12: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

p.14 参照

Page 13: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

アフィン・ ギャップ・ペナルティ

G(L)=Go+Ge × (L -1)Lはギャップの長さ

・挿⼊・⽋失(insertion/deletion)は、ギャップとよばれる空記号をいれて対応

・挿⼊・⽋失は略してINDELと呼ばれる。

Page 14: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

スコア・テーブル PAM250 アミノ酸の置換頻度から構築

GASTPLIMVDNEQFYWKRHC

G5A12S112T0113P-11106L-4-2-3-2-36

I-3-1-10-225M-3-1-2-1-2426V-10-10-12424D1000-1-4-2-3-24N0010-1-3-2-2-222

E0000-1-3-2-2-2314Q-10-1-10-2-2-1-22124F-5-4-3-3-5210-1-6-4-5-59Y-5-3-3-3-5-1-1-2-2-4-2-4-4710W-7-6-2-5-6-2-5-4-6-7-4-7-50017K-2-100-1-3-20-20101-5-4-35

R-3-20-10-3-20-2-10-11-4-4236H-2-1-1-10-2-2-2-21213-20-3026C-3-20-2-3-6-2-5-2-5-4-5-5-40-8-5-4-312

(1) G,A,S, T, P: small hydrophilic residues(2) L, I, M, V: hydrophobic residues(3) D, N, E, Q: nagatively charged residues and the relatives(4) F, Y, W: aromatic residues(5) K, R, H: positively charged residues(6) C: Cys

⼤きな数字置換しやすい

⼩さい数字置換しにくい

Page 15: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

アスパラギン酸 グルタミン酸 システイン チロシン

リジン アルギニン ヒスチジン

セリン

スレオニン

アスパラギン

グルタミン

グリシン アラニン バリン ロイシン イソロイシン

メチオニン プロリン フェニルアラニン トリプトファン

アミノ酸は”大文字”

で表記する

アミノ酸

C

H

HN

H

R

OH

O

C

側鎖

カルボキシル基アミノ基

基本構造

主鎖

Arg (R)

Glu (E)Asp (D)

Thr (T)

Cys (C) Ser (S)

Lys (K)

Met (M)

His (H)

Phe (F)Pro (P) Trp (W)

Ala (A)Gly (G) Leu (L) Ile (I)Val (V)

Tyr (Y)

Gln (Q)

Asn (N)

親水性アミノ酸

解離性アミノ酸

疎水性アミノ酸

Page 16: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

LUSTAL format alignment by MAFFT L-INS-i (v7.130b)

gi|443546|pdb|7 PQITLW----------QRPLVTIRIGGQL----------KEALLDTGADDTVLEEMNLPGHIV2 --------------------VTAYIEDQP----------VEVLLDTGADDSIVAGIELGDsimian ---SLW----------NRPTTVVEIEGQK----------VEALLDTGADDTVIKDLDLKGgi|4389337|pdb| LAMTMEHK--------DRPLVRVILTNTGSHPVKQRSVYITALLDTGADDTVISEEDWPTgi|224443|prf|| ---TLDDQGGQGQEPPPEPRITLKVGGQP----------VTFLVDTGAQHSVLTQNPGPL

: . *:****:.:::

gi|443546|pdb|7 KW------KPKMIGGIGGFIKVRQ---YDQIPVEIXGHKAIGTVL----VGPTPVNIIGRHIV2 NY------TPKIVGGIGGFINTKE---YKNVEIKVLNKRVRATIM----TGDTPINIFGRsimian NW------KPQIIGGIGGSINVKQ---FFNCKVTIAGKTTHASVL----VGPTPVNIVGRgi|4389337|pdb| DWPVMEAANPQ-IHGIGGGIPVRKSRDMIELGVINRDGSLERPLLLFPLVAMTPVNILGRgi|224443|prf|| SD------KSAWVQGATGGKRYRW---TTDRKVHLATGKVTHSFLH---VPDCPYPLLGR

. .. : * * : : : ..: . * :.**

gi|443546|pdb|7 NLLTQIGXTLN------------------FHIV2 NILT--------------------------simian NVLKKLGCTLN-------------------gi|4389337|pdb| DCLQGLGLRLT-----------------NLgi|224443|prf|| DLLTKLKAQIHFEGSGAQVMGPMGQPLQVL

: *

Clustal形式のアラインメント強く保存しているセグメント(モチーフ)が2ケ所⾒いだされる

Page 17: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

Clustal形式アラインメント下段のシンボルの意味

“*”では,完全に保存“:”では,強い物理化学的類似性のあるグループで保存“.”では,弱い類似性のあるグル―プで保存

強い弱いの基準は,PAM250 ⾏列において,アミノ酸間のスコアが0.5より⼤きいか,0.5以下かで分けている

PAM250⾏列については次回説明

Page 18: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

置換頻度に基づくスコアマトリクス上でアミノ酸が物理化学的性質に対応するグループが形成されること

進化の過程で、アミノ酸の置換の多くは物理化学的性質の類似するものの間で⽣じやすい。

すなわち、アミノ酸置換は保存的(中⽴的)である。

Page 19: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

ここまでの説明、

2本の配列の全⻑での最適アラインメントをもとめる

ペアワイズ グローバル アラインメント(pairwise global alignment)

データベース検索には、2本の配列を⽐較し局所的な類似性を検出する

ペアワイズ ローカル アラインメント が必要(pairwise local alignment)

Page 20: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

Global pairwise alignment からLocal pairwise alignmentへの拡張

何故ローカルアラインメントが必要なのか?

Page 21: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

Global Alignment と Local Alignment の違い

Smith-Watermanalgorithm

Page 22: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

Local Alignmentの漸化式の意味

Page 23: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

Local alignmentのアルゴリズムのスコアマトリクスへの要請

スコアマトリクスの要素 s(a, b)の中で少なくとも⼀つは、負のスコアが含まれていなければならない

そうしないと、漸化式を解いた時のDは増加し続ける

全てが正の値をとるようなマトリクスを使⽤する時は0に相当する値を設定して局所アラインメントを実⾏する

Page 24: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

グローバル・アラインメント出力:アラインメントが一つ

ローカル・アラインメント出力:複数の局所的なアラインメント

最初のアラインメントを構築した後で次にアラインメント・スコアの高い要素を見つけてアラインメントを構築すればよいしかし、その前にサブオプティマル・アラインメントを除去する必要がある。

Page 25: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

構造A

構造B最大スコアのアラインメント・パス

2番目に大きなスコアのアラインメント・パス

Page 26: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

構造A

構造B最大スコアのアラインメント・パス

2番目に大きなスコアのアラインメント・パス

Suboptimal region

Page 27: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

⼆本の配列についてのアラインメントPairwise global alignmentPairwise local alignment

多数本の配列についてのアラインメントmultiple global alignment

Page 28: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

p.14 参照

Page 29: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

マルチプル・アラインメント配列解析の第ニのステップ

(1) 多次元Needleman-Wunsch法

(2) プログレッシブ・アラインメントprogressive alignment

ClustalW とtree-based alignment

(3) その他の方法

Page 30: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

(1) 多次元Needleman-Wunsch法

Page 31: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

ペアワイズ・アラインメントの場合:2次元配列Dの上で、漸化式を計算してアラインメントが得られた。

3本の配列のアラインメントの場合:もう⼀つ次元を増やして、3次元配列Dとそれに対応する漸化式を計算すれば3本の配列の最適アラインメントが得られる。

配列A

配列B

配列C

Page 32: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

N本の配列のアラインメントの場合:N次元配列D上で漸化式を計算して最適マルチプル・アラインメントを求める

・配列の本数が多くなると、N次元配列Dのサイズが⼤きくなり、莫⼤な記憶⽤量が必要となる。

・Dの中で最適アラインメントパスを探索するのに莫⼤な計算時間を要する。

研究はなされているが、実⽤的観点からはまだ遠い(探索空間の制限)

Page 33: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

(2) プログレッシブ・アラインメントClustalW とtree-based alignment

Page 34: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

ペアワイズ・アラインメントを繰り返す事でマルチプル・アラインメントを構築

例:5本の配列のアラインメント

(1) 配列1と配列2をペアワイズ・アラインメント

(2) 配列1、2のアラインメントを⼀本の配列のように考え、配列3とペアワイズ・アラインメント

配列3 2次元配列Di

jk 漸化式中のスコアは例えば

S(i,j) + S(i,k)

Page 35: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

(3) 配列1,2,3のアラインメントを1本の配列とみなし配列4とアラインメント

(4) 配列1,2,3,4のアラインメントを1本の配列とみなし配列5とアラインメント

プログレッシブ・アラインメントの問題点:

(1) 順番に依存してアラインメントの結果が異なって来る

(2) 各ペアワイズ・アラインメントのステップでは最適な並置が形成されているが、5本の配列全体の並置として最適である保証はない

Tree-based alignment

Page 36: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

配列が4本(A, B, C, D)の場合

(1) 全てのペアについてアラインメントを実施し、それに基づきGuide Treeを作成。

C A D B

(2) 近縁なものから順番にペアワイズ・アラインメントで重ねる。

・まず、(C, A)のアラインメントが作成される。・次に、(C, A)のペアワイズ・アラインメントを⼀つの配列とみなし、Dとのアラインメントを構築する((C, A), D)。・最後に((C, A), D)の3本のアラインメントと配列Bを並置する。

※この⽅法では、アラインメントと配列、あるいは⼆つのマルチプル・アライメントを、ペアワイズ・アラインメントの⽅法で順次重ねていく。このアラインメントの⽅法は、clustalW ではプロファイル・アラインメントと呼ばれている。

Page 37: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

プログレッシブ・アラインメントの順序の問題tree-based approachは良好な結果を与え直観的にも納得できる⽅法である。

しかし、配列全体としての最適並置になっている保証がないという問題は解決されていない。これは、プログレッシブ・アラインメントのOnce a gap, forever a gapという性質のためである。

Page 38: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

配列が6本(A, B, C, D, E, F)の場合

C A D B E F

←で⽰したノードに対応するアラインメントに導⼊されたgapの位置は、それ以降のアラインメントのステップで変更されない

⼀旦、gapが⼊ると配列全体としては間違った位置であっても、修正されない

Page 39: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

(3) その他の方法

・simulated annealing・genetic algorithm・iterative improvement・hidden Markov model

繰り返し計算が必要なものが多い

Page 40: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

Iterative Improvement

アラインメントを⼆分割

ランダムあるいは系統樹の情報から

⼆つのアラインメントをペアワイズにアラインする。

繰り返し

Page 41: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

p.14 参照

Page 42: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

p.15-16 参照

Page 43: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

p.15 参照

Page 44: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

p.15 参照

Page 45: バイオインフォマティクスtohhiro/...アラインメントのアルゴリズムについて-動的計画法(dynamic programing) - 動的計画法は組み合わせ最適化の

p.16 参照