Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
バイオインフォマティクス配列データ解析4
藤 博幸
アラインメントのアルゴリズムについて- 動的計画法 (dynamic programing) -
動的計画法は組み合わせ最適化の⼀般的な⼿法であり、配列アラインメントばかりでなくバイオインフォマティクスの様々な分野で利⽤されている
p.11 参照
二本の配列から可能なアラインメントの例
ギャップ・ペナルティ
g(L)=α+β(L-1) :Lはギャップの長さ
A - T G G C TA A G S - - W
物理化学的性質の似ていないアミノ酸-10
物理化学的性質の類似するアミノ酸+5
⼀致するアミノ酸+10
アミノ酸ペアに対するスコア
可能なアラインメントの数
全てを数え上げ てスコア最大のものを見つけることは困難
動的計画法(dynamic programming)が利用される。
長さmとnの配列の可能なアラインメントの数をc(m, n)とする。挿入/欠失を除くと並置される残基対が同じ組み合わせのアラインメントの数をg(m, n)とする。この時、 g(m, n) < c(m, n)。k個の残基がそれぞれ並置されているとすると、一方の配列からはmCk通りの対応させる残基を選べる。同様に他方の残基礎からもnCk通りの対応させる残基を選べる。よって
g(m, n) = Sk=1to min{m,n} mCk nCk = m+n Cn
m = nの場合を考えてみると、Stirlingの公式を用いてg(n, n) = 2n Cn ~ 22n / pn
n = 10 の場合、g(10,10) = 187079n =100 の場合、g(100,100) = 9.066177 × 1058
可能なアラインメントの中で⼀つを選択する
⽬的関数を定め、それを最⼤化(最⼩化)するものを求めるという形で選択
アミノ酸残基ペアに対するスコアとギャップペナルティを⽤いたアラインメントスコア(alignment score)を⽬的関数として、それを最⼤化するものを最適アラインメント(optimal alignment)として選択
p.12 参照
p.13 参照
p.13 参照
p.12 参照
p.14 参照
アフィン・ ギャップ・ペナルティ
G(L)=Go+Ge × (L -1)Lはギャップの長さ
・挿⼊・⽋失(insertion/deletion)は、ギャップとよばれる空記号をいれて対応
・挿⼊・⽋失は略してINDELと呼ばれる。
スコア・テーブル PAM250 アミノ酸の置換頻度から構築
GASTPLIMVDNEQFYWKRHC
G5A12S112T0113P-11106L-4-2-3-2-36
I-3-1-10-225M-3-1-2-1-2426V-10-10-12424D1000-1-4-2-3-24N0010-1-3-2-2-222
E0000-1-3-2-2-2314Q-10-1-10-2-2-1-22124F-5-4-3-3-5210-1-6-4-5-59Y-5-3-3-3-5-1-1-2-2-4-2-4-4710W-7-6-2-5-6-2-5-4-6-7-4-7-50017K-2-100-1-3-20-20101-5-4-35
R-3-20-10-3-20-2-10-11-4-4236H-2-1-1-10-2-2-2-21213-20-3026C-3-20-2-3-6-2-5-2-5-4-5-5-40-8-5-4-312
(1) G,A,S, T, P: small hydrophilic residues(2) L, I, M, V: hydrophobic residues(3) D, N, E, Q: nagatively charged residues and the relatives(4) F, Y, W: aromatic residues(5) K, R, H: positively charged residues(6) C: Cys
⼤きな数字置換しやすい
⼩さい数字置換しにくい
アスパラギン酸 グルタミン酸 システイン チロシン
リジン アルギニン ヒスチジン
セリン
スレオニン
アスパラギン
グルタミン
グリシン アラニン バリン ロイシン イソロイシン
メチオニン プロリン フェニルアラニン トリプトファン
アミノ酸は”大文字”
で表記する
アミノ酸
C
H
HN
H
R
OH
O
C
側鎖
カルボキシル基アミノ基
基本構造
主鎖
Arg (R)
Glu (E)Asp (D)
Thr (T)
Cys (C) Ser (S)
Lys (K)
Met (M)
His (H)
Phe (F)Pro (P) Trp (W)
Ala (A)Gly (G) Leu (L) Ile (I)Val (V)
Tyr (Y)
Gln (Q)
Asn (N)
親水性アミノ酸
解離性アミノ酸
疎水性アミノ酸
LUSTAL format alignment by MAFFT L-INS-i (v7.130b)
gi|443546|pdb|7 PQITLW----------QRPLVTIRIGGQL----------KEALLDTGADDTVLEEMNLPGHIV2 --------------------VTAYIEDQP----------VEVLLDTGADDSIVAGIELGDsimian ---SLW----------NRPTTVVEIEGQK----------VEALLDTGADDTVIKDLDLKGgi|4389337|pdb| LAMTMEHK--------DRPLVRVILTNTGSHPVKQRSVYITALLDTGADDTVISEEDWPTgi|224443|prf|| ---TLDDQGGQGQEPPPEPRITLKVGGQP----------VTFLVDTGAQHSVLTQNPGPL
: . *:****:.:::
gi|443546|pdb|7 KW------KPKMIGGIGGFIKVRQ---YDQIPVEIXGHKAIGTVL----VGPTPVNIIGRHIV2 NY------TPKIVGGIGGFINTKE---YKNVEIKVLNKRVRATIM----TGDTPINIFGRsimian NW------KPQIIGGIGGSINVKQ---FFNCKVTIAGKTTHASVL----VGPTPVNIVGRgi|4389337|pdb| DWPVMEAANPQ-IHGIGGGIPVRKSRDMIELGVINRDGSLERPLLLFPLVAMTPVNILGRgi|224443|prf|| SD------KSAWVQGATGGKRYRW---TTDRKVHLATGKVTHSFLH---VPDCPYPLLGR
. .. : * * : : : ..: . * :.**
gi|443546|pdb|7 NLLTQIGXTLN------------------FHIV2 NILT--------------------------simian NVLKKLGCTLN-------------------gi|4389337|pdb| DCLQGLGLRLT-----------------NLgi|224443|prf|| DLLTKLKAQIHFEGSGAQVMGPMGQPLQVL
: *
Clustal形式のアラインメント強く保存しているセグメント(モチーフ)が2ケ所⾒いだされる
Clustal形式アラインメント下段のシンボルの意味
“*”では,完全に保存“:”では,強い物理化学的類似性のあるグループで保存“.”では,弱い類似性のあるグル―プで保存
強い弱いの基準は,PAM250 ⾏列において,アミノ酸間のスコアが0.5より⼤きいか,0.5以下かで分けている
PAM250⾏列については次回説明
置換頻度に基づくスコアマトリクス上でアミノ酸が物理化学的性質に対応するグループが形成されること
進化の過程で、アミノ酸の置換の多くは物理化学的性質の類似するものの間で⽣じやすい。
すなわち、アミノ酸置換は保存的(中⽴的)である。
ここまでの説明、
2本の配列の全⻑での最適アラインメントをもとめる
ペアワイズ グローバル アラインメント(pairwise global alignment)
データベース検索には、2本の配列を⽐較し局所的な類似性を検出する
ペアワイズ ローカル アラインメント が必要(pairwise local alignment)
Global pairwise alignment からLocal pairwise alignmentへの拡張
何故ローカルアラインメントが必要なのか?
Global Alignment と Local Alignment の違い
Smith-Watermanalgorithm
Local Alignmentの漸化式の意味
Local alignmentのアルゴリズムのスコアマトリクスへの要請
スコアマトリクスの要素 s(a, b)の中で少なくとも⼀つは、負のスコアが含まれていなければならない
そうしないと、漸化式を解いた時のDは増加し続ける
全てが正の値をとるようなマトリクスを使⽤する時は0に相当する値を設定して局所アラインメントを実⾏する
グローバル・アラインメント出力:アラインメントが一つ
ローカル・アラインメント出力:複数の局所的なアラインメント
最初のアラインメントを構築した後で次にアラインメント・スコアの高い要素を見つけてアラインメントを構築すればよいしかし、その前にサブオプティマル・アラインメントを除去する必要がある。
構造A
構造B最大スコアのアラインメント・パス
2番目に大きなスコアのアラインメント・パス
構造A
構造B最大スコアのアラインメント・パス
2番目に大きなスコアのアラインメント・パス
Suboptimal region
⼆本の配列についてのアラインメントPairwise global alignmentPairwise local alignment
多数本の配列についてのアラインメントmultiple global alignment
p.14 参照
マルチプル・アラインメント配列解析の第ニのステップ
(1) 多次元Needleman-Wunsch法
(2) プログレッシブ・アラインメントprogressive alignment
ClustalW とtree-based alignment
(3) その他の方法
(1) 多次元Needleman-Wunsch法
ペアワイズ・アラインメントの場合:2次元配列Dの上で、漸化式を計算してアラインメントが得られた。
3本の配列のアラインメントの場合:もう⼀つ次元を増やして、3次元配列Dとそれに対応する漸化式を計算すれば3本の配列の最適アラインメントが得られる。
配列A
配列B
配列C
N本の配列のアラインメントの場合:N次元配列D上で漸化式を計算して最適マルチプル・アラインメントを求める
・配列の本数が多くなると、N次元配列Dのサイズが⼤きくなり、莫⼤な記憶⽤量が必要となる。
・Dの中で最適アラインメントパスを探索するのに莫⼤な計算時間を要する。
研究はなされているが、実⽤的観点からはまだ遠い(探索空間の制限)
(2) プログレッシブ・アラインメントClustalW とtree-based alignment
ペアワイズ・アラインメントを繰り返す事でマルチプル・アラインメントを構築
例:5本の配列のアラインメント
(1) 配列1と配列2をペアワイズ・アラインメント
(2) 配列1、2のアラインメントを⼀本の配列のように考え、配列3とペアワイズ・アラインメント
配列3 2次元配列Di
jk 漸化式中のスコアは例えば
S(i,j) + S(i,k)
(3) 配列1,2,3のアラインメントを1本の配列とみなし配列4とアラインメント
(4) 配列1,2,3,4のアラインメントを1本の配列とみなし配列5とアラインメント
プログレッシブ・アラインメントの問題点:
(1) 順番に依存してアラインメントの結果が異なって来る
(2) 各ペアワイズ・アラインメントのステップでは最適な並置が形成されているが、5本の配列全体の並置として最適である保証はない
Tree-based alignment
配列が4本(A, B, C, D)の場合
(1) 全てのペアについてアラインメントを実施し、それに基づきGuide Treeを作成。
C A D B
(2) 近縁なものから順番にペアワイズ・アラインメントで重ねる。
・まず、(C, A)のアラインメントが作成される。・次に、(C, A)のペアワイズ・アラインメントを⼀つの配列とみなし、Dとのアラインメントを構築する((C, A), D)。・最後に((C, A), D)の3本のアラインメントと配列Bを並置する。
※この⽅法では、アラインメントと配列、あるいは⼆つのマルチプル・アライメントを、ペアワイズ・アラインメントの⽅法で順次重ねていく。このアラインメントの⽅法は、clustalW ではプロファイル・アラインメントと呼ばれている。
プログレッシブ・アラインメントの順序の問題tree-based approachは良好な結果を与え直観的にも納得できる⽅法である。
しかし、配列全体としての最適並置になっている保証がないという問題は解決されていない。これは、プログレッシブ・アラインメントのOnce a gap, forever a gapという性質のためである。
配列が6本(A, B, C, D, E, F)の場合
C A D B E F
←で⽰したノードに対応するアラインメントに導⼊されたgapの位置は、それ以降のアラインメントのステップで変更されない
⼀旦、gapが⼊ると配列全体としては間違った位置であっても、修正されない
(3) その他の方法
・simulated annealing・genetic algorithm・iterative improvement・hidden Markov model
繰り返し計算が必要なものが多い
Iterative Improvement
アラインメントを⼆分割
ランダムあるいは系統樹の情報から
⼆つのアラインメントをペアワイズにアラインする。
繰り返し
p.14 参照
p.15-16 参照
p.15 参照
p.15 参照
p.16 参照