View
236
Download
0
Category
Preview:
Citation preview
バイオインフォマティクス(第3回)
慶應義塾大学生命情報学科
榊原康文
アセンブリの演習問題 (解)
CGTCCGT--------
--TCCGTAT------
-----GTATC-----
-------ATCCAT--
----------CATCG
===============
CGTCCGTATCCATCG
14
2 3
CGTCCGT
TCCGTAT
ATCCAT
GTATC4
2
5
CATCG
32
1 3
2
5
2
1
1
1
配列解析(ペアワイズアライメント)
① ペアワイズアライメント
② 最長共通部分配列(LCS)
③ 大域アライメント,局所アライメント
④ スコア行列(置換行列)
相同性検索(アライメント)の威力
サル肉腫ウイルスのがん遺伝子シス(sis)とヒトの血小板
由来増殖因子(PDGF)のアミノ酸配列が一致している
(そっくりである)ことが発見された (1983)
(「がん遺伝子の発見」,中公新書)
sis : simian sarcoma virus
この発見は2つの意味において驚きをもって迎えられた
① がん遺伝子が正常な細胞の増殖・分化や個体発生を
司る遺伝子とほとんど同じものであることが初めて具体
的に明らかにされた (がん遺伝子と増殖因子が結び
ついた)
② その発見が試験管の中の実験ではなく,コンピュータに
よるホモロジー検索の結果得られた
相同性検索
Doolittleによるがん遺伝子の発見
Doolittleがそれまでに構築してきたデータベース
相同性検索プログラム
総当りの仕事もいとわないコンピュータ
BLASTによるデータベース検索
ゲノムデータベース
入力配列■DNA配列■アミノ酸配列
類似遺伝子
アノテーション
相同性検索(アライメント)の威力(2)
P16タンパク質遺伝子:
① サイクリン依存性キナーゼ4(CDK4,細胞増殖促進)の阻害因子
② 実は,がん抑制遺伝子の一つ
③ 発見の過程において,GENBANKと相同性検索が威力を発揮 (1994)
① (ミリアッド・ジェネティクス社のカムは)メラノーマと呼ばれる皮膚がんの組織から,ある遺伝子を実験によって同定していた
② しかし,その遺伝子の正体がわからなかったために,頻繁にGENBANK上で相同性検索を行う
③ ある日,GENBANKに最近登録されたp16遺伝子と皮膚
がん遺伝子の相同性が非常に高いことを検索から発見し,その正体を突き止めた
(「がん遺伝子を追う」,朝日新聞社)
アライメントからわかること
① 配列と配列がもつ情報との関係が十分に解明されていない
ため,1本の配列だけから生物学的な情報を抽出することは
困難 ⇒ 配列を比較する
② 生物配列は進化によりダイナミックに変化する:
点突然変異(置換,挿入,欠失)
③ 未知の遺伝子配列に類似である,機能が既知の遺伝子を検
索する ⇒ 遺伝子機能の推定
④ ゲノム配列中に既知の遺伝子配列と相同な領域を発見する
⇒ ゲノム配列からの遺伝子の発見
⑤ 生物種間の共通遺伝子の配列をアライメントにより比べるこ
とにより,配列間の進化的な関係を計算
⇒ 分子進化系統の推定
最適なアライメントを求める
① 与えられたスコア(置換度)に関して,最適なア
ライメントを求める高速なアルゴリズム
+
② 数学的に最適なアライメントが,生物的に真に
最適なアライメントになるためのスコア行列
生物的に最適な配列数学的に最適な配列
問い合わせ配列
高速なアルゴリズムスコア行列
配列のアライメント
2つのDNA配列に対して,適切な位置にギャップ記号を挿入
することで,配列中の同じ位置に同じ塩基(あるいは性質が
良く似た塩基)が並ぶようにする操作
GAGGTTATCAAAAGCTACTAGTCCA
GAGGATAACAAGGCTACTATCACA入力:
GAGGTTATCAA-AA-GCTACTAGTC-CA
GAGG--AT-AACAAGGCTACTA-TCACA
**** ** ** ** ******* ** **
出力:
MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGMVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLG**********************************************************************
タンパク質のアライメントの例ヘモグロビンのアミノ酸配列のアラメント:
AFSDGLAHLDNLKGTFATLSELHCDKLHVDPENF-RLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVAAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFK-LLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVA********************************** **********************************
NALAHKYHNALAHKYH********
MV-HL--TPEEK-SAV-TALW-GKVN--VDEVGGEALGRLLVVYPWTQRFF-ESFGDLS-TP-DAVMGNP-VQ-LSG--EEKA-AVL-ALWD-KVNEE--EVGGEALGRLLVVYPWTQRFFD-SFGDLSN-PG-AVMGNP* * *** ** *** *** ********************* ****** * ******
KVKAHGKKVL---G-AFSDG--LAHLDNLKGTF-ATLSELHCDKLHVDPENFRLLGNVL-VCVLA-HHFGKVKAHGKKVLHSFGE----GVH--HLDNLKGTFAA-LSELHCDKLHVDPENFRLLGNVLVV-VLAR-HFG********** * * ********* * *********************** * *** ***
K-EFTP--PVQA-AYQKVVAGVANALAHKYHKD-FTPEL--QAS-YQKVVAGVANALAHKYH* *** ** *****************
ヒトと馬:
ヒトとゴリラ:
大域アライメント計算の例題
2つの例題配列: AGCGTAG, GTCAGA
置換度(置換スコア)とギャップスコア:
アライメント:
AG-C-GTAG
-GTCAG-A-* * * *
スコア:0+1+0+1+0+1+0+1+0 = 4
AGCGTAG-
GTC--AGA* **
スコア:(-1)+(-1)+1+0+0+1+1+0 = 1
AGCGTAG
GTCAGA-* *
スコア:(-1)+(-1)+1+(-1)+(-1)+1+0 = -2
大域アライメントの数
最長共通部分配列(LCS):
2本の配列に共通な部分配列で最長のもの
大域アライメントの数(ギャップ挿入の場合):
長さ n の2本の配列に対して:
nnn
n
n
n n
22
)!)(!(
)!2(2
GAGGTTATCAAAAG
GAGGATAACAAGGC
G・G・T・T・C・A・G
G・A・A・T・A・C・A
k個取ってくる
knC
knCnn
n
k
knkn CCC 2
1
動的計画法(アルゴリズム)
動的計画法(dynamic programming, DP)は,
計算機による配列解析の中核である
どのような場合に,DPは適用できるか?
① Optimal substructure:
全体の問題に対する最適解は,その中に部分問題に対する
最適解を含んでいる
② Overlapping subproblems:
部分問題の空間が十分小さい
異なる部分問題の数は,入力サイズの多項式くらいの大きさ
DPは,各部分問題を一度だけ解き,テーブルに確保して,
必要になった時に参照する
大域アライメントアルゴリズム
① (Needleman-Wunsch)アルゴリズムの基本的アイデア:
より小さな部分配列の最適アライメントを一つ前の解として,
最適なアライメントを次々と組み上げていく
② Optimal substructure of LCS:
とするのとを
を入力列
LCS
,
21
2121
YXzzzZ
yyyYxxxX
k
nm
LCS (1) 111 のとはかつであり,ならば, nmknmknm YXZyxzyx
LCS (2) 1 のとはのとき,ならば, YXZxzyx mmknm
LCS (3) 1のとはのとき,ならば, nnknm YXZyzyx
動的計画法の例題:石取りゲーム
n個の石の山
ゲームのルール:
①プレイヤーは二人で,交互に山から石をとる
②片方の山から1つ,もしくは両方の山から1つずつ石を
取ることができる
③最後に石を取った方が勝ち
m個の石の山
動的計画法の例題:石取りゲーム
0 1 2 3 4 5 6 7 8 9 10
0 W
1 W W
2
3
4
5
6
7
8
9
10
W:先手が勝つ L:先手が負ける
m:石の数
n:石の数
大域アライメントアルゴリズム
① を と の最適アライメントのスコア
② 初期化:
③ 再帰式:
④ が と の最適アライメントの値
⑤ アライメントを求めるには, から に至ったパス
を からトレースバック
),( jiF ixxx 21 jyyy 21
djjFdiiFF ) ,0( ,)0 ,( ,0)0 ,0(
はギャップペナルティd
djiF
djiF
yxsjiF
jiF
ji
)1,(
),1(
),()1,1(
max) ,(
),( nmF X Y
),( nmF)0 ,0(F
),( nmF
i 0 1 2 3 4 5 6
j G T C A G A
0
1 A
2 G
3 C
4 G
5 T
6 A
7 G
0 0 0 0 0 0 0
0 0 0 1 1 1
1 1 1 1 2 2
1 1 2 2 2 2
1 1 2 2 3
0
0
0
0
0
0
0
3
1 2 2 2 3 3
1 2 2 3 3 4
1 2 2 3 4 4
置換スコア: ギャップスコア
i 0 1 2 3 4 5 6
j G T C A G A
0 0 0 0 0 0 0 0
1 A 0 0 0 0 1 1 1
2 G 0 1 1 1 1 2 2
3 C 0 1 1 2 2 2 2
4 G 0 1 1 2 2 3 3
5 T 0 1 2 2 2 3 3
6 A 0 1 2 2 3 3 4
7 G 0 1 2 2 3 4 4
G
G
G
G
C
C
A
A
-GTCAG-A-AG-C-GTAG
局所アライメントアルゴリズム
① と の部分配列間の最適なアライメント
② 共通のドメインの発見など
③ Smith-Waterman アルゴリズム
④ 初期化:
⑤ 再帰式:
⑥ 最大スコア を行列中から探索し,そこから 0 が格納
されたセルに到達するまでトレースバック
0) ,0( ,0)0 ,( ,0)0 ,0( jFiFF
djiF
djiF
yxsjiFjiF
ji
)1,(
),1(
),()1,1(
0
max) ,(
X Y
),( jiF
局所アライメントアルゴリズム
参考:大域アライメントアルゴリズム
スコア行列
① スコア行列(置換行列)の精度は,アライメントの
精度に影響
アミノ酸配列の場合,進化過程における相対的な置換
のしやすさを反映
塩基(DNA)配列の場合,マッチ+1,アンマッチ0と
いった簡単なスコア
② 信頼できる既存のアライメントから統計的手法に
よりスコア行列を導出
PAM行列(Dayhoffのアミノ酸置換行列)
BLOSUM行列(ブロックアミノ酸置換行列)
スコア行列
① PAM行列(Dayhoffのアミノ酸置換行列)
先祖の共通のタンパク質ファミリから多数のタンパク質を集め,置換
の頻度を調べて分子進化学的に求めた.アミノ酸配列で100残基あ
たり1個の突然変異が起きるという進化上の時間の単位PAMを導入.
1PAMの間にアミノ酸 iがアミノ酸 jに置換される頻度を求める.
② BLOSUM行列(ブロックアミノ酸置換行列)
より新しいデータのアライメントからアミノ酸変異の統計データを獲得.
BLOSUM50, BLOSUM62, BLOSUM80, など.
小さい数字の行列は進化的に遠縁の配列の比較に,大きい数字の行列は近縁の配列の比較に,不明の場合にはBLOSUM62を推奨
BLOSUM50はギャップあり,BLOSUM62はギャップなしで利用
BLASTなどで利用.
CLUSTALWに
おけるBLOSUMスコア行列
参考:BLOSUM50スコア行列
スコア行列の導出
① 頻度の比の対数をスコアとする
ba
ab
pbas log) ,(
:文字 aが独立に起こる確率(頻度)aq
:文字 a と bがアラインされたペアとして起こる確率
(a と bが共通の祖先から分岐してきた確率と考える)
abp
a
b
文字のペア a と bが,偶然に“対”になるのに比べて,どれだけ本当に“対”になる確率が大きいかを示したもの
対数を取ることにより,加法性をもつスコアリングシステムを得る
スコア行列の導出
② BLOSUM“L” 行列の求め方:
– 既存の多くの配列のアライメントを求め,ギャップ無しの領
域(ブロック)を集める
– 残基が L %以上一致しているものを同一クラスタに集める
– あるクラスタの残基 a が別のクラスタの残基 b にアライメン
トされる確率 pab を計算 (ただし,各クラスタの大きさで
割った重みをつける)
– ある残基 a が独立に起こる確率 qa を計算
– s(a,b)=log(pab/qaqb) を計算して,スケーリングして,近傍の
整数値に丸める
BLOSUM “75” の導出
① タンパク質ファミリごとのマルチプルアライメントから
ブロックを取り出す
– ブロックとは,良く保存されたギャップを含まないアライメントの領域
② ブロック内の配列の偏りを取り除くために,一致度が75%以上の配列をひとつにまとめる
block 1 block 2
BABA
BABC
AACC
CBB
CBB
ABC
AAC1クラスタ
BLOSUM75の導出
③ ブロックからアミノ酸残基の出現確率(頻度)を数える
アミノ酸 出現確率 qa
A
B
C17
2/11
17
2
34
17
5
17
2
81
17
2/13
17
2
35
block 1 block 2
BABA
BABC
AACC
CBB
CBB
ABC
AAC
BLOSUM75の導出④ ブロックからアライメントされたアミノ酸残基ペアの出現確率と
その2つの残基が独立に同時に出現する確率を計算する
残基ペアペア出現確率
A to A
A to B
A to C
B to B
B to C
C to C13
2/3
13
3
13
1
13
22/1
13
2/5
13
3
3334
2
13
2
block 1 block 2
BABA
BABC
AACC
CBB
CBB
ABC
AAC
独立同時確率
17
2/11
17
2/11
17
2/11
17
52
17
5
17
5
17
2/11
17
2/132
17
5
17
2/132
17
2/13
17
2/13
A
B
B
A
対になる
2通りの場合
pab qaqb
BLOSUM75の導出⑤ 対数尤度を計算し,さらにスケーリング(ここでは,2倍して
ハーフビットに)して,近傍の整数値に丸める
残基ペア ペア確率
A to A
A to B
A to C
B to B
B to C
C to C13
2/3
13
3
13
1
13
2/5
13
3
13
2
同時確率
289
4/121
289
55
289
25
289
2/143
289
65
289
4/169
log2 2同時確率
ペアの出現頻度 スコア行列
28.0
56.0
34.0
73.0
07.0
15.0
0
1
0
1
0
0
アライメントに対するスコアの考え方
アミノ酸配列のアライメントスコアの問題点:
① それぞれのアミノ酸のペアに対する出現頻度の比の対数
の考え方は問題なし
② 進化的にまったく類縁関係にないアミノ酸配列のペアに対
してもスコア(正の値)は計算される(例えば,ランダム配列
のアライメントスコアは,平均50~60位の値になる)
③ このスコアは,位置特異的なスコアでない
④ アライメントのスコアは,長さに依存する傾向(より長い配
列ほどアライメントのスコアは高くなる傾向)がある
i 0 1 2 3 4 5 6 7 8
j
0
1
2
3
4
5
6
7
局所アライメント演習問題 学籍番号: 名前:
局所アライメント:
Recommended