Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
09.11.18
1
グローバルアラインメントとローカルアラインメント
配列の全長が一致すると見なされる場合、グローバルアラインメント
たとえばマルチドメインタンパク質(幾つかの要素から構成)と シングルドメインのアラインメントで
最も一致度の高い一部分にマッチすれば良い: ローカルアラインメント
ACDEFGHK-LM!A---FGHKKL-
FGHK-L!FGHKKL
無理に全長をあわせて 配列相同性 6/11 = ~55%
一致する部分のみで比べて 配列相同性 5/6 = ~83%
無理に全長を合わせようとしなくても
09.11.18
2
ペアワイズアラインメントのアルゴリズム
ACDEF!ADEFG
ペアワイズアラインメントをおこなうには、さまざまなアラインメントのパターンをすべて 作って最もスコアの高いものを選択すればよい、
ACDEF-!-ADEFG
ACDEF--!--ADEFG
ACDEF----!----ADEFG
ACDEF-!A-DEFG
ACDEF--!A--DEFG
ACDEF----!A----DEFG
ACDEF-!AD-EFG
単純にすべての組み合わせを考えようとすると、配列長の和の階乗のオーダー たとえば100! = 10158のオーダーなのでどんなに計算機が速くても無理! 実際には、極端に重なりの少ないものを除いたりして計算量を減らすことができるが、それでも配列長がすこし長くなるとすぐに計算は困難になる
計算の仕方の工夫により実現可能な計算量にすることができる! 動的計画法 <ー これの雰囲気をつかむためにまずドットマトリクスをみてみよう
09.11.18
3
09.11.18
4
09.11.18
5
09.11.18
6
09.11.18
7
09.11.18
8
09.11.18
9
09.11.18
10
09.11.18
11
09.11.18
12
09.11.18
13
0
配列1:LDGV!配列2:LQI
L D G V
L
Q
I
-‐3
-‐6
-‐3
-‐9
-‐6 -‐9 -‐12 3
-‐2
1
-‐4 -‐3 2
-‐2 0 -‐2
-‐4 -‐4 4
0
L D G V
L
Q
I
右下の隅が出発点ー0を記入
0
L D G V
L
Q
I -‐3
-‐6
-‐3
-‐9
-‐6 -‐9 -‐12
GAPペナルティを一律に-‐3とすると黒枠矢印 を進むごとに-‐3加算、右端と下端は一通りしかない
スコア行列(BLOSUM62)を参照して、赤枠を埋める たとえば、左上隅、はS(L,L)で4
0
-‐3
-‐3
3
右下隅から、空の○を埋めてゆく。それぞれ3通りの経路があり、そのうちスコアが最大になるものを選ぶ。
この経路では元の○のスコア-‐3に 黒矢印を通ることに寄るスコア-‐3を加えて -‐6 となる
この経路でも同様に -‐6となる。
斜めに上がれば、元のスコア0に赤枠の
スコア3を加えスコア3となる。
そこで、左上の○のスコアを3とし、斜めの経路にマークをつける
0
L D G V
L
Q
I
-‐3
-‐6
-‐3
-‐9
-‐6 -‐9 -‐12 3
-‐2
1
-‐4 -‐3 2
-‐2 0 -‐2
-‐4 -‐4 4
3
この時点で新たに2カ所の値が求められる。
0
L D G V
L
Q
I
-‐3
-‐6
-‐3
-‐9
-‐6 -‐9 -‐12 3
-‐2
1
-‐4 -‐3 2
-‐2 0 -‐2
-‐4 -‐4 4
3
0
0
それぞれの経路を記録しながらスコアを求めてゆく
0
L D G V
L
Q
I
-‐3
-‐6
-‐3
-‐9
-‐6 -‐9 -‐12 3
-‐2
1
-‐4 -‐3 2
-‐2 0 -‐2
-‐4 -‐4 4
3
0
0
それぞれの経路を記録しながらスコアを求めてゆく
-‐3
1
-‐3
0
L D G V
L
Q
I
-‐3
-‐6
-‐3
-‐9
-‐6 -‐9 -‐12 3
-‐2
1
-‐4 -‐3 2
-‐2 0 -‐2
-‐4 -‐4 4
3
0
0
-‐3
1
-‐3
-‐2
0
-‐6
09.11.18
14
0
L D G V
L
Q
I
-‐3
-‐6
-‐3
-‐9
-‐6 -‐9 -‐12 3
-‐2
1
-‐4 -‐3 2
-‐2 0 -‐2
-‐4 -‐4 4
3
0
0
-‐3
1
-‐3
-‐2
0
-‐6
-‐3
-‐3
0
L D G V
L
Q
I
-‐3
-‐6
-‐3
-‐9
-‐6 -‐9 -‐12 3
-‐2
1
-‐4 -‐3 2
-‐2 0 -‐2
-‐4 -‐4 4
3
0
0
-‐3
1
-‐3
-‐2
0
-‐6
-‐3
-‐3
4
0
L D G V
L
Q
I
-‐3
-‐6
-‐3
-‐9
-‐6 -‐9 -‐12 3
-‐2
1
-‐4 -‐3 2
-‐2 0 -‐2
-‐4 -‐4 4
3
0
0
-‐3
1
-‐3
-‐2
0
-‐6
-‐3
-‐3
4
上端、または左端で最大の数値を捜す、この場合は 左上隅の4だが、たとえばここになる場合もありうる。
出発点から最大値の左上隅に至る経路が判れば、 ドットマトリクスの時と同様にアラインメントが求まる。
すなわち横向きに移動している G に対応する箇所がない(GAP)であると考えれば以下のアラインメントが求まる
配列1:LDGV!配列2:LQ-I
09.11.18
15
E-value
配列相同性のもう一つの指標
後で用いる配列相同性検索プログラム:BLASTで用いられる
ランダムな配列の比較で、偶然にスコアSが生じる可能性
0~1で、低いほど、相同性が高いと考えられる
BLASTの出力では、指数表記で表されるので注意
ひとつの目安として、0.0001 = 10-‐4 より小さければホモロジーが有ると考える
例えば、 10-‐4 は 1.0e-‐4 と表記される
0.24 は 2.4e-‐1, 0.000000000098 は、9.8e-‐11 と表記される
ログオッズスコアの和: アラインメントが長いほど高くなる ー>補正
09.11.18
16
BLASTホームページ hAp://blast.ncbi.nlm.nih.gov/Blast.cgi
Google等で、「NCBI BLAST」で検索
タンパク質アミノ酸配列で検索
ここを押して検索実行
アミノ酸配列をペースト
検索対象のデータベースを選択 ここではNR
検索手法を選択 ここではblastp
ここを押して検索実行
より細かな検索条件を設定(次ページ)
タンパク質アミノ酸配列に対するBLAST検索ページ
09.11.18
17
細かい条件設定のページ(前ページのAlgorithm parametersをクリックした場合)
結果の配列数の上限 (デフォルトでは100個まで出力)
結果の配列数の上限 (デフォルトでは100個まで出力)
スコアマトリクスの選択
ギャップペナルティの選択
検索の実行
ここを押して検索実行
タンパク質アミノ酸配列に対するBLAST検索ページ
UNIPROTから HBA_HUMAN の配列をとってきて 貼り付けた
09.11.18
18
BLAST検索結果
クェリー配列長
の領域における 予測機能
クェリー配列(~140) の全長にわたって 高い相同性の配列が 赤い横棒の数だけある ここでは上限の100本
下にスクロール(次ページ)
一行あたり一つのタンパク質
それぞれのE-‐value すべて10のマイナス 76~67乗オーダー = すべてホモログ
下にスクロール(次ページ)
09.11.18
19
クエリーとヒットのアラインメント
1本目
最後
配列相同性 89%
完全一致
アブラコウモリ
一つ目のヒットに 関する情報