24
1 计计计计计计计计计计12 计计计计计计计 2013 年年年年年年年年年 年年年年 年年 :一 18:30 年 年年年年 年年年 4 年 502d 年年年 年年年 年年年年http://www.mbtech.sdu.edu.cn/bioco mp/

计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

Embed Size (px)

DESCRIPTION

计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪 讲义网址: http://www.mbtech.sdu.edu.cn/biocomp/. 二元预测的灵敏度和选择度. 某地在一段时期之内发生了 5 次地震和 5 次雷阵雨。有两台地震探测仪 A 和 B 。 A 探测到了 7 次地震,其中包括 5 次真正的地震和 2 次雷阵雨; B 探测到了 3 次地震, 3 次都是真正的地震。 - PowerPoint PPT Presentation

Citation preview

Page 1: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

1

计算机科学与生命科学( 12)生物信息学基础

2013 年秋季学期通选课程上课时间:周一 18:30 点 上课地点:软件园 4 区 502d主讲人:魏天迪讲义网址: http://www.mbtech.sdu.edu.cn/biocomp/

Page 2: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

2

二元预测的灵敏度和选择度

某地在一段时期之内发生了 5 次地震和 5 次雷阵雨。有两台地震探测仪 A和 B 。 A 探测到了 7 次地震,其中包括 5 次真正的地震和 2 次雷阵雨; B探测到了 3 次地震, 3 次都是真正的地震。

A: true positive (tp) = 5; true negative (tn) = 3; false positive (fp) = 2; false negetive (fn) = 0.B: true positive (tp) = 3; true negative (tn) = 5; false positive (fp) = 0; false negetive (fn) = 2.

灵敏度: Sensitivity = tp / (tp + fn)选择度: Specificity = tn / (tn + fp)

A: Sensitivity = 5/(5+0) = 100%; Specificity = 3/(3+2) = 60%B: Sensitivity = 3/(3+2) = 60%; Specificity = 5/(5+0) = 100%

A: “ 宁可选错也不漏选”B: “ 宁可不选也不选错”

灵敏度和选择度二者之间往往会有博弈,想做到“既不放过一个坏人也不冤枉一个好人”是很不容易的。

Page 3: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

3

序列基序预测

序列基序( Motif )是一个保守的分布广泛的具有一定生物学功能的核酸或蛋白质片段。

Page 4: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

4

富亮氨酸重复序列( LRR)的预测

富亮氨酸重复序列( LRR )广泛存在于病毒、原核生物与真核生物的上万个已知的蛋白质中,往往参与蛋白质与蛋白质或(非蛋白质)的相互作用,在细胞黏连、信号传导、血小板凝聚、细胞外基质聚集、神经系统发育、 RNA 加工、病毒入侵及免疫应答等过程中起到了关键性。 LRR 具有一个特征性序列模板 LxxLxLxxNxL 。

Page 5: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

5

http://tollml.lrz.de

从目前已知的所有 Toll 样受体蛋白质序列( >2500 )中半手动的精确划分出了 5 万多个单个的 LRRs 。 作为训练组,从中构建出一个统计学模型,来详细描述 LRR 的序列特征。 位点特异性加权矩阵( Position-Specific Weight Matrix )。

富亮氨酸重复序列( LRR)的预测

Page 6: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

6

Position-Specific Weight Matrix

(%)

Position

Am

ino

acid

s

Page 7: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

7

Position-Specific Weight Matrix

Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …

(%)

Position

Am

ino

acid

s

Page 8: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

8

Position-Specific Weight Matrix

Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …

(%)

Position

Am

ino

acid

s

Page 9: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

9

Position-Specific Weight Matrix

Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …

(%)

Position

Am

ino

acid

s

Page 10: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

10

Position-Specific Weight Matrix

Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …

(%)

Position

Am

ino

acid

s

Page 11: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

11

Position-Specific Weight Matrix

Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …

(%)

Position

Am

ino

acid

s

Page 12: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

12

Position-Specific Weight Matrix

Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …

3.800

(%)

Position

Am

ino

acid

s

Page 13: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

13

Position-Specific Weight Matrix

Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …

3.800 1.054

cutoffcutoff

YesYes

NoNo2.232

(%)

Position

Am

ino

acid

s

Page 14: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

14

LRR预测

cutoffcutoff

YesYes

NoNo

Sen

sitiv

ity /

Spe

cific

ityExample: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …

3.800 1.0542.232

Cutoff score

Cutoff 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5

Sensitivity 0.942 0.933 0.924 0.916 0.907 0.886 0.868 0.858 0.842 0.822 0.805

Specificity 0.852 0.882 0.902 0.916 0.935 0.954 0.970 0.981 0.988 0.992 0.994

Spe. (filter)

0.914 0.930 0.953 0.959 0.972 0.981 0.987 0.991 0.994 0.996 0.997

Page 15: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

15

cutoffcutoff

YesYes

NoNo

Sen

sitiv

ity /

Spe

cific

ity3.800 1.0542.232Yes Yes No

Cutoff score

Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …

Cutoff 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5

Sensitivity 0.942 0.933 0.924 0.916 0.907 0.886 0.868 0.858 0.842 0.822 0.805

Specificity 0.852 0.882 0.902 0.916 0.935 0.954 0.970 0.981 0.988 0.992 0.994

Spe. (filter)

0.914 0.930 0.953 0.959 0.972 0.981 0.987 0.991 0.994 0.996 0.997

LRR预测

Page 16: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

16

LRR预测

Page 17: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

17

LRR预测

Page 18: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

18

蛋白质三维结构

蛋白质四个水平上的结构:

Page 19: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

19核磁共振法

第一个蛋白质的 3D 结构是由 Kendrew 和 Perutz 于 1958 使用 X- 射线晶体衍射法测得的。

Max Ferdinand Perutz (1914-2002) no

bel prize 1962

John Cowdery Kendrew (1917-1997) nobel prize 1962

62152

7929

蛋白质三维结构测定

X- 射线晶体衍射法

Page 20: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

20

蛋白质三维结构测定

Page 21: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

21

蛋白质结构数据库Protein Data Bank (PDB) 是世界上唯一的生物大分子结构数据库。 1971 年由美国 Brookhaven 国家实验室建立。 PDB 所收集的生物大分子三维结构数据都是数据库用户直接提交的通过 X-ray 衍射或核磁共振( NMR )实验测定的,包括结构坐标数据、文献、一二级结构信息。目前 PDB 的维护由结构生物信息学研究合作组织( RCSB )负责管理,主要成员有 Rutger 大学、圣地亚哥超级计算中心( SDSC )和美国标准化研究所( NIST )。

已知结构的蛋白质> 9 万

不同的结构拓扑< 1300 。

Page 22: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

22

蛋白质结构数据库Protein Data Bank (PDB) 是世界上唯一的生物大分子结构数据库。 1971 年由美国 Brookhaven 国家实验室建立。 PDB 所收集的生物大分子三维结构数据都是数据库用户直接提交的通过 X-ray 衍射或核磁共振( NMR )实验测定的,包括结构坐标数据、文献、一二级结构信息。目前 PDB 的维护由结构生物信息学研究合作组织( RCSB )负责管理,主要成员有 Rutger 大学、圣地亚哥超级计算中心( SDSC )和美国标准化研究所( NIST )。

Go to: http://www.pdb.org/pdb/home/home.do

3IA31MSW

Page 23: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

23

分子三维结构查看及分析软件

下载: http://www.ks.uiuc.edu/Research/vmd/

Page 24: 计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪

24

蛋白质二级结构预测

已知一个蛋白质的氨基酸序列,预测其二级结构。

常用软件: PSIPRED, APSSP2, NNPREDICT, PREDICTPROTEIN

http://bioinf.cs.ucl.ac.uk/psipred/