Upload
constance-chavez
View
194
Download
2
Embed Size (px)
DESCRIPTION
计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪 讲义网址: http://www.mbtech.sdu.edu.cn/biocomp/. 二元预测的灵敏度和选择度. 某地在一段时期之内发生了 5 次地震和 5 次雷阵雨。有两台地震探测仪 A 和 B 。 A 探测到了 7 次地震,其中包括 5 次真正的地震和 2 次雷阵雨; B 探测到了 3 次地震, 3 次都是真正的地震。 - PowerPoint PPT Presentation
Citation preview
1
计算机科学与生命科学( 12)生物信息学基础
2013 年秋季学期通选课程上课时间:周一 18:30 点 上课地点:软件园 4 区 502d主讲人:魏天迪讲义网址: http://www.mbtech.sdu.edu.cn/biocomp/
2
二元预测的灵敏度和选择度
某地在一段时期之内发生了 5 次地震和 5 次雷阵雨。有两台地震探测仪 A和 B 。 A 探测到了 7 次地震,其中包括 5 次真正的地震和 2 次雷阵雨; B探测到了 3 次地震, 3 次都是真正的地震。
A: true positive (tp) = 5; true negative (tn) = 3; false positive (fp) = 2; false negetive (fn) = 0.B: true positive (tp) = 3; true negative (tn) = 5; false positive (fp) = 0; false negetive (fn) = 2.
灵敏度: Sensitivity = tp / (tp + fn)选择度: Specificity = tn / (tn + fp)
A: Sensitivity = 5/(5+0) = 100%; Specificity = 3/(3+2) = 60%B: Sensitivity = 3/(3+2) = 60%; Specificity = 5/(5+0) = 100%
A: “ 宁可选错也不漏选”B: “ 宁可不选也不选错”
灵敏度和选择度二者之间往往会有博弈,想做到“既不放过一个坏人也不冤枉一个好人”是很不容易的。
3
序列基序预测
序列基序( Motif )是一个保守的分布广泛的具有一定生物学功能的核酸或蛋白质片段。
4
富亮氨酸重复序列( LRR)的预测
富亮氨酸重复序列( LRR )广泛存在于病毒、原核生物与真核生物的上万个已知的蛋白质中,往往参与蛋白质与蛋白质或(非蛋白质)的相互作用,在细胞黏连、信号传导、血小板凝聚、细胞外基质聚集、神经系统发育、 RNA 加工、病毒入侵及免疫应答等过程中起到了关键性。 LRR 具有一个特征性序列模板 LxxLxLxxNxL 。
5
http://tollml.lrz.de
从目前已知的所有 Toll 样受体蛋白质序列( >2500 )中半手动的精确划分出了 5 万多个单个的 LRRs 。 作为训练组,从中构建出一个统计学模型,来详细描述 LRR 的序列特征。 位点特异性加权矩阵( Position-Specific Weight Matrix )。
富亮氨酸重复序列( LRR)的预测
6
Position-Specific Weight Matrix
(%)
Position
Am
ino
acid
s
7
Position-Specific Weight Matrix
Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …
(%)
Position
Am
ino
acid
s
8
Position-Specific Weight Matrix
Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …
(%)
Position
Am
ino
acid
s
9
Position-Specific Weight Matrix
Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …
(%)
Position
Am
ino
acid
s
10
Position-Specific Weight Matrix
Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …
(%)
Position
Am
ino
acid
s
11
Position-Specific Weight Matrix
Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …
(%)
Position
Am
ino
acid
s
12
Position-Specific Weight Matrix
Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …
3.800
(%)
Position
Am
ino
acid
s
13
Position-Specific Weight Matrix
Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …
3.800 1.054
cutoffcutoff
YesYes
NoNo2.232
(%)
Position
Am
ino
acid
s
14
LRR预测
cutoffcutoff
YesYes
NoNo
Sen
sitiv
ity /
Spe
cific
ityExample: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …
3.800 1.0542.232
Cutoff score
Cutoff 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5
Sensitivity 0.942 0.933 0.924 0.916 0.907 0.886 0.868 0.858 0.842 0.822 0.805
Specificity 0.852 0.882 0.902 0.916 0.935 0.954 0.970 0.981 0.988 0.992 0.994
Spe. (filter)
0.914 0.930 0.953 0.959 0.972 0.981 0.987 0.991 0.994 0.996 0.997
15
cutoffcutoff
YesYes
NoNo
Sen
sitiv
ity /
Spe
cific
ity3.800 1.0542.232Yes Yes No
Cutoff score
Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …
Cutoff 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5
Sensitivity 0.942 0.933 0.924 0.916 0.907 0.886 0.868 0.858 0.842 0.822 0.805
Specificity 0.852 0.882 0.902 0.916 0.935 0.954 0.970 0.981 0.988 0.992 0.994
Spe. (filter)
0.914 0.930 0.953 0.959 0.972 0.981 0.987 0.991 0.994 0.996 0.997
LRR预测
16
LRR预测
17
LRR预测
18
蛋白质三维结构
蛋白质四个水平上的结构:
19核磁共振法
第一个蛋白质的 3D 结构是由 Kendrew 和 Perutz 于 1958 使用 X- 射线晶体衍射法测得的。
Max Ferdinand Perutz (1914-2002) no
bel prize 1962
John Cowdery Kendrew (1917-1997) nobel prize 1962
62152
7929
蛋白质三维结构测定
X- 射线晶体衍射法
20
蛋白质三维结构测定
21
蛋白质结构数据库Protein Data Bank (PDB) 是世界上唯一的生物大分子结构数据库。 1971 年由美国 Brookhaven 国家实验室建立。 PDB 所收集的生物大分子三维结构数据都是数据库用户直接提交的通过 X-ray 衍射或核磁共振( NMR )实验测定的,包括结构坐标数据、文献、一二级结构信息。目前 PDB 的维护由结构生物信息学研究合作组织( RCSB )负责管理,主要成员有 Rutger 大学、圣地亚哥超级计算中心( SDSC )和美国标准化研究所( NIST )。
已知结构的蛋白质> 9 万
不同的结构拓扑< 1300 。
22
蛋白质结构数据库Protein Data Bank (PDB) 是世界上唯一的生物大分子结构数据库。 1971 年由美国 Brookhaven 国家实验室建立。 PDB 所收集的生物大分子三维结构数据都是数据库用户直接提交的通过 X-ray 衍射或核磁共振( NMR )实验测定的,包括结构坐标数据、文献、一二级结构信息。目前 PDB 的维护由结构生物信息学研究合作组织( RCSB )负责管理,主要成员有 Rutger 大学、圣地亚哥超级计算中心( SDSC )和美国标准化研究所( NIST )。
Go to: http://www.pdb.org/pdb/home/home.do
3IA31MSW
23
分子三维结构查看及分析软件
下载: http://www.ks.uiuc.edu/Research/vmd/
24
蛋白质二级结构预测
已知一个蛋白质的氨基酸序列,预测其二级结构。
常用软件: PSIPRED, APSSP2, NNPREDICT, PREDICTPROTEIN
http://bioinf.cs.ucl.ac.uk/psipred/