28
简简 2013/6/6

简介 2013/6/6

  • Upload
    sharis

  • View
    106

  • Download
    0

Embed Size (px)

DESCRIPTION

简介 2013/6/6. 产生 的 背景. 如何 借助计算机全面地展示细胞和生物所包含的生物学信息是后基因组时代的重大挑战之一。科学家期望能够 根据基因组中的信息,用计算机计算或者预测出比较复杂的细胞中的通路或者生物的复杂行为 。出于这个目的,日本京都大学生物信息学中心的 Kanehisa 实验室于 1995 年建立了生物 信息学 数据库 KEGG 。. 特点. - PowerPoint PPT Presentation

Citation preview

简介

2013/6/6

产生的背景 如何借助计算机全面地展示细胞和生物所包含的生物学信息是后基因组时代的重大挑战之一。科学家期望能够根据基因组中的信息,用计算机计算或者预测出比较复杂的细胞中的通路或者生物的复杂行为。出于这个目的,日本京都大学生物信息学中心的Kanehisa 实验室于 1995 年建立了生物信息学数据库 KEGG 。

特点• KEGG 是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是 KEGG 数据库的特色之一。• 人工创建了一个知识库,这个知识库是基于使用一种可计算的形式捕捉和组织实验得到的知识而形成的系统功能知识库。它是一个生物系统的计算机模拟。• 与其他数据库相比, KEGG 的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,这样可以使研究者能够对其所要研究的代谢途径有一个直观全面的了解。

用途• 各个数据库中包含了大量的有用信息。基因组信息存储在 GENES数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在 PATHWAY 数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;

KEGG 的另一个数据库 LIGAND ,包含关于化学物质、酶分子、酶反应等信息。• 通过与世界上其它一些大型生物信息学数据库的连接, KEGG 可以为研究者提供更为丰富的生物学信息 (LinkDB) 。• KEGG 提供了 Java 的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。

影响及发展• KEGG 建立了 KEGG 直系同源系统 (the KEGG Orthology

(KO) system) ,这个系统通过把分子网络的相关信息连接到基因组中,从而发展和促进了跨物种注释流程。• 结果表明, KEGG 被当做一个参考知识库,被广泛的用于基因组测序和其他高通量实验技术得到的大规模数据集的整合和解释中。除了保持对基础研究的支持,随着 KEGG 分子网络的一些小变化, KEGG正在朝着更加偏向于实际应用的方向发展,这些应用主要集中在整合人类疾病、药物和其他与健康相关的物质。

KEGG 数据库• KEGG 是一个综合数据库,它们大致分为系统信息、基因组信息和化学信息三大类。进一步可细分为 16 个主要的数据库。可以通过不同的颜色编码来区分。

分类 数据库 目录 颜色

系统信息

KEGG PATHWAY KEGG 通路图KEGG BRITE BRITE 功能层次KEGG MODULE KEGG 功能单元的模块KEGG DISEASE 人类疾病KEGG DRUG 药物KEGG ENVIRON 天然药物和与健康相关的物质

基因组信息KEGG ORTHOLOGY KEGG 直系同源 (KO) 组KEGG GENOME KEGG 中带有完整基因组的物种KEGG GENES 在完整基因组中的基因目录KEGG SSDB 与基因有关的序列相似性数据库

化学信息

KEGG COMPOUND 代谢物及其他小分子化合物KEGG GLYCAN 多糖KEGG REACTION 生化反应KEGG RPAIR 化学反应中的反应物对KEGG RCLASS RPAIR定义的反应级别KEGG ENZYME 酶命名法

三类数据库的关系

KEGG 对象标识符Database Object Prefix Example

KEGG PATHWAY Pathway map map, ko, ec, rn, (org) hsa04930

KEGG BRITE Functional hierarchy br, jp, ko, (org) ko01003

KEGG MODULE KEGG module M, (org)_M M00010

KEGG DISEASE Human disease H H00004

KEGG DRUG Drug D D01441

KEGG ENVIRON Crude drug, etc. E E00048

KEGG ORTHOLOGY KO group K K04527

KEGG GENOME KEGG organism T T01001 (hsa)

KEGG GENES Gene / protein hsa:3643

KEGG COMPOUND Small molecule C C00031

KEGG GLYCAN Glycan G G00109

KEGG REACTION Reaction R R00259

KEGG RPAIR Reactant pair RP RP04458

KEGG RCLASS Reaction class RC RC00046

KEGG ENZYME Enzyme ec:2.7.10.1

数据库中包含各种各样的数据对象,这些数据对象是为了用来对生物系统进行计算机模拟的。因此,各个数据库中的数据记录都被称为 KEGG 对象。这些对象可以通过 KEGG 对象标识符来识别,标识符由一个与数据库相关的前缀加五个数字构成。

(org) represents three-, four-, or five-letter organism code

当前数据库中的记录KEGG Database as of 2013/6/5KEGG PATHWAY Pathway maps, reference (total) 0 (246,368)KEGG BRITE Functional hierarchies, reference (total) 140 (78,848)KEGG MODULE KEGG modules, reference (total) 566 (185,274)KEGG DISEASE Human diseases 1,301KEGG DRUG Drugs 9,910KEGG ENVIRON Crude drugs and health-related substances 845KEGG ORTHOLOGY KEGG Orthology (KO) groups 16,748KEGG GENOME KEGG Organisms 2,697KEGG GENES Genes in high-quality genomes

(190 eukaryotes, 2336 bacteria, 153 archaea)10,821,739

KEGG SSDB Best hit relations within GENESBi-directional best hit relations within GENES

130,947,959,9572,996,848,546

KEGG DGENES Genes in draft genomes (18 eukaryotes) 432,488KEGG EGENES Genes as EST contigs (99 eukaryotes) 3,792,883KEGG MGENES Genes in metagenomes (716 samples) 90,754,418KEGG COMPOUND Metabolites and other small molecules 17,012KEGG GLYCAN Glycans 10,985KEGG REACTION Biochemical reactions 9,320KEGG RPAIR Reactant pair chemical transformations 14,092KEGG RCLASS Reaction class 2,807KEGG ENZYME Enzyme nomenclature 5,973

KEGG PATHWAY Database

KEGG PATHWAY 数据库是一个手工画的代谢通路的集合,包含以下几方面的分子间相互作用和反应网络:1.新陈代谢2.遗传信息加工3.环境信息加工4. 细胞过程5. 生物体系统6. 人类疾病7.药物开发

PATHWAY 的五种类型仅仅第一种参考通路 (reference pathway) 图是手动画出来的,其他的通路图都是通过计算产生的。 pathway 中的每一个框 ( 或线 ) 都对应一个或多个 K编号、 EC编号及 R编号。• map - Reference pathway 对于代谢相关的通路,在 reference pathway 中,一个点同时表示一个基因、这个基因编码的酶及这个酶参加的反应• ko - Reference pathway (KO) ko 通路中的点只表示基因• ec - Reference pathway (EC) ec 通路中的点只表示相关的酶• rn - Reference pathway (Reaction) Reaction 通路中的点只表示改点参与的某个反应、反应物对及反应类型• org - Organism-specific pathway map 对于所有的代谢和非代谢通路, K编号都被认为是基因的标识符,这个标识符在每一个物种中对应该物种中的某个基因,从而得到物种特异性的 pathway 。

KEGG BRITE Database

KEGG BRITE 是一个层级分类的数据库,包含生物系统各个方面的知识。相对于 KEGG PATHWAY仅限于分子间相互作用和反应, KEGG BRITE 包含了许多不同的关系类型。例如,可以查询酶和底物之间的关系,也可以查询某种酶的同源基因。

KEGG MODULE DatabaseKEGG MODULE 是一个人工定义的功能单元的集合。被用于已测序基因组的注释和生物学上的解释。各个模块使用 M开头的编号及与其对应的一系列 K开头的编号来表示。四种主要的 KEGG 模块1. 通路模块:代表在 KEGG 代谢通路图中的复杂功能单元,例如 M00002(糖酵解,与三碳化合物相关的核心模块 )2. 结构复合物:通常形成分子机械,例如 M00072(寡糖转移酶 )3. 功能集:基本单元的其他形式,例如 M00360(氨酰基 -tRNA 合酶,原核生物 )4. 特征模块:作为某种表型的标记,例如 M00363(肠出血性大肠杆菌致病性特征,志贺毒素 )

KEGG ORTHOLOGY (KO) Database

KEGG 参考通路图, BRITE 功能层次以及 KEGG 模块都是以一种广泛的方式来表示,都可以用于所有物种。而 KEGG 直系同源系统 (KO System) 是这一表示方式的基础。包含手动定义的直系同源组,这些直系同源组就相当于 KEGG 通路中的点, BRITE层级中的点以及KEGG 模块中的点。 ( 这些点并不是某个具体物种的某一个基因,而是在许多物种中都存在的直系同源的某一个基因 ) 。一旦基因被分配了 KO标识或 K编号,通过基因组注释流程,物种特异性的通路图、 BRITE 功能层次和 KEGG 模块就可以自动产生了。

直系同源与旁系同源 直系同源 (orthology) 是比较基因组学中最重要的定义。直系同源的定义是: (1). 在进化上起源于一个始祖基因并垂直传递的同源基因; (2). 分布于两种或两种以上物种的基因组; (3). 功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换; (4). 结构相似; (5). 组织特异性与亚细胞分布相似。 旁系同源 (paralogy) 基因是指同一基因组 ( 或同系物种的基因组 ) 中,由于始祖基因的加倍而横向产生的几个同源基因。直系与旁系的共性是同源,都源于各自的始祖基因。其区别在于:在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似 (尽管结构上具一定程度的相似 ) ,甚至于没有功能 ( 如基因家族中的假基因 ) 。

Image depicts concepts of Orthology and paralogy. from

Protein Kinase C Orthologs

Neurotrophin(神经营养因子 ) signaling pathway(ko04722)

从这个图上可以看到基因之间的相互作用。

ko编号表示一个通路,这个通路是不分物种的,相当于所有物种的这一通路的并集。

K编号表示一个基因,是ko 通路中的基本单位,某一 K编号代表的不是某一具体物种的基因,而是所有物种的某一同源基因的统称。

KEGG GENOME Database

该数据库中收集了 2679 中物种 (190 eukaryotes, 2336 bacteria, 153 archaea) 的基因组信息,这些物种都已经具有完整的基因组序列,并根据大量的 EST 数据集进行了增补。

KEGG GENES Database• KEGG GENES 是所有已知全基因组序列的基因目录的集合。这些全基因组信息主要参考可得到的公共数据库,尤其是

NCBI RefSeq 数据库。这些基因从属于 SSDB (Sequence Similarity Database)并通过 KOALA 工具进行计算和 KO编号的分配 ( 基因注释 ) 。

• KEGG DGENES 中包括一些真核生物的基因组草图,• KEGG EGENES 是一个包含大部分植物的 EST 数据集的补充基因目录,以上数据都随着 GENES 被当做一个参考数据集的使用被 KAAS自动分配上 KO编号。• MGENES 表示通过自动注释的宏基因组。• VGENES 表示病毒基因目录,还没有全部整合到 KEGG 系统中。

KEGG SSDB Database• KEGG SSDB( 序列相似性数据库 ) 包括全基因组中的所有蛋白编码基因的氨基酸序列相似性的信息,这些信息是从 KEGG 中的 GENES 数据库计算得到的。所有可能的成对基因组比较由 SSEARCH 程序来执行,并且 Smith-

Waterman 相似性分数大于或等于 100 的基因对会被选入SSDB 数据库,数据库中还包括最佳匹配 (best hits) 以及双向最佳匹配 (best-best hits) 序列的信息。

• SSDB 是一个如此巨大的加权的有向图,这使得该数据库可以被用于查询直系同源和旁系同源基因,还可以在额外考虑染色体上位置正确性的情况下查询保守的基因簇。

Thank you!