1
Licensed under a Creative Commons表示4.0国際ライセンス (c)2018 バイオサイエンスデータベースセンター トーゴーの日シンポジウム 2018 ~バイオデータベース:つないで使う~ 開催日:2018年10月5日(金) 於:日本科学未来館 生物学的概念オントロジー由来のナレッジグラフを用いた疾患関連因子の推論 〇櫛田達矢、建石由佳(JSTバイオサイエンスデータベースセンター)、川村隆浩(電気通信大学)、古崎晃司(大阪大学 産業科学研究所) 生物学的概念オントロジー(http://purl.bioontology.org/ontology/IOBC)から構築したナレッジグラフを使い、疾患関連 遺伝子および化合物の推論を行った。生物学的概念オントロジーをトリプルストアに格納、SPARQLを実行し、線維素溶解 (血栓が分解する現象)から3ステップ以内で繋がる概念の集合のデータを獲得、このデータをCytoscapeを使ってグラフとし て可視化し、これを線維素溶解ナレッジグラフと呼んだ。線維素溶解ナレッジグラフでは、「ある疾患(例、血栓塞栓症)に 対して、それに先行して生起する生命現象(例、血小板凝集)」や「その生命現象を制御する機能を有する遺伝子産物(例、 CLEC2)」などの知識の抽出が可能になった。ここで、その遺伝子産物がその生命現象を通して疾患を制御すると考えられる ことから、血栓塞栓症の関連遺伝子としてCLEC2など有力な疾患関連遺伝子候補の発見が可能になった。Gene Ontology、 MeSH、ChEBIが提供する生物学的概念と遺伝子産物および化合物の関係情報を、線維素溶解ナレッジグラフに取り込んだ例 では、血栓塞栓症関連遺伝子および化合物として100件以上の候補が発見された。生物学的概念オントロジー由来のナレッジ グラフを対象に、SPARQL検索および、記述論理の手法を用いることで、直接的な関係は明示されていないものの、間接的に 疾患に効果があることを示唆する物質(遺伝子産物、化合物)を効率的かつ正確に発見する可能性が示された。 BioPortalを使ったKGの拡張 ナレッジグラフ(KG)の構築手順 生物学的概念オントロジー(IOBC) MeSH, ChEBI, Gene Ontology, MEDDRA, SNOMEDCT, NCIT, NDFRT, ICD10, Protein ontology, ICD9, OMIM, FMAなど生命科学分野の主要な オントロジー、シソーラスを対象 BioPortal (https://bioportal.bioontology.org/) のAPIを使用し、 ①IOBCと他のオントロジーの概念間で、ラベルやシノニムが一致する概念を発見 ②生命科学の専門家がそれを確認、同一概念と判断した場合、両概念を skos:exactMatchを使って対応付け。 ③ナレッジグラフに統合。 CLEC2は血小板凝集を制御する機能を持つ 血小板凝集は、血栓塞栓症に先行して起こる CLEC2が血小板凝集を通して、血栓塞栓症を制御し ている可能がある ⇒ CLEC2は血栓塞栓症関連遺伝子 PRKCH geneは脳梗塞を制御する機能を持つ 脳梗塞と血栓塞栓症は何かしら関係(RT)があるが、 詳細は不明 PRKCHと血栓塞栓症の関係は不明 ⇒ PRKCHは血栓塞栓症関連遺伝子とは言えない。 概念間の関係(precedes, has function) を使った疾患関連遺伝子の推論 疾患 MeSH, ChEBI, GOの情報で 拡張した疾患関連遺伝子 DisGeNET* 血栓塞栓症 107遺伝子 (7遺伝子)** 85遺伝子 線維素溶解紫斑病 140遺伝子 (3遺伝子)** - 線維素溶解亢進 - 線維素溶解障害 2遺伝子 * : http://www.disgenet.org/web/DisGeNET **: カッコ内はIOBCの情報のみで見つかった疾患関連遺伝子数 KGで推論された疾患関連遺伝子の件数

生物学的概念オントロジー由来のナレッジグラフを用いた疾 …...GV G GBG Fþ ¥GEG GkGFG4 Gn >Þ>Ü>Ý>ßF· FãFãG F÷FÝFïGwG2GcGCG2G6G GGGUG GM GgG GGFþ)+

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 生物学的概念オントロジー由来のナレッジグラフを用いた疾 …...GV G GBG Fþ ¥GEG GkGFG4 Gn >Þ>Ü>Ý>ßF· FãFãG F÷FÝFïGwG2GcGCG2G6G GGGUG GM GgG GGFþ)+

ト ーゴーの日シンポジウム 2013  ここまできたライフサイエンスデータベースの統合

会期: 2013 年 10 月 4 日( 金)・ 5 日( 土)    於: 時事通信ホールLicensed under a Creative Commons表示4.0国際ライセンス(c)2018 バイオサイエンスデータベースセンター

トーゴーの日シンポジウム 2018 ~バイオデータベース:つないで使う~開催日:2018年10月5日(金) 於:日本科学未来館

生物学的概念オントロジー由来のナレッジグラフを用いた疾患関連因子の推論

〇櫛田達矢、建石由佳(JSTバイオサイエンスデータベースセンター)、川村隆浩(電気通信大学)、古崎晃司(大阪大学 産業科学研究所)

生物学的概念オントロジー(http://purl.bioontology.org/ontology/IOBC)から構築したナレッジグラフを使い、疾患関連遺伝子および化合物の推論を行った。生物学的概念オントロジーをトリプルストアに格納、SPARQLを実行し、線維素溶解(血栓が分解する現象)から3ステップ以内で繋がる概念の集合のデータを獲得、このデータをCytoscapeを使ってグラフとして可視化し、これを線維素溶解ナレッジグラフと呼んだ。線維素溶解ナレッジグラフでは、「ある疾患(例、血栓塞栓症)に対して、それに先行して生起する生命現象(例、血小板凝集)」や「その生命現象を制御する機能を有する遺伝子産物(例、CLEC2)」などの知識の抽出が可能になった。ここで、その遺伝子産物がその生命現象を通して疾患を制御すると考えられることから、血栓塞栓症の関連遺伝子としてCLEC2など有力な疾患関連遺伝子候補の発見が可能になった。Gene Ontology、MeSH、ChEBIが提供する生物学的概念と遺伝子産物および化合物の関係情報を、線維素溶解ナレッジグラフに取り込んだ例では、血栓塞栓症関連遺伝子および化合物として100件以上の候補が発見された。生物学的概念オントロジー由来のナレッジグラフを対象に、SPARQL検索および、記述論理の手法を用いることで、直接的な関係は明示されていないものの、間接的に疾患に効果があることを示唆する物質(遺伝子産物、化合物)を効率的かつ正確に発見する可能性が示された。

BioPortalを使ったKGの拡張

ナレッジグラフ(KG)の構築手順生物学的概念オントロジー(IOBC)

MeSH, ChEBI, Gene Ontology, MEDDRA, SNOMEDCT, NCIT, NDFRT, ICD10, Protein ontology, ICD9, OMIM, FMAなど生命科学分野の主要なオントロジー、シソーラスを対象

BioPortal (https://bioportal.bioontology.org/) のAPIを使用し、①IOBCと他のオントロジーの概念間で、ラベルやシノニムが一致する概念を発見②生命科学の専門家がそれを確認、同一概念と判断した場合、両概念を

skos:exactMatchを使って対応付け。③ナレッジグラフに統合。

①CLEC2は血小板凝集を制御する機能を持つ②血小板凝集は、血栓塞栓症に先行して起こる③CLEC2が血小板凝集を通して、血栓塞栓症を制御している可能がある⇒ CLEC2は血栓塞栓症関連遺伝子

①PRKCH geneは脳梗塞を制御する機能を持つ②脳梗塞と血栓塞栓症は何かしら関係(RT)があるが、詳細は不明

③PRKCHと血栓塞栓症の関係は不明⇒ PRKCHは血栓塞栓症関連遺伝子とは言えない。

概念間の関係(precedes, has function)を使った疾患関連遺伝子の推論

疾患MeSH, ChEBI, GOの情報で拡張した疾患関連遺伝子

DisGeNET*

血栓塞栓症 107遺伝子 (7遺伝子)** 85遺伝子

線維素溶解紫斑病

140遺伝子 (3遺伝子)**

-

線維素溶解亢進 -

線維素溶解障害 2遺伝子

* : http://www.disgenet.org/web/DisGeNET**: カッコ内はIOBCの情報のみで見つかった疾患関連遺伝子数

KGで推論された疾患関連遺伝子の件数