66
© ライフサイエンス統合データベースセンター/大学共同利用機関法人 情報・システム研究機構 バイオインフォマティクス データベース統合化によるアプローチ 大学共同利用機関法人 情報・システム研究機構(ROIS) ライフサイエンス統合データベースセンター(DBCLS) 坊農 秀雅 Online supplemental material: http://bit.ly/togodb

第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

Embed Size (px)

DESCRIPTION

DNAマイクロアレイや新型シーケンサーに代表される大規模解析は、かつては大型プロジェクトに限定されていたが、コストダウンやコモディティの整備がすすみ、一般のウェット系研究室でも実行可能となっている。また我が国ではまだ不十分であるが、今後、解析情報の共有と公開原則の意識が浸透すれば、インターネット上に公開データの蓄積がすすみ、それを活用することにより、解析コストをかけずに大規模データを研究に資することができるようになると考えられる。しかしこうした実験のデータ量は膨大であり、そのデータハンドリングは実験生物学者には困難であることが現状の問題である。 また、論文発表によって公開されたデータがデータベース(以下、DBと略す)として登録されているとはいうものの、どういったものが今利用可能でどう使ったらいいのかよくわからない状態となっている。この状況下で、文部科学省による「統合データベースプロジェクト」が平成18年度から5年間の年限プロジェクトとして立ち上げられ、その中核機関であったライフサイエンス統合データベースセンター(DBCLS:Database Center for Life Science)が中心になって医学生物学研究を支えるDBインフラを整備してきた。平成23年度には科学技術振興機構(JST)にバイオサイエンスデータベースセンター(NBDC)が設置され、現在ではDDBJ(DNA Data Bank of Japan)とも協調してDB統合化が進められている。 中でも、統合DBに関わるコンテンツの作成・整備としてすすめているトップジャーナルに掲載された日本人を著者とする生命科学分野のろんぶんについて著者自身の執筆による日本語のレビューを提供している新着論文レビューや、生命科学分野の有用DBやウェブツールの活用方法を動画で紹介する統合TVはアクセス数も多く、日々利用されている。 本講演では、生命科学分野のDBに対して現状を把握しそれらを自らの研究に活かしていくために、まずこれまでDBCLSが開発し現在はNBDCで維持管理されているDBカタログ、 DB横断検索、DBアーカイブについて紹介する。次に、現在DBCLSで開発がすすめられている大規模データの利用技術から、さまざまな研究のリファレンスとなる遺伝子発現データセットを紹介し、組織特異的な遺伝子発現パターンや塩基配列断片から検索する利用例を示す。最後に、現実的に使う頻度の高い遺伝子発現DB(NCBI GEO)と新型シーケンサーのデータアーカイブ(SRAやDRA)を実験条件などのメタデータから整理し、データを再利用するところからスタートするdata initiatedな研究に関してその実例を紹介する予定である。

Citation preview

Page 1: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

© ライフサイエンス統合データベースセンター/大学共同利用機関法人 情報・システム研究機構

バイオインフォマティクスデータベース統合化によるアプローチ

大学共同利用機関法人 情報・システム研究機構(ROIS)ライフサイエンス統合データベースセンター(DBCLS)

坊農 秀雅Online supplemental material: http://bit.ly/togodb

Page 2: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

© ライフサイエンス統合データベースセンター/大学共同利用機関法人 情報・システム研究機構

日本人類遺伝学会第57回大会利益相反状態の開示筆頭演者氏名:坊農秀雅

所属:情報・システム研究機構

開示すべき利益相反状態はありません。

Page 3: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

バイオインフォマティクスとは•生命現象を「情報」の立場で解明していこうとする研究•バイオテクノロジーと生命の情報処理を意味するインフォマティクスを連携させた技術•コンピュータを実験デバイスとして使って、生物学的に有意な結論を引き出そうとする学問‒坊農秀雅「バイオインフォマティクス入門」 羊土社 2002

3

Page 4: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

バイオインフォマティクスの歴史•ツール‒配列解析:ドットマトリックス       (ハープロット)→ 動的計画法•RNA二次構造予測‒配列類似(相同)性検索•FASTA, BLAST, BLAT etc.

•データベース(DB)‒最初のDB: タンパク質 (アミノ酸)配列‒塩基配列DB:1980年代初頭

4

Page 5: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

日米での標準的なバイオインフォマティクスのテキスト

5

Page 6: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

Now, situation has changed...

• Lincoln D Stein ‘Bioinformatics: alive and kicking’ GenomeBiology 9:114 (2008)

• In 2003, he predicted bioinformatics as a discipline separate from mainstream biology would be gone in ten years.

• In 2008, he realized bioinformatics has become too central to biology to be left to specialist bioinformaticians. Biologists are all bioinformaticians now.

6

Page 7: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

(かつての)バイオインフォマティクス研究者の職種別分類

•アルゴリズム屋–方法を考える人–「NP完全」がキーワード

•実装屋–プログラムやツールを書く人

•解析屋–プログラムを使って実際に生データを相手に手を動かす人 7

数学的抽象的

生物的具体的Biologistの範疇

Page 8: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

低酸素(hypoxia)

8

Page 9: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

代謝経路を制御するシグナル伝達経路

9

From Nat. Med. 11, 1047-1048 (2005)

mammal

C.elegans

orthologs homologs

比較ゲノム

Page 10: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

研究を進めれば進めるほど…

•公共データベース(DB)の不備が研究、ひいては科学の進展を妨げている–リファレンスとする遺伝子やパスウェイ

•それを先に整備してからじゃないと効率良く生きている間に解けない

10それを先にやってしまおう!

Page 11: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

11

ライフサイエンス統合データベースセンター(DBCLS)へ

Page 12: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

12Nature 464, 670-671 (2010)より

Page 13: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

DBCLS: Database Center for Life Science•ライフサイエンス統合データベースセンター ‒ライフサイエンス分野のデータベース統合化の拠点‒ Since 2007‒@東京大学本郷キャンパス内•が、東大の機関ではありません

13

Page 14: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

バイオサイエンスデータベースセンター(NBDC)

•National Bioscience Database Center‒Since 2011•独立行政法人 科学技術振興機構(JST)の傘下

14http://biosciencedbc.jp/nbdc.cgi?lng=ja&gg=org_membersより引用

Page 15: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

NBDC web site

15

Page 16: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

統合DBとは?

•安心してすぐに利用できるデータを提供‒「ぐるなび」、「食べログ」、「クックパッド」

•公共DBとして外に出す際にデータを綺麗に‒「分別回収→リサイクル」

•NBDC/DBCLS/DDBJ を中心に 日本中のさまざまな大学・研究機関が協力

ライフサイエンスデータのロジスティクス(流通業)

DBを試薬に例える。昔はほぼ一択だったのがたくさん出てきてどれがいいのか全くわからない状態どころか、何が出回っているのかさえ実態がつかめないという

Page 17: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

Online version http://bit.ly/togodb

Page 18: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

free!18

企業の皆さんも登録なしで

sound from http://famicom-music.net/famicompiano/f-contents/l&e-1.html

Page 19: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

統合TV (togoTV)•動画によるDBやツールのチュートリアル‒ 各DBやツール名、

•統合データベース講演会AJACSの動画も•YouTubeからも•Videocastでも•約630のコンテンツ(アップデート含む)

19

で検索

Page 20: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

統合TV(togoTV)

20

統合データベース講習会AJACSみちのく2

「R+Bioconductorを使ったNGS解析」  by 二階堂愛さん

Page 21: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

Online version http://bit.ly/togodb

Page 22: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

22

Page 23: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

23

Page 24: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

Online version http://bit.ly/togodb

Page 25: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

First author’sとは?Nature, Science, Cell などに代表されるトップジャーナルに掲載された日本人を著者とする生命科学分野の論文について論文の著者自身の執筆による専門分野の異なる生命科学研究者にむけた日本語によるレビューを、誰でも自由に閲覧・利用できるようウェブ上にていち早く無料で公開するサイト。DBCLS謹製。

25

Page 27: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

27

Page 28: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

ライフサイエンス領域融合レビュー

生命科学において注目される分野・学問領域における最新の研究成果について、第一線の研究者の執筆による日本語の レビューを、だれでも自由に閲覧・利用できるよう、無料で公開します。

28

New!

Page 29: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

Online version http://bit.ly/togodb

Page 30: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

30

高血圧

Page 31: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

31

Page 32: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

32

Page 33: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

Online version http://bit.ly/togodb

Page 34: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

34

Page 35: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

35

Page 36: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

36

LifeScience Dictionaryのサイトにリンク

Page 37: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

Online version http://bit.ly/togodb

Page 38: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

DNA DB overview

38

Page 39: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

GGRNA

39

Page 40: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

GGRNA検索例

40

Page 41: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

Online version http://bit.ly/togodb

Page 42: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

GEO overview(目次)• http://lifesciencedb.jp/geo/

42

Page 43: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

RefEx

43

Page 44: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

RefEx liver specific genes

44

Page 45: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

RefEx:Specific gene(HIF1A)

45

Page 46: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

46

Page 47: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

Online version http://bit.ly/togodb

Page 48: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

48

http://sra.dbcls.jp/

http://g86.dbcls.jp/togopic© 2011 DBCLS Licensed under CC 表示 2.1 日本

SRAs(Survey of Read Archives)DBCLS SRA

Page 49: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

SRAの統計値

49

© 2011 DBCLS Licensed under CC 表示 2.1 日本

Page 50: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

SRAの統計値2

50

© 2011 DBCLS Licensed under CC 表示 2.1 日本

Page 51: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

Search NGS data by disease

51

Page 52: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

Search NGS data by publication

52

Page 53: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

PUBLISHED OR NOT公開されたデータを元にした論文はあるのか

53

19%

paper publishednot published

NUMBER OF SUBMITTED STUDY

「論文を公開してからデータを公開する」とは限らない

Page 54: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

AVAILABLE?登録されたデータを実際に使えるのか

54

66%

34%

OPENCONTROLLED ACCESS

NUMBER OF SEQUENCE RUN

1%

99%

NUMBER OF SUBMITTED STUDY

1.「全てのデータは誰でも自由に使える」とは限らない2.制限のかかったものはSTUDYに反してRUNが非常に多い

Page 55: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

鎖鋸kusarinoko: Search SRA Entries with PubMed Article

55© 2011 DBCLS Licensed under CC 表示 2.1 日本

Page 56: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

Online version http://bit.ly/togodb

Page 57: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

DDBJ

57

Page 58: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

DOR

58

Page 59: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

59

Page 60: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

Online version http://bit.ly/togodb

Page 61: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

61

Page 62: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

62

Page 63: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

63

Page 64: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

統合DB=ライフサイエンスデータの「上水処理場」+「下水処理場」

•安心してすぐに利用できるデータを提供‒「ミネラルウォーターを買わなくても飲用できるように」•公共DBとして外に出す際にデータを綺麗に‒「油を流しに捨てないで!」

ライフサイエンスの「ライフライン」http://rise-eco.jp/recycle.html

•NBDC/DBCLS/DDBJ を中心に 日本中のさまざまな大学・研究機関が協力

Page 65: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

LSQA

65

Page 66: 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」

66

★http://bit.ly/[email protected] / bonohu

からスカイツリー方向を臨む