Upload
hidemasa-bono
View
2.075
Download
2
Embed Size (px)
DESCRIPTION
DNAマイクロアレイや新型シーケンサーに代表される大規模解析は、かつては大型プロジェクトに限定されていたが、コストダウンやコモディティの整備がすすみ、一般のウェット系研究室でも実行可能となっている。また我が国ではまだ不十分であるが、今後、解析情報の共有と公開原則の意識が浸透すれば、インターネット上に公開データの蓄積がすすみ、それを活用することにより、解析コストをかけずに大規模データを研究に資することができるようになると考えられる。しかしこうした実験のデータ量は膨大であり、そのデータハンドリングは実験生物学者には困難であることが現状の問題である。 また、論文発表によって公開されたデータがデータベース(以下、DBと略す)として登録されているとはいうものの、どういったものが今利用可能でどう使ったらいいのかよくわからない状態となっている。この状況下で、文部科学省による「統合データベースプロジェクト」が平成18年度から5年間の年限プロジェクトとして立ち上げられ、その中核機関であったライフサイエンス統合データベースセンター(DBCLS:Database Center for Life Science)が中心になって医学生物学研究を支えるDBインフラを整備してきた。平成23年度には科学技術振興機構(JST)にバイオサイエンスデータベースセンター(NBDC)が設置され、現在ではDDBJ(DNA Data Bank of Japan)とも協調してDB統合化が進められている。 中でも、統合DBに関わるコンテンツの作成・整備としてすすめているトップジャーナルに掲載された日本人を著者とする生命科学分野のろんぶんについて著者自身の執筆による日本語のレビューを提供している新着論文レビューや、生命科学分野の有用DBやウェブツールの活用方法を動画で紹介する統合TVはアクセス数も多く、日々利用されている。 本講演では、生命科学分野のDBに対して現状を把握しそれらを自らの研究に活かしていくために、まずこれまでDBCLSが開発し現在はNBDCで維持管理されているDBカタログ、 DB横断検索、DBアーカイブについて紹介する。次に、現在DBCLSで開発がすすめられている大規模データの利用技術から、さまざまな研究のリファレンスとなる遺伝子発現データセットを紹介し、組織特異的な遺伝子発現パターンや塩基配列断片から検索する利用例を示す。最後に、現実的に使う頻度の高い遺伝子発現DB(NCBI GEO)と新型シーケンサーのデータアーカイブ(SRAやDRA)を実験条件などのメタデータから整理し、データを再利用するところからスタートするdata initiatedな研究に関してその実例を紹介する予定である。
Citation preview
© ライフサイエンス統合データベースセンター/大学共同利用機関法人 情報・システム研究機構
バイオインフォマティクスデータベース統合化によるアプローチ
大学共同利用機関法人 情報・システム研究機構(ROIS)ライフサイエンス統合データベースセンター(DBCLS)
坊農 秀雅Online supplemental material: http://bit.ly/togodb
© ライフサイエンス統合データベースセンター/大学共同利用機関法人 情報・システム研究機構
日本人類遺伝学会第57回大会利益相反状態の開示筆頭演者氏名:坊農秀雅
所属:情報・システム研究機構
開示すべき利益相反状態はありません。
バイオインフォマティクスとは•生命現象を「情報」の立場で解明していこうとする研究•バイオテクノロジーと生命の情報処理を意味するインフォマティクスを連携させた技術•コンピュータを実験デバイスとして使って、生物学的に有意な結論を引き出そうとする学問‒坊農秀雅「バイオインフォマティクス入門」 羊土社 2002
3
バイオインフォマティクスの歴史•ツール‒配列解析:ドットマトリックス (ハープロット)→ 動的計画法•RNA二次構造予測‒配列類似(相同)性検索•FASTA, BLAST, BLAT etc.
•データベース(DB)‒最初のDB: タンパク質 (アミノ酸)配列‒塩基配列DB:1980年代初頭
4
日米での標準的なバイオインフォマティクスのテキスト
5
Now, situation has changed...
• Lincoln D Stein ‘Bioinformatics: alive and kicking’ GenomeBiology 9:114 (2008)
• In 2003, he predicted bioinformatics as a discipline separate from mainstream biology would be gone in ten years.
• In 2008, he realized bioinformatics has become too central to biology to be left to specialist bioinformaticians. Biologists are all bioinformaticians now.
6
(かつての)バイオインフォマティクス研究者の職種別分類
•アルゴリズム屋–方法を考える人–「NP完全」がキーワード
•実装屋–プログラムやツールを書く人
•解析屋–プログラムを使って実際に生データを相手に手を動かす人 7
数学的抽象的
生物的具体的Biologistの範疇
低酸素(hypoxia)
8
代謝経路を制御するシグナル伝達経路
9
From Nat. Med. 11, 1047-1048 (2005)
mammal
C.elegans
orthologs homologs
比較ゲノム
研究を進めれば進めるほど…
•公共データベース(DB)の不備が研究、ひいては科学の進展を妨げている–リファレンスとする遺伝子やパスウェイ
•それを先に整備してからじゃないと効率良く生きている間に解けない
10それを先にやってしまおう!
11
ライフサイエンス統合データベースセンター(DBCLS)へ
12Nature 464, 670-671 (2010)より
DBCLS: Database Center for Life Science•ライフサイエンス統合データベースセンター ‒ライフサイエンス分野のデータベース統合化の拠点‒ Since 2007‒@東京大学本郷キャンパス内•が、東大の機関ではありません
13
バイオサイエンスデータベースセンター(NBDC)
•National Bioscience Database Center‒Since 2011•独立行政法人 科学技術振興機構(JST)の傘下
14http://biosciencedbc.jp/nbdc.cgi?lng=ja&gg=org_membersより引用
NBDC web site
15
統合DBとは?
•安心してすぐに利用できるデータを提供‒「ぐるなび」、「食べログ」、「クックパッド」
•公共DBとして外に出す際にデータを綺麗に‒「分別回収→リサイクル」
•NBDC/DBCLS/DDBJ を中心に 日本中のさまざまな大学・研究機関が協力
ライフサイエンスデータのロジスティクス(流通業)
DBを試薬に例える。昔はほぼ一択だったのがたくさん出てきてどれがいいのか全くわからない状態どころか、何が出回っているのかさえ実態がつかめないという
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
Online version http://bit.ly/togodb
free!18
企業の皆さんも登録なしで
sound from http://famicom-music.net/famicompiano/f-contents/l&e-1.html
統合TV (togoTV)•動画によるDBやツールのチュートリアル‒ 各DBやツール名、
•統合データベース講演会AJACSの動画も•YouTubeからも•Videocastでも•約630のコンテンツ(アップデート含む)
19
で検索
統合TV(togoTV)
20
統合データベース講習会AJACSみちのく2
「R+Bioconductorを使ったNGS解析」 by 二階堂愛さん
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
Online version http://bit.ly/togodb
22
23
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
Online version http://bit.ly/togodb
First author’sとは?Nature, Science, Cell などに代表されるトップジャーナルに掲載された日本人を著者とする生命科学分野の論文について論文の著者自身の執筆による専門分野の異なる生命科学研究者にむけた日本語によるレビューを、誰でも自由に閲覧・利用できるようウェブ上にていち早く無料で公開するサイト。DBCLS謹製。
25
クリエイティブ・コモンズ 表示 2.1
日本 26
27
ライフサイエンス領域融合レビュー
生命科学において注目される分野・学問領域における最新の研究成果について、第一線の研究者の執筆による日本語の レビューを、だれでも自由に閲覧・利用できるよう、無料で公開します。
28
New!
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
Online version http://bit.ly/togodb
30
高血圧
31
32
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
Online version http://bit.ly/togodb
34
35
36
LifeScience Dictionaryのサイトにリンク
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
Online version http://bit.ly/togodb
DNA DB overview
38
GGRNA
39
GGRNA検索例
40
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
Online version http://bit.ly/togodb
GEO overview(目次)• http://lifesciencedb.jp/geo/
42
RefEx
43
RefEx liver specific genes
44
RefEx:Specific gene(HIF1A)
45
46
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
Online version http://bit.ly/togodb
48
http://sra.dbcls.jp/
http://g86.dbcls.jp/togopic© 2011 DBCLS Licensed under CC 表示 2.1 日本
SRAs(Survey of Read Archives)DBCLS SRA
SRAの統計値
49
© 2011 DBCLS Licensed under CC 表示 2.1 日本
SRAの統計値2
50
© 2011 DBCLS Licensed under CC 表示 2.1 日本
Search NGS data by disease
51
Search NGS data by publication
52
PUBLISHED OR NOT公開されたデータを元にした論文はあるのか
53
19%
paper publishednot published
NUMBER OF SUBMITTED STUDY
「論文を公開してからデータを公開する」とは限らない
AVAILABLE?登録されたデータを実際に使えるのか
54
66%
34%
OPENCONTROLLED ACCESS
NUMBER OF SEQUENCE RUN
1%
99%
NUMBER OF SUBMITTED STUDY
1.「全てのデータは誰でも自由に使える」とは限らない2.制限のかかったものはSTUDYに反してRUNが非常に多い
鎖鋸kusarinoko: Search SRA Entries with PubMed Article
55© 2011 DBCLS Licensed under CC 表示 2.1 日本
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
Online version http://bit.ly/togodb
DDBJ
57
DOR
58
59
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒SRAs•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
Online version http://bit.ly/togodb
61
62
63
統合DB=ライフサイエンスデータの「上水処理場」+「下水処理場」
•安心してすぐに利用できるデータを提供‒「ミネラルウォーターを買わなくても飲用できるように」•公共DBとして外に出す際にデータを綺麗に‒「油を流しに捨てないで!」
ライフサイエンスの「ライフライン」http://rise-eco.jp/recycle.html
•NBDC/DBCLS/DDBJ を中心に 日本中のさまざまな大学・研究機関が協力
LSQA
65