24
独立行政法人科学技術振興機構 バイオインフォマティクス推進センター事業 生命情報データベースの高度化・標準化 第Ⅱ期 研究開発課題 (追跡調査報告書) 研究開発課題:バイオ基幹情報資源の高準化と共用化 (平成18年4月~平成23年3月) 代表研究者氏名:菅原 秀明 (国立遺伝学研究所 生命情報・DDBJ研究センター 特任教授)

独立行政法人科学技術振興機構 バイオインフォマティクス推進セ … · (国立遺伝学研究所 生命情報・DDBJ研究センター 特任教授)

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

独立行政法人科学技術振興機構

バイオインフォマティクス推進センター事業

生命情報データベースの高度化・標準化

第Ⅱ期 研究開発課題

(追跡調査報告書)

研究開発課題:バイオ基幹情報資源の高準化と共用化

(平成18年4月~平成23年3月)

代表研究者氏名:菅原 秀明

(国立遺伝学研究所 生命情報・DDBJ研究センター 特任教授)

目次

本編

1. 研究開発による成果........................................................... 1

研究開発課題の目標及び新規性・独創性 .................................... 1 1.1.

1.2. 研究開発開始時の課題を取り巻く研究・技術水準及び分野における

課題の位置づけ ........................................................ 1

1.3. 研究開発終了時の成果概要 ................................................ 2

1.4. 研究開発の達成度 ........................................................ 4

2. 研究開発による成果の活用状況や発展状況 ....................................... 5

2.1. 構築されたデータベース・ソフトウェア等の活用状況 ......................... 5

2.1.1. データベース・ソフトウェア等の継続状況や発展状況 .................... 5

2.1.2. 第三者によるデータベース・ソフトウェア等の活用事例 .................. 6

2.1.3. データベース・ソフトウェア等へのアクセス数/ダウンロード数、visit 数 . 7

2.2. 課題終了後の研究開発成果の継続状況や発展状況 ............................ 10

2.2.1. BIRD終了から現在まで、BIRD で取り組んだ課題に関連した研究開発成果の

継続状況や発展状況(国内外の研究者との共同研究へ発展した等) ..... 10

2.2.2. BIRD終了後に発表された論文リスト ................................... 10

2.2.3. 研究開発成果の現在の国際的な評価・位置づけ ......................... 11

2.3. 現在の科学技術研究における研究開発成果の活用状況、発展状況のまとめ ...... 11

3. 研究開発による成果の科学技術的、社会的及び経済的な効果 ...................... 13

3.1. バイオインフォマティクス分野及びライフサイエンス分野の研究への貢献 ...... 13

3.1.1. バイオインフォマティクス分野の研究への貢献 ......................... 13

3.1.2. ライフサイエンス分野(バイオインフォマティクス以外)や

その他、科学技術分野の研究への貢献 ............................... 13

3.2. 人材育成の面から参加研究者の活動状況 ................................... 14

3.2.1. 研究開発に参加した研究者のキャリアアップ ........................... 14

3.3. 社会的及び経済的な効果 ................................................. 14

3.3.1. 研究開発成果が大学や公的研究機関、企業等で、応用に向けて

継承または発展した例 ............................................. 14

3.3.2. その他、研究開発成果が社会的、経済的な効果・効用につながる兆し、

可能性 ........................................................... 15

資料編

1. 論文リスト ................................................................. 16

2. 主要論文の被引用回数 ........................................................ 18

3. 学会招待講演・基調講演 ...................................................... 20

4. 新聞発表等 ................................................................. 20

5. 特許出願・成立 ............................................................. 20

6. 学会賞等の受賞 ............................................................. 20

7. グラントの獲得実績.......................................................... 20

8. 書籍等の執筆実績 ........................................................... 20

9. 総説の執筆実績 ............................................................. 21

10. 参加研究者の活動状況 ........................................................ 21

本調査報告書は平成 26年 4 月に作成

表紙の代表研究者所属は平成 25 年 10月時点

- 1 -

1. 研究開発による成果

研究開発課題の目標及び新規性・独創性 1.1.

実験技術と情報技術の進歩によって、膨大かつ多彩なバイオ関連データが時々刻々獲得

されている。このデータは、その解析や解釈の結果とともに、多種多様な文献データベー

ス群とファクトデータベース群に蓄積されてネット上に公開される。例えば、Nucleic Acids Research データベース特集号 2011 年版には 1,330 件が収録されている。また、解析プロ

グラムも多数ネット上に公開されている。これらのバイオ情報資源の仕様が正確かつ見通

し良く示されていれば、研究者・技術者は「必要な資源はどこにあるのか、どう使えば良

いのか、どの資源が信頼できるのか、複数の資源をどのように組合せれば良いのか」の判

断を素早く下せるようになり、膨大なバイオ情報資源を最大限活用できるようになる。こ

の認識のもとに、本研究ではバイオ研究の基幹となる情報資源のコンテンツやアクセス方

法の透明性を高めて(高準化)、多様な観点からの利用を促進する(共用化)ことを目指し

た。 具体的には、日本 DNA データバンク DDBJ(http://www.ddbj.nig.ac.jp/)を中心に、バ

イオ基幹情報資源の高準化・共用化や、バイオロジー研究開発における方法・手段の表現

方法及び情報技術系方法論の規格化を目指した。既存のバイオ情報資源、ウェット系の実

験手法ならびにドライ系の解析手法を調査分析して、それらのコミュニティによる共用を

可能とする記述方式を考案している点に新規性があった。 同時に、多様な情報資源をコンピュータプログラムから直接呼出すことを可能とする

「Web サービス Application Program Interface」(Web API)を準備し、Web API そのも

のと共に Web API で構成されるワークフローも新たな情報資源として提供している点も、

新しいアプローチであった。

1.2. 研究開発開始時の課題を取り巻く研究・技術水準及び分野における課題の位置づけ

バイオ分野の研究成果は長らく文献に蓄積されてきたが、今日では、文献データベース

に加えて多様なファクトデータベースにも蓄積されている。また、データベースからデー

タ・情報・知識を抽出するツール群も Web サイトに蓄積されている。ヒトゲノム解読以降、

バイオ研究には、種々の手法を参考にしながら、分散している Web サイトから有用なバイ

オ情報資源(データベースやツール)群を探し出し、それらを組み合わせて利用できる情

報環境が必須になってきた。 本研究では、バイオ情報資源の水準を高め(高準化)かつバイオ情報資源の利用者の利

便性を高め(共用化)て、バイオ分野の問題解決のための情報環境の充実に貢献すること

を目的とした。具体的には、バイオ・メタデータベースを整備すれば、利用者は各情報資

源の仕様を一つひとつ分析することなく、コンピュータプログラムからの高度な利用を実

- 2 -

現することができると考えた。一方で、各情報資源の仕様は時とともに変更されるため、

バイオ・メタデータベースの保守を継続することも必要であった。そこで、文献アブスト

ラクトへの出現頻度の高いものを「基幹情報資源」として選定し、それらの情報資源に利

用可能な CGI(Common Gateway Interface)の形式と実例を自動で抽出してデータベー

ス化することとした。 メソッドに関しては、従来の実験書に加えて、Nature Methodsが刊行され、実験操作の

ビデオ投稿を受け付けるJournal of Visualized ExperimentsがPubMedの採録対象雑誌に

なるなど、ダイナミックな共用について関心が高まっていた。また、米国のProtein expression purification and crystallization Database(タンパク質の発現、精製、結晶化、

NMR実験のための水溶性向上、構造決定実験の手順がXMLによって詳細に記述されたデー

タベース 1。現在はTargetTrack:Structural Biology Target Registration Database http://sbkb.org/tt/ が引き継いでいる)や我が国のターゲットタンパク研究プログラムの例

のように、メソッドのデータベース化についても取り組みが行われていた。メソッド記述

の標準とその運用については、未だ試行錯誤が続いていた状況であったが、本課題におい

ては、文献、Web API、ワークフロー、データベースなどに対してメソッドの観点からの

タグ付けを可能にすることを目指した。 Web API とワークフローの研究開発は、国外に先行事例があり、 BioMoby

(http://www.biomoby.org/)や Taverna(http://www.taverna.org.uk/)のようなプロジェ

クトにおいて記述の標準化が試みられていた。また、2007 年度以降は、国内でもライフサ

イエンス統合データベースプロジェクトによって、多様な Web サービスを統一的に扱える

プロキシーサーバの提供も始まった。それらを踏まえ、本研究開発課題においては、各グ

ループの分担課題を貫く整合性を確保しながら、Web API の拡充、ワークフローの拡充な

らびにコミュニティの拡充に注力した。 上記のように国際的な動向に足並みを揃え、わが国が持つデータベースの高度化・標準

化の研究開発を進め、国内外の他の Web サービス提供元との連携を図った点に新規性があ

った。

1.3. 研究開発終了時の成果概要

本研究開発課題の特徴は、バイオ分野に共通する情報基盤を整備し、加えて、データ処

理の現場で実用になるバイオ情報資源を提供し始めたことであった。また、本研究開発が

進行する中で、国内において Web API を備えるサイトが増加し、ワークフローの研究開発

が急速に広がったことに、ワークフローの理解と生成を助けるナビゲーションシステムで

1 大島泰郎・中村春木「オーバービュー タンパク 3000 プロジェクトの進展と世界の潮流」蛋白質・

核酸・酵素 Vol.50 No.7 831-835(2004)

- 3 -

ある WABI(Web API for Biology)が一定の役割を果たしてきた。一方で、当該分野にお

ける国際プロジェクトの展開とともに、こうした国内コミュニティの成長が、本研究開発

課題を成功に導いた。主要 3 課題の主な成果は次のとおりであった。

Web サービスとワークフローの課題では、Web API を拡充し、ワークフローを展開

した。DDBJ のコンテンツやメソッドをコンピュータプログラムから活用できるよ

うに開始した Web サービスを WABI(Web API for Biology)として本研究開発課題

で大幅な拡充と共用化を行った。 さらに Web サービスの共用化のために、CookBook(個々の Web API の使い方を紹

介する Wiki サイト。現在は公開中止)と WNS(Work Flow Navigation System。

現在は公開中止)を整え、 GTPS (微生物ゲノム再アノテーション DB http://gtps.ddbj.nig.ac.jp/)、MiGAP(微生物ゲノム自動アノテーションシステム

http://www.migap.org/)、DRA(次世代シーケンサー由来データのアーカイブ

http://trace.ddbj.nig.ac.jp/dra/index.html)といった資源も開発した。これらの資源

は広く利用されるようになり、前述の Taverna、BioMoby のほか、myExperiment(http://www.myexperiment.org/)、Biocatalogue(http://www.biocatalogue.org/)、DBCLS の TogoWS(http://togows.dbcls.jp/)などの国内外の関連活動との連携も深

まった。

バイオ・メタ DB の課題では、一つひとつのバイオ情報資源を解析することなく 2万 8 千件を超える CGI を直ちに利用できるデータベースを構築することで、利用者

の利便性を高めて個々の資源の共用化も促進し、また、バイオ情報資源の信頼性の

指標を閲覧可能にして資源の高準化の手掛かりを作り出した。

メソッド・オントロジーの課題では、ウェット系の実験手法とドライ系のワークフ

ローを文献から抽出して再利用可能にする枠組みを構築して、ウェット系とドライ

系が融合した形でメソッドの切り口からバイオ情報資源を活用することを可能にし

た。

バイオ・メタ DB とメソッド・データベースのコンテンツの活用による WABI の拡充や、

文献を読んだ研究者・技術者がメソッド・データベースを検索して発見したワークフロー

を WABI で実行できる枠組みもできたことから、研究者・技術者が「必要な資源はどこに

あるのか、どう使えば良いのか、どの資源が信頼できるのか、複数の資源をどのように組

合せれば良いのか」の判断を素早く下せる情報環境を用意することができた。 当初計画に想定していなかった次世代シーケンサー由来のデータ対応には、諸般の事情

により平成 21 年度から急遽取り組んだものであったが、NCBI(National Center for Biotechnology Information)と EBI(European Bioinformatics Institute)ならびに利用

者から、当該データのアーカイブである DRA に登録するメタデータを作成するツールであ

る MetaDefine(http://trace.ddbj.nig.ac.jp/files/manual/DRA_metadefine_manual.pdf)

- 4 -

が高く評価されるなど、予想以上に順調に進んだ。 1.4. 研究開発の達成度

WABI の中核として、主として DDBJ の資源にアクセスする 124 種の Web API を整備し

た。CookBook には、DDBJ 外のサイトの Web API も含めてその使い方を標準形式で記載

した。Web API を組合せたワークフローは 13 種を用意し、それぞれに UML 標準のアクテ

ィビティー図も添えた。また、プログラミング不要で利用者が Web ブラウザ上のマウス操

作だけでワークフローを組み立てることができる WNS(Workflow Navigation System)

を用意した。WNS は CookBook に登録された Web API を自動的に取り込んで自律成長す

る設計とした。こうして、DDBJ 情報資源へのアクセス方法を多様にし、その利用法につ

いて情報技術のスキルに応じた知見を得られるようにし、外部資源との連携も可能にして、

DDBJ 情報資源の高準化と共用化を実現した。 ワークフローの応用例である GTPS システムでは、平成 22 年度には 1,140 種類の公開微

生物ゲノム配列の自動再アノテーションに成功した。新世代シーケンサー対応のうち、大

量データのアーカイブである DRA は約 3.3 TB のデータを円滑に処理し、微生物ゲノムの

自動アノテーションパイプライン MiGAP は 888 件の解析に利用された。これらは DDBJに新たな情報資源をもたらした。 また、将来的な DB のスケーラビリティーと知識処理の可能性を探るため、セマンティ

ック Web 技術の適用を試みた。具体的には、DDBJ 全件を RDF(Resource Description Framework:「資源」「プロパティ」「値」のトリプルと呼ばれる 3 つの要素に分けてデータ

を表現する方法)化したところ、約 79 億のトリプルが生成し、疾患と媒介生物の関係性の

分析やナショナルプロジェクト課題の表現への応用も試みることができた。ここで試行し

たセマンティク技術は今やライフサイエンス統合データベース事業において中核技術とな

っている。 バイオ・メタ DB では、論文の引用頻度から選定した 189 のバイオ基幹情報資源を中心

とするサイトから 3万件近いCGIを集積、検索可能として、各資源の共用化に貢献し、WABIの高準化に素材を提供することにもなった。 ウェット系メソッドについては、参考資料から用語と構造を抽出し、軽量のオントロジ

ーを組み立て、メソッド検索を可能とした。ドライ系メソッドについても、研究論文を半

自動で解析した結果をもとに、オントロジーとワークフロー検索システムを構築した。こ

れら検索システムには WABI の参照機能を加えて、既存のメソッドの情報をもとに WABIによって具体的な問題解決に至る道筋を用意した。 研究会とワークショップの主催や学会発表と論文発表によるアウトリーチ活動も行い、

その効果もあって、Web APIの利用件数は平成20年から平成22年まで毎年大幅に伸びた。 以上のように研究の当初の目標は達成した。

- 5 -

2. 研究開発による成果の活用状況や発展状況

2.1. 構築されたデータベース・ソフトウェア等の活用状況

2.1.1. データベース・ソフトウェア等の継続状況や発展状況

ツール名 URL 公開状況 備考

(1) WABI(Web API for Biology)

http://www.ddbj.nig.ac.jp/search/help/wabi/wabi-j.html

無料公開中 DDBJ によって継承され、内部構造がより洗練された形で公開されている。

(2) CookBook 公開中止 遺伝研スパコンシステム更新時に中止。

(3) GTPS http://gtps.ddbj.nig.ac.jp/

無料公開中 DBCLS/NBDC の課題「ゲノム・メタゲノム情報を基盤とした微生物 DB の統合」に継承され更新され、DDBJ サイトから公開されている。ただし、JST BIRD の期間のインタラクティブな検索機能は中止。

(4) ウィルスゲノム

DB(GIB-V) 公開中止 遺伝研スパコンシステム更新時

に中止。

(5) ワークフロー・ナ

ビゲーション・シ

ステム WNS

公開中止 遺伝研スパコンシステム更新時に中止。

(6) GIB-IS 公開中止 遺伝研スパコンシステム更新時に中止。

(7) DDBJ Sequence Read Archive

http://trace.ddbj.nig.ac.jp/dra/index.html

無料公開中 DDBJ に継承されその後拡充されている。

(8) DDBJ Trace Archive

http://trace.ddbj.nig.ac.jp/dta/index.html

無料公開中 DDBJ に継承されその後拡充されている。

(9) MiGAP http://www.migap.org/

無料公開中 「ゲノム支援」によって運用と改良を継続中。

(10) バイオ・メタデー

タベース http://www.ps.noda.tus.ac.jp/biometadb/jsp/soap.jsp

無料公開中 東京理科大学において維持、改良を計画している。 東京理科大学薬学部において継続運用中。サーバの入れ替えに伴い、パトロール機能が停止中。

(11) メソッド統合検

索サイト 公開中止 遺伝研スパコンシステム更新時

に中止。

- 6 -

2.1.2. 第三者によるデータベース・ソフトウェア等の活用事例

(1) Web API DBCLS の BioHackathon などのワークショップで参照・利用された。

(3) GTPS DBCLS の BioHackathon などのワークショップで参照・利用された。

(7) DDBJ Sequence Read Archive 国際塩基配列データバンク共同事業の一翼を担っている。

(8) DDBJ Trace Archive 国際塩基配列データバンク共同事業の一翼を担っている。

(9) MiGAP 文部科学省科学研究費新学術領域研究(研究領域提案型)『生命科学系3分野支援活

動』「ゲノム科学の総合的推進に向けた大規模ゲノム情報生産・高度情報解析支援(ゲ

ノム支援)」によって運用と改良を継続中。 MiGAP を引用する文献が増えており、2014 年 1 月には 44 件を数えた。例えば、

国際特許出願 WO 2012165577 A1(サーモスポロスリックス・ハザケンシスに由来

する新規セルラーゼ、株式会社県南衛生工業)においては、実施例で、得られた新

規セルラーゼのゲノム配列を MiGAP で自動注釈を行ったという記載がある。また、

CyanoBase、RhizoBase の構築に関する論文では、原核生物のゲノム解析において

ゲノム解析してアノテーション付与するパイプラインとして MiGAP や DDBJ Pipeline が研究の加速化に貢献してきたことの記載がある(Fujisawa, T. ら、Nucl. Acids Res., 2014)。

(10) バイオ・メタデータベース 東京理科大学において維持、改良を計画している。学生への指導等で事例紹介とし

て活用している。東京理科大学薬学部において継続運用中。サーバの入れ替えに伴

い、パトロール機能が停止中。

(その他)

DDBJ の全件の大規模な RDF 化の例は、ライフサイエンス統合データベースセンタ

ー(DBCLS)が主催した Biohackathon においてセマンティック技術を展開してい

く上で、格好の事例となった。

- 7 -

2.1.3. データベース・ソフトウェア等へのアクセス数/ダウンロード数、visit数

ツール名 アクセス数、ダウンロード数、visit 数 集計期間 備考

(1) Web API データなし 2012 年 2 月でサービス停止

(2) DDBJ Trace Archive

訪問者数(unique IP):5,660 訪問数(total IP):8,335 ページ数(アクセス数):29,493

2012 年 1 月~12 月

(3) DDBJ Sequence Read Archive

DRA(主にデータ登録方法の紹介) 訪問者数(unique IP):12,617 訪問数(total IP):23,103 ページ数(アクセス数):81,670

2012 年 1 月~12 月

DRA Search(データ検索) 訪問者数(unique IP):26,526 訪問数(total IP):52,246 ページ数(アクセス数):1,122,895

2012 年 1 月~12 月

(4) GTPS 訪問者数:3,932 訪問数:14,284 ページ数(サイト全体):16,564 ダウンロード数(サイト全体):59,349

2013 年 4 月~9 月

(5) MiGAP 投入件数:2,931 投入コンティグ数:855,777 投入総塩基数:8,262,006,112 出力 CDS 数:6,658,279 出力 RBS 数:4,409,627 出力 rRNA 数:7,862 出力 tRNA 数:184,219

2012 年 5 月~2013年 4 月

(6) バイオ・メタデータベース

利用回数:219 2012年 10月~2013年 9 月

・Web API ・DDBJ Trace Archive ・DDBJ Sequence Read Archive

のうち、Web API については 2012 年 2 月でサービスを停止しており、データはない状況。

DDBJ Sequence Read Archive は、DRA(主にデータ登録方法の紹介)と DRA Search(デ

ータ検索)に分けており、ダウンロード数については、個別のサービスで分けておらず、

DRA、DTA、BioProject など http://trace.ddbj.nig.ac.jp 配下で 36 件あった。

- 8 -

表1 2012 年の DRA、DTA アクセス統計 2012/01 2012/02 2012/03 2012/04 2012/05 2012/06

DRA 訪問者数(uniqueIP) 972 1,127 1,191 1,050 1,099 1,121

訪問数(total IP) 1,654 1,905 1,992 1,883 1,951 2,052

ページ数(アクセス数) 9,147 9,183 7,940 7,133 7,298 6,878

DRA

Search

訪問者数(uniqueIP) 1,891 2,009 2,335 2,058 2,172 2,282

訪問数(total IP) 3,422 3,584 4,246 3,649 4,076 4,240

ページ数(アクセス数) 59,439 49,453 310,056 47,912 216,352 128,680

DTA 訪問者数(uniqueIP) 325 448 583 515 577 529

訪問数(total IP) 507 650 809 761 803 811

ページ数(アクセス数) 2,616 3,063 2,810 2,514 2,798 2,372

2012/07 2012/08 2012/09 2012/10 2012/11 2012/12 合計

DRA 訪問者数(uniqueIP) 1,098 1,082 1,067 1,117 981 712 12,617

訪問数(total IP) 2,161 1,958 2,071 2,329 1,838 1,309 23,103

ページ数(アクセス数) 3,839 4,985 6,697 9,634 6,626 2,310 81,670

DRA

Search

訪問者数(uniqueIP) 2,158 3,834 2,172 2,419 1,711 1,485 26,526

訪問数(total IP) 4,306 11,427 3,607 4,172 3,036 2,481 52,246

ページ数(アクセス数) 29,177 113,983 51,349 72,246 28,171 16,077 1,122,895

DTA 訪問者数(uniqueIP) 531 454 411 489 469 329 5,660

訪問数(total IP) 846 666 585 722 678 497 8,335

ページ数(アクセス数) 2,115 1,508 3,114 3,690 2,031 862 29,493

表2 2013 年 GTPS のアクセス統計

URL 機能説明 2013/04 2013/05 2013/06 2013/07 2013/08 2013/09

http://gtps.ddbj.nig.ac.jp/ トップページ 1990 2630 2391 2839 2682 2318

http://gtps.ddbj.nig.ac.jp/* フラットファイル形式ファイル 1649790 585369 496316 183617 134445 143830

http://gtps.ddbj.nig.ac.jp/rdf/* RDF ファイル 1329 5914 10441 6361 4159 760

訪問者数 647 675 641 687 625 657

訪問数 1,724 2,456 2,380 2,762 2,631 2,331

ページ数(サイト全体) 2,205 2,851 2,642 3,121 3,022 2,723

ダウンロード数(サイト全体) 5918 24347 16672 7763 4029 620

ロボット・スパイダー数 0 0 0 0 0 0

注)Awstats の出力をさらに解析してグリーンの背景色を付けた部分の数字を算出。ロボット・

スパイダー数は 10 月半ばからのログ解析では分離可能にした。

- 9 -

図1 MiGAP 解析の累積頻度の時間変化 2012 年 3~4 月は、遺伝研スーパーコンピュータ更新に伴う運用停止にともなって MiGAP

も一時停止し、またその後ログを取得できない時期があった。

図2 CDS の累積数の時間変化 2012 年 3~4 月は、遺伝研スーパーコンピュータ更新に伴う運用停止にともなって

MiGAP も一時停止し、またその後ログを取得できない時期があった。

- 10 -

表 3 バイオ・メタデータベースの利用回数 2012

10 月 11 月

12 月

2013 1 月

2 月

3 月

4 月

5 月

6 月

7 月

8 月

9 月

利 用

回数 18 18 65 6 0 0 3 0 27 22 34 26

合計 219

2.2. 課題終了後の研究開発成果の継続状況や発展状況

2.2.1. BIRD 終了から現在まで、BIRD で取り組んだ課題に関連した研究開発成果の継続状

況や発展状況(国内外の研究者との共同研究へ発展した等)

1) JST BIRD 発足当時にはその有用性について疑問視されていた Web API は、今やバ

イオインフォマティクスの世界でもあたりまえのように使われている。また、JST BIRD終盤に手がけたセマンティック Web 技術の一つであるデータの RDF 化もライ

フサイエンス統合データベースの事業における技術開発の中心課題として取り上げ

られ、海外でも UniProt(http://www.uniprot.org/)をはじめとして RDF でのデー

タ提供が広がっている。代表研究者自身は、2007 年からのターゲットタンパク研究

情報プラットフォーム課題において、複数のデータベースの統合検索システム構築に

Web API 技術を活用した(http://www.tanpaku.org/asett/)。 2) MiGAP についても、研究コミュニティから必ずしも全面的賛同を得ていなかったが、

利用動向(2.1.3. 図 1)およびデータベースリソースとしての関連論文動向(2013年 2 月に 19 件から 2014 年 1 月には 44 件に増加)から、MiGAP 開発に着手した決

断に誤りがなかったことが実証されている。 3) GTPS は、ORF(Open Reading Frame)に対するアノテーションの信頼性を評価す

る目的で開発に着手したが、その観点は受け入れられ、ライフサイエンス統合データ

ベースのプロジェクトにおいても活用されることとなった。 4) DDBJ Sequence Read Archive と DDBJ Trace Archive は、研究コミュニティの支援

ならびに国際共同事業において貢献している。

2.2.2. BIRD終了後に発表された論文リスト

Kwon, Y., Shimizu, S., Sugawara, H., Miyazaki, S. (2014) “A Novel Evaluation Measure for Identifying Drug Targets from the Biomedical Literature” Journal of Information Processing (to be published)

Iwayanagi, T., Miyamoto, S., Konno, T., Mizutani, H., Hirai, T., Shigemoto, Y., Gojobori, T., Sugawara, H. (2012) “TP atlas: Integration and dissemination of advances in Targeted Proteins Research Program (TPRP)-structural biology project phase II in

- 11 -

Japan” Journal of Structural and Functional Genomics 13(3), 145-154

Kwon, Y., Sugawara, H., Shimizu, S., Miyazaki, S. (2011) “Associated disease frequency-based measure for finding candidate target genes from the biomedical literature” Proceedings of the International Conference on Complex, Intelligent and Software Intensive Systems, CISIS 2011 524-529

2.2.3. 研究開発成果の現在の国際的な評価・位置づけ

開発した情報資源により濃淡があるが、利用動向からみて一定の評価を得ている。 全体としては、データベースリソースとして高い評価を得ている。実際 2013 年 2 月の時

点では被引用文献は 19 件であったが 2014 年 1 月には 44 件になっており、引用件数は大

きく伸びている。

2.3. 現在の科学技術研究における研究開発成果の活用状況、発展状況のまとめ

本研究開発は国立遺伝学研究所(遺伝研)、東京理科大学(理科大)ならびにライフサイ

エンス統合データベースセンター(DBCLS)が協力して進めた。遺伝研は、2002 年から

試行していた Web サービスからの発展として、DDBJ が提供しているデータベース(以下、

DB)や解析プログラムを主な対象とする Web API を拡充し、それらを部品とするワーク

フローの例も拡充するとともに、ワークフローの理解と生成を助けるナビゲーションシス

テムである Web API for Biology(WABI)を構築した。WABI において、個々の Web APIの使い方を紹介するWikiサイトであるCookBookを新たに構築した。また、複数のWeb APIを部品として組合せたワークフローの事例を提示するとともに、DDBJ サービスの拡充に

応用した。ワークフローに関しては、利用者が Web ブラウザ上のマウス操作だけで組み立

てることができる Work Flow Navigation System (WNS)も公開した。この間、時代の要請

を受けて、新世代シーケンサー由来データのアーカイブ構築や微生物ゲノム配列自動アノ

テーションパイプライン構築も行った。最終年度には、WABI の今後の展開の資とするため

に、セマンティック Web 技術を試用した。 理科大は、平成 18 年の Nucleic Acids Research の DB 特集号に収録されたサイトからメ

タデータを抽出してバイオ・メタ DB として集積した。当時は Web API を備えているサイ

トが比較的少数であったため、プログラムからの利用を支援する観点からメタデータとし

て Common Gateway Interface(CGI)の分析に注力した。また、文献による引用頻度の

分析をもとに信頼性が高いバイオ基幹情報資源を選定した。 DBCLS は、参考図書や参考サイトからウェット系実験の手法名を収集し、辞書ならびに

オントロジーを構築した。また、遺伝研と共同で、研究論文から抽出したデータ解析の手

法を元に、ドライ系のメソッドを対象とするオントロジーを整備し、ワークフローを蓄積

- 12 -

した。その上で、論文や Web サイトを実験手法名などで効率的に探索でき、かつ、ドライ

系で蓄積したワークフローや WABI で開発したワークフローも参照可能な検索システム構

築に取り組んだ。WABI の中核として、主として DDBJ の資源をアクセスする 124 種の

Web API を整備した。CookBook には、DDBJ 外のサイトの Web API も含めてその使い方

を標準形式で記載した。Web API を組合せたワークフローは 13 種を用意し、それぞれに UML 標準のアクティビティー図も添えた。また、プログラミング不要の WNS を用意した。

WNSはCookBookに登録されたWeb APIを自動的に取り込んで自律成長する設計とした。 こうして、DDBJ 情報資源へのアクセス方法を多様にし、その利用法について情報技術

のスキルに応じた知見を得られるようにし、外部資源との連携も可能にして、DDBJ 情報

資源の高準化と共用化を実現した。 ワークフローの応用例である GTPS は、平成 22 年度には 1,140 種類の公開微生物ゲノム

配列の自動再アノテーションに成功した。新世代シーケンサー対応のうち、大量データの

アーカイブである DRA は約 3.3 TB のデータを円滑に処理し、微生物ゲノムの自動アノテ

ーションパイプライン MiGAP は 888 件の解析に利用された。これらは DDBJ に新たな情

報資源をもたらした。 セマンティック Web 技術については、DDBJ 全件を RDF 化して約 79 億のトリプルを生

成し、疾患と媒介生物の関係性の分析やナショナルプロジェクト課題の表現への応用も試

み、スケーラビリティーと知識処理の可能性を探った。 バイオ・メタ DB では、論文の引用頻度から選定した 189 のバイオ基幹情報資源を中心

とするサイトから 3万件近いCGIを集積、検索可能として、各資源の共用化に貢献し、WABIの高準化に素材を提供することにもなった。 ウェット系メソッドについては、参考資料から用語と構造を抽出し、軽量のオントロジ

ーを組み立て、メソッド検索を可能とした。ドライ系メソッドについても、研究論文を半

自動で解析した結果をもとに、オントロジーとワークフロー検索システムを構築した。こ

れら検索システムには WABI の参照機能を加えて、既存のメソッドの情報をもとに WABI によって具体的な問題解決に至る道筋を用意した。研究会とワークショップの主催や学会

発表と論文発表によるアウトリーチ活動も行いその効果もあって、Web API の利用件数は

平成 20 年から平成 22 年まで毎年大幅に伸びた。 Web サービスに基づくデータベースの標準的な検索インタフェースを整備し、実際の運

用レベルで利用できる形で公開していることは意義がある。Web サービスとワークフロー に関する研究は、DDBJ のサービスのレベル向上に寄与し、また新世代シーケンサーにも

迅速に対応している。しかし、完成度を上げるには更なる努力が必要である。その意味で、

BIRD プロジェクト終了後にも開発したリソースを出来るだけ多く実際に活用するために、

いくつかのサービスを中止にする必要があったが、可能な限り成果は今後とも発展するよ

うに配慮している。幸い、本研究課題の成果は国際的に十分競争力があり評価されている

ことからサービスの維持・管理のため、DDBJ およびメインテナンスのしっかりした海外

- 13 -

の著名な NCBI にもデータを提供し、国際塩基配列データバンク共同事業に開発したソフ

トウェアおよびデータ、リソースを提供してきた。東京理科大学薬学部においてもサービ

スを行い、データおよびソフトウェアが消滅することを防いでいる。その意味では本研究

開発の成果が内外のサイトに存在し、ワールドワイドに活用されていることを示している。 本研究開発で構築したデータベース等は一般的には著作権で保護する対象であるが、知

的財産権は取得せず全て無料で公開されており、それぞれの分野の研究者より多くのアク

セス・ダウンロードされている状況にある。

3. 研究開発による成果の科学技術的、社会的及び経済的な効果

3.1. バイオインフォマティクス分野及びライフサイエンス分野の研究への貢献

3.1.1. バイオインフォマティクス分野の研究への貢献

国際標準フォーマットに準拠した発現プロファイルデータタベース(CIBEX)を得た EBIの ArrayExpress ならびに NCBI の GEO との国際的に協力関係を築くにまで至っており、

メタデータ作成ツールであるMetaDefineのソースコード提供をNCBIおよびEBIに行い、

国際的な研究基盤整備に貢献し、高く評価された。基盤となる技術(Web API、RDF)の

具体的応用例を示すことで技術の普及に貢献し、また、基盤となるデータベース(GTPS)とツール(MiGAP)を提供して特に微生物ゲノム解析の普及と発展に貢献している。

3.1.2. ライフサイエンス分野(バイオインフォマティクス以外)やその他、科学技術分野

の研究への貢献

MiGAP の参照論文である Sugawara H, Ohyama A, Mori H and Kurokawaw K., Microbial Genome Annotation Pipeline (MiGAP) for diverse users., 20th Int. Conf. Genome Informatics (Kanagawa, Japan) 2009: S-001, p 1-2.の被引用数は、2013 年 2 月

時点では 19 件であったが、2014 年 1 月には 44 件と大きく伸びており、微生物ゲノム解析

研究全体にわたって大きく貢献しているといえる。 Leinonen R, Sugawara H and Shumway M on behalf of the International Nucleotide

Sequence Database Collaboration (2011) “The Sequence Read Archive” Nucleic Acids Res. 39:D19-D21 は、微生物学および分子生物学・遺伝学、生理学にとどまらず臨床医学、

コンピュータサイエンス、数学、植物学・動物学といった広い分野において引用されてい

る。 データベースコンテンツへのアクセスという観点でみると、Web サービスを標準インタ

- 14 -

フェースの構築に導入した点は新しい試みであり評価に値する。これにより、データベー

ス利用の基盤が形成されたと言える。しかし、現在の Web サービスの内容は標準的なレベ

ルにとどまっているため、今後さらに高度化し、利用者の生物学的発見を先導するような

インタフェースを開発し公開することが期待される。同時に、生物学的知見の新規発見を

通じてその有用性をアピールすることが必要と思われる。新世代シーケンサーのデータ解

析に対応するための基盤技術の一つを開発したとも考えられ、開発した Web API やワーク

フローは今後の利用が期待できる。

3.2. 人材育成の面から参加研究者の活動状況

3.2.1. 研究開発に参加した研究者のキャリアアップ

本研究開発課題に参加した者で、その後新たなポジションを得た者は 1 名いた。

3.3. 社会的及び経済的な効果

3.3.1. 研究開発成果が大学や公的研究機関、企業等で、応用に向けて継承または発展した

1) JST BIRD 発足当時批判もあった Web API は、今やバイオインフォマティクスの世界

でもあたりまえのように使われている。また、JST BIRD 終盤に手がけた Semantic Web 技術の一つであるデータの RDF 化もライフサイエンス統合データベースの事業

における技術開発の中心課題として取り上げられ、海外でも UniProt をはじめとして

RDF でのデータ提供が広がっている。代表研究者自身は、2007 年からのターゲットタ

ンパク研究情報プラットフォーム課題において、複数のデータベースの統合検索シス

テム構築に Web API 技術を活用した(http://www.tanpaku.org/asett/)。 2) MiGAP についても、研究コミュニティから必ずしも全面的賛同を得ていなかったが、

利用動向および関連論文から、MiGAP 開発に着手した決断に誤りがなかったことが実

証されている。 3) GTPS は、ORF に対するアノテーションの信頼性を評価する目的で開発に着手したが、

その観点は受け入れられ、ライフサイエンス統合データベースのプロジェクトにおい

ても活用されることとなった。 4) DDBJ SRA と DDBJ TA は、研究コミュニティの支援ならびに国際共同事業において

貢献している。

- 15 -

3.3.2. その他、研究開発成果が社会的、経済的な効果・効用につながる兆し、可能性

本研究開発課題により構築されたデータベースとソフトウェアは、国内外から多数アク

セスされている。また、多数の論文が出版され、ゲノムサイエンス分野にも大きな影響が

あった。JST BRID期間中に新世代シーケンサー由来データのアーカイブ化への対応を開始

し、その後、DDBJにおいて新世代シーケンサー解析のパイプラインが開発され提供される

に至った。このように、国際塩基配列データバンク共同事業の一翼を担っている一方、2007年7月~2012年3月 ターゲットタンパク研究プログラム技術開発研究「ターゲットタンパク

研究情報プラットフォームの構築運用」および創薬等支援技術基盤プラットフォーム情報

拠点事業へと発展している。

- 16 -

資料編

1. 論文リスト

1. Kwon, Y., Shimizu, S., Sugawara, H., Miyazaki, S. (2014) “A Novel Evaluation

Measure for Identifying Drug Targets from the Biomedical Literature” Journal of Information Processing (to be published)

2. Iwayanagi, T., Miyamoto, S., Konno, T., Mizutani, H., Hirai, T., Shigemoto, Y., Gojobori, T., Sugawara, H. (2012) “TP atlas: Integration and dissemination of advances in Targeted Proteins Research Program (TPRP)-structural biology project phase II in Japan” Journal of Structural and Functional Genomics 13(3), 145-154

3. Kwon, Y., Sugawara, H., Shimizu, S., Miyazaki, S. (2011) “Associated disease frequency-based measure for finding candidate target genes from the biomedical literature” Proceedings of the International Conference on Complex, Intelligent and Software Intensive Systems, CISIS 2011 524-529

4. #*Leinonen R, Sugawara H and Shumway M on behalf of the International Nucleotide Sequence Database Collaboration (2011) “The Sequence Read Archive” Nucleic Acids Res. 39:D19-D21

5. Kaminuma E, Kosuge T, Kodama Y, Aono H, Mashima J, Gojobori T, Sugawara H, Ogasawara O, Takagi T, Okubo K and Nakamura Y. (2011) “DDBJ progress report” Nucleic Acids Res. 39: D22-D27

6. #*Katayama T, Arakawa K, Nakao M, Ono K, Aoki-Kinoshita KF, Yamamoto Y, Yamaguchi A, Kawashima S, Chun HW, Aerts J, Aranda B, Barboza LH, Bonnal RJ, Bruskiewich R, Bryne JC, Fernández JM, Funahashi A, Gordon PM, Goto N, Groscurth A, Gutteridge A, Holland R, Kano Y, Kawas EA, Kerhornou A, Kibukawa E, Kinjo AR, Kuhn M, Lapp H, Lehvaslaiho H, Nakamura H, Nakamura Y, Nishizawa T, Nobata C, Noguchi T, Oinn TM, Okamoto S, Owen S, Pafilis E, Pocock M, Prins P, Ranzinger R, Reisinger F, Salwinski L, Schreiber M, Senger M, Shigemoto Y, Standley DM, Sugawara H, Tashiro T, Trelles O, Vos RA, Wilkinson MD, York W, Zmasek CM, Asai K, Takagi T. (2010) “The DBCLS BioHackathon: standardization and interoperability for bioinformatics web services and workflows ”The DBCLS BioHackathon Consortium. J Biomed Semantics. Aug 21; 1(1):8.

7. #*Kodama Y, Kaminuma E, Saruhashi S, Ikeo K, Sugawara H, Tateno Y, Nakamura Y, 2010, Biological databases at DNA Data Bank of Japan in the era of next-generation sequencing technologies, Adv Exp Med Biol., 680: 125-35.

8. Shumway M, Cochrane G, Sugawara H, 2009, Archiving next generation sequencing data, Nucleic Acids Res.1-2, Advnace Access published December 3

- 17 -

9. #*Kwon Y., Shigemoto Y., Kuwana Y., Sugawara H., (2009) “Web API for biology with a workflow navigation system,” Nucleic Acids Res., Jul 1:37(Web Server issue):W11-6, Epub 2009 May 5.

10. Sugawara H., Ikeo K., Fukuchi S., Gojobori T., Tateno Y., 2009, DDBJ dealing with mass data produced by the second generation sequencer, Nucleic Acids Res., 2009 Jan:37(Database issue):D16-8

11. Tada M., Nagasima T., Udagaw T., Tachikawa M. Sugawara H., 2008, Ab initio fragment molecular orbital (FMO) analysis of the structure of the phosphoinositide-binding peptide from gelsolin, Journal of Molecular Structure: THEOCHEM 10.1016/j.theochem.

12. Sugawara H., Ogasawara O., Okubo K., Gojobori T., Tateno Y., (2008) DDBJ with new system and face, Nucleic Acids Res., 36, D22-4.

13. Hirahata M., Abe T., Tanaka N., Kuwana Y., Shigemoto Y., Miyazaki S., Suzuki Y., Sugawara H., (2007) “Genome Information Broker for Viruses (GIB-V): Database for comparative analysis of virus genomes,” Nucleic Acids Res., 35, D339-D342.

14. Sugawara H., Abe T., Gojobori T., Tateno Y., (2007) “DDBJ Working on Evaluation and Classification of Bacterial Genes in INSDC, ”Nucleic Acids Res., 35, D13–D15.

15. Tanaka N., Abe T., Miyazaki S., Sugawara H., (2006) “A useful bioinformatics suite for retrieving and analyzing microbial genome data (G-InforBIO),”Journal of Computer Aided Chemistry, 7, 87-93.

16. Tanaka N., Abe T., Miyazaki S., Sugawara H., (2006) “G-InforBIO: Integrated system for microbial genomics,”BMC Bioinformatics, 7, 368.

17. #*Kosuge T., Abe T., Okido T., Tanaka N., Hirahata M., Maruyama Y., Tomiki A., Kurokawa M., Himeno R., Fukuchi S., Miyazaki S., Gojobori T., Tateno Y., Sugawara H., (2006) “Exploration and grading of possible genes in 183 bacterial strains by a common fine protocol lead to new genes: Gene Trek in Prokaryote Space (GTPS),”DNA Res., 13, 245-254.

# :本追跡調査において研究代表者が主要な論文として指定したもの(上限 30 報) *:研究開発期間終了後の終了報告書において研究代表者が主要な論文として指定したもの

- 18 -

2. 主要論文の被引用回数

論文

国内外別

件数 分野別件数 出版年別件数

国内

件数

海外

件数 農学

生物

学・

生化

化学 臨床

医学

コンピ

ュータ

サイエ

ンス

経済

学・

経営

工学

境・

生態

地球

科学

免疫

材料

科学 数学

微生

物学

分子

生物

学・

遺伝

複合

領域

神経

学・

行動

科学

薬理

学・

毒物

物理

植物

学・

動物

精神

学・

心理

社会

学・

一般

宇宙

科学

2006

2007

2008

2009

2010

2011

2012

3. *Leinonen R, Sugawara H and Shumway M on behalf of the International Nucleotide

Sequence Database Collaboration (2011) “The Sequence Read Archive” Nucleic Acids Res.

39:D19-D21

3 19 0 6 0 4 4 0 0 0 0 0 0 1 3 3 0 0 0 0 1 0 0 0 - - - - - 9 13

6. *Kodama Y, Kaminuma E, Saruhashi S, Ikeo K, Sugawara H, Tateno Y, Nakamura Y(,2010)

“Biological databases at DNA Data Bank of Japan in the era of next-generation sequencing

technologies,”Adv Exp Med Biol., 680:125-35.

2 1 0 2 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 - - - - 0 1 2

8. *Kwon Y., Shigemoto Y., Kuwana Y., Sugawara H., (2009) “Web API for biology with a workflow

navigation system,” Nucleic Acids Res., Jul 1:37(Web Server issue):W11-6, Epub 2009 May 5. 2 2 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 - - - 0 2 0 2

16. *Kosuge T., Abe T., Okido T., Tanaka N., Hirahata M., Maruyama Y., Tomiki A., Kurokawa M.,

Himeno R., Fukuchi S., Miyazaki S., Gojobori T., Tateno Y., Sugawara H., (2006) “Exploration and

grading of possible genes in 183 bacterial strains by a common fine protocol lead to new genes:

Gene Trek in Prokaryote Space (GTPS),”DNA Res., 13, 245-254.

5 1 0 4 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 2 1 2 1 0

・本追跡調査において研究代表者が主要な論文として指定したもの(上限 30 報)について、トムソン・ロイター社 Web of Science で調査した。調査対象は、2012 年 12 月まで。被引用情報が取得できたもののみ記載した。 ・論文番号は「資料編 1. 論文リスト」に対応している。 ・*:研究開発期間終了後の終了報告書において研究代表者が主要な論文として指定したもの。 ・[国内外別件数]は、被引用文献の国内外別件数。被引用文献の著者の所属国のうち JAPAN が一つでもあれば国内としている。国内外の合計が全被引用文献数となる。 ・[分野別件数]は、被引用文献の分野別件数。被引用文献が論文の場合のみカウントしている。 ・[出版年別件数]は、被引用文献の出版年別件数。「-」は、データなしを表す。

Web of Science 国内外別件

数(2012 年 12 月まで) Google Scholar

論文 国内件

数 海外件

数 合計

~2014

年 4 月24 日

~2012年

4. *Leinonen R, Sugawara H and Shumway M on behalf of the International Nucleotide Sequence Database Collaboration (2011) “The Sequence Read Archive” Nucleic Acids Res.

39:D19-D21 3 19 22 105 55

6. *Kodama Y, Kaminuma E, Saruhashi S, Ikeo K, Sugawara H, Tateno Y, Nakamura Y(,2010) “Biological databases at DNA Data Bank of Japan in the era of next-generation sequencing

technologies,”Adv Exp Med Biol., 680:125-35. 2 1 3 9 5

7. *Kodama Y, Kaminuma E, Saruhashi S, Ikeo K, Sugawara H, Tateno Y, Nakamura Y, 2010, Biological databases at DNA Data Bank of Japan in the era of next-generation sequencing technologies, Adv Exp Med Biol., 680: 125-35.

- - - 9 5

9. *Kwon Y., Shigemoto Y., Kuwana Y., Sugawara H., (2009) “Web API for biology with a workflow navigation system,” Nucleic Acids Res., Jul 1:37(Web Server issue):W11-6, Epub 2009 May 5. 2 2 4 18 13

- 19 -

17. *Kosuge T., Abe T., Okido T., Tanaka N., Hirahata M., Maruyama Y., Tomiki A., Kurokawa M., Himeno R., Fukuchi S., Miyazaki S., Gojobori T., Tateno Y., Sugawara H., (2006) “Exploration and

grading of possible genes in 183 bacterial strains by a common fine protocol lead to new genes: Gene Trek in Prokaryote Space (GTPS),”DNA Res., 13, 245-254.

5 1 6 14 9

・情報科学・計算機科学分野における研究開発成果では、会議予稿集での発表に引用されることが多いため、Google Scholar での被引用件数を参考情報として添付した。 ・Google での調査方法

対象論文のタイトルを検索し、当該論文を「引用元」とする件数を取得した。 最新の被引用件数と、それから 2013 年以降の被引用件数を引いたものを 2012 年までとした。ただし、年が明確でないものは引かれていないため、2012 年までの被引用件数が実際よりも多くなっている可能性がある。

・論文番号は「資料編 1. 論文リスト」に対応している。 ・*:研究開発期間終了後の終了報告書において研究代表者が主要な論文として指定したもの。

- 20 -

3. 学会招待講演・基調講演

1. 中村保一 (2010) “DDBJ / INSDC の新型シーケンサデータへのとりくみ ~ DDBJ

Sequence Read Archive (DRA) と解析支援系 DRA pipeline ~” Luncheon seminar, Annual Meeting of the Japanese Biochemical Society)(ランチョンセミナー), Kobe, December 7.

2. Hideaki Sugawara. (2008) “From Web API for Biology (WABI) to Semantic Web API for Biology (SABI)”. BioHackathon 2008 – Towards integrated web service in life science with Open Bio* libraries-, Tokyo, February 11.

4. 新聞発表等(著作権の関係により非公開)

5. 特許出願・成立

該当なし

6. 学会賞等の受賞

1. 世界微生物株保存連盟(WFCC; World Federation for Culture Collections)功労賞

(2008 年)

7. グラントの獲得実績

1. 2007 年 7 月〜2012 年 3 月 ターゲットタンパク研究プログラム技術開発研究「ター

ゲットタンパク研究情報プラットフォームの構築運用」

8. 書籍等の執筆実績

該当なし

- 21 -

9. 総説の執筆実績

該当なし

10. 参加研究者の活動状況(個人情報が含まれるため非公開)