Visualization of life science research by using MeSH and GIS techniques

Preview:

DESCRIPTION

学術論文データベースから抽出・加工・蓄積したいくつかのデータおよび米国特許データベースからオリジナルに作成したサイエンスリンケージデータを対象として、研究助成機関の実務家や政策策定者が利用できるような可視化を試みました。なお、動画GIFには対応しておりませんので、推移を示すスライドの画像が動かず見づらいところがありますがご容赦ください。

Citation preview

ライフサイエンス分野研究動向の可視化 新たな医療分野の研究開発体制に向けての試み − −

調 麻佐志

本日の主旨• 既存シソーラス(MeSH)を利用して、学術論文(ネットワークデータ)を2次元にマッピングしました。– 研究トピックが概ねリーズナブルに配置。– 研究トピック・領域が非専門家にも比較的容易に理解可能。– ミクロ (メソ) マクロのマップを作成可能。− −

• (情報をネットワークのノードに付加して加工することで)オーバーレイにより– 量に関する指標の可視化– 質に関する指標の可視化– カテゴリの可視化

 を行い、わかりやすい形で表現されました。• お知恵をお貸しください。

– 実務・業務にどう使えますか?– どのような改善や情報の付加が必要ですか?

データ等について• 利用した論文書誌データ

– 以下の 2つの積集合• WoS( SCI Ex)収録の DBY1992-2011年の論文( article, review,

note, letter、 article & proceedings paper)• PubMed収録のデータ( PY1991-2012)

– 被引用数 Top 1%論文等は 2011年末時点の SCI EXデータを使った独自集計に基づく

• 利用した米国特許データ– 1992-2012年までに登録された実用特許– 論文引用は front pageの non-patent referencesから同定。

• 数値や表現について– 本発表に限らず、科学計量学・文献計量学研究の成果として示される数値や表現は一つの解釈の産物であり、それらが一意に定まることは決してない。

ライフサイエンス研究のマッピング結果

ライフサイエンス研究のマッピング結果

看護・ヘルスケア

精神医学・行動科学

脳・神経科学

診断・治療

代謝・生化学

分子生物学酵素・タンパク質

個別疾患細菌・ウィルス・

感染免疫

幹細胞

薬理

病理

植物

医薬・生理学

関連科学

環境・生態

物質

公衆衛生 配列相同性

綺麗には分離していない領域

分析化学

2000-10年の世界の論文数推移(分数カウント、 3年移動平均)

量 実質的にあらゆる領域で論文数が増加

2時点比較

2000年(移動平均) 2010年(移動平均)

量 精神医学・行動科学、病理・診断技術、理論モデル(システムバイオロジー ?)、分析化学 ↑

2000-10年の日本の論文数推移(分数カウント)

量 停滞(変動が見られない)

2時点比較

2000年(移動平均) 2010年(移動平均)

量 配列相同性 ↓病理・診断技術、?、理論モデル、幹細胞研究 ↑日

2000−10年の日本の論文シェア推移( 3年移動平均)

比率

論文シェアの全体的な低下日

同 2時点比較

2000年(移動平均) 2010年(移動平均)

比率 日

米国特許に引用された論文数(相対値)の推移

2001年登録特許から 11年登録特許まで

量基礎研究が特許引用の対象

2時点比較

2001年(移動平均) 2011年(移動平均)

量診断技術、理論モデル 

↑配列相同性 ↓

技術動向の変化ではなく、単に論文数の変化を反映している可能性もある。科学・技術動向の変化

特許登録年に基づく(特許に引用された日本の論文数/全世界同)の推移

2001年登録特許から 11年登録特許まで

質引用数シェアは増加(過去の論文シェアの賜物では?)日

特許登録年に基づく(特許に引用された日本の論文/世界の論文)の2時点比較

2001年登録特許による引用(移動平均) 20 11年登録特許による引用(移動平均)

質 日

特許登録年に基づく日本の論文の特許被引用数の世界シェアの推移

2001年登録特許から 11年登録特許まで比率

精神医学・行動科学を除けば、被引用論文数と同様の傾向日

特許登録年に基づく日本の論文の特許被引用数の世界シェアの2時点比較

2001年登録特許による引用数(移動平均)20 11年登録特許による引用数(移動平均)

比率 日

読み取れること

• ライフサイエンス研究において– 世界の論文数は全ての領域で着実に増加– 日本の論文シェアは、今世紀始めに、多くの、とくに基礎研究分野で 10%を超えるほど高かったものの、急激に低下し、ほとんどの分野で日本の全分野平均(約 6%)を多少超える程度となった

– 近年、米国特許による引用数が比較的増加している領域は、病理・診断技術、理論モデル等。

– 被引用数、引用論文数、双方の観点で、米国特許による日本の研究論文への引用が増えている。

近年の特許化進展  vs. 当該領域の論文数の増加

先見の明(特許化先取り)  vs. 過去の栄光

何のためにこのような可視化をするのか?

意思決定支援:非専門家の、(直感的な)現状理解・問題発見を支援する

研究支援:専門家にも(おそらく)見えない時間的/空間的な「全体」像を描き、また潜在的な構造変化の手がかりを提供する

コミュニケーション支援専門家・非専門家のコミュニケーションメディアを構築する

エビデンス:評価業務や説明責任履行のためのエビデンスを作成する

弊害( ex. 平均化、数値化、 2次元化の罠)を忘れてはいけない

何をやったか?ライフサイエンス分野を統合的に分析するプラットフォームの開発

• SCI Ex = PubMed結合データベース

PubmedSCI Ex(WoS)

結合

MeSHターム• 構造化• 理解が容易な

キーワード群

NIHなどのファンディング情報

引用情報→ 評価指標

謝辞情報( 2010~)

所属→国/機関/セク

USPTOIPC,PCT

→分野、「重要性」

引用

1,200 万件の PubMedレコード中、 850 万件を SCI Exと結合。

アク

セシブルなエ

デンスの表現

非専門家(今回は私自身が「被験者」)にとって可視化は研究動向や成果の把握のための重要なツールしかし、

–可視化を実現するコスト/ハードルが高い–情報 richな図(とくにネットワーク図)を見ても、非専門家が情報を抽出することが難しい

– 適切なキーワード抽出が理解の鍵の一つ• 自然言語処理的なアプローチ(たとえば、 SciSIPで実施 )は promisingながら高コスト

そこで… MeSHを活用

可視化における課題

MeSHとは…• Medical Subject Headings の頭文字であり、米国国立医学図書館 (NLM) が定める生命科学用語集(シソーラス)である。 NLMがMEDLINEデータベースにおいて文献を管理する際、文献の内容を表す適切な用語を10 〜 15個程度文献に付与し、この用語により文献を検索・管理できるようにしているが、このとき MeSHの用語を用いる。(ウィキペディアより)

• 文献内容を表す(階層構造を持つ) descriptor、および広く共有される概念で修飾する qualifier( sub-heading)の 2体系からなる。

• qualifierは descriptorと常に組み合わせて用いられるが、すべての descriptorに qualifierがつくわけではない(むしろ極少数にしかつかない)

MeSH descriptorの階層構造• 現バージョンでは最大 11 階層

– 上位 2 階層は文献には付与されない抽象的なもので、下位 9 階層が付与される。

• 具体的な階層構造の例 (非常にわかりやすい)– 身体領域  Body Region

• 四肢  Extremities– 下肢  Lower Extremity

» 足  Foot» ヒト足先  Human Forefoot

» つま先  Toe» 母趾  Hallux

• 内容に対応する粒度(階層)の descriptorのみが付与されるので、上位概念での集計・分析には再集計が必要。– Lower Extremityは下肢全般を扱う論文にのみ付与されるので、

母趾のみを対象とする論文には、 Lower Extremityが付与されない。下肢のどこかを対象とする論文の同定には下位のdescriptorも統合。

本プロジェクトにおける研究開発活動の統合

書誌情報( SCI・米国特許・

PubMed)

MeSHを活用した(ミクロ/マクロ)研究動向の可視

NIHファンディングの分

引用情報を活用した評価と可視化

特許を通じた学術研究のイノベーションへの貢献の評

価謝辞情報を活用した本邦ファンディングプログラムの評価

NIHファンディングによる共著ネットワークの形成

統合的に可視化

本プロジェクトにおける研究開発活動の統合

書誌情報( SCI・米国特許・

PubMed)

MeSHを活用した(ミクロ/マクロ)研究動向の可視

NIHファンディングの分

引用情報を活用した評価と可視化

特許を通じた学術研究のイノベーションへの貢献の評

価謝辞情報を活用した本邦ファンディングプログラムの評価

NIHファンディングによる共著ネットワークの形成

本スライドに含まれる

内容

マクロ:ライフサイエンスミクロ:多能性幹細胞

本スライドの内容

• ライフサイエンス分野の時系列分析• 本プロジェクトにおける位置づけ• MeSHの説明• マクロ:ライフサイエンス分野の静的可視化

• 最新版のMeSH 構造の利用によりカバレッジは 740 〜 790万件へ

– descriptor 第二階層、 descriptor 第二階層 ×qualifierによるmapping

– descriptor 第三階層上位 500による可視化• ミクロ:多能性幹細胞研究の可視化

– 全階層の descriptorを活用した分析• 今後の展開

ここまで済

ライフサイエンスライフサイエンス分野の可視化

ライフサイエンス分野のmapping(第二階層記述子)

最初のmapと位置関係はほぼ同じ。中身もわかりやすいが、詳細さにかける

ライフサイエンス分野のmapping(第二階層記述子 × 修飾子)

中身が非常にわかりやすいが、あまりに似た項目が並び過ぎている。

どのマッピング手法が適切か、あるいは複数を併用すべきかは考えどころではあるが…とりあえず 1 種類のmapで表現の可能性を探ってみる。

1992−2011年延べのライフサイエンス分野における世界の論文分布

量 世

同日本の論文分布

量左(臨床、公衆衛生、精神医学・行動科学)が手

薄い日

日本の論文シェア比率 日

日本のトップ 1%論文

量 基礎系がとくに多いが、病理・診断や一部臨床、個別疾患なども

日本のトップ 1%論文比率/世界同比率

世界平均

質 日

日本のトップ 10%論文比率/世界同比率

世界平均

質 全体として世界平均に近づく

米国特許による平均引用数の分布

質 基礎系・研究系が特許引用数は多い

米国特許に引用された論文の割合(日)/同世界

世界平均

質 ・日本発の論文数が少ない非主流領域以外では医薬・生理学が健闘。・論文数減少の効果に注意。

米国特許による平均引用数(日)/同世界

世界平均

質 基礎系が相対的に弱いものの、世界平均並以上

読み取れること• 全体として基礎系の論文がより多く出版されている。• 世界と比べても日本は基礎・研究系に集中している。

– 臨床系の英語論文(とくに症例報告等)が少ないことには理由もあることに注意。

• 全体では基礎・研究系領域の論文が特許によく引用される

• 日本の論文で相対的によく特許に引用されるのはヘルスケアなど特許による引用数が少ない領域および(おそらく代謝・内分泌などに関する)医薬・生理学系と推定される領域。

• Top1%、 Top10%論文の比率は領域によるが概ね世界平均以下かせいぜい並。

日本のライフサイエンス研究、とくに基礎系は危機的なのか?

研究産業の不在も関与しているかも?

公的研究助成による論文出版( 2010)量 タンパク質!日

内訳( 2010年)

科研費 厚労科研費

量タンパク質が中心なが

ら幅広い領域臨床・公衆衛生が意

外に少ない。

内訳( 2010年)

JST NEDO

量 日

わが国の全論文に対する公的研究助成による論文のシェア( 2010)

比率

基礎・研究領域が高く、個別疾患、臨床が手薄。どの資金がこれらの研究を担う

のか?

同科研費論文シェア比率

公的助成全体と同様の傾向。ただし、当然ながらさらに基

礎・研究領域への傾斜。

同厚労科研費論文シェア比率

精神医学・行動科学の比率が目立つが、一部の基礎系もついでシェアが高い。個別疾患、臨床が?

同 JST 助成研究シェア比率

物質・材料、幹細胞・免疫、精神医学・行動科学

同 NEDO 助成研究シェア比率

物質、材料、関連科学日

科研費論文シェア 厚労科研費シェア−比較

・基礎の科研費・臨床、公衆衛生の厚労科研費・基本的に科研費がドミナント

読み取れること• 全体をみると、とくに基礎系の成果創出(論文出版)に公的研究資金は貢献している。– 特許による引用、 top 1%、 10 %論文の割合を見る限り、量に

貢献しても質は?• 取り上げた各助成機関はそれぞれの行動原理、役割に沿って、研究開発投資を行っている。

• とはいうものの、アウトプットからは公的研究資金(とりわけ厚労科研費)による臨床研究、個別疾患研究への支援が手薄にみえる。– 臨床研究、個別疾患研究は経常費 or民間資金で実施しているのか?

– (一つの仮説ながら)資金提供側の問題というよりは、受け手側の問題(基礎研究志向)ではないか?

多能性幹細胞研究

多能性幹細胞研究のマッピング結果

多能性幹細胞研究のマッピング結果

ES細胞

iPS細胞

組織工学

間葉系幹細胞

増殖・培養

再生医療胚研究

神経

胚性腫瘍細胞

骨芽細胞遺伝子導入

実験動物

RT-PCR塩基配列

綺麗には分離していない領域

多能性幹細胞?

世界の多能性幹細胞研究論文数(分数カウント)

量 世

世界の多能性幹細胞研究論文数の推移(分数カウント)

量 ・間葉系幹細胞→増殖・培養=ES→その他技術→ iPSと増加・組織工学は立ち上がったところ

2000-2010( 3年移動平均)

特許登録年ごとの米国特許に引用された多能性幹細胞論文の数

絶対数 相対数(各年の最上位を赤)

・急激かつ多極的(間葉系、 ES、 iPSなど)な特許化が進行・胚性腫瘍細胞はピークを越えたか?

2001-2011年登録特許( 3年移動平均)

日本の論文シェア( 1992-2011)比率

高い世界シェア日

日本の論文シェアの推移比率

2005年以前は論文数が少なくノイズが多い。

2000-2010( 3年移動平均)

同 2時点比較

2005年 2010年

比率

世界の急激な「キャッチアップ」によるシェアの低下

トップ 1%論文比率/同世界

世界平均

質全般に比率が低くみえるが、 ES、 iPSでは世界平均並以上日

トップ 10%論文比率/同世界

世界平均

質 極度に低いところが減る

米国特許に引用された論文比率(日)/世界同

スケール( legend)の違いに注意

質 日本の論文が特許によく引用されている。

特許登録年ごとの同推移・ 2007年頃以前は被引用数が少なくノイズが多い・ iPS、 ES領域でよく引用されている。

質 日

2001-2011年登録特許( 3年移動平均)

読み取れること• 多能性幹細胞研究領域では、日本は大いに、とくに量的な存在感を発揮している。

• しかし、近年の世界のキャッチアップにより量的な存在感は著しく低下した。

• Top1%、 Top10%論文の比率は ES、 iPS、周辺分野のそれぞれ世界並を保っており、少なくとも他のライフサイエンス分野、あるいは科学分野に優っている。ただし、増殖・培養に関する研究が相対的に弱いようにみえる。

• 特許による引用も近年増えており、技術化に向けての鍵となる研究成果を少なくとも過去には多く出している。– (仮説ながら)特許による引用が多いことの理由に、自己引用(的なもの)があるかもしれないので、確認が必要(→将来の分析課題)。

公的研究助成を得た多能性幹細胞研究論文数(分数カウント、 2010)

量 ・ ES→ 間葉系→ iPS・ iPSが相対的に低いのは謝辞に出ない支援だからか?

公的研究助成を得た多能性幹細胞研究論文のシェア(分数カウント、2010)

貢献

おおむね 5 割以上が公的研究助成を得ている。ライフサイエンス分野の基礎研究に共通する特徴。

科研費

論文数(分数カウント) 日本発論文に占めるシェア(分数カウント)

比率量

・最大の資金提供者にして、幅広い支援。

日 日

JST

論文数(分数カウント) 日本発論文に占めるシェア(分数カウント)

比率量

・傾斜のある支援

日 日

厚労科研費

論文数(分数カウント) 日本発論文に占めるシェア(分数カウント)

この時点では幹細胞研究においてマイナー

比率量 日 日

NEDO

論文数(分数カウント) 日本発論文に占めるシェア(分数カウント)

DNA、下方制御(後天的ゲノム修飾のメカニズムを活用した創薬基盤技術開発 PJ?)

電顕(創薬加速に向けたタンパク質構造解析基盤技術開発PJ?)

・マイナーながら、独自の支援

比率量 日

読み取れること• 多能性幹細胞研究は他のライフサイエンス領域の基礎研究と同等に公的研究助成により支えられている。

• 各助成機関はそれぞれの特性にしたがって、独自の資金提供パタンを示している。

• NEDOの助成には独自性があり、他の助成機関とはさほどバッティングしない領域にも注力している点で興味深い。

• 厚労科研はその(行政目的への貢献が問われるなどの)性格上、多能性幹細胞研究にはあまり肩入れできていない /していないようにみえる。– ただし、提供された資金額を確認していないので、結論にはまだ早い。

今後の可視化に関する展開・やるべきこと• 調整等の作業

– パラメーターの調整– さらに理解しやすい配置と表現の探索

• 新たな情報の付加– 研究助成情報の充実

• 金額までわかればよいのだが…– 研究機関別の特徴抽出– 引用特許の種別( ipcや pct)の表現– 他国との比較( NIH、その他米国政府資金)

• メソレベルマップ(精神医学、脳神経科学か?)– descriptorの集計レベルを調整すればよいと考えている

• より詳細なミクロマップ(研究者支援)• 詳細ミクロからマクロの連続的な可視化

– 情報工学のスキルと文脈の扱いという2つの課題• 潜在ユーザーからの要望への対応

152- 8552 東京都目黒区大岡山2-12-1  S6-5 東京工業大学大学院理工学研究科調研究室内ファンディングプログラムの運営に資する科学計量学」プロジェクト

RISTEXSCIENTOMETRICSPJ[アットマーク]GOOGLEGROUPS.COM

ご清聴ありがとうございました。コメント・ご提案を歓迎いたします。

Recommended