Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Copyright @ ICHIRO SAKATA The University of Tokyo
坂田一郎工学系研究科教授/総合研究機構イノベーション政策研究センター長
The University of Tokyo
Copyright ⓒIchiro Sakata
科学技術ビックデータ戦略
Analyze / Strengthen / Solve
Stimulate / Demand / Feedback
科学技術
地球環境問題
安全・安心
超高齢化社会
地球的諸課題
科学と社会市場の接近
科学技術と課題解決の好循環
ジャーナル数の増加メガ・オープンジャーナルプレ・プリント/アーカイブ地政学的な変化
学術知識の爆発的増加(ナノカーボン分野の例)
3
3
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
50000
年度
19
90
19
91
19
92
19
93
19
94
19
95
19
96
19
97
19
98
19
99
20
00
20
01
20
02
20
03
20
04
20
05
20
06
20
07
20
08
20
09
20
10
20
11
20
12
20
13
20
14
ナノカーボン分野の全論文数
論文数
1991年カーボンナノチューブ発見
1994年フラーレン発見
2004年グラフェン発見
2010年グラフェンノーベル賞受賞
(データ)Web of Scienceを用いた計算
Copyright @ ICHIRO SAKATA The University of Tokyo
Topic No. Topic Label
No.0 Biosensor
No.1 Lithium Ion Battery
No.2 Environmental Assessment (Eco System)
No.3 Environmental Assessment (Composites Analysis)
No.4 Bio Medicine
No.5 Adsorption
No.6 Fullerene
No.7 Nano Composites
No.8 Biosensor
No.9 Chemical Application
No.10 Nanoparticle
No.11 Solar Cell with Fullerene
No.12 Growth Mechanism of Carbon Fiber
No.13 Graphene
No.14 Drug Delivery
No.15 Methodology of making Nano Carbon
No.16 Basic Properties
No.17 Evaluation of Basic Properties
No.18 Catalysts and Battery
No.19 Alloys with Carbon Nanotube
30万件のナノカーボン領域の論文群について、ダイナミックトピックモデリングを用いて分析したところ、上位 20トピックに、バッテイリー、バイオセンサー、ナノ構造材、吸着剤などの応用研究が多く見られる。
科学的知識の性格の構造変化ケース: Nano- carbon
(Source) Y Nakashio, et al., Detecting structural changes of nano carbon domain based on time
distribution of text information of academic papers, Portland International Conference on
Management Engineering and Technology 2016 (PICMET'16), in Hawaii (4-8, Sep, 2016)
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
199019911992199319941995199619971998199920002001200220032004200520062007200820092010201120122013
NO.000 NO.001 NO.002 NO.003 NO.004 NO.005 NO.006 NO.007 NO.008 NO.009
NO.010 NO.011 NO.012 NO.013 NO.014 NO.015 NO.016 NO.017 NO.018 NO.019
①DiminishingTopics0、2、6、16、17
②GrowingTopics1、7、8、10、13、18、
Copyright @ ICHIRO SAKATA The University of Tokyo
5
同時に進む科学的知識の構造変化in Nano Carbon domain (2006~2010)
2006 2007 2008
Average Year 2003.1
Nodes 26094
edges 332065
Average Year 2004.1
Nodes 30095
Edges 418698
Average Year 2004.9
Nodes 36723
Edges 52809
Average Year 1999.5
Nodes 34294
Edges 332158
Average Year 1999.5
Nodes 21560
Edges 281266
Average Year 2000.9
Nodes 40645
Edges 404277
Carbon Nanotube Carbon Nanotube Carbon Nanotube
Fullerene (bio) Fullerene (bio) Fullerene (bio)
Average Year 2000.7
Nodes 23007
Edges 86743
Average Year 2001.5
Nodes 36824
Edge 179912
Average Year 2002.7
Nodes 36391
Edges 181657
Fullerene (Electrode) Electrode (adsorption)
2009 2010
Average Year 2001.5
Nodes 44473
Edges 444389
Average Year 2005.5
Nodes 42777
Edges 626431
Average Year 2004.3
Nodes 37337
Edges 232400
Average Year 2002.4
Nodes 13298
Edges 48347
Carbon Nanotube
Diamond Carbon
Fullerene (bio)
Graphene (Catalyst)
Carbon Nanotube
Diamond Carbon
Average Year 2002.2
Nodes 50928
Edges 497265
Average Years 2006.2
Nodes 50009
Edges 75558
Average Year 2005.5
Nodes 43963
Edges 333840
Avergae Year 2003.4
Nodes 17429
Edges 63650
Fullerene (bio)
Graphene (Catalyst) Fullerene (Electrode)
(Source) Y Nakashio, et al., Detecting structural changes of nano carbon domain based on time
distribution of text information of academic papers, Portland International Conference on
Management Engineering and Technology 2016 (PICMET'16), in Hawaii (4-8, Sep, 2016)
Copyright @ ICHIRO SAKATA The University of Tokyo
エキスパートアプローチの限界
6
◼ ホライゾン・スキャニングや技術進歩の現状分析には、1950年代にアメリカのランドコーポレーションで開発されたDelphi method を代表例とする専門家によるアプローチが用いられてきた。
◼ しかしながら、このアプロ―チは、以下の理由から限界に近付いている。
1) 科学技術知識の激増や構造変化により、如何なる専門家といえども、
特定の知識領域について俯瞰的な知識を持つことは困難となっている
2) 専門家ベースアプロ―は、コストが高く、また、時間
がかかり過ぎる
3)対象とする研究領域について、一般的に認知された
「定義」すら無いことが多い。
◼ そのため、論文、特許等の明文化されたテキストを対象としたコンピュターベースのアプローチの開発が進められてきている。
知識の構造化と意思決定支援論文・特許、ウェブデータ、医療、形式知化された経験知などの膨大な情報を収集・分析し、専門的知見による解釈を通じて、知識の森を理解可能にする。「埋没知」の壁を超え、科学技術ビックデータをリアルタイムに近い形で、有効活用することで、意志決定の質の向上、早期化による競争力強化に寄与。
収集
分析 編集
提示
膨大なデータや情報 構造化された知識
客観的な知と経験知等を統合した意思決定
エビデンスベースの質の高い判断
科学技術ビックデータと意思決定
Link prediction
Corpus expansion
Semantic similarityTechnology forecast
VisualizationWeb system
Decision support systemRoad mappingT-plan method etc.Link mining
•Data
•Information
•Concept
•Item
•Actor
•Overview
•Identify technology alternatives
•Forecast the development
•Recommend
Kajikawa et al., TFSC (2008, 2009)
Shibata et al., Technovation (2008)
Sakata et al., TFSC (2012) ほか
DB構築
科学技術ビックデータ活用 世界の動き
8
学術産業技術俯瞰システム
[国外]• IBMワトソン・診断支援• DARPA ビッグメカニズム・癌治療• 清華大学 Aminer・学術情報検索• ワシントン大学 Semantic Scholar・学術情報抽出
[国内]• 厚労省医薬基盤研(NIBIOHN)・新薬発見• PRISM AI創薬
• 統数研・学術文献データ分析の新たな統計科学的アプローチ
• JST CREST・構造理解に基づく大規模文献情報からの知識発見
[国外]• ライデン大学・研究機関評価• 米国国立科学財団・政策のための科学
[国内]• NISTEP・サイエンスマップ
• 東京大学イノベーション政策研究センター・「学術産業技術俯瞰システム」
言語処理・機械学習アプローチ
ネットワーク分析アプローチ
[国内外での関心]• Elsevier主催のResearch intelligence の会議で招待講演: (2017/06)• MIT原子力科学工学専攻のセミナーで招待講演()2018/09)• STM国際出版社協会主催のGlobal voice of scholarly publishingで招待講演(2018/10)
• NHKスペシャルで特集「NHKスペシャル AIに聞いてみた どうすんのよ!?ニッポン第2回「働き方」(2018/03)で利用
https://www.nhk.or.jp/special/askai/network.html
学術情報をもとにした意思決定支援システム最新の知識の俯瞰〜萌芽予測
検索クエリ:
Topic=(例”Solar Cell")
書誌情報データベース
書誌情報入手
引用ネットワーク生成
最大連結成分に絞る
キーワード検索
1. Web of Science から取得した論文情報から、引用ネットワークを作成2. ネットワーククラスタリングを実行し、内容的に近い領域(クラスター)に自動分類3. クラスターの可視化(知識領域)、重要情報の抽出、ネットワーク指標の導出4. これらの情報をもとに将来数多く引用される萌芽論文を特定
研究分野の特定
引用=内容的関連性の意志表示との性格に着目して分析
Web of ScienceELSEVIER Scopus
PubMed
その他論文・特許データ
予測
萌芽論文
萌芽予測俯瞰分析
その他: 有望研究者特定、関連領域特定
大規模な知識の構造化手法
学術論文の「引用」という著者のボトムアップの意思表示の情報を活用。その意思表示を集約することで、知識領域を俯瞰的に理解。
(ナノカーボン:50万論文、サステナビリティ: 237万論文、超高齢化:7万論文)
論文引用・被引用
内容的に近い論文群のグループ化
各論文のトポロジカルな位置取り情報の生成(例えば、各種の中心性)
ハブ
クラスター
クラスター
他分野とのリンク
Copyright @ ICHIRO SAKATA The University of Tokyo
学術・産業技術俯瞰システムの構造
11
①システムへのログイン
④俯瞰分析
②データセットの作成/選択
⑦萌芽論文特定
※次ページ以降で詳説
書誌情報データのアップロード/ データセットを選択
アカウント情報の入力
③分析の実行
分析結果の表示
⑤ヒートマップ ⑥共著ネットワーク
分析方法の選択パラメータの入力
Global Knowledge Map of “Sustainability”
Note: 2.3 Million Papers from Web of Science (2017)Source: Sakata & Mori Lab, UTokyo
Soil Forest
超高齢化社会に関する世界の学術知(ジェロントロジー)
from 69,403 papers(1956-2008, connected component = 25,625 papers)
# Rank, Cluster name(Cluster size, Average years publication)
#1 身体的機能の低下(5,468 papers; 1998.8)
#2心情 & 社会ネットワーク(4,966; 1996.8)
#4 認知機能の低下(3,254; 1996.7)
#3 看護と介護(4,961; 1995.8)
#5 生活環境による影響
(1,305; 1984.6)
#6 老人学(962; 1991.3)
#7 エイジングのメカニズム(585; 1994.9)
#8 うつ
(547;1996.9)
Copyright @ ICHIRO SAKATA The University of Tokyo
俯瞰分析の例(太陽電池)
14
• 詳細なクラスタリングによりエマージングな7分野を特定• NEDOをはじめとした機関が着目。一部の分野では国内に主導的な研究機関も存在
ナノワイヤ太陽電池文科省「革新的エネルギー研究開発拠点形成事業」“FUTURE-PV Innovation”
理論的には75%の変換効率(東大先端研 岡田研究室)
ナノ結晶2005年にNEDOが着目(NEDO海外レポート NO.966)阪大(Prof. Fukuzumi)
ペロブスカイトを用いており、容易に大型化可能日本発( 桐蔭横浜大学 宮坂 )NIMS, NEDOなどが取り組み
実用化に向けたポリマー型太陽電池の安定性向上
Π電子系骨格による高い変換効率論文数4位(理化学研究所 瀧宮)
民間を中心に開発(ソーラーフロンティア社等)
Cluster1: Compounds
N of Papers: 6,863
Average Year: 2002.5
Cluster2: Organics
N of Papers: 6,799
Average Year: 2001.0
Cluster3: Silicon
N of Papers: 5,525
Average Year: 2000.4
Cluster4: Dye-sensitized
N of Papers: 4,142
Average Year: 2005.7
太陽電池のアカデミックランドスケープ クラスタ(方式)別の国別論文数、引用数に基づくアジア諸国のマッピング
アジアによる科学的キャッチアップ(太陽光)
Copyright @ ICHIRO SAKATA The University of Tokyo
ヒートマップ分析
16
縦横にクラスタ番号、色が言語的関係性の強さを表す
関係の強いクラスタの抽出、将来的な技術の応用先の探索
⑤-1ヒートマップ分析
1. 比較したいデータセットのIDを入力(同一データセット内での比較も可能)
2. showボタンを押す
例1)ソーラー電池のデータセットの各クラスタと、スマートシティの各クラスタを比較例2)ソーラー電池のデータセットの各クラスタ同士を比較し、クラスタ間の関連性の強さを分析
⑤-2ヒートマップ分析結果
クラスタ
(データセット
1)
クラスタ(データセット2)
ヒートマップ分析結果高齢社会の課題とロボット技術のつながり
(出典)Vitavin Ittipanuvate, Yuya kajikawa, Ichiro Sakata et al., Journal of Engineering and Technology Management vol.32 (2014), pp.160-184
Copyright @ ICHIRO SAKATA The University of Tokyo
萌芽分析:萌芽予測モデル
18
学習期間
t0 t0+3 t1
(=t0+4) t1+3
学習用特徴量
評価期間
1年間の
データ
モデル構築
対象期間
現在
t
学習用被引用データの確定
学習用特徴量データの確定
▲ ▲ ▲ 予測モデル評価の確定
「モデル構築対象期間」を中心にした前後のデータ「過去のデータによる学習」と「3年後※の実際の被引用数による検証」によってモデルを構築。 ※:3年は可変パラメータ。目的や対象分野によって適切な数字を設計する。
活用
構築したモデル を現在手元にある最新の論文データ に活用
学習用被引用数
Copyright @ ICHIRO SAKATA The University of Tokyo
萌芽分析:萌芽予測モデル
19
学習期間
t0 t0+3 t1
(=t0+4) t1+3
学習用特徴量
評価期間
1年間の
データ
モデル構築
対象期間
現在
t
学習用被引用データの確定
学習用特徴量データの確定
▲ ▲ ▲ 予測モデル評価の確定
「モデル構築対象期間」を中心にした前後のデータ「過去のデータによる学習」と「3年後※の実際の被引用数による検証」によってモデルを構築。 ※:3年は可変パラメータ。目的や対象分野によって適切な数字を設計する。
活用
構築したモデル を現在手元にある最新の論文データ に活用
学習用被引用数
2008 2012 2015 2018 e.g.
萌芽分析結果ソーラーセル領域(2012年発表論文)
クラスタ
論文名 雑誌 現被引用数
3 Recent advances in solution-processed
interfacial materials for efficient and stable
polymer solar cells
ENERGY &
ENVIRONMENTAL SCIENCE 320
3 Morphology characterization in organic
and hybrid solar cells
ENERGY &
ENVIRONMENTAL SCIENCE180
3 Recent progress and future aspects of
organic solar cells
PROGRESS IN
PHOTOVOLTAICS 68
3 Solid-state dye-sensitized and bulk
heterojunction solar cells using TiO2 and
ZnO nanostructures: recent progress and
new concepts at the borderline
POLYMER INTERNATIONAL
50
3 Rational Design of High Performance
Conjugated Polymers for Organic Solar
Cells
MACROMOLECULES
584
2 Photophysical and Electrochemical
Properties, and Molecular Structures of
Organic Dyes for Dye-Sensitized Solar Cells
CHEMPHYSCHEM
104
3 Small Molecule Organic Semiconductors on
the Move: Promises for Future Solar
Energy Technology
ANGEWANDTE CHEMIE-
INTERNATIONAL EDITION 529
2 Characterisation of electron transport and
charge recombination using temporally
resolved and frequency-domain techniques
for dye-sensitised solar cells
INTERNATIONAL REVIEWS
IN PHYSICAL CHEMISTRY35
3 Tandem polymer solar cells featuring a
spectrally matched low-bandgap polymer
NATURE PHOTONICS865
2 The Electrochemistry of Nanostructured
Titanium Dioxide Electrodes
CHEMPHYSCHEM36
データセットにおける上位5%内論文(正例)
#1. シリコン型高効率かつ安定したポリマー型太陽光発電における界面材料
色素増感系太陽光発電における、光物性、電気化学特性
最も研究が盛んなクラスタ「#1シリコン型」から、「#2.色素増感型」や「#3高分子・有
期型」へ注目が集まっていること示唆される。
#2. 色素増感型
#3. 高分子・有機型
(出典)H. Sasaki, T. Hara and I. Sakata, Identifying Promising Research Papers Related to Solar Cells Using a Machine Leaning Approach, Journal of Sustainable Development of Energy, Water and Environment Systems, 4(4), pp.418-429 (2016)
21
Learning vector representation of each node from network structure
2.5 million papers by Largivis (2016)
Graph Representation Learning Jure Leskovec
Vector representationInput for existing machine learning algorithms
Network (sparse adjacency matrix)Hard to be processed by computer
Large graph visualizationClustering, community detectionUsing representation of nodes in classification method such as K-meansLabel estimation, semi supervised learningEstimate the attribute of a node in the latent spaceLink predictionPredict links that may exist potentially or in the future
Improved tasks by network representation learning
Representation learning of large scale graphs in realistic time is proposed in DeepWalk (2014), and many subsequent methods have been proposed.
ネットワークの表現学習の導入(Network representation Learning)
NPLを用いた新たなトレンド抽出法
大規模引用ネットワークからの学術領域トレンド抽出と、引用予測の精度向上を目指す。
提案手法1)ネットワーク表現学習で得られた512次元の潜在空間上でネットワークの成長の方向性を特定2)各論文がカッティング・エッジ領域(その方向性の先端)かある度合いを指標化
例えばナノカーボン分野のCutting Edge領域にある論文は将来の引用が伸びる確率が高いことを確認
Cutting Edge領域の論文によく出てくるキーワードは、将来の論文でたくさん使われる傾向
(Source)K. Asatani, J. Mori, M. Ochi, I. Sakata, ”Detecting trends in academic research from a citation network using network representation learning”PLoS ONE 13(5) e0197260. (2018)
将来の引用数と IPYの関係
Growth Direction
latent vector
Nu
mb
er o
f pap
ers
[Degree of trend-following]
Share of top 10% papers
トレンドの先端にあるペーパーとトピックData: Paper of Nanocarbon published in October 2013 – December 2013
Predicted cutting edge paper and future citations
Material and technology:Nanocarbon networkGraphene nano sheetFingerprinting photoluminescenceGraphene electrodesGraphene-Rich catalystsgraphite oxide nanocomposites
Target and applicationLithium-ion batteriesSupercapacitorElectromagnetic absorptionLithium-O-2 Battery CathodesEnergy storage
データ分析の社会応用例
ホライゾン・スキャニング 成長・地域牽引企業の特定
予測と開発戦略の策定
Start-up Readinessの測定
技術コンバージェンス支援
#1Robo csfundamentals19,427papers,2008.5yearsKeywords:robot,system,control,based,model
#2Robotcontrolsystems14,112papers,2005.4yearsKeywords:manipulator,control,controller,force,joint
#3Surgey9,203papers,2011.4yearsKeywords:ssurgery,pa ent,laparoscopic,prostatectomy,cancer
#4Rehabilita on6,059papers,2009.6yearsKeywords:rehabilita on,stroke,motor,p ent,movement
#5AIapplica ons4,013papers,2005.1yearsKeywords:neuralnetwork,neural,schedule,fuzzy,network
#6AI&automa oninbio&chemistry3,178papers,2002.5yearsKeywords:protein,throughput,sample,highthroughput,automated
AcademicLandscapeofRobo cs&AIResearch
Ref. T. Kose et al., TFSC, 2018 in pressH. Nakamura et al., TFSC vol.94, 2015
Ref. T. Goji et al., PICMET 2018
Ref, N. Shibata et al.. TFSC vol.78, 2011H. Sasaki et al., JSDEWES vol.4(4), 2016K. Asatani et al., PLOS One vol.13, 2018
Ref. Y. Kajikawa et al., TFSC vol. 79, 2012
Ref, I. Sakata et al.. TFSC vol. 80 , 2013
今後の課題①:情報のマッシュアップ
学術ビックデータと特許データとのマッシュアップは、システム上で実現済み。他の公共的ビックデータとマッシュアップすることで、付加価値の高い知見を抽出できるポテンシャルがある。データの共用化や枠組みづくりが課題。
(例1)「企業情報」⇒成長力判定、地域中核企業の特定
(例2)「市場情報」、「社会課題認識」⇒サイエンスリンケージを高める戦術
今後の課題②:データサイエンスと社会科学との連携
Julia Lane and Stefano Bertuzzi, Science 331 (2011) 678-670.
今後の課題③デジタル化と知財・アクセス
デジタル化と知財
オープンアクセス
オープンデジタルツール
ORCID等のインフラ整備
データ事前共有、Preprint
オープンサイエンス、コモンズ