34
1 情情情情情情 情情 [email protected] @i2k 情情情情 情情情情情 情情情情 情情情情情情情 ・・・ 情情情情情情情情

情報の構造化@Linked Open Data連続講座(2014.6.2)

Embed Size (px)

Citation preview

Page 1: 情報の構造化@Linked Open Data連続講座(2014.6.2)

1

情報の構造化

大向 一輝[email protected] @i2k

リンクト・オープン・データ・イニシアティブ国立情報学研究所

Page 2: 情報の構造化@Linked Open Data連続講座(2014.6.2)

2

講義の構成( 1 )オープン

データから Linked Open Data へ

( 2 )情報の構造化

( 3 ) RDF 入門

( 4 )スキーマとURI

( 5 ) LOD の作り方・使い方

( 6 ) LOD システム実践紹介

LOD の枠組み全体を紹介

技術的な基礎知識

LOD に関わる個々の技術の紹介

実例の紹介

Page 3: 情報の構造化@Linked Open Data連続講座(2014.6.2)

3

オープンデータへの5つのステップ

どんなフォーマットでもよいからオープンライセンスでデータ公開 例: PDF, jpg

コンピュータが処理可能なフォーマットで公開例: xls, doc

オープンに利用できるフォーマットで公開 例: csv

RDF(と SPARQL)でデータ公開 例: RDFa, RDFストア

他へのリンクを入れたデータを公開

Page 4: 情報の構造化@Linked Open Data連続講座(2014.6.2)

4

あらまし• 情報の構造化とは• データモデル• シンタックス• セマンティクス• メタデータ

Page 5: 情報の構造化@Linked Open Data連続講座(2014.6.2)

5

情報の構造化

吾輩は猫である。名前はまだ無い。どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。この書生というのは時々我々を捕えて煮て食うという話である。…

Page 6: 情報の構造化@Linked Open Data連続講座(2014.6.2)

6

情報の構造化• 我輩=猫–名前=なし–出身地=薄暗いじめじめした所

• 吾輩→見る→人間• 人間=書生–特徴=人間中で一番獰悪な種族–特徴=猫を捕えて煮て食う

Page 7: 情報の構造化@Linked Open Data連続講座(2014.6.2)

7

情報の構造化• 人間は知的能力と知識・常識を使って

文章から構造を導き出している• コンピュータに同じことができる

か?–形態素解析・係り受け解析・・・

• あらかじめ構造化したデータを受け渡す–解釈のためのコストを下げる

Page 8: 情報の構造化@Linked Open Data連続講座(2014.6.2)

8

構造化の利点• 型にはめる–管理しやすい–探しやすい

• コンピュータ・ネットワークの活用–大量の情報を扱える–組織を超えた共有–新たな使い方

出典: ndl.go.jp

Page 9: 情報の構造化@Linked Open Data連続講座(2014.6.2)

9

構造化の観点• 情報の「かたち」–データモデル–シンタックス

• 情報の「なかみ」–セマンティクス

• 情報そのものの説明–メタデータ

Page 10: 情報の構造化@Linked Open Data連続講座(2014.6.2)

10

情報の「かたち」• テキスト

吾輩は猫である。名前はまだ無い。どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。…

• 箇条書き(ツリー)

• ローマ誕生– 落人伝説– 建国の王ロムルス

• 共和政ローマ– ローマ、共和国に• ケルト族来襲• 立ちあがるロー

マ• ひとまずの結び

Page 11: 情報の構造化@Linked Open Data連続講座(2014.6.2)

11

情報の「かたち」• 表形式(テーブル)• ネットワーク(グ

ラフ)

Page 12: 情報の構造化@Linked Open Data連続講座(2014.6.2)

12

データモデル• 情報の捉え方–1 次元的:テキスト–2 次元的:表形式–多次元的:ツリー・グラフ

• 表現力・柔軟性–表現力が高い=解釈コストが低い–テキスト<表形式<ツリー<グラフ

Page 13: 情報の構造化@Linked Open Data連続講座(2014.6.2)

13

データモデルと表現力ID タイトル 著者 掲載誌 発行年1 オープンデータと LOD 大向一輝 情報処理 2013

2 LOD による地域情報を活用した学術会議支援システム

松村冬子 , 加藤文彦 , 大向一輝 , 武田英明

人工知能学会全国大会

2013

ID タイトル 著者 1 著者 2 著者 3…1 オープンデータと LOD 大向一輝 なし なし

2 LOD による地域情報を活用した学術会議支援システム

松村冬子 加藤文彦 大向一輝

どう解釈する?

Page 14: 情報の構造化@Linked Open Data連続講座(2014.6.2)

14

人工知能学会全国大会武田英明大向一輝

データモデルと表現力オープンデータと

LOD

大向一輝 情報処理 2013

LOD による地域情報を活用した…

加藤文彦松村冬子

著者 掲載誌 発行年

著者 著者 著者 著者 掲載誌

Page 15: 情報の構造化@Linked Open Data連続講座(2014.6.2)

15

データモデルの選択• もとの情報はどんなかたちをしているか–単純な情報をあえて高度に表現する必要はないが…

• トレードオフ–表現力の高いデータモデルの作成は

「難しい」–次元を下げると解釈に必要な情報は失

われていく•コミュニケーションで補う必要あり

Page 16: 情報の構造化@Linked Open Data連続講座(2014.6.2)

16

表からグラフへ

Page 17: 情報の構造化@Linked Open Data連続講座(2014.6.2)

17

シンタックス• 特定のデータモデルを(コンピュータ向けに)表現

するためのルール– 順序・区切り記号・前書き・後書きなど

• CSV– 表形式のデータモデルをカンマ区切りテキストで

• XML– ツリー形式のデータモデルをタグの入れ子で

• JSON– ツリー形式のデータモデルを JavaScript 形式で

• RDF/XML– グラフ形式のデータモデルをタグの入れ子で

Page 18: 情報の構造化@Linked Open Data連続講座(2014.6.2)

18

情報の「なかみ」• 同音異義語と同義語–Apple は果物?コンピュータ会社?レコード会社?–価格と値段と Price は同じ意味?

• 概念と個物–吾輩は猫である→吾輩 is a 猫–吾輩は個物(インスタンス)–猫は概念(クラス)

Page 19: 情報の構造化@Linked Open Data連続講座(2014.6.2)

19

情報の「なかみ」• 階層関係–真核生物脊索動物門哺乳綱霊長目ヒト科ヒト族ヒト属ヒト

• 部分・全体–日本→北海道・東北・関東・北陸甲信越・東海・関西・中国四国・九州沖縄

• 関係–書生→捕えて煮て食う→猫

Page 20: 情報の構造化@Linked Open Data連続講座(2014.6.2)

20

セマンティクス• 意味を共有するためのルール–シンタックスが共有されていても解

釈が同じになるとは限らない–できれば統一的なかたちで–できればグローバルに一意な方法で–できれば誰でもいつでもどこでも

• 語彙の共有・標準化

Page 21: 情報の構造化@Linked Open Data連続講座(2014.6.2)

21

語彙の共有・標準化• グローバルな ID を持つ概念の体系• DBpedia– Wikipedia のエントリーを自動変換

• Wordnet– プリンストン大学のプロジェクト

• 各種オントロジー– コミュニティによる整備

Page 22: 情報の構造化@Linked Open Data連続講座(2014.6.2)

22

構造化のよしあし• 途中でルールを変えない!–ルールの変更を検知するのが大変–複数のルールに逐一対応するのが大変

• 「ネ申(かみ) Excel 」問題–人間のための構造化とコンピュータの

ための構造化の方向性が異なる• A4 一枚に収めるための努力が裏目に

出る例

Page 23: 情報の構造化@Linked Open Data連続講座(2014.6.2)

23

Page 24: 情報の構造化@Linked Open Data連続講座(2014.6.2)

24

コンピュータと「ネ申 Excel 」• 異なるデータが混ざっている–年度ごと・事業所規模ごと→別のデータに分ける

• 表記の省略–平成 18年度・ 19 ・ 20 ・ 21…→ ちゃんと書く

• 単位–千人・人→統一する・開く

• 平均は必要?

Page 25: 情報の構造化@Linked Open Data連続講座(2014.6.2)

25

情報そのものの説明• まとめて管理したい・検索したい–総合目録・データカタログサイト

• メタデータ– データに関するデータ– タイトル・作者・年月日…–最大公約数的な属性群とその値

Page 26: 情報の構造化@Linked Open Data連続講座(2014.6.2)

26

メタデータのための語彙• (文書の)タイトル・著者名・発行年月日– Dublin Core :主に図書館コミュニティ

• 美術品の所蔵館・展示館– CIDOC CRM :博物館・美術館

• プロフィール・知人関係– FOAF :ソーシャルネットワーク

• その他もろもろ– Schema.org :検索エンジン事業者– 共通語彙基盤

Page 27: 情報の構造化@Linked Open Data連続講座(2014.6.2)

27

Page 28: 情報の構造化@Linked Open Data連続講座(2014.6.2)

28

<rdf:Descriptionrdf:about="http://ci.nii.ac.jp/ncid/BB02488158#entity"><foaf:isPrimaryTopicOf

rdf:resource="http://ci.nii.ac.jp/ncid/BB02488158.rdf"/>

<dc:title> セマンティック Web プログラミング </dc:title>

<dc:title xml:lang="ja-hrkt"> セマンティック Web プログラミング

</dc:title><dcterms:alternative>Programming the semantic web</dcterms:alternative><dc:creator> トビー・セガラン著 ;

玉川竜司訳 </dc:creator><dc:publisher> オライリー・ジャパン </dc:publisher><dc:language>jpn</dc:language><dc:date>2010</dc:date>

Page 29: 情報の構造化@Linked Open Data連続講座(2014.6.2)

29

<foaf:topic rdf:resource="http://ci.nii.ac.jp/books/search?q=セマンティックウェブ " dc:title=" セマンティックウェ

ブ "/> <cinii:ncid>BB02488158</cinii:ncid> <dcterms:hasPart rdf:resource="urn:isbn:9784873114521"/></rdf:Description>

<rdf:Description rdf:about="http://ci.nii.ac.jp/ncid/BB02488158#entity"> <foaf:maker> <foaf:Person rdf:about="http://ci.nii.ac.jp/author/DA15839119"> <foaf:name> 大向 , 一輝 </foaf:name> <foaf:name xml:lang="ja-hrkt"> オオムカイ , イッキ </foaf:name> </foaf:Person> </foaf:maker></rdf:Description>

Page 30: 情報の構造化@Linked Open Data連続講座(2014.6.2)

30

Page 31: 情報の構造化@Linked Open Data連続講座(2014.6.2)

31

Page 32: 情報の構造化@Linked Open Data連続講座(2014.6.2)

32

<rdf:RDF> <dcat:Dataset rdf:about="http://www.data.go.jp/data/dataset/cas_08_ds_140327_00000001"> <owl:sameAs rdf:resource="urn:uuid:577bd189-cb27-4652-80cb-50822cb57c5c"></owl:sameAs> <dct:description></dct:description> <dcat:keyword> データカタログ </dcat:keyword> <dcat:keyword> メタデータ </dcat:keyword> <foaf:homepage rdf:resource="http://www.data.go.jp/data/dataset/cas_08_ds_140327_00000001"></foaf:homepage> <rdfs:label>cas_08_ds_140327_00000001</rdfs:label> <dct:identifier>cas_08_ds_140327_00000001</dct:identifier> <dct:title> メタデータ一覧 2014年 3月分 </dct:title> <dcat:distribution> <dcat:Distribution> <dcat:accessURL rdf:resource="http://www.data.go.jp/data/storage/f/2014-03-28T11%3A38%3A13.016Z/metadata20140327.csv"></dcat:accessURL> <dct:format> <dct:IMT> <rdf:value>CSV</rdf:value> <rdfs:label>CSV</rdfs:label> </dct:IMT> </dct:format> <dct:title> メタデータ一覧 2014年 3月分 </dct:title> </dcat:Distribution> </dcat:distribution> <dct:creator> <rdf:Description> <foaf:name>内閣官房 </foaf:name> </rdf:Description> </dct:creator> <dct:relation> <rdf:Description> <rdfs:label>frequency_of_update</rdfs:label> <rdf:value>随時 </rdf:value> </rdf:Description> </dct:relation> <dct:relation> <rdf:Description> <rdfs:label>publisher</rdfs:label> <rdf:value> 情報通信技術 (IT)総合戦略室 </rdf:value> </rdf:Description> </dct:relation> <dct:relation> <rdf:Description> <rdfs:label>release_day</rdfs:label> <rdf:value>2014-03-27</rdf:value> </rdf:Description> </dct:relation> </dcat:Dataset></rdf:RDF>

Page 33: 情報の構造化@Linked Open Data連続講座(2014.6.2)

33

まとめ• データの共有と再利用を促すためのルール– データモデル– シンタックス– セマンティクス– メタデータ

• LOD の位置付け– ウェブ上でのデータ共有・再利用のための最小構成

の技術群– HTTP+ URI+ RDF

• To be continued…

Page 34: 情報の構造化@Linked Open Data連続講座(2014.6.2)

34

今後の予定第 3回  6/9(月)▼ RDF入門(小出誠二)• RDF (Resource Description Framework) は,もともとはウェブ上に存在する資源 (resource) につ

いてのデータ ( メタデータ ) を記述するために定められたものですが,今日ではリンクト・オープンデータ (Linked Open Data, LOD) を理解して使いこなすうえで,必須のものとなっています.ひろく一般の RDF の初心者を対象に, RDF の基礎から始めてさらに実務に進む手引きとなるように,最近の RDF に関する進歩も取り入れつつ講義します.

第 4回  6/23(月)▼スキーマと URI(加藤文彦)• 再利用しやすいデータを作成して共有するためには,データの構造やデータの中で使われる語彙を共通にしたり,逆に違いを明確にしたりする必要があります. RDF においてそれらを実現する仕組みであるスキーマと URI について紹介します.

第 5回  6/26(木)▼ LODの作り方・使い方(松村冬子)• これまで学んできた LOD や RDF を実践的に作り,使う方法について講義します.日頃,デー

タ管理によく用いられる表形式のデータを無料ツールを使って LOD に変換する方法や,公開されている LOD から SPARQL と呼ばれる問合せ言語を使って,欲しいデータを引き出す方法について学んでいきます.

第 6回  7/7(月)▼ LODシステム実践紹介(小林巌生)• LOD を採用したシステム設計について実際の二つの例をもとに解説します。ヨコハマ・アート・

LOD では、公益財団法人横浜市芸術文化振興財団が管理する複数のウェブシステムを LOD で統合し、データの共有を実現しています。 SPARQLエンドポイントを活用したアプリの開発などデータの応用例も広がっています。かなざわ育なび .net では市役所内の複数の原課によってそれぞれ管理されていたデータを LOD によって統合して子育て世帯向けの情報提供サービスを実現しました。また、地域での LOD の実践について今後の展望についても紹介します。