「Linked dataとLinked Open Data」アート・ドキュメンテーション学会

Preview:

DESCRIPTION

アート・ドキュメンテーション学会、デジタルアーカイブサロン発表資料

Citation preview

Linked DataとLinked Open Data基本概念とこれからの情報流通

2013年3月8日

アート・ドキュメンテーション学会 - デジタルアーカイブサロン

嘉村哲郎 (KAMURA,Tetsuro)

1. Open Data

• オープンデータとは• 公共情報のオープンデータ

2. Linked Data とLinked Open Data(LOD)

• LODの基本概念

• RDFデータの特徴

3. 文化・芸術におけるLODの利用

2

1.Open Dataとは

4

ウェブの発明者,ティム・バーナーズ=リー氏による呼びかけ

2009年,TEDにおけるプレゼンテーション

政府が持つデータ,科学研究のデータ,コミュニティのデータ等・・・生のデータを今すぐWebに公開しよう!!

日本語字幕付き動画: http://goo.gl/xNQkp

Raw Data NowA year of Open Data

Open Data Definitionによる定義の要約

オープンデータとは,インターネット上に公開されたデータを誰もが制約なく自由に利用でき,かつ再配布できる状態にあるデータのことをいう

オープンデータとして扱われる情報

「非営利目的での利用に限る」や「教育利用目的に限定」などの制約がない.

5

オープンなデータを組み合わせてコンテンツを作り,それを公開することができる.

文化・芸術情報学術情報公共情報

http://opendefinition.org/

欧州におけるオープンデータの政策

6

出典: NTT Data「電子行政オープンデータ戦略」の決定と今後の課題http://e-public.nttdata.co.jp/topics_detail2_prev/id=711

2003年に「公共セクターの情報の利活用に関する指令」が制定(EU指令2003/98/EC)

“加盟国は、公的機関が保有する情報の再利用が可能な場合には、商業・非商業

の目的を問わずこれらの情報が再利用可能であることを確保しなければならない”

国際大学GLOCOM 公開シンポジウム「オープンデータが拓く未来」2012/5/31,「欧州におけるオープンデータ政策の現状」より引用.

つまり・・・

1.「公開を基本」とすること

2.「再利用を可能」とすること,その場合は「商業・非商業の目的を問わない」こと

現在は2003年の指令の改訂作業が進められている.改訂では,図書館,博物館等の情報へ

の対象が拡大,限界コストでの提供を原則など,EU内での取り組み水準を合わせる案が示

されている.

7

米国の例

■ カテゴリ数 47種類

教育,観光,ビジネス,経済,健康等

■ 生データ公開数 4751セット

■ アプリケーション数 1297個

■データ形式は4種類

CSV,XML,KML,SHP

「家庭の医学」のようなアプリ 米国の公営バスアプリ

欧米の公共情報のオープンデータ

日本の動き(数年前)

行政情報の公開・提供

統計情報、測定情報、防災情報等について2次利用が可能な標準的な形式での情報提供を推進する必要がある。

参考: 電子行政推進に関する基本方針に係る提言(平成 22 年5月高度情報通信ネットワーク社会推進戦略本部決定)http://www.kantei.go.jp/jp/singi/it2/denshigyousei/housin.pdf

8

9

各種統計情報は政府から

公開されてはいるが・・・

10

1つのエクセルシートに2つの表がはいっていたり・・・

“図形”で追加された記号類

エクセル,PDF形式のデータが主流

情報は公開されているが

記述方法がバラバラである→ データとして使うために前処理が必要 = 手間がかかる.

形式が統一されていない→専用ソフトがないと開けない・見られない = 簡単には使えない

11

現在はOpen DataならぬOpen Informationである

12

DBシステム,エクセル,PDF, HTML, 画像など = 文書として使えるWeb上の情報

情報公開のため,ある形式に変換された情報でデータとしてはそのまま使えない(加工が必要)

現在のWeb = 情報のWeb

12

DBシステム,エクセル,PDF, HTML, 画像など = 文書として使えるWeb上の情報

情報公開のため,ある形式に変換された情報でデータとしてはそのまま使えない(加工が必要)

例えば,展覧会情報を調べてリスト化したいと思ったとき

分散する情報サイトやギャラリー、ミュージアムのWebサイトにアクセス

検索

検索

検索

検索コピー&ペースト EXCELへのデータ

貼り付け作業

コピー&ペースト

情報の検索とデータ内容のコピー&ペースト,集計の作業

○×大学DB

○×県XLS

美術館PDF

現在のWeb = 情報のWeb

情報を探す手間情報を集める手間

情報を整理(データ化)する手間

情報を探す手間情報を集める手間

情報を整理(データ化)する手間

もっと柔軟かつスマートに情報を扱えないものか?

2.Linked DataLinked Open Data

Linked DataとLinked Open Data

15

Linked Data標準化形式で作られたデータ。ただし、何らかの利用制限がある

(not Open Data).

Linked Open Data

標準化形式で作られたデータをオープンなライセンスで公開している

 (例えば,Creative Commons License 0、Public Domainを適用)

16

これからのWeb = データとして使えるWeb上の情報

Web of Data(データのWeb)

・コンピュータがデータファイルの内容を理解できる・リンクでつながるWeb上のデータから情報を検索・抽出できる.・抽出結果をそのままソフトウェア上で扱うことができる

検索クエリ

自動的に結果を整理

直接プログラムで利用

データのWeb

特徴

Linked Data / Linked Open Dataは、コンピュータが内容を理解できる

標準化されたデータ形式

18

赤枠の内容は,人間がみれば,いつ・どこで

何が行われているかという内容を理解できる

現在主流のWebのデータ

グラフィカルに見える部分の裏側は・・

19

<dl class="mtx”>

<dt><a href="facilities/sogakudou/info/h24_morning_14_01.html">モーニングコンサート9</a></dt>

<dd>会期:9月12日(水)</dd>

<dd>会場:奏楽堂</dd>

</dl>

情報を表示するためのHTMLという命令要素(<dd>や<a href>)

と人が入力した要素(会期:9月12日(水))で構成される

コンピュータは<dd>という要素を理解できても,

<dd>に記述されている情報の意味までは理解できない

→どの文字列が「会期」「会場」「日時」なのかコンピュータは理解できない.

20

コンピュータに内容を解釈させるための情報「メタデータ」

データが何を表すか意味を与えるデータ

メタデータ(属性) データ(値)品名 イエモン価格 2376

内容量 500

本数 24

メタデータとデータは属性と属性の値とも言える

メタデータがないと,人名なのか,商品名なのかデータの意味がわからない.

(数字も同様になにをあらわす数字なのか分からない)

20

コンピュータに内容を解釈させるための情報「メタデータ」

データが何を表すか意味を与えるデータ

メタデータ(属性) データ(値)品名 イエモン価格 2376

内容量 500

本数 24

メタデータとデータは属性と属性の値とも言える

メタデータがないと,人名なのか,商品名なのかデータの意味がわからない.

(数字も同様になにをあらわす数字なのか分からない)

21

Linked Data / Linked Open Dataでは、「メタデータ(属性)」と「データ(値)」をセットで公開する

あらゆる事柄をメタデータとデータのセットで考えてデータを作る

22

「国立西洋美術館」という事柄を

考えた場合に捉えられる「属性」は?事柄の「属性」に対する「値」(事実)

これらの内容をRDFと呼ばれるデータ形式でつくるRDF:Resource Description Framework(標準化データ形式)

国立西洋美術館

メタデータ(属性) データ(値)名称 国立西洋美術館博物館種類 美術博物館住所 東京都台東区上野公園7-7電話番号 03-5777-8600地図情報(緯度) 35.71556

地図情報(経度) 139.77583

説明 本館設計はル・コルビュジエ。ロダンの彫刻53点をはじめ・・・

所蔵資料 作品1所蔵資料 作品2

<rdf:Description rdf:about="http://lod.ac/ref/928"> <rda2:affiliation xml:lang="ja">近代美術館</rda2:affiliation> <lodac:area xml:lang="ja">13関東</lodac:area> <lodac:broadCategory xml:lang="ja">展覧会・美術館・博物館・画廊</lodac:broadCategory> <lodac:categorySymbol>t</lodac:categorySymbol> <lodac:currentLocationName xml:lang="ja">東京</lodac:currentLocationName> <lodac:era xml:lang="ja">きんげんだい</lodac:era> <lodac:estimatedStartYear>1959</lodac:estimatedStartYear> <lodac:middleCategory xml:lang="ja">美術館</lodac:middleCategory> <lodac:narrowCategory xml:lang="ja">近代美術館</lodac:narrowCategory> <lodac:symbol>QDGX22</lodac:symbol> <lodac:type xml:lang="ja">芸術・美術全般</lodac:type> <crm:P133_is_separated_from xml:lang="ja">現代</crm:P133_is_separated_from> <dc:created>1959.6</dc:created> <dc:description xml:lang="ja">1959年、フランス政府管理下にあった松方幸次郎の滞欧収集作品、松方コレクションが日本政府に寄贈返還され、これを収容展示するために設立。本館設計はル・コルビュジエ。ロダンの彫刻53点をはじめクールベ、モネ、ルノワール、ゴーギャンを中心にした19世紀フランス絵画の逸品と創設後の購入、寄贈による所蔵作品の増加でルネサンス以降今世紀中葉に至る西欧絵画の歴史を通観できる態勢を強化。</dc:description> <dc:identifier>jart:6krsy001</dc:identifier> <dc:source rdf:resource="http://www.tulips.tsukuba.ac.jp/jart/mokuji/index.html"/> <dc:title xml:lang="en">The National Museum of Western Art</dc:title> <dc:title xml:lang="ja-hrkt">こくりつせいようびじゅつかん</dc:title> <dc:title xml:lang="ja">国立西洋美術館</dc:title> <rdfs:label xml:lang="ja">国立西洋美術館</rdfs:label> <rdfs:seeAlso rdf:resource="http://www.nmwa.go.jp/index-j.html"/> <skos:altLabel xml:lang="en">The National Museum of Western Art</skos:altLabel> <skos:prefLabel xml:lang="ja">国立西洋美術館</skos:prefLabel> </rdf:Description>

RDFデータにはインターネットでアクセスできる識別子を付けるhttp://lod.ac/id/928

RDFデータには、関連する別のRDFデータへのリンクを含める

<lodac:isProviderOf rdf:resource="http://lod.ac/id/53009"/><lodac:isProviderOf rdf:resource="http://lod.ac/id/56613"/><lodac:isProviderOf rdf:resource="http://lod.ac/id/56614"/><lodac:isProviderOf rdf:resource="http://lod.ac/id/56615"/>

国立西洋美術館の「所蔵作品」情報は関連データとして、リンクを記述する

所蔵館と作品の関係isPoviderOf

提供する作品資料は

has_current_location現在の所蔵場所は

dc:title国立西洋美術館

dc:title手袋:「休息」

主語/目的語 主語/目的語

述語

RDFデータのアドレスhttp://lod.ac/id/928

RDFデータのアドレスhttp://lod.ac/id/53009

24

作品情報のRDFデータは、作者や形状、材質等の事柄を含むデータ。

RDFデータは生のデータ(RAW Data)

25

生のデータ = 加工次第で見せ方も変えられる

コンピュータが処理するデータ 人間がみるデータ

LODAC Project- Museumデータより

データベース&API実装・表示

APIは公開するサイトごとに仕様が異なる → 開発者はAPIを理解する手間が掛かる

サイトのAPI仕様を理解

APIの仕様に合わせてデータ抽出・加工

LODはインターネット上で直接データを操作できる

http://muse.muse/123

http://muse.muse/123のdc:titleの値を抽出して表示しなさい

データの整形・表示dc:titleの値を表形式で表示

SPARQLクエリは標準化された問合わせ言語→ 他のLODに流用可

従来のWeb上のデータ利用方法(API)

SPARQL Endpointを用いたRDFデータの利用 複数のRDFデータから重複をカウントして抽出することも可能

3.文化・芸術分野におけるLODの利用

英国BBCにおけるLODの取り組み

28

英国BBCではスポーツ選手やアーティスト,

動物などTV,ラジオなどに関する番組や

アーティストの情報をRDFデータで扱っている.

また,LODとして使える情報は外部の情報を

引用してサイトを構築している

WikipediaをLOD化したDBpediaから

アーティストのプロフィールを引用.

音楽の関連情報は外部サイトの情報

MusicBrainzから引用

ヨーロッパの博物館情報

29

Europeanaプロジェクト,EUの博物館・図書館・文書館が連携してデジタルデータを

横断的に検索できる仕組みを構築しているプロジェクト.

2011年末から資料のメタデータをCreative Commons Licence 0で提供.

画像や映像などもCC0で公開することを目標にしている

Yale Centre for British ART

30

メタデータから高精細画像までLODとして公開(CC0).

その他の文化系でのLOD取り組み例

• アムステルダム国立美術館(オランダ)試験的にメタデータをLODで公開.将来的にデジタル画像などもオープンデータにできるよう準備を進めている.http://semanticweb.cs.vu.nl/lod/am/

• 大英博物館(英国)Linked Open Dataとして公開.オープンライセンスに関する注釈もhttp://collection.britishmuseum.org/Licensing

• Gothenburg Museum(スウェーデン)美術館のコレクションデータをRDF化し,Linked Dataとして利用

• 博物館情報と観光情報アプリ”Travel Sampo”(フィンランド)RDF化した博物館資料と地域情報をモバイル端末で組み合わせ,観光者向け旅行ガイドアプリを作成http://www.seco.tkk.fi/applications/travelsampo/

31

Yokohama Art Spot

‣ 博物館情報と横浜の地域情報のLODを

連携したWebアプリケーション

‣ 横浜市内のアート関連情報

- 施設情報

- イベント情報

- 収蔵品情報(一部の施設のみ)

- Q&A情報

LODAC Museum × ヨコハマ・アートLOD × PinQA博物館情報 スポット情報地域情報

NTTレゾナントが運営するスポット情報まとめサービス

33

作 品

所 蔵 館アーティスト

アーティスト 施 設

イベント

質 問

回 答ユーザ

SPARQL

スポット情報RDF イベント情報RDF 施設情報RDF

PinQA ヨコハマ・アートLOD LODAC Museum

JSON SPARQL

JSONXML

SPARQL

ユーザ Yokohama Art Spot情報の取得 & 提示

‣異なるLODのリソース同士のリンク‣緯度・経度の範囲

リンク

3つの異なる情報源のLODを組み合わせて利用

生物多様性情報と博物館情報のLOD

34

LODAC&Species�

福井県鯖江市の観光案内アプリケーション

35

‣ 鯖江市の公共情報、文化施設、ランドマークなどの情報をRDFデータ化

鯖江市だけでなく、外部のRDFデータと関連づけて情報を提示

函館の歴史資料を用いた市民に新たな発見がある写真検索システム

36※ LODチャレンジ2012 アイディア賞

所蔵館

公共・地域・文化・芸術・学術... あらゆる情報がリンクすることで

Web上に分散する関連情報をより使いやすくなる

同一人物

芸術・文化情報のLODにより期待される世界

アーカイブズ

作者

作品

作品

作者

所蔵館

ICOM CIDOC2012でミュージアム情報の公開方針として決定

39

CIDOC-­‐ICOM  recommendation  on  Linked  Open  Data  for  museums2013年のICOM総会で提出予定

これからの情報流通のかたち

1.共通のデータ形式(RDF)に従ってデータを作る

2.データにはインターネットでアクセスできるアドレス(URI)を付ける <情報をデータとして扱うために,あらゆる事柄に対してアドレスが付けられる>

3.データには,内容に関連する別のデータへのリンク情報が含める

4.データにアクセスした際は,人・コンピュータ共に内容が解釈できる

40

情報を共有データ(オープンデータ)として利用するために

これからの情報流通のかたち

1.共通のデータ形式(RDF)に従ってデータを作る

2.データにはインターネットでアクセスできるアドレス(URI)を付ける <情報をデータとして扱うために,あらゆる事柄に対してアドレスが付けられる>

3.データには,内容に関連する別のデータへのリンク情報が含める

4.データにアクセスした際は,人・コンピュータ共に内容が解釈できる

40

はじめからすべてがオープンである必要はなく、 オープンにできないデータはLinked Dataとして作る→ オープンにできるタイミングにLODとして公開する

情報を共有データ(オープンデータ)として利用するために

データ共有への5つのステップ

41

データ共有への5つのステップ

41

どんな形式でもよいのでオープンライセンスで公開する 例:PDF, jpg

データ共有への5つのステップ

41

どんな形式でもよいのでオープンライセンスで公開する 例:PDF, jpg

コンピュータが処理可能な形式で公開 例:xlsx, doc

データ共有への5つのステップ

41

どんな形式でもよいのでオープンライセンスで公開する 例:PDF, jpg

コンピュータが処理可能な形式で公開 例:xlsx, doc

オープンに利用できる形式で公開 例:csv, tsv, json

データ共有への5つのステップ

41

どんな形式でもよいのでオープンライセンスで公開する 例:PDF, jpg

コンピュータが処理可能な形式で公開 例:xlsx, doc

オープンに利用できる形式で公開 例:csv, tsv, json

URIを含めたRDF形式で公開 例:RDF, SPARQL Endpoint

データ共有への5つのステップ

41

どんな形式でもよいのでオープンライセンスで公開する 例:PDF, jpg

コンピュータが処理可能な形式で公開 例:xlsx, doc

オープンに利用できる形式で公開 例:csv, tsv, json

URIを含めたRDF形式で公開 例:RDF, SPARQL Endpoint

他のRDFデータへのリンクを含めたオープンなライセンスのデータを公開

あらゆる情報はネットワーク上で

共有(Link, Share)され,自由(Open)に使えることで

新たな情報・価値(Information, Data)を生み出す時代へ

ウェブの発展に貢献します。

ご静聴ありがとうございました

kamura@linkedopendata.jp

Recommended