DBpedia Japanese
加藤文彦第5回LinkedData勉強会, 2012-07-24
http://ja.dbpedia.org
http://ja.dbpedia.org/resource/東京
経緯
• 2012-05-09 URI版公開
• 2012-06-30 IRI版公開
• xx.dbpedia.orgは今後IRIに移行
• URI <-> IRIはowl:sameAs ?
http://wiki.dbpedia.org/Internationalization/Chapters
http://ja.dbpedia.org/resource/東京都
http://ja.dbpedia.org/page/東京都
http://ja.dbpedia.org/data/東京都
"東京都"のIRIHTML表現
データ表現
DBpediaのIRI設計
cf. http://www.w3.org/TR/cooluris/
http://ja.dbpedia.org/resource/東京都
http://ja.dbpedia.org/page/東京都
http://ja.dbpedia.org/data/東京都
"東京都"のIRIHTML表現
データ表現
% curl -IH 'Accept: text/html' http://ja.dbpedia.org/resource/東京都HTTP/1.1 303 See OtherServer: Virtuoso/06.01.3127 (Linux) x86_64-pc-linux-gnu Connection: closeContent-Type: text/html; charset=UTF-8Date: Fri, 20 Jul 2012 06:24:29 GMTAccept-Ranges: bytesLink: <http://mementoarchive.lanl.gov/dbpedia/timegate/http://ja.dbpedia.org/resource/東京都>; rel="timegate"Location: http://ja.dbpedia.org/page/東京都Content-Length: 0
http://ja.dbpedia.org/resource/東京都
http://ja.dbpedia.org/page/東京都
http://ja.dbpedia.org/data/東京都
"東京都"のIRIHTML表現
データ表現
% curl -IH 'Accept: text/n3' http://ja.dbpedia.org/resource/東京 HTTP/1.1 303 See OtherServer: Virtuoso/06.01.3127 (Linux) x86_64-pc-linux-gnu Connection: closeDate: Fri, 20 Jul 2012 06:37:56 GMTAccept-Ranges: bytesTCN: choiceVary: negotiate,acceptContent-Location: /data/東京都.n3Content-Type: text/n3; qs=0.8Link: <http://mementoarchive.lanl.gov/dbpedia/timegate/http://ja.dbpedia.org/resource/東京都>; rel="timegate"Location: http://ja.dbpedia.org/data/東京都.n3Content-Length: 0
SELECT DISTINCT *WHERE { <http://ja.dbpedia.org/resource/東京都> ?p ?o .}
東京都のデータ
SELECT DISTINCT ?label ?birthYearwhere { ?s <http://ja.dbpedia.org/property/生日> 1 ; <http://ja.dbpedia.org/property/生月> 1 ; <http://ja.dbpedia.org/property/生年> ?birthYear ; rdfs:label ?label .}ORDER BY ?birthYear
生月日が1月1日
SELECT DISTINCT ?mascot ?nameWHERE { ?areamascots skos:broader <http://ja.dbpedia.org/resource/Category:地域限定のマスコット> ; rdfs:label ?areaname . ?mascot dbpedia-owl:wikiPageWikiLink ?areamascots ; rdfs:label ?name.}
地域限定マスコット
既知の問題• regexで日本語使うときには"i"が必要
• Virtuosoのバグと言っていいかも
SELECT DISTINCT *WHERE { <http://ja.dbpedia.org/resource/東京都> ?p ?o . FILTER regex(str(?o), "東京", "i")}
DBpediaの処理
ja.dbpedia.org
Wikipedia Dump
データ抽出
データインポート
DBpedia Extraction Framework
mappings.dbpedia.org
DBpedia Extraction Framework
• 言語: Scala
• WikipediaダンプからRDFデータ抽出
• 主にInfoboxから
• 本文概要や画像等も
• DBpedia Mappings
• http://wiki.dbpedia.org/Documentation
ja.dbpedia.org
•サーバ: Virtuoso
• SPARQL Endpoint•拡張パッケージ: dbpedia_dav.vad
•ウェブサイト
• content-negotiation
VirtuosoのIRI処理
•まともになったのが6.1.4以降らしい
•現在develop/6 branchを使用している
•まだ不具合多そう
既知のIRIバグ• /pageが色々とおかしい...
• プロパティのリンク
• head内のリンク
• div.footer内のリンク
• dbpedia_dav.vadのバグかどうかまだわかっていない
DBpedia Mappings• 語彙へのマッピング
• 項目名そのままでは表記揺れ,多言語横断,単語間関係等の問題
• Wikiで誰でも編集可
• DBpedia Ontology Schema
• クラス,プロパティ,データ型の定義
• http://mappings.dbpedia.org/server/ontology/
• DBpedia infobox/table Mappings
• テンプレートをクラスに
• テンプレート内の項目名をプロパティに
マッピングのはじめ方1. Mappings Wikiにアカウント作成
• http://mappings.dbpedia.org/index.php/Main_Page
2. dbpedia-discussionリストに登録
• https://lists.sourceforge.net/lists/listinfo/dbpedia-discussion
3. dbpedia-discussion にマッピング権限を要求
http://mappings.dbpedia.org/index.php/Mapping_ja
まとめ
•データ使って下さい
•協力者歓迎
•マッピング作業者
•Virtuosoハッカー