60
連或不連,是個問題 To link or not to link that’s a question 鄧東波 Dongpo Deng [email protected]

20141018_OD_meetup#3

Embed Size (px)

DESCRIPTION

Open Data Meetup#3 Taiwan

Citation preview

Page 1: 20141018_OD_meetup#3

連或不連,是⼀一個問題 To link or not to link that’s a question

鄧東波 !

Dongpo Deng [email protected]

Page 2: 20141018_OD_meetup#3

開放資料 (Open Data)

沒有技術和法律上障礙的資料

Courtesy from http://www.wired.co.uk/news/silicon-europe?page=14

Page 3: 20141018_OD_meetup#3

開放資料是...

• 使⽤用「開放標準」和「⾮非專屬的資料格式」讓資料能不受技術限制⽽而流通

• 使⽤用「公眾領域」或「開放授權」條款釋出資料,使資料的使⽤用不因法律或智慧財產權限制,進⽽而資料可無償地被⾃自由的散布、再製和修改

Page 4: 20141018_OD_meetup#3

開放資料的5顆星

• 這五顆星的等級是以資料格式,及其可取得的⽅方式來分級

• 所有的開放資料顆星等必先滿⾜足第⼀一顆星的開放資料,也就是以「開放授權」公開釋出

http://5stardata.info/tw/

Page 5: 20141018_OD_meetup#3

以「紫外線測站」為例

Page 6: 20141018_OD_meetup#3

雖然是⾮非結構化資料格式,如圖⽚片,將資料放上網路,讓所有⼈人都可以取得,並附上開放的授權⽅方式,就是⼀一星級「開放資料」

Page 7: 20141018_OD_meetup#3

雖然是結構化資料,但資料格式是專屬格式,如MS EXCEL的XLSX,但資料放上網路,讓所有⼈人都可以取得,並附上開放的授權⽅方式,就是⼆二星級的開放資料

Page 8: 20141018_OD_meetup#3

資料格式為⾮非專屬格式,如CSV,不需要依靠特定軟體或⼯工具來處理,以致於許多依照標準所開發的開放資料平台,很容易就可以處理這樣的資料,就是三星級的開放資料

Page 9: 20141018_OD_meetup#3

資料格式為⾮非專屬格式,如CSV,不需要依靠特定軟體或⼯工具來處理,以致於許多依照標準所開發的開放資料平台,很容易就可以處理這樣的資料,就是三星級的開放資料

Page 10: 20141018_OD_meetup#3

資料格式為⾮非專屬格式,如CSV,不需要依靠特定軟體或⼯工具來處理,以致於許多依照標準所開發的開放資料平台,很容易就可以處理這樣的資料,就是三星級的開放資料

Page 11: 20141018_OD_meetup#3

將資料項⺫⽬目以URI⽅方式分享於網絡之中,最普遍的做法是將資料以「資源描述架構」(Resource Description Framework, RDF) 編寫,就是四星級的開放資料

Page 12: 20141018_OD_meetup#3

五顆星的開放資料: ⾃自⼰己能夠被連結,也要連結別⼈人

Image courtesy from http://www.ipvsecurity.com/eng/index.php/56-policies/case-studies/37-sed-ut-perspiciatis-unde-omnis-iste-natus-error-sitem

Page 13: 20141018_OD_meetup#3

紫外線測站的知識本體(ontology)

• 建⽴立知識本體 • 定義語彙,清楚表達資料,使資料能夠相互連結

Page 14: 20141018_OD_meetup#3

根據知識本體轉成RDF

Page 15: 20141018_OD_meetup#3

因為資料是以URI⽅方式分享於網絡之中,因⽽而可以將描述相同的實體的URI相互串連,也就成為「連結開放資料」(Linked Open Data, LOD),就是五星級的開放資料!!

Page 16: 20141018_OD_meetup#3

連結資料(Linked Data)

• Tim Berners-Lee的連結資料的原則 1. 使⽤用URI做為事物的名稱; 2. 使⽤用HTTP URI ,因此⼈人們可以

查看這些名稱; 3. 當有⼈人查看⼀一個URI時,利⽤用標

準(如RDF, SPARQL)來提供有⽤用的資訊;

4. 包含連結到另⼀一個URI的資訊,使他們可以發現更多事物。

Page 17: 20141018_OD_meetup#3

Linked Open Data Cloud (9/2008)

Page 18: 20141018_OD_meetup#3

Linked Open Data Cloud (7/2009)

Page 19: 20141018_OD_meetup#3

Linked Open Data Cloud (9/2010)

Page 20: 20141018_OD_meetup#3

Linked Open Data Cloud (9/2011)

LODE-Taiwan Biodiversity Dataset

Page 21: 20141018_OD_meetup#3

LOD cloud (2014.4)

Page 22: 20141018_OD_meetup#3

LOD cloud (2014.4)

Page 23: 20141018_OD_meetup#3

為什麼要連結資料?• 結構化資料,使資料不但⼈人

可理解,機器也可以讀懂

• 在語意層級的資料整合

• 藉由連結資料提供更多資料,並可能找到更多知識

• 連結資料服務是⼀一個穩定的開放資料介接⽅方式

• Error 404

Page 24: 20141018_OD_meetup#3

規格化• 區分與清理出可以連結的資料

• 分辨出資料中是「概念」成份,和這些概念的關係

• 這些概念在知識領域中的解釋 • URI 設計

• BaseURI http://geo.lod.tw • TBoxURIs http://geo.lod.tw/ontology/

{class|property} • ABoxURIs

http://geo.lod.tw/resource/Name/公館

規格化

模式化

轉換與連結

發佈

使⽤用

Page 25: 20141018_OD_meetup#3

模式化• 根據上⼀一步所區分的概念及其關係,建⽴立

知識本體(Ontologies)

• ⼀一組可分享的觀念之具體規格化 • 要被其它資料連結,需使⽤用標準語彙,

或已存在的語彙,以清楚表達資料內涵,沒有,再⾃自⾏行定義

• ⽤用OWL或RDFs來表達 • 多數⼈人⽤用Protege編寫

規格化

模式化

轉換與連結

發佈

使⽤用

Page 26: 20141018_OD_meetup#3

轉檔與連結• 要連到其它資料,要清楚資料的脈

絡關係,以找到可以連結的資料 • 基本上要梳理資料脈絡關係,可由

三個⼤大⽅方向著⼿手,資料的時間特性、資料的空間特性、和資料的主題

• ⼯工具 • Silk • http://wifo5-03.informatik.uni-mannheim.de/bizer/silk/

• LIME • http://aksw.org/Projects/LIMES.html

規格化

模式化

轉換與連結

發佈

使⽤用

Page 27: 20141018_OD_meetup#3

轉檔與連結• 轉檔⼯工具 • CSV and spreadsheets

• RDF extension of Google Refine, XLWrap, RDF123, NOR2O

• RDB

• D2R Server, ODEMapster, W3C RDB2RDF WG – R2RML

• XML

• GRDDL, ReDeFer

規格化

模式化

轉換與連結

發佈

使⽤用

Page 28: 20141018_OD_meetup#3

轉檔與連結

• 檢查錯誤 • http上的問題,可及性 (accessibility)

和反連性 (derefencability)

• namespace和vocabulary不⼀一致 • 對映錯誤,同⼀一個名字在資料集可

能有好幾個

規格化

模式化

轉換與連結

發佈

使⽤用

Page 29: 20141018_OD_meetup#3

發佈

• RDF stores and SPARQL endpoints

• Jena, Virtuoso, Sesame,4Store, OWLIM, BBN Parliament

• linked-data front-end services

• Pubby, TalisPlatform, Fuseki, D2RQ

規格化

模式化

轉換與連結

發佈

使⽤用

Page 30: 20141018_OD_meetup#3

發佈規格化

模式化

轉換與連結

發佈

使⽤用

MySQLRDB

D2R Pubby

VirtuosoRDF store

Web

HTML RDF

Page 31: 20141018_OD_meetup#3

利⽤用規格化

模式化

轉換與連結

出版

利⽤用

RelFinder

Page 32: 20141018_OD_meetup#3

⽤用[開放的]台灣地名資料 !

講個秘訣

Page 33: 20141018_OD_meetup#3
Page 34: 20141018_OD_meetup#3

處理台灣地名之⺫⽬目的• 地名的再使⽤用率⾼高、被連結率也⾼高

• 地名語意常是模糊不清,連結資料適合來處理

• 台灣多族群、多語⾔言、多時期,地名演變有⽂文化和歷史意義

• ⼀一地多名、⼀一名多地

• 定常性的地名服務做為網路世界中⽂文化累積的接⼝口

• 地名做為「控制語彙」,⽤用在CKAN中管理其它資料

Page 35: 20141018_OD_meetup#3

資料的限制• 地名資料欄位

• 地名名稱、漢語拼⾳音、通⽤用拼⾳音、所屬村⾥里、所屬鄉鎮市區、所屬縣市、地名別稱、地名意義、地名年代時間、地名類型、地圖坐標、語⾔言別、命名族群、相關位置與⾯面積描述、地名沿⾰革與⽂文獻歷史簡述、地名相關事項訪談內容、普查使⽤用之地圖與⽂文獻

Page 36: 20141018_OD_meetup#3

內容缺漏

• 收集40,415筆地名資料, 含舊地名

• 只有4,821筆地名有x,y 座標, 且座標系統為TM2

• 13,615筆地名有開始時間, 8,153筆有結束時間, 6,646筆開始和結束都有

• 6,089筆地名具有類別, 但類別標記⽅方式沒有統⼀一, 重複性⾼高

Page 37: 20141018_OD_meetup#3

地名知識本體

tpn:Place

geo:Feature

tpn:FeatureTypetpn:featureClass

owl:subClassOf

skos:Concept

owl:subClassOf

time:Interval

geo:Point

geo:Geometry

owl:subClassOf

geo:hasGeometry

tpn:Footprint

geo:inside

geo:wktLiteral

geo:asWKT

tpn:is_in

owl:subClassOf

event:Event

event:place

geo="http://www.opengis.net/ont/geosparql#"

time="http://www.w3.org/2006/time#"

xsd="http://www.w3.org/2001/XMLSchema#"

tpn="http://lod.tw/ontologies/geoname.owl#"

owl="http://www.w3.org/2002/07/owl#"

event="http://purl.org/NET/c4dm/event.owl#"

event:time

tpn:Name (NameCollection)

tpn:PlaceName

tpn:memberOf

time:Instant

time:hasBeginningtpn:endToUse

tpn:startToUse

time:hasEnd

tpn:altNametpn:name

Page 38: 20141018_OD_meetup#3
Page 39: 20141018_OD_meetup#3
Page 40: 20141018_OD_meetup#3
Page 41: 20141018_OD_meetup#3

taijiang.tw

Page 42: 20141018_OD_meetup#3

詮釋資料規劃

� &-

'.&-

�/"&-

� �0�2,�,�,��,!� � 2���#

��2��������+1�*�&)�$�

���/"2 (,%����

Page 43: 20141018_OD_meetup#3
Page 44: 20141018_OD_meetup#3
Page 45: 20141018_OD_meetup#3
Page 46: 20141018_OD_meetup#3

Controlled Vocabulary

Page 47: 20141018_OD_meetup#3

http://117.56.91.31/resource/CulturalHeritage/

AA09706000001

Domain knowledge

Page 48: 20141018_OD_meetup#3

⽤用別⼈人的例⼦子 !

講個⼋八卦

Page 49: 20141018_OD_meetup#3
Page 50: 20141018_OD_meetup#3

• 305 筆地名和族群 • 19 筆環境名詞對照

Page 51: 20141018_OD_meetup#3
Page 52: 20141018_OD_meetup#3
Page 53: 20141018_OD_meetup#3
Page 54: 20141018_OD_meetup#3
Page 55: 20141018_OD_meetup#3
Page 56: 20141018_OD_meetup#3
Page 57: 20141018_OD_meetup#3

inappropriate use of vocabularies

The region (e.g. state or province) associated with the address of the object

Page 58: 20141018_OD_meetup#3

TimBL看了會很傷⼼心

• 為了連⽽而連,結果沒把資料語意釐清,反⽽而把資料弄的更難理解

• 為了「製造」連結資料,⽽而在資料集中無意義地增加欄位,e.g. 在地名中增加hasGroup

• 沒有去驗証正確性,產⽣生許多連結的錯誤 • 沒有領域知識、沒有實⽤用價值

Page 59: 20141018_OD_meetup#3

結語!

• 政府開放資料應考慮的是如何滿⾜足三顆星的條件,再思考四、五星的開放資料

• 連結資料是能夠相互連結的資料,也就是可以被連,並可以向外連其它資料,但各國政府的資料,向外的連結率皆不⾼高

• 根據Bizer等⼈人(2011)的統計,政府所發佈的RDF資料量相對是最⾼高的,約佔42%,但對外連結卻相當低,低於4%

• 政府的連結資料(或連結政府資料)該由政府單位來做嗎?

Page 60: 20141018_OD_meetup#3

[email protected]!twitter: @dongpo!

facebook: dongpo.deng

投影⽚片下載: http://tinyurl.com/odmeetup20141018