Upload
dongpo-deng
View
321
Download
0
Embed Size (px)
DESCRIPTION
Open Data Meetup#3 Taiwan
Citation preview
開放資料 (Open Data)
沒有技術和法律上障礙的資料
Courtesy from http://www.wired.co.uk/news/silicon-europe?page=14
開放資料是...
• 使⽤用「開放標準」和「⾮非專屬的資料格式」讓資料能不受技術限制⽽而流通
• 使⽤用「公眾領域」或「開放授權」條款釋出資料,使資料的使⽤用不因法律或智慧財產權限制,進⽽而資料可無償地被⾃自由的散布、再製和修改
開放資料的5顆星
• 這五顆星的等級是以資料格式,及其可取得的⽅方式來分級
• 所有的開放資料顆星等必先滿⾜足第⼀一顆星的開放資料,也就是以「開放授權」公開釋出
http://5stardata.info/tw/
以「紫外線測站」為例
雖然是⾮非結構化資料格式,如圖⽚片,將資料放上網路,讓所有⼈人都可以取得,並附上開放的授權⽅方式,就是⼀一星級「開放資料」
雖然是結構化資料,但資料格式是專屬格式,如MS EXCEL的XLSX,但資料放上網路,讓所有⼈人都可以取得,並附上開放的授權⽅方式,就是⼆二星級的開放資料
資料格式為⾮非專屬格式,如CSV,不需要依靠特定軟體或⼯工具來處理,以致於許多依照標準所開發的開放資料平台,很容易就可以處理這樣的資料,就是三星級的開放資料
資料格式為⾮非專屬格式,如CSV,不需要依靠特定軟體或⼯工具來處理,以致於許多依照標準所開發的開放資料平台,很容易就可以處理這樣的資料,就是三星級的開放資料
資料格式為⾮非專屬格式,如CSV,不需要依靠特定軟體或⼯工具來處理,以致於許多依照標準所開發的開放資料平台,很容易就可以處理這樣的資料,就是三星級的開放資料
將資料項⺫⽬目以URI⽅方式分享於網絡之中,最普遍的做法是將資料以「資源描述架構」(Resource Description Framework, RDF) 編寫,就是四星級的開放資料
五顆星的開放資料: ⾃自⼰己能夠被連結,也要連結別⼈人
Image courtesy from http://www.ipvsecurity.com/eng/index.php/56-policies/case-studies/37-sed-ut-perspiciatis-unde-omnis-iste-natus-error-sitem
紫外線測站的知識本體(ontology)
• 建⽴立知識本體 • 定義語彙,清楚表達資料,使資料能夠相互連結
根據知識本體轉成RDF
因為資料是以URI⽅方式分享於網絡之中,因⽽而可以將描述相同的實體的URI相互串連,也就成為「連結開放資料」(Linked Open Data, LOD),就是五星級的開放資料!!
連結資料(Linked Data)
• Tim Berners-Lee的連結資料的原則 1. 使⽤用URI做為事物的名稱; 2. 使⽤用HTTP URI ,因此⼈人們可以
查看這些名稱; 3. 當有⼈人查看⼀一個URI時,利⽤用標
準(如RDF, SPARQL)來提供有⽤用的資訊;
4. 包含連結到另⼀一個URI的資訊,使他們可以發現更多事物。
Linked Open Data Cloud (9/2008)
Linked Open Data Cloud (7/2009)
Linked Open Data Cloud (9/2010)
Linked Open Data Cloud (9/2011)
LODE-Taiwan Biodiversity Dataset
LOD cloud (2014.4)
LOD cloud (2014.4)
為什麼要連結資料?• 結構化資料,使資料不但⼈人
可理解,機器也可以讀懂
• 在語意層級的資料整合
• 藉由連結資料提供更多資料,並可能找到更多知識
• 連結資料服務是⼀一個穩定的開放資料介接⽅方式
• Error 404
規格化• 區分與清理出可以連結的資料
• 分辨出資料中是「概念」成份,和這些概念的關係
• 這些概念在知識領域中的解釋 • URI 設計
• BaseURI http://geo.lod.tw • TBoxURIs http://geo.lod.tw/ontology/
{class|property} • ABoxURIs
http://geo.lod.tw/resource/Name/公館
規格化
模式化
轉換與連結
發佈
使⽤用
模式化• 根據上⼀一步所區分的概念及其關係,建⽴立
知識本體(Ontologies)
• ⼀一組可分享的觀念之具體規格化 • 要被其它資料連結,需使⽤用標準語彙,
或已存在的語彙,以清楚表達資料內涵,沒有,再⾃自⾏行定義
• ⽤用OWL或RDFs來表達 • 多數⼈人⽤用Protege編寫
規格化
模式化
轉換與連結
發佈
使⽤用
轉檔與連結• 要連到其它資料,要清楚資料的脈
絡關係,以找到可以連結的資料 • 基本上要梳理資料脈絡關係,可由
三個⼤大⽅方向著⼿手,資料的時間特性、資料的空間特性、和資料的主題
• ⼯工具 • Silk • http://wifo5-03.informatik.uni-mannheim.de/bizer/silk/
• LIME • http://aksw.org/Projects/LIMES.html
規格化
模式化
轉換與連結
發佈
使⽤用
轉檔與連結• 轉檔⼯工具 • CSV and spreadsheets
• RDF extension of Google Refine, XLWrap, RDF123, NOR2O
• RDB
• D2R Server, ODEMapster, W3C RDB2RDF WG – R2RML
• XML
• GRDDL, ReDeFer
規格化
模式化
轉換與連結
發佈
使⽤用
轉檔與連結
• 檢查錯誤 • http上的問題,可及性 (accessibility)
和反連性 (derefencability)
• namespace和vocabulary不⼀一致 • 對映錯誤,同⼀一個名字在資料集可
能有好幾個
規格化
模式化
轉換與連結
發佈
使⽤用
發佈
• RDF stores and SPARQL endpoints
• Jena, Virtuoso, Sesame,4Store, OWLIM, BBN Parliament
• linked-data front-end services
• Pubby, TalisPlatform, Fuseki, D2RQ
規格化
模式化
轉換與連結
發佈
使⽤用
發佈規格化
模式化
轉換與連結
發佈
使⽤用
MySQLRDB
D2R Pubby
VirtuosoRDF store
Web
HTML RDF
利⽤用規格化
模式化
轉換與連結
出版
利⽤用
RelFinder
⽤用[開放的]台灣地名資料 !
講個秘訣
處理台灣地名之⺫⽬目的• 地名的再使⽤用率⾼高、被連結率也⾼高
• 地名語意常是模糊不清,連結資料適合來處理
• 台灣多族群、多語⾔言、多時期,地名演變有⽂文化和歷史意義
• ⼀一地多名、⼀一名多地
• 定常性的地名服務做為網路世界中⽂文化累積的接⼝口
• 地名做為「控制語彙」,⽤用在CKAN中管理其它資料
資料的限制• 地名資料欄位
• 地名名稱、漢語拼⾳音、通⽤用拼⾳音、所屬村⾥里、所屬鄉鎮市區、所屬縣市、地名別稱、地名意義、地名年代時間、地名類型、地圖坐標、語⾔言別、命名族群、相關位置與⾯面積描述、地名沿⾰革與⽂文獻歷史簡述、地名相關事項訪談內容、普查使⽤用之地圖與⽂文獻
內容缺漏
• 收集40,415筆地名資料, 含舊地名
• 只有4,821筆地名有x,y 座標, 且座標系統為TM2
• 13,615筆地名有開始時間, 8,153筆有結束時間, 6,646筆開始和結束都有
• 6,089筆地名具有類別, 但類別標記⽅方式沒有統⼀一, 重複性⾼高
地名知識本體
tpn:Place
geo:Feature
tpn:FeatureTypetpn:featureClass
owl:subClassOf
skos:Concept
owl:subClassOf
time:Interval
geo:Point
geo:Geometry
owl:subClassOf
geo:hasGeometry
tpn:Footprint
geo:inside
geo:wktLiteral
geo:asWKT
tpn:is_in
owl:subClassOf
event:Event
event:place
geo="http://www.opengis.net/ont/geosparql#"
time="http://www.w3.org/2006/time#"
xsd="http://www.w3.org/2001/XMLSchema#"
tpn="http://lod.tw/ontologies/geoname.owl#"
owl="http://www.w3.org/2002/07/owl#"
event="http://purl.org/NET/c4dm/event.owl#"
event:time
tpn:Name (NameCollection)
tpn:PlaceName
tpn:memberOf
time:Instant
time:hasBeginningtpn:endToUse
tpn:startToUse
time:hasEnd
tpn:altNametpn:name
taijiang.tw
詮釋資料規劃
� &-
'.&-
�/"&-
� �0�2,�,�,��,!� � 2���#
��2��������+1�*�&)�$�
���/"2 (,%����
Controlled Vocabulary
http://117.56.91.31/resource/CulturalHeritage/
AA09706000001
Domain knowledge
⽤用別⼈人的例⼦子 !
講個⼋八卦
• 305 筆地名和族群 • 19 筆環境名詞對照
inappropriate use of vocabularies
The region (e.g. state or province) associated with the address of the object
TimBL看了會很傷⼼心
• 為了連⽽而連,結果沒把資料語意釐清,反⽽而把資料弄的更難理解
• 為了「製造」連結資料,⽽而在資料集中無意義地增加欄位,e.g. 在地名中增加hasGroup
• 沒有去驗証正確性,產⽣生許多連結的錯誤 • 沒有領域知識、沒有實⽤用價值
結語!
• 政府開放資料應考慮的是如何滿⾜足三顆星的條件,再思考四、五星的開放資料
• 連結資料是能夠相互連結的資料,也就是可以被連,並可以向外連其它資料,但各國政府的資料,向外的連結率皆不⾼高
• 根據Bizer等⼈人(2011)的統計,政府所發佈的RDF資料量相對是最⾼高的,約佔42%,但對外連結卻相當低,低於4%
• 政府的連結資料(或連結政府資料)該由政府單位來做嗎?
[email protected]!twitter: @dongpo!
facebook: dongpo.deng
投影⽚片下載: http://tinyurl.com/odmeetup20141018