17
Massive Data Catalog Service 袁袁袁 2009-12-07-001

Massive data catalog service 2009 12-07-001

Embed Size (px)

Citation preview

Page 1: Massive data catalog service 2009 12-07-001

Massive Data Catalog Service

袁天竑2009-12-07-001

Page 2: Massive data catalog service 2009 12-07-001

背景議題• 硬碟降價,使用者需求增加,但是儲存策

略沒變,長期因人事變遷導致資料無法面對 migration 、 disposal 、 archive 等議題。

• 傳統檔案系統雖然提供樹狀結構安排資料,但是也因過於簡單,無法對上述挑戰能有因應。

Page 3: Massive data catalog service 2009 12-07-001

提供• 在資料被儲存時,強迫提供資料相關訊息

由系統管理併為一個相關物件– Combine user data 、 user defined metadata 、

upload files 、 management metadata as an object

• 以利於未來生命期、儲存保存清理、安置位置、版本 … 處理之依據

Page 4: Massive data catalog service 2009 12-07-001

• 消除檔案概念• 消除檔案系統觀點• 儲存物體物件化 => 目錄「 catalog 」概念

Page 5: Massive data catalog service 2009 12-07-001

適合對象• 數典資料保存• 重要資料保存• Online application 線上整批儲存重要資料

Page 6: Massive data catalog service 2009 12-07-001

面對挑戰• 人員、職務、儲存技術變遷• Migration 壓力• 未來成本估算• 清除需要淘汰的資料• 資料及 metadata 版本變化

Page 7: Massive data catalog service 2009 12-07-001

• 引進 Object Identifier (OID) 的觀念來標示 object

• Each object has its own OID. The OID is unique and universal to an OID repository system

• Each object is represented in compound entities• Version number is an entity• 每份 object 以 metadata 的 entities 來表現 .• 另可定義某個 entity 對應的某個字集的”檔案名

稱”

Page 8: Massive data catalog service 2009 12-07-001

• Version control with contents, archive metadata, management metadata modification

• Quota control by # of files, file upper size 、 total disk size

• Lifetime• Accounting is clear to users an

d administration• API for application to upload/d

ownload & metadata• User interface for web 、 web

services and remote upload/download authoring tools

• Face challenge to migration, load balancing, technology change

• Easily for batch download/upload• Pseudo ftp download service for

bulk files during limit times• Ownership• Good for users, projects,

applications …• Face aging issues• Comma separated database

exported• Customized information binding• No file operations, no delete

anymore

Page 9: Massive data catalog service 2009 12-07-001

User interface

• User downloadable “comma separated database exported” for further analyze in other applications (i.e. 例如 excel)

• “Inherit from existing object” function for metadata information sharing

• 使用者可以加入自己的 extended archive metadata

• 幫助使用者知道自己的資料使用狀態以及規劃資料清理、未來規劃

Page 10: Massive data catalog service 2009 12-07-001

Management interface

• 幫助 data migration from media 或儲存技術老化或更新變遷

• 幫助少用資料 migration 議題• 幫助常用資料 migration 議題• 幫助未來成本估算

Page 11: Massive data catalog service 2009 12-07-001

Application Interface• 提供 application 線上儲存重要資料• 提供 remote authoring software for bulk local files management• Retired objects will be clean by system with preset rules automatically, disposal management• Functions for example

– Dump object info for object ID– Dump object info for container X– Merge container s into one container– Split one container to several containers by condition set X– Add object ID into container X– Remove object ID from container X– Request pseudo spooler for container X– Create object for file X1 with archive metadata X2 and extended metadata X3– Validate the object creation– Retire object– Retire objects from container X– Recover retired object– Recover retire objects from container X– Listing objects with condition set X– Listing objects in a container X– Listing retired objects with condition set X

Page 12: Massive data catalog service 2009 12-07-001

Data operations

• Object := {data+metadata}

• No delete, 只有 retired 的動作。被 rtired 的 object ,視 object 的特質依預設策略於未來做清理動作。 Garbage container, disposal management

• OID # 註冊後,除了特定區域外。不解除的。

Page 13: Massive data catalog service 2009 12-07-001

資源配置 for users/projs/…

• 可以策略性,依據任務重要性配置不同的 lifetime 、配置使用量、 object 數、 retired objects disposal 策略、…

Page 14: Massive data catalog service 2009 12-07-001

4 kinds of Metadata

• Management– Create date 、 ownership 、 aging 、 storage strategy 、

storage location 、 version control

• Archive– Lifetime 、 title 、 contents description 、 ownership 、

create date 、 version control

• Extended archive– Version control 、 checksum

• Contents– 由使用者定義及製作,封裝在 user’s object 裡

Page 15: Massive data catalog service 2009 12-07-001

OID retrieve system

• OID retrieve system 提供目錄清單、權限管理

• 若無授權,被限制讀取的資料,將只能知道 OID 被註冊及讀取有限內容。

• 若使用者有授權,由 OID retrieve system 向使用者發出 {ticket+storage ID} 及向儲存設備發出 {ticket+user ID} ,供使用者向儲存設備提出需求。

• 引入自然人憑證等 CA 及類 SSO 機制

Page 16: Massive data catalog service 2009 12-07-001

• 強迫於第一時間 metadata 與資料結合• 檔案系統行為消失• 以 object 為單位的 catalog 系統• 使用者可以充分瞭解的溝通• 沒有 delete 的觀念,改用 retired 以及資料清理

策略來處理 disposal 議題• 有多種使用介面, web, standalone application,

web services,…• 不只引進 cloud storage 機制,還引進動態處理

資料策略的嵌入機制• 使用 compound information 代表 object

Page 17: Massive data catalog service 2009 12-07-001

到底要發展甚麼• 很像 object file system ,但不是檔案系統,是 archive o

bject 管理系統• 一個橋樑幫助使用者於第一時間建立資料特性,與 resou

rce management middleware 、 storage 、 backup 、 migration 、 disposal 等議題相結合

• 使用者能利用系統提供資訊強化需求能力• 一個資料 life time, ownership, 處理策略 , 面對 migration

壓力的儲存系統• 不像 file system ,使用者只有量的限制,這系統可以處

理更複雜的資源配置狀態• 好用可信賴、容易面對危機、面對需求調整、面對技術變

遷的儲存系統• 對使用者、對管理者、金主都有好處的系統