52

Click here to load reader

数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

  • Upload
    reba

  • View
    170

  • Download
    9

Embed Size (px)

DESCRIPTION

数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04. 国内数字图书馆的建设方兴未艾. 数字图书馆的主要优点 信息储存空间小、不易损坏 信息查阅检索方便 远程迅速传递信息 同一信息可多人同时共享 多媒体资料 ……. 2001. 国家计委批准立项“全国党校系统数字图书馆建设计划”. 2000. 文化部制定 《 中国数字图书馆工程一期规划 》. 1999. 国家图书馆完成“数字图书馆试验演示系统”. 1998. 首都图书馆成为“中国数字图书馆工程首家示范单位”. 1997. 中国试验型数字式图书馆项目立项 标志着我国数字国书馆建设的开始. - PowerPoint PPT Presentation

Citation preview

Page 1: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

IBM Confidential

数字图书馆的信息基础架构

樊华存储架构师2009.06.04

Page 2: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 2 IBM Confidential

国内数字图书馆的建设方兴未艾 数字图书馆的主要优点

– 信息储存空间小、不易损坏 – 信息查阅检索方便 – 远程迅速传递信息 – 同一信息可多人同时共享– 多媒体资料– ……

1996

北京第 62 届国际图联 (IFLA) 大会IBM 公司和清华大学图书馆联手展示“ IBM 数字图书馆方案”

1997中国试验型数字式图书馆项目立项标志着我国数字国书馆建设的开始

1998 首都图书馆成为“中国数字图书馆工程首家示范单位”

2000

1999

2001

国家图书馆完成“数字图书馆试验演示系统”

文化部制定《中国数字图书馆工程一期规划 》

国家计委批准立项“全国党校系统数字图书馆建设计划”

Page 3: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 3 IBM Confidential

数字图书馆的业务特点和面临的挑战 海量信息

几十 TB ,上百 TB 的数据量,且不断高速增长,对投资、信息管理及系统可扩展能力带来巨大的挑战。

多种信息类型– 非结构化数据,包括文档、图片 、影音文件 – 结构化数据,包括检索数据库,业务功能系统

信息价值– 数字图书馆的信息大都通过艰苦的数字化转换过程而形成,投入大,价值

高,需要进行妥善的保护。相对传统图书馆而言,数字信息更易于通过 IT技术进行复制和备份保护,但同时数字信息也更易于被盗用。

信息访问更便捷– 通过网络即可对数字图书馆的信息进行便捷的访问,允许更多的人员通过

网络进行 7*24 小时的并发访问。其对系统的性能和可用性有较高的要求。 信息需长期保存

– 数字图书馆的信息大都需要永久保存。信息的生命周期超过存储设备的生命周期。

Page 4: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 4 IBM Confidential

策略 & 实施 合作伙伴 & 解决方案

面向信息的业务价值,辅以灵活的基础架构,安全地存储信息和减轻经营风险

人员 , 流程 , 应用

数字图书馆的建设目标 - 随需应变的信息服务

Intelligent Management. Protected Information. Smarter Insights.

Page 5: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 5 IBM Confidential

数字图书馆基础架构建设的三项原则和四项关注点

三项原则提高服务控制投资降低风险

四项关注点–信息可用性–信息安全性–信息保存性–信息遵从性

提高服务

控制投资降低风险

信息可用性信息安全性信息保存性信息遵从性

Page 6: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 6 IBM Confidential

满足法律法规和企业自身对信息的可靠性要求

信息保存性

信息可用性

降低声誉风险和升级缺陷支持客户信息保持策略

提供信息持续、可靠的访问

信息遵从性

降低海量信息长期保存的总体投资 数据压缩技术 按信息价值不同保存长期信息到更便宜的存

储设备上

需应对海量信息容量的高速扩展 需提供 7*24 小时的高性能访问服务 从灾难中恢复的能力 简化存储管理

从数据损坏和系统故障中恢复 避免信息泄露风险

保护和实现安全的信息共享信息安全性

Information “CARS”

数字图书馆基础架构建设应关注的 4 大类问题

Page 7: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 7 IBM Confidential

NENR(不可删除,不可修改)存储解决方案

信息保存性

信息可用性

降低声誉风险和升级缺陷支持客户信息保持策略

提供信息持续、可靠的访问

信息遵从性

分级存储与信息生命周期管理 重复数据删除技术

信息高可用解决方案 存储虚拟化解决方案 并行文件系统 网格化存储系统

数字图书馆的信息备份与恢复 磁盘、磁带加密技术

保护和实现安全的信息共享信息安全性

Agenda

Agenda

Page 8: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 8 IBM Confidential

存储发展历程及技术特点简介

Page 9: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 9 IBM Confidential

存储技术名词解释

直联存储– DAS - Direct Attached Storage

网络连接存储– NAS - Network Attached Storage

存储区域网络– SAN - Storage Area Network

iSCSI– iSCSI - Internet SCSI

Page 10: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 10 IBM Confidential

磁盘存储技术的历史发展

DAS

内置磁盘

RAID

NAS

文件服务器

LAN

专用 NAS

LAN

企业级 NAS

LAN

IP 存储网

iSCSI

EthernetSwitch外置

SCSI 盘阵FC Switch

SAN

Page 11: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 11 IBM Confidential

SAN 、 iSCSI 、 NAS 的特点

NAS– 为解决数据共享问题和优化文件( File)存储而产生的存储技术– 文件管理系统在存储设备端,是文件服务 +IP 的一种技术– 多应用于需要文件共享访问的业务系统

SAN– 为解决 DAS 的问题而产生的存储技术– 是 DAS+ 网络的一种技术– 多应用于需高性能的业务系统

iSCSI– 是 SAN+IP 的一种技术,所以 iSCSI 也叫 IP SAN– 多应用于 PC 服务器平台、 Windows ( SQL

Server 、 Exchange)、 Linux 、中小型数据库

Page 12: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 12 IBM Confidential

存储构架- DAS 、 SAN 、 iSCSI 、 NAS

DAS NAS

NFS, CIFS

应用服务器

文件系统

RAID

SCSI FC Switch EthernetSwitch

应用服务器 应用服务器

RAID

文件系统

SAN

应用服务器

文件系统

RAID

EthernetSwitch

iSCSI

应用服务器

文件系统

RAID

Page 13: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 13 IBM Confidential

SAN 、 iSCSI 、 NAS 架设

NAS

NFS, CIFS

FC Switch EthernetSwitch

SAN

EthernetSwitch

iSCSI

应用服务器

iSCSI initiator

以太网口

SAN– 服务器上购买安装 HBA卡

– 网络使用 FC Switch iSCSI

– 服务器上安装免费的iSCSI initiator(操作系统厂商免费提供)软件

– 网络使用通用的Ethernet Switch

NAS– 服务器上不需要安装任何软硬件

– 网络使用通用的Ethernet Switch

应用服务器

以太网口

应用服务器

以太网口

应用服务器

FC HBA

Page 14: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 14 IBM Confidential

信息可用

Page 15: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 15 IBM Confidential

信息可用之一 - 存储高可用性

pSeries

p

21

TotalStorage

pSeries

p

存储

HA

Backup ServerActive Server

SAN

21

TotalStorage

Primary Copy

Target Copy

SAN

数据同步复制

现在的: 2+2( 主机高可用、存储高可用 )

pSeries

p

21

TotalStorage

pSeries

p

存储

HA

Backup Server

SAN

传统的: 2+1( 主机高可用、存储未高可用 )

SAN

Active Server

业务价值100% 的本地数据访问弹性没有受磁盘设备故障导致的应用中断时间,或应用中断时间最小化与远程灾备系统相辅相成方便易行的数据保护和故障恢复过程

Page 16: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 16 IBM Confidential

存储高可用性解决方案一:文件系统卷级镜像

主机主机 主机主机

磁盘1

磁盘1

磁盘 2磁盘 2

磁盘 1 故障时,磁盘 2 不需要重新在主机上mount ,应用无需中断。真正实现了无缝接管

RPO=0RTO :单个存储故障: RTO=0数据中心故障: RTO<30 分钟

条件:主备存储在同一个 SAN 中,两者距

离不超过几百米

特点: 持续的可用性 通过软件实现 双磁盘写,对性能的影响轻微

主要产品 AIX LVM Veritas

Page 17: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 17 IBM Confidential

主机 备机

HA

SAN

Active Disk

Backup Disk

存储同步复制

存储高可用性解决方案二:本地磁盘复制RPO=0RTO :单个存储故障: RTO<30 分钟数据中心故障: RTO<30 分钟

条件:主备存储间同步数据复制,两者距离

不超过 100-300 公里,主备存储同构或存储虚拟化

特点: 生产磁盘故障时,需要重新启动的

动作来恢复生产 通过硬件实现 对服务器透明的数据镜像 磁盘镜像 / 复制技术

主要产品: IBM DS8000/DS5000/4000 Metro

Mirror EMC DMX SRDF HDS TrueCopy

Page 18: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 18 IBM Confidential

信息可用之二 -虚拟化技术?

虚拟化 : 一种替代以前的进程 创建虚拟化资源并且映射到物理资源 可以进行一对多或多对一的映射 映射任务由软件或微码实现

物理资源有自己的接口和功能的部件通常是物理的,可以是集中的,也可以是分散的例子:内存,磁盘,网络,服务器

虚拟化的资源替代物理的资源: 同样的接口 / 功能,但是摆脱了物理资源的限制 可以综合利用所有的物理资源

Page 19: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 19 IBM Confidential

什么是存储虚拟化?

在物理存储系统和服务器之间增加一个虚拟层,它管理和控制所有存储并对服务器提供存储服务。服务器不直接与存储硬件打交道,存储硬件的增减、调换、分拆、合并对服务器层完全透明。 – 隐藏了复杂程度– 允许将现有的功能集成使用– 摆脱了物理容量的局限

虚拟化

逻辑表现

物理设备

Page 20: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 20 IBM Confidential

存储虚拟化的不同实现方式

Hosts

SAN

Array

Switch Appliance

Virtualization

VirtualizationVirtualization

Virtualization

基于主机 (Veritas)– 虚拟化软件安装在应用主机上– 从连接到主机的不同存储上划分虚拟卷

基于 SAN 网络 (IBM, EMC)– 虚拟引擎在一个专用的集成设备上或光纤交换机上

– 从连接到 SAN 的存储上划分虚拟卷

基于磁盘阵列 (HDS)– 虚拟化软件包含在磁盘阵列控制器上– 从连接到该磁盘阵列的存储上划分虚拟卷

Page 21: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 21 IBM Confidential

存储虚拟化对数字图书馆的价值

数字图书馆特点 存储虚拟化

高速增长的海量信息 跨平台、跨存储的存储池部置能力

信息保存期长于存储设备生命期 在线数据迁移能力

海量信息备份保护 灵活的快照能力

灾难恢复保护 异构存储的同步 /异步复制能力

分级存储管理 , 节省投资,优化性能。分级存储池建设,及在线数据迁移

高速的数据库检索与大容量的信息保存 分级存储池管理能力

Page 22: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 22 IBM Confidential

信息可用之三 -何谓并行文件系统

支持并行 I/O 操作 数据物理上分布在多个存储上 提供单一的名称空间视图,实现文件访问的位

置独立性 向应用提供数据访问接口 减少磁盘接口和网络带宽造成的瓶颈,优化

I/O 资源的使用

Page 23: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 23 IBM Confidential

并行文件系统如何工作

IBM GPFS昆腾 StoreNextApple Xsan2.0…..

Page 24: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 24 IBM Confidential

并行文件系统工作方式和扩展方式

可以在线添加存储和服务器,不影响应用正常运行

可能瓶颈点 2

可能瓶颈点 1

EthernetInfiniBand

SAN

在 IO 服务器和磁盘存储两层都有很好的线性扩展能力

Page 25: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 25 IBM Confidential

并行文件系统的优势一

高可用性– 先进的仲裁管理机制,确保系统最

大程度的可用性,没有单一故障点– 管理服务器在manager 资源池内实现自动故障切换

– 支持多路径磁盘访问,一条路径访问失败,可以通过其它路径实现

– 支持对元数据和用户数据做replication ,保证系统稳定可靠

– Rolling Update ,不停机升级– 支持日志功能,实现系统快速恢复

Page 26: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 26 IBM Confidential

并行文件系统的优势二

性能– 文件存储采用条带化技术,单个文件跨节

点和存储系统分布,提高并发访问性能– 智能预取机制,通过对文件访问模式的预测来进行预取,降低读写延迟

– 分布式的 Byte Range 级锁管理,包括文件和目录两个级别,允许最大程度的并发访问

– 分布式元数据服务器,避免元数据处理成为系统瓶颈

– 支持客户端数据缓存,不同节点可以根据需要设置不同的缓存大小

– 数据块的大小可自定义, 16K, 64K, 256K, 512K, 1M , 2M , 4M

Page 27: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 27 IBM Confidential

并行文件系统的优势三

可扩展性– 最大可支持数千个节点的集群规模

和数百 GB每秒的 IO吞吐量– 在不停止服务的情况下向集群添加

和删除节点– 在不停止服务的情况下向文件系统加入和删除磁盘

– 在不停止服务的情况下修改文件系统 inode 数目

Page 28: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 28 IBM Confidential

并行文件系统的优势四 - 信息生命周期管理节点 1 节点 2 节点 3 节点 4

Pool1 Pool2

mmapplypolicy

1. 扫描元数据

2. 匹配规则

3. 移动数据

System

光纤存储 SATA 存储

File1File2

/home

目录结构

/home |--… |--file1 |--… |--… |--file2 |--…

目录结构不变,数据移动对用户透明

Page 29: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 29 IBM Confidential

并行文件系统的能力及其对数字图书馆的价值(以 GPFS 为例)项目 最大限制 对数字图书馆的价值集群中的节点数 8192 高可用性、高可扩展能力,

降低风险单个文件系统容量 249PB 海量信息统一保存;

简化信息存储管理和策略;支持跨存储保存信息降低风险

集群中并行文件系统个数 256

单个文件系统中文件个数 2,147,483,648

单个文件系统能用到的逻辑卷个数( LUN 数)

268 million

每个逻辑卷容量 取决于磁盘阵列系统支持的能力

I/O 带宽 134GB/s 高性能,提升服务

文件系统信息生命周期管理

支持,透明执行 节省投资

Page 30: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 30 IBM Confidential

传统的架构中 , 可扩展性的获得依赖于更高性能 (同时也更为昂贵 )的组件

双控制器集群 定制的硬件 组件成本高昂 漫长而又复杂的产品开发周期 复杂的被动式服务 需要循环往复的性能优化过程

传统存储产品所面临的问题

Cach

eC

on

trolle

rs

Interface Interface Interface

组成模块 :• 磁盘• 缓存• 控制器• 接口• 内部连接

JBOD JBOD

Scale Up

性能可靠性可扩展性

= $$$

信息可用之四 - 网格存储系统

Page 31: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 31 IBM Confidential

革命性的网格系统架构解决传统存储之痛

Interface Interface

设计原则 :• 大规模并行 • 细粒度数据分布• 业界标准组件 -紧耦合 disk, RAM and CPU• 虚拟化架构-零管理

Data Module

Interface Interface Interface

Data Module Data Module Data Module Data Module Data Module Data Module

Switching Switching

Scale Out

自愈能力 , 自动优化可扩展网格节点模块节点间相对独立独立开放 : 标准硬件模块 ,组件成本经济快速 , 高效的产品开发周期简单容易的服务模式

Page 32: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 32 IBM Confidential

网格存储的 数据分布算法

每个卷会分布到所有的磁盘驱动器上 / 所有数据镜像 数据被分成 1MB “ 分区” 存储在磁盘上 以伪随机的方式 自动地 将 ”分区” 分布到系统 所有

的磁盘上

Data Module

Interface

Data Module

Interface

Data Module

Interface

Switching

Page 33: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 33 IBM Confidential

网格存储在系统变更时的数据分布算法 数据的分布只有在系统变更时才发生改变

–当新硬件添加时均衡仍然得以保持–当旧硬件移除时均衡仍然得以保持–当硬件出故障时均衡仍然得以保持

Node 2

Node 3

Node 1

Data Module 2Data Module 1

Data Module 3

Page 34: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 34 IBM Confidential

Node 4

数据的分布只有在系统变更时才发生改变–当新硬件添加时均衡仍然得以保持–当旧硬件移除时均衡仍然得以保持–当硬件出故障时均衡仍然得以保持

Data Module 2

Data Module 3

Data Module 1

[ hardware upgrade ]

Data Module 4

网格存储在系统变更时的数据分布算法

Page 35: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 35 IBM Confidential

数据的分布只有在系统变更时才发生改变–当新硬件添加时均衡仍然得以保持–当旧硬件移除时均衡仍然得以保持–当硬件出故障时均衡仍然得以保持

Data Module 2

Data Module 3 Data Module 4

Data Module 1

[ hardware failure ]

数据分布的 完整化 和 自动化 确保当配置变更时所有的磁盘驱动器都会加入到数据重新分布的任务中 .

因此而带来的是恢复 /优化期间巨大的性能回报

网格存储在系统变更时的数据分布算法

Page 36: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 36 IBM Confidential

信息安全

Page 37: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 37 IBM Confidential

信息安全之一:数字图书馆信息备份与恢复

企业数据集中备份逐渐普及– LAN集中备份– LAN-Free集中备份– Server less 备份– 数据库的在线数据保护

数字图书馆中数据备份中常见的难题– 海量数据的备份保护难题 – 大批量小文件的数据备份保护难题– NAS 数据的备份保护难题– 7*24 小时业务的备份时间窗难题

备份时间窗

海量信息

业务可用性

Page 38: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 38 IBM Confidential

对海量文件信息备份常用的技术手段

永久增量备份技术( TSM)– 单实例永久增量备份保存– 时间点恢复

合并备份技术 (Veritas…)– 增量备份保存– 合并全备份以利恢复

利用存储快照技术– 实现 Server less 备份减小备份时间窗

用虚拟磁带库提升恢复速度 备份 NAS 信息

– NAS to NAS 备份 SANPVAULT– SnapMirror to tape

备份时间窗

海量信息

业务可用性

Page 39: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 39 IBM ConfidentialSource: TheInfoPro, Inc. Wave 10 Survey, Jan 2008

三种磁带库技术的比较   普通磁带库 虚拟磁带库 删重技术虚拟磁带库介质类型 磁带 磁盘 磁盘

可管理容量 无限 ≤ 2PB 通常<1PB, IBM ≤ 25PB

通常物理容量 50-300TB 有限, 10-300TB 5TB-30TB

驱动器数量 ≤ 192 ≤ 4096 ≤ 512

备份速度 120MB/Sec/DRV ≤ 4.8GB/Sec ≤ 1GB/Sec

优势 简单,“价廉” 高速且并发的备份与恢复 大容量,并发性,快速恢复

缺点 恢复速度慢 实配容量,性能有限,需要频繁向磁带库导出数据 速度有上限

RTO 长 短 短

适用性 各种用户 对备份恢复性能有高要求,对价格不敏感的用户

兼容备份恢复速度,管理灵活性和价格的客户

方案特点 Tape VTL+频繁的导出到 Tape VTL+偶尔长期保存数据到 Tape

价格 低 高 相对低

Page 40: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 40 IBM Confidential

信息备份优化方案1 : D-D-T 备份方案

优点 :1. 关键服务器备份时间窗极短 (秒级 )

2. 全面备份整体 / 数据库 /MAIL/ 文件和桌面机连续数据保护

局限 :1. 依赖于存储和 SAN

数据库 文件 其它 桌面机

数据库 文件

SAN

存储子系统

备份服务器

Flash Copy

存储子系统

Adv BK Server

磁带机 /库

虚拟磁带库

优点 :1. 恢复速度快,最大可达 1GB/秒

2. 虚拟磁带库,更多并发备份,备份速度快

Page 41: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 41 IBM Confidential

信息备份优化方案 2: IP 存储 & 备份解决方案

千兆以太网交换机( IP SAN)

LAN

备份服务器

磁带库

主存储设备( N5000 或 N3000 , FC 或 SAS 磁盘)

近线二级 NAS 存储( N3000 , SATA 磁盘)

D2D(应用软件备份功能、备份软件等)

SnapMirror to TapeSnapdiff 增量备份 NAS 数

据SnapVault 实现 NAS 间备

应用服务器

克隆盘( FlexClone)

Page 42: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 42 IBM Confidential

信息安全之二:自加密存储磁带机

自加密磁带驱动器– 业界所有的 LTO Gen 4 磁带驱动器提供针对

开发格式的加密技术– IBM TS1130 磁带机容量高达 1TB– 标准的密钥管理 (Standards-based

Encryption Key Manager)

方案价值– 对物理介质的移动和丢失不会带来安全问题– 简化加密技术 ,更加节约时间和金钱– 硬件加解密对备份恢复性能影响小于1%– 简化密钥管理 (Tivoli Key

Lifecycle Manager)

TS7740(mainframe)

TS3310(3576)

DR550TS3500(3584)

IBM TS1130LTO Gen 4

Page 43: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 43 IBM Confidential

加密从磁带到磁盘的扩展

全磁盘加密 (Full disk encryption - FDE)

加密的存储系统 –实施安全级别高的数据卷进行加密处理 ,同时采用可信的密钥管理

采用工业标准–FDE 采用 TCG 的工业加密标

准 (Trusted Computing Group security protocol)

–主动制定密钥管理的工业标准–基于硬盘自身硬件的加解密对

性能影响可忽略。

Application Servers

High-endStorage System

NAS Systems

MidrangeStorage System

Enterprise Key Management Host

SANSystem Admin

Tape

Page 44: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 44 IBM Confidential

信息保存

信息遵从

Page 45: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 45 IBM Confidential

分级存储提供的价值:降低基础架构成本

非活动数据或经常不访问的数据归档到低成本的存储上,提高利用率,降低成本

Source: SNIA/Source Consulting

Retention Systems

Archive Disk

Online Tape

Inactive Data

High Duty Low DutyCycle Cycle

$ /

GB

Production Disk

Active Data

5 Y

ea

rs

20

Ye

ars

3 Y

ea

rs

1 Y

ea

r

将结果保存到低成本的存储上,提高系统的利用率

按照 Forester 的研究报告 85% 的生产数据是非活动的

68% 的数据在过去的 90天是没被访问的

按照 IDC 的调查 , 40% 的内容是活动的或经常被访问的

Inactivedata

Activedata

Source: various research data

Page 46: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 46 IBM Confidential

Tape

$946,405

$7

$3.5

$0

Mill

ion

s

SATA Disk

$6,365,950

Blended Disk and Tape

$2,255,346

硬件 (Hardware)

磁带保留 (Prod + DR Carts)

维护 (Maintenance)

能耗 (Power & Cooling)

空间成本 (Floor space)

信息保留要考虑成本和能耗因素

得益于混合的解决方案

磁盘和磁带的解决方案能够节约 50%成本

以 10年 TCO为例 , 假定 250TB存储 , 以 25%每年成长

* TCO estimates based on IBM internal studies.

磁盘 磁带 混合

分级存储解决方案降低 TCO 超过 50%

SATA盘拥有比 FC磁盘更低的成本

重复删除技术虚拟磁带库提升存储效率 , 降低海量数据存储成本

磁带比磁盘成本更低,耗能也低

ILM 的最佳实践– 怎么样找回数据?– 怎么确保找回数据是可用的?

混合解决方案 :

– 在线访问大量最近的文档– 低成本、低耗能的长期数据保存

Page 47: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 47 IBM Confidential

分级存储解决方案需要考虑的问题 信息介质多样性

– 拥有多种类型的存储设备。在线高性能、近线高性价比、离线高可扩展能力的需求。

信息在分级存储间的流动和管理 – 信息识别 、信息迁移和信息回调功能的实现。不同的业务数据实现的方

式有差异

信息长期保存时的特殊需求– 灵活性。信息生命长于存储硬件的生命– 扩展性。海量数据保存会超过单个存储所能支撑的容量– 可持续性。为了节省空间、能源,实现可持续性。信息最终应能向磁带迁移。

– 安全性。对近线存储和离线存储的数据也应能实现备份、加密等保护。– 合规性。应满足组织内部审计或者国家法律规定对信息不可篡改的规定。

Page 48: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 48 IBM Confidential

Fully Managed Costs: Storage Options

Rel

ativ

e C

ost /

GB

/ Ye

ar

High PerfDisk

0

10

20

30

40

50

60

70

Nearline Disk

Online Archive (Disk)

Online Tape

Offline Tape

数据访问需要生命周期全程访问

关键在于自动化处理:基于策略自动的数据迁移

使数据的价值和存储的技术和管理相匹配

确保需要的时候可以访问到数据

现在 : 按照当前数据使用的策略将数据迁移到成本效率高的存储上

将来 : 迁移数据到能源利用率高的存储上,有效的满足用户需求

1 Hour

5 Years

20 Years

50 Years

100+

Years

2 Months

3 Years

Slow/Low

Fast/High

1 Day

Leverage automated data migration from tier to tier

Page 49: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 49 IBM Confidential

信息分级存储解决方案架构

归档 / 分级存储基础架构

信息保留系统

应用程序

应用与信息管理层 IBM CommonStore, IBM Content

Manager IBM FileNet P8 Content Manager,

Image Services, SAP Connector IBM Records Crawler IBM Optim EMC Documentum

信息保留层 Tivoli Storage Manager System Storage Archive Manager

存储层 IBM DR550 (includes SSAM) Tape Systems Disk Systems N series with SnapLock feature

归档应用 FileNetCommon

Store

E-mailE-mailFilesFiles Records Records ImagesImages

DBMS DBMS Siebel Siebel

PeoplesoftPeoplesoft

Optim

SSAM

DR550 Tape/Optical

PACSPACS

GMAS

Disk / N series

SAPSAP

TSM

TSM Client

Virtual Tape (Remote Site)

Ent

erpr

ise

Arc

hive

Ser

vice

s

Page 50: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 50 IBM Confidential

增强保护信息更安全

信息加密– 系统管理

• 磁盘和磁带

– 应用管理各厂商的 LTO4磁带机IBM TS1130磁带机IBM DS8000/DS5000加密磁盘

不可删除,不可重写 (NENR)

– 策略管理的

IBM DR550, N Series,WARM磁带EMC Centra

数据保护

合规

访问和安全

Page 51: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 51 IBM Confidential

提高存储利用效率 : 企业级重复数据删除技术重复数据删除技术要点

– 确保数据完整性– 高性能– 支持大容量, PB 级– 平滑融入现有环境

C

A

B

C

A

A B

B

A C

A

B

C

A

A B

B

A C

A

B

C

A

B

B

A

A

FC Switch TS7650G

Backup Servers

Disk Arrays

New Data Stream

Repository

MemoryResident

Index

Page 52: 数字图书馆的信息基础架构 樊华 存储架构师 2009.06.04

GCG Systems & Technology Group

Owner : 52 IBM Confidential

Q & A

Thank You!

Fan Hua 樊华 存储架构师[email protected]