基于Oracle 12c data guard & far sync的低资源消耗两地三数据中心容灾方案

  • View
    497

  • Download
    26

  • Category

    Software

Preview:

Citation preview

PARNASSUSDATA.COM

基于Oracle 12c Data Guard & Far Sync的低资源消耗两地三数据中心容灾方案

PARNASSUSDATA.COM

容灾方案设计

议 程

容灾概述

容灾案例:ADG“两地三中心”方案

容灾设计要素

主流容灾技术

选择合理技术方案

PARNASSUSDATA.COM

• 社会发展已进入了一个“信息爆炸”的信息社会,由于互联网通信等技术的发展,造成信息量急剧增多,并且日益渗透到生活的各个角落。

• 随着信息化的加深和信息量的增长,信息本身成为企业生存和竞争的核心价值之所在,而由于信息的越来越集中带来的风险也高度集中

信息是企业的核心价值

PARNASSUSDATA.COM

什么是灾难?

•灾难是指

”引起信息系统非正常停机的事件”

•灾难无法完全避免

•通过技术、管理等措施减少灾难发生

•建设容灾系统和灾难恢复预案,使灾难造成的损失降低到最低限度

PARNASSUSDATA.COM

• 人为灾难• 误操作• 病毒• 黑客入侵• 蓄意破坏

灾难的分类

7% 自然灾害

44% 硬件故障

49% 软件\人为\病毒故障

•设备故障• 存储阵列损坏

• 坏物理数据块

• 数据库损坏

• 主机故障

•自然灾难• 地震

• 台风

• 海啸

• 泥石流

PARNASSUSDATA.COM

什么是容灾?• 对于IT而言,容灾就是一个提供能防御各种灾难的计算机信息系统。当政府、企业、商家的核心IT系统在遭受如:火灾、水灾、地震、战争、人为破坏等不可抗拒的灾难和意外时,能够有效保护数据并及时恢复生产系统的正常运行。

• 概念辨析• 容灾与备份

• 数据备份是数据容灾的基础• 容灾在灾难发生时,全面、及时地恢复整个系统

• 容灾与容错• 保证系统的安全可靠• 容错是为了防止网络内部的某些子系统出现故障• 容灾是为了防止由于自然灾害等导致的整个系统全部或大部分发生问题

PARNASSUSDATA.COM

容灾分级:国信办关于容灾标准的定义

开销成本

恢 复 时 间

分钟 2小时 12小时 24小时 48小时 72小时 天?

第一级

基本支持备份介质场外存放第二级

有备份场地,能调配所需资源第三级

关键数据定时传送,备用网络部分就绪

第四级

少量数据丢失,备用数据系统就绪,数据定时传送(即时拷贝),备用网络就绪

第五级

数据丢失趋向于零,备用数据系统就绪,远程数据复制,备用网络就绪

第六级

数据零丢失,自动系统故障切换,远程磁盘镜像,备用网络Active

国务院信息办发布的《重要信息系统灾难恢复指南》提供了方向和目标,我们选择灾备的等级时,需要根据业务的需求制定。

PARNASSUSDATA.COM

容灾系统的组成

灾难恢复计划

备份处理系统网络通信系统

数据备份系统

灾备中心基础环境设施

恢复方案

灾备方案

PARNASSUSDATA.COM

容灾恢复能力指标RPO:(Recovery Point Objective,恢复点目标)是指业务系统所允许的在灾难过程中的最大数据丢失量,用来衡量容灾系统的数据冗余备份能力。

时 间

恢复点

时间T1时间T0

数据“丢失”阶段数据处于有效状态

的最后时刻灾难发生

时 间

RTO:(Recovery Time Objective,恢复时间目标)是指信息系统从灾难状态恢复到可运行状态所需的时间,用来衡量容灾系统的业务恢复能力。

时间T2时间T1

灾难发生

恢复时间

系统中断 恢复运行

PARNASSUSDATA.COM

国标灾难恢复能力与业务恢复能力容灾等级 RTO RPO

第1级 2天以上 1天至7天

第2级 24小时以上 1天至7天

第3级 12小时以上 数小时至1天

第4级 数小时至2天 数小时至1天

第5级 数分钟至2天 0至30分钟

第6级 数分钟 0(?)

数据大集中初期建设目标

最终目标

时间

T3

灾难性打击

恢复点目标(RPO)---数据完整性

系统恢复并运行 访问恢复

T2 恢复访问目标(NRO)---用户访问应用

T0 T1 恢复时间目标(RTO)---应用完整性

成本递增 成本递增

磁带备份 异步复制 手工迁移定期复制 同步复制 扩展的集群 磁带恢复

天 小时 分钟 秒 秒.分钟 小时.天 周

PARNASSUSDATA.COM

容灾方案设计

议 程

容灾概述

ADG案例:“两地三中心”方案

容灾设计要素

主流容灾技术

选择合理技术方案

PARNASSUSDATA.COM

影响容灾系统设计的主要因素

TCO

ROI

约束灾难防御

范围

RPORTO

可靠性

期望

PARNASSUSDATA.COM

数据复制技术是容灾关键条目 原因

抵御灾难能力

能否防御大范围灾难取决于距离,而是否会向灾备端传播灾难导致容灾失败则取决于数据复制的机制。

灾备可靠性

复制机制决定了备份数据是否保证可用,以及是否可以保证数据的一致性和完整性。

RPO 数据复制延迟直接决定灾难发生后的数据损失。

RTO 日常复制时目标端数据状态决定接管的速度。

总投资复制技术决定了备份端的软硬件配置、商务采购的灵活性、网络带宽需求、是否可以利旧等

投资回报率灾备建设投入的大量资金可以为企业提供附加价值,例如提供报表分离、实现数据集中、建立数据仓库、实现无宕机的系统升级等。

PARNASSUSDATA.COM

容灾方案设计

议 程

容灾概述

ADG案例:“两地三中心”方案

容灾设计要素

主流容灾技术

选择合理技术方案

PARNASSUSDATA.COM

传统灾备技术 --- 基于磁盘陈列镜像Array Based Mirroring

通过在存储控制器上安装软件实现数据在存储设备之间的复制;所有的读写操作发送到一个站点,然后通过阵列镜像到另一个站点,其核心是通过SAN进行存储之间的数据拷贝。

典型的产品如EMC的MirrorView、SRDF,IBM的Mettro Mirror、PPRC,HP-UX CA等。

优势

不占用主机资源,只占用磁盘阵列资源;

对操作系统和应用完全透明,运维简单;

。 劣势

主备要求同厂商同档次的产品,对网络链路要求较高,成本昂贵(尤其是远距离);

主站点故障会导致较长的停机时间;

无法避免数据库逻辑坏块,数据的恢复状态不可知;

无法避免人为破坏,只适用于地理灾难;

以数据块为单位复制,无法感知交易和事务,不是数据库备份的最佳选择。

PARNASSUSDATA.COM

传统灾备技术---基于主机镜像(卷复制)Host Based Mirroring

主要通过在主机上安装软件实现数据在服务器之

间的复制;支持集群技术的基于主机的LVM解决方

案;所有的写操作要同时发送到2个站点的阵列。

典型的产品如Veritas的VVR、CVM,HP的

OpenViewSM、MirrorDisk/UX等。

优势

支持异构存储系统;

可以通过IP网络实现;

通过SAN来完成数据同步,速度较快。

劣势

大量消耗主机资源,每主机都要许可证;

带宽占用非常高,所需投资大;

异构主机环境方案复杂,管理难度大;

随着主机数量增加,需要更多管理开销。

PARNASSUSDATA.COM

Active Data Guard

• physical standby在redo apply同时,支持只读查询• primary / standby 均支持RAC• 查询结果在transaction级别一致

• 对广大physical standby用户立即可以带来好处

• DR + 实时查询— 业界独一无二的技术,无闲置资源

• 支持多达30个Active Standby数据库

• 对数据库版本等软硬件环境有一定要求

Physical Standby Database

Primary Database

Real-time Queries

持续传输和应用Redo

实时查询

PARNASSUSDATA.COM

Data Guard 优势技术成熟、稳定

节约投资,运维简单

对系统运行性能影响小

能够满足用户基本业务需求

Data Guard 能够满足用户基本的数据容灾、RTO、RPO、带宽等相关基本业务需求。

Data Guard 在主数据库服务器端不存在对日志解析等工作,仅需要主数据库服务器端将 归档日志文件传输到容灾节点。因此对生产系统性能影响极小。

Oracle Data Guard 是 Oracle 原厂自带的容灾产品。该产品完全免费。在容灾软件上用户 无需支付额外费用,这可以大大节约用户的资金投入。

其核心采用了Oracle 成熟的归档、备份、恢复技术。经过多年不断的发展,已经成为一项技术成熟、稳定, 有广泛成功案例的技术。

PARNASSUSDATA.COM

容灾方案设计

议 程

容灾概述

ADG案例:“两地三中心”方案

容灾设计要素

主流容灾技术

选择合理技术方案

PARNASSUSDATA.COM

灾难容忍分析(风险分析)• 根据业务分析划定可接受的风险范围

• 各业务系统连续性要求和灾难容忍度

• IT系统的物理位置

• 企业数据整体架构等等

• 不要忽略小概率的灾难

• 灾难发生的概率统计具有片面性

• 小概率事件是一定会发生的

• 容灾失败的真实案例

• 韩国某银行被人为蓄意删除了数据对象…

• 国内某电信运营商出现了数据坏块….

PARNASSUSDATA.COM

各技术方案对常见灾难的容忍度灾难分类 磁盘镜像 卷复制 ADG

自然灾难

地震、海啸、台风等大范围灾难 √(要求主备有一定距离)

火灾、泥石流等小范围地理灾难

√ √ √

人为灾难

黑客入侵、误操作 × × √

病毒 √ √ √

设备故障

主机、盘阵等故障 √ √ √

操作系统、数据库等软件故障

√ √ √

坏数据块 × × √

PARNASSUSDATA.COM

RPO目标设定

•恢复点目标(Recovery Point Objective)•是指业务系统所允许的在灾难过程中的最大数据丢失量;•RPO的技术考量是灾备中数据复制技术的实时性。

•综合考量业务需求和技术、投资• 划分业务等级,确定关键性业务和非关键性业务,明确各业务所能接受的数据损失

• 进行技术可行性分析和投资估算,如无法实现预定目标则需要重新修订既定目标

PARNASSUSDATA.COM

避免RPO目标设定的误区•关于数据零丢失

•容灾的目标是降低灾难带来的损失,而不是彻底消除数据损失•没有任何一种技术能够真正实现各种灾难下的绝对数据零丢失•国际SHARE 78标准对于第6/7级明确定义允许数据损失为: little or no tolerance for data loss…

•容灾中的绝对数据零丢失在技术上是不存在的•目前同步复制技术目前只能局限于一定距离内(一般40公里以内),无法应对大范围地理灾难如大地震,异地灾备是无法实现同步复制的•同步复制会给生产系统带来较大影响,如果允许少量数据损失则异地实时灾备方案具有很大优势。

PARNASSUSDATA.COM

RTO目标设定•恢复时间目标(Recovery Time Objective)衡量容灾系统的业务恢复速度。

• 对业务进行分析确定宕机对业务造成的影响,从而确定对恢复速度要求

• 关键性业务和非关键性业务

• 7X24,8X5等不同服务级别

• 技术上RTO取决于日常复制时目标端数据的状态

• 磁盘镜像和卷复制由于目标端不可读,需要经过较多步骤才能恢复业务

• ADG目标端日常可读,需要修改数据库状态到可读写

• GoldenGate的目标数据库是可读写的,具备立即接管能力,可建设双业务中心,实现真正零宕机接管。

PARNASSUSDATA.COM

各技术方案对RTO的影响

恢复步骤 磁盘镜像 卷复制 ADG

文件系统的重装载 √ √ -

数据库的重装载 √ √ √

应用系统的启动 √ √ √

网络链路切换 √ √ √

总时间 长 长 短

• 使用GoldenGate实现容灾,其活动的备份数据库使备份端的应用和网络日常即可处于可用状态,无需等待底层恢复时间,是业务连续性的最高级别实现,也是当前许多企事业单位灾备建设和IT整体架构建设的努力方向

PARNASSUSDATA.COM

容灾可靠性• 容灾系统目标必须能够防御各种灾难

• 如果大地震波及上百公里,您的容灾系统是否被波及?

• 如果您的磁盘出现了坏块,您目标磁盘是否可用?

• 有人恶意删除了您的数据文件,您的目标数据还在吗?

• 容灾系统本身不能引入可能导致容灾失败的风险

• 数据复制是否可以保证目标数据一定是可用的?

• 交易的完整性和一致性是否可以得到保证?

• 日常的容灾切换演练

• 容灾必须是可演练和便于演练的,容灾演练是完善的最有效途径,每年至少举行1-3次实际演练

• 容灾失败的实际案例

• 韩国某银行被人为蓄意删除了数据对象…

• 国内某电信运营商出现了数据坏块….

PARNASSUSDATA.COM

保障容灾可靠性的建议• 以距离换取安全

• 采取异地容灾模式,主备之间几百或上千公里距离,从而隔离大范围地理灾难导致的容灾失败

• 避免采用传播错误的复制方式

• 底层复制无法区分物理读写是来自破坏还是正常读写

• 基于数据库的逻辑复制技术不会复制物理的错误

• 保证数据一致性和可用性

• 只有基于数据库的复制技术能够识别交易边界,能够完全保证目标数据是可用的

• 容灾要可演练和经常演练

• 客户实际演练的难度在于要考虑对生产的影响和难度

• ADG和GoldenGate容灾应用演练环节少,风险小,难度低,可操作性更好

PARNASSUSDATA.COM

总投资(TCO)• 投资始终是任何项目的主要约束之一。由于容灾建设耗资巨大,企业所能投入的资金总量往往是最重要的约束条件

• 影响容灾系统建设投资的因素

• 灾备的RTO、RPO、灾难范围等目标

• 机房场地等基础设施

• N+1模式灾备可提高利用率

• 主机、存储、数据库等软硬件

• 掌握商务采购的灵活性!

• 尽可能实现设备利旧

• 网络带宽及其费用

• 人员及运维管理费用

• 统一灾备方案降低运维费用

• …..

PARNASSUSDATA.COM

复制技术对总投资的影响条目\复制技术 磁盘镜像 卷复制 ADG

存储采购灵活性 有限选择 是 是

主机采购灵活性 否 否 否

设备利旧 否 有限选择 有限选择

实现逻辑一备多 否 否 否

网络带宽需求 非常高 非常高 低

总投资估算 最高 高 低

PARNASSUSDATA.COM

投资回报率(ROI)• 为什么要追求容灾系统建设的投资回报率?

• 容灾系统建设的投入巨大,但灾难的发生几率很小,造成灾备投资日常闲置率非常高,获取最大的额外收益格外重要

• 容灾系统可能的附加价值在哪里?

• 实现读写分离,分担报表和查询业务,提高整体性能

• 实现无宕机的系统升级和迁移,降低计划内停机时间

• 实现数据物理或逻辑集中,提供统一数据视图

• 集中备份同时实现数据仓库实时供给

• 用作测试等其它目的,降低生产系统风险

• 各种技术的附加价值对比

• 磁盘镜像和卷复制只能提供快照,实时性差,操作复杂

• ADG(只读)/OGG(可读写)则可以提供实时的活动备份,满足不同附加业务的各种要求

PARNASSUSDATA.COM

高可用性 – 不仅仅是容灾

Unplanned outage

移植

升级

系统停机

数据错误

#1: 活动状态

#2: 计划停机

维护

#3: 非计划停机

性能问题

PARNASSUSDATA.COM

Oracle的灾备解决方案基于Active Data Guard的第五级方案

主数据库备份库

报表,查询,测试等

Active Data Guard

主应用 备用应用

• 异地灾备• 总投资较低• 管理维护简单

• 备份库可以作实时报表、查询、测试等业务,实现生产业务负荷卸载

• 适用数据库为Oracle 11g和两端操作系统相同环境最大性能模式

PARNASSUSDATA.COM

ADG案例分析:“两地三中心”方案

PARNASSUSDATA.COM

备用observer

Far Sync

主库

备库

备库

中心一 中心二

中心三observer

备用Far Sync

应用层

ADG案例分析:“两地三中心”方案

1、利用12c新功能Far sync实现提高性能与提高数据保护性2、使用DG的Fast start Failover实现高可用3、Far sync、Observer冗余高可用4、充分利用备库实现负载均衡

监听

同城数据中心

异地

PARNASSUSDATA.COM

备用observer

Far Sync

主库

备库

备库

中心一中心二

中心三observer

备用Far Sync

应用层

1、利用12c新功能Far sync实现提高性能与提高数据保护性2、使用DG的Fast start Failover实现高可用3、Far sync、Observer冗余高可用4、充分利用备库实现负载均衡

监听

同城数据中心

异地ADG案例分析:

“两地三中心”方案

PARNASSUSDATA.COM

异地

同城数据中心

备用observer

Far Sync

旧主库

备库

新主库

中心一 中心二

中心三observer

备用Far Sync

应用层

1、Observer检测到主库故障2、执行FSFO,将本地备库切换为主库3、应用层从新的主库读取数据

FSFO

监听

两地三中心架构图

① 主库出现故障时

PARNASSUSDATA.COM

异地

同城数据中心

备用observer

Far Sync

新备库

备库

新主库

中心一 中心二

中心三observer

备用Far Sync

两地三中心架构图

①-1 主库故障被修复后

4、旧主库恢复后成为新的备库5、可将主库角色切换回旧主库

监听

应用层

读写分离/只读

PARNASSUSDATA.COM

异地

同城数据中心

备用observer

Far Sync

旧主库

新主库

备库

中心一中心二

中心三observer

备用Far Sync

两地三中心架构图

② 本地发生灾难时

1、本地Observer故障,切换到远程备用Observer2、Observer检测到本地主备库故障3、执行FSFO,将远程备库切换为主库4、应用层从新的主库读取数据

应用层

PARNASSUSDATA.COM

异地

同城数据中心

备用observer

Far Sync

新备库

新主库

备库

中心一 中心二

中心三observer

备用Far Sync

两地三中心架构图

② -1 本地灾难恢复后

4、旧主库恢复后成为新的备库5、可将主库角色切换回旧主库

应用层

Red

o数据

读写

PARNASSUSDATA.COM

异地

同城数据中心

备用observer

Far Sync

主库

备库

备库

中心一 中心二

中心三observer

备用Far Sync

两地三中心架构图

1、自动切换到备用Far sync上

监听③ Far Sync故障时

应用层读写分离/只读

PARNASSUSDATA.COM

异地

同城数据中心

备用observer

Far Sync

主库

备库

备库

中心一 中心二

中心三observer

备用Far Sync

两地三中心架构图

1、主库直接将Redo数据传输到备库上

监听④ 两个Far Sync都故障时

应用层读写分离/只读

PARNASSUSDATA.COM

异地

同城数据中心

备用observer

Far Sync

主库

备库

备库

中心一 中心二

中心三observer

备用Far Sync

两地三中心架构图

1、切换使用备用Observer

⑤ Observer故障时

应用层读写分离/只读

PARNASSUSDATA.COM

REDO数据传输方式

同步传输的详细动作 (11gR2)

主库

SQL> COMMIT;

LGWR

SGA

日志缓冲区

NSS RFS

联机REDO

SGA

日志缓冲区

Standby REDO

备库

服务进程

ACK

写入联机REDO

并行执行

COMMIT完成(返回响应)

11gR2

转移到备库

LAN/WAN/INTERNETOVER TCP/IP

PARNASSUSDATA.COM

REDO的应用

实时应用

主库NSSNSALNS

RFS

Standby REDO联机REDO

备库

归档文件 归档文件

ARCH

MRP

应用

10gR211gR111gR2

诗檀软件软件,方案,服务供应商

专注于数据

Recommended