42
1 © Copyright 2010 EMC Corporation. All rights reserved. EMC deduplikace Data Domain a Avamar Petr Rada Technický konzultant, EMC

EMC deduplikace Data Domain a Avamar

  • Upload
    dixie

  • View
    88

  • Download
    0

Embed Size (px)

DESCRIPTION

EMC deduplikace Data Domain a Avamar. Petr Rada Technick ý konzultant, EMC. Odhaduje se, že 40 exabajtů unikátních nových informací vzniklo loni na celém světě. To je více než za předchozích 5 000 let. Digit ální Svět : 2009. Vznik nových informací: Jediný růstový koeficient, - PowerPoint PPT Presentation

Citation preview

Page 1: EMC deduplikace Data Domain a Avamar

1© Copyright 2010 EMC Corporation. All rights reserved.

EMC deduplikaceData Domain a Avamar

Petr RadaTechnický konzultant, EMC

Page 2: EMC deduplikace Data Domain a Avamar

Odhaduje se, že 40 exabajtů unikátních nových informací

vzniklo loni na celém světě

Page 3: EMC deduplikace Data Domain a Avamar

To je více než za

předchozích 5 000 let

Page 4: EMC deduplikace Data Domain a Avamar

4© Copyright 2010 EMC Corporation. All rights reserved.

Digitální Svět: 2009

Vznik nových informací:

Jediný růstový koeficient,

který není v době ekonomické krize negativní

Digitální Svět

zdvojnásobuje objem

každých 18 měsíců

Source: IDC Digital Universe White Paper, Sponsored by EMC, May 2009

Page 5: EMC deduplikace Data Domain a Avamar

5© Copyright 2010 EMC Corporation. All rights reserved.

0

1,000

1,500

2,000

2,500

2008 2009 2010 2011 2012

DVDRFID

Digital TVMP3 players

Digital camerasCamera phones, VoIP

Medical imaging, Laptops,Data center applications, Games

Satellite images, GPS, ATMs, ScannersSensors, Digital radio, DLP theaters, Telematics

Peer-to-peer, Email, Instant messaging, Videoconferencing,CAD/CAM, Toys, Industrial machines, Security systems, Appliances

2,502Exabajty

Source: IDC Digital Universe White Paper, Sponsored by EMC, May 2009

500

Exabajty

5xnárůst za4roky

Exploze Digitálního Vesmíru

486Exabajtů

Page 6: EMC deduplikace Data Domain a Avamar

6© Copyright 2010 EMC Corporation. All rights reserved.

0

10,000

20,000

30,000

40,000

50,000

2005 2006 2007 2008 2009 2010 2011 2012Source: IDC Digital Universe White Paper, Sponsored by EMC, May 2009

Úložiště podle typu dat (Petabajty)

Digitální Svět – charakter dat

Strukturovaná & Replikovaná

Nestrukturovaná

Page 7: EMC deduplikace Data Domain a Avamar

7© Copyright 2010 EMC Corporation. All rights reserved.

Digitální svět v roce 2012

70%Bude vytvořenojednotlivci

85%Organizace budouzodpovědné zazabezpečení,ochranu soukr. údajů,soulad s legislativoua předpisy,důvěryhodnost…

Paradox zodpovědnosti

Source: IDC Digital Universe White Paper, Sponsored by EMC, May 2009

Page 8: EMC deduplikace Data Domain a Avamar

8© Copyright 2010 EMC Corporation. All rights reserved.

Zálohování pod lupou

palčivé výzvy zálohování– obrovský nárůst zálohovaných dat – primární

data se zálohují 15-20x– dodržení doby zálohy/obnovy (SLA)– spotřeba energie, chlazení a zaplnění

serverovny– nákladný a nebezpečný transport pásek

mimo datové centrum

– výzvy spojené s páskami spolehlivost manipulační náročnost mechanická poškození delší časy obnovy technologické upgrady

Page 9: EMC deduplikace Data Domain a Avamar

9© Copyright 2010 EMC Corporation. All rights reserved.

Zálohovací schéma = potřebná kapacita

Primární data1x

Záložní data15x-20x

Page 10: EMC deduplikace Data Domain a Avamar

Řešení?

DEDUPLIKACE

Page 11: EMC deduplikace Data Domain a Avamar

11© Copyright 2010 EMC Corporation. All rights reserved.

Deduplikace. Je to zázrak?

Zákazník

EMC konzultant

Myslím, že by jste měl být více konkrétní zde, v kroku dva.

...a potom nastane zázrak...

Page 12: EMC deduplikace Data Domain a Avamar

12© Copyright 2010 EMC Corporation. All rights reserved.

Hlavní typy deduplikace

Typy deduplikace dle různých kritérií

SOUBOROVÁ SUB-SOUBOROVÁ

FIXNÍ DÉLKA BLOKUVARIABILNÍ DÉLKA

BLOKU

POST-PROCES INLINE

NA ZDROJI NA CÍLI

Page 13: EMC deduplikace Data Domain a Avamar

13© Copyright 2010 EMC Corporation. All rights reserved.

Logická data Fyzická data

Storage 3.0 – další krok

Storage1.0

PRIMÁRNÍ PÁSKY

Storage2.0 PRIMÁRNÍ

SATA & RAID PÁSKY

Storage3.0

PR

IMÁ

RN

Í

DEDUPLIKOVANÁ STORAGE

SK

Y

Page 14: EMC deduplikace Data Domain a Avamar

14© Copyright 2010 EMC Corporation. All rights reserved.

Deduplikace mění zálohovací paradigma

Deduplikace bez nutnosti cokoliv měnit

Nikdy nezálohuje stejná data dvakrát

Data DomainDeduplikační storage

Avamar Deduplikační zálohovací řešení

Page 15: EMC deduplikace Data Domain a Avamar

15© Copyright 2010 EMC Corporation. All rights reserved.

Data Domain - profil společnosti

založena v roce 2001

vize deduplikované storage od samého začátku

900 zaměstnanců

součást EMC BRS divize

nejrychleji rostoucí storage společnost v roce 2004

Page 16: EMC deduplikace Data Domain a Avamar

16© Copyright 2010 EMC Corporation. All rights reserved.

Data Domain - lídr v deduplikaci

Deduplikační storage systémy Data Domain první a nejvíce rozšířený deduplikační systém 9500 systémů instalováno celosvětově 3600 koncových uživatelů > 1650 petabajtů dat je bezpečně uloženo na Data Domain řešení čtvrté generace průměrný deduplikační poměr dosažený celosvětově - 13,4:1

Dedupe NASDedupe NAS

Dedupe ReplikaceDedupe

Replikace

Dedupe GatewayDedupe Gateway

Největší dedupe poleNejvětší dedupe pole

Dedupe VTLDedupe VTL

2003 2004 2005 2006 2007

Dedupe Nearline Storage

Dedupe Nearline Storage

2008 2009

Nejrychlejší Inline

Kontroller

Nejrychlejší Inline

Kontroller

Page 17: EMC deduplikace Data Domain a Avamar

17© Copyright 2010 EMC Corporation. All rights reserved.

Deduplikační poměr aneb kolik kapacity ušetřím?

Deduplikační poměr• kapacita všech záloh uložených na zálohovací storage

vůči kapacitě skutečně obsazené

ušetřená kapacita v % = 100-(100/x), kde x=deduplikační poměr

deduplikační poměr

% ušetřené kapacity

2 : 1 50 %

5 : 1 80 %

10 : 1 90 %

13,4 : 1 92,5 %

15 : 1 93 %

20 : 1 95 %

25 : 1 96 %

Page 18: EMC deduplikace Data Domain a Avamar

18© Copyright 2010 EMC Corporation. All rights reserved.

Reálný zákazník: 20ti násobné snížení kapacity

červená linka = množství dat uložených v Data Domain (virtuální storage)

zelená linka = obsazená kapacita (fyzická storage)

modrá linka = kumulovaný deduplikační faktor

DD560

180 TB uloženo

8 TB využité kapacity

20x redukce

5ti měsíční retence

6U v racku

replikace mimo lokalitu

Page 19: EMC deduplikace Data Domain a Avamar

19© Copyright 2010 EMC Corporation. All rights reserved.

Data Domain storage systémy

DD610-DD660 Series

DD140 DD610 DD630 DD660 DD690 DD880

Rychlost (GB/hod.) 450 6751 1.1 TB/hr1 2 TB/hr2 2.7 TB/hr2 5.4 TB/hr2

Logická kap. (TB)* 17 75 165 520 710 1420

Hrubá kap. (TB) 1.5 6 12 36 48 96

Použitelná kap. (TB) .86 3.98 8.4 26.1 35.3 71

DD140 pro vzdálené pobočky

DD690DD880

*Logická kapacita je počítána pro deduplikační poměr 20:11) maximální propustnosti bylo dosaženo VTL protokolem přes 4 Gbps FC porty2) maximální propustnosti bylo dosaženo OST protokolem přes 10 Gb Ethernet porty

DDX Array Series

Page 20: EMC deduplikace Data Domain a Avamar

20© Copyright 2010 EMC Corporation. All rights reserved.

Data Domain architektura a nasazení

disk disk disk disk disk disk

DD OS a FileSystem

CPU a Paměť

CIFS NFS VTLOST

Ethernet NIC (1/10 GbE) FC HBA

Mohou být interní SATA nebo LUNy externí SAN storage

Datové kontajney uloženy v optimalizovaném dedikovaném filesystému

Inline deduplikace, komprese a prefetching

Použijte protokol, který vám vyhovuje nebo je zkombinujte

Použijte interface, který vám vyhovuje nebo oba zároveň

REPL

Page 21: EMC deduplikace Data Domain a Avamar

21© Copyright 2010 EMC Corporation. All rights reserved.

Infrastruktura a ekosystém s Data Domain

VMwareMicrosoft

Microsoft SharePointOracleSAP

Záloha midrange amainframe partneři

LaserVaultLuminex

Archiv

NAS, SAN, DAS

EMCSymantec

CommVault

CAHP

Vizioncore

Zálohovací aplikace

SymantecCommVault

F5

Archivační aplikace

EMC Data Domaindeduplikační storage

Disaster Recovery

IBM TivoliAtempoBakbone

Primárnístorage

Replikacepřes WANsíť

EMCMimosa

File System / EthernetVTL / Fibre Channel

Page 22: EMC deduplikace Data Domain a Avamar

22© Copyright 2010 EMC Corporation. All rights reserved.

Data Domain deduplikace – DD OS

deduplikace na cíli- SATA disky s RAID6 ochranou

sub-souborová deduplikace s variabilní délkou bloku

- velikost segmentu 4 – 12 KB

inline deduplikace- 99 % duplicitních segmentů je

identifikováno v RAM

CPU centric deduplikace- zvýšením výkonu procesoru se navyšuje

rychlost deduplikace

Global Compression

Local Compression

RAID

File System

GenerateChecksum

VerifyData

Page 23: EMC deduplikace Data Domain a Avamar

23© Copyright 2010 EMC Corporation. All rights reserved.

Deduplikovaná replikace - minimalizuje nároky na přenosové linky

• jsou přenášeny pouze unikátní segmenty a metadata

• všechny zálohy jsou dostupné v obou lokalitách pro obnovu či jako kopie

• žádný management na denní bázi nebo transport pásek

Zdroj Replika200 GB zápisů

200 GB

200 GB zápisůZálohovací

Server A

10 TB

ZálohovacíServer B

10 TB

Lokalita A Lokalita B

10 TB10 TB

10 TB10 TB

10 TB

10 TB10 TB

10 TB10 TB

10 TB

Page 24: EMC deduplikace Data Domain a Avamar

24© Copyright 2010 EMC Corporation. All rights reserved.

Využití Data Domain deduplikované storage

ZÁLOHOVACÍ SERVERY

ARCHIVAČNÍ SERVERY

Lokální záloha

Disaster Recovery

APLIKAČNÍ SERVERY

DEDUPLIKOVANÁ IP REPLIKACE

funkční deduplikace

snadná integrace se stávajícím zálohovacím sw

deduplikovaná replikace do vzdálené lokality (DR)

CPU centric deduplikace

Page 25: EMC deduplikace Data Domain a Avamar

25© Copyright 2010 EMC Corporation. All rights reserved.

Někteří zákazníci s Data Domain

Page 26: EMC deduplikace Data Domain a Avamar

26© Copyright 2010 EMC Corporation. All rights reserved.

www.dedupecalculator.com

Page 27: EMC deduplikace Data Domain a Avamar

27© Copyright 2010 EMC Corporation. All rights reserved.

AVAMAR SOFTWARE

EMC Avamar

redukuje velikost zálohy na zdroji, dříve než je přenesena po síti

rychleji vytváří plné zálohy při využití stávající infrastruktury

deduplikuje napříč servery a lokalitami a zmenšuje až 50x fyzickou velikost záložní storage

ideální pro zálohování virtualizovaných prostředí, vzdálených poboček, serverů i uživatelských stanic/laptopů

řeší problémy, na které konvenční zálohovací sw nestačí

Zálohovací řešení s globální deduplikací na zdroji

AVAMAR VIRTUAL EDITION pro VMware

Avamar VM

Operating System

AVAMAR DATA STORE

Možnost instalace na předepsané typy serverů

Zálohovací zařízení včetně software/hardware

Avamar server implementovaný jako virtuální stroj

Page 28: EMC deduplikace Data Domain a Avamar

28© Copyright 2010 EMC Corporation. All rights reserved.

Avamar základní přehled

Avamar je kompletní zálohovací software/hardware

Každá záloha je logická plná záloha – při Avamar záloze se přenáší

mnohem méně dat než při inkrementální záloze nicméně se logicky jeví jako plná záloha a obnova je pouze jednokroková

Redundant Array of Independent Nodes (RAIN) architektura

– každý node obsahuje interní disky a CPU

– zaručuje vysokou dostupnost a ochranu proti chybě napříč nody

Gridová architektura zaručuje online škálovatelnost a výkonnost

Avamar Server

Parita napříč storage nody

Verifikované checkpointy

Utility aspare node

Page 29: EMC deduplikace Data Domain a Avamar

29© Copyright 2010 EMC Corporation. All rights reserved.

Zálohovací cyklus: Sticky-byte Factoring

První záloha: data jsou rozdělena na segmenty s proměnnou délkou

10K 22K25K 8K18KStickyByte

FactoringAlgorithm

Následující záloha beze změn v souboru: segmenty jsou rozděleny identicky jako při předešlé záloze

10K 22K25K 8K18KStickyByte

FactoringAlgorithm

Další záloha po změně v souboru: velice rychle jsou segmenty v synchronizaci s předešlými

8K 22K25K 8K20KStickyByte

FactoringAlgorithm

Page 30: EMC deduplikace Data Domain a Avamar

30© Copyright 2010 EMC Corporation. All rights reserved.

Zálohovací cyklus: komprimace

Komprimuje segmenty v rozsahu 30 až 70 %.Průměrná velikost segmentu po kompresi je ~12KB.

8K 22K25K 8K20K

15K4K 13K 4K

StickyByte

FactoringAlgorithm

12KCompression

Page 31: EMC deduplikace Data Domain a Avamar

31© Copyright 2010 EMC Corporation. All rights reserved.

12K

Zálohovací cyklus: SHA-1Hashing

používá SHA-1 secure hash algoritmus vytváří 20-bytový datový řetězec z komprimovaných datových segmentů

8K 22K25K 8K20K

15K4K 13K 4K

StickyByte

FactoringAlgorithm

12KCompression

Hashing

20-byte hash20-byte hash20-byte hash20-byte hash

20-byte hash

4K 15K 4K13K

atomic hashes

Page 32: EMC deduplikace Data Domain a Avamar

32© Copyright 2010 EMC Corporation. All rights reserved.

20-byte hash

20-byte hash

20-byte hash

20-byte hash

Zálohovací cyklus: Hash File System

12KAtomics(Data

segments)

Root Hash

20-byte hash

20-byte hash

20-byte hash

20-byte hash

20-byte hash

4K 15K 4K13K

AtomicHashes

CompositeHashes

20-byte hash

20-byte hash

20-byte hash

20-byte hash

20-byte hash

20-byte hash

20-byte hash

Page 33: EMC deduplikace Data Domain a Avamar

33© Copyright 2010 EMC Corporation. All rights reserved.

Typ datMnožství

primárních dat

Množství přenesených

dat

Dedup. poměr

na “cíli”

Windows file systémy 3,573 GB6.1 GB(586:1)

45:1

Mix Windows, Linux a UNIX file systémů

5,097 GB 11.7 GB 40:1

Engineering soubory na NAS zařízeních (NDMP zálohy)

3,265 GB 24.2 GB 21:1

Mix 20 % databáze a 80 % souborové systémy (Windows a UNIX)

9,583 GB 80.0 GB 19:1

Mix Linuxových file systémů a databází

7,831 GB 104.2 GB 14:1

Dosahované deduplikační poměry

90 denní retence

Page 34: EMC deduplikace Data Domain a Avamar

34© Copyright 2010 EMC Corporation. All rights reserved.

Avamar – záloha VMDK souboru

Page 35: EMC deduplikace Data Domain a Avamar

35© Copyright 2010 EMC Corporation. All rights reserved.

Avamar – různé způsoby nasazení

WAN

(ENCRYPTED)

(ENCRYPTED)

Data centrum

Primární systémy

Avamar Data Store

(ENCRYPTED)

Záložní lokalita

Primární systémy

TapeVault

Avamar Data Store

Menší pobočka

Pouze Avamar agenti na primárních systémech

Větší pobočka

Primární systémy

Avamar Single Node

(ENCRYPTED)

Avamar Software Agent

Page 36: EMC deduplikace Data Domain a Avamar

36© Copyright 2010 EMC Corporation. All rights reserved.

až 95% redukce přenesených dat

až 90% zkrácení zálohovacích časů

až 50% snížení zátěže na zdrojových discích

až 95% redukce využití NIC

až 80% redukce zatížení CPU

až 50% snížení využití paměti

všechny zálohy jsou uchovávány jako „virtuální plné zálohy“ a jdou okamžitě obnovit

x86 Architecture

VMware Virtualization Layer

Tradičně se přenáší ~200% týdně

Avamar přenáší ~2% týdně

x86 Architecture

VMware Virtualization Layer

DiskNICMemoryCPU

Application

Operating System

Application

Operating System

AppOS

AppOS

AppOS

AppOS

AppOS

AppOS

AppOS

AppOS

AppOS

AppOS

AppOS

AppOS

DiskNICMemoryCPU

Avamar optimalizuje zálohování VMware

Page 37: EMC deduplikace Data Domain a Avamar

37© Copyright 2010 EMC Corporation. All rights reserved.

Tradiční zálohování vs Avamar - při zátěži

Avamar dovoluje regulovat vytížení CPU per klient pro

zákazníky, kteří jsou citliví na CPU utilizaci

Page 38: EMC deduplikace Data Domain a Avamar

38© Copyright 2010 EMC Corporation. All rights reserved.

Replikace po deduplikaci

Backup de-duplication

Avamar deduplikovaná replikace pro DR

Bez deduplikace

nulová redukce kapacity v data centru

nezkrácená délka replikace a vysoké zatížení sítě

vysoké nároky na kapacitu i ve vzdálené lokalitě

S využitím deduplikace

redukované požadavky na kapacitu v primárním data centru

zkrácení délky replikace a nároků na síť

snížené nároky na kapacitu v cílové pobočce

Vzdálená replikace bez deduplikace

Primární lokalita Vzdálená lokalita Primární lokalita Vzdálená lokalita

Page 39: EMC deduplikace Data Domain a Avamar

39© Copyright 2010 EMC Corporation. All rights reserved.

DEDUPLIKACE NA CÍLI DEDUPLIKACE NA ZDROJI

Deduplikace na zdroji vs na cíli

Přenáší týdně ~ 2 procenta primárních dat

Až 50x menší úložný prostor pro zálohy

Až 500x menší zatížení sítě

Až 10x rychlejší denní plné zálohy

Všechny zálohy jsou plné zálohy; okamžitá obnova v jednom kroku

Přenáší týdně ~ 200 procent primárních dat

Až 50x menší úložný prostor pro zálohy

Obnova tradičně probíhá z inkrementálních a plných záloh

síťsíť

Obě technologie mají své opodstatnění, nicméně pouze deduplikace na zdroji pomáhá redukovat zatížení sítě a snižuje zatížení zdrojů v průběhu zálohování.

Page 40: EMC deduplikace Data Domain a Avamar

40© Copyright 2010 EMC Corporation. All rights reserved.

Data Domain Avamar

Licencování Data Domain a Avamar

pouze podle využitelné fyzické kapacity

neplatí se za:

klienty – servery/desktopy

aplikační moduly

apod.

dle modelu a využitelné kapacity

žádné tirované licence dle kapacity

licence na celý box pro

replikace

retenční zámek pro archivní data

zprovoznění OpenStorage protokolu

zprovoznění VTL protokolu

Page 41: EMC deduplikace Data Domain a Avamar

41© Copyright 2010 EMC Corporation. All rights reserved.

Deduplikace mění zálohovací paradigma

Deduplikace bez nutnosti cokoliv měnit

Nikdy nezálohuje stejná data dvakrát

Data DomainDeduplikační storage

Avamar Deduplikační zálohovací řešení

Page 42: EMC deduplikace Data Domain a Avamar