Upload
dixie
View
88
Download
0
Embed Size (px)
DESCRIPTION
EMC deduplikace Data Domain a Avamar. Petr Rada Technick ý konzultant, EMC. Odhaduje se, že 40 exabajtů unikátních nových informací vzniklo loni na celém světě. To je více než za předchozích 5 000 let. Digit ální Svět : 2009. Vznik nových informací: Jediný růstový koeficient, - PowerPoint PPT Presentation
Citation preview
1© Copyright 2010 EMC Corporation. All rights reserved.
EMC deduplikaceData Domain a Avamar
Petr RadaTechnický konzultant, EMC
Odhaduje se, že 40 exabajtů unikátních nových informací
vzniklo loni na celém světě
To je více než za
předchozích 5 000 let
4© Copyright 2010 EMC Corporation. All rights reserved.
Digitální Svět: 2009
Vznik nových informací:
Jediný růstový koeficient,
který není v době ekonomické krize negativní
Digitální Svět
zdvojnásobuje objem
každých 18 měsíců
Source: IDC Digital Universe White Paper, Sponsored by EMC, May 2009
5© Copyright 2010 EMC Corporation. All rights reserved.
0
1,000
1,500
2,000
2,500
2008 2009 2010 2011 2012
DVDRFID
Digital TVMP3 players
Digital camerasCamera phones, VoIP
Medical imaging, Laptops,Data center applications, Games
Satellite images, GPS, ATMs, ScannersSensors, Digital radio, DLP theaters, Telematics
Peer-to-peer, Email, Instant messaging, Videoconferencing,CAD/CAM, Toys, Industrial machines, Security systems, Appliances
2,502Exabajty
Source: IDC Digital Universe White Paper, Sponsored by EMC, May 2009
500
Exabajty
5xnárůst za4roky
Exploze Digitálního Vesmíru
486Exabajtů
6© Copyright 2010 EMC Corporation. All rights reserved.
0
10,000
20,000
30,000
40,000
50,000
2005 2006 2007 2008 2009 2010 2011 2012Source: IDC Digital Universe White Paper, Sponsored by EMC, May 2009
Úložiště podle typu dat (Petabajty)
Digitální Svět – charakter dat
Strukturovaná & Replikovaná
Nestrukturovaná
7© Copyright 2010 EMC Corporation. All rights reserved.
Digitální svět v roce 2012
70%Bude vytvořenojednotlivci
85%Organizace budouzodpovědné zazabezpečení,ochranu soukr. údajů,soulad s legislativoua předpisy,důvěryhodnost…
Paradox zodpovědnosti
Source: IDC Digital Universe White Paper, Sponsored by EMC, May 2009
8© Copyright 2010 EMC Corporation. All rights reserved.
Zálohování pod lupou
palčivé výzvy zálohování– obrovský nárůst zálohovaných dat – primární
data se zálohují 15-20x– dodržení doby zálohy/obnovy (SLA)– spotřeba energie, chlazení a zaplnění
serverovny– nákladný a nebezpečný transport pásek
mimo datové centrum
– výzvy spojené s páskami spolehlivost manipulační náročnost mechanická poškození delší časy obnovy technologické upgrady
9© Copyright 2010 EMC Corporation. All rights reserved.
Zálohovací schéma = potřebná kapacita
Primární data1x
Záložní data15x-20x
Řešení?
DEDUPLIKACE
11© Copyright 2010 EMC Corporation. All rights reserved.
Deduplikace. Je to zázrak?
Zákazník
EMC konzultant
Myslím, že by jste měl být více konkrétní zde, v kroku dva.
...a potom nastane zázrak...
12© Copyright 2010 EMC Corporation. All rights reserved.
Hlavní typy deduplikace
Typy deduplikace dle různých kritérií
SOUBOROVÁ SUB-SOUBOROVÁ
FIXNÍ DÉLKA BLOKUVARIABILNÍ DÉLKA
BLOKU
POST-PROCES INLINE
NA ZDROJI NA CÍLI
13© Copyright 2010 EMC Corporation. All rights reserved.
Logická data Fyzická data
Storage 3.0 – další krok
Storage1.0
PRIMÁRNÍ PÁSKY
Storage2.0 PRIMÁRNÍ
SATA & RAID PÁSKY
Storage3.0
PR
IMÁ
RN
Í
DEDUPLIKOVANÁ STORAGE
PÁ
SK
Y
14© Copyright 2010 EMC Corporation. All rights reserved.
Deduplikace mění zálohovací paradigma
Deduplikace bez nutnosti cokoliv měnit
Nikdy nezálohuje stejná data dvakrát
Data DomainDeduplikační storage
Avamar Deduplikační zálohovací řešení
15© Copyright 2010 EMC Corporation. All rights reserved.
Data Domain - profil společnosti
založena v roce 2001
vize deduplikované storage od samého začátku
900 zaměstnanců
součást EMC BRS divize
nejrychleji rostoucí storage společnost v roce 2004
16© Copyright 2010 EMC Corporation. All rights reserved.
Data Domain - lídr v deduplikaci
Deduplikační storage systémy Data Domain první a nejvíce rozšířený deduplikační systém 9500 systémů instalováno celosvětově 3600 koncových uživatelů > 1650 petabajtů dat je bezpečně uloženo na Data Domain řešení čtvrté generace průměrný deduplikační poměr dosažený celosvětově - 13,4:1
Dedupe NASDedupe NAS
Dedupe ReplikaceDedupe
Replikace
Dedupe GatewayDedupe Gateway
Největší dedupe poleNejvětší dedupe pole
Dedupe VTLDedupe VTL
2003 2004 2005 2006 2007
Dedupe Nearline Storage
Dedupe Nearline Storage
2008 2009
Nejrychlejší Inline
Kontroller
Nejrychlejší Inline
Kontroller
17© Copyright 2010 EMC Corporation. All rights reserved.
Deduplikační poměr aneb kolik kapacity ušetřím?
Deduplikační poměr• kapacita všech záloh uložených na zálohovací storage
vůči kapacitě skutečně obsazené
ušetřená kapacita v % = 100-(100/x), kde x=deduplikační poměr
deduplikační poměr
% ušetřené kapacity
2 : 1 50 %
5 : 1 80 %
10 : 1 90 %
13,4 : 1 92,5 %
15 : 1 93 %
20 : 1 95 %
25 : 1 96 %
18© Copyright 2010 EMC Corporation. All rights reserved.
Reálný zákazník: 20ti násobné snížení kapacity
červená linka = množství dat uložených v Data Domain (virtuální storage)
zelená linka = obsazená kapacita (fyzická storage)
modrá linka = kumulovaný deduplikační faktor
DD560
180 TB uloženo
8 TB využité kapacity
20x redukce
5ti měsíční retence
6U v racku
replikace mimo lokalitu
19© Copyright 2010 EMC Corporation. All rights reserved.
Data Domain storage systémy
DD610-DD660 Series
DD140 DD610 DD630 DD660 DD690 DD880
Rychlost (GB/hod.) 450 6751 1.1 TB/hr1 2 TB/hr2 2.7 TB/hr2 5.4 TB/hr2
Logická kap. (TB)* 17 75 165 520 710 1420
Hrubá kap. (TB) 1.5 6 12 36 48 96
Použitelná kap. (TB) .86 3.98 8.4 26.1 35.3 71
DD140 pro vzdálené pobočky
DD690DD880
*Logická kapacita je počítána pro deduplikační poměr 20:11) maximální propustnosti bylo dosaženo VTL protokolem přes 4 Gbps FC porty2) maximální propustnosti bylo dosaženo OST protokolem přes 10 Gb Ethernet porty
DDX Array Series
20© Copyright 2010 EMC Corporation. All rights reserved.
Data Domain architektura a nasazení
disk disk disk disk disk disk
DD OS a FileSystem
CPU a Paměť
CIFS NFS VTLOST
Ethernet NIC (1/10 GbE) FC HBA
Mohou být interní SATA nebo LUNy externí SAN storage
Datové kontajney uloženy v optimalizovaném dedikovaném filesystému
Inline deduplikace, komprese a prefetching
Použijte protokol, který vám vyhovuje nebo je zkombinujte
Použijte interface, který vám vyhovuje nebo oba zároveň
REPL
21© Copyright 2010 EMC Corporation. All rights reserved.
Infrastruktura a ekosystém s Data Domain
VMwareMicrosoft
Microsoft SharePointOracleSAP
Záloha midrange amainframe partneři
LaserVaultLuminex
Archiv
NAS, SAN, DAS
EMCSymantec
CommVault
CAHP
Vizioncore
Zálohovací aplikace
SymantecCommVault
F5
Archivační aplikace
EMC Data Domaindeduplikační storage
Disaster Recovery
IBM TivoliAtempoBakbone
Primárnístorage
Replikacepřes WANsíť
EMCMimosa
File System / EthernetVTL / Fibre Channel
22© Copyright 2010 EMC Corporation. All rights reserved.
Data Domain deduplikace – DD OS
deduplikace na cíli- SATA disky s RAID6 ochranou
sub-souborová deduplikace s variabilní délkou bloku
- velikost segmentu 4 – 12 KB
inline deduplikace- 99 % duplicitních segmentů je
identifikováno v RAM
CPU centric deduplikace- zvýšením výkonu procesoru se navyšuje
rychlost deduplikace
Global Compression
Local Compression
RAID
File System
GenerateChecksum
VerifyData
23© Copyright 2010 EMC Corporation. All rights reserved.
Deduplikovaná replikace - minimalizuje nároky na přenosové linky
• jsou přenášeny pouze unikátní segmenty a metadata
• všechny zálohy jsou dostupné v obou lokalitách pro obnovu či jako kopie
• žádný management na denní bázi nebo transport pásek
Zdroj Replika200 GB zápisů
200 GB
200 GB zápisůZálohovací
Server A
10 TB
ZálohovacíServer B
10 TB
Lokalita A Lokalita B
10 TB10 TB
10 TB10 TB
10 TB
10 TB10 TB
10 TB10 TB
10 TB
24© Copyright 2010 EMC Corporation. All rights reserved.
Využití Data Domain deduplikované storage
ZÁLOHOVACÍ SERVERY
ARCHIVAČNÍ SERVERY
Lokální záloha
Disaster Recovery
APLIKAČNÍ SERVERY
DEDUPLIKOVANÁ IP REPLIKACE
funkční deduplikace
snadná integrace se stávajícím zálohovacím sw
deduplikovaná replikace do vzdálené lokality (DR)
CPU centric deduplikace
25© Copyright 2010 EMC Corporation. All rights reserved.
Někteří zákazníci s Data Domain
26© Copyright 2010 EMC Corporation. All rights reserved.
www.dedupecalculator.com
27© Copyright 2010 EMC Corporation. All rights reserved.
AVAMAR SOFTWARE
EMC Avamar
redukuje velikost zálohy na zdroji, dříve než je přenesena po síti
rychleji vytváří plné zálohy při využití stávající infrastruktury
deduplikuje napříč servery a lokalitami a zmenšuje až 50x fyzickou velikost záložní storage
ideální pro zálohování virtualizovaných prostředí, vzdálených poboček, serverů i uživatelských stanic/laptopů
řeší problémy, na které konvenční zálohovací sw nestačí
Zálohovací řešení s globální deduplikací na zdroji
AVAMAR VIRTUAL EDITION pro VMware
Avamar VM
Operating System
AVAMAR DATA STORE
Možnost instalace na předepsané typy serverů
Zálohovací zařízení včetně software/hardware
Avamar server implementovaný jako virtuální stroj
28© Copyright 2010 EMC Corporation. All rights reserved.
Avamar základní přehled
Avamar je kompletní zálohovací software/hardware
Každá záloha je logická plná záloha – při Avamar záloze se přenáší
mnohem méně dat než při inkrementální záloze nicméně se logicky jeví jako plná záloha a obnova je pouze jednokroková
Redundant Array of Independent Nodes (RAIN) architektura
– každý node obsahuje interní disky a CPU
– zaručuje vysokou dostupnost a ochranu proti chybě napříč nody
Gridová architektura zaručuje online škálovatelnost a výkonnost
Avamar Server
Parita napříč storage nody
Verifikované checkpointy
Utility aspare node
29© Copyright 2010 EMC Corporation. All rights reserved.
Zálohovací cyklus: Sticky-byte Factoring
První záloha: data jsou rozdělena na segmenty s proměnnou délkou
10K 22K25K 8K18KStickyByte
FactoringAlgorithm
Následující záloha beze změn v souboru: segmenty jsou rozděleny identicky jako při předešlé záloze
10K 22K25K 8K18KStickyByte
FactoringAlgorithm
Další záloha po změně v souboru: velice rychle jsou segmenty v synchronizaci s předešlými
8K 22K25K 8K20KStickyByte
FactoringAlgorithm
30© Copyright 2010 EMC Corporation. All rights reserved.
Zálohovací cyklus: komprimace
Komprimuje segmenty v rozsahu 30 až 70 %.Průměrná velikost segmentu po kompresi je ~12KB.
8K 22K25K 8K20K
15K4K 13K 4K
StickyByte
FactoringAlgorithm
12KCompression
31© Copyright 2010 EMC Corporation. All rights reserved.
12K
Zálohovací cyklus: SHA-1Hashing
používá SHA-1 secure hash algoritmus vytváří 20-bytový datový řetězec z komprimovaných datových segmentů
8K 22K25K 8K20K
15K4K 13K 4K
StickyByte
FactoringAlgorithm
12KCompression
Hashing
20-byte hash20-byte hash20-byte hash20-byte hash
20-byte hash
4K 15K 4K13K
atomic hashes
32© Copyright 2010 EMC Corporation. All rights reserved.
20-byte hash
20-byte hash
20-byte hash
20-byte hash
Zálohovací cyklus: Hash File System
12KAtomics(Data
segments)
Root Hash
20-byte hash
20-byte hash
20-byte hash
20-byte hash
20-byte hash
4K 15K 4K13K
AtomicHashes
CompositeHashes
20-byte hash
20-byte hash
20-byte hash
20-byte hash
20-byte hash
20-byte hash
20-byte hash
33© Copyright 2010 EMC Corporation. All rights reserved.
Typ datMnožství
primárních dat
Množství přenesených
dat
Dedup. poměr
na “cíli”
Windows file systémy 3,573 GB6.1 GB(586:1)
45:1
Mix Windows, Linux a UNIX file systémů
5,097 GB 11.7 GB 40:1
Engineering soubory na NAS zařízeních (NDMP zálohy)
3,265 GB 24.2 GB 21:1
Mix 20 % databáze a 80 % souborové systémy (Windows a UNIX)
9,583 GB 80.0 GB 19:1
Mix Linuxových file systémů a databází
7,831 GB 104.2 GB 14:1
Dosahované deduplikační poměry
90 denní retence
34© Copyright 2010 EMC Corporation. All rights reserved.
Avamar – záloha VMDK souboru
35© Copyright 2010 EMC Corporation. All rights reserved.
Avamar – různé způsoby nasazení
WAN
(ENCRYPTED)
(ENCRYPTED)
Data centrum
Primární systémy
Avamar Data Store
(ENCRYPTED)
Záložní lokalita
Primární systémy
TapeVault
Avamar Data Store
Menší pobočka
Pouze Avamar agenti na primárních systémech
Větší pobočka
Primární systémy
Avamar Single Node
(ENCRYPTED)
Avamar Software Agent
36© Copyright 2010 EMC Corporation. All rights reserved.
až 95% redukce přenesených dat
až 90% zkrácení zálohovacích časů
až 50% snížení zátěže na zdrojových discích
až 95% redukce využití NIC
až 80% redukce zatížení CPU
až 50% snížení využití paměti
všechny zálohy jsou uchovávány jako „virtuální plné zálohy“ a jdou okamžitě obnovit
x86 Architecture
VMware Virtualization Layer
Tradičně se přenáší ~200% týdně
Avamar přenáší ~2% týdně
x86 Architecture
VMware Virtualization Layer
DiskNICMemoryCPU
Application
Operating System
Application
Operating System
AppOS
AppOS
AppOS
AppOS
AppOS
AppOS
AppOS
AppOS
AppOS
AppOS
AppOS
AppOS
DiskNICMemoryCPU
Avamar optimalizuje zálohování VMware
37© Copyright 2010 EMC Corporation. All rights reserved.
Tradiční zálohování vs Avamar - při zátěži
Avamar dovoluje regulovat vytížení CPU per klient pro
zákazníky, kteří jsou citliví na CPU utilizaci
38© Copyright 2010 EMC Corporation. All rights reserved.
Replikace po deduplikaci
Backup de-duplication
Avamar deduplikovaná replikace pro DR
Bez deduplikace
nulová redukce kapacity v data centru
nezkrácená délka replikace a vysoké zatížení sítě
vysoké nároky na kapacitu i ve vzdálené lokalitě
S využitím deduplikace
redukované požadavky na kapacitu v primárním data centru
zkrácení délky replikace a nároků na síť
snížené nároky na kapacitu v cílové pobočce
Vzdálená replikace bez deduplikace
Primární lokalita Vzdálená lokalita Primární lokalita Vzdálená lokalita
39© Copyright 2010 EMC Corporation. All rights reserved.
DEDUPLIKACE NA CÍLI DEDUPLIKACE NA ZDROJI
Deduplikace na zdroji vs na cíli
Přenáší týdně ~ 2 procenta primárních dat
Až 50x menší úložný prostor pro zálohy
Až 500x menší zatížení sítě
Až 10x rychlejší denní plné zálohy
Všechny zálohy jsou plné zálohy; okamžitá obnova v jednom kroku
Přenáší týdně ~ 200 procent primárních dat
Až 50x menší úložný prostor pro zálohy
Obnova tradičně probíhá z inkrementálních a plných záloh
síťsíť
Obě technologie mají své opodstatnění, nicméně pouze deduplikace na zdroji pomáhá redukovat zatížení sítě a snižuje zatížení zdrojů v průběhu zálohování.
40© Copyright 2010 EMC Corporation. All rights reserved.
Data Domain Avamar
Licencování Data Domain a Avamar
pouze podle využitelné fyzické kapacity
neplatí se za:
klienty – servery/desktopy
aplikační moduly
apod.
dle modelu a využitelné kapacity
žádné tirované licence dle kapacity
licence na celý box pro
replikace
retenční zámek pro archivní data
zprovoznění OpenStorage protokolu
zprovoznění VTL protokolu
41© Copyright 2010 EMC Corporation. All rights reserved.
Deduplikace mění zálohovací paradigma
Deduplikace bez nutnosti cokoliv měnit
Nikdy nezálohuje stejná data dvakrát
Data DomainDeduplikační storage
Avamar Deduplikační zálohovací řešení