Upload
microsoft-technet-france
View
130
Download
4
Embed Size (px)
Citation preview
palais des
congrès
Paris
7, 8 et 9
février 2012
7 Février 2012Olivier Tolon - Spécialiste Solution SQL Server PDWGilbert Breton – Architecte SQL Server PDWMicrosoft
Accélérez vos entrepôts de données avec
les Appliances Microsoft
SQL Server Fast Track
Parallel Data Warehouse
• Data Warehousing aujourd’hui & Challenges Associés
• Vision Microsoft
• Appliance ?
• Rappel SMP / MPP
• Solutions
– SQL Server Fast Track Data Warehouse
• Concept
• Apports Architectures de référence
– SQL Server Parallel Data Warehouse
• Architecture Hardware
• Architecture Logicielle
• Apports MPP
• Distributed Data Warehouse Architecture
• Résumé
Agenda
> 10TB 17% 34%
57%Appliances
78%
92%
82 %
Croissance Marché
Massive Parallel Processing
Source – TDWI, “Next Generation Data Warehouse Platforms”
1
2
3
4
5
12
3
4
5
Solution Data
Warehouse Complete
Choix et flexibilitéEvolutivité Massive à prix
réduit
Vision Microsoft Data WarehouseFaire de SQL Server la plus rapide et la plus abordable des bases
pour tous les clients quelle que soit la taille de base
Adminsitration Simplifiée du Data Warehouse
Appliance ????
Définition générale• Dispositif, outil ou système conçu pour un
usage particulier
Transposition aux Entrepôts de Données :• Infrastructure matérielle dédiée• Logiciel SGBD dédié / Configuration optimisée• Service dédié
(Assemblage/Installation/Maintenance…)
FCHBA
A
B
A
B
FCHBA
A
B
A
B FC S
WIT
CH
STORAGECONTROLLER
A
B
A
BCA
CH
E
SER
VER
CA
CH
ESQ
L SE
RV
ERW
IND
OW
SC
PU
CO
RES
CPU Feed Rate HBA Port Rate Switch Port Rate SP Port Rate
A
B
DISK DISK
LUN
DISK DISK
LUN
SQL Server Read Ahead Rate
LUN Read Rate Disk Feed Rate
Goulots d’étranglement matériels potentiels
?
? ?
?
?
? ?
? ?
??
?
?
Microsoft Data Warehousing Offerings
Scalable and reliable SMP platform for data warehousing on any
hardware
Scalable and reliable platform for data
warehousing on any hardware
Reference architectures offering
best price performance for data
warehousing
Appliance for high end MPP Data Warehousing
delivering highest scalability and performance
Ideal for data marts or small to mid-sized
enterprise data warehouses (EDWs)
Ideal for large data marts or mid-sized
EDWs
Ideal for data marts or small to mid-sized
data warehouses with scan-centric workloads
Ideal for high scale or high performance data
marts and EDWs
Software onlyIntegrated Appliance
(Software and Hardware)
Reference Architectures(Software and
Hardware)
DW Appliance(Fully integrated
Software and Hardware)
Scale-Up DW Scale-Up DW Scale-Up DW Scale-Out DW with MPP
10s of terabytes <5 terabytes 5–120 terabytes 5s - 100s of TB
EnterpriseFast Track Data
Warehouse RABDW Appliance
Parallel Data Warehouse
CPU CPU CPU CPU
Rappel SMP vs MPP
CPU CPU CPU CPU CPU CPU CPU CPUCPU CPU CPU CPU
CPU CPU
Stockage
Stockage
Stockage
CPU
CPU
Stockage
CPU
CPU
Stockage
CPU
CPU
Stockage
CPU
CPU
Stockage
CPU
CPU
Stockage
CPU
CPU
Stockage
CPU
CPU
Stockage
CPU
CPU
Stockage
MPP
SMP
0
1
2
3
4
5
6
7
1TB 5TB 10TB 15TB 20TB
Pro
cess
Tim
e
Avantages MPP
• Evolutivité (Scalabilité)
• Puissance CPU virtuellement illimité
• Stockage virtuellement illimité
• Architecture shared nothing limitation des contentions possible, notamment– Bus
– Stockage
– Memory
• Pas de goulet d’étranglement au chargement, autant de bases de données que de noeuds
Contrainte MPP
• Choix de la clé de distribution déterminant pour les performances du système
SQL Server Fast Track
Data Warehouse
Architecture de
référence
Une méthode de conception de systèmes équilibrés
et performance à un ratio prix/performances réduit
pour les workloads Data Warehouse
Des configurations de référence hardware
développées en collaboration avec des partenaires
constructeur et basées sur cette méthode
Des Best practices de répartition, chargement et
administration de données
SQL Server Fast Track Data Warehouse
Composants Fast Track Data Warehouse
Software:
• SQL Server 2008 Enterprise
• Windows Server 2008
Hardware:
• Tight specifications for servers, storage and networking
• ‘Per core’ building block
Configuration guidelines:
• Physical table structures
• Indexes
• Compression
• SQL Server settings
• Windows Server settings
• Loading
Matériels & Intégration
VIDEO
Fast Track en action
Fast Track SMP / PDW MPP
2 Proc FT 3,5GB/sec
SAN0,3GB/sec
Higly TunedSAN
1,5GB/sec
4 Proc FT 7GB/sec
8 Proc FT 14GB/sec
MPPN * Débit Nominal
d’1 noeud
PDW 1 Rack
16GB/sec
PDW 2 Racks
32GB/sec
PDW 3 Racks
48GB/sec
PDW 4 Racks
64GB/sec
Max physical throughput
SQL Server Parallel Data
Warehouse
Appliance
• Offre appliance Enterprise Data Warehouse High End
– Haute évolutivité - Dizaine à centaines de terabytes
– Haute performance grâce à un système MPP
• Flexibilité et choix
– Plusieurs Fournisseurs matériel possibles
– Possibilité de déploiement au travers d’architecture distribuées
• Solution la plus complète
– Solution data warehouse complète couvrant le poste de travail, data warehouse d’ enterprise (EDW), et les data marts
– Intégration forte avec l’offre de business intelligence Microsoft
– Outillage complet: BI, ETL, MDM, et streaming data
Introduction à Parallel Data Warehouse
Control Rack Data Rack
Compute Nodes Storage Nodes
Spare Compute NodeD
ual Fib
er
Ch
an
nel
SQL
SQL
SQL
SQL
SQL
SQL
SQL
SQL
Du
al In
fin
iban
d
Control Nodes
Active / Passive
Landing Zone
Backup Node
SQL
Management Servers
Private Network
SQL
SQL
Control Nodes
Landing Zone
Built-inBackup
SQL
SQL
SQL
SQL
SQL
SQL
SQL
SQL
SQL
SQL
Appliance Parallel Data WarehouseArchitecture matérielle
Compute Nodes
Du
al In
fin
iban
d
Control Nodes
Active/Passive
Landing Zone
Backup Node
Storage Nodes
Spare Database Server
Du
al Fib
er
Ch
an
nel
SQL
Management Servers
Client Drivers
ETL Load Interface
Corporate Backup Solution
Data CenterMonitoring
Corporate Network Private Network
Star Schema
Or
Normalized Data
Data stored on servers
Backup Data
Control Rack Data Rack
Compute Nodes Storage Nodes
Spare Compute Node
Du
al Fib
er
Ch
an
nel
SQL
SQL
SQL
SQL
SQL
SQL
SQL
SQL
Du
al In
fin
iban
d
Control Nodes
Active / Passive
Landing Zone
Backup
Node
SQL
Management Servers
Private Network
SQL
SQL
Apports PDW– Traitement parallèle massif
Requête 1
La requête 1 est soumise à SQL Server sur le Control Node
??????
???
?
La requête est exécutée sur les 10 noeuds
Le résultat est envoyé au client
Control Rack Data Rack
Compute Nodes Storage Nodes
Spare Compute Node
Du
al Fib
er
Ch
an
nel
SQL
SQL
SQL
SQL
SQL
SQL
SQL
SQL
Du
al In
fin
iban
d
Control Nodes
Active / Passive
Landing Zone
Backup
Node
SQL
Management Servers
Private Network
SQL
SQL
Apports PDW– Traitement parallèle massif
Performance hors normes grâce à la parallélisation massive des requêtes sur des nœuds ultra shared nothing hautement performants.
Requêtes multiples exécutées simultanémentsur tous les noeuds
PDW supporte le requêtage pendant le chargement de données.
?
?
?
?
?
?
?
?? ?
??
? ???
??? ? ??????? ? ??????? ? ????
??? ? ??????? ? ????
??? ? ??????? ? ??????? ? ????
??? ? ??????? ? ????
Possibilités de positionnement de données
• RépliquéeUne structure de table est copiée dans son intégralité sur chaque nœud PDW.
• DistribuéeUne structure de table qui est répartie uniformément sur tous les nœuds sur la base
d’une colonne de distribution uniforme. (Chaque distribution est une table physique
séparée au niveau moteur de chaque nœud)
• Ultra Shared NothingCapacité à mixé à la fois des tables distribuée et répliquées pour minimiser les
mouvements entre les nœuds.
• Les petites tables sont stockées plus efficacement en les répliquant sur
chaque nœud.
• Certaines opération seront alors plus efficaces (opérations mono nœuds, ex:
jointure compatibles avec la clé de distribution)
Tables répliquées
Exemple de schéma en étoile: Les petites tables de dimensions sont répliquées
Time Dim
Date Dim ID
Calendar Year
Calendar Qtr
Calendar Mo
Calendar Day
Store Dim
Store Dim ID
Store Name
Store Mgr
Store Size
Product Dim
Prod Dim ID
Prod Category
Prod Sub Cat
Prod Desc
Sales Facts
Date Dim ID
Store Dim ID
Prod Dim ID
Mktg Camp Id
Qty Sold
Dollars Sold
Mktg
Campaign
Dim
Mktg Camp ID
Camp Name
Camp Mgr
Camp Start
Camp End
TD
SD
PD
MD
SF
1
TD
SD
PD
MD
SF
09-
16
TD
SD
PD
MD
SF
17-
24
TD
SD
PD
MD
SF
25-
32
TD
SD
PD
MD
SF
33-
40
TD
SD
PD
MD
SF
01 -
08
Tables distribuées
Exemple de schéma en étoile;Les grandes tables de faits sont distribuées (hash) sur tous les « databaseserveurs » de la configuration
Time Dim
Date Dim ID
Calendar Year
Calendar Qtr
Calendar Mo
Calendar Day
Store Dim
Store Dim ID
Store Name
Store Mgr
Store Size
Product Dim
Prod Dim ID
Prod Category
Prod Sub Cat
Prod Desc
Sales Facts
Date Dim ID
Store Dim ID
Prod Dim ID
Mktg Camp Id
Qty Sold
Dollars Sold
Mktg
Campaign
Dim
Mktg Camp ID
Camp Name
Camp Mgr
Camp Start
Camp End
TD
SD
PD
MD
SF
1
TD
SD
PD
MD
SF
09-
16
TD
SD
PD
MD
SF
17-
24
TD
SD
PD
MD
SF
25-
32
TD
SD
PD
MD
SF
33-
40
TD
SD
PD
MD
SF
01-
08
SQL Server PDW : Create table…Create Table store_sales (column defs)
with
distribute_on (ss_item_sk),
cluster_on (ss_date_sk),
partition_on (ss_date_sk) range for values (0,1,2,3,4,5)
8 Cluster Index Tables per node
1 per File Group- Dist a to h
6 Partition functions
(ss_date_sk) per table
per filegroup
8K8K
8K8K
8K
N-number of
Pages
Tuple
Create Table h_store_sales_aCreate Table h_store_sales b
Create Table h_store_sales_h
Create Table h_store_sales_ …
PDW : Puissance de traitement
Select *from store_sales ;
Q1
Q2
Q3
Q4
Q5
Q6
Database Server
Q7
Q8
Q1
Q2
Q3
Q4
Q5
Q6
Database Server
Q7
Q8
Q1
Q2
Q3
Q4
Q5
Q6
Database Server
Q7
Q8
Q1
Q2
Q3
Q4
Q5
Q6
Database Server
Q7
Q8
SQL Server
mad_store_sales_amad_store_sales_bmad_store_sales_cmad_store_sales_dmad_store_sales_emad_store_sales_fmad_store_sales_gmad_store_sales_h
Les 8 requêtes sont exécutées en parallèle sur chacun des “Database Servers” au niveau de chacune des distributions
Control Node Madison
Plan
Plan ID
Etapes élémentairesd’exécution
Temp Table
DSQL
L’ensemble des requêtes est envoyé à chacun des “Database server” via Infiniband
Translation to SQL Server 2008Select * from mad_store_sales_aSelect * from mad_store_sales_bSelect * from mad_store_sales_cSelect * from mad_store_sales_dSelect * from mad_store_sales_eSelect * from mad_store_sales_fSelect * from mad_store_sales_gSelect * from mad_store_sales_h
VIDEO
Parallel Data Warehouse en action
• Matériel fournis par un seul fournisseur
• Choix parmi plusieurs fournisseurs
• Commandable par rack
• Le fournisseur:
– Assemble l’appliance
– Installe l’appliance avec OS, SQL Server, et logiciel PDW
• Appliance installée en 1 – 2 jours
• Support
– Microsoft reçoit le 1er appel
– Le partenaire matériel fourni le support site
Parallel Data WarehouseExpérience en mode appliance
Focus sur quelques avantages majeurs
SQL Server Parallel Data Warehouse
Prêt à l‘emploi
• PDW livré prêt à l‘usageComplètement pré-installé & pré-configuré
• Plug & Play
• Industry Standard– Software
– Servers
– Storage components
– Network Switches
– Cabling
– Licences
– Power consumption
– 19“Racks
Nativement optimisé – Création de base
Spécification des tailles répliquée et distributée
Création et dimensonnement automatiques des bases sur les
noeuds
CREATE DATABASE PDW
WITH
(AUTOGROW = ON,
REPLICATED_SIZE = 1000 GB,
DISTRIBUTED_SIZE = 100 GB,
LOG_SIZE = 10 GB);
Simplicité d’utilisation
Console d’administration
Simplicité d’utilisation
Backup
Commande simple Command :
BACKUP DATABASE PDW TO “PDW_FULL“
BACKUP database: 3.75 TBin 48 min. (avg. 1300 MB/sec)RESTORE database: in 1H 44min. (avg. 595 MB/sec)
Effective 1.29 TB stored on disk
Migration de données
Fichier plat 75 GB / 600 millions de lignes
Chargements ultra rapides
Command syntax: dwloader.exe
-i D:\TPCH\lineItem.tbl
-M Fastappend -E -m
-d tpch_100gb
-E -c -b 10000 -rt value -rv 100
-R LineItem.tbl.rejects
-e ascii -t "|" -r \r\n
-U sa -P {password}
-T tpch_100gb.dbo.lineitem_Load
Option Loadtime MB/sec
Reload 09 min 35 sec 133
Append 09 min 42 sec 131
FastAppend 02 min 23sec 534.7
Sans optimisation :
45 fois plus rapide...
Performance de copie
Table LineItem précédemment chargée : 75 GB / 600 million
de lignes
select * into lineitem_compressed FROM
tpch_100gb.dbo.lineitem
36 min 07 sec (SMP) contre 2 min 12 sec ... sur PDW
14 fois plus
rapide
Une architecture distributée permet la flexibilité d’ajouter ou changer des workloads ou groupes
d’utilisateurs variés, tout en maintenant la consistance des données au travers de l’entreprise.
La technologie de copie
rapide de données
permet des mouvements
de données rapide et la
consistance entre l’ EDW
et les Data Marts
Création de Data Marts SQL Server 2008, Fast Track Data Warehouse, et SQL Server
Analysis Services
Permet le support de
groupe utilisateurs ayant
des SLA différents:
• Performance
• Capacité
• Chargement
• Concurrence
• Sécurité
Architecture Data Warehouse distribuéeFlexibilité et alignement Business
Hub & SpokeUrbanisation maîtrisée
Data Warehouse
Application E
Application DApplication A
Application B Application C
TOP
DOWN
Fast Track
Fast Track
Fast Track
Fast Track
Fast Track
App E
App D
App C
Fast Track
App A
Fast Track
App B
Infiniband
Master Data Mgmt
BOTTOM
UP
Remote table copy
Création d’une tabler Heap sur un serveur destination SMP
NYCPDW-LZ01 :
CREATE REMOTE TABLE destdb.dbo.LineItem_test AT
( 'Data Source = NYCPDW-LZ01,1433; User ID = sa; Password = x;' )AS SELECT * FROM tpch_100gb.dbo.lineitem_load
Vériciation statut:
SELECT * FROM sys.dm_pdw_dms_workersWHERE type = 'PARALLEL_COPY_READER'and destination_info = '[destdb].[dbo].[LineItem_test]'
Résultat: 21 min 25 sec !!!600 millions de lignes
Performance
1,800
1,200
11 4-
200
400
600
800
1,000
1,200
1,400
1,600
1,800
2,000
Test Query Performance
Query Time (sec)
• Fast Track Data Warehouse offre
• Haute performance SMP
• 5 à 120 terabytes en v3.0
• Déploiement rapide
• Parallel Data Warehouse offre
– Evolutivité Massive jusqu’à plusieurs 10 à plusieurs centaines de terabytes
– Appliances massivement parallèles (Massively Parallel Processing: Query, Load)
– Déploiement immédiat / Administration réduite
– Chargement ultra rapide
– Support de requêtes complexes et non prédictibles
– Enterprise Data Warehouse Distribué (Hub & Spoke)
• Commun
– Choix de matériels standard et de type commodité
– Intégration à la plateforme Microsoft BI et solutions tierces
Conclusion - Points forts
Questions
• MERCI !