Upload
neil
View
23
Download
0
Embed Size (px)
DESCRIPTION
Qualitätskontrolle von Datenintegrations- prozessen. Christoph Metz WIN – Treffen 02.10.2010. Übersicht. Auffrischung Herausforderungen bei Datenintegrations-Prozessen Qualitätskontrolle von Datenintegrationsprozessen Abschließende Bemerkung. Data Warehouse. Auswertungsschicht. - PowerPoint PPT Presentation
Citation preview
QUALITÄTSKONTROLLEVON DATENINTEGRATIONS-PROZESSENChristoph Metz
WIN – Treffen 02.10.2010
Übersicht
Auffrischung Herausforderungen bei
Datenintegrations-Prozessen Qualitätskontrolle von
Datenintegrationsprozessen Abschließende Bemerkung
Data Warehouse
ERP/CRMXML ww
w
Extraktionsschicht
XML
Extraktionskomponente
DWH
Datenhaltungsschicht
Integrationsschicht
Transformationskomponente
Ladekomponente
AuswertungsschichtReporting, OLAP
Data Warehouse - ETL
Typische Transformationen Anpassung von Datentypen Eliminierung von Duplikaten Anpassung von Datenwerten Schlüsselanpassungen Umrechnung von Maßeinheiten Aggregationen Anreicherung von Daten …
Daten durchlaufen eine ganze Reihe von Prozessschritten
Herausforderungen bei ETL-Prozessen
Spezifikation Umsetzung DWH
Falsche Zahlen im Report Meldung
Fehlersuche
Herausforderungen bei ETL-Tests
Batch-Loads Zeitverzug Systemseitige „Eingabe“ Viele Tests müssen systemseitig implementiert
werden. Einzelne Transaktionen müssen aufwändig
zurückverfolgt werden. Hohes anwachsendes Datenvolumen
Menge der Testdaten steigt Anzahl der Testszenarien
In DWS sollen alle möglichen Sichten möglich sein. Traditionelle Test-Methoden auf OLTP ausgelegt
Teststrategien für ETL-Prozesse
Datenvollständigkeit Tupelvergleich, Boundary-Testing, ...
Datentransformation „stare and compare“, Datenfluss-Validierung, …
Performance + Skalierung „Break your system“, „performance modeling“, …
Integrationstests Schnittstellen, Ablaufsteuerung, Fehlerprotokolle
User Acceptance Tests Regressionstests (Datenqualität)
Faktoren der Qualität
Designqualität
Ausführungsqualität
Formulierung und Erfassung von Anforderungen und Spezifikationen
Einhaltung der festgelegten Spezifikation
Faktoren der Qualität
Designqualität stellt höchste erreichbare Grenze für die Qualität der Daten dar
Ausführungsqualität drückt Erreichungsgrad der Designqualität aus
Gesamtqualität kann durch mangelnde Design- oder Ausführungsqualität negativ beeinflusst werden
Messung der Ausführungsqualität
Datenpool
Datenpool
Datenpool
Datenpoo
l
www
Extraktions-komponente
Extraktions-komponente
Extraktions-komponente
Datenintegration Datenbereitstellung
Transfo
rmatio
nsko
mponent
eData Warehouse
Datenpool
Ladeko
mponente
Datenpool
Prozess-schritt
Datenpool
Prozess-schritt
Prozess-schritt
M
M
M
M M
M
M M
Messung der Ausführungsqualität
Grundgedanken: Messung festgelegter Kennzahlen an den
Datenpools
Soll-Ist-Vergleich während des gesamten Prozessverlaufs
Überprüfung der Wirkung von Änderungen an den einzelnen Prozessschritten.
Messung der Ausführungsqualität
Hohe Anforderungen an die Testszenarien/ Testdaten
Abgrenzung von einzelnen Datenprodukten
Zeitverzug
Systemseitige „Eingabe“
Systemseitige TestimplementierungAufwändige Zurückverfolgung
Hohes Datenvolumen
anwachsendes Datenvolumen
Abgrenzung von Datenprodukten
Datenprodukt Darstellung über „Views“
Einzelner Datensatz Datensatzgruppe Komplette Tabelle
„Alle Produkte der Kategorie Non-Food am 02.10.2010“
„Alle Daten zu Artikelnr 5674846“
Datenprodukte im Prozessverlauf
Datenpool
Datenpool
Datenpool
Extraktions-komponente
Datenintegration Datenbereitstellung
Trans-formationskompo
-nente
Data Warehouse
Datenpool
Lade-kompon
ente
Vollständigkeit Redundanzfreiheit Zeitbezug Schlüsseleindeutigkeit ….
A A* A** A***B
Sammlung der Messwerte
Relation Messpunkt Q_Voll Q_Ref Q_Korr Q_Schl Q_Zeit
Zeit
Datenprodukt A
Quelle 80% 70% 65% .. .. 15:00
Extraktion 80% 70% 65% .. .. 15:02
Transform. 1 100% 70% 100% .. .. 15:10
Transform. 2 100% 100% 95% .. .. 15:20
Laden 100% 90% 100% .. .. 15:25
Datenprodukt B
Quelle .. .. .. .. .. 15:00
Extraktion .. .. .. .. .. 15:02
Transform. 1 .. .. .. .. .. 15:10
Transform. 2 .. .. .. .. .. 15:20
Laden .. .. .. .. .. 15:25
Auswertung der Messungen
Kontrolle einzelner Prozessschritte während der Entwicklung
Schneller Vergleich von unterschiedlichen Prozessversionen
Auswertung der Messungen
Verhalten einzelner Prozessschritte in verschiedenen Szenarien
Unterstützung von Regressionstests
Auswertung der Messungen
Auswertungen Zeitverlauf
M1 M2 M3 M4 M5
00.10.20.30.40.50.60.70.80.9
1
01.01.2010
Identifizierung von Änderungsbedarf (proaktiv)
Identifizierung von „überflüssigen“ Transformationen
Herausforderungen des Ansatzes
Schaffung künstlicher Datenpools Definition geeigneter Datenprodukte Definition der Datenprodukte entlang
des Prozessverlaufes Stetige Anpassung aller Datenprodukte Interpretation der Messergebnisse
Fragen?
Anregungen?