55
Copyright © 2012, SAS Institute Inc. All rights reserved. Zarządzanie jakością danych z wykorzystaniem SAS Data Quality WEBINAR, 2016.03.01 Patryk ChoroŚ, SAS Institute Zbigniew Wyszomierski, SAS Institute

Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Zarządzanie jakością danych

z wykorzystaniem SAS Data Quality

WEBINAR, 2016.03.01

Patryk ChoroŚ, SAS Institute

Zbigniew Wyszomierski, SAS Institute

Page 2: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Company Confidential - For Internal Use Only

Copyright © 2013, SAS Insti tute Inc. Al l r ights reserved.

WEBINAR ZARZĄDZANIE JAKOŚCIĄ DANYCH W ORGANIZACJI

• Patryk Choroś

• Principal Business Solutions Manager

• Zbigniew Wyszomierski

• Product Management,

obszar: Data Management

• Dzisiejsze spotkanie jest pierwszym z

cyklu webinarów poświęconych

technologii SAS

• Na stronie www.sas.com/poland

dostępne jest agenda pozostałych

spotkań oraz nagrania z zakończonych

webinarów

• Zapraszamy do zadawania pytań

z wykorzystaniem funkcji „czatu”

Page 3: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS POSITIONED IN THE LEADERS QUADRANT IN MAGIC QUADRANT

REPORTS

Data Integration ToolsJuly 29, 2015

Data Quality ToolsNovember 18, 2015

Source: Magic Quadrant for Data Integration Tools, July 29, 2015,

Eric Thoo, Lakshmi Randall.

Gartner RAS Core Research Note G00269320

Source: Gartner Magic Quadrant for Data Quality Tools by Saul Judah

and Ted Friedman, November 18, 2015

Gartner RAS Core Research Note: G00272508

Page 4: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS POSITIONED IN THE LEADERS QUADRANT IN MAGIC QUADRANT

REPORTS

Source: Magic Quadrant for Advanced Analytics Platforms,

9 February 2015, Lisa Kart, Gareth Herschel, Alexander Linden, Jim Hare

Gartner RAS Core Research Note G00275788

Advanced Analytics PlatformsFebruary 9, 2016

Source: Magic Quadrant for Data Integration Tools, July 29, 2015,

Eric Thoo, Lakshmi Randall.

Gartner RAS Core Research Note G00269320

Source: Gartner Magic Quadrant for Data Quality Tools by Saul Judah

and Ted Friedman, November 18, 2015

Gartner RAS Core Research Note: G00272508

Page 5: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Page 6: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Company Confidential - For Internal Use Only

Copyright © 2013, SAS Insti tute Inc. Al l r ights reserved.

ZARZĄDZANIE

JAKOŚCIĄ DANYCHDEFINICJA JAKOŚCI DANYCH

Data are of high quality "if they are fit for

their intended uses in operations,

decision making and planning"

(J. M. Juran)

http://en.wikipedia.org/wiki/Data_quality

Page 7: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Perspektywy zarządzania jakością danych

Ze względu na zakres tematyczny:

Analizowane dane nie ulegają modyfikacji

• Proces określany terminem: profilowania danych

• Ocena jakości danych za pomocą zestawu miar\statystyk

• Możliwe podejście ad-hoc lub ujęcie systemowe

Analizowane dane ulegają przekształceniu

• Proces określany terminem: standaryzacji danych

• Wymagana definicja „wzorca \ standardu” rozumiejącego rodzaj

przetwarzanej informacji

• Standaryzacja – wymagany krok dla obszarów identyfikacji i deduplikacji

danych

Page 8: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Profilowanie danych

Identyfikacja rodzajów występujących błędów

• Błędy systemowe vs zdarzenia incydentalne

• Identyfikacja „luk” w przepływie danych w organizacji

Page 9: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Profilowanie danych

• Rejestracja wyników na osi czasu

• Budowa własnych miar oceniających parametry jakościowe w danych

• Rozbudowane mechanizmy alertów

Page 10: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Profilowanie danych

Repozytorium reguł walidacyjnych

• Dowolność formuł walidacyjnych

• Hierarchia pomiędzy regułami

• Warstwa prezentacyjna, umożliwiająca identyfikację źródeł powstawania

błędów

Page 11: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Profilowanie danych

Repozytorium reguł walidacyjnych

Page 12: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Profilowanie danych

Repozytorium reguł walidacyjnych

Page 13: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Profilowanie danych

• Analiza zależności w modelu danych

Page 14: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Page 15: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Profilowanie danych

• Analiza zależności pomiędzy modelami danych

Page 16: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Page 17: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Profilowanie danych

Jak wykorzystać proces profilowania

• Elastyczna sonda pomiarowa

Page 18: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Profilowanie danych

• Assessment w projektach (w obszarze jakości danych)

Page 19: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Standaryzacja danych

Wymagany wzorzec – SAS Quality Knowledge Base (QKB)

• Framework pozwalający na opis dowolnego języka:

Reguły fonetyczne

Konstrukcja gramatyczna

Ortografia i interpunkcja

Dodatkowe elementy: wielkość znaków, etc.

Słowniki z prawdopodobieństwami

• Polska wersja

• Elastyczność QKB:

Własne typy danych

Page 20: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Standaryzacja danych - QKB

Page 21: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Standaryzacja danych - QKB

Page 22: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Standaryzacja danych

Wymagany wzorzec – SAS Quality Knowledge Base (QKB)

• Polska wersja

Adres

Data Urodzenia

Dowód osobisty

E-mail

Numer Karty

Numer konta

Numer NIP

Numer PESEL

Płeć

Numer REGON

Numer telefonu

Page 23: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Standaryzacja danych

Schematy standaryzacyjne

Page 24: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Standaryzacja danych

Schematy standaryzacyjne

Page 25: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Czyszczenie danych w praktyce

Page 26: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Match codes i deduplikacja

• Identyfikacja\deduplikacja obiektów

System D

System E

System C

System B

PersonalID

ABC079675

FirstName

Zbigniew

Middle

Michał

LastName

Wyszomierski

PESEL

99082301232

Address

ul. A. Mickiewicza 64/4

Updated

2006-09-05System A

PersonalID

ABC079675

FirstName

Zbigniew

Middle

M

LastName

Wyszomierski

PESEL

99082301232

Address

ul. Skoczna 6

Updated

2012-04-17

PersonalID

DB8881901

FirstName

Zbigniew

Middle

Michal

LastName

Wyszomierski

PESEL

99082301232

Address

ul. Górna 53

Updated

2003/06/27

PersonalID

ABC079675

FirstName

Zbigniw

Middle

Michał

LastName

Wyszomierski

PESEL

99082301232

Address

ul. Gwiaździsta 6 m.10

Updated

2010\02\14

PersonalID

AVU123456

FirstName

Zbigniew

Middle LastName

Wyszomirski

PESEL

99082301232

Address

ul. Mickiewicza 64/4

Updated

2012.09.11

Page 27: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Master record

System D

System E

System C

System B

PersonalID

ABC079675

FirstName

Zbigniew

Middle

Michał

LastName

Wyszomierski

PESEL

99082301232

Address

ul. A. Mickiewicza 64/4

Updated

2006-09-05System A

3721B Zbigniew Michał Wyszomierski 99082301232 AVU070707 Skoczna 6 Warszawa PL 05-07730391-2441001 14239 30391-24430391244

EID Source Keys Survived Fields

PersonalID

ABC079675

FirstName

Zbigniew

Middle

M

LastName

Wyszomierski

PESEL

99082301232

Address

ul. Skoczna 6

Updated

2012-04-17

PersonalID

DB8881901

FirstName

Zbigniew

Middle

Michal

LastName

Wyszomierski

PESEL

99082301232

Address

ul. Górna 53

Updated

2003/06/27

PersonalID

ABC079675

FirstName

Zbigniw

Middle

Michał

LastName

Wyszomierski

PESEL

99082301232

Address

ul. Gwiaździsta 6 m.10

Updated

2010\02\14

PersonalID

AVU123456

FirstName

Zbigniew

Middle LastName

Wyszomirski

PESEL

99082301232

Address

ul. Mickiewicza 64/4

Updated

2012.09.11

Page 28: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Perspektywy zarządzania jakością danych

Ze względu na tryb pracy:

Ad-hoc

• Wymagana funkcjonalność uruchamiana jest w trybie interaktywnym

Procesowy

• Zestaw wymaganych kroków definiowany jest w postaci diagramu

• Diagram analizy może być uruchamiany wg zadanego harmonogramu

Page 29: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Perspektywy zarządzania jakością danych

Ze względu na tryb pracy: ad-hoc vs proces

Page 30: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Perspektywy zarządzania jakością danych

Ze względu na tryb przetwarzania:

Batch

• Analiza wykonywana jest wg zadanych reguł np.: czasowych, na określonych

repozytoriach danych

Real-time

• Analiza danych może nastąpić już na etapie ich powstawania

• Aplikacja dziedzinowa wywołuje dodatkowe procesy\usługi DQ

Page 31: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Perspektywy zarządzania jakością danych

Batch

Real-time

Page 32: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Perspektywy zarządzania jakością danych

Ze względu na wybraną architekturę rozwiązania:

Desktop

• Schemat\algorytm analizy i przetwarzanie odbywa się

na stacji roboczej

Serwer

• Projekt przetwarzania tworzony jest na desktopie

• Przetwarzanie odbywa się z wykorzystaniem serwera

In-database

• Komponenty DQ instalowane są w środowisku bazodanowym

• Minimalizacja transferu danych

Page 33: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Perspektywy zarządzania jakością danych

Serwer

• Transformacja(e) DQ jako element

procesu(ów) ETL/ELT

In-database

• Transformacje DQ instalowane w

środowiskach bazy danych

• SAS DataQuality Accelerator for …

Hadoop

Teradata

DQ

DQDQ

Page 34: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live

Page 35: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live

Page 36: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live

Page 37: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live

Page 38: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live

1

Page 39: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live

12

Page 40: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live

12

3

Page 41: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live

12

34

Page 42: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live

12

34

Page 43: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live

12

34

5

Page 44: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live

12

34

5

Page 45: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live

Page 46: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Perspektywy zarządzania jakością danych

Ze względu na kontekst:

Projekt niezależny

• Procesy DQ służą ogólnej poprawie danych w określonych repozytoriach

Komponent tzw. SAS Business Solutions

• Procesy\funkcjonalność DQ są integralną częścią innych rozwiązań:

zarówno technicznych jak i biznesowych

• Jakość przygotowanych danych determinuje skuteczność określonych

procesów biznesowych

Page 47: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Jakość danych w SAS Business Solutions

Predictive modeling & business intelligence:

Nowe „podmioty” dla modeli predykcyjnych

• Kontrakt -> Klient -> Gospodarstwo domowe

Pełniejsze i lepsze „jakościowo” wypełnienie atrybutów dla

wejściowych tabel analitycznych

Pełniejsze dane w warstwie raportowej

Page 48: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Jakość danych w SAS Business Solutions

Predictive modeling

Page 49: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Jakość danych w SAS Business Solutions

Risk management & fraud detection:

Poprawa identyfikowalności podmiotów

Skuteczniejsze wykrywanie powiązań pomiędzy podmiotami

Skuteczniejsza agregacja danych ze względu na atrybuty

podmiotów

Poprawa skuteczności modeli wspierających zarządzanie

ryzykiem, np.: ryzyko kredytowe

Page 50: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA QUALITY Jakość danych w SAS Business Solutions

Customer Intelligence:

Wsparcie działań sprzedażowych: lepsza identyfikowalność

podmiotów i powiązań pomiędzy nimi

Realizacja rozwiązań typu: widok 3600

Master Data Management

Budowa repozytoriów danych referencyjnych

Zależności pomiędzy obiektami

Automatyzacja działań marketingowych, np.: automatyczna

generacja ofert, opisów produktów etc.

Page 51: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

CIEKAWE DOŚWIADCZENIA WDROŻENIOWE

REFERENCJE SAS INSTITUTE POLSKA

Page 52: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

REFERENCJE UFG

Rozmiar danych: 100 milionów wierszy (inicjalnie 72 mln)

Źródła danych: 4 systemy

Zakres danych: Dane o pojazdach, dane o ubezpieczonych, dane o kontrahentach

Opis wdrożenia:

• Zaprojektowanie algorytmów czyszczenia i uzupełniania danych: profilowanie, parsowanie, standaryzacja, walidacja, uzupełnianie słownikowe

• Udostępnianie danych za pośrednictwem usług sieciowych

• Pełne wdrożenie obejmujące wszystkie etapy projektu od prac analitycznych do uruchomienia produkcyjnego

Wyniki otrzymane po implementacji systemu:

• Stworzenie dedykowanej hurtowni danych ubezpieczeniowych wraz z ergonomicznym interfejsem składania zapytań

do centralnej, ogólnopolskiej bazy danych o ubezpieczeniach komunikacyjnych. UFG może realizować swoje

obowiązki ustawowe i spełniać oczekiwania rynku jako ośrodek informacji dla ubezpieczeń komunikacyjnych

• Nowe narzędzie pozwala firmom ubezpieczeniowym na szybkie sprawdzenie w ilu wypadkach uczestniczył właściciel

pojazdu i uwzględnienie tych informacji przy kalkulacji jego nowej składki za OC czy AC

• Przed wdrożeniem systemu liczba zapytań kierowanych do Ośrodka Informacji UFG przez zakłady ubezpieczeń

wynosiła ok. 17 tys. rocznie, natomiast w trakcie programu pilotażowego, który trwał od lutego do listopada ubiegłego

roku, ubezpieczyciele zadali łącznie 2,5 mln zapytań

Page 53: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

REFERENCJE GŁÓWNY URZĄD STATYSTYCZNY

Rozmiar danych: około 5 TB

Źródła danych: narodowe rejestry spisowe (około 20 różnych źródeł danych)

Zakres danych: dane adresowe i kontaktowe, finansowe, ubezpieczeniowe, telekomunikacyjne, demograficzne i energetyczne

Opis wdrożenia:

Zakres procesu jakości danych: integracja i standaryzacja wszystkich głównych, narodowych rejestrów dla spisu powszechnego i rolnego

Główne techniki czyszczenia danych:

Kody dopasowania ,

Dystans Levenshtein-a,

Nakładanie schematów.

Polepszenie jakości danych zmierzone po zaimplementowaniu Data Quality:

• Np. rejestr PESEL: miasta 70,29%, ulice 85,67%

Page 54: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Company Confidential - For Internal Use Only

Copyright © 2013, SAS Insti tute Inc. Al l r ights reserved.

WEBINAR ZARZĄDZANIE JAKOŚCIĄ DANYCH W ORGANIZACJI

• Patryk Choroś

[email protected]

• Zbigniew Wyszomierski

[email protected]

• Zapraszamy na kolejne webinary o

technologii SAS na

www.sas.com/poland

Page 55: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d . www.SAS.com

DZIĘKUJEMY ZA UDZIAŁ

PROSIMY O WYPEŁNIENIE ANKIETY