35
Fokusiranje na kvalitetu u skladištu podataka Darko Homar DEKOD telekom d.o.o. [email protected] HrOUG 2007

Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Fokusiranje na kvalitetu u skladištu podataka

Darko HomarDEKOD telekom d.o.o.

[email protected]

HrOUG 2007

Page 2: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Cilj

pregled raznih aspekata vezanih uz kvalitetu podatakazašto je kvaliteta podataka važna?

uzroci loše kvalitete podatakamjerenje kvalitete podatakaugradnja u proces učitavanjaprateća organizacija

dokumentiranje

Page 3: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Uvod

zadatak skladišta podatakaujedinjavanje podataka iz različitih izvoravremenska dimenzija podataka

faktori uspjeharelevantnost podatakakvaliteta podatakadostupnost – podaci moraju biti učitani na vrijeme

Page 4: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Uvod

poteškoće izgradnje skladišta podatakaobuhvat cijelog poslovanja poduzećavelik broj poslovnih pravilavelik broj atributa i definicijavelika količina podatakakratki rokovi implementacijekratko vrijeme učitavanja podataka u skladištu

Page 5: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Uvod

uspostavljanje skladišta podatakaformiran tim infrastruktura: serveri, storage, baza, DBA podrškaodabrani alatiposlovna analiza i ciljevi (detalji?)dizajn skladišta podatakadefinirani izvori podatakaETL procedureinicijalno punjenje podatakaautomatizacija dnevnog ETL-a

Page 6: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Je li posao gotov?

ogroman posao uspostave skladišta, pritisak na prvi rezultatkorisnici trebaju iteracije da bi definirali željeno

korisnici ne poznaju procese i podatke!sukob korisnika: oni koji definiraju i oni koji koriste podatkeposao i podaci se neprekidno mijenjaju

Page 7: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Metapodaci – definicija podataka

konkretizirajmo problem!jednoznačnost, jasnoća definicije

terminologija unutar kompanije, vanjska terminologijaprimjer: zadnje oročenje depozita - issue date, open date

Page 8: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Sadržaj atributa

tip podatkarangelista vrijednostiposeban format, npr. telefonski brojnull – not null

Page 9: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Sadržaj atributa - primjer

podatak o spolu – M ili Ftransformacije:

m,M,muško, male => Mž, Ž, F, female, žensko => F

pravne osobe => N/Ašto se može naći u izvoru podataka?

fizička osoba bez informacije o spolupravna osoba s informacijom o spolufizička osoba s nerazumljivom oznakom, npr. “Z”

Page 10: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Sadržaj atributa - primjer

datumsko poljeneispravan datum, npr. 29.2.2003.nepostojeći datum, npr “00000000”, ovo može biti i oznaka za NULL datumformat varira 15.05.2003, 03/05/15...

Page 11: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Poslovna pravila

određuju međuovisnost atributa u tabliciodređuju međuovistnost atributa u različitim tablicama

npr: ako je klijent pravna osoba, spol je “N/A”npr: odobreni, a neisplaćeni kredit zabilježen je na kontima vanbilancenpr: kredit s valutnom klauzulom ne može biti vezan uz domicilnu valutu

Page 12: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Pravila koja izviru iz strukture skladišta podataka

objekti u DW prate povijesne promjenena primjer, polja u tablici klijenata:− UNIFIED_KEY – unificirani ključ (šifra) klijenta− NAME – naziv klijenta− DAT_FROM – datum od kada vrijedi ovaj podatak− DAT_TO – datum do kada vrijedi podatak

Page 13: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

PrimjerUNIFIED_KEY NAME DAT_FROM DAT_TO

12345 Izgubljeno d.o.o. 01.05.2006 01.12.200612345 Nađeno d.o.o. 01.12.2006 31.12.9999

digresija: ispravak u odnosu na izmjenu

Preklapanje intervalaUNIFIED_KEY NAME DAT_FROM DAT_TO

12345 Izgubljeno d.o.o. 01.05.2006 01.12.200612345 Nađeno d.o.o. 30.11.2006 31.12.9999

Rupe u intervalimaUNIFIED_KEY NAME DAT_FROM DAT_TO

12345 Izgubljeno d.o.o. 01.05.2006 01.12.200612345 Nađeno d.o.o. 01.01.2007 31.12.9999

UNIFIED_KEY NAME DAT_FROM DAT_TO12345 Izgubljeno d.o.o. 01.05.2006 01.12.200612345 NULL 01.12.2007 01.01.200712345 Nađeno d.o.o. 01.01.2007 31.12.9999

Page 14: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Referencijalni integritetUGOVORUNIFIED_KEY KEY_CTR KEY_PDT IR_TYPE MAT_DATE DAT_FROM DAT_TO

22222 12345 P0101 fixed 01.01.2007 01.04.2006 31.12.999922222 12345 P0101 fixed 01.01.2008 15.12.2006 31.12.9999

KLIJENTUNIFIED_KEY NAME DAT_FROM DAT_TO

12345 Izgubljeno d.o.o. 01.05.2006 01.12.200612345 Nađeno d.o.o. 01.12.2006 31.12.9999

Page 15: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Uzroci loše kvalitete podataka

inherentnitransakcijski sustavi ne pamte prošlost

npr. izmjena cjenikapoteškoće u punjenju FDW-a

posebno inicijalno punjenjepodaci se nadopunjuju, što unosi nesigurnost, tj. smanjuje kvalitetu podataka

Page 16: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Uzroci loše kvalitete podataka

nedostatak kontrole na izvorunemogućnost generalnog predviđanja kvalitete podataka u izvorunajsigurnija pretpostavka: ne vjerovati u definiciju izvora!

datumi: 31.4.200743,5612 knm, ž, d (dijete)

poslovna pravila – još gora situacijanpr. kriva knjiženja, npr. pripajanje poduzeća

Page 17: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Uzroci loše kvalitete podataka

Propusti u standardizaciji skladišta podatakaneugodna tema za nas, “graditelje skladišta”primjer: punjenje klijenta iz 4 izvorastotine mapiranja, tisuće atributaiskustvo i promjene u timunesavršeni alatinedostatak koncentracije i kontrole

Page 18: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Uzroci loše kvalitete podataka

bugovibugovi ne postoje u planovimamogu snažno utjecati na softverska rješenjamogu utjecati na podatke u skladištu

pada povjerenje u sustavrješenja se moraju čekatizaobilazna rješenja mogu biti radikalna i skupa

Page 19: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Uzroci loše kvalitete podatakanepoznavanje izvora - prilagođeni Murphy:

ne postoji dobro dokumentiran informatički sustavako postoji dokumentacija, onda ne opisuje postojeći sustav, nego neki zamišljeniako postoji dokumentacija postojećeg stanja, onda je tolika da se ne može savladati u vremenu dostupnom smrtnicimapostoje ljudi koji poznaju rad sustavati ljudi ne mogu sustavno i cjelovito opisati rad sustavaali mogu opisati najbizarnije moguće slučajeve, koji se možda i ne događajuima i preciznih: oni odgovaraju s “DA” i “NE

nerazumijevanje = krivo mapirani podacinajbolji razlog za traženje iskusnih konzultanata

Page 20: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Uzroci loše kvalitete podataka

kriva ili nepotpuna definicijaponovo, miješanje dva velika pitanja skladišta podataka: DEFINICIJA i KVALITETAvelika potrošnja vremena (novaca)

pokušaj izrade učitavanja prema lošoj definicijidruga krajnost – natezanje definicije da odgovara podacima

nema recepta, osim velikog iskustva i povjerenja u kvalitetu ljudi koji rade na skladištu podataka

Page 21: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Upravljanje kvalitetom podataka

procjena kvalitete podatakadizajn pravilatransformacijapraćenje kvalitete podataka

Page 22: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Procjena kvalitete podataka

inicijalno se uzima uzorak podataka i analiziračesto vodi u iteracije: definicija – analiza

prisjećanje na implementacijske odluke u transakcijskim sustavimanpr. koja je default vrijednost datuma dospijeća za proizvode poput depozita po viđenju

Page 23: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Faktori kvalitete podataka

težimo numeričkim mjerama kvalitete podatakanpr:

potpunost (completeness)točnost (exactness)ispravnost (validity)preciznost (precision)konzistentnost (consistency)timing

Page 24: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Faktori kvalitete podataka

ključno: definicija pravila za mjerenje faktora kvaliteteOracle Warehouse Builder - “mehanička”analiza:

predloženi tip podatakasrednja vrijednost, minimalna, maksimalna...kandidati za liste vrijednostianaliza jedinstvenosti sadržaja atributaanaliza popunjenosti atributa...

Page 25: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Dizajn pravila i transformacija

iteracije analize i definicije daju sliku što se želi imati u skladištu podataka i koji su problemidizajniraju se pravila za čišćenje i implementiraju u ETLpravila za kontrolu ispravnosti podataka

nepoštivanje pravila=izuzetakuočiti: tolerancija određene razine problematičnih podataka (pogotovo povijesno)

Page 26: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Praćenje kvalitete podataka

izostanak praćenja = erozija kvalitete podatakakontinuirano praćenje i bilježenje podataka koji ne odgovaraju definicijama− definicija:

govori što podaci značezgodno je da govori i o tome što podaci nisu

podsustav unutar skladišta podataka− zahtijeva znatne računalne i organizacijske resurse− ako je dobar, signalizira promjene u kvaliteti− troši skupo vrijeme za ETL

Page 27: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Ugradnja DQ u skladište podataka

u idealnom svijetu:u skladištu nema loših podatakaispravak u ETL transformacijamaizuzeci

zaustavljanje ETL procesaispravljanjeučitavanje ispravljenih podataka

Page 28: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Ugradnja DQ u skladište podataka

u realnom svijetustotine svakodnevnih ETL procedura zaustavljanje procesa je luksuzsvemoguće transformacijske procedure ne postoje

ostaju dva rješenja:podaci se učitavaju u skladište podatakapodaci se “preskaču”, ispravljaju i naknadno učitavajuoba rješenja daju privremeno iskrivljenu sliku

Page 29: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Ugradnja DQ u skladište podataka

gdje ugraditi kontrolu kvalitete podataka?sastavni dio učitavanja podataka

kritični problemi – zaustavljanje procesa učitavanjaostalo – dojavljivanje, logiranje, eventualno preskakanje

zaseban proces provjere kvalitete podatakatamo gdje je prevelik utjecaj na performansetamo gdje je procjena da neće biti kritičnih problematamo gdje su procesi učitavanja nezavisni (različiti izvori), a podaci su povezani

Page 30: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Organizacija za podršku DQ

uzroci loše kvalitete podataka uglavnom nisu u timu za skladište podatakauzroci se kriju u bilo kojem dijelu organizacijeskladište podataka – izvrsno mjesto za detekciju problema s podacimaskladište podataka u principu ne smije ispravljati podatke

Page 31: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Organizacija za podršku DQ

skladište podataka ne odgovara za nevaljale podatke iz izvoratransakcijski sustavi imaju dovoljno dobre podatke za svoje potrebekorisnici skladišta nemaju dobar uvid ni ovlasti za uklanjanje problemaposljedica: ništa se ne poduzima za poboljšanje kvalitete podataka

Page 32: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Organizacija za podršku DQ

zamislimo organizacijsku funkciju sa svrhom poboljšanja kvalitete podataka – jedinstveni centar kontrolezadaci

zaprimanje problema s kvalitetom podatakapronalaženje izvora problemapraćenje i osiguravanje ispravljanja podatakapraćenje i osiguravanje uklanjanja izvora problemavraćanje ispravljene informacije u skladište podataka

Page 33: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Metapodaci - dokumentiranje

srodnost sadržaja i definicije podatakanapomene o kvaliteti trebaju biti zapisane zajedno s definicijom podataka

mogu se navesti izuzeci, defaultne vrijednostivažna transformacijska pravilaprocjena kvalitete (koliko podataka nije u skladu s definicijom)

Page 34: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Zaključak

pregled problema kvalitete podataka uzroci loše kvalitetepokušaj ocrtavanja cijelog procesa poboljšanja kvaliteteugradnja DQ u infrastrukturu skladišta podatakaorganizacija za poboljšanje kvalitete podatakametapodaci - dokumentiranje

Page 35: Fokusiranje na kvalitetu u skladištu podataka Darko Homar … · ne postoji dobro dokumentiran informatički sustav ako postoji dokumentacija, onda ne opisuje postojeći sustav,

Fokusiranje na kvalitetu u skladištu podataka

Darko HomarDEKOD telekom d.o.o.

[email protected]

HrOUG 2007