Upload
dpejcoch
View
230
Download
7
Embed Size (px)
DESCRIPTION
Tutorial for 4iz562 (Data Quality Management) course at UEP
Citation preview
Talend Open Studio DQ
Tutorial pro kurz 4IZ562Ing. David Pejčoch
KIZI / FIS VŠE [email protected]
2013-05-26
Příklady používají Common Data
Model pro vertikálu Insurance
publikovaný na www.dataquality.
cz/kbase/
Instalace a spuštění
1. Stáhněte zip soubor z webu Talend.com (velikost cca 240 MB)2. Rozzipujte na disk3. Spusťte TOS_DQ-win32-x86.exe4. Při spuštění můžete přeskočit registraci kliknutím na „Register Later“
Sem se budou otevírat jednotlivé
záložky
Sem se budou ukládat jednotlivé analýzy
Knihovna jednotlivých komponent. Exchange složka představuje sdílené
komponenty v rámci komunity
Nadefinované datové zdroje
Integrovaný help „for Dummies“
Help se zobrazuje v záložce v pravé části úvodního okna. Neumožňuje přímé spouštění wizardů, pouze odkazuje na jednotlivé kroky.
Vytvoření připojení k databázi
Připojení k MySQL
Vyplňte příslušný login, heslo, adresu serveru a název databáze.
Vytvoření nového validačního pravidla
Validace pomocí regex
Analýza frekvencí vzorů
Dotaz nad tabulkou
Definice uloženého dotazu
Popis základních funkčních prvků
• Rules = pouze WHERE klauzule• Patterns = vzory pro validaci
– pomocí regulárních výrazů (nástroj obsahuje předpřipravené regulární výrazy v různých složkách podle domén)
– pomocí SQL LIKE klauzule specifické pro různá RDBMS• Source files = SQL příkazy, které lze spustit pomocí Data Expoloreru (v rámci
existujícího připojení na databázi)• Indicators = SQL příkazy s využitím sady předdefinovaných templatů
– Pattern Matching: počet záznamů, které vyhovují regulárnímu výrazu; počet záznamů, které vyhovují SQL LIKE klauzuli
– Pattern Finder = hledání četností vzorů– Soundex: tabulka četností Soundex hodnot– ...
Popis funkcionalit v rámci DB Connection
• Na úrovni připojení: porovnání databází, overview analýza (počty tabulek, řádků, indexů v tabulkách)
• Na úrovni databáze: overview analýza• Na úrovni seznamu tabulek: porovnání tabulek• Na úrovni tabulek:
– analýza tabulky pomocí SQL rules, – column analysis (na základě výběru datového typu, vzoru, indikátoru, sloupců
a where podmínky provede analýzu s grafickým výstupem),– pattern frequency analysis (viz. předchozí, ale zkoumá četnosti vzorů; z
výsledků lze vidět záznamy odpovídající jednotlivým vzorům, generovat ze vzorů regulární výrazy)
– preview table (přehodí do módu s konzolí pro SQL)
Popis funkcionalit v rámci DB Connection
• Na úrovni sloupce:– Analýza hodnot z množiny sloupců– Analýza korelace mezi sloupci– Analýza kategorií nominální proměnné– Pattern frequency analysis + další viz na úrovni tabulek