16
OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady Data Mining – Dolovanie dát Ing. Jaroslav Kultan

OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady Data Mining – Dolovanie dát

  • Upload
    orea

  • View
    53

  • Download
    0

Embed Size (px)

DESCRIPTION

OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady Data Mining – Dolovanie dát Ing. Jaroslav Kultan. Cieľ. Vedieť, čo je to OLAP (definíciu, použitie, vlastnosti) Vedieť čo je dátový sklad – Data Warehousing Vedieť čo je dolovanie dát – D a ta Mining - PowerPoint PPT Presentation

Citation preview

Page 1: OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady  Data Mining – Dolovanie dát

OLAP –OnLine Analytical Procesing

Data Warehousing - Dátové sklady

Data Mining – Dolovanie dát

Ing. Jaroslav Kultan

Page 2: OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady  Data Mining – Dolovanie dát

Cieľ

• Vedieť, čo je to OLAP (definíciu, použitie, vlastnosti)

• Vedieť čo je dátový sklad – Data Warehousing

• Vedieť čo je dolovanie dát – Data Mining

• Vedieť čo je dolovanie dát – Data Market

• Poznať funkcie OLAP

• Poznať pravidlá tvorby OLAP

• Poznať základné tabuľky OLAP -

• Navrhnúť multidimenzionálny model (aspoň 3)

• Vymenovať a poznať niektoré funkcie

• Vysvetliť vzťah Data warehousing-OPLAP

• Vysvetliť vzťah medzi OPAP-Data mining

Page 3: OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady  Data Mining – Dolovanie dát

OLAP – definíciečo je to OLAP

• Technológie a prostriedky umožňujúce analýzu multi-dimenzionálnych informácií

• Druh softwarovej technológie, ktorá umožňuje manažérom porozumieť dátam pomocou: – rýchleho,

– konzistentného

– interaktívneho prístupu

k širokému spektru možných pohľadov na informácie, ktoré boli transponované zo surových dát

Page 4: OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady  Data Mining – Dolovanie dát

Funkcie OLAP

• Kalkulácia a modelovanie

• Analýza trendov

• Rozdeľovanie podmnožín zobrazovania

• Zoskupovanie do nižších úrovní

• Prenikanie do príslušnej úrovne

• Rotácie pre porovnanie v nových dimenziách

Page 5: OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady  Data Mining – Dolovanie dát

Pravidlá pre OLAP

• Multi-demenzionálny konceptuálny model • Transparetnosť• Dostupnosť dát• Stabilná výkonnosť• Architektúra klient server• Generická dimenzionalita• Dynamická manipulácia s riedkymi maticami• Podpora viacerých používateľov• Neobmedzené operácie naprieč dimenziami • Intuitívna manipulácia s dátami• Flexibilné výstupy• Neobmedzené dimenzie a úrovne agregácií

Page 6: OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady  Data Mining – Dolovanie dát

Rozdelenie OLAP• Vrstva získavania informácií: V dátovom

sklade sa dáta nevytvárajú, ale sú do neho pravidelne prenášané z produkčných systémov klient/server.

• Vrstva uloženia informácií: V tejto vrstve sú dáta skutočne uložené. Fyzické uloženie je vhodné voliť čo najbližšie dátovému modelu. Štruktúra dát musí byť vytvorená tak aby vyhovovala požiadavkám používaných nástrojov MIS (Management Information System).

• Vrstva sprístupnenia informácií Táto vrstva sa opiera o spoločný súbor prezentačných a analytických nástrojov. Cieľom je nájdenie odpovede na otázky, hľadanie otázok. Táto vrstva môže obsahovať aj menšie DW, tzv. dátové trhy (data mart), ktoré adresujú iba určité oddelenie podniku

Page 7: OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady  Data Mining – Dolovanie dát

Vrstva získavania informácií:

V dátovom sklade sa dáta nevytvárajú,. • proces je realizovaný pomocou softvérových komponentov- dátové pumpy. • Postup analýzy dát a získavania znalostí - data-mining (dolovanie dát). Jeho podstatou je hľadanie zákonitostí ukrytých v množstve údajov. • Data-mining vhodne doplňuje postupy vyhodnocovania dát ako napríklad:• -         štatistická analýza, • -         podpora rozhodovania, • -         viacrozmerná analýza.

• Pre data-mining sa používajú postupy: • -         umelej inteligencie,• -         neurónových sietí• -         fuzzy logiky. • Celý proces získavania dát je riadený pomocou metadát, ktoré :

-         sú technického rázu, • -         sú vytvorené administrátorom • -         alebo sú importované z mnohých zdrojov metadát. Tvoria databázu informácií o dátových štruktúrach v dátovom sklade, datamartoch, procesoch extrakcie

dát a pod

Page 8: OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady  Data Mining – Dolovanie dát

OLAP-Data warehousing

• Dátové sklady – uchovávanie

• OLTP – správa dát • Dáta Mart –

pripravené údaje

Page 9: OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady  Data Mining – Dolovanie dát

Čo je „Data Warehouse • „Data Warehouse“. Je to

databázový systém, kde sú ukladané dáta z rôznych operačných databankových systémov v určitej forme. Operačné systémy realizujú rôzne operácie, ako napríklad denné uchovávanie tržby a objednávok. Pre rôzne účely sú tieto dáta rozdelené do viacerých databaniek, pričom pre OLAP využívame tieto informácie v usporiadanej podobe.

•  

Page 10: OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady  Data Mining – Dolovanie dát

Multidimenzionálny model

• Má viac rozmerov– čas,

– región,

– produkt

• Na vytvorenie potrebujeme: – Tabuľku faktov

– Tabuľku dimenzií

Page 11: OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady  Data Mining – Dolovanie dát

Dimenzie

• Jednou z charakteristík OLAP sú dimenzie, ktoré chraktrerizujú dáta.

• Elemety sú členovia (members) niektorej dimenzie.

• Údaje sa potom nachádzajú v bunkách

• Môže byť vytvorená samostatná dimenzia pre agregačné funkcie. Kde uchovávame hodnoty ako zisk, tržba a pod.

Bude tvoriť daľšiu dimenziu

Page 12: OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady  Data Mining – Dolovanie dát

Tabuľky

• Tabuľky faktov– Je hlavná tabuľka, na

ktorú sú viazané tabuľky dimenzií

– Uchováva veľké množstvo dát

• Tabuľky dimenzií– Obsahujú usporiadané údaje– Naviazané sú na tabuľku

faktov– Sú menšie a často sa menia

• Často používajú hierarchickú štruktúru– Čas

• Rok– Kvartál

» mesiac

Page 13: OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady  Data Mining – Dolovanie dát

Hierarchie

• -sú dimenzie hierarchicky tvorené. Ako napríklad tržba za mesiac, štvrťrok, rok alebo tržba za produkt a skupinu produktov.

• Údaje môžu byť na– najnižšom stupni (žlte

bunky)

– na vyšších agregačných stupňoch (zelené bunky).

Page 14: OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady  Data Mining – Dolovanie dát

Schémy tabuliek dimenzii

• Hviezdicová schéma

• Schéma snehovej vločky

Page 15: OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady  Data Mining – Dolovanie dát

Ostatné operácie

• Flexibilita – Dril down

– Roll up

• Rez kockou – Slice –kombinácia dimenzií

a členov v reze

– Dice – rozdelenie na menšie kocky

Vzťahy – Agregačné funkcie

Page 16: OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady  Data Mining – Dolovanie dát

Príbuzné technológie

• MOLAP– Multidimenzionálny OLAP je technológia, ktorá na implementáciu multidimenzionálneho– modelu využíva špeciálne pre tento účel vyvinutý OLAP server s vnútornou architektúrou databázy optimalizovanou pre

multidimenzionálne dáta.

• ROLAP– Relačný OLAP je technológia, ktorú vyvinuli komerční tvorcovia RSRBD, aby dodali do svojich stávajúcich relačných

systémov vrstvu pre multidimenzionálny pohľad a analýzu dát. táto vrstva je väčšinou implementovaná vo forme aplikačného servera, nazývaného ROLAP server.

– dôsledok úspechu relačných databáz – snaha o prispôsobenie relačnej DB pre DW – trojvrstvová architektúra klient/server – pre modelovanie štruktúry DW nad relačnou DB sa využíva "snowflake" schéma – databáza nie je normalizovaná – viacrozmerný pohľad riešený indexáciou a duplikáciou tabuliek – čas vedený len ako pevný dátum

• MD-OLAP– dvojvrstvová architektúra klient/server – dáta ukladané do MDBMS v n-dimenzionálnom priestore – pred uložením dát na disk potreba alokácie priestoru – veľká rýchlosť spracovania dotazov

– potrebná stála rekompilácia

• možnosť použitia kombinácie MD-OLAP/ROLAP