of 64/64
WYKŁAD 12: OLAP

WYKŁAD 12: OLAP

  • View
    220

  • Download
    1

Embed Size (px)

Text of WYKŁAD 12: OLAP

  • WYKAD 12: OLAP

  • Plan

    Inteligencja bisnesowa

    (Bussiness Intelligence)

    Hurtownia danych

    OLAP

  • Motywacja:

    Zaawansowane metody

    ekstrakcji danych i techniki

    przechowywania danych

    Rozwj wielu dziedzin

    zastosowa

    Wicej danych:

    Bank, telecom, inne transakcje

    bisnesowe ...

    Dane naukowe: astronomia,

    biologia,

    Web, tekst, oraz

    e-commerce

  • Ogromne bazy danych

    Dua liczba rekordw:

    106-1012 w przypadku baz danych o obiektach

    niebieskich (astronomia)

    Dua liczba atrybutw (cechy, pomiary, kolumny):

    Setki zmiennych opisujcych medychne pomiary

    pacientw

  • Motywacja

    Jestemy zatopieni w morzu danych, podczas gdy pragniemy wiedz

    PROBLEM:

    Jak zdoby uyteczn wiedz (informacj) z duych baz danych?

    ROZWIZANIE:

    Hurtownie danych: Zbieranie danych (w czasie rzeczywistym)

    OLAP: Przetwarzanie analityczne

    Data mining: Odkrywanie interesesujcej wiedzy (regu, regularnoci, wzorcw, modeli) z duych zbiorw danych

    http://www.cultindustries.com/new/html/frame.html

  • Ewolucja w technologii baz danych

    W latach 60-tych:

    Kolekcja danych, tworzenia baz danych, IMS oraz sieciowe DBMS

    W latach 70-tych:

    Relacyjny model danych, implementacja relacyjnych DBMS

    W latach 80-tych:

    RDBMS, zaawansowane modele danych (extended-relational, OO, deductive, ...) oraz aplikacyjno-zorientowane DBMS

    Od 90-tych obecnie:

    Data mining, hurtownia danych, multimedialne bazy danych oraz Web databases

  • Business Intelligence

    Co to jest Business Intelligence?

    szeroka dziedzina obejmujca aplikacje i technologie suce gromadzeniu i analizie danych w celu wspomagania procesu podejmowania decyzji biznesowych.

    Skuteczno dziaania w obszarze Business Intelligencewymaga dogbnej znajomoci wszystkich czynnikw wpywajcych na biznes.

    Efektem zastosowania narzdzi BI jest dostpno do szybkiej informacji na temat najwaniejszych wskanikw firmy, takich jak dane o klientach, konkurencji, partnerach biznesowych, sytuacji ekonomicznej i operacjach wewntrznych.

  • Obszary zwizane z BI

    DW - Hurtownie danych adowanie, przetwarzanie

    Data mining - Eksploracja danych, drenie danych

    OLAP - Online Analytical Processing

    Czyszczenie danych i zarzdzanie jakoci danych

    MIS(Management Information Systems) - Systemy Informowania Kierownictwa

    Raportowanie - Wizualizacja informacji i panele dla kierownictwa

    Prognozowanie, finanse i budetowanie

    Statystyki i techniczna analiza danych

    CRM(Customer Relationship Management) Zarzdzanie Relacjami z Klientami

    DSS(Decision Support Systems) systemy wspomagania decyzji

  • Problem Integracja danych

    Rni producenci/technologie

    Rna funkcjonalno bazy danych / nie bazy danych

    dialekty SQL

    sposoby dostpu i przetwarzania danych

    Rne modele danych

    hierarchiczne, sieciowe

    relacyjne

    obiektowe

    obiektowo-relacyjne

    wielowymiarowe

    semistrukturalne

    Architektury integracyjne system mediacyjny

    hurtownia (magazyn) danych

  • Problem integracja danych

  • Rozwizanie 1:

    System mediacyjny

  • Rozwizanie 2:

    Hurtownia danych

  • Pyramida BI

  • HURTOWNIA DANYCH

  • Co to jest hurtownia danych

    Hurtownia danych powinna by miejscem przechowywania

    historycznych,

    "nieulotnych",

    zorientowanych tematycznie,

    zintegrowanych

    danych pochodzcych z rnych rozproszonych baz rdowych.

    Jej struktura projektowana jest niezalenie od struktury danych rdowych, a dane przetwarza si na podstawie rnych aplikacji analitycznych.

    Przetwarzanie danych w hurtowni danych na og przebiega wielowarstwowo. Oznacza to, e dane najpierw podlegaj czyszczeniu, standaryzacji, a nastpnie sklejaniu i agregowaniu.

    W praktyce najczciej wdraane s funkcjonalne elementy hurtowni (data marts) dla poszczeglnych segmentw dziaalnoci organizacji, a dopiero pniej podlegaj one czeniu w cao.

  • Hurtownia danych

    tematycznie zorientowana

    Organizowana tematycznie, np. klient, produkt, przeda.

    Zorientowana na modelowaniu i analizie danych dla kadr

    kierownczych (podejmujcych decyzj)

    Nie jest przydatne dla codziennego uytku

    Data mart: Prosty i zwizy widok na poszczeglne tematy (aspekty)

    poprzez usuncie danych zbdnych dla procesu podejmowania

    decyzji

  • Data

    Warehouse

    Extract

    Transform

    Load

    Refresh

    OLAP Engine

    Analysis

    Query

    Reports

    Data mining

    Monitor

    &

    IntegratorMetadata

    Data Sources Front-End Tools

    Serve

    Data Marts

    Operational

    DBs

    other

    sources

    Data Storage

    OLAP Server

    Struktura tematyczna

  • Dane rozlege w czasie

    Horyzont czasowy w hurtowni danych jest zdecydowanie duszy ni w

    bazach danych operacyjnych:

    Bazy danych operacyjnych: utrzymuje biece dane

    Hurtownia danych:

    udziela informacje z pewnej historycznej perspektywy, np. z ostatnich 5-10 lat.

    Every key structure in the data warehouse

    Hurtownia moe zawiera rne aspekty czasowe: explicite (jawne) lub

    implicite (niejawne) o danych mimo, e operacyjne dane mog nie

    zawiera informacji czasowych

  • Cele hurtowni danych

    1. Zapewnienie jednolitego dostpu do wszystkich danych gromadzonych w ramach przedsibiorstwa

    2. Dostarczenie technologii (platformy) przetwarzania analitycznego technologii OLAP

    wykonywanie zaawansowanychanaliz, wspomagajcych zarzdzanie przedsibiorstwem, np.

    analiza trendw sprzeday

    analiza nakadw reklamowych i zyskw

    analiza ruchu telefonicznego

    Eksploracja danych (Data mining)

    analiza rozwiza alternatywnych(what-if analysis)

    symulowanie i przewidywanie przyszoci w MD

  • OLAP

    Online Analitical Processing

  • Co to jest OLAP

    Zadanie: dostarczanie informacji strategicznej i prezentowanie jej zgodnie ze schematem poznawczym czowieka.

    Narzdzia: bazy danych + zaawansowane modele matematyczne.

    Podstaw modelu OLAP s Fakty

    informacje podlegajce analizie sprzeda, rozmowy telefoniczne

    charakteryzowane ilociowo za pomoc miar

    Liczba sprzedanych jednostek towaru, czas trwania rozmowy

    Wymiary

    ustalaj kontekst analizy sprzeda czekolady (produkt) w Auchan(sklep)

    w poszczeglnych miesicach roku (czas)

    skadaj si z poziomw, ktre tworz hierarchi

  • Hierarchia poj

    Koncepcyjnie model OLAP mona przedstawi

    jako hiperkostk, ktra w swoim wntrzu

    zawiera miary, natomiast wymiary stanowi jej

    brzegi.

    Najczciej wszelkie analizy danych dotycz

    rnych poziomw szczegowoci, dlatego

    wymiary posiadaj wewntrzn struktur,

    uatwiajc przechodzenie od ogu do

    szczegu.

  • Hurtownia danych a ODBMS

    OLTP (on-line transaction processing)

    Utrzymuje informacje o codziennych operacjach: sprzeda, remanent,

    bankowo, produkcja, lista pac, rejestracja, ksigowo, itp..

    Jest to gwne zastosowania tradycjnych systemw zarzdzania bazami

    danych (relational DBMS)

    OLAP (on-line analytical processing)

    Analiza danych i wspomaganie podejmowania decyzji

    Jest gwnym zadaniem dla hurtowni danych.

  • OLTP a OLAP

  • Hurtownia danych a OLAPDlaczego s to oddzielne systemy?

    Wysoka wydajno dla obu dwch systemw

    DBMS ustawiony dla OLTP: metody dostpu, indeksowania,

    sterowania wspbienoci, odzyskiwania

    Hurtownia ustawiony dla OLAP: zoone zapytania

    OLAPowe, wielowymiarowe widoki, konsolidacja.

    Rne funkcje i rne dane:

  • Typowe operacje OLAP

    Roll up (drill-up): podsumowanie

    Przejcie do wyszego poziomu w hierarchii lub redukcja

    wymiarw

    Drill down (roll down): rozwinicie (odwrotnie do roll-up)

    Przejcie do niszego poziomu w hierarchii lub wprowadzanie

    nowych wymiarw

    Slice and dice:

    Rzut i selekcja

    Pivot (rotate):

    Zmiana orientacj kostki, wizualizacja,

    INNE: drill across, drill through

  • Przykad hyperkostki

    Roczna sprzeda

    TV w U.S.A.Date

    Cou

    ntr

    ysum

    sumTV

    VCRPC

    1Qtr 2Qtr 3Qtr 4Qtr

    U.S.A

    Canada

    Mexico

    sum

  • Drill-down/ Roll-up

  • Rotating, slicing and dicing

  • Rne modele OLAP

    Model relacyjny (ROLAP)

    schemat gwiazdy (ang. starschema)

    schemat patka niegu (ang.snowflake schema)

    schemat konstelacji faktw (ang.fact constellation schema)

    schemat gwiazda-patek niegu (ang.starflake schema)

    Model wielowymiarowy (MOLAP, MDOLAP)

    Model hybrydowy (HOLAP)

  • Narzdzia

    DB2 DataWarehouse Center,

    Sybase WarehouseStudio,

    Microsoft DataWarehousing Framework,

    SAP Datawarehouse management,

    NCRTeradata Warehouse Builder,

    Oracle Designer6i/9i

  • Globalny rynek OLAP

    Przewidywani

    e w roku

    2003

  • Rozwj technologii OLAP

    Byskawicznie

    rozwijajcy si rynek

    badawczy i

    technologiczny

    Przewidywano:

    9.9 *109$ w 2008

    (METAGROUP)

  • PROJEKTOWANIE

    HURTOWNI DANYCH NA

    POTRZEB OLAPModele wielowymiarowe

    Realizacje operacji OLAP

  • Motywacje

    Cele:

    Wzrost przeday

    Zwikszenie udziau firmy w rynku, ...

    Jak to robi:

    analiza zachowania klientw,

    lokalizacja sabych punktw,

    ledzenie trendw.

    Problemy techniczne:

    Jakimi danymi dysponujemy?

    Ktre dane powinnimy gromadzi w hurtowni?

    Wszystkie?

    Tylko to, co niezbdne?

    Jak schowa dane w hurtowni?

  • Model wielowymiarowy

    Baza zawiera fakty opisane przez wymiary i okrelajce

    warto miar.

    Fakt - pojedyncze zdarzenie bdce podstaw analiz (np. sprzeda).

    Fakty opisane s przez wymiary i miary.

    Wymiar - cecha opisujaca dany fakt, pozwalajca powiza go z innymi

    pojciami modelu przedsiebiorstwa (np. klient, data, miejsce, produkt).

    Wymiary s opisane atrybutami.

    Atrybut - cecha wymiaru, przechowujca dodatkowe informacje na temat

    faktu (np. wymiar data moe mie atrybuty: miesic, kwarta, rok; wymiar

    klient moe mie atrybuty: nazwisko, region).

    Miara - warto liczbowa przyporzadkowana do danego faktu (np. wartosc

    sprzeday, liczba sztuk).

  • ROLAP

    Relacyjna implementacja dla OLAP;

    Problemy:

    Zidentyfikowanie faktw

    Zidentyfikowanie kluczowych wymiarw

    Zaprojektowanie tabel faktw

    Zaprojektowanie tabel wymiarw

  • ROLAP zidentyfikowanie faktw

    handel: transakcje sprzeday

    bankowo: kursy walut, operacje na rachunkach

    gieda: wahania kursw akcji, operacje giedowe

    ubezpieczenia: wykupienie polisy, zmiana warunkw polisy, zgoszenie szkody, wypacenie odszkodowania

    telekomunikacja: zrealizowanie rozmowy przez abonenta, podczenie telefonu, zawarcie umowy, zmiana abonamentu, patnoci za abonament

    opieka zdrowotna: przyjcie pacjenta do szpitala, forma leczenia, wynik leczenia

    Naley wskaza kluczowe typy transakcji w systemie produkcyjnym, realizujce kluczowe akcje/operacje w obszarze dziaania przedsibiorstwa, np.

  • ROLAP zidentyfikowanie wymiarw

    handel:

    analiza sprzeday w poszczeglnych miastach i okresach czasowych

    bankowo:

    Wahania kursw walut w poszczeglnych dniach

    analiza przyrostu iloci nowych rachunkw w poszczeglnych miesicachz podziaem na rodzaje rachunkw

    gieda: Wahania kursw akcji poszczeglnych firm w poszczeglnych dniach

    Ilo zawartych transakcji kupna lub sprzeday w jednostce czasu i czne kwoty tych operacji

    ubezpieczenia:

    analiza przyrostu/spadku iloci polis poszczeglnych rodzajw w miastach w poszczeglnych miesicach

    telekomunikacja:

    analiza rozkadu czasu rozmw poszczeglnych klientw w czasie doby

    Naley znale kluczowe wymiary dla faktw

    (okrelenie kontekstu analizy faktw)

  • OLAP - Projektowanie tabeli faktw

    Poziom szczegowoci informacji rozmiar tabeli faktw rejestrowanie kwoty zakupu pojedynczego produktu

    rejestrowanie sumarycznej kwoty zakupu caego koszyka

    rejestrowanie sumarycznej kwoty zakupu w tygodniu

    Horyzont czasowy danych jak dugo przechowywa informacje na najwyszym poziomie

    szczegowoci?

    opracowanie strategii agregowania danych starszych

    raporty roczne: najczciej wystarczaj agregaty sumujce fakty z dokadnoci do tygodnia

    raporty agregujce dane sprzed kilku lat: najczciej wystarczaj agregaty sumujce fakty z dokadnoci do miesica lub roku

  • OLAP - Projektowanie tabeli faktw

    Waciwy zbir atrybutw tabeli faktw

    Usunicie zbdnych atrybutw rozmiar tabeli faktw

    czy atrybut wnosi now/niezbdn wiedz o fakcie?

    czy warto atrybutu mona wyliczy?

    Minimalizacja rozmiarw atrybutw

    przykad: telekomunikacja

    tabela wymiaru Abonenci zawiera 8*106 abonentw

    kady abonent dzwoni rednio 2 razy dziennie

    roczny horyzont czasowy tabeli faktw

    zmniejszenie dugoci rekordw tabeli faktw o 10B zyskujemy 54GB

  • ROLAP klucze podstawowe i sztuczne

    Klucze naturalne

    nr rejestracyjny pojazdu, VIN, nr rachunku, NIP, PESEL

    Klucze sztuczne generowane automatycznie przez system

    nr klienta, id produktu, nr transakcji

    Poczenie tabeli wymiaru i faktw za pomoc klucza podstawowego-obcego

    poka ilo szkd pojazdu o numerze rejestracynym xxx w ostatnim roku

    zapytanie wycznie do tabeli faktw

    Jeli warto klucza podstawowego moe si zmieni wysoki koszt uaktualnienia faktw

    sytuacja mao prawdopodobna

    uwaga: nr rachunku!

  • Schematy wielwymiarowych danych w ROLAP

    schemat gwiazdy

    (ang. stars chema)

    schemat patka niegu

    (ang. snowflake schema)

    schemat konstelacji faktw

    (ang. fact constellation schema)

    schemat gwiazda-patek niegu

    (ang. starflake schema)

  • Schemat gwiazdy (stars schema)

    Gwiazda: tabela wymiarw jest zdenormalizowana

    Zaleta:

    operacja roll-up wykonywana szybko (bez koniecznoci czenia z

    tabel poziomu nadrzdnego)

    Wada:

    na skutek redundancji danych rozmiar tabeli moe by duy

    np. wymiar Czas z ziarnem 1sek i horyzontem czasowym wymiaru 10 lat

    300 000 000 rekordw

    astronomia, fizyka jdrowa, telekomunikacja

  • Schemat gwiazdy

  • Schemat gwiazdy

  • Schemat platek sniegu (snowflake schema)

    Patek niegu: tabele wymiaru s znormalizowane

    mniejszy rozmiar poszczeglnych tabel poziomw

    operacja roll-up wykonywana wolniej (konieczno czenia tabel

    poziomw)

    W praktyce:

    atrybuty rnych poziomw czsto wykorzystywane w operacji roll-up

    umieszczenie w tej samej zdenormalizowanej tabeli poziomu

    najniszego

    atrybuty rzadko wykorzystywane w roll-up umieszczenie w

    znormalizowanych tabelach poziomw wyszych

  • Schemat kostelacji faktw

  • Schemat gwiazda-platek sniegu

    Cz wymiarw znormalizowanych

    poziomy wysze wykorzystywane rzadko

    oszczdno miejsca

    Cz wymiarw zdenormalizowanych

    wszystkie poziomy wymiarw wykorzystywane czsto

    efektywno zapyta

  • Model punktowy

    Przed stworzeniem logicznego modelu danych (gwiazda, patek sniegu) naley uzgodni model pojciowy.

    Przykadowa technika modelowania: model punktowy.

    Fakty reprezentowane s punktami

    Wymiary reprezentowane s przez nazwy

    Podobnie reprezentujemy kolejne poziomy hierarchii

    Model moe obejmowa wiele (konstelacje) faktw, korzystajcych czciowo ze wsplnej hierarchii wymiarw

  • Model punktowy

    W modelu punktowym zapisujemy ponadto informacje na temat:

    Nazw atrybutw

    Typw danych

    Wiezw integralnoci

    Retrospekcji (zmiennoci wartoci atrybutw w czasie)

    Czstoci odwieania

    Pochodzenia danych (zrdo, transformacje)

    Metadanych biznesowych

    Retrospekcja moe by:

    prawdziwa zapisujemy wszelkie zmiany wartoci wraz z dokadnym czasem

    faszywa nowe wartosci zastepuja stare

    trwaa nie przewidujemy zmiany wartosci.

  • Model punktowy przyklad

  • Agregacja danych

    Agregacje to operacje zamieniajce zbir wartoci (przewanie liczbowych) miar opisujcych fakty, na pojedyncz warto.

    Podstawowa operacja tworzca kostki danych.

    Przykady:

    Suma

    Liczba rekordw

    Srednia

    Minimum, maksimum, mediana

    Dodatkowy warunek (np. HAVING)

    Specjalne (stored procedures)

    Przykadowe zapytanie:

    SELECT miesiac, SUM(kwota) FROM tablica_faktw

    GROUP BY miesiac HAVING SUM(kwota)>500

  • Poziomy agregacji danych

    Nie zawsze potrzebujemy danych opisanych z pen dostpn dokadnoci.

    Gwny cel: wydajno

    Agregacja wartoci moe dotyczy pomijania pewnych wymiarw lub atrybutw w hierarchii.

    Hurtownia danych (lub hurtownie tematyczne ang. data mart) mog przechowywa zmaterializowane podkostki danych i korzysta z nich podczas analiz.

  • Przyklad

    Dane: fakty sprzeday (50

    mln. rekordw, miara:

    warto),

    klienci identyfikowani kodem

    pocztowym (3000 rnych

    kodw),

    towary (60 grup, 800 nazw

    indywidualnych),

    czas: 3 lata (1000 dni),

    sklepy (18 sztuk).

    Model gwiazdy:- tablice z ponad 50 mln. rekordw. (cznie)

    - Kostka danych: 3000*800*1000*18 = 43 200 000 000komrek.

    Wersja zagregowana: - ignorujemy wymiar klientw, towary rozpatrujemy tylko w grupach, czas rozpatrujemy w skali miesicy.- Kostka danych: 60*36*18 = 38 880 komrek (sumy wartoci).

    Powysza agregacja nie pozwala na wygenerowanie wszystkich tych raportw,

    ktre mogy by tworzone oryginalnie, ale za to dla pozostaych raportw moe

    dziaa o 3 rzdy wielkoci szybciej.

  • Optymalizacja agregacji

    Problem:

    Ktre wymiary moemy pomin?

    Jak agregowac dane (sum, min, max, avg, count)?

    Ktre atrybuty hierarchii agregujemy, a ktre pozostawiamy?

    Ile powinno powsta zmaterializowanych kostek pomocniczych?

    Jak optymalnie obliczac konkretne zapytanie?

    Cel:

    np. minimalizacja redniego czasu przetwarzania zadawanych w praktyce zapyta OLAP.

    Musimy wybra takie kostki, z ktrych pniej najatwiej bdzie generowa raporty.

  • Metadane = dane o danych

    Skd wiadomo, ktre zapytania

    s czsto wykonywane?

    Informacje o zadawanych zapytaniach OLAP s gromadzone jako metadane w specjalnej bazie- repozytorium.

    Mog by wykorzystane do optymalizacji zapyta (np. materializacji niektrych agregacji).

    Metadane zawieraj te wiele innych informacji, np.

    opis pojciowy i logiczny danych,

    informacje o zrdach i ich integracji,

    dziennik aktualizacji itd.

  • Nawigator agregacji

    Nawigator po agregacjach wspomaga te przegldanie danych i

    przygotowywanie raportw.

    Zapewnia wygodny wgld w wielowymiarowy model danych.

  • Agregowane dane w modelu ROLAP

  • Prezentowanie czasu w tabeli faktw

    Sztuczny identyfikator (data_id)

    konieczno czenia z tabel wymiaru czasu

    Naturalny identyfikator (data, timestamp) skadowanie fizycznej daty

    sposb bardziej efektywny

    wikszo analiz wykonuje si w wymiarze czasu

    zapytanie nie zawiera poczenia z tabel wymiaru czasu

    Skadowanie przesunicia czasowego

    Skadowanie zakresw dat

  • Skladowanie przesuniecia czasowego

    partycjonowane tabele faktw

    Wada: konieczno konwersji daty z zapytania uytkownika do postaci przesunicia

    czasowego

    perspektywa

    Zaleta: podzia duej tabeli na mniejsze, z ktrych kada moe by adresowana w

    zapytaniu niezalenie

    mniejszy rozmiar atrybutu reprezentujcego dat (1B)

  • Skladowanie zakresu czasowego

    Np.

    atrybuty: data_od, data_do

    stan magazynu supermarketu

    sprzeda w okresie czasowym

    Wada: bardziej zoone zapytanie testujce warunki

    pocztku i koca okresu

    Zaleta: rozszerzenie zakresu wanoci rekordu

    poprzez zmodyfikowanie wartoci data_do

    np. liczba produktw w magazynie nie ulega zmianie w danym

    dniu zmodyfikuj warto data_do dla tego produktu

  • Nawigacja po agregacjach

    Drilling down / rolling up

    Slicing and dicing

    Rotating

    Pivoting

  • Literatura

    Ch. Todman. Projektowanie hurtowni danych. WNT,

    Warszawa 2003.

    M. Jarke, M. Lenzerini, Y. Vassiliou, P. Vassiliadis.

    Hurtownie danych. Podstawa organizacji i

    funkcjonowania, WSiP, Warszawa 2003.

    V. Poe, P. Klauer, S. Brobst. Tworzenie hurtowni danych.

    WNT, Warszawa 2000.