Upload
damian-blair
View
50
Download
0
Embed Size (px)
DESCRIPTION
Adattárház rendszerek. Áttekintés Sidló Csaba [email protected]. Tartalom. Bevezetés, fogalmak, definíciók Új követelmények: OLAP rendszerek Adattárház architektúra Adattárházra épülő elemző módszerek Adattárház komponensek Adatmodelle zés, adatmodellek MOLAP architektúrák - PowerPoint PPT Presentation
Tartalom
1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom
Tartalom
1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom
Bevezetés
Vállalati környezet – a táptalaj Vállalat vezetése: döntések sorozata
gyors, jó minőségű döntések eredményesség
Tézis: a döntések minősége nagyban függ a döntéshozók informáltságától, a rendelkezésre álló adatok, információk minőségétől
A döntések megfelelő támogatására jelenthet megoldást az adattárház technológia
Vállalati adathalmazok
Adott vállalat működése során rengeteg adat halmozódhat fel
Elektronikus formában, papíron, gyakran sokféle, inkonzisztens tárolási módszernek megfelelően tárolva
Nagy, kevés gyakorlati hasznot jelentő vállalati adathalmazok fenntartása szükséges, de haszontalan költséget jelent(Data puddle – adattemető)
Vállalati információszükségleti hierarchia (Moslow nyomán)
Adattárház definíció
Bill Inmon:
"A data warehouse is a subject oriented, integrated, nonvolatile, and time variant collection of data in support of management's decisions."
Adattárház definíció 2.
1. Subject oriented (tárgy- v. témaorientált) hagyományosan: üzleti folyamatoknak megfelelő nézőpont most: elemzési területeknek megfelelő nézőpont, adatok az
elemzés kulcsfontosságú fogalmai köré csoportosítva (Pl.
vevő-lemorzsolódás, raktárkészlet alakulása, stb.)
2. Integrated (integrált) több adatforrásból, egy helyen központosuló adatgyűjtés egységesített, szabványos formában kezelt adatok
Adattárház definíció 3.
3. Nonvolatile (tartós) Változatlan adatok Alapvetően nem törlődő adatok
4. Time variant (időfüggő) Forrásrendszerek: adott (érvényes) állapotot leíró fadatok Adattárházak: történeti, historikus, időfüggő adatok időfüggő
elemzések, összehasonlítások, változási trendek elemzése
Data Warehousing
"Data Warehousing is the process, whereby organizations extract value from their informational assets through the use of special stores called data warehouses."
Három kulcsmozzanat: Adatkinyerés a tranzakciós (vagy más vállalat-
működtetési) forrásrendszerekből A kinyert adatok átformálása riport (beszámoló) készítés
számára A riportok, beszámolók elérhetővé tétele a döntéshozók
számára.
Business Intelligence (BI, üzleti intelligencia) fogalma:„Olyan módszerek, fogalmak halmaza, melyek a döntéshozás folyamatát
javítják ún. tényalapú rendszerek használatával.”(Howard Dresdner, 1989)
Tényalapú rendszerek: Vezetői információs rendszerek (EIS, Executive Information System) Döntéstámogató rendszerek (DSS, Decision Support System) Vállalati információs rendszerek (Enterprise Information System) On Line Analytical Processing (OLAP) Adat- és szövegbányászat Adatvizualizáció Geográfiai Információs rendszerek (GIS)
Ezek egy szeletét fedik le az adattárház megoldások.
Business Intelligence Platform
Olyan platform, amely támogatja a következő technológiákat:
Adattárház jellegű adattárolás OLAP Adatbányászat Nyílt interface-ek (OLAP, adatbányász, stb.) Ezeket támogató, megvalósító komponensek, eszközökPl.: Oracle9i, IBM DB2, MSSQL
Tartalom
1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom
OLTP - OLAP rendszerek
OLTP: On Line Transaction Processing Hagyományos adatbázis alkalmazások,
nyilvántartások, vállalatok produktív rendszerei ERP rendszerek: Enterprise Resource Planning Pl.: SAP R/3, Oracle Financials, Libra, stb.
OLAP: On Line Analytical Processing Elemzési célú rendszerek elterjedt
követelményrendszere
OLAP követelményrendszer
E.F.Codd, 1992: 12 pontos követelményrendszer, (a fontosabbak):
Multidimenzionális adatnézet Általános dimenzió-fogalom, korlátlan dimenziószám Transzparencia: technikai részletek ismerete nélküli
könnyű elérhetőség Kliens-szerver architektúra Több konkurens felhasználó támogatása
OLTP – OLAP tulajdonságok
Tulajdonság OLTP OLAPOrientáció Tranzakciók hatékony
tárolása, végrehajtásaAdatanalízis
Felhasználó Vállalati adminsztrátorok Döntéshozók
Feladat Napi folyamatok követése Döntéstámogatás, információszolgáltatás
Adatok Aktuális, up-to-date Történeti, archív adatok
Összegzett adatok Nem jellmező, részletes Összegzett, egyesített adatok
Adatok nézete Relációs multidimenzionális
Felhasználói hozzáférés
Olvasás / írás Jellemzően olvasás
Hangsúly Adatbevitelen Információ- (tudás-) kinyerésen
Feldolgozandó adat Alkalmanként tizes nagyságrendű
Egyszerre akár milliós rekordszám
Felhasználók száma Viszonylag sok Néhány, közép- és felsővezetők
Prioritás Állandó rendelkezésre állás, megbízhatóság
Rugalmasság, felhasználói önállóság
Tartalom
1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek11. Példák adattárház rendszerekre12. Irodalom
Speciális adattárház típusokJól skálázható technológia:
Data Mart (adatpiac)lokális, szűk felhasználói kör, konkrét feladatok, kis adatfeldolgozó és analizáló egység adattárház funkciókkal
Operational Data Store (ODS)Adatok tisztítására, gyűjtésére használt egység, teljes részletezettéségű operációs adatokkal
Extraprise Data WarehouseHelyi megkötés nélkül összefutnak benne B2B és B2C adatok, elemzési céllal
Virtuális adattárházNem épül külön rendszer az adattárház adatainak számára, azt az OLTP rendszer keretein belül valósítják meg
Az adat útjának fő állomásai
Forrásrendszerek Adattárház Elemző frontend alkalmazások
Architektúra változatok (kliens-szerver modellek)
Tartalom
1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek11. Példák adattárház rendszerekre12. Irodalom
OLAP elemzések
OLAP elemzések Multidimenzionális adatnézet Intuitív kezelőfelület, rugalmas lekérdezések On-line, válaszidő orientált szolgáltatás Közép-felsővezetők Lehetőség összetett elemzésekre, látványos, jól
használható vizualizációra
Adattárházak - adatbányászat
Adatbányászat: „Hasznos, látens információ kinyerése adatbázisokból.”
OLAP korlátok: adatmennyiség, lekérdező nyelv
Tudáskinyerés folyamata
1. Alkalmazási terület felmérése, előzetes ismeretek rendszerezése2. Céladatbázis kiválasztása, létrehozása3. Adattisztítás, előfeldolgozás4. Adatintegráció5. Adattér csökkentés: cél szempontjából fontos attribútumok
kiemelése6. Adatbányászati algoritmusok kiválasztása (klaszterezés,
mintakeresés, osztályozás)7. Adatbányászati algoritmus, paraméterek előállítása8. Algoritmus alkalmazása9. Kinyert információ értelmezése, finomítások10. A megszerzett tudás megerősítése, összevetése az elvárásokkal,
dokumentálás
Tudáskinyerés folyamata
1. Alkalmazási terület felmérése, előzetes ismeretek kinyerése2. Céladatbázis kiválasztása, létrehozása3. Adattisztítás, előfeldolgozás4. Adatintegráció5. Adattér csökkentés: cél szempontjából fontos attribútumok
kiemelése6. Adatbányászati algoritmusok kiválasztása (klaszterezés,
mintakeresés, osztályozás)7. Adatbányászati algoritmus, paraméterek előállítása8. Algoritmus alkalmazása9. Kinyert információ értelmezése, finomítások10. A megszerzett tudás megerősítése, összevetése az elvárásokkal,
dokumentálás
Adattárházak - adatbányászat
Az adattárházak megfelelő alapot biztosíthatnak adatbányász módszerek alkalmazásához
Részben hasonló célok OLAP elemzések – adatbányász elemzések: jól
kiegészíthetik egymást Probléma: OLAP jellegű és adatbányász rendszerek
hatékony, rugalmas illesztése Megoldást jelentheti:
Következtetési szabályok a DW-ben (induktív adatbázisok) Megfelelő adatbányász interface alkalmazása (még nincs
elfogadott szabvány)
Tartalom
1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom
Komponensek
Komponens csoportok
ETL: Extraction Transformation and Load
Adatkinyerés az operatív rendszerekből (extraction)
Adattranszformáció (különböző adatformátumok, mértékegységek, nyelvek stb.)
Adatminőség ellenőrzése, adattisztítás (cleaning)
Adatbetöltés az adattárház struktúráiba (loading)
Komponens csoportok 2.
OLAP Tools:OLAP lekérdezéseket lehetővé tévő komponensek (OLAP szerver, interface-ek)
Felügyelet, adminisztrációadattárház működtetése, felügyelete
Metaadat kezelés
Metaadat: „adat az adatokról”
Az adattárház szerkezetét, a bent lévő adatok jellemzőit tároló szerkezet
Fontos: adatintegrációhoz szabványos adatkezelés A megfelelő metaadat kezelési stratégiát gyakran említik
mint az adattárház projekt kulcskérdését Példa: adatkockáink leírása, az adattöltéseink
eredményei, az adatforrások mezőinek jelentése, stb.
Komponens csoportok 3.
Frontend adatelemző alkalmazásokOLAP elemzők, adatbányász eszközök, vizualizáció, egyéb kliens alkalmazások
Adatbázis komponensek ROLAP: relációs OLAP – relációs adatbáziskezelő MOLAP: multidimenzionális OLAP, közvetelen
multidimenzionális adattárolás HOLAP: hibrid OLAP - keverék
Tartalom
1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom
Adatmodellezés (koncepcionális, logikai, fizikai)
O L T P O LA P
OD L
Ent it y/R e lat ion ship
R e lác iók
O bjec t -O r ie ntedDB M S
R e lat ion a lDB M S
Ö tle t ek
Ö tle t ek
R e lác iókR e lat ion a lDB M S
O bjec t -O rient ed DB M S
M ult id im . DBM ult id im .
Dat aM ode l
M O L A P
O sz tá lyok
O 3 O L A P
R O L A P
OLTP adatmodellek
Hagyományos, kiforrott módszerek Relációs adatmodell Relációs algebra alapú lekérdezőnyelvek,
SQL Egyed/Kapcsolat Modell (E/R M), UML
OLAP multidimenzionális adatfogalma(szemantikai)
Fogalmak: Tényadatok (mutatószámok) Dimenziók (jellemzők) Dimenzió-hierarchiák N-dimenziós adatkocka
Adatkocka példa: nemzetközi kereskedelmi cég értékesítési adatainak multidimenzionális nézete
Analízisoperátorok
Műveletek: adatkocka adatkocka Aggregáció (roll up)
dimenzió elhagyása v. lépés hierarchiában felfelé Lefúrás (drill down)
áttérés nagyobb részletezettségre Pivoting
adatkocka elforgatása Szelekció (selection, filtering)
konkrét jellemzők kiválasztása Szeletelés (slicing and dicing)
adatkocka szeletének kiválasztása, részkocka kiválasztása
Példa hagyományos OLAP elemzőfelületre – SAP BEx Analyser
Oracle Discoverer frontend
Szemantikai réteg formális adatmodelljei ME/R modell: E/R modell
multidimenzionális bővítése Nested Multidimensional Model (Lehner) Dimensional Fact Model (Golfarelli, Maio,
Rizzi) Stb.
ME/R Modell - példa
Tartalom
1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek11. Példák adattárház rendszerekre12. Irodalom
MOLAP technológia
Közvetlen támogatása a szemantikai multidimenzionális adatmodellnek
Tényadatok / dimenziók szétválasztása Fizikai tároláskor figyelembe vesszük az adatok
multidimenzionális szerkezetét Többdimenzionális tömb tárolás: az adatkocka
adatainak rendezése után azokat fix helyen tároljuk, így nem kell őket indexelni; a kocka minden mezőjének (a tartalmától függetlenül) lefoglalunk egy fix tárhelyet!
Háromdimenziós kocka elemeinek egy rendezése
Háromdimenziós MOLAP dimenzió-hierarchia példa
MOLAP
Ritka mátrix kezelés:a mátrix üres részeinek felderítése, majd a fizikai tárolás megvalósítása ezen mezők kihagyásával helytakarékosság
Korlátok: Nagy dimenzió-elemszámok esetén Ritka mátrix kezelés gyakran nehézkes Nincs elfogadott szabvány Strukturális változtatások rendkívül költségesek
MOLAP termékek
Asztalitól kezdve „high end” alkalmazásokig, Cognos: PowerPlay Business Objects: Mercury Oracle Express Holostic Systems: Holos
Adatbázis motorok: Arbor: Essbase Sinper: TM/1
Tartalom
1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom
Relációs adatbázis sémák
Relációs adatbázis: a relációs adatmodellt támogató adatbázis – kiforrott módszerek, technológiák
Táblák (relációk) Constraint-ek (megszorítások) Relációs séma: az adatbázisban tárolt adatokat
leíró adatbázis-terv (reláció-előfordulásoktól, vagyis a konkrét adatoktól független)
ROLAP séma tervezésének 4 lépéses folyamataKimball módszertana1. Modellezendő üzleti folyamat kiválasztása
pl.: raktárkészlet nyilvántartások
2. Felbontás (granularity) meghatározásapl.: raktárkészlet alakulása naponként, termékenként, raktárhelységenként, szállítónként, stb.
3. Dimenziók kidolgozásapl.: termék dimenzió: név, ID, súly, beszerzési ár, stb.
4. Tényadatok meghatározásapl.: mennyiség, súly, érték, minőségi mutatók, stb.
Csillagséma
Cél: multidimenzionális elvi modell megvalósítása relációs adatmodellben
Eszköz: speciális relációséma kialakítása Központi „tény-tábla” a tényadatok számára Hozzá idegen kulcsokkal kapcsolódnak a
dimenzióelemeket tartalmazó „dimenzió-táblák”
Dimenziótáblák
Ténytáblához képest általában kis adatmennyiség Célszerű minél több, könnyen értelmezhető és beszédes
leíró jellegű atribútumot felvenni rugalmas, felhasználóbarát elemzések lehetőségePl.: dátum dimenzió létjogosultsága
Denormalizált szerkezet – redundancia (gyors lekérdezhetőség elsődleges szerepe)
Generált, adatbáziskezelő által támogatott kulcsok Változó dimenziók kezelésére megfelelő stratégia
kidolgozása (slowly changing dimensions)
Termék dimenzió
Ténytábla
Dimenziótáblákhoz képest nagy méretű Attribútumai mutatószámok, valamint a
mutatószámokat jellemző dimenzióértékekre mutató idegen kulcsok
Általában nem tartalmaznak dimenzióértékeket, csak kulcsokat
„Napi eladások” adatkocka csillagsémája
Csillagséma tulajdonságaiElőnyök: Egyszerű, intuitív adatmodell Kevés join művelet lekérdezésekhez Kevés tábla olvasása Könnyű megvalósíthatóság, a modell leíró adatai
egyszerűek
Hátrányok: Nehézkes aggregátum (összeg) képzés Nagy dimenziótáblák esetén a hierarchiák kezelése
nagyban lassítja a lekérdezéseket Dimenzióelemek tárolása redundáns, denormalizált
(vagyis tárhhely-pazarló)
Egyéb csillagséma variánsok
Hópehely sémanormalizált dimenziótáblák (pl. hierarchiaszerkezetek kialakítása, stb. – hagyományos normalizálás folyamata)
Konszolidált csillagsémaaggregált adatok tárolása a ténytáblában
„Terraced” séma – a szélsőséges esetegyetlen, elfajult ténytáblából álló séma
Galaxis sématöbb adatkocka megvalósítása külön ténytáblákkal, de közösen használt dimenziótáblákkal
„Fact consellation schema”hierarchikus kapcsolatban álló ténytáblák
Példa: az SAP BW hópehelysémája
TextText
SID TableSID Table
MasterMaster
Hierarch.Hierarch.
Hierarch.Hierarch.
MasterMaster
SID TableSID Table
TextText
Hierarch.Hierarch.
MasterMaster
SID TableSID Table
TextText
Hierarch.Hierarch.
MasterMaster
SID TableSID Table
TextText
Hierarch.Hierarch.
MasterMaster
SID TableSID Table
TextText
TextText
SID TableSID Table
MasterMaster
Hierarch.Hierarch.
TextText
SID TableSID Table
MasterMaster
HierarchiesHierarchies
Dimension tableDimension table
TextText
SID TableSID Table
MasterMaster
HierarchiesHierarchies
Dimensiontable
Dimensiontable
Dimension tableDimension table
Dimension tableDimension table
Hierarch.Hierarch.
MasterMaster
SID TableSID Table
TextText
FACTFACTDimension tableDimension table
ROLAP teljesítény javítása - módszerek
Kritikus tulajdonság a válaszidő (elvárás: 4 másodpercnél nem hosszabb lekérdezések!)
Módszerek: Denormaizáció (redundancia bevezetése) Aggregált adatok tárolása (szintén redundáns
adattároláshoz vezet) Particionálás: tábla (pl. napi szinten), valamint
osztott adatbázisok
Aggregáció
Cél: elemzés során gyakran előforduló felbontással összegek, mutatószámok fizikai tárolásával a válaszidő csökkentése
Fontos a tárolt aggregátumok megfelelő választásatúl sok nagy adatbázis, aggregátumok karbantartása költségestúl kevés lassú lekérdezések
Gyakran az adattárház rendszer az előforduló lekérdezések mért statisztikái alapján, dinamikusan dönt a létrehozandó aggregátumokról
Aggregációs rács – „n-cuboid”-ok(megfelelő tárolt aggregátumok kiválasztásához)
OLAP támogatás relációs adatbáziskezelőkben
(Oracle 9i példákkal) Tábla particionálás – párhuzamos végrehajtás
Range particionálás: attribútum értékek intervallumfelosztása alapján, pl. napi adatok
Hash particionálás: attribútumértékekből számolt hash-függvény használata List particionálás: adott értéklisták alapján
create table partitioned_t( … date_stamp date not null)partition by range (date_stamp)( partition part_1 values less than (TO_DATE(‘1970.01.01’)) tablespace ts1, … partition part_5 values less than (TO_DATE(‘2003.9.28’)) tablespace ts5 )
OLAP támogatás 2.
Materializált nézetek (aggregáció) Fizikailag tárolt nézetek Automatikus frissítés, query kiszolgálása szintén
automatikusan történik a nézetből, ha célszerű
create materialized view mat_examplebuild immediaterefresh forceenable query rewrite
as select id, sum(amount)
from sales s, customers cwhere s.cust_id = c.cust_idgroup by c.cust_id ;
OLAP támogatás 3.
Bitmap indexelés: hagyományos indexek (B-fa): attribútum értékek
alapján meghatározza a konkrét rekord helyét Bitmap: rekordazonosító (rowid) helyett azok egy
bitsorozatos reprezentációját használjuk Rugalmas attribútumkezelés ( rugalmasabb OLAP
lekérdezések), helytakarékosság
OLAP támogatás 4.
Külső táblákETL folyamat integrálása adatbázison belülrekülső file-ok, adatforrások hagyományos táblaként kezelhetőek
OLAP query optimalizációOLAP bővítményeket tartalmazó SQL-eken és szabványos OLAP interface-eken (Pl. Java OLAP API) keresztül történő lekérdezések optimalizációja
OLAP támogatás 5.
Tábla tömörítésNagy adatmennyiség esetében a tábla adatait tömöríthetjükhatékonyabb helykihasználás, gyorsabb válaszidők, de cserébe költségesebb módosító műveletek
Dimenzió, hierarchia, adatkocka fogalmának bevezetéseMultidimenzionális adatmodell támogatása
OLAP támogatás 6.
SQL bővítések Group by kiegészítői: ROLLUP, CUBE operátorok
select channel_desc,calendar_month_desc,country_id,
to_char(sum(amount_sold), '9,999,999,999') SALES$ from sales, customers, times, channels where sales.time_id=times.time_id and sales.cust_id=customers.cust_i and sales.channel_id= channels.channel_id and channels.channel_desc IN ('Direct Sales', 'Internet') and
times.calendar_month_desc IN ('2002-09', '2002-10') and country_id IN ('CA', 'US') group by cube
(channel_desc,calendar_month_desc,country_id);
CHANNEL_DESC CALENDAR CO SALES$ -------------------- -------- -- ----------Direct Sales 2002-09 CA 1,378,126 Direct Sales 2002-09 US 2,835,557 Direct Sales 2002-09 4,213,683 BY Channel and MonthDirect Sales 2002-10 CA 1,388,051 Direct Sales 2002-10 US 2,908,706 Direct Sales 2002-10 4,296,757 BY Channel and MonthDirect Sales CA 2,766,177 BY Channel and CountryDirect Sales US 5,744,263 Direct Sales 8,510,440 BY ChannelInternet 2002-09 CA 911,739 Internet 2002-09 US 1,732,240 Internet 2002-09 2,643,979 BY Channel and MonthInternet 2002-10 CA 876,571 Internet 2002-10 US 1,893,753 Internet 2002-10 2,770,324 BY Channel and MonthInternet CA 1,788,310 BY Channel and CountryInternet US 3,625,993 Internet 5,414,303 BY Channel
2002-09 CA 2,289,865 BY Month and Country2002-09 US 4,567,797 2002-09 6,857,662 BY Month 2002-10 CA 2,264,622 2002-10 US 4,802,459 2002-10 7,067,081
CA 4,554,487 US 9,370,256
13,924,743 Everything
HOLAP architektúrák
Relációs és multidimenzionális megvalósítást egyszerre támogató rendszerek
Trend: multidimenzionális tárolás lehetőségének bevonása relációs adatbáziskezelőkbe, a szabványos kereteken belül
Pl.: Oracle – Analytic WorkspacesMSSQL, IBM DB2
MOLAP – ROLAP eszközök skálázhatósága
Tartalom
1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom
Adattárház projekt
Adattárházak bevezetése beruházási projektek keretében
Hagyományos IT projektektől némileg eltérő felépítés
Tervezés: felhasználói igények – rendelkezésre álló adatok nyújtotta lehetőségek
Fentről lefelé ill. lentről felfelé tervezés
Iteratív adattárház-építési folyamat
Tartalom
1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom
Kurrens kutatási területek(a teljesség igénye nélkül)
Aggregátumképzés módszerei, modelljei, megfelelő aggregátumok kiválasztása, kezelése
Indexek Induktív adatbázisok
az adatok mellett következtetési sémákat, szabályokat is tárolunk adatbányászat
Query optimalizálásOLAP jellegű lekérdezések ekvivalens átalakításaival
Kurrens kutatási területek 2.
SQL bővítések, OLAP lekérdező nyelvek Formális adatmodellek Elosztott adattárházak
sok, független adatpiac Metaadat kezelés:
szabványosítás
Trendek, fejlesztési irányvonalak
Business Intelligence Platform – adatbáziskezelők egyre szélesebb körű szolgáltatással
ROLAP-MOLAP egybeolvadás Tisztám MOLAP termékek háttérbe szorulása Adatbányász eszközök integrálása az
adattárház ill. az adatbázis keretein belülre
Tartalom
1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom
Példák adattárház rendszerekre
SAP BW Robosztus, „faltól falig” megoldás Üzleti tudás beépítése
Oracle, IBM DB2 Könnyen skálázható Rugalmasan alkalmazható komponensek, nyitottság
más komponensek irányában Adatbázis szerver business intelligence platform
Clickstream adattárház
Clickstream: webszerveren halmozódó logokban tárolt, a felhasználók lekéréseit tartalmazó adathalmaz
Kihívás: nagy adatmennyiségekpl. [origo] portál: napi kb. 20 millió log-sor – 6 GB
Cél: felhasználási szokások, trendek felismerése, alapstatisztikák nyilvántartása, a portál karbantartása, kialakítása a felhasználói igényekhez mérten
Személyre szabott, célzott tartalom Adatbányász módszerek: klaszterezés, szekvencia-
keresés
Tartalom
1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom
Irodalom
W.H.Inmon: Building the Data Warehouse - Second Edition
Ralph Kimball, Margy Ross: The Data Warehouse Toolkit - Second Edition. John Wiley & Sons, Inc., 2002
Oracle9i Data Warehousing Guide. Oracle Corporation.
Business Information Warehouse Online Help