Depozite de Date

Embed Size (px)

DESCRIPTION

curs

Citation preview

  • 1

    DEPOZITE DE DATE- Data Warehouse

    DEPOZITELE DE DATE I TEHNOLOGIILE SOCIETII INFORMAIONALE

    Conform unor studii recente, depozitele de date au devenit, la sfritul anilor 90 una din cele mai importante dezvoltri din domeniul sistemelor informaionale.

    Palo Alto Management Group previziona nc din 1998 c piaa data warehouse va ajunge la 113.5 miliarde USD n 2002, incluznd aici vnzrile de sisteme data warehouse, software adecvat i servicii. Industria data warehouse s-a dezvoltat continuu n termeni de investiii, produse disponibile i proiecte elaborate. Se apreciaz c aproximativ 90% din companiile multinaionale au implementate depozite de date sau lucreaz la dezvoltarea unor proiecte data warehouse.

    Depozitele de date sunt produsul mediului economic i al tehnologiilor avansate. Pe de o parte, mediul economic este tot mai competitiv, global i complex i solicit informaii elaborate pentru sprijinirea deciziilor strategice iar, pe de alt parte, evoluiile tehnologiilor informaionale ofer soluii eficiente de gestionare a unor volume mari de date integrate, de ordinul terabytes-ilor, asigurnd niveluri de sintez detaliere adecvate. Astfel evoluiile performante din hardware cum sunt sistemele de procesri masive paralele (Massive Parallel Processing MPP), sistemele de multiprocesare simetric (symetric multi-processing SPM), sistemele tip baze de date paralele fac posibile ncrcarea, ntreinerea i accesul la baze de date de dimensiuni uriae. Aplicaiile data warehouse sunt n msur s asigure i un timp mediu de rspuns extrem de scurt pentru categorii extinse de utilizatori.

    Depozitele de date (data warehouse) furnizeaz arhitecturi i instrumente utile conducerii executive (business executives) prin organizarea sistematic, nelegerea i utilizarea datelor n luarea deciziilor strategice. Un mare numr de organizaii consider c sistemele data warehouse dispun de instrumente valoroase n mediul economic de ast zi, mediu competitiv i n rapid evoluie. n ultimii ani multe firme au cheltuit milioane de dolari cu realizarea de depozite de date. Mult lume i d seama c n condiiile competiiei sporite din fiecare industrie, depozitele de date sunt armele care trebuie marketingului, reprezentnd calea de a pstra clienii.

    Primele domenii care au adoptat tehnologia depozitelor de date au fost telecomunicaiile, bncile i comerul cu amnuntul. Ulterior depozitele de date au ptruns i n alte domenii cum ar fi industria farmaceutic, sistemul sanitar, asigurri, transporturi etc. Studiile statistice arat c telecomunicaiile i sistemul bancar se menin n top ntruct aloc cel puin 15% din bugetul IT pentru proiecte referitoare la depozite de date.

    Un proiect data warehouse reprezint ns o investiie riscant i scump. Costurile tipice pentru dezvoltarea unui depozit de date ntr-un interval de 3-6 luni se situeaz ntre 0.8 i 2 milioane USD. Ponderea echipamentelor se situeaz ntre 1/2 i 2/3 din costul total al proiectului. O soluie pentru firmele mici i mijlocii este recurgerea la data marts pentru care costurile se situeaz sub 100 000 USD ntr-un interval adesea sub 90 de zile. Uneori investiiile n depozite de date nu se finalizeaz cu succes. Motivaiile cele mai des ntlnite pentru eecul unor data warehouse includ susinerea insuficient din partea conducerii organizaiei, insuficiena fondurilor i politicile organizaionale defectuoase.

    Depozite de date - delimitri conceptuale

    Depozitele de date (data warehouse) au fost definite n foarte multe moduri nct

    este destul de dificil de formulat o definiie riguroas. n sens larg, un depozit de date reprezint o baz de date care este ntreinut separat de bazele de date operaionale ale organizaiei. Datele din sistemele surs sunt extrase, curate, transformate i stocate

  • 2

    n depozite speciale n scopul sprijinirii proceselor decizionale. Depozitele de date sprijin procesarea informaiilor furniznd o platform solid de consolidare a datelor istorice pentru analiz. Un depozit de date este o sum de date consistent din punct de vedere semantic care servete la o implementare fizic a unui model de date pentru sprijinirea deciziei i stocheaz informaii pe care o organizaie le solicit n luarea deciziilor strategice.

    n concordan cu W. H. Inmon, liderul n construirea sistemelor data warehouse, un depozit de date este o colecie de date orientate pe subiecte, integrate, istorice i nevolatile destinat sprijinirii procesului de luare a deciziilor manageriale. n sintez, definiia prezentat mai sus exprim caracteristicile majore ale depozitelor de date:

    orientare pe subiecte; integrare; caracter istoric; persistena datelor. Aceste caracteristici fac distincia ntre data warehouse i alte depozite de date (data

    repository systems) cum ar fi sistemele de baze de date relaionale i sistemele de prelucrare a tranzaciilor.

    Orientarea pe subiecte. Sistemele operaionale tradiionale erau focalizate pe datele cerute de compartimentele funcionale ale ntreprinderii. Odat cu reingineria proceselor (Business Process Reengineering - BPR) ntreprinderile ncep s axeze pe cerinele decizionale ale echipelor de conducere. Sistemele operaionale moderne sunt orientate pe cerinele ntregului proces tranzacional i sprijin execuia proceselor de la nceput pn la sfrit. Un depozit de date merge dincolo de informaiile tradiionale prin focalizarea pe subiecte ale activitii ntreprinderii cum ar fi: clieni, vnzri, profituri etc. Aceste subiecte necesit informaii din diverse surse pentru a furniza o imagine complet a domeniului. n loc de a se concentra pe procesarea operaiilor i tranzaciilor zilnice dintr-o organizaie, un depozit de date se focalizeaz pe modelarea i analiza datelor pentru luarea deciziilor. Din acest motiv, depozitele de date ofer, n mod tipic, o viziune simpl i concis relativ la un subiect specific excluznd datele care nu sunt utile n procesul de sprijinire a deciziei.

    Integrarea. Un depozit de date este, n mod uzual, construit prin integrarea unor multiple surse heterogene: baze de date relaionale, fiiere, nregistrri privind tranzacii on-line. Tehnicile de curare a datelor (data cleaning) i de integrare sunt aplicate pentru a asigura concordana n conveniile de atribuire a numelor, de codificare a structurilor, de atribuire a valorilor .a.m.d.

    Caracterul istoric. Datele sunt stocate pentru a furniza informaii n perspectiv istoric (de exemplu, 5-10 ani n urm ). Astfel decidenii pot consulta valorile succesive ale acelorai date pentru a determina evoluia n timp i a calcula anumii indicatori.

    Persistena datelor. Datele dintr-un depozit sunt permanente i nu pot fi modificate. O actualizare a depozitului de date, ca urmare a modificrilor efectuate n datele surs, nseamn adugare de date noi fr a modifica sau terge datele existente.

    Un depozit de date este ntotdeauna memorat separat din punct de vedere fizic de datele transformate din alte aplicaii. Datorit acestei separri, un depozit de date nu necesit mecanisme de procesare a concurenei. n mod uzual solicit numai dou operaiuni n accesarea datelor: ncrcarea iniial a datelor i accesul la date.

    Alte definiii surprind, cu unele nuanri, aceleai elemente eseniale: Un depozit de date conine un volum foarte mare de date. Unele dintre aceste date

    provin din sursele operaionale ale organizaiei, altele pot proveni din surse externe; Depozitul de date este organizat astfel nct s faciliteze folosirea datelor n

    scopuri decizionale. Depozitul de date furnizeaz instrumente prin intermediul crora utilizatorii finali

    pot accesa rapid datele.

  • 3

    n continuare prezentm cteva definii reprezentative din literatura de specialitate. n viziunea lui Barry Devlin, un depozit de date nseamn o stocare a datelor unitar,

    complet i consistent obinut dintr-o varietate de surse, disponibil utilizatorilor finali ntr-un mod uor perceptibil i utilizabil n contextul afacerii.

    Dup Ralph Kimball depozitul de date ofer acces la datele organizaionale; datele coninute sunt consistente; datele pot fi separate i combinate n funcie de fiecare dimensiune sau aspect al afacerii. Depozitul de date include, de asemenea, un set de instrumente pentru interogare, analiz i prezentare a informaiilor; reprezint locul n care sunt publicate datele folosite; calitatea datelor coninute n depozit reprezint o premis pentru reingineria afacerii.

    Sam Anahory subliniaz finalitatea depozitelor de date preciznd c un depozit de date include datele ... i procesele manageriale ... care fac informaiile disponibile, permind managerilor s ia decizii corect fundamentate.

    De asemenea, o serie de firme i-au adus contribuia n definirea, dezvoltarea i popularizarea tehnologiilor Data Warehouse IBM, Software AG, Oracle, Microsoft, Prism Solutions etc.

    De exemplu, Software AG definete depozitul de date ca punctul central pentru difuzarea informaiilor ctre utilizatorii finali pentru sprijinirea deciziilor i pentru acoperirea cerinelor informaionale ale conducerii.

    IBM a propus un termen propriu pentru depozitele de date: Information Warehouse. Dup unii autori, viziunea IBM se refer mai degrab la conectivitatea global a diverselor surse de date, fiind un fel de middleware generalizat bazat pe arhitectura proprie DRDA - Distributed Relational Database Architecture .

    De altfel, n literatura de specialitate se folosesc i simultan cei doi termeni pentru depozite de date: Data Warehouse i Information Warehouse. Dup Efraim Turban, scopul unui data (or information) warehouse este de a realiza un fond de date (data repository) care s fac accesibile datele operaionale ntr-o form acceptabil pentru asistarea deciziilor i pentru alte aplicaii.

    Data warehousing

    n legtur cu depozitele de date o noiune frecvent utilizat este cea dedata

    warehousing care desemneaz procesul de construire i utilizare a depozitelor de date (data warehouse). Construirea unui depozit de date necesit integrarea datelor, curarea datelor (data cleaning) i consolidarea datelor. Utilizarea unui depozit de date necesit adesea o colecie de tehnologii de asistare a deciziilor. Acestea permit managerilor i specialitilor (de exemplu, analiti, consilieri etc.) s utilizeze depozitul pentru a obine rapid i convenabil datele necesare i s ia deciziile bazate pe informaiile din depozit. Ali autori utilizeaz termenul de data warehousing pentru a referi numai procesul de construire a depozitului de date, n timp ce termenul de warehouse DBMS este utilizat pentru a referi conducerea i utilizarea depozitului de date.

    n privina utilizrii datelor din depozitele de date trebuie precizat c multe organizaii utilizeaz aceste informaii pentru sprijinirea lurii deciziilor n diferite domenii de activitate cum ar fi:

    sporirea focalizrii pe clieni care include analize ale vnzrilor (preferine, periodicitate, cicluri bugetare, apetit pentru cumprare etc.)

    reorientarea produciei i gestionarea portofoliului de produse, comparnd performanele vnzrilor pe trimestre, ani, zone geografice, n ordinea celor mai bune strategii de producie;

    analiza operaiilor i cutarea surselor de profit; gestionarea relaiilor cu clienii, gestionarea costului activelor corporale.

  • 4

    Data warehousing este, de asemenea, foarte util din punct de vedere al integrrii surselor de date heterogene. Multe organizaii colecteaz, n mod obinuit, diferite tipuri de date i ntrein baze de date mari din surse de informii multiple, heterogene, autonome i distributive. Integrarea acestor date i obinerea unui acces eficient la ele este lucrul cel mai dorit. Multe eforturi au fost depuse n industria bazelor de date i n comunitile de cercetare pentru ndeplinirea acestui scop.

    n concepia bazelor de date tradiionale integrarea bazelor de date heterogene este realizat de wrappers i integratori (integrators) sau mediatori (mediators) asupra bazelor de date multiple (ex. IBM Data Joiner, Informix Data Blade). Cnd o interogare este pus unui site client, un dicionar de metadate este utilizat la transformarea interogrii n interogri corespunztoare site-urilor heterogene implicate. Aceste interogri sunt atunci mapate i transmise proceselor locale de interogare. Rezultatele primite de la diferite site-uri sunt integrate n rspunsul global.

    Aceast concepie de interogare necesit procese complexe de filtrare i integrare care concureaz la resursele de procesare. Este ineficient i potenial scump pentru interogri frecvente, n special pentru interogri ce solicit agregri. Data warehousing furnizeaz o interesant alternativ la conceptul tradiional de integrare a bazelor de date heterogene descrise mai sus. Data warehousing folosete conceptul update-driven n care informaiile din surse multiple, heterogene sunt interogate n avans i stocate n depozitul de date pentru integrare direct i analiz. Spre deosebire de bazele de date cu procesare on-line, depozitele de date nu conin informaiile cele mai proaspete. Cu toate acestea, un depozit de date determin o nalt performan prin integrarea bazelor de date heterogene ntruct datele sunt copiate, preprocesate, integrate, adnotate, nsumate i restructurate ntr-o colecie semantic de date (semantic data store). n plus procesul de interogare din depozitul de date nu interfereaz cu procesele din sursele locale. De altfel, depozitele de date pot stoca i integra informaii istorice i sprijin interogri multidimensionale complexe.

    Obiectivele Data Warehouse

    n sintez, scopurile unui depozit de date sunt urmtoarele:

    S furnizeze utilizatorilor accesul sporit la date; S furnizeze o singur versiune a adevrului; S nregistreze cu acuratee trecutul; S jongleze cu nivelurile de acces sintez /detaliu la date; S separe prelucrrile de nivel operaional i analitic;

    Acces sporit la date pentru utilizatori. Depozitul de date furnizeaz accesul la datele integrate ale ntreprinderii, anterior blocat prin ci neprietenoase. Utilizatorii pot acum s stabileasc, cu un minim de efort, o conexiune garantat la depozitul de date prin intermediul unui microcalculator. Securitatea este ntrit prin the warehouse front-end application, prin serverul bazei de date sau prin ambele.

    O singur versiune a adevrului. Datele din depozitele de date sunt consistente

    i au calitatea asigurat nainte de a fi puse la dispoziia utilizatorilor finali. n msura n care se se utilizeaz o surs comun de date, depozitele de date pun capt dezbaterilor privind veridicitatea datelor utilizate sau citate n edinele de lucru. Depozitul de date ncepe s fie resursa comun de date pentru nivelurile decizionale din organizaii. Menionm c o singur versiune a adevrului este adesea posibil numai dup multe discuii i dezbateri asupra termenilor utilizai n organizaie. De exemplu, termenul de client ru platnic poate avea mai multe nelesuri: client care nu pltete la timp, client care nu pltete dect parial, client care nu pltete niciodat etc. Ar putea

  • 5

    fi stabilit i o alt accepiune: clieni care au datorii mai vechi de o lun. n mod sigur aceste accepiuni au influen asupra proceselor decizionale i asupra pertinenei deciziilor.

    nregistrarea cu acuratee a trecutului. Multe date primite de manageri nu sunt semnificative dac nu sunt comparate cu datele anterioare. De exemplu, rapoartele care compar performanele actuale ale companiei cu cele din anul precedent sunt comune. Rapoartele care arat performanele companiei pentru fiecare lun din ultimii trei ani pot fi foarte interesante pentru decideni. Sistemele operaionale nu vor putea permite acest gen de informaii. Un depozit de date va fi utilizat pentru nregistrarea cu acuratee a trecutului, prsind sistemele OLPT libere pentru a realiza focalizarea pe corecta nregistrare curent a tranzaciilor. Datele istorice sunt ncrcate i integrate cu alte date n depozit pentru un acces rapid.

    Acces combinat sintez/detaliu la date. Rapoartele dinamice i instrumentele de interogare OLAP (de exemplu, releveele din programele de calcul tabelar, drill up, drill down) permit utilizatorilor s vizualizeze informaiile din depozitul de date sub diferite unghiuri i la diferite niveluri de detaliere. Aceste disponibiliti oferite de depozitele de date reduc timpul i efortul necesar pentru colectarea, formatarea i filtrarea informaiilor plecnd de la date.

    Separarea prelucrrilor de nivel operaional i analitic. Procesele decizionale i procesele operaionale sunt totalmente divergente arhitectural.

    ncercarea de a se reuni n acelai sistem informaiile decizionale i operaionale determin ca ntreinerea sistemului s devin o problem .

    Pornind de la procesele operaionale depozitul de date furnizeaz o arhitectur separat pentru implementarea deciziilor. Aceasta face ca ntreaga arhitectur IT a ntreprinderii s devin mult mai deschis schimbrii cerinelor informaionale.

    ARHITECTURA DEPOZITELOR DE DATE

    Arhitectura simplificat a depozitelor de date

    Esena unui depozit de date const ntr-o baz de date de dimensiuni foarte mari coninnd informaiile pe care le pot folosi utilizatorii finali (clieni, furnizori, companii de publicitate etc.). Arhitectura simplificat a unui depozit de date este prezentat n figura nr. 1.1.

    n depozitul de date ntlnim mai multe tipuri de date care corespund diferitelor cerine informaionale ale utilizatorilor: date detaliate, date agregate, metadate. Metadatele descriu datele coninute n depozitul de date i modul n care ele sunt obinute i stocate. Prin metadate se precizeaz structura datelor, proveniena lor, regulile de transformare, de agregare i de calcul. Metadatele joac un rol esenial n alimentarea depozitului cu date. Ele sunt utilizate n toate etapele de ncrcare a datelor i sunt consultate i actualizate pe parcursul ntregului ciclu de via al depozitului. Includerea datelor agregate n depozit, dei determin o cretere a redundanei datelor, este necesar deoarece n acest fel se poate asigura un timp mediu de rspuns ct mai redus.

    Sursele de date pentru depozite sunt: bazele de date operaionale curente, bazele de date vechi arhivate precum i bazele de date externe. Construirea depozitului de date presupune parcurgerea urmtoarelor etape: Un proces de extragere a datelor din bazele de date operaionale sau din surse externe urmat de copierea lor n depozitul de date. Acest proces trebuie, cel mai adesea, s transforme datele n structura i formatul intern al depozitului. Un proces de curire a datelor, pentru a exista certitudinea c datele sunt corecte i

  • pot fi utilizate pentru luarea deciziilor. Un proces de ncrcare a datelor corecte n depozitul de date. Un proces de creare a oricror agregri ale datelor: totaluri precalculate, subtotaluri, valori medii etc. care se preconizeaz c vor fi cerute i folosite de utilizatori. Aceste agregri sunt stocate n depozitul de date mpreun cu datele importate din sursele interne i externe.

    Figura nr.1.1. Arhitectura de principiu a unui depozit de date Depozitele de date sunt destinate managerilor, analitilor i specialitilor angrenai

    n luarea deciziilor strategice privind dezvoltarea i viitorul organizaiilor. Pentru aceasta ei au nevoie de instrumente performante de accesare i utilizare a datelor din depozite, instrumente asigurate prin software-ul asociat depozitului de date. Pe de o parte, regsim instrumente necesare utilizatorilor care au nevoie de acces rapid de informaii punctuale care includ un limbaj de interogare gen SQL sau generatoare de rapoarte (Report Writers) ce transpun informaiile n formate adecvate. Pe de alt parte, sunt intrumente specializate pentru asistarea deciziilor care transform informaiile n forma cerut de decideni (grafice, diagrame, organigrame) sau ofer posibilitatea analizei tendinelor, corelaiilor i interpretarea acestora. n aceast categorie se ncadreaz instrumentele OLAP i Data mining.

    Instrumentele OLAP se bazeaz pe reprezentarea multidimensional a datelor (cubul de date) i permite analiza interactiv i rapid a datelor prin operaiuni de tip roll-up, drill-down, slice, dice etc. Utilizatorul poate obine rezultate imediate parcurgnd dinamic dimensiunile cubului de date lucrnd cu niveluri diferite de sintez / detaliere.

    Instrumentele de tip data mining asigur transformarea datelor n cunotine, de aceea mult lume consider termenul data mining sinonim cu termenul de Knowledge Discovery in Databases (KDD). Se utilizeaz tehnici ale analizei statistice sau de inteligen artificial care permit descoperirea de corelaii, reguli, cunotine utile sprijinirii deciziilor.

    ntreaga gam de instrumente software asociate depozitelor de date este prezentat n figura nr.1.2. n partea stng sunt evideniate componentele din partea de back-end (instrumente de extragere i transformare) iar n partea dreapt componentele din partea de front-end (instrumente de extragere i accesare a datelor).

    6

  • Figura nr. 1.2. Componentele software ale depozitelor de date

    Arhitectura depozitelor de date pe trei niveluri Adesea n depozitele de date se adopt o arhitectur pe trei niveluri (bottom tier,

    middle tier, top tier) ca n figura nr.1.3. Nivelul de jos (bottom-tier) este constituit din serverul DD i este, n multe cazuri, un

    sistem baze de date relaionale. Datele din bazele de date operaionale i din sursele externe (cum ar fi informaii relative la profilul clientului furnizate de consultani externi, rezultatele unor sondaje) sunt extrase utiliznd programe de aplicaii tip interfaa cunoscute sub numele de gateways. Un gateway este sprijinit de SGBD-ul de baz i permite programelor client s genereze cod SQL pentru a fi executat de server. Exemplele gateways includ ODBC (Open Database Connection) i OLE-DB (Open Linking and Embedding for Databases) la Microsoft i JDBC (Java Database Connection). n acest mod datele sunt extrase, curate, transformate i ncrcate n depozitul de date. De asemenea, trebuie luat n considerare i modalitatea de mprosptare a datelor din depozit, pe msura trecerii timpului. Dac, de exemplu, dimensiunea timp are n structur luna, trimestru, an nseamn c la sfritul fiecrei luni, a fiecrui trimestru sau a fiecrui an datele din sistemul operaional trebuie s mprospteze depozitul de date.

    Nivelul mediu (middle tier) bazat pe un server OLAP care este implementat n mod obinuit, utiliznd fie un model relaional OLAP (ROLAP) fie un model multidimensional OLAP (MOLAP). Modelul ROLAP este o extensie a unui SGBDR care mapeaz operaiunile pe date multidimensionale la operaiunile relaionale standard. Modelul MOLAP este dedicat i implementeaz direct descrierea datelor i a operaiilor multidimenionale.

    Nivelul superior (top tier) este nivelul client care conine instrumente pentru generarea interogrilor i a rapoartelor, instrumente de analiz i/sau instrumente data mining (de exemplu, analiza trendului, predicii etc.)

    7

  • Fig.nr.1.3. Arhitectura Data warehouse cu trei niveluri

    Tipuri de baze de date

    Din punct de vedere al ariei de cuprindere, se ntlnesc trei modele de depozite de date: depozite de ntreprindere (entreprise warehouse), data mart i depozite virtuale de date.

    Un depozit de ntreprindere (Entreprise Warehouse) colecteaz toate informaiile despre subiecte care privesc ntreaga organizaie. El furnizeaz un volum extins de date. De regul conine date detaliate dar i date agregate, iar ca ordin de mrime pornete de la civa gigabytes pn la sute de gigabytes, terabytes sau mai mult. Un depozit de date de ntreprindere poate fi implementat pe tradiionalele mainframes, pe superservere UNIX sau pe platforme cu arhitecturi paralele. Necesit cheltuieli mai mari pentru modelare i ani de zile pentru proiectare i realizare.

    Un data mart conine un subset al volumului de date din organizaie, specific unui grup de utilizatori. Domeniul este limitat la subiecte specifice. De exemplu, un data mart pentru marketing limiteaz subiectele la clieni, articole, vnzri. Datele coninute n data mart sunt de obicei agregate. Data marts sunt, n mod curent, implementate pe servere departamentale mai ieftine care se bazeaz pe UNIX sau Windows/NT. Ciclul de implementare al unui data mart este mai curnd msurat n sptmni dect n luni sau ani. Ca atare, un data mart poate fi considerat un subansamblu al unui depozit de date mai uor de construit i ntreinut i mai puin scump.

    Un depozit virtual (Virtual warehouse) este un set viziuni (views) asupra bazelor de date operaionale. Pentru eficiena procesrii interogrilor numai unele din viziunile de agregare pot fi materializate. Un depozit virtual este uor de construit dar necesit capaciti suplimentare pe serverele de baze de date.

    8

  • 9

    ASPECTE PRIVIND PROIECTAREA DEPOZITELOR DE DATE

    O schem de analiz economic pentru proiectarea unui depozit de date Proiectarea unui depozit de date presupune aplicarea unei scheme de analiz

    economic pentru a determina msura n care depozitul de date este necesar i eficient. n primul rnd, trebuie ca depozitul de date s furnizeze avantaje competitive

    prezentnd informaii relevante pe baza crora putem msura performanele i putem face ajustrile critice pentru a ctiga n faa competitorilor.

    n al doilea rnd, un depozit de date poate determina creterea productivitii din moment ce permite obinerea rapid i eficient de informaii care descriu cu acuratee organizaia.

    n al treilea rnd, un depozit de date faciliteaz gestiunea relaiilor cu clienii din moment ce furnizeaz o viziune consistent despre clieni i produse ntlnite pe toate liniile de afaceri, pe toate departamentele i pe toate pieele.

    n final, un depozit de date determin reducerea costurilor prin reliefarea tendinelor, direciilor i excepiilor pe perioade lungi de timp. Pentru proiectarea unui depozit de date este necesar nelegerea i analiza proceselor economice din domeniu i construirea unei scheme de analiz economic. Construirea unui sistem informaional complex i vast poate fi comparat cu ridicarea unei cldiri mari i complexe, pentru care proprietarul, arhitectul i constructorul au diferite viziuni. Aceste viziuni sunt combinate ntr-o schem complex care reprezint perspectiva top-down, perspectiva proprietarului sau, perspectiva bottom-up sau viziunea celui care implementeaz sistemul informaional.

    Viziuni de proiectare a unui depozit de date

    Proiectarea unui depozit de date poate lua n considerare viziuni diferite:

    viziunea top-down, viziunea datelor surs (data source view), viziunea depozitelor de date i viziunea business query.

    Viziunea top-down permite selectarea informaiilor relevante necesare n depozitul de date. Aceste informaii reprezint un sprijin decizional n activitatea curent. . Viziunea datelor surs (data source view) exprim informaiile culese, stocate i gestionate de sistemele operaionale. Aceste informaii pot fi documentate pe niveluri variate de detaliere i acuratee, de la tabele individuale de date surs la tabele de date integrate. Datele surs sunt adesea modelate prin tehnicile tradiionale de modelare a datelor cum sunt diagramele E-A (Entitate - Asociere) sau instrumentele CASE.

    Viziunea depozitelor de date are n vedere tabelele de fapte i tabelele dimensiune. Reprezint informaiile care sunt stocate n depozitele de date, incluznd contorizri i totaluri precalculate, ca i informaii privitoare la sursa, data calendaristic, origine adugate pentru a furniza contextul istoric. Viziunea business query ofer o perspectiv din punct de vedere al utilizatorului final. Construirea i utilizarea unui depozit de date este o sarcin complex din moment ce necesit abiliti de afaceri, abiliti tehnologice i manageriale. Abilitile de afaceri necesare construirii unui depozit de date se refer la nelegerea modului n care sistemele stocheaz i gestioneaz datele, la modul de funcionare a instrumentelor de extragere care transfer datele din sistemul operaional n depozite de date, la modul cum se construiete software-ul pentru mprosptarea depozitului prin preluarea datelor din sistemele operaionale. Utilizarea unor depozite de date implic nelegerea semnificaiei datelor coninute, ca i nelegerea i traducerea cerinelor informaionale n interogri care pot fi satisfcute de depozitele de date.

  • 10

    Referitor la abilitile tehnologice, analitii datelor trebuie s neleag cum se obin informaii cantitative i fapte derivate bazate pe concluzii de la informaiile istorice din depozitele de date. Aceste ndemnri includ abilitatea de a descoperi modele i tendine, de a extrapola trendul bazndu-se pe date istorice, de a vedea anomaliile sau paradigmele i de a prezenta recomandri manageriale concrete bazate pe asemenea analize.

    Abilitile de gestiune a programelor permit intermedierea interfeei cu productorii, vnztorii i utilizatorii finali n privina distribuirii rezultatelor rapid i la costuri acceptabile.

    Procesul de proiectare a unui depozit de date

    Un depozit de date poate fi proiectat i construit utiliznd abordarea top-down,

    abordarea bottom-up sau combinaii ale acestora. Abordarea top-down pornete cu proiectarea i planificarea complet. Se utilizeaz

    n cazul cnd tehnologia este matur i bine cunoscut i problemele economice care trebuie rezolvate sunt clare i bine nelese.

    Abordarea bottom-up pornete cu experimente i prototipuri. Aceasta este utilizat la nceputul stadiului de modelare i de dezvoltare tehnologic. Ea permite unei organizaii s mearg nainte cu cheltuieli considerabil mai mici i s evalueze beneficiile tehnologiei nainte de a face angajamente semnificative n aceast direcie.

    n abordarea combinat, o organizaie poate exploata caracterul planificat i strategic al abordrii top-down att timp ct reinem avantajele implementrii rapide i oportune a aplicaiilor dup abordarea bottom-up.

    Din punct de vedere al ingineriei programrii, proiectarea i construirea unui depozit de date const n urmtorii pai: planificare, studiul cerinelor, analiza problemei, proiectarea depozitului, integrarea datelor i testarea i, n final, utilizarea depozitului de date. Sistemele software mari pot fi dezvoltate utiliznd dou metodologii: metoda n cascad sau metoda n spiral.

    Metoda n cascad execut o analiz structurat i sistematic la fiecare pas nainte de a trece la urmtorul.

    Metoda n spiral implic generarea rapid de sisteme funcionale din ce n ce mai complete, la intervale scurte, ntre dou versiuni succesive. Acest lucru constituie un atu important pentru dezvoltarea depozitelor de date, n special pentru data marts pentru c intervalul de realizare este scurt, modificrile pot fi fcute rapid i noile proiecte i tehnologii pot fi adaptate n mod rapid.

    n general, procesul de proiectare a depozitului const n urmtorii pai: 1.Alegerea procesului economic de modelat, de exemplu: stocuri, vnzri etc.

    Dac procesul economic este organizaional i implic colecii de obiecte complexe i multiple modelul tip depozit de date trebuie realizat. Dac procesul este departamental i focalizat pe analiza unui singur domeniu va fi ales modelul data marts.

    2.Alegerea nivelului de granularitate. Nivelul de granularitate este nivelul de date fundamental, atomic care va fi folosit pentru reprezentarea datelor n tabelul de fapte pentru fiecare proces.

    3.Alegerea dimensiunilor care vor fi aplicate la fiecare nregistrare din tabelul de fapte. Dimensiunile tipice sunt: timp, articol, client, furnizor, depozit, tip tranzacii i stare.

    4.Alegerea msurilor (valorilor) care vor popula fiecare nregistrare din tabelul de fapte. Valorile tipice sunt numerice: de exemplu, vnzri_lei i cantitate_vndut.

    Din moment ce construirea unui depozit de date este o sarcin dificil i pe termen lung, ocaziile de implementare trebuie clar definite. Scopurile unei implementri iniiale ale unui depozit de date ar trebui s fie specifice, realizabile i msurabile. Aceasta implic determinarea timpului i bugetului alocat, a pri din organizaie care trebuie modelat, a numrului de surse de date selectate, a numrului i a tipurilor de

  • departamente utilizatoare. Odat ce depozitul de date este proiectat i construit, dezvoltarea iniial a

    depozitului include instalarea iniial, planificarea derulrii depozitului de date, instruirea i orientarea. Actualizarea platformelor i ntreinerea lor trebuie de asemenea, luate n considerare. Administrarea depozitului de date include mprosptarea datelor, sincronizarea datelor surs, planificarea reacoperirilor, gestiunea controlului pentru acces i securitate, extinderea depozitului de date. Sfera managementului include controlarea numrului i ariei de interogri, dimensiuni, rapoarte, limitarea mrimii depozitului de date sau limitarea bugetului i resurselor.

    Sunt disponibile categorii variate de instrumente de proiectare a depozitelor de date. Instrumentele de dezvoltare a depozitelor de date furnizeaz funcii de definire i editare a depozitului de metadate (scheme, scripturi, reguli), interogri, rapoarte de ieire etc..

    Dezvoltarea incremental a depozitelor de date

    Dezvoltarea top-down a unui depozit de ntreprindere constituie o soluie sistemic i minimizeaz integrarea problemelor. Totui, ea este scump, solicit timp ndelungat pentru dezvoltare i i lipsete flexibilitatea determinat de dificultile n realizarea modelelor de date pentru ntreaga organizaie.

    Abordarea bottom-up n proiectarea, dezvoltarea i aplicarea data marts independente furnizeaz flexibilitate, costuri sczute i recuperarea rapid a investiiei. Totui poate determina probleme cnd se ncearc integrarea ntr-un depozit de date consistent la nivel de ntreprindere.

    O metod recomandat pentru dezvoltarea sistemelor tip depozite de date este implementarea depozitelor ntr-o manier incremental i evolutiv (figura nr. 1.4).

    n primul rnd, modelul de date la nivel superior este definit n perioade rezonabile de timp (una sau dou luni) ceea ce furnizeaz consistena, integrarea viziunilor de date (view) ntre diferite subiecte i poteniali utilizatori. Acest model de nivel superior, cu toate c va fi rafinat (perfecionat) n urmtoarele dezvoltri ale depozitului de date de ntreprindere i a data marts departamentale, va determina o reducere a integrrii viitoare a problemelor.

    n al doilea rnd, mai multe data marts independente pot fi implementate paralel cu depozitul de ntreprindere bazat pe acelai model de date.

    n al treilea rnd, data marts distribuite pot fi construite prin intermediul hub serverelor.

    n ultimul rnd, un depozit de date multinivel este construit cnd depozitul de ntreprindere conine toate depozitele de date care sunt distribuite n diferite data marts.

    Figura nr. 1.4. Procesul de dezvoltare a depozitelor de date

    11

  • 12

    DEPOZITE DE DATE VERSUS BAZE DE DATE OPERAIONALE

    Diferene ntre sistemele de baze de date operaionale i depozitele de date

    O comparaie ntre bazele de date i depozitele de date este n msur s ofere o

    imagime coerent privind rolul depozitelor de date n organizaii precum i raporturile cu alte tipuri de sisteme informatice. Att bazele de date ct i depozitele de date conin mari cantiti de date structurate care pot fi consultate rapid datorit structurilor de acces optimizate i se bazeaz, n majoritatea cazurilor, pe tehnologii relaionale. Totui ele nu au fost proiectate pornind de la aceleai obiective i se difereniaz prin numeroase aspecte

    Sistemele de gestiune a bazelor de date sunt adecvate aplicaiilor curente de gestiune i servesc la crearea i ntreinerea sistemelor de baze de date operaionale. Aceste sisteme cunoscute sub denumirea de sisteme OLTP (On-Line Transaction Processing) au ca obiectiv execuia on-line a tranzaciilor i a proceselor de interogare. Ele ncorporeaz toate operaiile zilnice dintr-o organizaie cum ar fi: aprovizionri, stocuri, producie, decontri, pli, contabilitate. Sistemele depozite de date, pe de alt parte, servesc utilizatorii sau specialitii n domeniul analizei datelor i lurii deciziilor. Aceste sisteme pot organiza i prezenta datele n formate variate n ordinea solicitrilor de la diferii utilizatori. Aceste sisteme sunt cunoscute sub numele de sisteme OLAP (On-Line Analytical Processing).

    Bazele de date din sistemele operaionale conin date curente, detaliate care trebuie actualizate i interogate rapid, n condiii de deplin securitate, constituind suportul sistemelor informaionale de prelucrare a tranzaciilor (TPS).

    Depozitele de date sunt concepute special pentru sprijinirea lurii deciziilor. Ele au ca obiectiv regruparea datelor, agregarea i sintetizarea lor, organizarea i coordonarea informaiilor provenind din surse diferite, integrarea i stocarea acestora pentru a da decidenilor o imagine adecvat care s permit regsirea i analiza eficace a informaiilor necesare. Interogrile obinuite ntr-un depozit de date sunt mai complexe i mai variate dect cele din sistemele de gestiune a bazelor de date. Ele se aplic asupra unor volume foarte mari de date i presupun calcule complexe (analiza tendinei, medii, dispersii etc.) care necesit adesea agregri (group by).

    Deosebirile majore ntre OLTP i OLAP sunt sintetizate n tabelul nr. 1.1. i iau n considerare urmtoarele trsturi: utilizatorii i orientarea sistemului, caracterul datelor coninute, nivelul de sintez, unitatea de lucru, schemele de acces, numrul de nregistrri accesate, mrimea bazelor de date, sistemul de evaluare etc.

    Un sistem OLTP este orientat pe client (customer oriented) i este utilizat pentru procesarea tranzaciilor i interogrilor. Un sistem OLAP este orientat spre pia (market-oriented) i este utilizat de manageri, analiti i specialiti. Din punct de vedere al datelor coninute un OLTP gestioneaz date curente care, n mod obinuit, sunt destul de detaliate pentru a fi uor utilizate n luarea deciziilor curente. Un sistem OLAP gestioneaz volume mari de date istorice furniznd faciliti pentru sintetizare i agregare precum i pentru stocarea i gestionarea informaiilor cu diferite niveluri de granularitate. Aceste aspecte fac ca datele s fie uor utilizate de ctre decideni, mai ales n domeniile tactic i strategic. De asemenea, un sistem OLTP este focalizat n principal pe datele curente dintr-o ntreprindere sau dintr-un departament fr a referi date istorice sau date din alte organizaii. n contrast, un sistem OLAP cuprinde date istorice i date care provin de la diferite organizaii, integrnd informaii din surse heterogene. n sistemele OLTP unitile de acces sunt, n principal, tranzaciile atomice. Aceste sisteme necesit mecanisme de control al concurenei i de reacoperire. Accesul la sistemele OLAP este cel mai adesea de tip read-only, cu toate acestea este posibil realizarea de interogri complexe.

  • Tabelul nr. 1.1 Comparatie ntre sistemele OLTP i OLAP

    De ce trebuie un depozit de date separat? De ce nu se execut procesri analitice on-line (OLAP) direct pe bazele de date

    existente mai degrab dect a cheltui timp i resurse pentru a construi separat un depozit de date? Este o ntrebare pertinent iar rspunsul poate explica i fundamenta investiia ntr-un depozit de date. Argumentul forte pentru aceast separare este promovarea performanei ridicate n ambele sisteme.

    O baz de date operaional este proiectat i adaptat pornind de la sarcini i activiti cunoscute cum ar fi indexarea, utilizarea cheile primare, cutarea unor nregistrri specifice, optimizarea interogrilor. Pe de alt parte, interogrile unui depozit de date sunt adesea complexe. Ele implic calcule asupra unor grupuri mari de date cu totalizri pe diferite niveluri ce pot necesita utilizarea de metode speciale de organizare a datelor, de acces i implementare bazate pe viziuni multidimensionale. Procesnd interogrile OLAP ntr-o baz de date operaional s-ar degrada substanial performanele sarcinilor operaionale. De altfel, o baz de date operaional sprijin procesarea concurent a tranzaciilor multiple. Controlul concurenei i mecanismele de reacoperire sunt necesare pentru a asigura consistena i robusteea tranzaciilor. O interogare OLAP are nevoie adesea de acces read-only la nregistrri pentru sumarizare i agregare. Controlul concurenei i mecanismele de reacoperire, dac sunt aplicate pentru operaiunile OLAP pot primejdui execuia tranzaciilor concurente i astfel s reduc substanial consistena unui sistem OLTP.

    n final, separarea dintre BD operaionale i depozitele de date se bazeaz pe structuri, coninut, utilizatori i date diferite. Luarea deciziilor necesit date istorice pe cnd bazele de 13

  • date operaionale nu conin, n mod obinuit, date istorice. n acest context, datele operaionale, dei abundente, sunt, n mod obinuit, departe de a fi complete pentru luarea deciziilor. Asistarea deciziei solicit consolidarea datelor (totalizri i agregri) din diferite surse, rezultnd date de nalt calitate, curate i integrate. n contrast, bazele de date operaionale conin numai date neprelucrate (primare) detaliate, cum sunt tranzaciile care trebuie consolidate naintea analizelor.

    Dat fiind c cele dou sisteme au funcionaliti diferite i necesit tipuri diferite de date este necesar s le meninem n baze de date separate. Totui muli vnztori de SGBD-uri operaionale au nceput optimizarea acestor sisteme, aa nct ele suport interogrile OLAP. Pe linia acestui trend, separarea ntre sistemele OLPT i OLAP este de ateptat s scad.

    Depozite de date sau magazine de date

    Discuiile despre depozitele de date conduc, n mod natural, la magazine de date

    (Operational Data Stores - ODS), care la prima vedere nu se deosebesc de depozitele de date. Dei ambele tehnologii sprijin decidenii, ele sunt diferite deoarece sunt destinate s acopere anumite tipuri de cerine informaionale.

    W.H.Inmon, C. Imhoff, G. Battas definesc un ODS ca o construcie arhitectural unde este stocat o colecie integrat de date operaionale. Un magazin de date poate fi definit, de asemenea, ca o colecie de baze de date proiectate pentru sprijinirea controlului operaional. Spre deosebire de bazele de date din aplicaiile OLPT (care sunt operaionale sau orientate pe funcii), magazinele de date conin date orientate pe subiecte din ntreprinderi mari. Spre deosebire de depozitele de date, datele din ODS sunt volatile si detaliate. ODS furnizeaz o viziune integrat asupra datelor din sistemele operaionale. Tabelul nr.1.2. prezint comparativ depozitele de date i magazinele de date.

    Tabelul nr.1.2. Depozite de date n comparatie cu Magazinele de date

    Pentru construirea unui magazin de date datele sunt transformate i integrate ntr-o form consistent, unificat, pornind de la sistemele legacy i alte sisteme operaionale pentru a furniza utilizatorilor imagini integrate i actuale ale operaiunilor. Datele din magazinul de date sunt permanent mprosptate, rezultnd o imagine fidel a ultimelor stri ale operaiunilor.

    14