Cursul 12 - Depozitele de Date _ Un Nou Model de Structurare a Bazelor de Date de Mari Dimensiuni_1

Embed Size (px)

Citation preview

  • 8/13/2019 Cursul 12 - Depozitele de Date _ Un Nou Model de Structurare a Bazelor de Date de Mari Dimensiuni_1

    1/10

    CURSUL 12

    Depozitelede dateun nou model de structurare a bazelor de date demari dimensiuni

    Sistemele informatice operaionale de marketing utilizeaz baze de date relaionale idistribuite care nmagazineaz date din activitatea zilnic privind aprovizionrile, comenzile,vnzrile, ncasrile, plile i activitile specifice de marketing, precum i informaiile culese prininterogarea unor baze de date publice din reele locale, metropolitante sau de pe Internet.

    n bazele de date de marketing se regsesc stocate informaii privind practic toat activitateantreprinderilor, indiferent de domeniu. Accesul rapid la baze de date permite obinerea informaiilorn timp util contribuind la creterea eficienei. De asemenea, capacitatea de stocare a dispozitivelorde astzi permite gsirea i accesarea unor date de mai muli ani vechime, care fr ajutorul acestorbaze de date ar fi fost practic inutilizabile.

    Aceste date sunt ulterior organizate multidimensional fcnd posibile analize dup cele maivariate criterii la anumite intervale (lunar, trimestrial, anual etc.). Aceste analize sunt necesare

    echipei de conducere pentru o mai bun fundamentare a deciziilor. Datele acumul ate zi de zi suntorganizate n depozite de date, care permit obinerea celor mai variate situaii.

    6.2.1. Conceptul de depozit de date de marketing

    nainte de a oferi o definiie se cuvine a preciza c depozitul de date1 este ntr-un felcomplementul sistemului informatic operaional (subsistemele de contabilitate, subsistemulcomercial, subsistemul de vnzri i marketing, subsistemul personal-salarizare etc.). Deci undepozit de date (data warehouse) este o colecie de date tematic, integrat, plasat ntr-uncontext temporal i permanent fiind destinat fundamentrii deciziei de marketing.

    Datele din warehouse provin n principal din datele capturate din sistemul informaticoperaional de marketing, din bazele de date de arhiv, istoric precum idin baze de date publicecum ar fi: baze de date demografice, statistice (furnizate de institute specializate), prognozaeconomic (furnizate de instituii de sondare a pieei), de cercetri de marketing. Aceste date pot ficumprate, pot fi peluate pe baz de abonament sau pot fi date publice gratuite.

    Depozitele de date, stocnd cantiti mari de date, sunt baze de date de mari dimensiunicaracterizate din punct de vedere al numrului i varietii nregistrrilor i respectiv alaspectului multidimensional ce implic o mulime de variabile selectate i incluse n modele deanaliz.

    Proiectarea arhitecturii depozitului de date presupune definirea structurii logice i fizice a bazeide date, configurarea serverului depozitului care s poat procesa rapid volume foarte mari de date i

    alegerea SGBD-ului de gestiune a depozitului de date.Se ntlnesc trei tipuri de abordri a arhitecturii unui depozit de date:a) abordarea centralizat care contribuie la maximizarea puterii de calcul i presupune

    stocarea datelor, care provin din surse externe i interne ntr-un depozit integrat;b) abordarea federativce implic distribuirea informaiilor n baza de date distribuite dup

    funciuni (cele financiare ntr-un nod al reelei, cele de marketing ntr-un alt nod, cele de fabricaientr-un al treilea nod);

    1(engl.) Data Warehouse = depozit de date

  • 8/13/2019 Cursul 12 - Depozitele de Date _ Un Nou Model de Structurare a Bazelor de Date de Mari Dimensiuni_1

    2/10

    c) abordare stratificat ce presupune pstrarea datelor foarte sumarizate pe staia de lucru,datele mai puin sumarizate pe un al doilea server iar datele de detaliu pe un al treilea. Staia de laprimul nivel manevreaz datele cele mai cerute, cu tot mai puine cereri de detaliere ctre niveleleinferioare. Calculatoarele de pe primul nivel pot fi optimizate pentru procesri intense pe volumemici de date, pe cnd serverele de pe nivelele doi i trei pot fi adaptate pentru procesri simple pevolume mari.

    Odat decis arhitectura logic trebuie analizate posibilitile oferite de structurile hard.Factorii de influen asupra alegerii tipului de server se refer la dimensiunea depozitului i lanevoile ntreprinderii n ceea ce privete scalabilitatea, disponibilitatea i administrarea sistemului,fiind ntlnite:

    a) serverele monoprocesorsunt cel mai uor de ntreinut dar sunt limitate ca putere calcul iscalabilitate. Reelele de servere monoprocesor se pot extinde prin intermediul arhitecturilordistribuite.

    b) Sistemele cu multiprocesare simetric i sporesc puterea prin adugarea de procesoarecare partajaz memoria intern a serverului precum i unitile de stocare. Aceast arhitectur esteideal pentru cutri n baze mari de date.

    Referitor la deciziile privitoare la SGBD alese, acestea se bazeaz pe nevoia de flexibilitate i

    pe dimensiunile depozitului de date. Versiunile moderne ale SGBD-urilor relaionale i distribuitedau posibilitatea analizei multidimensionale i pot beneficia din plin de hardware-ul specializatpentru bazele de date (de exemplu Teradata).

    Depozitele de date permit o analiz independent de procesare zilinc a datelor din cadrulfirmei. De asemenea, s-a constatat c mai mult de o treime din da tele existente n DB nu sunt luateniciodat n considerare, fiind complet ignorate. Analiznd i aceste date se poate constata dac,unde i cnd a greit i cum se pot evita pe viitor aceste greeli. Analizele multidimensionale carepermit interpretarea datelor n funcie de diferite criterii fac de trei ani obiectul marilor firmeproductoare de SGBD-uri. Acestea pot fi fcute n principiu i pe baza curent de date, dar n cazulunor volume mari de date obinerea de situaii este foarte dificil, deoarece implic comenzicomplexe. Scopul SGBD-ului este de a asigura tranzaciile cu datele ntr-o manier sigur, i deci nu

    poate fi eficient. Aceste noi programe asigur o bun performan n analizarea acestui uria volumde date i posibilitatea schimbrii continue a metodelor de analiz. De aceast dat sistemul esteorganizat cu totul altfel deoarece nu mai este nevoie de funcia de actualizare a informaiilor i nicide protecie. Efectuarea statisticilor, analizelor i comparaiilor se face avnd la baz calculatoarefoarte puternice, care pot manipula volume foarte mari de date.

    Exploatarea depozitelor de date poate consta din: extragerea unor rapoarte (la cerere sau pe baza unui ,,abonament cu o anumit periodicitate); extragerea unor date pentru a fi utilizate de aplicaiile de birotic (programe de calcul tabelar,

    procesoare de text, programe de prezentare etc.); utilizarea unor instrumente de acces de ctre aplicaii specializate de analiz, cum ar fi:

    a) instrumente de procesare analitic on-line (OLAPOn Line Analytical Processing);b) instrumente de ,,minerit n date (Data mining aplicaii axate pe descoperirea unormodele, tendine i corelaii semnificative prin exploatarea depozitului de date).

  • 8/13/2019 Cursul 12 - Depozitele de Date _ Un Nou Model de Structurare a Bazelor de Date de Mari Dimensiuni_1

    3/10

    6.2.2.Instrumente de acces i analiza multidimensional prin depozitele de datede marketing

    n vreme ce datele operaionale din sistemele informatice se refer la activitile zilnice,depozitul de date este istoric prin natur i este folosit pentru a obine o perspectiv asupratendinelor, corelaiilori a factorilor de influen.

    Activitati

    zilnice

    Interactiuni on-line

    Interogarisi rapoarte

    OLAP Datamining

    Dateadunatein timp

    Bazede date

    Dateoperationale

    Depozitde date

    Date deistoric

    Figura 6.3. Tendine n stocarea i procesarea informaiilor

    Multe ntreprinderi colecteaz n acest moment i rafineaz masive cantiti de date ndepozitele de date prin intermediul sistemelor informatice.

    Aceste firme au realizat c pentru a reui ntr-o lume ce se schimb n ritm rapid, utilizatoriieconomici au nevoie de informaie n momentul cererii. i ei mai au nevoie i de informaieneateptat, dar folositoare. Nu este niciodat suficient timp pentru a se gndi asupra tuturorproblemelor importante, motiv pentru care computerul trebuie s ndeplineasc autonom i aceastsarcin.

    Ei privesc acum informaia ca pe una dintre cele mai valoroase resurse, iar instrumentele deanaliz multidimensional permit unei firme s foloseasc la maxim aceast resurs.

    Fundamentarea Deciziilor (engl. Decision Support) este un termen general care se refer lafolosirea informaiei ca la o resurs corporativ strategic, ce abiliteaz firmele n utilizarea bazelorlor de date pentru a lua decizii mai bune.

    Instrumentele de acces la depozitele de date i de analiz multidimensional se bazeaz, n modtradiional, pe trei tipuri de unelte:

    Interogri i rapoarte: caz n care un utilizator pune o ntrebare, de ex. ,,care au fost vnzrilepentru un anume produs?;

    OLAPProcesare analitic n linie1care se extinde la procesarea de interogri de-a lungul amai multor dimensiuni, cum ar fi o arie geografic, o lun etc. De exemplu: ,,clasificvnzrile pe luni, judee i magazine;

    Data Mining2:care extrage ,,automat modele de informaii i relaii pentru formulare dentrebri de tipul: ,,Ce anume influeneaz vnzrile unui anumit produs n judeele dinArdeal?

    n figura 6.4. se poate observa progresul fcut n domeniu n ultimii 30 de ani pentru a oferiinformaie rafinat mai mult i mai bine.

    1(engl.) On Line Analytical ProcessingOLAP = procesare analiticon-line2(engl.) Data Mining = mineritul (forarea) datelor

  • 8/13/2019 Cursul 12 - Depozitele de Date _ Un Nou Model de Structurare a Bazelor de Date de Mari Dimensiuni_1

    4/10

    Cunostinte

    Date

    Rafinare

    Statisticisi Rapoarte

    Interogarisi analize

    OLAP/ROLAP

    Datamining

    Acces la

    Cunostinte

    1970 1980 1990 2000 Figura 6.4. Etapele de procesare i rafinare a informaiei

    n cazul statisticilor i rapoartelor erau disponibile utilizatorilor rezumate ale datelor. n plus iaceste date sumare erau obinute prin intermediul unui analist. Odat cu apariia depozitelor de date,

    anumite interogri i rapoarte pot fi obinute chiar de utilizatorul direct prin consultarea bazelor dedate.

    ncepnd cu OLAP, ntrebri generalizatoare multi-dimensionale au putut fi adresate chiar deutilizatorii direci, de ex. ,,un total pe produs, pe canal de distribuie, pe lun.

    Cu ajutorul Data mining, analitii de marketing i o categorie mai rafinat de utilizatorieconomici pot descoperi corelaii semnificative, modele de informaii, factorii de influen itendinele ce reies din date.

    Noiunea de ,,acces la cunotine, semnific faptul c modelele relevante din date sunt gsitedinainte i stocate pentru necesitile utilizatorilor. Acetia pot folosi modelele interesante furnizatesptmnal sau lunar sau pot interoga ei nii modelele de baz.

    Deoarece marile baze de date adeseori ofer multe date utile, abordrile bazate pe Interogri i

    OLAP se confrunt, de obicei, cu greuti n a identifica generalizri utile din cauza prea multor date.Fora tehnicii Data Mining const n abilitatea de a efectua din proprie iniiativ cercetri printredate, descoperind n mod autonom modele cheie.

    Cu toate c cele trei abordri de mai sus sunt utile, ele mpart o trstur comun care se referla faptul c utilizatorul trebuie s realizeze mai multe analize pentru a dobndi cunotinele, procedeucunoscut ca Modelul de Analiz a Datelor1. O nou abordare care pune la dispoziia utilizatorilorinformaie rafinat este Modelul de Acces la Cunotine2. Prin modelul de acces la cunotineanaliza datelor este efctuat n prealabil, iar utilizatorul doar urmrete cunotinele ,,pre-minerite lacerere.

    Pentru a distila informaia dintr-o baz de date este evident necesar s se realizeze analize la unmoment dat. Altfel spus, analiza se efectueaz la momentul n care utilizatorul are nevoie de

    cunotine sau este realizat anterior, astfel nct sunt gata de a fi accesate. n mod tradiionalanalizele de tip data mining erau efectuate dup lansarea cererii de ctre utilizator. Modelul accesuluila cunotine elimina riscul unor analize ntrziate prin aceast operaie de preminerire a informaiei.

    1(engl.) Data Analysis Paradigm = Model de Analiz a Datelor2(engl.) Knowledge Acces Paradigm = Model de Acces la Cunotine

  • 8/13/2019 Cursul 12 - Depozitele de Date _ Un Nou Model de Structurare a Bazelor de Date de Mari Dimensiuni_1

    5/10

    Aadar exist dou modele distincte capabile s ofere utilizatorilor cunotine: Modelul de Analiz a Datelor: n acest caz utilizatorii opereaz asupra datelor pentru a

    descoperi informaia. Acest model se bazeaz pe o abordare de tipul ,,analiz la cerere. Modelul de Acces la Cunotine: n acest caz analizele sunt efectuate n mod automat n

    prealabil, modelele rafinate sunt pre-generate, iar utilizatorii obin cunotinele n momentuln care au nevoie de ele (abordare de tipul ,,cunotine la cerere).

    6.2.3. OLAPProcesare analitic on-line

    Analiza analitic multidimensional, referit de regul ca OLAP (On Line AnalyticalProcessing) este o activitate ce d rspunsuri corecte la ntrebrile analitilor de marketing. Singuratrstur comun a acestor ntrebri este caracterul lor multidimensional. Exist totui cteva tipuriuzuale de ntrebri, care pot arunca o lumin asupra complexitii instrumentelor care trebuie sfurnizeze rspunsuri:

    Raporturi multidimensionale. Exemplu: care este contribuia la vnzrile totale a produselorfarmaceutice ale societii SICOMED vndute prin farmaciile din Bucureti n perioada?;

    Comparaii. Exemplu: care este media abaterii procentuale de la planul de vnzri n primulsemestru al acestui an comparativ cu vnzrile din primul semestru al anului trecut?;

    Clasificri i profiluri statistice. Exemplu: care este volumul vnzrilor i media adaosuluipentru primii 20% dintre distribuitori i care este contribuia acestora la totalul vnzrilor petrimestrul trecut?;

    Agregri libere. Exemplu: care sunt veniturile realizate n ultimele patru trimestre de filialelejudeene din Moldova ale firmei Eurofarm?;

    Evaluri What-If. Exemplu: n ce msur ar influena profitul total o cretere cu zeceprocente a vnzrilor n judeele din Ardeal?

    Pentru oricine care a formulat interogri n bazele de date (engl. Query), este evident cexprimarea unor asemenea cereri depete posibilitile oricrui instrument de acces i raportare.

    Printre calitile pe care trebuie s le ndeplineasc un bun instrument OLAP se numr: s poat susin analize sofisticate; s poat fi utilizate eficient de diverse categorii de utilizatori; s fie scalabile la volume orict de mari de date; s permit accesul concurent al unui mare numr de utilizatori; s fie uor de intreinut i de configurat; s fie bazate pe o arhitectur deschis deoarece evoluia tehnologiei informaiei poate aduce

    schimbri radicale n structura sistemului informatic care, ns, nu trebuie s afectezeinstrumentaia utilizat pentru analiz.

    Fiind o tehnologie relativ nou, modelul de arhitectur (figura 6.5.) care s-a impus pentrusistemele orientate spre analiz multidimensional este unul de tip client/server n trei straturi.

  • 8/13/2019 Cursul 12 - Depozitele de Date _ Un Nou Model de Structurare a Bazelor de Date de Mari Dimensiuni_1

    6/10

    Sisteme informatice

    OPERATIONALE

    DataWarehouse

    Motor

    OLAP

    Aplicatii

    OLAP

    Metadate

    Figura 6.5. Arhitectura unui sistem OLAP

    a) Bazele de dateformeaz nivelul cel mai de jos, responsabil cu stocarea i regsirea datelor.De regul aplicaiile tranzacionale utilizeaz sisteme relaionale dar pentru depozitele de date sefolosesc i sisteme multidimensionale. Dat fiind volumul mare de date, este recomandabil ca SGBD-urile folosite s ofere suport pentru prelucrri paralele i distribuite, s dispun de mecanismeperformante de indexare i de optimizare, s ofere un nalt nivel de siguran.

    b) Motorul analitic OLAP (OLAP engine) are sarcina de a prelua cererile exprimate deutilizatori i, pe baza consultrii metadatelor, s genereze cererile necesare pentru obinerea datelorce vor fi redirectate ctre clieni. n plus, datelor obinute li se vor aplica la acest nivel o serie deprelucrri.

    Generarea de interogrise bazeaz pe criterii furnizate de clieni sub forma unor formuleexprimate prin operatori logici.

    Manipulrile matematice se aplic pentru a aduce datele la forma dorit de utilizatori.Acestea constau de cele mai multe ori n calcularea unor distane (metrice) derivate pe bazaunor formule date, analize statistice complexe etc.

    Sintetizarea rezultatelor este o alt sarcin a motorului analitic. Dei depozitul de dateconine i date deja agregate, adeseori utilizatorul dorete consolidarea unor sinteze pe bazaunor combinaii de atribute care nu au fost prevzute.

    c) Aplicaiile OLAP sunt reprezentate de instrumente mnuite de utilizatorul final. Existaplicaii generale care rspund suficient de bine nevoilor unei categorii largi de utilizatori, existinstrumente specializate pe domenii (cum ar fi de pild analiza financiar) i, n fine, existposibilitatea de a dezvolta instrumente foarte specifice.

    Din punct de vedere al utilizatorului final, aplicaia pe care o folosete trebuie s-i asigure doufuncionaliti importante: navigarea liberprin depozitul de date n cutarea informaiilor relevantei posibiliti diverse de prezentare a datelor. Aceste funcionaliti sunt strns legate ntre ele ieste greu de spus care operaie este de navigare i care este de prezentare. Operaiile OLAP sunt:

    Specificarea criteriilor de selecie este primul pas n orice analiz. Utilizatorul trebuie spoat exprima cu uurin criterii simple, bazate pe valori ale atributelor i/sau pe valori alemetricelor. Aceste criterii simple trebuie s poat fi apoi combinate prin operatori logici i trebuie spoat fi salvate n biblioteci pentru eventuale reutilizri.

  • 8/13/2019 Cursul 12 - Depozitele de Date _ Un Nou Model de Structurare a Bazelor de Date de Mari Dimensiuni_1

    7/10

    Rotaiile sunt operaii care permit utilizatorilor s gseasc perspectiva care-l intereseazspecificnd dimensiunile i direciile de rotaie sau indicnd un pivot.

    Schimbarea nivelului de agregarepermite gsirea nivelului de agregare optim pentru analiz.Se poate adnci analiza spre nivele de detaliu (drill-down) pentru anumite dimensiuni n timp cepentru alte dimensiuni se crete nivelul de agregare (drill-up).

    Specificarea modului de prezentare trebuie s permit analistului s gseasc modalitileoptime de valorificare vizual a datelor extrase. n afar de posibilitile grafice tipice pentruprezentare, este important ca utilizatorul s poat vizualiza date multidimensionale ntr-o maniertabelar. n acest sens se pot utiliza tabele complexe, care s poat grupa coloane i linii exprim nddimensiuni diferite (de pild timpul i dispunerea n spaiu) i nivele de agregare diferite.

    Cerinele de administrare i dezvoltare pentru OLAP, dei similare cu cele pentru instrumentelede interogare i raportare, sunt n general mult mai complexe. Punerea n funciune a unui sistemOLAP i a softului de acces la date necesit o nelegere clar a modelului de date al ntreprinderii ia funciilor analitice cerute de conducerea executiv i strategic. Produsele comerciale pot fi demare folos, dar rareori exist soluii ,,la cheie pentru OLAP; arhitectura trebuie reglat astfel nct

    s suporte sursele de date folosite i s fac fa cerinelor. n schimb, odat ce sistemul OLAP estefuncional, suportul tehnic pentru utilizator este minimal.

    6.2.4. Data mining

    Data mining (mineritul n date) reprezint, ntr-o accepiune simpl, un mod automat dedetectare ntr-o baz de date a unor tipare relevante. Data mining utilizeaz o serie de tehnicistatistice i de inteligen artificial ce dau posibilitatea construirii de modele ce pot previzionacomportamentul clienilor. Tehnologia i sporete calitile prin integrare cu depozitele de datecomerciale i cu noile modaliti de prezentare i raportare.

    Data mining i datorete numele similaritii dintre cutarea de informaii valoroase ntr-obaz de date mare i sparea unor galerii n munte pentru detectarea unor zcminte valoroase.

    Data mining este un proces de descoperire a cunotinelor (Knowledge discovery -KD), deextragere a informaiei necunoscut anterior din baze de date foarte mari.

    Procesul descoperirii de corelaii semnificative, modele i tendine se asigur prin explorareaunor mari cantiti de date stocate n depozite de date, utiliznd tehnologii de recunoatere amodelelor, precum i tehnici statistice i matematice.

    Conform unui raport din 1997 al Grupului Gartner1: ,,Data mining i inteligena artificial seafl ntre primele cinci tehnologii cheie care vor avea n mod sigur un impact major asupra unui mare

    numr de industrii n urmtorii 3 pn la 5 ani. Gartner situeaz data mining ntre primele 10tehnologii n care firmele vor investi n urmtorii 5 ani.

    Studiile arat c ultimul an a cunoscut o explozie dramatic a nivelului de interes privind datamining, n condiiile n care utilizatorii au dorit s profite de avantajul oferit de aceast tehnologiepentru a obine un foarte util plus concurenial.

    Anumite produse software de vrf n domeniul data mining, provenite de la companii ca SASsau IBM, reprezint acum mai mult dect simple motoare de modelare bazate pe algoritmi

    1Data Mining at Dun&Bradsheet, White Papers, 1998, pag. 14.

  • 8/13/2019 Cursul 12 - Depozitele de Date _ Un Nou Model de Structurare a Bazelor de Date de Mari Dimensiuni_1

    8/10

    compleci. Acestea se adreseaz unei categorii mai largi de probleme tehnice i economice i seintegreaz n mediile actuale de tehnologie informaional.

    Dei se credea c data miningul va elimina nevoia de specialiti n crearea de modele statistice,lipsa experienei umane i a intuiiei ntre nite corelaii relevante i unele nerelevante, lips cecaracterizeaz softurile, infirm aceast previziune.

    Tradiional sunt avute n vedere dou tipuri de analize statistice: analize confirmatorii i

    analize exploratorii. n cazul analizelor confirmatorii, avnd o ipotez formulat aceasta se acceptsau se respinge. n analizele exploratorii, se urmrete gsirea de ipoteze, care apoi se accept sau seresping. n acest punct sistemul preia ,,iniiativa n procesul analizei datelor sistemul gndetesingur ipotezele acestea ne mai fiind formulate de utilizator. n prezent termenul de data mining serefer la procesul automat de analiz a datelor n care sistemul preia iniiativa de a genera modele.

    a) Din punct de vedere al procesului exist trei clase de activiti data mining: descoperire,modelare predictivi analiza excepiilor(figura 6.6.).

    Baza de date 1

    Baza de date 2

    .

    .

    .

    Baza de date n

    Descoperire

    Data Mining Modelarepredictiva

    Analizaexceptiilor

    Conditionare logica

    Afinitati si Asocieri

    Tendinte si Variatii

    Previzionarea

    rezultatului

    Previziuni

    Detectarea

    deviatiilor

    Analize alelegaturilor

    Depozit de date

    Figura 6.6. Clase de activiti Data mining

    Descoperirea este procesul de cutare n baza de date pentru a gsi modele, fr aavea o idee predeterminat sau ipoteza asupra ceea ce pot fi modele. Cu alte cuvinte programul preiainiiativa n gsirea a ceea ce sunt modelele interesante, fr a fi necesar ca utilizatorul s segndeasc la ntrebrile relevante n prealabil. n marile baze de date exist att de multe modelenct utilizatorul nu ar putea niciodat practic s se gndeasc la toate ntrebrile care ar trebui pus e.Problema cheie n acest caz const n bogia de modele care pot fi gsite i exprimate, precum i ncalitatea informaiei livrate elemente care determin puterea i utilitatea tehnicii de descoperire.

    n modelare predictivmodelele descoperite din baza de date sunt folosite pentru aface previziuni. Modelarea predictiv permite astfel utilizatorului s prelucreze nregistrri ce au

  • 8/13/2019 Cursul 12 - Depozitele de Date _ Un Nou Model de Structurare a Bazelor de Date de Mari Dimensiuni_1

    9/10

    cmpuri valorice necunoscute, iar sistemul va intui valorile necunoscute pe baza unor modeleanterioare din baza de date.

    Analiza excepiilorreprezint procesul prin care se aplic modelele extrase pentru agsi anomalii sau elemente de date neobinuite. Pentru a descoperi anomaliile, mai nti aflm ceeace e normal, apoi detectm acele articole care deviaz de la norm n cadrul unui interval dat. Deexemplu odat ce am observat c 90% dintre cumprtori au sub 50 de ani, ne putem nteba n

    legtur cu cei 10% cumprtori care au

    peste 50 de ani i sunt n baza de date. Se observ c descoperirea ne poate ajuta s gsim,,cunotine uzuale, vreme n care analiza excepiilor caut cazurile neobinuite i specifice.

    Fiecare din aceste procese pot fi clasificate la rndul lor dup regulile If/Then, asocieri etc. ntimp ce IF/THEN presupune: Dac condiie, atunci regula1, astfel regula 2, regulile de asociere serefer la gruparea articolelor (de ex. cnd cineva cumpr un produs la magazin, el poate cumpra altprodus n acelai timp un proces numit de obicei analiza coului de cumprturi).

    b) Din punct de vedere al tehnicilor utilizate de data mining (figura 6.7.) identificm:

    Baza de date 1

    Baza de date 2

    .

    .

    .

    Baza de date n

    Depozit de date

    DataMining

    Date retinute

    Date distilate

    Vecinulimediat

    Argumentare

    pe cazuri

    Logic

    Tabelareincrucisata

    Ecuational

    Reguli

    Arbori de

    decizie

    Agenti

    Retele de

    incredere

    Statistici

    Reteleneurale

    InductieAlgoritmi

    genetici

    CARTCHAIDC4.5 etc.

    Propagare inversa

    Kohonen Figura 6.7. Tehnologiile data mining

    Reelele artificiale neuralemodele de previzionare nonliniare care sunt capabile deacumulare de cunotine prin antrenament;

    Algori tmi genetici tehnici de optimizare ce se bazeaz pe procese cum ar ficombinaii genetice, mutaii i selecie natural. Sunt utilizate n modele ce folosesc concepte de

    evoluie natural; Arbori de decizie structuri pe trei nivele ce reprezint seturi de decizii. Aceste

    decizii genereaz reguli de clasificare a seturilor de date. Printre modelele bazate pe arborii dedecizie se include Arborii de regresie i clasificare (CART) i Detectarea automat a interaciunilorde tip 2(CHAID);

    Metoda celu i mai apropiat vecin o tehnic ce permite clasificarea fiecreinregistrri din baza de date a k clase de nregistrri, cele mai similare;

  • 8/13/2019 Cursul 12 - Depozitele de Date _ Un Nou Model de Structurare a Bazelor de Date de Mari Dimensiuni_1

    10/10

    Inducia unor reguli extragerea unor reguli utile de tip dac-atunci pe bazasemnificaiei statistice;

    Vizualizarea datelor interpretarea vizual a relaiilor complexe pentru datemultidimensionale.

    Cea mai important dihotomizare a tehnologiilor data mining se refer la pstrarea datelor;adic, se mai pstreaz sau mai este nevoie de date odat ce au fost minerite. n abordrile iniiale

    mare parte din seturile de date se pstrau pentru viitoare analize. n mod evident, o astfel de tehnicse poate aplica numai n cazul sarcinilor de tip modelare predictiv i analiz a excepiilor, nefiindnecesar n cazul descoperirii de cunotine ntruct nu mai sunt alte modele de distilat.

    Aa cum uor se poate bnui, abordrile bazate pe pstrarea datelor pot avea uor probleme dincauza dimensiunilor foarte mari ale unor astfel de seturi de date.

    n timp ce n cazul distilrii de modele se analizeaz datele, se extrag modelele, iar apoi serenun la date, n abordrile bazate pe pstrare, datele sunt reinute pentru analogiile de modele.Atunci cnd noi seturi de date sunt avute n vedere, atunci aceste seturi sunt comparate cu seturianterioare de date.

    Un exemplu cunoscut al abordrii bazate pe reinerea datelor este metoda ,,vecinului imediat.n acest caz setul de date este pstrat (de obicei n memorie) pentru comparaii cu noi nregistrri.

    Cnd o nou nregistrare este supus analizei, este gsit ,,distana dintre acestea i nregistrrilesimilare din setul de date i ,,cele mai similare (sau vecinii cei mai apropiai) sunt identificai.

    Tehnologiile bazate pe distilarea modelelor extrag modelele dintr-un set de date, apoi folosescaceste modele pentru diverse scopuri. n mod evident, este necesar ca aceste modele s fie exprimatentr-o anumit form i limbaj. Aceast opiune a dat natere la trei abordri distincte: logic, ecuaiii tabelare ncruciat. Fiecare dintre aceste abordri i are originile istorice n anumite seciuni alematematicii.

    Logicaformeaz baza celor mai multe limbaje scrise. Modelele exprimate n limbajelogice se disting prin dou principale caracteristici: pe de o parte sunt citibile i inteligibile, iar pe dealt parte sunt excelente pentru reprezentarea grupurilor de elemente de date.

    Sistemele logice condiionate pot fi separate n dou grupuri disticte: reguli i arbori de decizie.

    Regulile condiionale pot fi implementate prin inducie sau algoritmi genetici. Exist mai multeabordri i pentru generarea arborilor de decizie (de ex., CART, CHAID, C4.5).

    Tabelarea ncruciat este o form simpl de analiz a datelor, bine cunoscut nstatistic, i folosit pe larg n rapoarte. Un tabel ncruciat bidimensional este similar unei foi decalcul, cu capetele, att de rnduri ct i de coloan, fiind valori ale atributelor. Celulele din foaia decalcul reprezint o operaie agregat, de obicei numrul de co -apariii ale valorilor atributelor. Multetabele ncruciate sunt efectiv echivalente cu un grafic tridimensional care nfiaz o numrtoare aco-apariiilor.

    Termenul de ,,agent este folosit uneori pentru a desemna tabelele ncruciate care suntreprezentate grafic ntr-o reea i permit folosirea unor conjuncii AND, OR etc.

    Reelele de ncredere, uneori numite reele cauzale , sunt un graf direcionat, constituit din

    noduri (variabilele reprezentate) i legturi ntre noduri (coeficieni probabilistici de ncredere). Abordrile ecuaionale folosesc de obicei un set de ecuaii pentru a defini ,,o

    suprafa (reprezentare grafic a unei funcii de orice grad) n cadrul unui spaiu iar apoi msurareadistanelor de la aceast suprafa pentru a face estimri.