rudarenje podataka

  • Upload
    muhaxy

  • View
    945

  • Download
    20

Embed Size (px)

Citation preview

SEMINARSKI RADDATA MINING ORACLE WAREHOUSE BUILDER

SADRAJ

1Uvod ............................................................................................................................3 2 Rudarenje podataka je nova metodologija kojom se otkrivaju vrijedni podaci u velikim bazama podataka. Metoda se naziva rudarenje podataka, jer se u velikim koliinama podataka trae informacije koje vrijede zlata. Do prije nekoliko godina metoda se razvijala prvenstveno u znanstvenim krugovima. Tek je nedavno zaivjela u preduzeima, kada je postalo jasno da je koritenje rudarenja podataka neizbjeno za stjecanje komparativne prednosti preduzea. . Na konferencijama posveenim poslovnoj inteligenciji i upravljanju znanjem predstavljaju se projekti vodeih preduzea koji kao sastavni dio imaju rudarenje podataka. Vano je istaknuti da je rudarenje podataka vie umjetnost nego znanost. Ne postoji recept za uspjeno rudarenje podataka koje e sigurno rezultirati pronalaenjem vrijednih informacija. Meutim, vjerojatnost uspjeha e se poveati ako se slijede koraci procesa rudarenja podacima......................................3 3. ...................................................................................................................................3 41. DATA MINING........................................................................................................34.1Data mining i otkrivanje znanja iz baza podataka .....................................................................................................................3 4.2Definisanje pojma data mining-a................................................................................................................................................5 4.3Istorijski razvoj pojma data mining-a.........................................................................................................................................6 4.4Zadaci i kategorije data mining-a...............................................................................................................................................6 4.5Metodologija razvoja data mining modela...............................................................................................................................10 4.5.1Definisanje problema.........................................................................................................................................................11 4.5.2Priprema podataka.............................................................................................................................................................11 4.5.3Istraivanje podataka.........................................................................................................................................................12 4.5.4Izgradnja modela...............................................................................................................................................................12 4.5.5Validacija i eksploatisanje modela.....................................................................................................................................12 4.5.6Razvijanje i nadgradnja modela........................................................................................................................................13 4.6Proces data mining-a................................................................................................................................................................14 4.7Tehnike data mining-a..............................................................................................................................................................15 4.7.1Stablo odluivanja.............................................................................................................................................................15 4.7.2Pravila pridruivanja.........................................................................................................................................................16 4.8Data mining nestrukturiranih podataka....................................................................................................................................19 4.8.1Tekst data mining...............................................................................................................................................................19 4.8.2Web data mining................................................................................................................................................................21 4.8.3Visual data mining.............................................................................................................................................................21 4.8.4Multimedijalni data mining..............................................................................................................................................21

93.ZAVRNA RAZMATRANJA................................................................................ 49 104.LITERATURA...................................................................................................... 5111[10] Milija Suknovi, Darko Krulj, Milutin upi, Projektovanje i razvoj skladita podataka............................................52

12[25] http://forums.microsoft.com/...........................................................................53

2

1 2

UvodRudarenje podataka je nova metodologija kojom se otkrivaju vrijedni podaci u velikim bazama podataka. Metoda se naziva rudarenje podataka, jer se u velikim koliinama podataka trae informacije koje vrijede zlata. Do prije nekoliko godina metoda se razvijala prvenstveno u znanstvenim krugovima. Tek je nedavno zaivjela u preduzeima, kada je postalo jasno da je koritenje rudarenja podataka neizbjeno za stjecanje komparativne prednosti preduzea. . Na konferencijama posveenim poslovnoj inteligenciji i upravljanju znanjem predstavljaju se projekti vodeih preduzea koji kao sastavni dio imaju rudarenje podataka. Vano je istaknuti da je rudarenje podataka vie umjetnost nego znanost. Ne postoji recept za uspjeno rudarenje podataka koje e sigurno rezultirati pronalaenjem vrijednih informacija. Meutim, vjerojatnost uspjeha e se poveati ako se slijede koraci procesa rudarenja podacima.

3 4

. 1. DATA MINING

4.1 Data mining i otkrivanje znanja iz baza podatakaData mining se esto definie kao poslednja faza razvoja rjeenja poslovne inteligencije. Meutim, takva odrednica je preuska. Da bi se pojam shvatio na adekvatan nain mora se krenuti od ireg razmatranja. Progres u akviziciji digitalnih podataka i tehnologiji skladitenja je prouzrokovao ogroman porast koliine podataka u bazama. Promjene su zahvatile sve sfere ljudskog djelovanja - od uobiajenih (zapisi korienja kreditnih kartica, transakcioni podaci iz supermarketa, detalji iz telefonskih razgovora) do neobinih (molekularne baze, medicinski podaci, slike astronomskih tijela). Otuda ne udi injenica da je naglo poraslo interesovanje za upravljenjem ovakvim podatacima kao i ekstrakciji potencijialnih znanja iz njih. U eposlovanju veina podataka dolazi iz finansijskih aplikacija, ERP-ova, procesa eCRM i Web logova. Rezultat je sljedei - kompanije postaju bogate podacima, ali siromane znanjem. Kolekcije podataka toliko brzo rastu da je praktina korist od skladita podataka ograniena. Javlja se urgentna potreba za razvijanjem nove generacije tehnologija i alata za otkrivanje skrivenih znanja u bazama. Upravo u tom cilju je razvijen koncept KDD Knowledge Discovery in Databases, iji je kljuni dio data mining. Formalno ga definiu Fayyad, Piatetski - Shapiro, Smith i Ramasami kao: Netrivijalan proces identifikovanja novih, validnih, potencijalno korisnih i krajnje razumljivih obrazaca u podacima. Ovaj koncept karakterie: podaci se odnose na injenice. obrazac (patern) je izraz koji oznaava dio podataka ili model primenjiv na podatke, odnosno model koji na visokom nivou opisuje set podataka. On predstavlja znanje ukoliko dostigne odreen nivo interesantnosti.

3

netrivijalan znai da je neophodno istraivanje, zakljuivanje a ne samo prosto raunanje (kao npr. srednja vrijednost). KDD je iterativan proces i obuhvata vie faza.

Brachman i Anand definiu faze procesa otkrivanja znanja iz baza podataka:1.

2. 3.

4.

5. 6.

7. 8.

Utvrivanje i analiza ciljeva, oblasti i opsega interesovanja Analizira se priroda podataka u datom opsegu, a razmatraju se i ciljevi pronalaenja znanja. Ukoliko postoji bilo kakvo prethodno znanje o posmatranoj oblasti i ono se vrednuje. Selekcija Fokusiranje na odreene setove podataka nad kojima e se trait znanje. Predprocesiranje ienje Pronalaenje ekstremnih vrijednosti, obezbeivanje konzistentnosti, grupisanje, standardizacija, agregacija podataka, upravljanje nedostajuim podacima. Transformacija Izbor podataka je izvren tako da oni budu u skladu sa definisanim ciljevima. Podaci se analiziraju tako da se pronau korisne karakteristike za prikaz podataka u zavisnosti od cilja poduhvata. Neobavezno, izbor podataka se onda moze modifikovati za objanjenje privemene, ili prostorne zamrenosti podataka. Utvrivanje odgovarajueg metoda data mininnga U skladu sa 1) bira se model i parametri. Data mining Algoritam za pronalaenje podataka se primenjuje na predobraene i transformisane podatke radi pronalaenja traenih obrazaca. Interpretacija i vizualizacija Tumae se otkriveni paterni i bira nain njihovog predstavljanja. Eksploatacija znanja i evaluacija Dobijeni obrasci se stavljaju u upotrebu. Mogua upotreba ukljuuje unoenje znanja u druge sisteme radi daljeg djelovanja, dokumentovanje obrazaca i podnoenje zainteresovanim strankama izvetaja o njima. To podrazumjeva ak i ponovnu upotrebu procesa otkrivanja znanja na istoj bazi podataka, koristei nova predznanja.

Obj115

Grafikon 1. Faze otkrivanja znanja iz baza podataka Osnovu za uspeh KDD procesa ini pravilno izgraeno skladite podataka tj. data warehouse. Iz prethodno navedenih karakteristika je oigledno da otkrivanje znanja predstavlja multidisciplinarnu oblast i ima ulogu objedinjavanja i upravljanja 4

razliitim metodama i tehnologijama. Data mining ima centralnu i kljunu ulogu u pronalaenju paterna, ali KDD je taj koji obezbjeuje da naeno znanje bude stvarno korisno i adekvatno. Bez svih faza aplikacije data mining-a uglavnom moe doi do netanih i beznaajnih obrazaca i znanja (npr. pronalaenje zakonitosti u brojevima na taku za rulet).

4.2 Definisanje pojma data mining-aData mining je analiza opservacionih setova podataka u cilju pronalaenja neotkrivenih veza i sumiranja podataka na sofisticirane naine, razumljive i korisne za vlasnika podataka [ ]. Relacije i sumiranja dobijena procesom rudarenja podataka se definiu kao modeli, ili paterni. Primjeri otkrivenih obrazaca su: linearne jednaine, pravila, klasteri (grupe), grafovi, strukture tipa drveta i rekurentni paterni u vrijemenskim serijama. Pri tom: opservacioni podaci - obuhvaeni su data mining-om, a ne eksperimentalni. Mining se odvija nad podacima koji su prethodno sakupljeni za neku drugu svrhu (npr. za uvanje podatak o svim nedavnim transakcijama u banci). Istovrijemeno, to znai da u odreivanju strategije skladitenja data mining nema bitnu ulogu. Zato se esto opisuje kao sekundarna analiza podataka. velika koliina podataka - ako ovaj uslov nije ispunjen onda je u pitanju klasino istraivanje podatak kao u statistici. Javljaju se problemi kako odrediti reprezentativnost podataka, kako ih analizirati u razumnom periodu, da li su paterni plod sluajnosti, itd Ponekad su zahtevi vezani za izvravanje generalizacije, ili komprimovanja podataka u pogodnije oblike i forme. pronaene korelacije i strukture - moraju imati novu, dodatnu vrijednost. Nema svrhe otkrivati ve uspostavljene veze, ili oigledna pravila (ako je kupac dijete, esto se odluuje na kupovinu slatkia). Pitanje relativne vrijednosti rezultata mining-a u odnosu na apriori znanje korisnika, ostaje i dalje otvoreno. Takoe, preterano kompleksna pravila i pored kvaliteta mogu ostati nejasna, pa samim tim gube znaaj Data mining nije pojedinana tehnika, ili tehnologija, nego skup srodnih metoda i metodologija usmjerenih ka pronalaenju i automatskom izvlaenju ablona, slinosti, promjena, anomalija i drugih karakteristinih stuktura iz podataka. Data mining je proces ekstrakcije (izvlaenja) tanih, prethodno nepoznatih i razumljivih informacija, naizgled nepovezanih u velikim bazama podataka, te njihovog korienja za donoenje kritinih poslovnih odluka. Izvuene informacije se mogu iskoristiti za kreiranje modela za predvianje, za utvrivanje veza izmeu slogova baze podataka, ili za pregled podataka baze iz koje se podaci izvlae. Pruaju mogunost eksploataciju podataka iz razliitih uglova, perspektiva, nivoa, te kategorizaciju i klasifikaciju utvrenih korelacija i primenu izvedenih zakjuaka na konkretne poslovne probleme. Rad je prilino komplikovan i analogija s rudarstvom je oigledna. U potrazi za plemenitom rudom, sakrivenom negdje duboko u planini,1

1 Principles of Data Mining, by David Hand, Heikki Mannila and Padhraic Smyth

5

neophodno je duboko kopati, izbaciti velike koliine zemlje i kamena (jalovine), a kada se jednom naie na ilu, neophodno je pratiti je cijelom duinom. Data mining analize u sklopu poslovanja moemo posmatrati kao hitre patrolne amce, koji su spremni iznenada da napadnu odreenu problematiku i otkriju korisne informacije na brz i efikasan nain. Na sljedeoj slici je prikazana jedna od moguih taksonomija data mining-a.

Obj116

Grafikon 2. Taksonomija data mining-aU odnosu na ciljeve koji se postavljaju osnovna klasifikacija data mining modela je na:

Verifikatorni - tj. potvrivanje hipoteza. Upiti se postavljaju i pristupa se zapisima bitnim za nalaenje odgovora na unapred formulisana pitanja. Trae se obrasci, ili informacije koje se mogu u tu svrhu iskoristiti. Prvi korak je generisanje hipoteze, Zatim se ona na osnovu rezultrata analize i upita odbacuje ili potvruje. U prvom sluaju proces se zavrava, a u drugom se upiti preformuliu i opet se uzvravaju nad datim podacima. Oigledno, vrijednost dobijenih zakljuaka ne proizvodi novu, do tad neotkrivenu vrijednost. Zahtjeva se prethodno znanje donosioca odluke, a kvalitet izvaene informacije zavisi od naina na koji ga analitiari interpretiraju. Otkrivanje znanja - Zbog kompleksnosti podataka koji se uvaju i njihovih meusobnih veza, odluivanje samo pomou data mining alata i tehnologija zasnovanih na verifikaciji nije efikasno. Ove tehnologije se moraju proiriti mogunou automatskog otkrivanja bitnih informacija, te pravila sakrivenih u podacima i njihovom adekvatnom prezentacijom. Modeli otkrivanja znanja dolaze do rezultata uz veoma malu pomo korisnika. Meutim, ti modeli nisu plod sluajnosti. Naprotiv, dobro dizajniran data mining alat je unapred osmiljen i izgraen, tako da dozvoljava eksploataciju podataka na najjednostavniji i najbri mogui nain. Slikovito reeno, ako pravimo poreenje data mining-a sa vaenjem dijamanata iz rude, verifikacija je kao buenje pojedinanih rupa na povrini, sa oekivanjem da e se pronai dijamanti. S druge strane, otkrivanje znanja je slino vaenju cjelokupnog materijala i protresanju kroz sito nad istom podlogom, tako da svi svjetlucavi dijelovi izau na vidik. Dubljom analizom se izdvajaju isti dijamanti, odnosno nove, korisne poslovne injenice. Dalje, potrebno je praviti distinkciju izmeu dva pravca otkrivanja znanja: Prognoza - u ovom sluaju, cilj je da se pronau korelacije izmeu polja podataka, odnosno predikcioni data mining koristi skup poznatih promenljivih da predvidi trendove, karakteristike i pravila vezana za druge nepoznate, ili budue promenljive. Opisivanje panja je usmjerena prevashodno na iskopavanje opisanih podataka. Svrha njihovog iskopavanje je da se otkriju usaeni obrasci, u okviru podataka, koji opisuju same podatke, kako bi se izveli odgovarajui zakljuci.Spomenimo i podelu data mining modela na: Nadgledane, ili ciljne - zahtjevaju setove ciljnih podataka nad kojima ue, treniraju.

6

Nenadgledane, ili usmjerene - ne zahtjevaju podatke koji bi sluili za uenje, nemaju unapred odreen raspored, grupe, ve se od data mining-a oekuje formulisanje odgovarajuih struktura sa znaenjem.

4.3 Istorijski razvoj pojma data mining-aNa razvoj data mining-a su posebno uticale etiri naune discipline: statistika, machine learning, baze podataka i vetaka inteligencija. U osnovi data mining-a je statistika. Statistika je osnova veine tehnologija na kojima je data mining zasnovan, posebno metode: regresiona analiza, vremenske serije, stabla odluivanja, standardna devijacija, varijansa, diskriminaciona analiza i standardna raspodela. Moe se na prvi pogled uiniti da je data mining u stvari samo eksploratorna statistika. Meutim, data mining radi sa mnogo veom koliinom podataka, vrlo esto netradicionalnim tipovima podataka, efikasniji je i multidimenzionalan. Ova oblast svoju mo zasniva vie na heuristici nego na statistici i pokuava da primjeni procese ljudskog razmiljanja na statistike probleme. Zbog velike potrebe za raunarima, nije dovoljno eksploatisana sve do 80-ih godina prolog vijeka, kada su poeli da se proizvode moni raunari . Machine learning se moe posmatrati kao kombinacija statistike i vjetake inteligencije. Na odreen nain predstavlja mjeavinu vjetake inteligencije sa naprednim statistikim analizama. Osnovna statistika analiza je koriena za fundamentalne probleme, dok su napredna heuristika i algoritmi vjetake inteligencije korieni za prouavanje kompleksnih podataka. Data mining je, u sutini primena machine learning tehnika na poslovne aplikacije. Neuronske mree i genetski algoritmi su primjeri primjene mainskog uenja na algoritme i tehnike data mining-a. Tradicionalna statistika podrazumjeva da se svi podaci za analizu mogu uitati u memoriju, to neretko nije sluaj u poslovnom svijetu. Zato je data mining prihvataen u naunom i poslovnom svijetu, za prouavanje velike koliine podataka i otkrivanjem trendova koji se ne bi uoili korenjem drugih, tradicionalnih metoda. Grossman navodi da data mining sistemi mogu da se podijele na etiri generacije, koje pokazuju evoluciju sistema od prostog, preko komplesnog pa sve do naprednog: Prva generacija data mining sistema podrava jednostavne algoritme ili mali skup algoritama koji su dizajnirani da prikupljaju vektorske podatke (numerike, esto koriene da predstave trodimenzionalnu sliku). Ovo su najosnovniji i najjednostavniji data mining sistemi. Drugu generaciju sistema karakteriu interfejsi baza podataka i data warehouse-a, visokih performansi i poveane funkcionalnosti. Cilj sistema druge generacije je da prikupljaju obimne podatke i kompleksne skupove podataka, podravaju korienje viestrukih algoritama i budu u mogunosti da rade sa viedimenzionalnim skupovima podataka. Data mining eme i data mining programski jezik (DMQL) su takoe podrani. Trea generacija data mining sistema je sposobna da prikuplja raspodeljene i heterogene podatke pronaene na intranetu i ekstranetu; takoe da uspeno integrie sisteme razliitih vrsta. Trea generacija data mining sistema se razlikuje od pretaivaa, jer ovi sistemi otkrivaju ablone, slinosti, promjene i anomalije izmeu podataka. Pretraivai jednostavno nalaze traene podatke. etvrta generacija data mining sistema je sposobna da prikuplja podatke koji su generisani od strane mobilnih, integrisanih i kunih raunara. Ovo su najnovija dostignua u oblasti data mining-a. Prema sprovedenim istraivanjima, za sada je najvei dio posla u data miningu odraen u okviru druge i tree generacije.

4.4 Zadaci i kategorije data mining-aData mining se koristi u rjeavanju raznovrsnih problema u poslovanju. U odnosu na prirodu problema mogu se izdvojiti sljedee kategorije, odnosno vrste data mining-a:

Klasifikacija: Jedna od najzastupljenijih metoda data mining-a. U tu grupu spadaju metode za svrstavanje entiteta u jednu od nekoliko prethodno definisanih grupa, ili klasa. U postupku rudarenja za podatacima kreiraju se klasifikacioni modeli, ispitivanjem prethodno klasifikovanih podatka (sluajeva) i induktivnim traenjem predvidivih obrazaca. Ovo je primjer nadgledanog mininga-a, jer zahtjeva postojanje seta podataka u kojem za svaki ulazni sluaj je definisana klasa kojoj pripada. Postojei sluajevi mogu poticati iz transakcionih baza podataka, ali i iz eksperimenata u kojima se kao uzorak testira kompletna baza podataka u realnom svijetu, a rezultati se koriste za kreiranje klasa. Svaki sluaj sadri niz atributa, od kojih je jedan klasni atribut (predviajui). Sutina klasifikacije je pronalaenje modela koji opisuje predviajui atribut kao funkciju ulaznih atributa. Tako, na primjer, u setu podataka o klijentima banke, pored 7

ostalih moe se definisati atribut vraa kredit, kao klasni sa dva stanja: da i ne. Rezultat procesa data mining-a trebalo bi da bude model koji bi na osnovu vrijednosti ostalih atributa (godine, plata, mesto stanovanja, kompanija) svakog novog klijenta svrstavao u grupu onih koji vraaju kredit, ili suprotno. Slian je i primjer vezan za podatke iz procesa enabavki. Za svakog novog dobavljaa moe se na osnovu odreenih karakteristika odrediti da li spada u kategoriju pouzdanih ili nepouzdanih. Upravljanje rizikom, segmentacija trita, otkrivanje prevara, prevencija gubitka muterija, su primjeri poslovnih problema rjeivih klasifikacijom. Tipini algoritmi klasifikacije su stabla odluivanja, neuronske mree, Bayes-ove mree, analiza veza, genetski algoritmi. Klasterovanje: U upotrebi je i naziv segmentacija. Identifikuje prirodno grupisanje sluajeva na osnovu niza atributa, tako da atributi unutar jedne grupe imaju prilino sline vrijednosti, a meu grupama postoji znaajna razlika. Logike celine, odnosno dobijene grupe se nazivaju klasteri. Za razliku od klasifikacije gdje postoje predefinisane klase, ovde to nije sluaj. Poto ne zahtjeva set podataka za treniranje pripada nenadgledanim metodatama data mining-a. Svi ulazei atributi se podjednako tretiraju. ak se od korisnika ne zahtjeva ni odreivanje ulaznih atributa, ni outputa, ve samo eventualno, broj klastera. Veina algoritama klasterovanja se razvija kroz vei broj iteracija, dok se granice segmenata ne stabilizuju. U skladu sa osnovnim definicijama data mining-a, moe se tvrditi da je sutina klasterovanja otkrivanje skrivene vrijednosti i varijable koja precizno klasifikuju podatke. Ta nova dimenzija je neto jedinstveno. Metode klasterovanja imaju iroku poslovnu primenu, jer dosta efikasno rade sa razliitim tipovima podataka (diskretne, numerike, tekstualne). esto predstavljaju poetan korak u data mining-u, koji prethodi klasifikaciju. Efikasni su u segmentiranju trita na osnovu razliitih kriterijuma. Kao oigledan primjer primjene mogu se navesti aktivnosti onlajn marketinga, gdje se na osnovu liste korisnikih profila odreuju klasteri sa specifinim karakteristikama i prema njima se formuliu ciljne kampanje(alju se mailovi, publikacije). Ineresantno je napomenuti da se klasifikovanje primenjuje i na segmentaciju skladita podataka. Uzmimo za primjer bazu u kojoj se nalaze zapisi o kupljenim proizvodima po potroaima za vrijeme posete e-prodavnici. Ova Baza podataka se moe izdjeliti na zapise koji opisuju kupovinu za vrijeme odmora, kupovinu posle praznika itd. Spomenimo K-means i hijerarhijsko klasterovanje kao algoritme klasterovanja. Autoclass sistem klastering, zasnovan na konceptu automatskog pronalaenja klasa, gdje je cilj nai najverovatniji skup klasnih opisa (klastera) za date ulazne podatke i za dato prethodno znanje, ne dodeljuje eksplicitno pojedinane podatke klasterima; umjesto toga dodeljuje vjerovatnou pripadnosti svakom pojedinanom podatku i klasnom paru.

Obj117

8

Grafikon 3. Klasteri na osnovu dva faktora Na slici 16 je prikazan set podataka o potroaima koji sadri dva atributa: godine i prihod. Klaster 1 sadri mlau populaciju sa niskim primanjima, Klaster 2 obuhvata potroae srednjih godina i visokog prihoda, a Klaster 3 grupie starije ljude sa niim prihodom. Regresija: Koristi se za opisivanje veza izmeu varijable od primarnog interesa (npr. prodaja, iznos rauna) i tzv. predviajuih varijabli (npr. primanja kupca, brojlanova porodice, godine itd.), odnosno kad se postojee vrijednosti koriste za predvianja kakve e biti ostale vrijednosti. Slina je klasifikaciji, a osnovna razlika je u tome to je ovde predviajui atribut kontinualna varijabla. Regresija (npr.jednostavna linearna, viestruka, polinomna td.) primenjuje se za za predvianja kao npr. koliko e profita generisati pojedina kategorija potroaa, ili slino. Naalost, veina problema u poslovnom svijetu ne predstavlja linearnu projekciju prethodnih vrijednosti.Vrijednosti varijabli su uslovljene kompleksnim interakcijama razliitih inilaca, pa u tim sluajevima treba primjeniti mnogo kompleksnije tehnike.

Obj118

Grafikon 4. Regresiona prava Estimacija: Za razliku od klasifikacije koja rezultuje diskretnom vrijednou ciljne promenljive, estimacija daje kontinualnu vrijednost iste. Na osnovu skupa ulaznih promenljivih odreuje se vrijednost kontinualne ciljne promenljive, kao to je na primjer prihod. Estimacija se obino kombinuje sa klasifikacijom. Na sirovi skup podataka se najprije primjeni estimacija, odnosno prorauna vrijednost atributa odluke za svaki objekat iz skupa neklasifikovanih objekata. Zatim se na osnovu vrijednosti tog atributa odluke i eljenog praga vrijednosti istog atributa vri razvrstavanje objekata u odreenu klasu. Pogodne metode za probleme estimacije su regresioni modeli i neuronske mree. Metoda analize opstanka je pogodna kada je cilj estimacija vrijemena odigravanja nekog dogaaja, naprimjer, vrijeme kupovine. Dodatna vrijednost je da se potencijalni potroai mogu rangirati, tako da ako kompanija ima sredstava da poalje promotivni materijal za 100 najprofitabilnijih kupaca, estimacija predstavlja najefikasniju metodu. Predvianje: Slina je klasifikaciji i estimaciji s tim to se objekti klasifikuju u skladu sa nekim dogaajem u budunosti, ili estimacijom neke promenljive. Predvianje omoguava dodatno sagledavanje meusobne povezanosti ulaznih i ciljnih promenljivih. Vrijednosti ciljne promenljive su poznate na osnovu istorijskih podataka. Izgraeni model se primenjuje na nove objekte, ime se vri predvianje budueg ponaanja. Predvianje prouava opte trendove, periodina ponaanja, filtriranjem neodgovarajuih podataka. Vremenske serije sadre susedne opservacije, poreane po redosledu. Predvianje pomae davanju odgovora na pitanja tipa: Kolika e vrijednost akcija biti sutra? Kojoj grupi e klijent pripadati sljedee godine? Kolika e biti prodaja kompanije do kraja meseca? Naprimjer, server neke kompanije se konfigurie na osnovu prognoza protoka podataka i saobraaja u budunosti. U procesima upravljanja zalihama neophodno je unapred poznavati traene koliine, kako bi se optimizovale zalihe na skladitima.

9

Obj119

Grafikon 5. Prognoza prodaje bicikla po regionima u narednom periodu za fiktivnu kompaniju Adventure

Saimanje: Pronalaenje obrasca koji e kompaktnije opisati dio ulaznih podataka. Saimanje izdvaja, ili izvodi reprezentativne informacije iz baze, pa se naziva i karakterizacija, ili generalizacija. Koristi se kada kompanija eli da dobije opti uvid u podatke iz svoje baze podataka, naprimjer o trinim trendovima. Asocijacija: Opisuje se i kao grupisanje po slinosti. Moe se posmatrati kao specijalna vrsta klasterovanja koja identifikuje simultane dogaaje i transakcije. Najpoznatiji primjer asocijacije je analiza potroake korpe. Market basket analysis pokuava da otkrije koje stvari se prodaju zajedno u isto vrijeme. Beskorisno je, zbog velikog broja proizvoda, uzimati u obzir sve mogue kombinacije prodatih stvari. Treba izdvojiti samo znaajne kombinacije, odnosno este nizove proizvoda i pravila o povezanosti elemenata kupovine tj. asocijativna pravila. Ova pravila su u formi A, B => C sa odgovarajuim vjerovatnoama. Trgovaki lanci koristei ovom metodom mogu da planiraju raspored i aranman proizvoda na rafovima, izlozima, katalozima, sajtovima. Prodaja dodatnih proizvoda postojeim klijentima (cross-selling) jedan je od vanijih naina poveavanja profitabilnosti postojeih klijenata uz istovrijemeno poveanje njihove lojalnosti.

Obj120

Grafikon 6. Asocijacije proizvodaTipian primjer pravila na osnovu slike je: Proizvod =Pepsi, Proizvod = ips => Proizvod = Sok.

Interpretacija pravila glasi: Ako se odlui za ips i Pepsi, kupac e sa vjerovatnoom npr. od 80% kupiti i sok.

Otkrivanje devijacija: Oblast koja je jo nedovoljno istraena. Pronalazi one retke sluajeve koji se ponaaju prilino razliito u odnosu na ostale. Naziva se i otkrivanje autlejera, to znai znaajnih promjena u odnosu na prethodne rezultate i ponaanja. Treba da razjasni da li su takvi sluajevi plod sluajnosti ili je neto drugo u pitanju. Najee se koristi u otkrivanju kreditnih prevara. Ne postoji standardna tehnika za detekciju devijantnosti, ali se koriste stabla odluivanja, neuronske mree. Analiza redosljeda : Sekvencijalna analiza, ili otkrivanje sekvenci se koristi za odreivanje obrazaca u podacima koji zavise od redosljeda pojavljivanja. Za dati skup 10

objekata kod koga se svakom objektu pridruuje njegov istorijat dogaaja, pronalaze se pravila koja predviaju strogu zavisnost od redosljeda njihovog pojavljivanja. Pri tome postoji zavisnost (kao pravila pridruivanja), ali je ona vremenske prirode npr. kupovina proizvoda (vremenskim) redosljedom. Sekvencijalna analiza pronalazi paterne u diskretnim serijama. Svaka sekvenca je sastavljena od niza razliitih stanja. Web klik sekvenca sadri serije URL-ova. Kupovina potroaa moe biti modelovana kao sekvenca podatak. Potroac kupuje prvo raunar, zatim mikrofon i konano kameru. Razlika izmeu analize redosljeda i asocijacija je zato to prvi analizira prelaze stanje, dok se u procesu asocijacije svi atributi posmatraju jednakim i nezavisnim.

4.5 Metodologija razvoja data mining modelaRazvoj modela data mining-a je samo dio sloenog procesa, koji se, prema Microsoft-ovoj tehnologiji moe definisati preko est osnovnih koraka: Definisanje problema Priprema podataka Istraivanje podataka Izgradnja modela Istraivanje i validacija modela Razvoj i nadgradnja modela

Obj121

Grafikon 7. Koraci u razvoju modela data mining-aNa prethodnom dijagramu prikazane su veze koje postoje izmeu svih koraka u metodologiji data mining-a. Treba naglasiti da, iako je na dijagramu proces kreiranja i implementacije data mining modela prikazan kao kruni proces, svaki korak ne mora obavezno da vodi ka sljedeem. Kreiranje data mining modela je dinamian i iterativan proces koji zahtjeva da se pojedini koraci ponove onoliko puta koliko je potrebno da bi se dobio model odgovarajueg kvaliteta.

4.5.1

Definisanje problema

Inicijalna faza, koja se fokusira na razumjevanje ciljeva i zahtjeva iz poslovne pespektive. Sutina je da se prevedu ciljevi u odgovarajue probleme data mining-a. U ovom koraku vri se analiza potreba i definisanje mera na osnovu kojih e se ocenjivati valjanost modela. Ovi zadaci se mogu prevesti u niz odgovarajuih pitanja kao to su: ta je potrebno dobiti kao razultat analize? Koji su to atributi ije vrijednosti elimo da predvidimo? Koje vrste relacija elimo da otkrijemo? Da li na osnovu modela elimo da vrimo predvianja ili samo traimo interesantne paterne i asocijacije? Kako su podaci raspodeljeni? Kako su tabele povezane? Da bi dali odgovore na ova pitanja, potrebno je sprovesti procjenu dostupnosti podataka, kako bi se utvrdilo da li su potrebe korisnika u skladu sa raspoloivim podacima.

11

4.5.2

Priprema podataka

Podaci su razbacani po razliitim dijelovima kompanije i skladitima u raznovrsnim formatima i neretko sadre nekonzistentnosti, kao to su netane, ili nedostajue vrijednosti. Nakon formulisanja poslovnog problema potrebno je odrediti listu poeljinih podataka. Podatke bi trebalo uzimati iz vie izvora. Pri tom treba pratiti nekoliko smernica: Koja koliina podataka je dovoljna? Odgovor zavisi od sloenosti podataka, algoritma koji e biti primenjen, relativne frekvencije moguih izlaza (izlaznih promenljivih). Kada je skup podataka modela dovoljno veliki za izgradnju dobrog, stabilnog modela to moe biti kontraproduktivno, jer e se vrijeme obrade poveati imajui u vidu da je DM proces iterativan. Koliki je istorijski opseg? Pitanje je adekvatno dilemi: koliko daleko zalaziti u prolost prikupljajui podatke? Ne postoji jedinstveni opseg. Podaci iz daleke prolosti mogu postati nekorisni za analizu, zbog promjene trinih uslova. Negdje problem sam po sebi usmerava aktivnost (kada je poslovna aktivnosti sezonskog karaktera. Naprimjer: skijanje je aktuelno tokom zime). Koliki je broj promenljivih? - Neke promenljive su znaajnije od drugih. Analiza interpretacije je laka ako je broj promenljivih manji, odnosno redukovan. Obino analitiari vre redukciju polaznog skupa podataka, ponekad i suvie. DM je proces kojim se podaci sami razvrstavaju na vie i manje znaajne. Konani model se sastoji od samo nekoliko promenljih koje su izvedene kombinovanjem drugih promenljivih. U vezi sa podacima javljaju se odreeni problemi: Deskriptivne promenljive sa velikim skupom vrijednosti kao to su drave, potanski kod i slino. Tehnike data mining-a nisu pogodne za ovakav tip promenljivih. Rjeenje problema je grupisanje u klase koje e sauvati prvobitnu povezanost sa ciljnom promenljivom. Numerike promenljive sa definisanim distribucijama i outlierima. Ove promenljive prave probleme tehnikama koje koriste aritmetike vrijednosti. Problem ima vie rjeenja: iskljuivanje outliera iz analize, deljenje skupa vrijednosti na intervale jednake duine, kao i transformisanje promenljivih redukovanjem opsega tako da se svaka vrijednost menja svojim logaritmom. Nedostajue vrijednosti nekog atributa. Neki algoritmi mogu da rade sa null vrijednostima dok drugi ne mogu. Izbacivanja ovakvih objekata je nepoeljno. Popunjavanje vrijednosti atributa aritmetikom sredinom, ili najfrekventnijom vrijednou daje lane informacije. Zamena null vrijednosti nekom diskvalifikujuom vrijednou za godine starosti ( na primjer - 23) je takoe nepoeljno. Vrijednosti ije se znaenje menja vrijemenom. Poto se podaci uzimaju iz razliitih perioda prolosti neretko se deava da ista vrijednost promenljive menja svoje znaenje tokom vrijemena. Recimo, klasa kredita A pre 6 i pre 2 godine ne mora da bude ista zbog promjene ponude banaka, pri emu je veliina kredita poveana. Razne nekonzistentnosti u razliitim izvorima podataka uzrokovane nejednakim tretiranjem istih pojava.

Oigledno da se prikupljeni podaci moraju transformisati kako bi se prilagodili postavljenom problemu. Pronalaenje ekstremnih vrijednosti, dijagnostika nedostajuih vrijednosti i predvianje istih, povezivanje relacionih kljueva iz razliitih izvora podataka, postizanje jednoobraznosti (konzistentnosti) u podacima, uzorkovanje, kategorizacija vrijednosti atributa, formiranje izvedenih atributa, saimanje podataka, itd.su samo neke od potrebnih aktivnosti. 4.5.3

Istraivanje podataka

Veoma je znaajno pre kreiranja modela dobro istraiti i razumjeti podatke. Po zavretku prethodno navedenih metodolokih postupaka pripreme podataka, u cilju jo detaljnijeg istraivanja moe se provesti i analiza relevantnosti atributa. Iako ova analiza nije preduslov za uspeno sprovoenje data mining-a, ona moe doprinijeti boljem razumevanju odnosa meu atributima i izboru optimalne metode rudarenja podataka. Postavlja se pitanje da li je odabran pravi skup atributa koji jednoznano opisuju problem koji treba rjeiti, i da li su vrijednosti tih atributa pravilno grupisane. Zadatak analize relevantnosti atributa svodi se na otkrivanje onih atributa koji imaju slab ili skoro nikakav utticaj na zadati analitiki cilj, to moe rezultirati njihovim neuvrtavanjem u dalji procese analize. U praksi se obino skup podataka modela dijeli na tri dijela: Skup podataka za uenje, koji se koristi za izradu inicijalnog modela, Skup podataka za validaciju, koji se koristi za proveru optosti modela, Skup podataka za testiranje, koji se koristi za mjerenje efikasnosti modela, kada se model primjeni na nove podatke.

4.5.4

Izgradnja modela

Na osnovu podataka iz prethodnog koraka moe se pristupiti projektovanju i izradi data mining modela. Skup trening podataka se koristi za izradu data mining modela, dok se skup podataka za testiranje koristi za evaluaciju tanosti modela. Nakon definisanja strukture modela, vri se njegovo procesiranje, i na taj nain popunjavanje prazne strukture oblicima ponaanja koji opisuju dati model. Ovakav model naziva se trening model. Selekcija odgovarajue tehnike je kljuno i veoma kompleksno pitanje, jer zavisi od velikog broja specifinih faktora. Moe da dovede i do vraanja na neki od prethodnih koraka.

12

4.5.5

Validacija i eksploatisanje modela

Vri se ispitivanje izraenih modela i njihove efektivnosti. Ovaj korak je neophodan kako bi se proverilo koliko dobro funkcionie model koji je kreiran, ili ukoliko je izraeno vie razliitih modela, koji od njih pokazuje najbolje performanse. Ako se utvrdi da model ne postie zadovoljavajue rezultate, potrebno je vratiti se na prethodne korake data mining procesa i izvriti odgovarajue korekcije. Neka od pitanja koja se postavljaju su: Kolika je tanost modela? Koliko model dobro opisuje i objanjava posmatrane podatke? Sa kojom vjerovatnoom i tanou model vri predvianje? Koliko je model razumljiv? Primenjuju se razliitite metode za testiranje tanosti i performansi modela, kao to su lift koeficijent i klasifikaciona matrica.

4.5.6

Razvijanje i nadgradnja modela

Nakon uspjene izrade modela sledi njihova primena u praksi, gdje mogu obavljati razliite zadatke u zavisnosti od potrebe. Neke od moguih primena su: Korienje modela za predvianja, koja se zatim mogu iskoristiti za donoenje odluka. Ugraivanje data mining funkcionalnosti direktno u aplikacije. Klasifikacija ulaznih podataka Kreiranje izvetaja koji omoguuju korisnicima da postavljaju direktne upite nad data mining modelom. Obino model koristi izvedene promenljive, formirane na osnovu ulaznih originalnih promenljivih. Rezultat je dodatno polje u tabeli podataka, koje moe da predstavlja vjerovatnou, ili nivo maksimalne verodostojnosti, ili naziv klase, klastera sa odgovarajuom vjerovatnoom. Pored navedenog, postoje neograniene mogunosti primjene data mining modela o emu je ve bilo rijei u prethodnim poglavljima ovog rada. Treba, meutim naglasiti vanost veze izmeu projektovanja i primjene data mining modela, obzirom da su vrsta modela i nain izrade modela u velikoj mjeri odreeni svrhom u koju e model biti upotrebljen. Praenje i nadogradnja modela je takoe znaajan dio primjene data mining-a. Kako se u praksi koliina podataka koje data mining model obrauje, stalno uveava, neophodno je vriti stalno praenje funkcionisanja modela i njegovo prilagoavanje konkretnim uslovima primjene. Na izlaganja o izgradnji data mining modela, radi sveobuhvatnosti, treba istai i da je uspostavljena standardna metodologija od strane CRISP-a (Cross Industry Standard Process), prihvaena od veeg broja vendora data mining alata. Sastoji se iz est faza[2]: Razumjevanje poslovanja Razumjevanje podataka Priprema podataka Modeliranje Evaluacija Razvijanje

Obj122

Tabela 1. Faze, ciljevi i zahtjevani izlazi u izgradnji data mining modela Takoe se sugerie iterativnost procesa. U tabeli 2. su prikazane kjune faze, dijelovi svake od faza i oekivani izlazi.

4.6 Proces data mining-aTransformacija sadraja iz skladita podataka u informacije koje pomau donoenju odluka je sloen process, koji se prema IBM-ovoj metodologiji moe organizovati u 4 osnovna koraka:

selekcija, transformacija data mining. interpretacija i evaluacija

2 http://www.crisp-dm.org

13

Obj123

Grafikon 8. Proces data mining-a prema IBM metodologiji

Selekcija - data warehouse sadri mnotvo razliitih podataka, od kojih neki nee biti potrebni u procesu otkrivanja paterna. Shodno tome, vri se izbor onih baza i podataka koji su adekvatni cilju data mining-a. Naprimjer, marketing baze podataka sadre podatke o kupovinama, demografske podatke, podatke o strukturi kupaca i njihovoj kupovnoj moi. Kako bi prodavci u robnom kuama rasporedili proizvode na policama potrebno je da uporede samo demografske podatke i podatke o kupovinama. Nekad je neophodno izvriti i spajanje meu tabelama. Deava se da u analizu ne mora biti ukljuena itava tabela, ve samo pojedini dijelovi. Isto tako, podaci se u odreenim sluajevima sakupljaju iz vie izvora. Pretpostavimo da click stream skladite podataka sadri sve Web klikove sa sajta neke kompanije koja prua usluge e-commerce-a. Postoje navigacioni paterni o kupcima, ali fale demografski podaci da bi se mogla formirati celokupna slika. Tada je neophodno prikupiti te informacije iz nekog drigog izvora. b) Transformacija - Nakon to su eljene tabele odabrane i podaci za data mining identifikovani, obino je potrebno izvriti odreene transformacije podataka. Tip transformacije koju treba izvriti, odreuje vrsta data mining operacije i tehnike koja se koristi: transformacija tipa podataka: najprostiji oblik transformacije, (npr. iz integer u boolean), jer se neki algoritmi efikasnije i stabilnije ponaaju sa novodobijenim tipom, transformacija kontinualnih kolona (npr. atribut Godine i Prihod se klasifikuju u par grupa), grupisanje (npr. pojavljuju se atributi razliitih tipova inenjera kao zasebne vrste i prikladnije bi bilo zapisivati ih kao inenjer). Agregacija (npr. neka postoji tabela sa zapisima telefonskih razgovora (CDR) za svakog klijenta. Poto su podaci suvie detaljni za zakljuivanje na mesenom nivou, rjeenje bi bilo agregirati ih u nove atribute: ukupan broj poziva i proseno trajanje poziva). Upravljanje nedostajuim vrijednostima: deava se da podaci nedostaju iz vie razloga. (Tako npr. prilikom registracije na sajt korisnici preskau neka polja). Postoji vei broj metoda za otklanjnje ovih nedostataka. Otklanjanje outlejera: abnormalni sluajevi utiu na kvalitet rezultata i kada god je to mogue treba ih odstraniti. c) Data mining - Izbor optimalne tehnike, ili algoritma je sutina procesa data mining-a. za svaki od zadatka. Preciznost zavisi od prirode podataka, distribucije atributa, veza meu atributima, itd. d) Interpretacija i evaluacija - Informacije dobijene procesom data mining-a se analiziraju u skladu sa potrebama korisnika. Vri se izbor najbolje informacije i njena prezentacija preko sistema za podrku odluivanju. Zadatak ove fazea)

14

nije samo vizuelizacija (grafika i logika) rezultata data mining procesa, nego i izbor i prilagoavanje odgovarajue informacije koja e biti prezentovana. Kreiraju se optimizovani izvetaji, vre se prognoze (scoring), a rezultati se koriste u razliitim aplikacijama.

4.7 Tehnike data mining-aSa razvojem koncepta data minng-a pojavljuje se irok spektar analitikih tehnika namenjenih ispunjavanju osnovnih zadataka u procesu otkrivanja znanja u podacima. Sledea podela predstavlja agregaciju stavova vie autora po pitanju vrsta tehnika: a) Stabla odluivanja(decision tree) b) Pravila pridruivanja(association rules) c) Analiza povezivanja(link analysis) d) Klasterovanje(clastering) e) Konrolisana indukcija(controlled induction) f) Neuronske mree(neural networks) g) Genetski algoritmi(genetic algorythms) h) Zakljuivanje zasnovano na prolosti(memory based reasoning) Meutim, navedenu klasifikaciju je potrebno shvatiti uslovno, jer su opsezi tehnika veliki i meusobno su komplementarne. U nastavku e biti objanjene najbitnije tehnike, sa osvrtom na mogunosti primjene u poslovanju. 4.7.1

Stablo odluivanja

Jedna od najee korienih data mining tehniika analize i modeliranja je tehnika stabla odluivanja. Primenjuje se za razvrstavanje, predvianje, procjenu vrijednosti, grupisanje, opisivanje podataka i vizualizaciju. Stablo ima svoju grafiku predstavu kao hijerarhijski ureen skup vorova. vor koji je najvii u hijerarhiji se naziva korjen (root). Ostali vorovi (nodes), koji imaju svoje naslednike, nemaju specijalan naziv, dok se zavrni vorovi nazivaju listovi. Svakom voru se dodeljuje nivo na kome se nalazi u odnosu na korjen, kome se dodeljuje nivo nula. Svaka putanja od korena do lista predstavlja jedno pravilo. Stablo odluivanja je struktura koja se koristi za rekurzivno deljenje velikih kolekcija objekata na manje skupove, dodeljivanjem niza jednostavnih pravila. Osnovna ideja da svaki podeljeni skup sadri homogena stanja ciljne promenljive. Prilikom svakog deljenja ocenjuje se uticaj ulaznih faktora. Postoje tri sluaja deljenja polaznog skupa objekata, zavisno od karaktera ulaznih promenljivih: deljenje nad numjerikim ulazima, deljenje nad deskriptivnim ulazima, deljenje u prisustvu nedostajuih vrijednosti.U sluaju numjerikih vrijednosti promenljivih razvrstavanje objekata se zasniva na uslovu da vrijednost promenljive X bude manja od postavljenog numjerikog praga N, odnosno XN ili X=N se alju u drugi.

Najjednostavniji algoritam za deljenje nad deskriptivnim ulaznim promenljivim je kreiranje nove grane za svaku klasu. Naprimjer, ako se deljenje objekata vri prema njihovoj boji i skup moguih vrijednosti te promenljive je pet boja {crvena, narandasta, uta, zelena, plava}, tada e se kreirati pet novih vorova 15

na niem nivou stabla. Ovaj nain deljenja se koristi u nekim softverskim paketima, ali daje slabe rezultate. ee korieni postupak je grupisanje objekata prema slinim izlazima. Ako se distribucije dve klase ulaznih promenljivih ne razlikuju od distribucije izlaznih promenljivih onda se te dve klase grupiu. Jedan od kriterijuma za razvrstavanje stabala je tip ciljne promenljive prema kome se dele na regresiona stabla (promenljiva je kontinualna) i klasifikaciona stabla (promenljiva ima diskretan skup vrijednosti). Algoritmi korieni u procesu formiranja stabala su CART, CHAID, ID3. Na slici 22 je prikazan primjer upotrebe stabla odluivanja u oblasti upravljanja rizikom, odnosno odreivanja nivoa kreditinog rizika za razliite klijente.Obj124

Grafikon 9. Stablo odluivanja za problem analize kreditnog rizika

Na ovakvom modela se vrlo lako uoavaju pravila, na osnovu kojih se kasnije donose odluke: Ako klijent ima godinji prihod izmeu 5000 i 10000 dolara, u braku je i mlai je od 45 god., onda je nivo kreditnog rizika nizak. Isto tako se mogu kreirati i asocijacije izmeu atributa. Atraktivnost ove metode je u tome to stablo sadri pravila koja su veoma itljiva i razumljiva, brzo i lako se grade i prevode u poslovna pravila. Nedostaci ove tehnike su, pre svega: nestabilnost, takva da mala promjena ulaznih podataka pomou kojih se tretira model, moe rezultirati velikim promjenama topologije stabla, zatim nemogunost prepoznavanja outleyera itd. 4.7.2

Pravila pridruivanja

Tehnika pravila pridruivanja (association rules) pronalazi interesantne asocijacije i/ili korelacije odnosa izmeu razliitih stavki ogromnih setova podataka. Ova istraivaka tehnika je iroko primenjena u mnogim sferama poslovne prakse i istraivanja od analize potroakih preferencija, ili menadmenta ljudskih resursa, do razvoja jezika. Omoguava otkrivanje skrivenih obrazaca u velikim setovima podataka, kao to su naprimjer, otkria da klijent koji narui proizvod A esto narui i proizvod B, ili C ili naprimjer klijenti koji imaju pozitivno miljenje o usluzi X esto se ale zbog problema Y, ali su sreni zbog koristi Z. Tipian i iroko-rasprostranjen primjer korienja pravila pridruivanja je analiza potroake korpe. Svi proizvodi koje kupac narui ili kupi tokom odreene aktivnosti predstavljaju jedan zapis (rekord), odnosno ine jednu transakciju, ili itemset. Svaki element itemset-a ima odreenu vrijednost atributa. U procesu pronalaenja pravila pridruivanja postoje dve faze: pronalaenje frekventnih itemsetova i generisanje asocijativnih pravila na osnovu dobijenih rezultata. Mjere koje se koriste su podrka (support) i poverenje (confidence, pouzdanost).Podrka odslikava frekvenciju sa kojom se skup odreenih elemenata (itemset) pojavljuje u skupu podataka. Rauna se kao procjenat transakcija (slogova) koji sadre dati skup artikala (kao podskup) od ukupnog broja transakcija. Ako skup artikala ima podrku veu od specificiranog praga (minsup), kaemo da je on podran (supported) ili est (frequent) ili veliki (large).

Povjerenje odslikava implikativnost (uzronost, povezanost) koje je prisutno u pravilu, odnosno uslovna vjerovatnoa da su artikli na desnoj strani pravila B prisutni ako su prisutni artikli na levoj strani pravila A:

16

confidence(A B) = support(A, B)/support(A) Dakle, poverenje da je i B prisutno u podacima ukoliko je prisutno A.

Obj125

Grafikon 10. Primjer odreivanja podrke(support) i poverenja(confidence)

Elementi transakcije formiraju hijerarhije, to dovodi do nastanka viedimenzionalnih pravila. Zakljuci koji se na ovaj nain dobiju mogu biti izuzetno korisni. Upravo prolaskom kroz nivoe i dimenzije dolazi se do otkrivanja skrivenih obrazaca. Na slici 23. se nalazi primjer primjene hijerarhijskih asocionih pravila u jednoj od oblasti koja se zasniva na e-poslovanju. Re je o e-government-u:

Obj126

Grafikon11. E-government usluge

Generisana pravila mogu da ubrzaju razliite procedure pruanja usluga graanima. Ako se u toku rada vidi da odreene aktivnosti imaju veliku meuzavisnost, potrebno ih je organizovati tako da kada se jedna odabere druge budu lako dostupne. Najvii nivo na slici 23: Plaanje poreza Dokumenti (podrka =8%, poverenje =67%) Drugi nivo: Porez na imovinu Zahtevi (podrka =2%, poverenje =70%) Kombinacija nivoa: Plaanje poreza Dozvola za gradnju (podrka =1%, poverenje =45%) Neki od tipinih problema gdje se asocijativna pravila primenjuju su: Analiza odlazaka (gubitka) klijenata (Churn analysis) Osnovno pitanje koje se postavlja je pronai kupce sa najveom vjerovatnoom prelaska kod konkurencije. Utvrivanje glavnih i skrivenih razlika dovodi do poboljanja pruenih usluga i zadravanja klijenata. Ukrtena, dodatna prodaja(Cross-selling) Mnoge kompanije koje pruaju mogunost online kupovine, obavljanja bankovnih transakcija pomou platnih kartica, e-government portali, itd., na 17

osnovu utvrenih pravila preporuuju kljientima sljedee aktivnosti, odnosno proizvode. Preporuilac u E-commerce okruenju se ponaa kao specijalizovani prodavac u oima kupca. Otkrivanje prevara (Fraud dijetection) Kompanije dobijaju na hiljade zahtjeva za odobravanje kredita, osiguranja, itd. Nije lako utvrditi stepen rizika i njegovu zavisnost od velikog broja parametara. Upravljanje marketinkim aktivnostima Politika cena (npr. ne nuditi popust na one proizvode koji se ionako kupuju zajedno), politika ponude i promocija , dizajn kataloga, raspored proizvoda u prodavnici , planiranje i optimizacija asortimana proizvoda. Otkrivanje nepoznatih lidera prodaje(loss-leader analysis) Utvrditi proizvode i usluge (na kojima se inae ne zarauje mnogo) koje posredno navode klijente na one na kojima se dosta zarauje .

Na kraju treba istai da je od velikog znaaja izabrati bitna i korisna pravila od mnotva generisanih, a neodgovarajua i trivijalna izbaciti iz dalje analize.

4.8 Data mining nestrukturiranih podatakaUpravljnje nestruktuiranim podacima predstavlja jedan od najveih nereenih problema u oblasti informacionih tehnologija. Efikasni alati i tehnike koji pretvaraju strukturirane podatke u poslovnu inteligenciju ne funkcioniu na pravi nain kada su u pitanju nestrukturirani podaci. Neophodan je drugaiji pristup. Prema procjenama 85% svih poslovnih informacija se zasniva na nestrukturiranim podacima: u e-mailovima, operativnim zapisima, belekama iz call centara i operacija podrke, vijestima, korisnikim grupama, razgovorima, izvetajima, pismima, istraivanjima, uputstvima, marketing materijalima, istraivanjima, prezentacijama i Web stranicama. Nestrukturirani podaci oznaavaju one kompjuterske podatke ija je struktura takva da se ne mogu jednostavno obraditi i itati od strane maine. Ovaj termin ima razliita znaenja u zavisnosti od konteksta. U relacionim bazama to su podaci koji se ne mogu smjestiti u redove i kolone, odnosno moraju se skladititi kao veliki binarni objekti. To su: e-mailovi, tekstualni dokumenti (doc, pdf formati), JPEG i GIF fajlovi, MPEG fajlovi, prezentacije. Meutim, meta podaci o njima se mogu skladititi (npr. ime autora, vrijeme stvaranja, veliina itd.). Podaci sa odreenom strukturom se takoe smatraju nestrukturirani, ako ona nije odgovaarajua za procesiranje. HTML Web stranice su visoko strukturirane, ali usmjerene ka formatiranju, a ne zadovoljavaju potrebe za preduzimanjem kompleksnih akcija vezanih za sadraj.

18

4.8.1

Tekst data mining

Tekst data mining predstavlja traenje skrivenih paterna i ablona u tekstu sa prirodnim jezikom. Cilj je da se kroz analizu teksta izvade visoko-kvalitetne informacije za poslovne zadatke. Visoko kvalitetne informacije poseduju osobine relevantnosti, novosti i interesantnosti. Dobijaju se traenjem veza izmeu sadraja veeg broja tekstova. Tako dobijene informacije se povezuju da bi se oformila hipoteza o novoj informaciji. Uobiajeni zadaci tekst data mining-a su: klasifikacija, kategorizacija, klasterovanje teksta, otkrivanje objekata, utvrivanje povezanosti, sumarizacija dokumenata i modelovanje relacija. Postoje alati koji pretvaraju nestrukturirane podatke iz fajlova tekstualnog formata u XML. Ovaj proces se definie kao poveanje teksta, a sutina je da dobijene informacije nisu odvojene od tekstualnog toka nego ugraene u XML tagove. Tekst data mining predstavlja sublimaciju koncepata izdvajanja informacija, statistke analize i procesiranja prirodnog jezika. Proces izdvajanja je u stvari samo pronalaenje ve poznatih injenica, odnosno odvajanja interesantnih dokumenata. S druge strane tekst data mining je analiza seta dokumenata i pronalaenje informacija koje se ne nalaze ni u jednom pojedinanom dokumentu. Statistka analiza u tekst data mining-u daje numjeriku dimenziju tekstu: frekvenciju pojavljivanja rijei, dokumenata, duinu. Analiza prirodnog jezika i sadraja (content intelligence) obuhvata vaenje strukturnih elemenata, ablona i kodifikovanih informacija, smanjenje dimenzija. Leksiko procesiranje se odnosi na pronalaenje termina, normalizaciju rijei, jezikih konstrukcija, a semantiko na otkrivanje znaenja i imena objekata i optih zakljuaka i utisaka o tekstu. Tekstualna sekvenca se predstavlja kao teinski vektor koncepta (rijei, nizovi rijei, fraze). Takvi vektori se koriste za mjerenje slinosti izmeu dokumenata i tekstova. Ako posmatramo vektor kao liniju u viedimenzionalnom prostoru, ugao izmeu dva vektora pokazuje slinost izmeu dokumenata. Poto vektori karakteristika sadre najvanije termine, oni mogu da upravljaju izborom najvanijih reenica u dokumentu za potrebe kreiranja siea. Konano, ovi vektori pruaju osnovu za klasifikovanje i grupisanje dokumenata. Kao pogodna ilustracija metode moe posluiti analiza poziva u call centar, sljedee sadrine: Kvalitet usluga vae kompanije je veoma lo. Zvao sam 10 puta i niko se nije javio. Interesuje me kako da izvrim sinhronizaciju izmeu vaa dva softvera. Nakon izvrenog tekst data mining-a rezultati su: Tema: sinhronizacija Slab kvalitet usluge. Deset poziva. Nakon toga aurira se broj albi i poziva u vezi sa sinhronizacijom i preduzimaju odreene akcije.Treba naglasiti dosta rasprostranjenu primenu koncepta tekst mining-a u medicini. To se posebno odnosi na tehniku data mininga za utvrivanja veza, tj. asocijacija. Naime, kroz analizu izvetaja istraivanja, strunih lanaka o otkriima, itd., koji su tekstualnog formata i nestrulturirani, otkrivaju se zajednika pojavljivanja termina i entiteta. Na osnovu dobijenih rezultat izdvajaju se zakljuci o povezanosti simptoma i bolesti ili dejstva lekova.

Proces tekst data mining-a je dosta kompleksan i apstraktan tako da se njegov znaaj najbolje opisuje kroz praktine primjere. U nastavku su prezentovani rezultati dobijeni primenom Microsoft SQL Server 2005 na tekstualne fajlove. Prvi se odnosi na klasifikaciju tekstova. Skup podataka je manji podskup USENET postova grupe za novosti (newsgroup) koji su rasporeeni u pet razliitih grupa. Zadatak je da se izgradi model koji bi klasifikovao svaki post u svoju grupu. Kao izvor podataka se koristi tekstualni fajl (txt) u kome se nalazi vei broj lanaka, 19

odnosno postova od strane mnotva lanova. Pomou Data Transformation Service-a se vri punjenje baze tekstualnim podacima. Tabela u kojoj se nalaze lanci ima tri polja: ID, Newsgroup i ArticleText.Zatim se startuje Business Intelligence Development Studio i kreira novi integration services projekat. Za dalje procese kljunu ulogu ima OLE (Object Linking and Embeding) DB za data mining, koji se zasniva na COM (Component Object Model) infrastrukturi. On zadovoljava zahtev da se svim vrstama i formatima podataka pristupa na isti nain kao i onim u relacionim bazama. Zadrava funkcionalnost SQL-a i obezbjeuje interfejs za pristup drugim izvorima podataka. Definie data mining koncepte vezane za kreiranje modela, testiranje, trening, predvianje itd. Na slici je prikazan tok podataka (Data Flow) u izgradnji (SSIS) paketa sa nazivom rjenik.

Obj127

Grafikon 12. Data Flow

Ukratko, vri se ektrakcija termina na osnovu kolone Article Text, biraju se parametri (npr uestanost =10 i duina =2) i kasnije vri sortiranje. Na slian nain se kreira i paket sa nazivom vektori termina. Kao i u drugim data mining modelima podaci se dele na one za testiranje i trening. U algoritmima sa predvianjem se procenjuje vrijednost kolone News Group. Sljedee dve slike prikazuje rezultate.Obj128

Grafikon 13. Raspodjela po grupama

Drugi primjer je vezan za kompaniju koja prua usluge e-bankinga. Izvor podataka su zahtevi klijenata za izdavanjem lanskih kartica (member cards). Podaci su u tekstualnom formatu, gdje se kroz tekst navode osnovne karakteristike pojedinaca. Zadatak je da se izvade bitni termini i injenice na osnovu kojih bi se odredila, tj. predvidela odgovarajua kartica (zlatna, srebrna, bronzana) za klijenta. Nakon izvrenog data mining-a nad podacima iz zahtjeva, dolazi se do informacije da najvei uticaj na tip kartice imaju: brano stanje, godinji prihod, broj djece.Obj129

Grafikon 14. Zavisnot tipa kartice od ulaznih atributa Neke od oblasti u kojima se direktno primenjuje tekst data mining su: E-Community E-Learning E-Science E-Publishing

20

4.8.2

Web data mining

Iz definicije elektronskog poslovanja jasno se vidi da Internet predstavlja temelj svih poslovnih aktivnosti koje se obavljaju na ovaj nain. Podruje elektronskog poslovanja se razvija u trite na kome se milioni online transakcija generiu iz log fajlova i registracionih formi, i to svakog sata, u svakom danu. S toga je za razumjevanje koncepta data mining-a i primjene u elektronskom poslovanju, veoma bitno detaljno objasniti pojam Web data mining-a.

Web mining se definie kao ekstrakcija interesantnih i potencijalno korisnih obrazaca i skrivenih informacija iz aktivnosti i podataka vezanih za Web. U skladu sa oblastima Web mining-a razlikuju se tri tipa: otkrivanje sadraja na Web-u (Web Content Mining), otkrivanje strukture veza na Web-u (Web Structure Mining) i otkrivanje obrazaca u korienju Web-a (Web Usage Mining). 4.8.3

Visual data mining

Vizuelni data mining je kolekcija interaktivnih metoda koje podravaju istraivanje podataka na osnovu dimaniki podesivih parametara, da bi se videlo kako oni utiu na prezentovane informacije.

Ciljevi vizuelnog data mining-a su: jednostavnost, korisnika samostalnost, raspoloivost, mogunost ponovnog korienja i sigurnost. Ova oblast istraivake i inteligentne analize podataka se zasniva na integraciji kocepata: kompjuterske grafike, vizuelnog uporeivanja i vizuelne metode, informacione i naune vizualizacije podataka, vizuelne precepcije, kognitivne psihologije, diagrammatic reasoning, vizuelnog rasporeivanja podataka i 3D pomonog virtualnog okruenja za informacionu vizuelizaciju. Moe se definisati kao kombinacija automatizovanih analitikih metoda sa tehnologijama vizuelizacije. Koristi se za tumeenje rezultata dobijenih nekom od tehnika data mining-a, ali i kao interaktivna pomo u svakom od koraka u procesu otkrivanja znanja. Omoguava otkrivanje trendova i ablona koji bi se sigurno previdijeli koristei neke druge nevizuelne metode i zapaanje, bez prethodne pripreme. Fotografije i dijagrami se takoe esto koriste, najvie iz psiholokih razloga vizuelni elementi na dijagramu potpomau nae logike i analitike tokove misli. Naravno, pristup vizuelnog zakljuivanja ovoj oblasti data mining-a i machine learning obeava da e premostiti neke od tekoa na koje se nailazilo pri razumevanju informacija enkodovanih kvantitaivnim data mining metodama. Dalji razvoj ovog koncepta ide ka jaem povezivanju sa analitikim alatima i stvaranju tzv. jedinstvenog vizuelnog data mining okruenja

4.8.4

Multimedijalni data mining

Multimedijalni data mining je mining i analiza raznih tipova podataka, od fotografija, vidio snimaka do animacija. Ideja o data miningu podataka koji sadre razliite vrste informacija je glavni cilj multimedijalnog data mining-a. Poto multimedijalni data mining u sebi sadri i djelove tekst mining-a i hipertekst minig-a, logino je da su ove oblasti usko povezane. Mnoge metode za opis informacija u pomenutim oblastima mogu da se primjene i na multimedijalni data mining. Ova oblast je nova, ali se od nje mnogo oekuje u budunosti. Multimedijalne informacije, zbog svoje prirode koju ine velike kolekcije multimedijalnih objekata, moraju biti predstavljenje razliito od konvencionalnih formi podataka. Jedna od ideja je da se formira multimedijalna Data Cube koja e se koristiti za konverziju podataka multimedijalnog tipa u podatke ija forma je podesnija za analizu preko neke od klasinih data-minig tehnika, imajui i dalje u 21

vidu posebne karakteristike koje sadre ovi podaci. Ovo moe ukljuiti mjere i dimenzije tekstura, oblik, boju i druge relevantne atribute. Na multimedijalnim bazama podataka mogu se izvriti analize: klasifikacija, asocijacija, grupisanje, traenje slinosti, itd.Audio data mining je jo jedna oblast multimedijalnog data mining-a koja se neprestano razvija i dobija izuzetan znaaj. Ideja je da se koristi audio signal kako bi se pronali abloni u podacima. Osnovna prednost audio data mining-a je u tome to se korienjem tehnike kao to su vizuelni data mining, moe zasigurno doi do otkrivanja interesantnih ema prilikom posmatranja grafike, ali to zahtjeva veliku koncetraciju i moe postati monotono. Meutim, kada se podaci prikau kao zvuk, mogue je trasformisati ablone u ritam, ton, melodiju i harmoniju i zadrati panju klijentu kako bi se okrilo, ili saoptilo neto zanimljivo i vano. Ne samo da je mogue grupsati melodije, bazirajui se na ablonima koji se ponavljaju u taktovima, ve se takoe mogu grupisati i stilovi, zasnovani na tonu, tempu, ili nekom instrumentu.

Neki od trendova razvoja data mining-a u budunosti su: Ugraeni data mining. Sve vie poslovnih aplikacija e koristiti prednosti Data mining-a, posebno za dijelimina predvianja budunosti. Npr. pri online prodaji se moe koristiti za preporuivanje proizvoda u realnom vremenu. Data mining paketi za vertikalne aplikacije. U novije vrijeme skoro svi proizvoai baza podataka u aplikacije ugrauju podrku za data mining. Potreba za specijalizovanim data mining tehnikama i reavanje problema u razliitim sektorima sve vie raste. Naprimjer, u oblasti zdravstva su neophodne posebne tehnike za analizu DNK, u oblasti aplikacija odgovornih za sigurnost mree su neophodni kontinualni trenirajui algoritmi, dok su na Web-u neophodne netradicionalne tehnike za analizu nestruktuiranih podataka. PredictiveModelMarkupLanguage. Skoro svi veliki proizvoai: Microsoft, Oracle, IBM, SAS prave razliite varijante data mining-a, ali su svi oni dio iste grupe: data mining group. Podravaju PMML, kao osnovni format. PMML prua mnoge prednosti u razmeni i razvoju modela. To je u stvari XML dokument, to znai da ga svaki korisnik moze upotrebiti, izmjeniti.

2. Oracle Warehouse BuilderDa bi izgradili skladite podataka potrebno je, osim dizajna modela podataka, napisati i skripte, proedure, programe u raznim programskim jezicima (SQL, PL/SQL, ) ovisno o potrebi. Za to nam je potrebno odredeno vrijeme kojeg ionako uvijek imamo premalo. Da bi olakali izgradnju skladita podataka, mnogi proizvoai su izradili programske pakete u kojima se moe jednostavno i lako, koristei grafiki interfejs, napraviti logiki model i definirati skripte. Aplikacija, onda, umjesto nas generira kod po zadanim parametrima. To predstavlja veliku utedu u vremenu razvoja i implementacije skladita podataka. Jedan od takvih programskih 22

paketa je i Oracle Warehouse Builder (skraeno OWB). U ovom poglavlju u opisati osnovne elemente i filozofiju OWB-a, kao i njegove funkcije i nain rada. 2.1. Uvod u Oracle Warehouse Builder Oracle Warehouse Builder je programski paket koji je napravila Oracle Corporation. Trenutno najnovija inaica je 3i. OWB je programski paket koji slui za definiranje logikog modela, implementaciju skladita podataka kao i za nadgledanje i kontrolu rada skladita podataka. To je integrirani skup programskih rjeenja koji nam omoguava lake dizajniranje i izgradnju skladita podataka, ali i kasniju kontrolu rada i nadgledanje skladita podataka. OWB programski paket sastoji se od OWB repozitorija, OWB klijenta i OWB Runtime-a. Osim tih proizvoda za potrebe skladita podataka potreban nam je i Oracle Enterprise Manager, te neki alat za generiranje izvjetaja. Da bi instalacija bila uspjena potrebno je instalirati ove produkte pravilnim redoslijedom. To znai da se prvo treba instalirati baza (ako ve ne postoji), zatim se instalira repozitorij u tu odgovarajuu bazu podataka, te se klijent instalira na korisnikov raunar(moe biti i vie korisnika koji rade u OWB-u). OWB Runtime se instalira zadnji i on slui za poslove nadgledanja.Korisnik pristupa repozitoriju preko OWB klijenta. OWB klijent predstavlja aplikaciju u kojoj korisnik obavlja sav posao, te sprema taj posao u repozitorij. Prilikom pokretanja OWB klijenta prvi put potrebno je dati informacije o imenu raunara na kojem je repozitorij, broju porta, te Oracle SID. Takoer je potrebno unijeti svoje korisniko ime i lozinku. Prilikom pokretanja je takoer potrebno izabrati projekt na kojem emo raditi (prilikom prvog pokretanja postoji samo prazan projekt nazvan My Project koji se moe odabrati), ali se kasnije moe prebaciti na drugi projekt. Ako smo dali dobre podatke otvara se glavni prozor OWB klijenta koji izgleda kao na slici 1.

23

Slika 1. Glavni prozor Oracle Warehouse Buildera

24

Sva akcija korisnika se odvija u grafikom interfejsu koje je standardno za dananje aplikacije. Korisnikove akcije i promjene koje on unese na ekranu, ne zapisuju se automatski u repozitoriju ve je te promjene i akcije potrebno potvrditi pritiskom na tipku Commit. Tek tada napravljene promjene postaju vaee i unose se u repozitorij.

2.2.Osnovni elementi Oracle Warehouse Buildera Osnovni element Oracle Warehouse Buildera je projekt. Projekt se definira kao struktura repozitorija u kojoj se uvaju formalni opisi koji definiraju skladite podataka i u kojoj OWB sprema generirane skripte koritene pri implementaciji i uitavanju podataka. Projekt je, dakle, osnovna jedinica u Oracle Warehouse Builderu. Svaki projekt se sastoji od jednog ili vie izvorinih modula (engl. soure module) i jednog ili vie odredinih ili skladinih modula (engl. target module, warehouse module). Odredini ili skladini modul je mjesto unutar OWB projekta koje organizira i sprema definicije potrebne za logicku shemu skladita. On sadri definicije za dimenzije, tablice injenica, materijalizirane poglede, obine poglede, tablice, te za mapiranja i transformacije. Izvorini modul je mjesto unutar OWB projekta koje organizira i sprema definicije relacijskih baza ili obinih datoteka (engl. flat files) koje slue kao izvori podataka za skladite podataka. Definicije relacijskih baza se mogu uvesti (engl. import) iz bilo koje baze podataka (ne samo Oracle-ove). OWB koristi takozvane softverske integratore (engl. software integrators) za itanje definicija i izvlaenje podataka iz izvora. Ovisno o izvoru koristit e se odgovarajui integrator. 2.3. Nain rada Oracle Warehouse Buildera Filozofija i nain rada Oracle Warehouse Buildera se u poetku ini neobinim, ali s vremenom sam shvatio da je nain rada potpuno logian i u skladu s dananjim trendovima. Osnovni princip rada je da je izgradnja skladita podataka podjeljena u tri dijela. Prvi dio je potpuna logika definicija koja osim definicije logikog modela obuhvaa i logicku definiciju mapiranja podataka iz izvora. Drugi dio predstavlja konfiguraciju svih objekata definiranih na logickoj razini. Zavrni dio predstavlja generiranje i pokretanje skripti za stvaranje logikog modela (dimenzija, 25

tablica injenica,), te generiranje i pokretanje skripti za izvlaenje, transformaciju i uitavanje podataka iz izvora u skladite podataka. Logika definicija zapocinje stvaranjem izvorinih i odredinih modula. Nakon definiranja izvorinog modula, potrebno je uvesti definicije relacijske baze koja nam slui kao izvor podataka. Ako imamo vie izvora, potrebno je stvoriti vie izvorinih modula (za svaki izvor podataka, potreban nam je jedan izvorini modul). Nakon definiranja odredinog modula, potrebno je definirati, unutar samog modula, dimenzije, tablice injenica, materijalizirane poglede, prema naem logickom modelu podataka. Takoer unutar odredinog modula definiramo svoje transformacije i mapiranja. Osim naih transformacija u OWB-u ve postoje standardne funkcije i proedure koje moemo koristiti u svojim mapiranjima. Nakon to smo kreirali definicije objekata potrebnih za logiki model, nakon to smo kreirali vlastite transformacije i mapiranja, i uitali definicije izvora gotovi smo s logickom definicijom. Logika definicija je zapisana u repozitorij, ali jo nije stvoren nijedan objekt, nijedna tablica, niti je stvorena ijedna skripta. Da bi smo stvorili fiziku instanu naeg skladita prvo je potrebno konfigurirati fizika svojstva svakog modula, objekta, tablice, svakog mapiranja i operatora unutar mapiranja. Na taj nain definiramo kako e se na logiki model fiziki kreirati, kako e se nae skripte izvoditi itd. Poslije konfiguracije fizikih parametara potrebno je generirati skripte za kreiranje raznih tablica, te generirati skripte za izvlaenje, transformaciju i uitavanje podataka iz izvora u skladite. Generirane skripte zatim treba fiziki spremiti u bazu podataka i nakon toga pokrenuti. Na taj nain se stvara fizika instanca skladita podataka i uitavaju se podaci u njega. Uitavanjem podataka skladite podataka je izgraeno. 2.4.Izgradnja logikog modela skladita u Oracle Warehouse Builderu Definicija logikog modela u Oracle Warehouse Builderu se sprema u odredini modul (target module, warehouse module), te prije kreiranja te definicije potrebno je napraviti odredini modul u koji emo spremiti na logiki model. 2.4.1. Stvaranje odredinog modula 26

Za kreiranje svega, pa tako i odredinog modula, u OWB- u postoje takozvani wizardi. Wizardi nas vode korak po korak u procesu stvaranja, od nas zahtjevaju potrebne podatke, te na osnovu tih podataka stvaraju traeni objekt. Da bi kreirali odredini modul potrebno je pokrenuti New Module Wizard. On se pokree tako da se odabere projekt u koji elimo spremiti taj modul, te pritiskom desne tipke mia dobijemo padajui izbornik, na kojem odaberemo opciju Create Module (Slika 2.).

27

Slika 2. Pokretanje New Module Wizarda Pokretanjem New Module Wizarda otvori se poetni prozor koji sadri kratki uvod i opis koraka kroz koje treba proci, te koja nas upozori koje emo sve podatke trebati dati. (Slika 3.).

28

Slika 3. Uvodni prozor New Module Wizarda U slijedeem koraku moramo imenovati modul, odrediti da li je on odredini ili izvorini modul, odrediti mu namjenu (za razvoj, za provjeru kvalitete ili za produkciju), te po elji moemo ukratko opisati modul. (Slika 4.). U naem sluaju odredili smo da je odredini modul i da mu je namjena razvoj.

Slika 4. New Module Wizard: Korak 1

29

Sljedei korak je odrediti koja e aplikacija koristi ovaj modul, te koji e se softverski integrator koristiti za pristupanje podacima. Ovi podaci se unose tako da se izabere jedna od ponudenih opcija sa liste. (Slika 5.).

Slika 5. New Module Wizard: Korak 2 Trei korak u stvaranju odredinog modula je davanje informacija o linku prema bazi podataka. Ovaj korak nam treba samo ako emo importirati definicije iz neke druge baze podataka to u nama u ovom sluaju ne treba jer emo sami definirati svoj logiki model. Stoga preskaemo ovaj korak. Zavrni prozor (slika 6.) nam prikazuje saetak svih informacija koje smo unijeli tako da moemo jo jednom provjeriti tanost i da li je to ono to smo eljeli. 30

Zatvaranjem New Module Wizarda, OWB kreira odredini modul u naem projektu te se ime modula pojavljuje u grani MODULES.

Slika 6. Zavrni dijalog New Module Wizarda. Vano je napomenuti da iako smo kreirali odredini modul podaci o tome jo nisu unijeti u repozitorij. Da bi potvrdili napravljeni posao potrebno je pritisnuti tipku Commit koja se nalazi u gornjem desnom kutu glavnog ekrana OWB-a. Pritiskom na tipku Commit spremamo napravljeni posao u repozitorij.

2.4.2. Stvaranje definicija za dimenzijeKreiranjem odredinog modula imamo mjesto gdje emo spremati definicije naeg logikog modela. Sljedei korak je kreiranje definicija za dimenzije. OWB 31

zahtjeva da se prvo definiraju dimenzije, potom tablice injenica. Razlog je jasan. Tablice injenica referenciraju primarne kljueve dimenzija pa je prvo potrebno kreirati primarni klju, a tek onda referencu tog kljua. Kreiranjem definicije za dimenziju ustvari kreiramo dvije definicije: jednu za dimenzijski objekt, a drugu za dimenzijsku tablicu. Dimenzijski objekt se sastoji od niza razina agregacije (engl. level of aggregation, level) i hijerarhija nad tim razinama agregacije. Razina agregacije predstavlja razinu grupiranja (npr. dan, sedmica, mjesec, godina su razine agregacije). Hijerarhije se definiraju nad razinama i definiraju roditelj-dijete odnose izmedu njih. Hijerarhije opisuju kako se razine agregacije grupiraju jedna u drugu (Primjer hijerarhije je: dan se grupira u sedmica, sedmica se grupira u mjesec, mjesec se grupira u godinu). Unutar jednog dimenzijskog objekta moe biti definirano i vie od jedne hijerarhije. Prilikom kreiranja hijerarhije, OWB kreira identifikacijski klju za svaki nivo u toj hijerarhiji i jedinstveni klju (engl. unique key) za najnii nivo agregacije. OWB koristi identifikacijske kljueve tokom faze generiranja kako bi stvorio DDL skripte za kreiranje dimenzijskog objekta. Zbog postojanja tih identifikacijskih kljueva potrebno je jako paziti prilikom kreiranja definicija za tablicu injenica. Naime kada se odreduje koji atributi iz dimenzije e biti strani kljuevi u tablici injenica, OWB ponudi osim jedinstvenog kljua i identifikacijske kljueve kao kandidate za strane kljueve. Medutim samo jedinstveni klju moe biti strani klju u tablici injenica. Da bi kreirali definiciju za dimenziju potrebno je pokrenuti New Dimension Wizard. Postoji jo i New Time Dimension Wizard koji slui za kreiranje definicija za dimenzije vremena. I jedan i drugi wizard se pokreu iz Warehouse Module Editora (slika 7.). Do njega se dolazi dvostrukim pritiskanjem lijeve tipke mia na ime odredinog modula. Kao to se vidi na slici on ispod imena modula sadri brojne grane. Svaka od tih grana sadri definicije posebnih objekata (dimenzija, tablica injenica, mapiranja, materijaliziranih pogleda, itd.). Da bi pokrenuli New Dimension Wizard potrebno je oznaiti granu DIMENSIONS i pritiskom desne tipke mia otvoriti padajui izbornik. Iz tog izbornika potrebno je odabrati Create Dimension i tako pokrenuti New Dimension Wizard. Pokretanjem New Dimension Wizarda otvara se uvodni prozor koji nam ukratko opisuje korake u procesu kreiranja definicije za dimenziju, te nas upozorava na podatke koje emo trebati unijeti. Prvi korak je unoenje podataka o imenu dimenzije, 32

prefiksu koji e se upotrebljavati prilikom imenovanja kljueva, te opisa dimenzije koji nije obavezan. (slika 8.).

Slika 7. Warehouse Module Editor

33

Slika 8. New Dimension Wizard: Korak 1 Sljedei korak je definicija razina agregacije. Za svaku razinu agregacije potrebno je definirati njeno ime, prefiks i eventualno opis. Svaka dimenzija mora imati barem jednu razinu agregacije.

34

Slika 9. New Dimension Wizard: Korak 2 Trei korak trai da se za svaku razinu agregacije definiraju atributi te razine. Potrebno je definirati ime atributa, tip podataka, te opis.

35

Slika 10. New Dimension Wizard: Korak 3 Sljedeci korak je definiranje hijerarhija. Takoer je potrebno unijeti ime, prefiks i opis za svaku hijerarhiju.

36

Slika 11. New Dimension Wizard: Korak 4 Peti korak je definiranje odnosa razina za svaku hijerarhiju. Razine unutar te hijerarhije se slau na listu i to tako da je na vrhu liste najvia razina agregacije, a na dnu najnia.

Slika 12. New Dimension Wizard: Korak 5 Zavrni dijalog prikazuje saetak unesenih informacija, tako da moemo jo jednom provjeriti tanost danih informacija. Zatvaranjem New Dimension Wizarda OWB kreira definiciju za dimenzijski objekt i dimenzijsku tablicu, umee te definicije 37

u odredini modul i ime dimenzije se pojavljuje u navigacijskom stablu Warehouse Module Editora. Na taj nain smo kreirali definiciju za jednu dimenziju. Postupak ponavljamo za svaku potrebnu dimenziju. 2.4.3. Stvaranje definicija za tablice injenica Kad smo stvorili sve dimenzije, moemo pristupiti kreiranju definicija za tablice injenica. Postupak je jako slican kreiranju dimenzija, samo su podaci koje trebamo pruiti razliciti. Dakle, definiciju za tablicu injenica kreiramo pomou New Fact Wizarda kojeg pokreemo iz Warehouse Module Editora. Pokretanjem New Fact Wizarda otvara se poetna stranica na kojoj se nalazi kratki opis koraka koji nas ekaju kao i upozorenje koje podatke trebamo dati. Prvi korak u kreiranju tablice injenica je imenovanje tablice injenica i davanje kratkog opisa (slika 13).

38

Slika 13. New Fact Wizard: Korak 1 Sljedei korak je definiranje stranih kljueva koji e sacinjavati primarni klju tablice injenica. U ovom koraku treba jako paziti da se za strane kljueve odaberu samo jedinstveni kljuevi iz dimenzija jer jedino oni odgovaraju svrsi.

Slika 14. New Fact Wizard: Korak 2 39

Trei korak je definiranje injenica koje emo pratiti (engl. facts, measures). U ovom koraku definiramo atribute koji predstavljaju injenice, te njihove tipove podataka.

Slika 15. New Fact Wizard: Korak 3 Zavrni korak je definirati setove atributa koji e se upotrebljavati u tablici. Postoje tri vrste setova: predefinirani, korisnicki definirani i tip most. Ja se nisam previe bavio setovima atributa, ve sam u svakoj tablici ostavio samo one predefinirane.

40

Slika 16. New Fact Wizard: Korak 4 Zavrni prozor je kao u svakom wizardu saetak danih informacija kako bi mogli jo jednom provjeriti tanost informacija.

41

5 6 7

Slika 17. New Fact Wizard: Zavrni dijalog Zatvaranjem New Fact Wizarda, OWB kreira tablicu injenica na osnovu danih informacija. Kreiranjem odgovarajuih tablica injenica na logiki model je gotov. On je unesen u repozitorij (nakon pritiska tipke Commit). Kreirali smo definicije za dimenzije i tablice injenica i te definicije postoje u repozitoriju, medutim jo nijedna tablica nije fiziki implementirana. Taj proces se obavlja u fazi generiranja skripti i pokretanja tih skripti.

42

2.4.4. Stvaranje

izvorinog

modula

i

uitavanje

definicija

izvorapodatakaDosad smo kreirali logiki model, ali jo uvijek nismo definirali izvore podataka. Da bi spremili definicije za izvore podataka potreban nam je izvorini modul (slino kao to nam je potreban odredini modul za spremanje definicija logikog modela). Proces kreiranja izvorinog modula je jako slican procesu kreiranja odredinog modula. Koristi se isti wizard. Razlika je samo u informacijma i opcijama koje dajemo wizardu. Jedina vea razlika je ta da za izvorini modul moramo definirati valjani link prema bazi podataka koja e nam sluiti kao izvor podataka (Slika 18). Taj link nam omoguuje da iz te baze ocitamo definicije tablica, kljueva, i ostalih relevantnih objekata koji nam trebaju u procesu mapiranja. Kada kreiramo izvorini modul njegovo ime se pojavljuje u naem projektu pod granom MODULES (isto kao i odredini modul). Takoer ako imamo vie razlicitih izvora podataka, potrebno je za svaki izvor stvoriti jedan izvorini modul.

43

Slika 18. New Module Wizard: Kreiranje linka prema bazi podataka Nakon kreiranja izvorinog modula potrebno je u njega uitati definicije iz izvorine baze podataka. Uitavanje se obavlja izborom opcije Import iz padajueg izbornika. Na taj nain nam unutar OWB postaje vidljiva struktura izvorine baze podataka te nam to omoguava izradu mapiranja.

8 9 3.ZAVRNA RAZMATRANJA

U narednih nekoliko godina poslovne informacije e postati vie a krajnji korisnici irom kompanije e relativno jednostavno moi da prave upite i poglede nad specifinim segmentima poslovanja i da imaju uvid u za njih kljune performanse. Mogunosti i kvalitet rjeenja aplikacija poslovne inteligencije e rasti istom brzinom kao i zahtevi potroaa. Termini poslovna inteligencija, data mining i sl. e polako izlaziti iz upotrebe, a zamenie ih poslovne akcije koje e automatski pokretati sistemi sa korporativnim predvianjem. Umjesto ogranienog broja tehnikih analitiara, ove tehnologije e biti primenjene na svim nivoima. Danas se javljaju sve kompleksniji zahtevi za projektovanjem i implementacijom adekvatnih informacionih sistema i tehnologija kao infrastrukturne osnove svih procesa u poslovnom sistemu. Globalni trendovi, dinaminost, turbulentnost primoravaju poslovne organizacije na visok stepen efikasnosti, adaptilnosti, integracije i koordinacije aktivnosti. U tom kontekstu moe se govoriti o poslovnoj inteligenciji kao realizaciji potrebe za dodatnim, neotkrivenim, neopaenim znanjem i mogunostima.demokratske, U cilju ilustracije, prikazan je i primjer kreiranja kocke podataka i data mining modela nad realnim podacima iz baze podataka informacionog. Na osnovu kreiranih modela izvrena je analiza dobijenih podataka iz kojih se dolazi do raznovrsnih zakljuaka. Ono to je postignuto ovim radom ogleda se prije svega u: Prikazu metodolokog postupka u projektovanju Data mining sistema. Prikazu problema koji se javljaju i nainima rjeavanja istih.

Prikazu rada Oracle Warehouse Buildera

44

10

4.LITERATURA

[1] Mahesh Raisinghani, Business Intelligence in the Digital Economy: Opportunities, Limitations and Risks, Idea Group Publishing, 2004. [2] Joerg Reinschmidt, Allison Francoise, Business Intelligence Certification Guide, e-book, IBM Redbooks, 2001. [3] Bojan iri, Poslovna inteligencija, Data status, 2006. [4] Grupa autora, Data Modeling Techniques for Data Warehousing, e-book, IBM Redbooks, 2001. [5] ZaoHui

Tang and Jamie Mac Lennan, Data Mining with SQL Server, e-book, 2005.

[6] Seth Paul, Jamie MacLennan, Zhaohui Tang, Scott Oveson, Data Mining Tutorial, Microsoft Corporation, June 2005.

[7] Books On Line, help uz Microsoft SQL Server 2005, Microsoft Corporation, 2005.[8] Dejan Banzi, Primena poslovne inteligencije u elektronskom poslovanju, diplomski rad, FON, 2006

[9] R. Kimball, Data Warehouse Toolkit , John Wiley & Sons, 2000;

11

[10] Milija Suknovi, Darko Krulj, Milutin upi, Projektovanje i razvoj skladita podataka.

[10] David Hand, Heikki Mannila and Padhraic Smyth, Principles of Data Mining, ebook, 2001. [11] Peter Pyungchul Kim, A Tutorial for Text Classification using SQL Server 2005 Beta2 Data Mining. [12] Vinja Ljubeti, Upravljanje znanjem primenom alata poslovne inteligencije, magistarski rad, Zagreb, 2004. [13] Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth, From Data Mining to Knowledge Discovery in Databases [14] Geiwitz, Roger, eBusiness Intelligence White Paper, BillInmon.com, February 2001 [15] Panian .,Klepac G.,Poslovna inteligencija,Masmedia,Zagreb,2003.

45

[16 ] Jiawei Han and Micheline Kamber,Intelligent Database Systems Research Lab School of Computing Science ,Simon Fraser University, Canada. [17] http://www.sqlserverdatamining.com. [18] http://www.dwinfocenter.org. [19] http://www.rkimbal.com/html/articles.html. [20] http://www.dmreview.com/articles.htm. [21] http://www.skladitenje.com [22] http://en.wikipedia.org/wiki/ [23] http://www.thearling.com/ [24] http://www.ibm.com/articles

12

[25] http://forums.microsoft.com/

46