Poslovna inteligencija

Embed Size (px)

Citation preview

1. UNIVERZITET U BEOGRADU FAKULTET ORGANIZACIONIH NAUKA

PRIMENA POSLOVNE INTELIGENCIJE U ELEKTRONSKOM POSLOVANJUDIPLOMSKI RAD

MENTOR: prof.dr. Boidar Radenkovi

STUDENT: Dejan Banzi 456/97

Beograd, 2006.

Sadraj:

UVODSvako preduzee predstavlja dinamiki sistem, koji karakteriu njegova trenutna stanja kao i stanja u koja sistem moe da pree u budunosti. Ova stanja izraena su pomou velike koliine podataka, koji se registruju u razliitim vrstama informacionih sistema, dokumentima, poslovnim knjigama i drugim nosiocima informacija. Obrada ovih podataka, pronalaenje korelacije izmeu njih i njihova transformacija u informacije predstavlja znaajan razvojni potencijal. Informacije su kljuni faktor za donoenje odluka na bilo kom nivou od operativnog, preko srednjeg do stratekog nivoa odluivanja, te u tom smislu njihovo adekvatno generisanje i interpretacija u znaajnoj meri utie na izbor upravljakih akcija menadmenta preduzea. Elektronski nain

poslovanja postaje dominantan u odnosu na dosadanje metode, a produktivnost, efikasnost i efektivnost, kao merilo uspenosti odvijanja poslovnih procesa, u direktnoj su vezi sa kvalitetom i stepenom implementiranih informacionih tehnologija koje podravaju te procese. Informacione tehnologije ine infrastrukturnu osnovu za odvijanje procesa u poslovnom sistemu.Poslovna inteligencija (Business Intelligence) je deo informacionog sistema organizacije namenski razvijen da omogui upravljanje performansama organizacije. Poslovna inteligencija je oblast u okviru informacionih tehnologija, iji je cilj da ukupne informacione potencijale preduzea stavi u funkciju donoenja najkvalitetnijih odluka, kako bi se ostvarili utvreni strateki ciljevi preduzea. To je kompleksna oblast koja ukljuuje razne vrste tehnologija i pristupa iz oblasti informacionih tehnologija, menadmenta, statistike i matematike. Osnovni cilj ovog rada je da definie pojam poslovne inteligencije, prikae osnovne karakteristike i predstavi naine integracije poslovne inteligencije u procese poslovanja. Pored toga, rad se bavi i detaljnim prikazom osnovnih tehnika i alata poslovne inteligencije, i prikazom metodologije za njihovu implementaciju. U prvom poglavlju dati su opti podaci o informacionim sistemima poslovanja, i uzrocima njihove primene. Takoe, prezentovane su i pojedine vrste ovih sistema i prikazan je njihov evolutivni tok. Drugo poglavlje bavi se optim pojmom poslovne inteligencije.U njemu su date definicije pojma poslovne inteligencije, opisane su tehnike za integraciju poslovne inteligencije u procese poslovanja i predstavljeni tipovi aplikacija poslovne inteligencije koji se koriste u savremenom poslovanju. Tree poglavlje pored definicija data warehouse-a, uvodi i obrauje pojmove OLAP-a (On-Line Analitical Processing) i kocki podataka (Data cubes). Osim navedenog dat je i prikaz arhitekture data warehouse sistema uz detaljan opis svih komponenti iz kojih se ovaj sistem sastoji. etvrto poglavlje ovog rada odnosi se na data mining, sigurno jednu od najkompleksnijih i najee upotrebljavanih tehnika poslovne inteligencije. Ovo poglavlje polazi od pojma otkrivanja znanja i opisuje njegovu vezu sa data mining-om. Zatim daje prikaz razvoja data mining-a, definie njegov pojam i metodologiju, i na kraju ukratko predstavlja tehnike data mining-a nestrukturiranih podataka kao to su text mining, web mining, i multimedijalni data mining. U finalnom petom poglavlju, u cilju ilustracije mogunosti praktine primene poslovne inteligencije, odnosno njenih tehnika u domenu elektronskog obrazovanja, dat je opis alata poslovne inteligencije koji se nalaze u SQL Server Business Intelligence Development Studio-u, kao i primer korienja datih alata za generisanje data mining modela nad konkretnom bazom podataka koja je dobijena iz aplikacije za uenje na daljinu "Moodle", i bazom podataka informacionog sistema poslediplomskih studija Fakulteta Organizacionih Nauka u Beogradu.

1. INFORMACIONI SISTEMI POSLOVANJAU dinaminom okruenju kakvo je danas, od kljunog je znaaja za preduzee da irokom krugu poslovnih korisnika obezbedi efikasan, brz, jeftin i jednostavan pristup potrebnim informacijama. To podrazumeva i obavezno prisustvo informacionih tehnologija u svim poslovnim procesma preduzea. Kao to je ve reeno informacione tehnologije ine informacionu infrastrukturnu osnovu za odvijanje poslovnih procesa u poslovnom sistemu, a rezultati poslovanja direktno su proporcionalni kvalitetu i stepenu

implementiranih informacionih tehnologija. Dakle, osnovni cilj primene IT (Informacionih Tehologija) jeste poveanje produktivnosti, efikasnosti i efektivnosti odvijanja poslovnih procesa. Prvi korak u realizaciji ovog cilja je izbor odgovarajueg informacionog sistema iz kategorije ERP-ova (Enterprise Resource Planning). Informacioni sistemi iz ove kategorije obuhvataju informacionu podrku za veinu poslovnih funkcija na svim nivoima, od operativnog do stratekog. ERP reenja spadaju u kategoriju operacionih transakcionih sistema, i obezbeuju informacionu podrku tekuem poslovanju. Kao vrsta nadogradnje ERP sistema javljaju se sistemi za podrku odluivanju (DSS Decision Support Systems), koji su baziani na ERP podacima, istorijskim podacima i mnogim drugim izvorima podataka u preduzeu i van njega. Ovi sistemi koriste posebne vrste baza podataka koje se nazivaju data warehouse, u kojima su podaci organizovani na nain koji je pogodan za odvijanje analitikih procesa nad velikim skupovima podataka. Data warehouse baze podataka sastoje se od data mart-ova, logikih segmenata koji se odnose na odreene segmente poslovanja. Pristup koji se primenjuje kod ovakvih informacionih sistema naziva se OLAP (On-Line Analitical Processing), nasuprot OLTP (On-Line Transaction Processing) pristupu koji je vezan za transakcione baze podataka, o emu e biti vie rei u narednim poglavljima ovog rada. Kako su informacione tehnologije predmet permanentnog i sistematskog usavravanja i razvoja, to i sistemi za podrku odluivanju evoluiraju i danas predstavljaju integralni deo sistema poslovne inteligencije (BI - Business Intelligence) i sistema za upravljanje performansama sistema (CPM - Corporate Performance Management).

1.1

Evolucija poslovnih informacionih sistema

Razvoj poslovnih informacionih sistema od poetka primene do danas, odvijao se u tri globalne faze: Host bazirani upiti Data warehouse Poslovna inteligencija (Busness Intelligence)

1.1.1 Host bazirani upiti Prvi informacioni sistemi koji su se koristili, bili su bazirani na batch aplikacijama, koje su korisniku obezbeivale potrebnu koliinu informacija. Izlazi, odnosno rezultat obrade ovakvih informacionih sistema bile su uglavnom velike koliine podataka na papiru, koje su korisnici sami morali da analiziraju i na osnovu toga donesu odgovarajue zakljuke i reenja poslovnih problema. Ovi sistemi nisu vrili bilo kakvu analizu podataka, ve su jednostavno iz skladita podataka izdvajali podatke na osnovu postavljenih upita. Prednost ovakvih sistema je relativno brz pristup podacima, dok je sa druge strane glavni nedostatak prevelika nezgrapnost ogromne koliine podataka kao i veoma sloeni upiti za pristup transakcionim bazama podataka. Upravo zbog toga ove informacione sisteme koristilo je uglavnom tehniko osoblje koje je imalo potrebno znanje i iskustvo u radu sa raunarima, Sa druge strane menaderi su dobijali svoje informacije posredno, od tehnikog osoblja jer sami nisu bili u stanju da efikasno koriste ove sisteme.

Poslovna inteligencija

Data Warehouse

HOST SISTEMI

Slika 1 Evolucija poslovnih informacionih sistema

1.1.2 Data warehouse Data warehouse moe da se definie kao: kolekcija informacija organizovanih tako da se mogu lako analizirati, izdvojiti, sintetizovati i na drugi nain koristiti da bi se razumela sutina tih informacija. Data warehouse donosi znaajne mogunosti i prednosti u odnosu na prvu generaciju informacionih sistema: Data warehouse je dizajniran da neprekidno zadovoljava potrebe poslovnih korisnika, a ne samo dnevne operativne potrebe. Data warehouse informacija je ista, jasna i konzistentna, bez potrebe da je tehniko osoblje intepretira u oblik koji korisnik moe da razume. Sadri i istorijske informacije, a ne samo informacije o tekuem poslovanju Znaajno je unapreen korisniki interfejs sa pojavom alata za podrku odluivanju.

Najvea mana ovih informacionih sistema je to to su oni uglavnom usredsreeni na tehnologiju umesto na poslovne probleme. 1.1.3 Poslovna inteligencija (BI - Business Intelligence) Sistemi poslovne inteligencije su usmereni ka poboljanju mogunosti za pristup i distribuciju informacija, kako onima koji informacije prave, tako i onima koji ih koriste. Ovo omoguuju napredni grafiki i web orijentisani OLAP sistemi, koji su u mogunosti da obrade i analiziraju velike koliine podataka. Informacije koje se nalaze u data warehouse-u potiu uglavnom iz transakcionih baza podataka ili iz eksternih izvora, kao i sa web servera, korporativnog intraneta, Interneta pa ak i papira na stolovima zaposlenih. Sistemi poslovne inteligencije moraju da budu projektovani tako da podre pristup svim oblicima informacija a ne samo data warehouse sistemu.

Izvori podataka ERP e-commerce eksterni izvori

Data Warehouse

Korisniki alati OLAP Statiki i dinamiki izvetaji Balanced scorecard

ETL (Extract, Transform, Load)

Kocka podataka

Data mining

Slika 2 Konceptualna arhitektura poslovne inteligencije

Osnovne karakteristike tree generacije poslovnih informacionih sistema su: Fokusirani su na pristup i distribuciju poslovnih informacija krajnjim korisnicima, i pruaju podrku tvorcima, kao i korisnicima informacija. Podravaju pristup svim vidovima poslovnih informacija, ne samo informacijama koje se nalaze u data warehouse-u.

2. POSLOVNA INTELIGENCIJA

2.1

Definicija poslovne inteligencije

Poslovna inteligencija je najee korieni termin za oznaavanje kompjuterske podrke odluivanju u organizaciji. Ona je deo informacionog sistema organizacije namenski razvijen da omogui upravljanje performansama organizacije. Upravljanje performansama organizacije zahteva sveobuhvatan i blagovremen uvid u pokazatelje funkcionisanja organizacije kako bi donoene odluke bilo pouzdano i precizno. Ne postoji univerzalni nain definisanja poslovne inteligencije (business inteligence), pa je stoga razliiti autori definiu na razliite naine. Jedna od najee korienih i optijih definicija je sledea: "Poslovna inteligencija je takvo korienje podataka koje vodi ka donoenju boljih poslovnih odluka. Ono se odnosi na pristup, analizu i otkrivanje novih mogunosti. Poslovna inteligencija je umetnost sticanja poslovne prednosti na osnovu podataka. Postoji jo nekoliko definicija raznih autora : a) Larissa T. Moss, Shaku Atre : ,,Poslovna inteligencija nije ni proizvod niti sistem. Ona predstavlja arhitekturu i kolekciju integrisanih operativnih aplikacija i aplikacija za podrku odluivanju kao i baze podataka koje poslovnoj organizaciji omoguava lak pristup podacima. " b) Steve Mutfitt : ,,Poslovna inteligencija je nain dostavljanja pravih informacija u pravom formatu u prave ruke u pravo vreme. Dobar sistem poslovne inteligencije prikuplja informacije iz svih delova organizacije, analizira ih, priprema potrebne izvetaje i alje ih ljudima koji ih trebaju. Na taj nain svaki pojedinac dobija informacije skrojene prema njegovim potrebama. " c) Ravi Kalakota, Marcia Robinson : ,,Pretvaranje podataka u znanje je zadatak aplikacija poznatih pod nazivom poslovna inteligencija. Poslovna inteligencija je skupina novih aplikacija oblikovanih tako da mogu organizovati i strukturirati podatke o poslovnim transakcijama na nain koji omoguava analizu korisnu u podrci odluivanju i operativnim aktivnostima organizacije. " d) Len Wyatt : ,,Kada kompanija koristi podatke iz svojih izvrnih sistema pri donoenju odluka, to je poslovna inteligencija. Sistemi poslovne inteligencije preuzimaju podatke iz izvrnih sistema i restrukturiraju ih tako da korisnici mogu otkrivati ranije nepoznate informacije o preduzeu, poslovanju, klijentima, poslovnim aktivnostima ili proizvodima. " e) Vinod Badami : ,,Poslovna inteligencija je proces prikupljanja raspoloivih internih i relevantnih eksternih podataka, i njihova obrada u korisne informacije koje mogu pomoi poslovnim korisnicima pri donoenju odluka. "

2.2

Razlozi za primenu poslovne inteligencije

Obzirom da se koliina poslovnih informacija poveava eksponencijalno, odnosno po nekim istraivanjima, udvostruuje se svake druge godine, menaderi i radnici moraju biti u stanju da bre donose bolje odluke. Konsolidacija i organizacija podataka za efikasnije poslovno odluivanje dovodi do stvaranja kompetitivne prednosti, a uenje kako uoiti i iskoristiti tu prednost, predstavlja osnovni cilj poslovne inteligecije.

Poslovna inteligencija predstavlja mnogo vie od kombinacije podataka i tehnologije. Ona omoguava pronalaenje potrebnih podataka i uoavanje njhove moi i time transformaciju informacija u znanje koje obezbeuje znaajnu konkurentsku prednost. Iako se iz samog koncepta i definicije poslovne inteligencije zakljuuju glavni razlozi za njenu primenu u savremenom poslovanju, neophodno je nabrojati neke od glavnih pokretakih snaga koje utiu na potrebu za njenom implementacijom, a to su: 1. Postojanje potrebe da se poveaju prihodi, smanje trokovi i posluje konkurentnije - Odavno je prolo vreme u kome su krajnji korisnici mogli da planiraju i upravljaju poslovnim operacijama pomou mesenih batch izvetaja, a IT organizacije imale mesece da zavre potrebne aplikacije. Danas kompanije moraju ubrzano da projektuju i implementiraju potrebne aplikacije, i da omogue korisnicima lak i brz pristup potrebnim informacijama, u skladu sa promenljivim poslovnim okruenjem, koje vlada. Sistemi poslovne inteligencije su, kada je u pitanju pristup i raspodela informacija, orijentisani ka krajnjim korisnicima. 2. Postojanje potrebe da se modeluje i upravlja kompleksnou savremenog poslovnog okruenja - Kompanije danas nude irok spektar proizvoda i usluga, sve veem i raznovrsnijem broju konzumenata. Shvatanje i upravljanje poslovanjem, kao i maksimiziranje investicija, postaje sve tee u tako kompleksnom okruenju. Sistemi poslovne inteligencije pruaju vie od klasinih mehanizama koji se zasnivaju na prostim upitima i izvetajima, ve pored toga nude i savremene alate za otkrivanje i analizu informacija, koji su kreirani za obradu i upravljanje sloenim poslovnim informacijama. 3. Postojanje potrebe da se smanje IT trokovi - Investicije u IT sisteme danas predstavljaju znaajan procenat u odnosu na ukupne investicije u preduzeu. Imajui u vidu taj podatak, nije dovoljno samo smanjiti trokove poslovanja IT odeljka, ve izvui maksimalan poslovni uinak iz poslovnih informacija koje IT sistemu generiu. Nove informacione tehnologije kao to je korporativni intranet i mobilne tehnologije, potpomau u smanjivanju trokova pristupa veeg broja korisnika, sistemima poslovne inteligencije. Ovi sistemi su takoe proirili opseg informacija koje se mogu obraditi tako da pored operativnih, obuhvataju i podatke sa korporativnih web servera. U skladu sa ranije izreenim, moe se navesti nekoliko oblasti u kojima je pogodna primena sistema poslovne inteligencije: Smanjenje operativnih trokova, realizacija ciljeva prodaje, unapreenje sistema nabavke. Korienje OLAP-a(On Line Analitical Processing) za smanjivanje trokova IT sektora, otkrivanje novih mogunosti za dobit, unapreenje upravljanja trokovima. Korienje data mining-a za pronalaenje kljunih parametara vezanih za odreeni segment kupaca.

Sve navedene primene mogue su samo uz korienje sofisticiranih alata i aplikacija, i ukoliko su podaci pripremljeni u formatima pogodnim za razne vrste analiza. Za

poslovne korisnike je od vanosti da imaju alate i aplikacije kojima e biti u stanju da analiziraju podatke, dok je za IT osoblje vano da poseduju aplikacije i alate za stvaranje i upravljanje okruenjem za poslovnu inteligenciju. U tu svrhu koriste se razliiti alati kao to su: Namenske aplikacije. Alati za izvravanje upita. OLAP alati. Alati za statistiku analizu. Alati za data mining i dr. Neka od integrisanih tehnolokih reenja koja postoje, i koja se koriste za ovu namenu data su sledeoj tabeli:Proizvoa IBM Komponente platforme za poslovnu integraciju Websphere portal, Lotus Workplace, Websphere Business Integration(WBI) Modeler, WBI monitor, WBI server, Websphere MQ, DB2 Information Integrator Office Sharepoint, BizTalk Orchestator, Biztalk server, SQL server DTS

Microsoft

Oracle

9iAS Portal and Collaboration Suite, 9iAS Integration workflow, 9iAS Integration, Oracle Warehouse Builder

Tabela 1. Komponente platformi za poslovnu integraciju razliitih proizvoaa

2.3

Tehnike za integraciju poslovne inteligencije

Jedno od osnovnih pitanja koje se postavlja prilikom uvoenja koncepta poslovne inteligencije je: ,,Na koji nain integrisati poslovnu inteligenciju u poslovne procese preduzea da bi zaposleni u bilo kom trenutku mogli to da iskoriste i da daju svoj lini doprinos ostvarenju stratekih poslovnih ciljeva ? " Klju je u indentifikaciji uloge poslovne inteligencije u svakom procesu da bi se ostvarili zacrtani ciljevi, zatim u integraciji poslovne inteligencije u te procese i na kraju u lociranju uslova za primenu poslovne inteligencije u okviru postojeih informacionih sistema. Pri tome je pored poslovnih procesa, potrebno razumeti i uloge ljudi koji uestvuju u procesu, kao i aplikacije koje oni koriste u svakoj svojoj aktivnosti. Poslovna inteligencija se moe integrisati u poslovne procese preduzea na nekoliko naina: 1. Integracijom analitikih aplikacija sa operativnim aplikacijama korienjem "enterprise portala da bi podacima mogli pristupiti i interni i eksterni korisnici. 2. Ugraivanjem analitikih metoda u operativne aplikacije u procesu razvoja aplikacija.

3. Uvoenjem Web servisa koji e dinamiki integrisati analitike metode internim ili partnerskim operativnim aplikacijama radi podrke zajednikom poslovanju. 2.3.1 Integracija u enterprise portale

Enterprise portal obezbeuje internim i eksternim korisnicima jedinstven, standardizovan, web baziran, korisniki interfejs za personalizaciju integrisanih sadraja, gde se pod sadrajem podrazumevaju informacije i integrisane aplikacije i alati, kao i komunikacioni alati. Aplikacije mogu biti interne i eksterne analitike ili operativne, dok informacije obuhvataju strukturirane podake, poslovnu inteligenciju (izvetaje, grafikone, kocke, dijagrame i dr. ), i interni i eksterni nestrukturiran sadraj. Kao komunikacioni alati pojavljuju se web-chat, net meeting, e-mail, instant messaging i drugi.SAP portletPortlet

Siebel portletPortlet

Lotus portletPortlet

Business Objects portletPortlet

xml

xml

xml

xml

P ORTA L SE RVE R

Slika 3 Koncept enterprise portala

Teba napomenuti da postoji razlika izmeu enterprise portala i korporativnog intraneta. Glavna razlika je u tome to enterprise portal za razliku od intraneta dozvoljava personalizaciju, odnosno omoguava da svaki korisnik ima sopstveni prikaz prilagoen njegovim potrebama. Sam web portal se ne bavi integracijom poslovnih procesa i aplikacija, ve integracijom korisnikih interfejsa raznih sistema (portleta) tako da korisnici imaju utisak da se radi o delovima jednog jedinstvenog sistema. Na portalu se moe nalaziti vie stranica portala od kojih svaka ima skup portleta koji prikazuju sadraje iz razliitih sistema. Na taj nain vri se personalizacija ne samo sa aspekta korisnika ve i sa aspekta razliitih aktivnosti koje se obavljaju. Takoe treba napomenuti da su portali uglavnom nezavisni od vrste ureaja i platforme sa koje im se pristupa. Najpoznatiji web portali su: SAP Enterprise portal, IBM WebSphere Portal, Oracle 10g AS Portal, Microsoft Office Sharepoint. 2.3.2 Ugraivanje analitikih metoda u operativne aplikacije

Ugraivanje analitikih metoda u operativne aplikacije vri se u toku razvoja samih aplikacija, i moe se realizovati na aplikativnom nivou ili na nivou samih podataka. Ukoliko se ugraivanje radi na aplikativnom nivou, ono se moe izvesti pomou takozvanog aplikativnog programskog interfejsa (API Application programming interface). Jedan od primera API industrijskog standarda je Java OLAP interfejs JOLAP. Operativne aplikacije tako mogu da pozivaju neke od alata poslovne inteligencije, i na taj nain da alju zahteve za automatsku obradu i da kao rezultat te obrade dobijaju izvetaje u obliku kocki podataka, grafikona i slino. Softver dizajneri mogu da prilagode pozive tih alata sopstvenim potrebama ili mogu da koriste gotove komponente iz biblioteke komponenata poslovne inteligencije.

Korisni ki razvijene i upakovane aplikacije

Kom ponente poslovne inteligencije

JAV A AP I, S Q L AP I

S istem z a upravljanje baz om podataka

Slika 4 Korienje BI komponenti u operativnim aplikacijama

Prema tipovima komponente koje se koriste ukljuuju OLAP i Data mining komponente, kao i komponente za navigaciju i vizuelizaciju. Od prozvoaa koji nude ovakve komponente tu su Oracle (BI Beans), AlphaBox i ProClarity (Analytic Application development Platform). Kada je re o ugraivanju analitikih metoda u operativne aplikacije na nivou podataka, u poslednje vreme kod proizvoaa sistema za upravljanje bazama podataka (DBMS Database Management Systems), postoji trend poveanja funkcija poslovne inteligencije koje oni ugrauju u svoje proizvode. Proizvoai se trude poveaju funkcionalnost svojih proizvoda to se ogleda u: Proirenju standardnog SQL-a novim agregatnim funkcijama - U oblasti SQL-a mnogi su proizvoai uveli dodatnu podrku za agregatne funkcije, tako da sad SQL sadri statike, analitike, regresione i OLAP funkcije. Uvoenju tehnologija kao to su materijalizovani pogledi - Materijalizovani pogledi omoguuju sistemima za upravljanje relacionim bazama podataka podrku za sumarne podatke u formi pogleda na relacione podatke. Razlika u odnosu na kreiranje statikih sumarnih tabela je u tome to materijalizovani pogledi imaju

automatsko osveavanje i ne zahtevaju periodino izvravanje posebnih batch procedura za tu svrhu. OLAP-u u bazi podataka - U zavisnosti od proizvoaa DBMS-a postoje razliite ekstenzije SQL-a, koje omoguuju primenu OLAP-a nad relacionom bazom podataka (ROLAP, Relational OLAP). Tako na primer Oracle RDBMS uvodi multidimenzionalne mehanizme u obliku funkcija koje se koriste za pristup kockama podataka (Data cubes). Microsoft u SQL Server Yucon - uvodi mehanizme kao to su "proactive cashing" i "unified dimensional models" (UDM). Data mining - Proizvoai DBMS-a ukljuuju i podrku za data mining proces u svoje proizvode, korienjem PMML - Predictive Modelling Markup Language standarda i korisniki definisanih funkcija (UDF - User Defined Functions) koje se uvoze u DBMS, nakon ega operativna aplikacija moe da koristi data mining ukljuivanjem UDF-a u SQL upite. Web servisi

2.3.3

Web servisi omoguuju dinamiku integraciju aplikacija korienjem web tehnologija. Svaki web servis poseduje interfejs koji opisuje operacije su dostupne posredstvom standardizovanih XML poruka. Web servisi se opisuju pomou industrijskog standarda koji se naziva Web Service Description Language (WDSL), koji predstavlja skup XML tagova. Web servisi moraju da se objave i da se registruju u posebnim katalozima koji se nazivaju UDDI (Unified Description Discovery and Invocation) registri. Funkcionisanje web servisa se odvija na sledei nain: aplikacija alje upit UDDI registru, pronalazi potreban web servis i dinamiki se prikljuuje na njega aljui mu XML poruku poznatiju kao SOAP (Simple Object Access Protocol) poruka. Ona inicira rad web servisa i vraanje rezultata u XML formatu.Portal, proces, aplikacija ili DBMS BI web servis (OLAP, izvetavanje, mining) Provajder servisa poslovne inteligencije

Korisnik servisa

3. Pregovaranje; povezivanje; pozivanje servisa SOAP

2. Pronalaenje (UDDI) Servis broker

1. Registrovanje (WSDL)

UDDI registar

Slika 5 Funkcionisanje web servisa

Web servisi mogu da se koriste na vie nivoa, i to na: Aplikativnom nivou BI web servisa. Nivou podataka BI web servisa. Nivou procesa BI web servisa.

2.4

Tipovi aplikacija poslovne inteligencije

Obzirom na irok spektar potreba korisnika poslovne inteligencije, kompanije danas koriste razliite vrste aplikacija kako bi korisnici te potrebe zadovoljli. Generalno aplikacije poslovne inteligencije mogu da se svrstaju u jednu od sledeih kategorija: a) Izvetajne aplikacije - obezbeuju statistike ili parametrizovane izvetaje. Aplikacije za izvetavanje sa minimalnim analitikim zahtevima bazirane su na relacionim bazama podataka i koriste SQL, dok upravljaki informacioni sistemi imaju mnogo sloenije analitike zahteve i koriste specijalizovane baze podataka. b) Ad hoc upiti i izvetavanje - pruaju korisniku najvii mogui stepen interakcije sa podacima uz mogunost korienja velikog broja tehnika za odabir podataka i navigaciju. Taj tip aplikacija baziran je na relacionim bazama podataka i nudi ograniene, ali veoma korisne analitike mogunosti. Ovi upiti koriste relacione baze podataka i SQL za jednodimenzionalne upite(npr. 10 najboljih kupaca, ili uporeivanje prodaje u proloj i tekuoj godini) c) Analitike aplikacije - takoe podravaju ad hoc pretraivanje podataka ali imaju mogunost realizacije mnogo sloenijih upita, gde su upiti multidimenzionalni jer imaju dimenziju vremena, dimenziju proizvoda i dimenziju kupaca. Obino istraivanja u oblasti trita i finansiranja zahtevaju izvravanje znatno sloenijih upita, pa su shodno tome, nosioci tih funkcija u preduzeu najei korisnici ovog tipa aplikacija. d) Statistike analize i data mining - Analize predvianja uz korienje naprednih tehnika predstavljaju znaajan komplement ad hoc analizama, jer predvianje dogaaja na tritu moe u velikoj meri da utie na ostvarivanje stratekih ciljeva. U tu svrhu koriste se sloene analitike i statistike tehnike. e) Aplikacije za planiranje - omoguuju korisnicima da predvide rezultate poslovanja i daju odgovore na pitanja: Koliko e preduzee biti profitabilno u kvartalu? Kako e promena cene proizvoda uticati na njegovu prodaju? Koliki treba da bude obim proizvodnje da bi se zadovoljile potrebe trita? Kako e nestabilnost valute uticati na profit?

Ovaj tip se razlikuje od drugih aplikacija po tome to generie nove podatke koristei analitike metode tipa modela, prognoza, specijalizovanih agregacija, alata za upravljenje scenarijem i dr.

3. DATA WAREHOUSE3.1 Pojam data warehouse-aPre nego to se detaljnije ue u razradu pojma data warehouse-a i ostalih tehnika poslovne inteligencije, potrebno je uvesti i objasniti neke od osnovnih tehnikih pojmova koji e biti korieni u daljem tekstu. Operativno poslovanje u osnovi koristi konvencionalne baze podataka, koje se uglavnom zasnivaju na relacionom modelu. Njih karakteriu maksimalno normalizovani podaci, kako bi se obezbedila konzistentnost i izbeglo udvajanje (ponavljanje) podataka. To meutim sa druge strane dovodi do poveanja vremena izvrenja transakcija i upita. Nad tim bazama rade aplikacije koje su transakciono orijentisane, i koriste se za unos novih podataka ili generisanje prostih statikih izvetaja. Ovakav reim rada naziva se OLTP (On Line Transaction Processing). OLTP Opisuje nain na koji raunarski sistemi i krajnji korisnici obrauju podatke. On je orijentisan na detalje, sa estim auriranjem od strane krajnjih korisnika, esto se opisuje kao nain korienja raunara za voenje neprekidnih (trajnih) poslovnih procesa. Data warehouse je definisan kao skup informacija organizovanih tako da se mogu lako analizirati, izdvojiti, spojiti i na druge naine koristiti da bi se razumela njihova sutina. On predstavlja neku vrstu baze podataka, s tim to su podaci u njemu organizovani na poseban nain. Ovi podaci mogu se nazvati i ,"informacionim podacima" za razliku od operativnih podataka u transakcionim bazama. Bill Inmon uvodi pojam data warehouse-a 1990. godine. Njegova definicija glasi: Data warehouse je predmetno-orijentisan, integrisan, vremenski promenljiv i odriv skup podataka, koji prua podrku menadmentu u procesu donoenja odluka. `` predmetno-orijentisan - podatak daje informaciju o konkretnoj temi umesto o trajnim procesima preduzea integrisan - podaci su prikupljeni iz mnotva razliitih izvora, i sklopljeni u koherentnu celinu vremenski-promenljiv - svi podaci u data warehouse-u su odreeni za neki vremenski period.

Podaci u data warehouse-u su denormalizovani (relaksirani), izvravanje upita nad tako organizovanim podacima je znatno bre. Takoe, pojednostavljuje se ema baze podataka, tako da je olakano pretraivanje i osoblju koje nije tehniki osposobljeno za izvravanje sloenih upita nad relacionim bazama podataka. Data warehouse podrava reim rada koji se naziva OLAP (On-Line Analitical Processing). OLAP je vrsta tehnologije koja omoguava analitiarima i menaderima uvid u podatke kroz brz, konzistentan i interaktivan pristup velikom broju raznovrsnih izvetaja sainjenih na osnovu informacija dobijenih transformacijom sirovih podataka, koje oslikavaju sve dimenzije jednog poslovnog poduhvata. Data warehouse sadri veliku koliinu podataka koji su organizovani u manje logike jedinice koje se nazivaju data mart-ovi, Oni predstavljaju podskup logiki povezanih podataka iz data warehouse-a koji se odnose na odreenu oblast poslovanja, i formiraju se sa namerom da budu osnova za potencijalne upite od strane krajnjih korisnika. Podaci smeteni u data warehouse dobijaju se najee transformacijom podataka iz operativne baze podataka, kao i iz ostalih internih i eksternih izvora.

Marketing Spreadsheet-oviSD

PR O

P f ssi on al Wor kstati on 6 000 ro e

Operativni sistemi

Prodaja Raunovodstvo Finansije Ljudski resursi

Prodaja

Finansije

Eksterni podaci

Data Warehouse

Data mart

Slika 6 Koncept data warehouse

Meta-podaci predstavlja vrstu informacija koje opisuju podatke smetene u bazu podataka i sadre sledee informacije: Opis tabela i polja u data warehouse-u, ukljuujui tipove podataka i opseg dozvoljenih vrednosti. Slian opis tabela i polja izvornih baza, i opis preslikavanja polja iz izvorne baze u warehouse. Opis kako su podaci transformisani ukljuujui i formule i formate. Sve ostale informacije potrebne za podrku i upravljanje funkcionisanjem data warehouse-a.

Drill-down se moe opisati kao sposobnost da se kree kroz informacije, pratei hijerarhijsku strukturu.

Data mining proces izdvajanja tanih, korisnih, prethodno nepoznatih i razumljivih informacija iz podataka, i njihovo korienje za donoenje odluka.

3.2

Operacione i informacione baze podataka (OLTP vs OLAP)

Obzirom na razlike koje postoje izmeu konvencionalnih (transakcionih) baza podataka i data warehouse-a, razlikuju se i dve vrste informacionih sistema. Transakcionooperativni" informacioni sistemi pruaju podrku svakodnevnom poslovanju (obrada faktura, otpremnica, podaci o proizvodnji itd). Sa druge strane, ,,analitiki" informacioni sistemi fokusirani su na analizu podataka kao podrka u donoenju odluka u poslovnim procesima. Data warehouse ne sadri on-line tekue podatke iz poslovanja, ve je odvojen od transakcione baze i periodino se puni novim podacima. OLAP, odnosno analitiko procesiranje podataka karakterie dinamika, multi-dimenzionalna analiza konsolidovanih poslovnih podataka, koja prua podrku krajnjim korisnicima u sledeim aktivnostima: Proraunima i modeliranju kroz razliite dimenzije i hijerarhijske nivoe. Analizi trendova u sekvencijalnim vremenskim periodima. Drill-down do niih nivoa konsolidovanih podataka. Dostizanju do podataka ispod podataka". Prikazu rezultata viedimenzionalnih poreenjenja. OLAP sistemi imaju sposobnost da daju odgovore na pitanja "ko" i "ta", ipak ono po emu se razlikuju od data warehouse sistema jeste njihova mogunost da prue odgovore na pitanja "ta ako" i "zato". Na taj nain OLAP omoguava odluivanje o akcijama u budunosti. OLAP i data warehouse sistemi su komplementarni. Data warehouse uva i upravlja podacima, dok OLAP transformie ove podatke u strateke informacije. OLAP obuhvata opseg operacija od jednostavnog pregleda informacija, do ozbiljnih analiza kao to su vremenske serije i kompleksno modeliranje. Donosioci odluka korienjem OLAP sistema na taj nain prolaze put od prostog pristupa podacima, do dobijanja potrebnih informacija i u krajnjoj liniji znanja. Glavna razlika izmeu operacionih i informacionih baza podataka predstavlja uestanost auriranja : 1. Kod operativnih baza podataka, odvija se veliki broj transakcija u toku svakog sata. Baza je je u svakom trenutku up to date``i oslikava trenutnu situaciju u poslovanju. 2. Informacione baze podataka su obino stabilne (nepromenljive) u toku odreenog vremenskog perioda i izraavaju stanje preduzea u specifinom trenutku u prolosti. Zato se podaci u data warehouse-u mogu nazvati istorijskim podacima. Na primer: ako pretpostavimo da se data warehouse obino puni u toku noi, ovaj proces punjenja warehouse-a izdvaja sve promene i nove zapise iz operacione baze podataka, i ubacuje ih u informacionu bazu. Ovaj proces se moe predstaviti kao jedinstvena transakcija koja poinje kada se prvi slog iz operacione baze izdvoji, a zavrava se kada se podaci u poslednjem data mart-u auriraju.

OPERATIVNE

INFORMACIONE

Auriraj

i en om Pr

Slika 7 pokazuje neke od glavnih razlika izmeu operativnih i informacionih baza podataka. 3.2.1 OLAP kocke podataka (data cubes) OLAP tehnologija organizuje izabrane podatke iz data warehouse-a, relacionih baza podataka, i drugih izvora podataka u multidimenzionalne nizove podataka koji se esto nazivaju i kocke podataka. Kocke podataka predstavljaju modele poslovnih procesa i korisnici njihovom upotrebom mogu da mere performanse tih procesa i upravljaju njima. Kocke podataka su fleksibilne sa aspekta informacija koje sadre i kalkulacija koje se nad njima mogu izvriti. OLAP izvetaji se izrauju na bazi kocaka podataka. Poto svaka kocka podataka sadri vie dimenzija i mera, od informacija u kocki podataka se moe dobiti veliki broj razliitih izvetaja. Kocka podataka se moe posmatrati i kao kolekcija komponenata koje mogu da se kombinuju da bi se dobio neki specifian izvetaj. Dimenzije su prikazane sa istorijskog ili aktuelnog aspekta da bi pokazale, na primer trenutno vaeu raunovodstvenu strukturu, ili raunovodstvenu strukturu koja je vaila u vreme ostvarenja prihoda. Ovi sistemi se paljivo konfiguriu i odravaju zbog vanih problema koji mogu da se jave: OLAP sistemi koriste svoja, redudantna skladita podataka, i veoma su osetljivi na strukturu i kvalitet podataka. Mnoge OLAP kocke su primenjene za vie specifinih potreba u isto vreme. Zbog toga one moraju biti sinhronizovane i harmonizovane sa relacionom bazom podataka kojoj pristupaju izvetajne aplikacije. Kako su analitike potrebe samo delimino predvidive, izvravanje je kritino i mora se neprekidno nadzirati. Potreba za sve sloenijim merama i dimenzijama dovodi do tekih i vremenski zahtevnih procesa odravanja. Nekim merama je potreban i istorijski i aktuelni aspekt. Ispunjavanje oba zahteva vodi uslonjavanju "kocki" i oteavanju njihove pravilne upotrebe.

i e sv O

Ub ac i

Ubaci Izbaci Ubaci Ubaci

Ubaci Ubaci Ubaci

Izb r ii

Podaci se redovno auriraju po principu slog po slog ``

Podaci se uitavaju u warehouse, odakle im se mo e pristupiti, ali se NE update-uju

Slika 7 Operativne nasuprot informacionim bazama podataka

Dimenzije Regionsever jug istok

MesecJan Feb Mart

ProizvodM onitori Procesori Hard diskovi

Slika 8 Kocka podataka

Uz ove operativne probleme, korisnici koji pristupaju kockama moraju da razumeju korienu tehnologiju i problem na kome rade. U poreenju sa izvetajnim reenjima, koja su obino podeena da definiu analitike potrebe, korisnik OLAP mora sam da odredi svoj "poslovni upit" i da razume mogunosti i ogranienja alata, kao i dostupne mere i dimenzije. 3.2.2 Tipovi organizacije podataka u OLAP-u Postoje tri tipa organizacije podataka kod OLAP-a: Multidimenzionalni OLAP (MOLAP) Relacioni OLAP (ROLAP) Hibridni OLAP (HOLAP)

MOLAP predstavlja tradicionalan nain OLAP analize. Ovde su podaci smeteni u multidimenzionalnu kocku podataka. Fizika organizacija nije u relacionom modelu baze podataka, ve u odgovarajuem formatu karakteristinom za kocke podataka. Osnovne prednosti ovog tipa organzacije podataka su: odline performanse i mogunost izvoenja sloenih kalkulacija (koje su ugraene u samu kocku podataka). Osnovni nedostaci su: ograniena koliina podataka sa kojima se radi (ne odnosi se na podatke od kojih se kocka pravi, ve na kalkulacije koje su ugraene u kocku) i veliki investicioni zahtevi (obzirom da kocka podataka uglavnom ne postoji, tako da su potrebna znatna ulaganja u tehnologiju, projektovanje, obuku kadrova itd). ROLAP je metodologija koja se oslanja na rad sa podacima koji su smeteni u klasinu relacionu bazu podataka uz mogunost da se podacima manipulie u "OLAP stilu". Prednosti ovog tipa organizacije podataka su: mogu da rade sa velikom koliinom podataka i mogu da koriste prednosti koje su svojstvene relacionom pristupu, Nedostaci se ogledaju u tome to performanse mogu da budu loe (svaki ROLAP izvetaj predstavlja jedan ili vie SQL upita ije izvravanje moe da traje veoma dugo ako je baza podataka velika), i to je ogranien funkcionalnou koju ima SQL (to onemoguava sloene analitike kalkulacije). HOLAP tehnologija kombinuje prednosti MOLAP i ROLAP pristupa. Za informacije sumarnog tipa HOLAP se oslanja na kocke podataka zbog boljih performansi ovakvog

pristupa. Za detaljne informacije, sa druge strane, HOLAP vri generisanje kroz relacioni pristup. 3.2.3. Odnos multidimenzionalnih analiza i SQL pristupa Analitiari u svom radu koriste multidimenzionalni opis podataka. Numerike vrednosti (mere) opisane su odreenim brojem kategorija ili dimenzija, koje su organizovane u hierarhije (npr. Mesec/kvartal/godina). SQL relacioni sistemi za upravljanje bazama podataka bazirani su na skupu teorijskih modela koji su po prirodi dvodimenzionalni. Dimenzije i hijerarhije se nalaze u vie odvojenih tabela i procesiraju se kroz mehanizme primarnih i spoljnih kljueva. Iz tog razloga, potrebno je pratiti svaku promenu hijerarhija i dimenzija i u skladu sa svakom izmenom menjati i odgovarajue SQL upite za razne vrste sumiranja. Poto relacione baze podataka nemaju direktnu podrku za analitike osobine, kao to su hijerarhije, iterativne analize i dimenzionalne operacije, potrebno je definisati logiku van same baze podataka za prevoenje multidimenzionalnog modela podataka u dvodimenzionalni. Multidimenzionalne baze podataka organizuju podatke onako kako e oni biti korieni u analitikim procesima. Pristup podacima je na bazi pozicije koja je odreena dimenzionalnim koordinatama, a ne vrednou. Svaka mera je smetena kao skup numerikih vrednosti indeksiranih po lanovima svake dimenzije. Svaka taka multidimenzionalnog prostora je mapirana odgovarajuom takom na disku na kojoj je smetena informacija. Taj princip je mogu zato to su lanovi dimenzija statike kategorije i broj moguih taaka je unapred poznat. Takav mehanizam skladitenja podataka je mnogo efikasniji od relacionog mehanizma sa aspekta anlitikih procesa koji se odvijaju nad podacima.

3.3

Data Warehouse arhitektura

Arhitektura data warehouse sistema data je na slici 9. Sa date eme moe se zakljuiti da se data warehouse sistem sastoji iz sledeih slojeva (nivoa):

Operativne baze podataka Ekstrakcija / Umno avanje podataka Transformacija / ienje podataka Dimenzije zvezda eme ODS

Eksterni izvori

injenice Prerada podataka

Meta podaci

Multidimenzionalna Relaciona

API ODBC, SQL

Alati za prezentaciju i analizu

Data mart

Slika 9. Arhitektura data warehouse sistema

1. Izvori podataka (Data sources) 2. Ekstrakcija / umnoavanje podataka (Extraction / Propagation) 3. Transformacija / ienje podataka (Transformation / Cleansing) 4. Prerada podataka (Data refining) 5. Fiziki model baze podataka (Physical database model) 6. Logiki model baze podataka (Logical database model) 7. Meta-podaci (Metadata information) 8. Izvor operativnih podataka (ODS - Operational Data Source) 9. Data mart 10. Alati za analizu i prezentaciju (Analysis and Presentation tools) U daljem tekstu bie pojedinano obraen svaki od slojeva ovog sistema. 3.3.1 Izvori podataka

Izvori podataka mogu biti operativne baze podataka, istorijski podaci (obino sauvani na trakama), eksterni podaci (npr. od kompanija koje se bave istraivanjem trita, ili sa Interneta), ili informacije sa ve postojeih data warehouse sistema. To mogu biti i relacione baze podataka koje koriste poslovne aplikacije. Mogu se nalaziti na raznim platformama koje sadre strukturirane podatke kao to su tabele ili spreadsheet-ovi, ili nestrukturirane podatke kao to su tekstualni fajlovi, fotografije i multimedijalni sadraji. 3.3.2 Ekstrakcija / umnoavanje podataka (Extraction / Propagation) Ekstrakcija/umnoavanje podataka je proces prikupljanja podataka iz razliitih izvora i platformi i smetanja tih podataka u data warehouse. Ekstrakcija podataka u data warehouse okruenju, predstavlja selektivni proces unoenja informacija bitnih za odluivanje u data warehouse. Ekstrakcija/umnoavanje podataka je mnogo vie od prostog kopiranja podataka sa jednog sistema na drugi. U zavisnosti od tehnike ovaj proces moe biti ili: Pushing (ekstrakcija/izvlaenje podataka) ili Pulling (umnoavanje/ubacivanje podataka) Transformacija / ienje podataka (Transformation / Cleansing)

3.3.3

Transformacija obino podrazumeva razreenje koda pomou tabela za mapiranje (npr pretvaranje 0 u "ensko" i 1 u "muko" u polju tabele odreenom za pol), i odreivanje skrivenih poslovnih pravila. Takoe se ureuju struktura i veze izmeu podataka za oblast analize. Transformacija se vri u toku procesa popunjavanja, i to obino u vie koraka. U ranijim fazama procesa transformacija se uglavnom koristi za konsolidaciju podataka dobijenih iz razliitih izvora, dok se u kasnijim fazama podaci transformiu za potrebe specifinih problema analize ili analitikih alata. Dok sa jedne strane, data warehouse pretvara podatke u informacije, sa druge strane ienje osigurava da data warehouse sadri tane korisne informacije, i informacije koje imaju smisao. ienje podataka se takoe moe opisati i kao standardizacija podataka.

Paljivim pregledom sadrine podataka, dobijaju se: Tana imena preduzea i kupaca. Tane i validne adrese. Korisni brojevi telefona i kontakt podaci. Tani kodovi podataka i skraenice. Konzistentan i standardan prikaz podataka. Konsolidacija podataka. 3.3.4 Prerada podataka (Data refining)

Prerada podataka podrazumeva kreiranje podskupova (podnizova) data warehouse-a, koji imaju multidimenzionalni ili relacioni format organizacije podataka, za OLAP obradu. Nad informacijama koje se dobijaju iz logikog modela baze (najee organizovanom po "star - join" emi), mora da se izvri agregacija, sumiranje i modifikacija prema specifinim zahtevima. Ovaj sloj data warehouse arhitekture je potreban za poboljanje performansi upita, smanjenje koliine podataka koji se preko mree alju krajnjem korisniku ili alatima za analizu i generisanje data martova. Kada govorimo o preradi podataka postoje dva razliita naina na koja se mogu ostvariti rezultati: Agregacijom podataka - promenom granularnosti podataka (npr. originalni podaci sadre svakodnevne vrednosti, dok data mart sa druge strane sadri vrednosti na nedeljnom nivou). Na taj nain agregacija podataka smanjuje broj slogova u bazi. Sumiranjem podataka - dodavanjem vrednosti u odreene grupe informacija (npr. proces prerade podataka generie slogove koji sadre prihode po specifinim grupama proizvoda i na taj nain poveavaju broj slogova ). Fiziki model baze podataka (Physical database model)

3.3.5

Kada govorimo o fizikom modelu baza podataka u poslovnoj inteligenciji, tada govorimo o relacionim ili multidimenzionalnim modelima podataka. Slika 10 prikazuje razliku izmeu ova dva modela. Obe vrste modela se koriste za kreiranje data mart-ova, ali je nain pristupa podacima u bazi drugaiji: Za pristup podacima smetenim u relacionim bazama, najee se koriste metode klasinog pristupa podacima kao to je SQL ili middleware proizvodi kao to je ODBC. Multidimenzionalne baze zahtevaju specijalizovane API-e (Application programming interface) za pristup ovakvim arhitekturama.

Fizi ki modeli

Multidimenzionalni model

Relacioni model

Slika 10 Fiziki modeli baza podataka

3.3.6

Logiki model baze podataka (Logical Database Model)

U skladu sa prethodno pomenutim fizikim modelom, postoji i adekvatan logiki model baze podataka. Logiki model je potreban, pre poetka implementacije data warehousea zbog: Prepoznavanja redudanse - model objanjava lokaciju elemenata informacije u data warehouse-u Promena u budunosti - prikaz strukture prua mogunost ukljuivanja novih informacionih elementata na odgovarajue mesto i pomae u analizi uticaja promene podataka. Kompletnosti prikaza - Razvojni tim treba da bude usmeren kroz ceo ivotni ciklus data warehouse-a, pa u tom smislu logiki model predstavlja plan njegove realizacije i implementacije. U poslovnoj inteligenciji, najei model logike organizacije baze podataka je "star join" ema, koja se sastoji od dve komponente sa razliitim karakteristikama: Tabela injenica - Daje odgovor na pitanje:"ta merimo?". Sadri numerike vrednosti koje predstavljaju meru performansi kompanije. Sastoji se iz velikog broja kratkih slogova. Tabela dimenzija - Sadri opis numerikih vrednosti koje se nalaze u tabeli injenica. Strukturu ine dugaki, denormalizovani slogovi, i ima ih manje nego u tabeli injenica.

3.3.6.1 Sadraj tabele injenica Informacije koje se nalaze u tabeli injenica moraju da imaju sledee karakteristike: Numerike vrednosti upiti u data warehouse-u udruuju hiljade slogova, te zbog toga vrednosti moraju da budu numerike kako bi se generisale prosene ili sumarne vrednosti.

Aditivne vrednosti - Kako bi sumirali veliki broj vrednosti, one moraju da budu aditivne kako se ne bi generisale netane i konfuzne informacije. Kontinualno vrednovane - Kako bi se pratile i ocenjivale promene u kompaniji u toku vremena, vrednosti moraju da budu kontinualne, t.j. da mogu da dobiju bilo koju vrednost iz najireg opsega vrednosti. Obraene vrednosti moraju da adekvatno oslikavaju performanse kompanije u toku vremena.

3.3.6.2 Sadraj tabele dimenzija Tabela dimenzija mora da bude to je mogue deskriptivnija i treba da sadri : Deskriptivne atribute - za identifikovanje okolnosti zbog kojih je dolo do generisanja sloga u tabeli injenica. Denormalizovanu strukturu slogova - treba izbegavati viestruke upite kako bi se naao opis odreenog atributa dimenzije ("vrsta kupaca" u dimenziji "kupci" treba da bude tekstualno polje a ne numerika vrednost koja pokazuje na neki drugi slog u nekoj drugoj tabeli) Tekstualni opisi - sadraji atributa u tabeli dimenzija koriste se kao zaglavlja redova i kolona na prezentacionom nivou data warehouse-a, tako da tekstualni opisi uprouju generisanje izvetaja.

Sadraj tabele dimenzija i struktura sloga je sledea: Tabela dimenzija sadri nekoliko atributa kojima detaljno opisuje entitet. Svi atributi mogu da se iskoriste za generisanje razliitih pogleda na informaciju u tabeli injenica. Atributi treba da budu predstavljeni u tekstualnom formatu - ove vrednosti se kasnije mogu iskoristiti kao zaglavlja kod izvetavanja. Izbegavati skraenice ili nenumerike vrednosti za prikaz stanja ili grupe. Vrednosti koje nisu od znaaja za OLTP sistem mogu imati veliki znaaj u data warehouse-u. Primarni klju u OLTP sistemima, nije obavezno i primarni klju u data warehouse-u. Ralph Kimball kae: "Devet taaka u vezi kojih je vano donoenje odluka, u kompletnom projektovanju data warehouse-a su: 1. 2. 3. 4. 5. 6. 7. Procesi tabele injenica. Granularnost svake tabele injenica. Dimenzije svake tabele injenica. Izbor injenica ukljuujui i pre-kalkulisane injenice. Atributi dimenzija sa kompletnim opisima i terminologijom. Kako pratiti dimenzije koje se sporo menjaju ? Agregacije, heterogene dimenzije, mini dimenzije, razni oblici upita i druge odluke vezane za fizika skladita. 8. Istorijsko trajanje baze podataka. 9. Hitnost ekstrakcije i ubacivanja podataka u data warehouse. " Na slici 11 dat je primer "star join" eme logike strukture za elektronsko obrazovanje.

dim_Nastavnik dim_Vreme Poetak Kraj Trajanje dim_Pitanje ID_Pitanja tip pitanja Tekst pitanja Taan odgovor dim_Quiz ID quiza tip quiza maximalni broj poena broj pitanja broj uesnika Tabela injenica Uspeh Rezultati Broj uesnika Prosena ocena Proseno trajanje Prosean broj pitanja Ime Katedra Zvanje telefon e-mail dim_Kurs ID_kursa Naziv Opis

dim_Student ID_Studenta Ime Grad Adresa Uspeh

Slika 11 Star-join ema za quiz

3.3.7

Meta podaci

Meta-podaci su podaci o podacima. Oni ukljuuju opise elemenata podataka kao to su opisi tipova podataka, opisi atributa, opisi domena, zatim nazive, veliinu i dozvoljene vrednosti elemenata podataka. Meta podaci strukturiraju informacije u data warehouse-u u kategorije, teme, grupe, hierarhije itd. Oni slue da prue informacije o podacima koji su smeteni u data warehouse i imaju sledee karakteristike: Predmetno su orijentisani - zasnivaju se na apstrakciji realnih entiteta (npr. projekat, kupac, organizacija... ) Definiu nain na koji e se transformisani podaci interpretirati (npr. 5/9/99 kao 5. septembar 1999. ) Pruaju informacije o srodnim podacima u data warehouse-u Predviaju vreme odziva, prikazujui broj slogova koji treba da se obradi u upitu. uva izraunate vrednosti i prekalkulisane formule kako bi se izbegla loa interpretacija. Sa stanovita administratora data warehouse-a, meta-podaci predstavljaju skladite podataka i dokumentaciju o sadraju i procesima u data warehouse-u. Sa druge strane sa stanovita korisnika meta-podaci predstavljaju mapu za kretanje kroz informacije.

3.3.7.1 Vrste meta-podataka Korisnici meta-podataka se okvirno mogu podeliti na kategorije poslovnih korisnika i tehnikih korisnika. Obe ove grupe sadre veliki broj razliitih vrsta korisnika kojima su meta-podaci potrebni za efikasno korienje informacija u data warehouse-u. Stoga razlikujemo dva tipa meta-podataka: poslovne i tehnike meta-podatke. Tehniki metapodaci obezbeuju sigurnost korisnicima sistema za podrku odluivanju da su podaci u data warehouse-u tani. Takoe, tehniki meta-podaci su neophodni za odravanje i rast data warehouse-a, bez kojih je proces analize i implementacije promena znatno komplikovaniji i dui. Poslovni meta-podaci obezbeuju vezu izmeu data warehouse-a i poslovnih korisnika, i predstavljaju mapu za pristup podacima u data warehouse-u i data mart-ovima. Poto poslovni korisnici obino imaju manjak tehnikog znanja, potrebno je da sistemi koje koriste za podrku odluivanju budu konstruisani tako da budu u skladu sa njihovim potrebama u poslovnom smislu, to je upravo uloga poslovnih metapodataka. Kada govorimo o izvorima meta-podataka, postoje dve vrste izvora:formalni i neformalni.Formalni izvori meta-podataka su oni izvori za koje postoji dokumentacija, dogovor i saglasnost donosilaca odluka u preduzeu. Formalni meta-podaci se odino uvaju u dokumentima i alatima koji se mogu nai u raznim delovima organizacije. Ovi podaci ine sadrinu i tehnikih i poslovnih meta-podataka. Neformalni meta-podaci sastoje se od znanja, pravila i uputstava koji nisu u standardnoj formi. To su informacije koje ljudi jednostavno znaju. Ove informacije se nalaze u "svesti kompanije", i nisu dokumentovane ili dogovorene, ali su podjednako vane kao i one u formalnim izvorima meta-podataka. Veoma esto neformalni meta-podaci pruaju i najvanije informacije obzirom da su najee te informacije poslovne prirode. Vano je napomenuti da je veina meta-podataka iz neformalnih izvora pa je veoma bitno prikupiti, dokumentovati, formalizovati i predstaviti ove podatke u data warehouse-u, i tako neformalne izvore transformisati u formalne. Obzirom da se svaka organizacija razlikuje, nemogue je tano definisati koji su to neformalni izvori meta-podataka, ali se moe dati lista najeih vrsta neformalnih meta-podataka: Poslovna pravila Poslovne odluke Lista proizvoda konkurencije Izvor operativnih podataka (ODS - Operational Data Source)

3.3.8

Izvor operativnih podataka moe se definisati kao skup integrisanih podataka koji se koriste za donoenje stratekih odluka preduzea. On sadri "ive" podatke, ne pregled stanja i vrlo malo informacija o prolim stanjima izvora. Neke od karakteristika izvora operativnih podataka su: ODS je predmetno orijentisan: projektovan je i organizovan oko glavnih predmeta interesovanja kompanije kap to su kupac i proizvod. ODS je integrisan: on predstavlja integrisanu sliku predmetno orijentisanih podataka izvuenih iz bilo kog operativnog sistema.

ODS je orijentisan na trenutnu vrednost: on oslikava trenutni sadraj njegovih izvornih sistema, pri emu se trenutna vrednost moe definisati na razliite naine za razliite izvore u zavisnosti od zahteva implementacije. Pri tome ovaj izvor ne treba da sadri vie prikaza trenutnog stanja, ma kako trenutno stanje bilo definisano. Ako je "trenutno" jedan raunovodstveni period, onda ODS ne sadri podatke za vie od jednog raunovodstvenog perioda. ODS je promenljiv: kako je ODS orijentisan na predmet on je podloan promenama onoliko esto koliko je to potrebno za oslikavanje trenutnog stanja. To znai da se podaci menjaju u stilu OLTP sistema, te e jedan isti upit dati razliite vrednosti u razliim trenutcima vremena, jer su se podaci u meuvremanu promenili. ODS je detaljan: definicija "detaljnog" takoe zavisi od problema koji se reava. Granularnost ODS-a moe ali ne mora da se razlikuje od granularnosti svog izvornog operativnog sistema. Data mart

3.3.9

Glavna svrha data mart-a je da obavlja sledee funkcije: Da uva podatke u obliku u kom se nalaze pre agregacije. Da kontrolie pristup krajnjih korisnika informacijama. Da obezbedi brz pristup informacijama za specifine analitike potrebe. Da kreira multidimenzionalni ili relacioni pogled na podatke. Sama organizacija data marta moe biti relaciona ili multidimenzionalna. 3.3.10 Alati za analizu i prezentaciju (Analysis and Presentation tools) Sa aspekta krajnjeg korisnika ovaj sloj je najbitniji sloj u data warehouse arhitekturi. Kako bi se pronali odgovarajui prezentacioni alati za informacione zahteve krajnjih korisnika, moe se pretpostaviti da postoje etiri kategorije korisnika kao i njihove kombinacije: "moni korisnici" korisnici koji su spremni i sposobni da koriste kompleksnije alate za kreiranje sopstvenih izvetaja i analiza. Oni poznaju strukturu data warehouse-a i meuzavisnosti koje vladaju u njegovoj organizacionoj formi. "povremeni korisnik" ova grupa korisnika sastoji se od ljudi koje direktno nisu zainteresovani za detalje o data warehouse-u, ali im je povremeno potreban pristup informacijama. Ovi korisnici su obino zauzeti svakodnevnim poslovima i nemaju vremena niti potrebu za opirnim radom sa informacijama, i njihove sposobnosti u korienju analitikih alata su ograniene. Korisnici koji imaju potrebu za statikim informacijama ovi korisnici imaju potrebu za precizno definisanim podacima u odreenom vremenskom intervalu. Korisnici koji zahtevaju dinamike ili ad hoc upite i analitike mogunosti alata Ovo su uglavnom analitiari. Ovim korisnicima svaka informacija u data warehouse-u moe biti znaajna u nekom trenutku. Zahtevaju visoke performanse i drill-down mogunosti. Razliite vrste korisnika zahtevaju razliite prezentacione alate, ali svi mogu da pristupaju zajednikom data warehouse-u.Takoe razliite sposobnosti korisnika

odreuju i razne naine prezentacije rezultata obrade od grafikona do tabelarnih prikaza za sloene analize. Sa napretkom tehnologije i poveanjem dinamike poslovanja data warehouse sistemi postaju sve zahtevniji, baze podataka sve vee, a takoe se poveava i potreba za multimedijalnim podacima. U vremenu novih tehnologija, projektanti data warehouse sistema moraju i dalje da prate potrebe krajnjih korisnika i da primenom tih novih tehnologija obezbede najbolje mogue reenje za preduzee koje e biti funkcionalno i fleksibilno za tekue, ali i budue poslovanje.

4. DATA MINING4.1 Otkrivanje znanja i data miningU dananjem poslovnom svetu, upotreba kompjutera u svakodnevnom poslovanju postala je praktino sveprisutna. Sa razvojem ovog elektronskog doba javlja se i jedan nusproizvod: podatak. Organizacije generiu i sakupljaju velike koliine podataka koje

koriste u svakodnevnim operacijama kao to su raunovodstvo ili praenje stanja zaliha. Ova skladita se velikom brzinom uveavaju, a zbog njihove veliine, skladita podataka ne mogu direktno analizirati ljudi koji trae interesantne obrasce ili trendove. U veini sluajeva podaci sadrani u skladitu podataka su isuvie vredni da bi jednostavno nestali. Stoga postoji hitna potreba za alatima koji mogu da analiziraju podatke i trae interesantne obrasce ili informacije koje mogu leati ispod povrine. Da bi zadovoljili ovu potrebu, istraivai u oblasti vetake inteligencije i sistema baza podataka su saraivali u kreiranju razliitih prilaza u polju pronalaenja znanja da bi izvukli tajne obrasce iz podataka. Vano je zapaziti da kod veine velikih baza podataka postoji neogranien broj obrazaca dostupnih za izvlaenje, i izvlaenje svih njih ne bi bilo korisnije od "eljanja" nepripremljenih podataka. Kljuno je iskopati podatak za interesantne obrasce. To su manje oigledni obrasci u podacima, koji omoguuju uvid u trendove na trzitu, zahteve kupaca, otkrivanje greaka i prevara, itd. Meutim uprkos ovom bogatstvu podataka, mnoge kompanije nisu uspele da iskoriste njihovu vrednost obzirom da informaciju koja se krije iza ovih podataka nije lako uoiti. Kako bi se uspeno nadmetali sa konkurencijom, donosioci odluka moraju biti u stanju da otkriju i iskoriste informacije koje se kriju meu prikupljenim podacima. Primena procesa pronalaenja znanja na velike baze podataka za svrhe izvlaenja skrivenih obrazaca ili znanja u podacima naziva se otkrivanje znanja u bazama podataka (KDD Process Knowledge Discovery in Databases). Generalno KDD se koristi u bazama podataka ija veliina spreava ljude da runo identifikuju obrasce i izvuku vredno znanje. Ovu metodu formalno definiu Fayyad, Piatetski - Shapiro, Smith i Ramasami kao: "Netrivijalni proces identifikovanja novih, validnih potencijalno korisnih i krajnje razumljivih obrazaca u podacima". Treba istai da su podaci u ovom kontekstu skup injenica, a modeli vii nivo koji opisuje podatke ili njihove podskupove. Po Fayyad-u, proces otkrivanja znanja je proces korienja baze podataka - uz analizu, selekciju, pred-obradu, pod-uzorkovanje i transformaciju podataka - za primenu metoda iskopavanja znanja (algoritama), prebrojavanje obrazaca, procenu rezultata iskopavanja podataka, kao i identifikovanje podskupova prebrojanih obrazaca. Proces otkrivanja znanja moe biti podeljen na sedam koraka, kao to je prikazano na Slici 12. Ovih sedam koraka, koji zajedno formiraju metodologiju procesa otkrivanja znanja objanjeni su na sledei nain: 1. Analiza opsega: Analizira se priroda podataka u datom opsegu, a razmatraju se i ciljevi pronalaenja znanja. Ukoliko postoji bilo kakvo prethodno znanje o opsegu, i ono se vrednuje. 2. Selekcija: Podaci su redukovani na ciljne skupove, to moe izazvati eliminisanje sirovih redova ili polja u podacima, ili oboje. Ovde se takoe analizira i vrsta pronalaenja znanja. 3. Predobrada: Podaci su oieni radi otklanjanja suma, definisane su metodologije za rukovanje nedostajuim poljima podataka, itd. 4. Transformacija: Izbor podataka je izvren tako da oni budu u skladu sa izabranim algoritmom iskopavanja podataka. Podaci se analiziraju tako da se pronau korisne karakteristike za prikaz podataka u zavisnisti od cilja poduhvata. Neobavezno, izbor podataka se onda moze modifikovati za objanjenje privemene ili prostorne zamrenosti podataka.

5. Data Mining: Algoritam za iskopavanje podataka primenjuje se na predobraene i transformisane podatke radi pronalaenja traenih obrazaca. Treba naglasiti da je izvrenje i rezultat ovog procesa prilino zavisan od kvaliteta implementcije prethodnih koraka.

Podruje upotrebe

Podruje analize Podaci

Selekcija

Predobrada

Ciljni podaci Utvrivanje otkrivenog Transformacija

Predobraeni podaci

Data mining

Data mining modeli

Tumaenje/ evaluacija Znanje

Transformisani podaci

Slika 12 Koraci u pronalaenju znanja

6. Interpretacija i evaluacija: Obrasce otkrivene data mining-om tumae i vrednuju ljudi. Onda oni bivaju zabeleeni u nekom lako razumljivom obliku. 7. Eksploatacija pronaenog znanja: Dobijeni obrasci se stavljaju u upotrebu. Mogua upotreba ukljuuje unoenje znanja u druge sisteme radi daljeg delovanja, dokumentovanje obrazaca i podnoenje zainteresovanim strankama izvetaja o njima, ak i ponovnu upotrebu procesa otkrivanja znanja na istoj bazi podataka koristei nova predznanja.

4.2

Razvoj data mining-a

Poreklo data mining vodi od tri naune discipline: Statistika, "machine learning" i vetaka inteligencija. Prvi osniva data mininga je statistika. Statistika je osnova mnogih tehnologija na kojima je data mining zasnovan. Mnoge klasine oblasti statistike kao to je regresiona analiza, standardna devijacija, varijansa, dikriminaciona analiza i standardna raspodela su kamen temeljac na osnovu koga su mnoge naprednije statistike tehnike data mining-a sastavljene. Takoe, veliki uticaj je imala vetaka inteligencija. Ova oblast, koja pre svoju mo zasniva na heuristici nego na statistici, pokuava da primeni procese ljudskog razmiljanja na statistike probleme. Zbog velike potrebe za raunarima, ova oblast nije postala svarnost sve do 1980, kada su poeli da se proizvode moni raunari po pristupanim cenama. Postoje razne aplikacije

zasnovane na vetakoj inteligenciji, izmeu ostalih i optimizovani upitnici za Sisteme za upravljanje relacionim bazama podataka (RDBMS). Tu je i "machine learning", koji moemo posmatrati kao kombinaciju statistike i vetake inteligencije. Dok vetaka inteligencija nije uivala komercijalni uspeh, mnoge tehnike vetake inteligencije su adaptirane za korienje u "machine learning-u". "Machine learning" se moe posmatrati kao sledei korak vetake inteligencije, jer njegova snaga lei u meanju heuristike vetake inteligencije sa naprednim statistikim analizama. Neke od mogunosti implementirane u machine learning su i mogunost da raunar sam saznaje o podatku koji prouava, na primer program moe doneti razne odluke na osnovu karakteristika prouavanih podataka. Osnovna statistika analiza je koriena za fundamentalne probleme, dok su napredna heuristika i algoritmi vetake inteligencije korieni za prouavanje kompleksnih podataka. Data mining je, u mnogome primena "machine learning" tehnika na poslovne aplikacije. Moda najbolje definisan kao kombinacija klasinih i modernih kretanja u statistici, vetakoj inteligenciji i "machine learning-u". Njegova svrha je prouavanje podataka i pronalaenje skrivenih trendova ili ablona u njima. Data mining pronalazi sve vee prihvatanje u naunom i poslovnom svetu, izlazei u susret potrebi za prouavanjem velike koliine podataka i otkrivanjem trendova koji se ne bi izdvojili korenjem drugih, tradicionalnih metoda. Ostale naune oblasti koje su uticale na data mining ukljuuju i nova stremljenja u sistemima baza podataka, vizualnih tehnika i tehnologija i naprednih tehnika ukljuujui neuronske mree. Baze podataka su evoluirale od prostih podataka do sofisticiranih skladita informacija, sa kompleksnim formama skladitenja, ureivanja i dobavljanja podataka. Evolucija tehologija baza podataka od relacionih baza do mnogo kompleksnijih formi kao to su data warehouse i data mart, omoguila je da data mining postane stvarnost. Razvoj u vizualizaciji je takoe uticao na napredak odreenih oblasti data mininga. Vizuelni i prostorni data mining su upravo i nastali radom na pomenutim oblastima. Mnoge aplikacije koje koriste data mining upotrebljavaju napredne tehnologije vetake inteligencije. Grossman (1998) navodi da data mining sistemi mogu da se podele na etiri generacije, koje pokazuju evoluciju sistema od prostog, preko komplesnog pa sve do naprednog. Prva generacija sistema je dizajnirana da manipulie sa malm koliinom vektorski ureenih podataka. Druga generacija data mining sistema moe da crpi podatke iz baza podataka i data warehouse-a, dok trea generacija data mining sistema moe preuzimati podatke sa intraneta i ekstraneta. etvrta generacija data mining sistema moe preuzimati podatke sa mobilnih, integrisanih i kunih raunara. Prva generacija data mining sistema podrava jednostavne algorime ili mali skup algoritama koji su dizajnirani da prikupljaju vektorske podatke (numerike, esto koriene da predstave trodimenzionalnu sliku). Ovo su najosnovniji i najjednostavniji data mining sistemi. Drugu generaciju sistema karakteriu interfejsi baza podataka i data warehousea, visokih performansi i poveane funkcionalnosti. Cilj sistema druge generacije je da prikupljaju obimne podatke i kompleksne skupove podataka, podravaju korienje viestrukih algoritama i budu u mogunosti da rade sa viedimenzionalnim skupovima podataka. Data mining eme i data mining programski jezik (DMQL) su takoe podrani.

Trea generacija data mining sistema je sposobna da prikuplja raspodeljene i heterogene podatke pronaene na intranetu i ekstranetu; takoe da uspeno integrie sisteme razliitih vrsta. Trea generacija data-mining sistema se razlikuje od pretaivaa jer oni su sredstvo za otkrivanje ablona, slinosti, promena i anomalija izmeu podataka, dok su pretraivai jednostavno nalaze traene podatke. etvrta generacija data mining sistema je sposobna da prikuplja podatke koji su generisani od strane mobilnih, integrisanih i kunih raunara. Ovo su najnovija dostignua u oblasti data mininga.

Prema sprovedenim istraivanjima, pokazalo se da je, za sada, najvei deo posla odraen u data miningu u okviru druge i tree generacije. Karakteristike svih generacija su date u Tabeli 2. Tabela 2: Evolucija Data Mininga Generacija Posebne Podrani Sistemi koje Modeli sistema Tipovi podataka karakterisike algoritmi podrava koje podrava Prva Zasebne aplikacije Podrava jedan Zasebni Jedna maina Vektori ili vie sistemi algoritama Druga Integracija zajedno Viestruki Sistemi za Lokalne mree i Objekti, tekst.. sa bazama algoritmi upravljanje relacioni modeli podataka i data podacima, sistema warehouse ukljuujui sis. baza podataka i DW sisteme Trea Ukljuuje Viestruki Upravljanje Kompjuterske Ukljuuje polu prediktivno algoritmi podacima i mree, intranet strukturirane modeliranje prediktivno podatke i modeliranje podatke sa mree etvrta Ukljuuje mobilne Viestruki Upravljanje Mobilni i kuni Opti podaci i opte podatke algoritmi podacima raunari mobilni sistemi

4.3

Pojam data mining-a

Data Mining ima neograniene mogunosti primene, ukljuujui prodaju i marketing, slubu podrke kupcima, razvoj baze znanja, otkrivanje prevara u bilo kojoj oblasti, itd. "Data Mining", pomalo netaan naziv, odnosi se na traenje "dragog kamenja" skrivenog u podacima, i to je najee korieno objanjenje o ovim procesima. Potrebno je ipak primetiti da je iskopavanje podataka samo deo pronalaenja znanja u bazama podataka, mada je njegov kljuni deo. Data mining nije pojedinana tehnika ili tehnologija, ve je to skup srodnih metoda i metodologija koje su usmerene ka pronalaenju i automatskom

izvlaenju ablona, slinosti, promena, anomalija i drugih karakteristinih struktura iz podataka. Data mining se pokazao kao kljuna tehnologija koja omoguava preduzeu da bira, filtrira, pregleda i uporeuje podatke automatski. Data mining je proces koji koristi razliite vrste alata za analizu podataka, da bi se otkrile zakonitosti i veze meu podacima koje se mogu iskoristiti za izradu validnih projekcija. Data mining je proces ekstrakcije (izvlaenja) tanih, prethodno nepoznatih i razumljivih informacija iz velikih baza podataka, i njihovog korienja za donoenje kritinih poslovnih odluka. Izvuene informacije se mogu iskoristiti za kreiranje modela za predvianje, za utvrivanje veza izmeu slogova baze podataka ili za pregled podataka baze iz koje se podaci izvlae. Data mining se sastoji iz mnotva operacija od kojih je svaka podrana velikim brojem tehnika kao to su: pronalaenje pravila, neuronske mree, konceptualni klastering i druge. U mnogim oblastima kao to su analiza trita, finansijska analiza, otkrivanje prevara itd, ekstrakcija podataka zahteva kooperativnu upotrebu vie razliitih operacija i tehnika data mining-a. Identifikacija i korienje informacija sakrivenih iza podataka podrazumeva ispunjenje sledeih zahteva: Prvo, sakupljeni podaci moraju da budu integrisani u izvetaje organizacije u celini a ne u izvetaje specifinih delova organizacije. Drugo, informacije od kojih se sastoje integrisani podaci moraju da budu izvueni ("iskopani") Tree, informacije sakupljene data mining-om moraju da budu tako organizovane da omoguuju odluivanje.

Ovi zahtevi impliciraju da data mining sistem mora da bude u interakciji sa data warehouse-om i sistemom za podrku odluivanju. Iako interakcija sa data warehouseom nije obavezna obzirom da data mining sistemi mogu da rade i sa "flat" fajlovima i operativnim bazama podataka, mining data warehouse sadraja obino obezbeuje bolje rezultate zbog razliitih ali komplementarnih tipova podataka u warehouse-u. Otkrivanje i korienje informacija se postie korienjem generatora upita i sistema za interpretaciju podataka na data warehouse sistemima. U tom sluaju donosilac odluke treba da pretpostavi da postoji odreena informacija koja je znaajna za proces odluivanja, zatim da tu pretpostavku pretvori u upit i izvri ga nad data warehouse-om, a zatim interpretira rezultate sa aspekta odluke koju treba da donese. Sistemi koji podravaju ovakav nain funkcionisanja nazivaju se - data mining sistemi zasnovani na verifikaciji. Glavni nedostatci ovakvih sistema su u tome to donosilac odluke treba da pretpostavi eljenu informaciju, i to kvalitet izvuene informacije zavisi od interpretacije rezultata postavljenog upita. Zbog kompleksnosti podataka koji se uvaju i njihovih meusobnih veza, odluivanje samo pomou data mining sistema zasnovanih na verifikaciji nije adekvatno. Ovi sistemi se moraju proiriti mogunou automatskog otkrivanja bitnih informacija sakrivenih u podacima, i njihovom adekvatnom prezentacijom. Sistemi koji podravaju ovakve mogunosti nazivaju se - data mining sistemi zasnovani na otkrivanju. Kako bi se proces otkrivanja informacija ubrzao, a pri tome zadrao kvalitet otkrivenih informacija sledea generacija data mining sistema predvia kombinovanje prethodno pomenutih sistema.

Izbor odgovarajue tehnike zavisi od prirode zadatka, dostupnih podataka i vetina i preferenci istraivaa podataka. U tom smislu mogu se pronai razliite klasifikacije data mining sistema. Po jednoj od njih data mining se javlja u dva oblika: Usmereni (ciljni) je usmeren na objanjavanje ili kategorizovanje objekata. Neusmereni data mining se odnosi na pronalaenje paterna ili skupa predefinisanih klasa.

Druga klasifikacija deli data mining na: Predviakii - u ovom sluaju, cilj je da se pronau korelacije izmeu polja podataka, odnosno predviaki data mining koristi skup poznatih promenljivih da predvidi druge nepoznate ili budue promenljive. Opisni - u njemu je panja usmerena pre svega na iskopavanje opisnih podataka. Svrha njihovog iskopavanje je da se otkriju usaeni obrasci, u okviru podataka, koji opisuju same podatke.

Sa optom sveprisutnou velikih baza podataka u poslovanju, data mining ili uopteno govorei pronalaenje znanja u bazama podataka, moe biti veoma koristan alat za poslovne korisnike. On omoguava da se ogromne koliine podataka svedu na upotrebljivo, korisno znanje. To znanje moe biti vezano za bazu kupaca, ponudu proizvoda, itd. 4.3.1 Oblasti primene data mining-a

Data mining je iroka oblast u analizi podataka i pronalaenju obrazaca; postoje zapravo brojne podoblasti data mining-a. Lista koja sledi istie samo neke od vanijih: 1. Klasifikacija: Klasifikacija je jedan od najeih zadataka. Sastoji se od posmatranja karakteristika novih objekata i njihovog svrstavanja u jednu predefinisanu klasu iz skupa takvih klasa. Objekte koje treba klasifikovati su obino zapisi baze podataka. Zadatak klasifikacije je dobro definisanje klasa. One se formiraju na osnovu skupa podataka za uenje. Ideja je da se kreira model koji za cilj ima uspeno klasifikovanje novih objekata. Da bi se klasifikator koristio, mora prvo da naui da obavlja prelazak iz skupa ulaznih promenljivih i njihovih vrednosti u predviene izlazne vrednosti odluujue promenljive. Jednom kada naue prelaenje koristei probne podatke, klasifikatori se mogu koristiti za predvianje vrednosti odluujue promenljive koristei ulazne vrednosti. Klasifikacija je verovatno najrasprostranjenija vrsta upotrebe data mining-a u poslovanju. Otkrivanje prevara, je, na primer, najpogodnije uz klasifikovani data mining. Po tom scenariju, klasifikator tipino pokuava da prepozna transakcije kao dozvoljene ili sumnjive. Klasifikacija se moe koristiti i pri utvrivanju kreditne sposobnosti, profilisanju kupaca, itd. Ne postoji ogranienje moguih upotreba klasifikacije, niti broja klasa u koje podaci mogu biti smeteni. Jedan metod primene klasifikatora je algoritam stabla odlucivanja. Stablo odluivanja odslikava uobiajeni koncept "dijagrama toka", tj. stablo odluivanja prikazuje hijerarhiju odluka, od kojih svaka vodi ka vie odluka dok god se podaci mogu klasifikovati. Uobiajeno je da su algoritmi za dobijanje stabla odluivanja zasnovani na teoriji

informacija, gde se atributi za podelu stabla odreuju na osnovu toga koliko podela atributa odvaja vrednosti klasifikacione promenljive. Potekoa vezana za stablo odluivanja je to to promenljive moraju imati mali opseg moguih vrednosti da bi se mogle efikasno podeliti, kreirajui stablo odluivanja pogodnim za ocenjivane numerike podatake. Mada je mogue prevazii ove prepreke podelom opsega moguih vrednosti na nekoliko manjih diskretnih opsega, ovo vodi ka gubitku informacije. Tabele odluivanja su takoe popularne za klasifikaciju. Jednostavnije od stabala odluivanja, tabele odluivanja sutinski porede nove podatke sa probnim podacima, traeci probne stavke koje odgovaraju novim stavkama u uslovima malog podskupa ulaznih promenljivih. Odluujue promenljive se biraju u fazi uenja na osnovu toga koliko dele klasifikacione promenljive na odvojene klase. Jos jedan metod za klasifikaciju je induktivno logiko programiranje(ILP). ILP je proces uenja optih teorija na osnovu pojedinanih primera u okviru uzrone logike. Po ovom metodu, u svakoj iteraciji se trai nova teorija koja opisuje jedan broj prethodno neopisanih pozitivnih primera, bez opisivanja negativnih primera. Ova se metodologija dalje moe podeliti na pristupe "odozgo na dole" i "odozdo na gore". 2. Regresija: odreivanje funkcije f koja, kada je data kao ulaz u skup promenljivih koje predstavljaju zapis podataka, prevodi zapis u realnu predviaku promenljivu. Regresija je veoma slina klasifikaciji, uz izuzetak da je funkcija matematiki sloenija zbog njene nediskretne prirode. 3. Klastering: otkrivanje grupa (klastera) slinih stavki u ulaznim podacima. Klastering je oblik nekontrolisanog uenja koje ukljuuje pretraivanje ulazne baze podataka za spontano izazvanim podelama meju pojedinanim podacima. Ove podele dele podatke na logike grupe zvane klasteri. Klasteri se esto koriste za otkrivanje promena i odstupanja, gde je cilj nai pojedinane podatke koji se ne uklapaju u normu ili u klastere. Odreivanje klastera se obino koristi kao prvi korak data mining-a, na primer to moe biti prvi korak segmentacije trita tako to kupce svrstavamo u klastere prema njihovim kupovnim navikama, a zatim odreujemo koji tip promocije je najbolji za svaku vrstu kupaca. Za razliku od klasifikacije gde postoje predefinisane klase, ovde to nije sluaj. Kod klasifikacije se svaki objekat svrstava u neku klasu na osnovu modela razvijenog nad ueim skupom podataka dok se kod odreivanja klastera objekti grupiu na osnovu njihove slinosti. Klastering je koristan u poslovanju jer moe da obuhvati velike koliine podataka i da samostalno razvrstava razliite grupe zapisa. To moe biti uvodni korak u klasifikaciju ali moe imati i mnoge druge primene. Na primer, ako se klastering primeni na listu korisnikih profila, to moe stvoriti "okvir" za razliite tipove klijenata. Ovo moe imati potencijalnih koristi u marketingu, usluivanju kupaca, ak i otkrivanju prevara. Jedna prilino velika implementacija klastera je "Autoclass sistem klastering", zasnovan na konceptu automatskog pronalaenja klasa, gde je cilj nai najverovatniji skup klasnih opisa (klastera) za date ulazne podatke i za dato prethodno znanje; tj. Autoclass ne dodeljuje eksplicitno pojedinane podatke klasterima; umesto toga dodeljuje verovatnou pripadnosti svakom pojedinanom podatku i klasnom paru. 4. Estimacija: za razliku od klasifikacije koja rezultuje diskretnom vrednou ciljne promenljive, estimacija daje kontinualnu vrednost iste promenljive. Na osnovu

skupa ulaznih promenljivih odreuje se vrednost kontinualne ciljne promenljive, kao to je na primer prihod. Estimacija se obino kombinuje sa klasifikacijom. Na sirovi skup podataka se najpre primeni estimacija, odnosno prorauna vrednost atributa odluke za svaki objekat iz skupa neklasifikovanih objekata. Zatim se na osnovu vrednosti tog atributa odluke i eljenog praga vrednosti istog atributa vri razvrstavanje objekata u odreenu klasu. Pogodne metode za probleme estimacije su regresioni modeli i neuronske mree. Metoda analize opstanka je pogodna kada je cilj estimacija vremena odigravanja nekog dogaaja, na primer vreme kupovine. 5. Saimanje: pronalaenje obrasca koji e kompaktnije opisati deo ulaznih podataka. Saimanje se koristi kada kompanija eli da dobije generalan uvid u podatke iz svoje baze podataka, na primer o trinim trendovima. Ovo je data mining na koji ljudi najee misle kada govore o data mining-u. 6. Predvianje: slina je klasifikaciji i estimaciji sa tim to se objekti klasifikuju u skladu sa nekim dogaajem u budunosti ili estimacijom neke promenljive. Predvianje omoguava dodatno sagledavanje meusobne povezanosti ulaznih i ciljnih promenljivih. Za predvianje se koriste iste metode kao i za klasifikaciju i estimaciju. Vrednosti ciljne promenljive su poznate na osnovu istorijskih podataka. Izgraeni model se primenjuje na nove objekte ime se vri predvianje budueg ponaanja. 7. Grupisanje po slinosti: zadatak je odrediti koji su objekti meusobno slini, na primer koji proizvodi e se zajedno nai u potroakoj korpi. Trgovaki lanci koristei ovu metodu mogu da planiraju raspored i aranman proizvoda na rafovima, izlozima, katalozima. Grupisanje po slinosti je jednostavan prilaz generisanju pravila iz podataka. Na primer: Ako se u potroakoj korpi jave keks i mleko, sa odreenom uestanou, tada moemo generisani pravila: ako je kupljen keks, tada e i mleko biti kupljeno sa verovatnoom P1 ako je kupljeno mleko, tada e keks biti kupljen sa verovatnoom P2 8. Otkrivanje promena i odstupanja: praenje podataka iz prolosti i traenje drastinih promena. Ovo se esto koristi u otkrivanju prevara. 9. Odreivanje profila: ponekad treba opisati ta se deava u sloenoj bazi, odnosno ta se krije u postojeim podacima, na nain koji razumevanje tih relacija. Mona metoda koja se koristi za profiliranje odnosu na pojedinane kriterijume su stabla odluivanja. Takoe koristiti i metode odreivanja klastera i pravila zakljuivanja. 4.3.2 Data mining i data warehouse Podaci koji se koriste u procesu data mining-a esto potiu iz data warehouse izvora podataka. Samo organizovanje podataka u data mining i data warehouse sistemima je vrlo slino, te u sluaju da su podaci organizovani po modelu data warehouse, nema potrebe za dodatnim preureenjem podataka jer se takvi podaci mogu koristiti za data mining. Data warehousing dopunjuje data mining. Podaci koji se nalaze u data relacionoj olakava kupaca u se mogu

warehouse-u su organizovani na nain koji je prilagoen korienju metoda data mininga. Data warehouse je centralni magacin za sve podatke koje razni sistemi preduzea sakupljaju. Podaci iz raznih aplikacija za on-line transakciono procesiranje (OLTP) i drugih izvora su izdvojeni i organizovani u data warehouse bazu podataka koju koriste aplikacije za analizu, data mining operacije i korisniki upiti. Data warehousing se fokusira na prikupljanje podataka iz razliitih izvora radi lakeg pristupa i analiziranja. Data mining baza podataka predstavlja logiki (ne fiziki) podskup data warehouse baze. Iako sama data warehose baza nije neophodna za proces data mining-a, ona ga u mnogome olakava i potpomae u ostvarivanju boljih rezultata. Sa druge strane razvoj velike data warehouse baze podataka koja usklauje podatke iz vie izvora, reava probleme integriteta podataka i uitava podatke u bazu za upite, moe biti veoma dug i skup poduhvat. Kao jedno od moguih reenja ovog problema javlja se mogunost da se data mining proces primeni nad operativnim transakcionim bazama podataka. Da bi se to realizovalo, potrebne podatke treba izdvojiti u posebnu read only bazu podataka, odnosno formirati data mining data mart. Konceptualne eme obe mogunosti date su na sledeoj slici.

Izvori podataka

Data warehouse

Izvori podataka

Data warehouse

Geografski data mart

Data mart analize

Data mining data mart

Data mining data mart izdvojen iz data warehouse

Data mining data mart izdvojen iz operativne baze

Slika 13 Data mining i data warehouse

4.4

Koraci u metodologiji data mining-a

Praksa je pokazala da se kao sporedni efekat ovog procesa uenja javljaju injenice koje nisu tane ili injenice koje su tane ali nisu korisne. Donoenje pogrenih zakljuaka moe biti posledica nekorektnih i nepogodnih podataka za posmatrani problem ili uzorak ne reprezentuje dobro populaciju. Otkriveni paterni mogu da odslikavaju prole poslovne odluke i nita vie od toga. Transformacije podataka mogu dovesti do unitavanja skrivenih vanih informacija. Traganjem za skrivenim informacijama dolazi se i do paterna koji su ve poznati. Stoga je potrebno u optem smislu pratiti osnovne korake metodologije data mining-a, kako bi se ovi neeljeni efekti izbegli. Treba napomenuti da korake koji e biti prezentovani ne treba shvatiti kao skup formalizovanih pravila koja treba strogo potovati, obzirom da detalji pristupa koji e se koristiti u projektovanju data mining sistema zavise od vrste problema i specifinih uslova, ve kao putokaz za njegovo efikasnije planiranje i implementaciju. Data mining metodologija obuhvata sledee korake: 1. Prevoenje poslovnog problema u data mining problem Polazna osnova za primenu data mining-a je dobro definisanje poslovnog problema. Cilj data mining-a se ne sme definisati opto i preopirno kao to bi bilo otkrivanje znaajnih

paterna, razumevanje ponaanja kupaca, ili otkrivanje neeg interesantnog. Ovakvi ciljevi su ostvarljivi ali su teko merljivi. Takva znanja su teko primenjiva na novim podacima. Poslovni problem treba preformulisati kao jedan od zadataka data mining-a: klasifikacija, estimacija, predvianje, klastering itd. Ako poslovni problem transformiemo u neki od ovih zadataka onda je on reiv nekom od data mining tehnika. U ciljnom DM-u uvek postoji ciljna promenljiva. Proces odabira klasifikatora se vri na osnovu predefinisanog skupa klasa i objekata koji su tano klasifikovani. Slino procesu odabira estimatora se zasniva na istorijskim podacima pri emu su vrednosti ciljne promenljive ve poznate. Zadatak modelovanja je pronalaenje pravila koja objanjavaju poznate vrednosti ciljne pormenjive. Kod neusmerenog data mining-a nema ciljne promenljive. Zadatak je pronalaenje paterna koji nisu povezani ni sa jednom promenljivom. Neusmereni data mining je deskriptivnog karaktera i koristi se za odreivanje grupa slinih objekata (klastera) i profila. Pri transformisanju poslovnog problema u DM problem treba uzeti u obzir i injenicu kako e se rezultati koristiti. 2. Izbor odgovarajuih podataka Podaci koji su na raspolaganju se nalaze u bazi podataka gde se istorijski pamte i auriraju. Meutim, najei je sluaj da su podaci alocirani u razliitim bazama podataka i razliitim formatima i na razliitim raunarima. Nakon formulisanja poslovnog problema potrebno je odrediti listu poeljinih podataka. Podatke treba uzimati iz vie izvora. Pri izboru podataka treba pratiti nekoliko smernica: Koja koliina podataka je dovoljna? - Odgovor koliko je podataka dovoljno zavisi od algoritma koji e biti primenjen, sloenosti podataka, relativne frekvencije moguih izlaza (izlaznih promenljivih). Kada je skup podataka modela dovoljno veliki za izgradnju dobrog, stabilnog modela to moe biti kontraproduktivno jer e se vreme obrade poveati imajui u vidu da je DM proces iterativan Koliki je istorijski opseg? - Koliko emo daleko zai u prolost prikupljajui podatke? Ne postoji jedinstveni opseg. Veina poslovnih aktivnosti je sezonskog karaktera, na primer: skijanje je aktuelno tokom zime. Podaci iz daleke prolosti mogu postati nekorisni za analizu, zbog promene trinih uslova. Ovakve promene su obino uslovljene zakonskom regulativom. Koliki je broj promenljivih? - Neke promenljive su znaajnije od drugih. Analiza interpretacije je laka ako je broj promenljivih manji odnosno redukovan. Obino analitiari vre redukciju polaznog skupa podataka, ponekad i suvie. DM je proces kojim se podaci sami razvrstavaju na vie i manje znaajne. Konani model se sastoji od samo nekoliko promenljih koje su izvedene kombinovanjem drugih promenljivih. 3. Razumevanje podataka Veoma je znaajno pre kreiranja modela dobro istraiti i razumeti podatke. Iskusni analitiari se oslanjaju na intuiciju prilikom izvoenja promenljivih na osnovu poznatih. Analiza vizuelnih prikaza podataka moe biti veoma korisna tokom istraivanja nad podacima, zato se obino vri analiza histograma svake promenljive. 4. Kreiranje skupa podataka modela Podaci modela su svi podaci koji se koriste u procesu modeliranja. Neki podaci se koriste za otkrivanje paterna, neki za ispitivanje stabilnosti modela, neki za procenu performansi modela. Podaci modela se prikupljju iz razliitih izvora. Skup podataka modela je tabela ili kolekcija tabela, gde se svaka vrsta odnosi na jedan objekat a

kolona na jedan atribut odnosno red se odnosi na jednog kupca i naziva se zapis o kupcu. Kreiranje ovog skupa podataka iziskuje sloene upite nad relacionim bazama podataka. Pre modelovanja treba odabrati uzorak iz razliitih grupa sa razliitim frakvencijama ili dodeljivanjem pondera kako bi se napravila razlika izmeu elemenata koji pripadaju veim odnosno manjim grupama. U klasinoj statistikoj analizi se praktikuje iskljuivanje elemenata sa ekstremnim vrednostima tzv. "outliers". Model se ne moe primeniti za sadanje periode vremena jer nema sadanjih ulaznih podataka ve samo prolih. U praksi se obino skup podataka modela deli na tri dela: 1. Skup podataka za uenje, koji se koristi za izradu inicijalnog modela 2. Skup podataka za validaciju, koji se koristi za proveru optosti modela 3. Skup podataka za testiranje, koji se koristi za merenje efikasnosti modela kada se model primeni na nove podatke. 5. Problemi vezani za podatke Deskriptivne promenljive sa velikim skupom vrednosti kao to su drave, potanski kod i slino. Tehnike data mining-a nisu pogodne za ovakav tip promenljivih. Reenje ovog problema je grupisanje u klase koje e sauvati prvobitnu povezanost sa ciljnom promenljivom. Numerike promenljive sa definisanim distribucijama i "outlierima". Ove promenljive prave problema tehnikama koje koriste aritmetike vrednosti. Problem ima vie reenja: iskljuivanje "outliera" iz analize, deljenje skupa vrednosti na intervale jednake duine, transformisanje promenljivih redukovanjem opsega tako to se svaka vrednost menja svojim logaritmom. Nedostajue vrednosti nekog atributa. Neki algoritmi mogu da rade sa null vrednostima dok drugi ne mogu. Izbacivanja ovakvih objekata je nepoeljno. Popunjavanje vrednosti atributa aritmetikom sredinom ili najfrekventnijom vrednou daje lane informacije. Zamena null vrednosti nekom diskvalifikujuom vrednou za godine starosti( na primer -23) je takoe nepoeljno. Vrednosti ije se znaenje menja vremenom. Poto se podaci uzimaju iz razliitih perioda prolosti neretko se deava da ista vrednost promenljive menja svoje znaenje tokom vremena. Recimo klasa kredita A pre 6 i pre 2 godine ne mora da bude ista zbog promene ponude banaka tako to je veliina kredita poveana. Razne nekonzistentnosti u razliitim izvorima podataka uzrokovane razliitim tretiranjem istih pojava. 6. Transformisanje podataka Prikupljeni podaci se moraju transformisati kako bi se prilagodili postavljenom problemu. Vri se izvoenje novih promenljivih, ime se saima domen modela ali tako da ne dolazi do gubljenja informacija. Neke od transformacija su logaritmovanje promenljivih, izbacivanje "outliera", izraunavanje udela i sl. Neki poslovni podaci sadre vremenske serije a veina data mining algoritama ne razume takve podatke (na primer tri meseca opadajueg dravnog prihoda). Ovi podaci iziskuju izvoenje novih promenljivih obino koeficijenata. 7. Izrada modela

Izrada modela je uslovljena izborom data mining tehnike. Kod ciljnog data mining-a skup podataka za uenje se ko