46
SVEUČILIŠTE J.J. STROSSMAYERA U OSIJEKU, EKONOMSKI FAKULTET U OSIJEKU 1. Poslovna inteligencija (Skladištenje i rudarenje podataka) MARIJANA ZEKIĆ-SUŠAC 1

1. Poslovna inteligencija - efos.unios.hr · Što je poslovna inteligencija Poslovna inteligencija (eng. Business Intelligence –BI) je skup metodologija i softverskih alata koji

  • Upload
    others

  • View
    66

  • Download
    5

Embed Size (px)

Citation preview

SVEUČILIŠTE J.J. STROSSMAYERA U OSIJEKU, EKONOMSKI FAKULTET U OSIJEKU

1. Poslovna inteligencija(Skladištenje i rudarenje podataka)

MARIJANA ZEKIĆ-SUŠAC

1

Što ćete naučiti u ovom poglavlju?▪ Objasniti osnovne pojmove: poslovna inteligencija, skladištenje podataka, rudarenje podataka, rudarenje teksta, poslovna analitika, Big Data.

▪ Objasniti razvoj poslovne inteligencije do danas.

▪ Nabrojati metode koje se koriste u pojedinim područjima poslovne inteligencije, metode strojnog učenja)

▪ Objasniti što je skladištenje podataka, kako je strukturirano skladište podataka i koje se metode koriste (izvještavanje, OLAP analize, statističke metode, ABC analiza i dr.).

▪ Objasniti što je rudarenje podataka i koje se metode koriste (statističke metode i metode strojnog učenja)

▪ Objasniti trendove u razvoju skladištenja i rudarenja podataka (poslovna analitika, Big Data)

2

Što je poslovna inteligencijaPoslovna inteligencija (eng. Business Intelligence – BI) je skupmetodologija i softverskih alata koji omogućavaju:

▪ korištenje podataka (najčešće iz skladišta podataka (eng. Data Warehouse)) i

▪ njihovo pretvaranje u informaciju potrebnu za donošenje poslovnihodluka (Klepac, Mršić, 2006).

Izvor: FinanceOnline, 2017.

Cilj BI – iz podataka iznjedriti informacijukoja će povećati uspješnost poslovanja, uočiti neočito, nepoznato i skriveno, natemelju obrade velike količine internih ieksternih podataka tvrtke

3

Razvojni put poslovne inteligencije➢ Preteča BI - otkrića zaslužna za otkrivanje znanja u bazama podataka:

▪ Starogrčki matematičari – Euklid, Pitagora (razvoj algoritama za clusteriranje)▪ Bayes, Pascal, Laplace, Newton, Lobachevski, Gauss – razvoj teorija vjerojatnosti, optimizacije i dr.

➢ BI prije pojave Interneta – postojala u smislu poslovne špijunaže, gdje je ciljbio doći do informacija koje će povećati uspješnost tvrtke u odnosu na konkurenciju (tzv. “James Bond BI”)▪ Glavni problem = kako doći do informacije?

➢ BI danas – orjentiran na alate i metodologiju koja će otkriti uzorke, uzrokeproblema ili dati predviđanja budućih kretanja (prodaje, profita i dr.)▪ Glavni problem = kako masu informacija obraditi i iz nje izvući zakonitosti

Izvor: Poslovni dnevnik, 2013.

4

Glavna područja poslovne inteligencijePoslovna inteligencija (Business Intelligence) kao skup metodologija i alata za ekstrahiranje informacije koje mogu povećati uspješnost poslovanja uključuje čitav niz područja:

▪ Skladištenje podataka (Data Warehouse)▪ Izvještavanje (Reporting)▪ On-Line Analitičko procesiranje (OLAP)

▪ Izradu score kartica - scorecarding (Key Performance Indicators ili Business Performance Management)

▪ Benchmarking – uspoređivanje pokazatelja uspješnosti poslovanja tvrtke s tvrtkom koja se smatra standardom ili najboljom u tom području

▪ Rudarenje podataka (Data Mining)

▪ Rudarenje teksta (Text Mining)

▪ Big Data

▪ Poslovnu analitiku

5

Skladištenje podatakaSkladištenje podataka (engl. Data Warehousing) – skup metoda i alata koji obrađuju podatke iz skladišta podataka.

Skladište podataka je skup subjektno orjentiranih, integriranih,vremenski ovisnih i nepromjenjivih podataka za podršku poslovnomodlučivanju (W.H. Inmon)

William H. Inmon, tvorac pojma skladište podataka, "The Father of Data Warehousing, 1990.Svoj koncept skladištenja podataka u informacijskom sustavutvrtke nazvao jeCorporate Information FactoryKao poduzetnik osnovao tvrtke Prism Solutions, Pine Cone Systems (Ambeo) i Inmon Data Systems, Inc.Kreirao portal za edukaciju o skladištenju podataka www.inmoncif.com. Najpoznatija knjiga: BUILDING THE DATA WAREHOUSE, FOURTH EDITION, John Wiley and Sons, New York, 2005.

Izvor: www.inmoncif.com, 2017.

6

Zašto skladište podataka▪ poslovna inteligencija izvodi se iz podataka što nastaju tijekom redovitogposlovanja tvrtke

▪ zbog obima, ti se podaci svake godine arhiviraju, brišu i u bazi podataka ostaju samo podaci tekuće godine

▪ osim toga, podaci u bazi moraju biti ažurni, pa se stari podaci zamjenjujunovima (npr. stare cijene, stare količine na skladištu ili u prodavaonici se zamjenjuju novima), i tada se starim vrijednostima gubi trag u bazi

▪ za operativno vođenje poslovanja stare vrijednosti npr. količina naskladištu nisu važne, ali su važne za poslovnu inteligenciju koja prati vremenski redosljed zbivanja pojedinih poslovnih događaja

ZAKLJUČAK - transakcijske baze više nisu dovoljne, javlja se potreba za

SKLADIŠTEM PODATAKA

7

Razlika između skladišta i baze podataka▪ Baza podataka je organizirani skup podataka, a kod relacijskih baza podaci su u povezanim tablicama.

▪ Skladište nisu nagomilani svi podaci iz baza podataka proteklih godina. U skladištima se arhiviraju neki podaci iz baze podataka, za koje se smatra da su važni za analize (relevantni) i oni se prebacuju periodično iz baze u skladište pomoću ETL procesa.

▪ Podaci u skladištu se organiziraju u višedimenzionalne kocke (eng. cubes), na način da postoje tablice sa metapodacima, sumarnim dimenzijskim podacima (dimenzion tables) i sirovim podacima (fact tables).

▪ Podaci u skladištu su trajni i vežu se uzvrijeme nastajanja kako bi se mogle raditi analize.

▪ Cilj skladišta podataka nije operativnostposlovanja, nego stvoriti što bogatiji izvorinformacija za različite dugoročne ikratkoročne analize i predviđanja.

Primjer organizacije skladišta podataka (Izvor: Quora, 2017.)

Primjer organizacije baze podataka (Izvor: W3Resourse, 2017.)

8

Obilježja skladišta podatakaPrema (Panian, Klepac, 2003), skladište je onaj “oblik baze podataka kojemu su svojstvena sljedeća 4 obilježja:”

➢ usmjerenost predmetima (funkcionalnim područjima)

➢ sadržajna nepromjenjivost

➢ integriranost

➢ vezanost uz vrijeme (vremenska određenost)

Slika: Razlika između baze podataka i skladišta podatakaIzvor: Infotrend, http://www.infotrend.hr/clanak/2009/7/temelj-procesa-odlucivanja,41,810.html, 2017.

9

Kako nastaje skladište podataka?

10

Što su ETL procesi?ETL (Extraction, Transformation, Load) je skup procesa koji ima za ciljekstrahirati odnosno zahvaćati ili vaditi (engl. Extract), transformiratiodnosno preoblikovati (engl. Transform) i puniti ili unositi (engl. Load) podatke iz jednog ili više transakcijskih sustava u skladište podataka.

11

Uloga ETL procesa▪ ETL procesi su nužni kada se podaci prebacuju iz baze podataka u skladištepodataka. To se prebacivanje odvija u redovitim vremenskim razmacima, npr. jedanput dnevno ili u drugom vremenskom razmaku.▪ ETL procesi počinju pripremom podataka, koja uključuje:▪ reformatiranje (podaci koji su u datotekama s različitim formatima se svode na isti format

kako bi se mogli koristiti u daljnjim fazama obrade) - npr. formati različitih baza, excelformati, .txt formati i dr.

▪ usklađivanje (neki podaci su redundantni, pa ih treba otkriti i uskladiti, a nekiinkonzistentni (nedosljedni), pa njihove vrijednosti treba ujednačiti) – npr. može se desiti da se ista prodavaonica vodi pod dvije različite šifre, ili da se naziv istogproizvoda ne podudara u svim tablicama baze

▪ čišćenje (ukloniti “prljave” podatke koji su nastali zbog ranijih grešaka u radu sustavaili su namjerno ubačeni) – npr. razni probni podaci, pogrešno uneseni, ili virusi)

12

ETL procesiProgramski alati za ETL vrše:

▪ ekstrakciju – omogućuju korisniku izbor relevantnih podataka iz baze koji će se pohraniti u skladište (koji podaci o klijentima, računima, proizvodima, narudžbama, prodaji, zalihama itd.)

▪ transformaciju – prijenos podataka u format koji odgovara skladištu(reformatiranje, usklađivanje i čišćenje podataka iz baze) – oduzimaju 80% vremena cijelog ETL procesa

▪ punjenje skladišta – incijalno punjenje, punjenje povijesnih podataka iinkrementalno punjenje

Nakon što se završi inicijalno punjenje i punjenje povijesnih podataka, programi za inkrementalno punjenje se pokreću periodički (dnevno ili tjedno ili mjesečno) istalno pune skladište podataka novim relevantnim podacima iz baze.

13

Arhitektura skladišta podatakaDanas su u upotrebi 3 osnovne arhitekture skladištapodataka (Panian, Klepac, 2003):

▪ dvoslojna s jednim zajedničkim skladištem podataka(Izvori podataka + Data Warehouse)

▪ dvoslojna s većim brojem nezavisnih lokalnih spremišta podataka (Izvori podataka + Data Marts)

▪ troslojna s jednim skladištem i većim brojem spremišta

(Izvori podataka + Data Warehouse + Data Marts)

Najviše u upotrebi: troslojna arhitektura

14

Troslojna arhitektura skladišta

15

Karakteristike troslojne arhitekture▪Veći broj lokalnih spremišta podataka (Data Marts) povezan je u jedno skladište podataka

▪ Skladište je pozicionirano između lokalnih spremišta i izvora podataka

▪ U skladište se pohranjuju podaci iz baza podataka tvrtke da bi se ondaisporučivali lokalnim spremištima u jedinstvenom usklađenom formatu

▪ Lokalna spremišta podatke dobivene iz skladišta agregiraju i sažimajuprema kriterijima koje diktiraju njihove lokalne aplikacije (tj. uzimaju one podatke koji im trebaju, po potrebi ih sintetiziraju)

▪ Lokalna spremišta su zavisna o skladištima, jer jedino preko njihdobivaju podatke

16

Prednosti i nedostaci skladišta podataka

Prednosti:

▪ radno opterećenje informatičara se smanjuje (jer su podaci već usklađeni u skladištu, pa se u spremištu samo preuzimaju)▪ više mogućnosti dodavanja novih aplikacija unapređenje točnosti ipreciznosti informacija (jer sve potiču iz jednog skladišta)▪ manje poteškoća u komunikaciji i suradnji org. jedinica i dijelova tvrtke naposlovima koje treba obavljati zajednički▪ moguće korištenje aplikacija koje nadilaze okvire tvrtke (povezivanje sadobavljačima i kupcima u lancu vrijednosti)

Nedostaci:

▪ razmjerno visoki troškovi uspostavljanja zajedničkog skladišta na razinitvrtke (da bi se ovaj nedostatak otklonio, radi se postupna (inkrementalna) izgradnja skladišta: najprije se kreira prvo spremište, zatim miniskladište, tese radi postupno dodavanje novih spremišta i aktiviraju nove aplikacije, a na kraju dolazi do osamostaljenja “pravog” skladišta)

17

Dimenzijski model podataka u skladištu

▪Svako funkcionalno područje poslovanja može se promatrati kroz višedimenzija

▪ Ako npr. prodaju želimo promatrati prema vrstama proizvoda,prodavaonicama i vremenu, tada će se u skladištu podaci formirati utrodimenzionalnu kocku, gdje će se promatrati kroz te 3 dimenzije

Proizvodi (ili artikli)

18

Kako su podaci u skladištu organizirani?Podaci s kojima se vrši grupiranje činjeničnih podataka

Npr. prodaja se može grupirati po prodavaonicama, po artiklima,vremenskim razdobljima, i dr., pa tako postoje dimenzijske tablice oprodavaonicama, artiklima, vremenskim razdobljima.

19

Faze u izgradnji skladišta podataka1. odabrati platformu (DBMS) – npr. Oracle, SQL Server ili dr. (najboljeonaj sustav koji se već koristi ako omogućuje i skladištenje)

2. definiranje potrebnih podataka u skladištu i grupiranja podataka

3. definiranje strukture skladišta (obavljaju projektanti)

4. ETL procesi – ekstrakcija, transformacija, punjenje -inicijalnoučitavanje podataka u skladište (initial load)

5. automatizirano osvježavanje podataka u jednakim vremenskim razmacima (incremental load)

6. određivanje metapodataka (tko popunjava podatke, što, kada, kako) iautorizacija pristupa

7. analize (kreiranje upita i izvještaja) – generatori izvještaja, OLAP i kopanje podataka (Data mining)

20

Alati za skladištenje▪ vodeći proizvođači DBMS sustava i statističkog softveranude svoja rješenja (npr. Oracle, Microsoft, SAS)

▪ veći ERP-ovi također nude svoje OLAP servere (npr. SAP)

▪ specijalizirane tvrtke koje se bave proizvodnjom alata za poslovnu inteligenciju i skladištenje podataka temeljenog naOLAP server-u (neki od proizvoda su:▪Cognos, SoftPro Manager, WebIntelligence)

▪ postoje rješenja koja rade u lokalnoj mreži i rješenja za web (Web enabled OLAP)

21

Razine analize podataka u skladištu1. generiranje statičnih izvještaja

▪ ukoliko iz skladišta podataka trebamo samo izvještaj u tabličnom ili grafičkomformatu o postojećim podacima, dovoljan alat su generatori izvještaja (npr. Microsoft Crystal Reports ili Oracle Reports), koji jednostavno iz baze prikazujupodatke filtirirane, sortirane ili sumirane po nekim kriterijima.

2. OLAP (On-line analytical processing)

▪ Složenije analitičke obrade podataka po različitim dimenzijama, rade se kodrelacijskih baza na OLAP tehnologiji (npr. ukoliko želimo dobiti podatke o prodajiauta “Mazda 323” s klimauređajem u Osijeku petkom poslijepodne). Za prikaz podataka. OLAP koristi najčešće trodimenzionalne kocke (cubes).

3. rudarenje (kopanje) podataka (Data mining)

▪ najsloženiji dio obrade podataka, podrazumijeva sofistirane metode za traženjeskrivenih zakonitosti među podacima.

22

Što je OLAP▪ OLAP (Online Analytical Processing) je skupina alata za izvođenje znanja iz skladišta podataka jednostavnom analitikom (najčešće filtriranjem i sumiranjem) na podacima

▪ naziv OLAP dao je britanski matematičar E.F.Codd (autor relacijskog modelapodataka) čime se naglašava da je svrha ovih alata u analitici, a ne u transakcijskom bilježenju podataka kao u bazi podataka

▪ OLAP predstavlja konceptualni i intuitivni model zasnovan na multidimenzijskoj analizi podataka (gledanje podataka kroz veći broj filtara, odnosno dimenzija)

▪ OLAP omogućuje obavljanje vrlo brzih analiza – korisnici (manageri) postavljaju pitanja (upite) i dobivaju odgovore (izvještaje) u vrlo kratkom vremenu

▪ OLAP sadrži vrlo robusne sposobnosti računanja:o jednostavna pretraživanja i navigacije,

o proračune (kalkulacije)

o složenije analize, npr. analize vremenskih nizova, predviđanja, modeliranje

▪ OLAP pokriva razine: podataka, informacija i znanja (poslovne inteligencije)

23

Arhitektura OLAP alataOLAP alat sastoji se od:• OLAP poslužitelja (servera) – nalazi se između korisnika i skladištapodataka, omogućava pohranjivanje podataka u obliku višedimenzijskihmodela (najčešće 3D kocki i tablica), instaliran je na poslužitelju• OLAP klijenta (korisnika) – omogućuje korisniku postavljanje upita napodacima iz kocki i tablica, te dobivanje grafičkih i tabličnih izvještaja,instaliran na korisničkim računalima ili na webu

24

Arhitektura alata za skladištenjepodataka

25

Uloga OLAP-a u skladištu podataka

▪ Koristeći podatke iz skladišta podataka, OLAP alati omogućujupostavljanje upita na podacima, dobivanje izvještaja, te analizepodataka (jednostavne i složenije) kao npr. ABC analiza, trend kretanja, predviđanja, i dr.

▪ OLAP alati omogućuju obrade višedimenzijskih i hijerarhijskih podataka

▪ OLAP omogućuje neograničeni broj različitih kombinacija tablica i izvještaja, te tako olakšava menadžerima dostupnost informacija

▪ Menadžer ne može unaprijed predvidjeti koje izvještaje i podatke će trebati, a u OLAP-u ih može sam vrlo jednostavno kreirati po potrebi (tzv. Ad-hoc izvještaji)

▪ Zbog svoje vezanosti za skladište, OLAP se često koristi kao sinonim za skladištenje podataka.

26

Metode dimenzijske analize u OLAPu▪ Slicing - raslojavanje (horizontalni presjek kocke)

▪ Dicing – presijecanje (vertikalni presjek kocke)

▪ Drilling – bušenje (dizanje analize na jednu razinu više ili spuštanje nanižu razinu grupiranja proizvoda, tržišta, ili vremena)

▪ Pivoting (rotating) – zaokretanje tablice tako da se podaci iz retkapremjeste u stupac i obrnuto

27

OLAP alati na tržištuNa tržištu su najpoznatiji ponuđači OLAP alata odnosno softvera za skladištenje podataka (prema http://www.skladistenje.com/ponudaci/):

▪SAP (Business Objects, HANA In-Memory baza podataka, NetWeaver integracijska platforma čiji je vitalan dio Business Information Warehouse (BW))

▪ SAS (platforma za Datawarehousing i Datamining, upravljanje rizicima, CRM, prediktivna analitika)

▪Microsoft (nudi OLAP server za DW, dok klijente omogućuju partneri, npr. SoftPro Tetral)

▪Oracle (Data Integrator i alati Oracle BI, Hyperion za poslovnu analitiku)

▪ IBM (Business Analytics uključuje Cognos, SPSS i GRC platforme, te Integration Managment)

Hrvatski proizvodi:▪ SofProTetral (Cube Player klijent program za DW, temelji se na Microsoft SQL

serveru)

▪ Qualia (BusinessQ platforma za izvještavanje i dashboarding)

28

Alati za skladištenje - Cognos

29

▪ IBM Cognos Analytics – integrirano rješenje za izvješćivanje

▪ podržava inteligentno pretraživanje (kontekstualizirano)

▪ intuitivno sučelje, drag and drop kreiranje ad-hoc izvješća

▪ automatizirane preporuke izvješća i vizualizacije ovisno o vrsti podataka

Cognos screenshot (Izvor: IBM, https://www.ibm.com/products/cognos-analytics/overview, 2017)

Alati za skladištenje – Cube Player▪ hrvatski proizvod, temelji se na Microsoft SQL server bazi i OLAP serveru

30

Cognos screenshot (Izvor: SoftPro Tetral,http://www.softpro.hr/Products/CubePlayer/Dashboard/tabid/115/Default.aspx , 2017)

Upiti za ad-hoc izvješća u OLAP alatuUkoliko su menadžeru potrebni neki podaci iz skladišta složeni u tablicea za koje ne postoje unaprijed kreirana izvješća, može ih sam kreirati:

▪ postavit će upit (Query) iz skladišta (queries) putem MDX tehnologije(klikom miša, bez poznavanja SQL jezika), izabrati koje podatke želi u tablicama, koju razinu grupiranja, i kako okrenute (što u retcima, što u stupcima)

▪ odmah dobiva označene minimalne i maksimalne vrijednosti u tabliciradi uvida u kritične točke (eventualna mala prodaja nekih odjela ilinekih prodavaonica, ili dana u tjednu i sl.), te postotne vrijednosti

▪ ako treba rotirati tablicu, dobiti podatke na višoj ili nižoj razini, aktiviratće rotaciju, Drill-down ili Drill-up

▪ izabrati odgovarajuće vizualizacije (grafička izvješća)

31

Primjeri analiza u OLAP alatu▪ U OLAP alatima, osim operacija upita na podacima (kroz slicing, dicing, pivoting), moguće je napraviti i druge naprednije statističke analize:

▪ABC analiza ▪ obično se provodi za proizvode, ili dobavljače, ili kupce s ciljem uvida u

njihovu značajnost u poslovanju. Polazi od pretpostavke da oko 30% prometaotpada na jednog ili dva najznačajnija proizvoda, ili dobavljača, ili kupca (ilinjih 3%), što čini segment A analize, segment B sastoji se od nekolikočlanova (oko 15%) na koje otpada oko 50% prometa, dok segment C čini većibroj članova (oko 80%) koji imaju mali pojedinačni doprinos prometu, s uk.udjelom oko 20%

▪ Cilj ove analize je identificirati najznačajnije aktere u poslovanju (dobavljače, kupce ili proizvode) kako bi se prema njima postavile strateške akcije

▪ Trend analize – analiziraju trend kretanja nekih pojava grafički

▪ Analiza rangova – analizira rang prodavaonica, proizvoda i dr. po prodaji, profitu i dr. veličinama, kao i vremensku stabilnost tog ranga

32

Kako koristiti skladište podataka u ciljupovećanja uspješnosti tvrtke?▪ skladište omogućuje koncept upravljanja pomoću informacija – informacije postajuosnovni resurs poslovanja koji ostvaruje konkurentsku prednost i dodaje novuvrijednost

▪ skladište smanjuje troškove (potrebnih informatičkih stručnjaka za izradu izvještaja, administrativnih troškova i dr.) i vrijeme potrebno za dobivanje informacije o poslovanju

▪ koristiti skladište putem web-a - internetske tehnologije omogućuju brzinu, raspoloživost i dostupnost relevantnih informacija svim djelatnicima tvrtke, klijentima ipartnerima

▪ osnovnu razinu korištenja skladišta (za izvještavanje o stanju tvrtke i procesa) trebaprevazići korištenjem skladišta za ostvarivanje poslovnih ciljeva (Management by Objectives)

33

Rudarenje podatakaRudarenje podataka (engl. Data mining) je postupak otkrivanja skrivenih veza u podacima uporabom naprednih numeričkih metoda.

Cilj rudarenja podataka je identificirati vrijedne nove, potencijalnokorisne veze i uzorke u postojećim podacima (Jackson, 2002)

Rudarenje podataka uključuje primjenu metoda:

▪ numeričke analize

▪ traženje uzoraka i strojno učenje,

▪ stabla odlučivanja, neuronske mreže, genetički algoritmi i dr.

34

Data Mining i Data Warehousinga) ako DW postoji, DM može biti dio DW

b) ako DW ne postoji, DM se može koristiti na raspoloživoj bazi podatakaData Mining i Data Warehousing

Što se može napraviti data mining-om:

▪ segmentirati tržište

▪ otkriti profil tipičnog klijenta određene vrste proizvoda

▪ sklonosti klijenta kupnji i motivatore za cross selling

▪ napraviti model potrošačke košarice (market basket) detektirati potencijalne prijevare na prodajnim mjestima

▪ predvidjeti trendove pojava, npr. kretanja profita

▪ otkriti sličnosti među tržišnim kategorijama, i dr.

35

Primjeri upotrebe rudarenja podataka▪ Ako smo vlasnik ili manager u lancu trgovina i želimo saznati postoji li pravilnost u trendovima prodaje u nekoj od trgovina početkom tjedna ili krajem tjedna i zašto

▪ ili želimo saznati da li će se povećati prodaja nekog artikla X ako se prodaje u paru s artiklom Y

▪ Ako smo manager u banci i želimo saznati profil klijenata koji ćevjerojatno otići u minus na tekućem računu ili profil onih koji nećevraćati kredit

▪ Ako smo vlasnik proizvodne tvrtke i želimo znati koje su karakteristike proizvoda koje imaju prođu na tržištu, i dr.

36

Primjer prognoziranja cijene dionica

37

Kako koristiti rudarenje podataka za poslovne ciljeveRudarenje podataka, kao i skladištenje treba biti u službi ostvarivanja poslovnih ciljeva.

Ako je npr. cilj tvrtke povećati stopu odgovora na reklame za njihove proizvode (engl. Response rate), rudarenje podataka može se koristiti u za segmentiranje potrošača kako bi se identificirale skupine potrošača koje više zanimaju određeni proizvodi, i njima slale ciljane reklame za te proizvode, što je zapravo ciljani (Target marketing).

Stopa reakcije na reklame putem pošte koje su iste za sve kupce je prosječno oko 2%. DM može pomoći u smanjivanju ovog uzaludnognapora i troška predviđanjem reakcije potrošača, i time slanjem reklama samo onim skupinama za koje postoji velika vjerojatnost da će kupitiproizvod.

38

Primjeri primjene rudarenja podataka

▪ Trgovina - Potrošačka košarica – za identificiranje artikala koji se kupujuzajedno, za određivanje načina oglašavanja artikala, za predviđanjeefektivnosti promocije i reklame

▪ Banke i osiguravajuće kuće – za identificiranje “dobrih” i “loših” klijenata

▪ Medicinske ustanove – za predviđanje uspješnosti operacija, medicinskih testova, ili lijekova

▪ Proizvodne tvrtke – za procjenu vjerojatnosti kvarova proizvoda

39

Metode koje se koriste u rudarenju podataka

Za potrebe rudarenja podataka (traženja skrivenih zakonitosti) mogu se koristiti različite metode:

▪ Statističke metode: deskriptivne i vizualizacijske tehnike, klasteranalize, korelacijske analize, diskriminantna analiza, faktorska analiza, regresijska analiza, logistička regresija i dr.)

▪ Metode strojnog učenja:▪ Neuronske mreže (Neural Networks)

▪ Zaključivanje na temelju slučajeva (Case-Based Reasoning – CBR)

▪ Genetički algoritmi (Genetic Algorithms)

▪ Stabla odlučivanja (Decision Trees)

▪ Metoda potpornih vektora (Support Vector Machines)

▪ Asocijacijska pravila (Association Rules) i Link analiza

▪ i druge metode

40

Vrste problema u rudarenju podataka

U rudarenju podataka obično se rješavaju ove vrste problema:▪ Sumiranje podataka

▪ Segmentacija

▪ Klasifikacija

▪ Predviđanje

▪ Asocijacija (prepoznavanje uzoraka)

▪Ovisno o problemu koji se rješava, potrebno je izabrati odgovarajuću metodu za rudarenje podataka.

41

Alati za rudarenje podatakaZa rudarenje podataka mogu se koristiti različiti alati, pa i neki od alata koji se koriste za skladištenje (DW) namijenjeni su i za rudarenje, ovisno o metodama koje su podržane u alatu. Rudarenje općenito zahtijeva naprednije statističke metode i metode strojnog učenja.

Na raspolaganju su:

▪Statistički softverski paketi (npr. SAS, Statistica, SPSS, R, i dr.)

▪ Matematički softverski paketi (npr. MathLab, Matematica)

▪ Alati uključeni u skladištenje podataka (OLAP) ili sustav za upravljanje bazom podataka (od ponuđača IBM, Microsoft, SAP, SAS, i dr.)

▪ Specijalizirani alati za rudarenje podataka (npr. Weka, Alteryx, DataMiner, i sl.)

42

Trendovi razvoja DW i DM ▪ Metode skladištenja i rudarenja podataka sve više postaju integrirane u softverske pakete temeljnog informacijskog sustava tvrtke - novije verzijerelacijskih baza podataka (kao npr. Oracle i SQL server) imaju dio za DataWarehousing integriran u svom paketu kao OLAP

▪ managerima nije potrebno angažirati poseban tim analitičara za obraduključnih pokazatelja o stanju tvrtke, već takve podatke klikom miša mogu dobitiobrađene iz baze podataka, te koristiti kao potporu u donošenju poslovnihodluka, odnosno kao dio svog DSS-a.

▪ ekstranet postaje infrastruktura poslovne inteligencije u lancu vrijednosti tvrtke

▪ trend tzv. samposluživanja – tvrtke svojim klijentima omogućuju da sve višeposlova s njom obavljaju sami koristeći korporacijski web portal

▪ načela upravljanja prema ciljevima (Management by Objectives) će bitipodržana mogućnostima online pristupa bazama i skladištima podataka, krozalate poslovne inteligencije

▪ koncept skladišta podataka usklađivanjem podataka omogućuje jedinstvenuistinu o tvrtci, š to povećava kredibilitet informacijskog sustava

43

Trendovi razvoja DW i DMTermini poput skladištenja podataka i rudarenja podataka polako se sve manje koriste, a umjesto njih sve više su u uporabi novi termini:

▪ Podatkovna analitika (engl. Data Analytics)

▪ Poslovna analitika (engl. Business Analytics)

▪ Big Data platforma kao novi oblik velikih baza podataka u oblaku, organiziranih u klastere, uz alate za brzo pretraživanje podataka

(više o tome u sljedećem poglavlju)

44

Izvor: SAS, 2017

Literatura▪ G. Klepac, L. Mršić, Poslovna inteligencija kroz poslovne slučajeve, Lider, Tim Press, Zagreb, 2006.

▪ Ž. Panian, G. Klepac, Poslovna inteligencija, Masmedia, Zagreb, 2003.

▪ V.Čerić, M., Varga, Informacijska tehnologija u poslovanju, Element, Zagreb, 2004., poglavlja 13-16.

▪T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning, Data Mining, Inference, and Prediction, Springer, Second Edition, 2013.

▪ F. Provost, T. Fawcett, Data Science for Business, What You Need to Know about Data Mining and Data-Analytic Thinking, O'Reilly Media, 2013.

▪ S. J. Russell, P.Norvig, Artificial Intelligence: A Modern Approach, Prentice Hall; 2nd edition, 2002.

▪ I.H. Witten, E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementation. Morgan Kaufman Publishers, San Francisco, CA, 2000.

▪ C. Bishop, Neural Networks and Machine Learning, Springer Verlag, Berlin, 1998.

▪ D. Graupe, Principles of Artificial Neural Networks (2nd edition), Advanced Series in Circuits and Systems -Vol. 6, World Scientific, Singapore 2007.

▪ J. Jackson, Data Mining: A Conceptual Overview, Communications of the AIS, Volume 8, 2002, pp. 267-296.

▪ M. Prević, Što je poslovna inteligencija, InfoTrend, Broj 134, Studeni 2005,http://www.trend.hr/clanak.aspx?BrojID=43&KatID=5&ClanakID=504, 10.04.2008.

▪Zekić-Sušac, M., Has, A., Predictive analytics in Big Data platforms – comparison and strategies, MIPRO BIS 2016, Opatija, Hrvatska

45

Literatura - web izvori▪ B. Inmon, Corporate Information Factory, http://www.inmoncif.com/home/, 10.10.2017.

▪ Business Intelligence, Poslovna inteligencija ili poslovna analitika?, https://sqlbicro.wordpress.com/2013/04/21/poslovna-inteligencija-ili-poslovna-analitika/, 11.10.2017.

▪ FinanceOnline, Pros and Cons of Grow BI: A Business Intelligence Solution for the Power User, https://financesonline.com/pros-cons-grow-bi-business-intelligence-solution-power-user/, 11.10.2017.

▪ Gartner, Business Intelligence (BI), http://www.gartner.com/it-glossary/business-intelligence-bi/, 11.10.2017.

▪ J. Heinze, Business Intelligence vs. Business Analytics: What’s The Difference?, https://www.betterbuys.com/bi/business-intelligence-vs-business-analytics/, 10.10.2017.

▪ W3Resource, MySQL Create Database, https://www.w3resource.com/mysql/creating-using-databases-tables/what-are-database-and-tables.php, 12.10.2017.

▪ SAS, Big Data Analytics, https://www.sas.com/en_us/insights/analytics/big-data-analytics.html, 10.10.2017.

▪ Skladistenje.com, http://www.skladistenje.com/, 11.10.2017.

▪ S. Russell, P. Norvig, AI on the web, http://aima.cs.berkeley.edu/ai.html, 14.11.2013.

▪ Poslovni dnevnik, Nijemcima najveći izazov kineska i ruska industrijska špijunaža, http://www.poslovni.hr/svijet-i-regija/nijemcima-najveci-izazov-kineska-i-ruska-industrijska-spijunaza-230961, 18.02.2013.

▪ InfoTrend, Infotrend, http://www.infotrend.hr/clanak/2009/7/temelj-procesa-odlucivanja,41,810.html, 2017.

▪ Quora, What is a datawarehouse, https://www.quora.com/What-is-a-data-warehouse#!n=18, 10.10.2017.

46