19
S A D R Ž A J str. I. UVOD I.1. Uvod 2 I.2. Što je rudarenje podataka? 2 II. SADRŽAJ II.1. Uporaba rudarenja podataka 3 II.2. Metode rudarenja podataka 5 II.2.1. Metoda najbližeg susjeda 5 II.2.2. Metoda grupiranja 5 II.2.3. Asocijativna pravila 5 II.2.4. Stabla odlučivanja 6 II.2.5. Neuronske mreže 6 II.2.6. Genetski algoritmi 6 II.3. Programi za rudarenje podataka 7 II.4. Programski alati Data Mininga 7 II.5. Proces rudarenja podataka 8 II.6. Tko su sudionici u procesu Data Mininga? 9 II.7. Tko traži stručnjake u Data Miningu? 9 II.8. Primjeri rudarenja podataka 12 III. ZAKLJUČAK 13 Odbijen 312 3,5 Prodavač 33 Odobren 228 6 Menadžer 43 Odobren 195 3,5 Konobar 37 Odbijen 124 0 Kuhar 24 Odobren 440 8,5 Vozač 50 Zahtjev Mjeseč ni troško vi God. staž a Zaniman je Starost u god.

Data Mining - Rudarenje Podataka

Embed Size (px)

Citation preview

Page 1: Data Mining - Rudarenje Podataka

S A D R Ž A J

str.

I. UVODI.1. Uvod 2I.2. Što je rudarenje podataka? 2

II. SADRŽAJII.1.Uporaba rudarenja podataka 3II.2.Metode rudarenja podataka 5

II.2.1. Metoda najbližeg susjeda 5II.2.2. Metoda grupiranja 5II.2.3. Asocijativna pravila 5II.2.4. Stabla odlučivanja 6II.2.5. Neuronske mreže 6II.2.6. Genetski algoritmi 6

II.3.Programi za rudarenje podataka 7II.4.Programski alati Data Mininga 7II.5.Proces rudarenja podataka 8II.6.Tko su sudionici u procesu Data Mininga? 9II.7.Tko traži stručnjake u Data Miningu? 9II.8.Primjeri rudarenja podataka 12

III. ZAKLJUČAK 13

IV. LITERARURA14

Page 2: Data Mining - Rudarenje Podataka

I. U V O D

Svako poduzeće ili bilo kakve organizacije prikupljaju velike količine podatakapotrebnih za svoje poslovanje. Međutim, nas zanima, postoje li još nekakve dodatne informacije u tim već prikupljenim i poznatim podatcima koje mogu biti korisne za poslovanje nekog poduzeća. Možemo li iz "iskopanih" podatka "iskopati" još korisnih informacija?

Rudarenje podataka koristi metode koje su poznate u statistici, umjetnoj inteligenciji, matematici i računovodstvu radi automatiziranog otkrivanja skrivenih modela i uzoraka podataka u velikim količinama podataka. Svrha ovog proces jest predvidjeti ponašanje u budućim poslovnim događajima osnovi znanja otkrivenog u podatcima1.

1.2. Što je rudarenje podataka?

Rudarenje podataka (eng. data mininig) je proces pronalaženja novog i potencijalno korisnog znanja iz podataka, odnosno kao otkrivanje ili “rudarenje” znanja iz velike količine podataka. Bolji bi izraz možda bio “rudarenje znanja iz podataka”, gdje se rudarenje odnosi na ono što se pronalazi kao rezultat tog procesa.

Rudarenje podataka je prirodna evolucija tehnologije, a koja upotrebljava koncepte, metode i tehnike različitih disciplina kao što su baze podataka, statistika i umjetna inteligencija. Tehnologija baza podataka se razvila iz primitivnih u sofisticirane i moćne sustave baza podataka kakve danas poznajemo. Taj razvoj omogućio je bilježenje i sakupljanje ogromnih količina podataka što je neizbježno dovelo i do potrebe obrade i analize tih podataka, a sve u svrhu dobivanja korisnih informacija i znanja. Današnja informacijska tehnologija omogućila nam je bilježenje svake aktivnosti u obliku digitalnih podataka, a količina sakupljenih podataka u mnogim bazama mjeri se u gigabajtima ili terabajtima. Ogromne baze podataka bogate su podacima, ali i siromašne informacijama koje su skrivene u pohranjenim podacima. Upravo je rudarenje podataka to koje pomaže otkriti važne informacije i znanje utkano u podatke, uvelike pridonoseći donošenju odluka, poslovanju i znanosti. Rudarenjem se također otkrivaju odnosi, logičnost, pravilnost te općenito bilo kakve strukture među podacima. Rudarenje podrazumijeva organiziranje baza čišćenjem podataka kako bi se pristupilo znanju i stjecanju istog na temelju postojećih podataka u bazama. Razvoj tehnologije, računala, interneta bitno doprinosi lakšem organiziranju podataka, no da bi oni postali korisni, potrebno je njihovo pretvaranje u informacije i znanje.

Termin rudarenja često se poistovjećuje sa 2 različita procesa: otkrivanje i predviđanje znanja. Proces otkrivanja znanja implicira korisnikovo razumijevanje eksplicitnih informacija za koje je bitno da su u čitljivom obliku. Predviđanje se odnosi na buduće događaje i u nekim pristupima može biti čitljivo i prozirno dok u drugim neprovidno.

1 V. Čačić, M. Varga, Informacijska tehnologija u poslovanju, Element, Zagreb, 2004

1

Page 3: Data Mining - Rudarenje Podataka

II. S A D R Ž A J

2.1. Uporaba rudarenja podataka

U poslovanju rudarenje podataka se najviše koristi na području marketinga, koji je usmjeren sve više pojedinačnom kupcu – upravljanje odnosima s kupcima (eng. Customer Relationship Management – CRM) koje je usmjereno stvaranju, održavanju ili poboljšavanju odnosa s kupcima. Cilj ove pojedinačne usmjerenosti na kupca jeste pridobivanje novih kupaca i zadržavanje starih kupaca. CRM pokušava uvidjeti želje i potrebe kupaca, razumjeti njihovo ponašanje te predvidjeti buduće ponašanje. Na ovom području rudarenje podataka je posebno učinkovito, naravno uz dovoljnu količinu kvalitetnih podataka o kupcu.

U marketingu, rudarenje podataka se najviše upotrebljava za:

► direktni marketing – npr., katalozi i ponude različitih artikala se šalju kupcima za koje postoji najveća vjerojatnost odaziva; pozivi upućeni starijim generacijama (ugl. umirovljenicima) na prezentacije od 10-ak ljudi gdje prodajni putnici prodaju različite proizvode po " tvorničkoj cijeni samo za njih večeras".Npr. prodaju proizvode od merino vune, proizvode koje ne štete našem zdravlju.

► izradu profila kupaca – utvrđuje se uzorak ponašanja kupaca da bi mu se kasnije poslala prilagođena ponuda. Npr. neće D&G slati svoje kataloge s odjećom po Retfali.

► segmentaciju – utvrđivanje grupa kupaca s jednakim karakteristika (uzorkom ponašanja)

► istraživanje povezanosti prodaje različitih proizvoda – analiza kupovne košarice što se može npr. upotrijebiti za raspoređivanje artikala na policama. Npr. u diskontu gdje se prodaju tehničke olovke, kraj njih će sigurno stajati i špicevi za te iste tehničke. Ili, kraj mapa za crtanje/likovni, u blizini te police sigurno će nalaziti vodene boje, tempere i sl.

► stimulacija kupovine drugih artikala istog poduzeća, odnosno veće količine sitih artikala, što može nadoknaditi pridobivanje novih kupaca. Kako ćemo ovo postići? Naš primjer bio npr. uz 2 kupljena Ariel-a (praška za rublje) dobivate na poklon omekšivač za rublje koji je stigao kao gratis u to poduzeće (ali kupci to naravno ne znaju).

► zadržavanje kupaca – ovo je puno jeftinije od pridobivanja novih kupaca.

Za primjer možemo uzeti slanje reklamnih materijala te njihov odaziv na te kataloge.Postoje 2 mogućnosti kome ćemo kataloge uputiti, hoćemo li ih izabrati nasumično ili uz pomoć metode rudarenja podataka.

2

Page 4: Data Mining - Rudarenje Podataka

Sl.1. Povećanje odaziva upotrebom rudarenja podataka2

Puna linija pokazuje odaziv kod nasumičnog izbora primatelja reklamnog materijala te je onda linearna jer se od 10000 primatelja bilo 2000 odaziva. Crtkana linija pokazuje mogući odaziv ako su primatelji odabrani procesom rudarenja podataka. To znači da od 5000 primatelja, odazvalo bi se njih 1800. Znači, posljedica rudarenja podataka su niži troškovi, jer je potrebno slati manje podataka za isti učinak.

Također jedan od primjera uspješne upotrebe rudarenja podataka je bio u području mobilne telefonije. Kod posebno odabranih odaziv je bio 15%, a kod nasumičnih 3%.

Osim na području marketinga, rudarenja podataka se koristi na području bankarstva ( prognoze loših platiša kreditnih rata, prognoze vrijednost dionica) i osiguranju (prognoze broja i vrijednosti naknada za štetu, prognoze zloupotreba).

Također razvijaju se rudarenja Weba (analiza podataka o posjeti Web stranica i analiza putova kojim posjetitelji dolaze do portala s podatcima) i rudarenje tekstova (analiziraju se tekstovi i unutar njih traže uzorci i pravila koji se koriste pri kategorizaciji članaka po područjima, otkrivanju autorstva i sl.)

2 V. Čačić, M. Varga, Informacijska tehnologija u poslovanju, Element, Zagreb, 2004

3

Postotak odaziva

100 90 80 70 60 50 40 30 20 10 10 20 30 40 50 60 70 80 90 100 postotak primatelja reklamnog materijala

 

- - - - - nasumičan odabir ________ odabir uz pomoć rudarenja

Page 5: Data Mining - Rudarenje Podataka

2.2. Metode rudarenja podataka

U rudarenju podataka koriste se metode već poznate iz statistike, amtematike i računovodstva. Među njima se najčešće koriste:

2.2.1. Metoda najbližeg susjeda

Ova metoda omogućuje automatsko klasificiranje dokumenata npr. kad čitatelj pronađe neki zanimljivi članak, pomoću ove metode može pronaći i druge slične članke

Npr.

[PDF] Koraci otkrivanja znanja Kor aci otkrivanja znanja Koraci ... Format datoteke: PDF/Adobe Acrobat - Prikaži kao HTMLMetode rudarenja podataka. Najčešće:. metoda najbližeg susjeda. Prognozira se vrijednost određenog svojstva promatrane jedinke, tako ...web.efzg.hr/mvarga/BP-rudarenje%20podataka.pdf - Slične stranice

2.2.2. Grupiranje

Grupiranje jest razvrstavanje jedinki u skupine u kojima je postignuta njihova najveća sličnost (segmentacija kupaca: podatci o starosti, zanimanju, dosadašnjoj kupnji)

2.2.3. Asocijativna pravila

Ova pravila su pravila oblika AKO-TADA. Pokazuje vjerojatnost da jedan događaj veže uz sebe drugi događaj.

Npr. Ako se dogodi A1, A2 i…An, tada se često dogodi B1, B2 i…Bn

Ako smo kupili printer, tada ćemo kupiti i papir.

Drugim riječima, ova pravila su vezana za kupovinu stvari u paru, jer stvar A ne može funkcionirati bez stvari B i obrnuto.

4

Page 6: Data Mining - Rudarenje Podataka

2.2.4. Stabla odlučivanja

Ova metoda funkcionira na način da se na temelju odlučivanja zasnovanih na poznatih situacijama i odlukama konstruira se stablo odlučivanja.

2.2.5. Neuronske mreže

One su zamišljene su da djeluju slično ljudskom mozgu. One se upotrebljavaju u analizi rizika i prognoziranju npr. vrijednosti dionica. Rudarenje podataka temeljeno na ovoj metodi počinje «učenjem» mreže pomoću podataka za koje je poznata vrijednost koju želimo prognozirati. Nakon toga naučeno znanje se provjerava. Postupak učenja i provjere ponavlja se sve dok rezultati provjere ne budu zadovoljavajući.

3 4

2.2.6. Genetski algoritmi

Oni su temeljeni na ideji imitiranja pravila biološkog razvoja. Koriste se za optimizaciju i strojno učenje pri rješavanju problema.

3 www.secerana.hr/default.aspx?id=464 www.blog.hr/print/?id=1620736565

5

Page 7: Data Mining - Rudarenje Podataka

5

2.3. Programi za rudarenje podataka

Programi za DM pojavljuju se u različitim oblicima i to kao samostalni programi koji podupiru samo jednu metodu kao što su neuronske mreže, zatim kao uklopljeni u programske sustave za razvoj aplikacija, onda kao samostalni alati za rudarenje, kao dio tj. modul drugih programskih sustava kao što je sustav za upravljanje bazama ili statističkih programskih paketa, ili kao gotova rješenja za pojedinačna problemska područja kao što je izrada profila kupca.

2.4. Programski alati Data Mininga

Programski alati za rudarenje podataka koji se upotrebljavaju u poslovnim primjenama dolaze iz područja programskih sustava namijenjenih upravljanju podatcima a to su:

•Alate iz područja statističkih programskih sustava: Enterprise Miner (SAS), Clementine (SPSS)•Specijalizirane alate za općenite/poslovne uporabe: Data Mining, Intelligent Miner (IMB)•Alate uključene u Warehousing: OLAP•Alate uključene u sustav upravljanja podataka: Microsoft SQL Server Business Intelligence

2.5. Proces rudarenja podataka

5 www.zemris.fer.hr/.../WebStranica/index.html

6

Page 8: Data Mining - Rudarenje Podataka

Proces rudarenja podataka sastoji se od više faza koje jedna osoba samostalno ne može izvršiti. Te faze, odnosno zadatke, možemo promatrati iz tri perspektive. Prva je problemska perspektiva koja je važna na samom početku i kraju rudarenja podataka. Sastoji se od odabira problema, njegova definiranja te procjene i primjene znanja. Osoba koja obavlja ove zadatke može se jednostavno nazvati korisnik. Druga perspektiva je podatkovna i obuhvaća sve zadatke vezane uz pripremu podataka za njihovo rudarenje, a obavlja je informatičar. Metodološka perspektiva, kao treća i posljednja, sastoji se od svih zadataka vezanih uz analizu podataka, metode selekcije, implementacije, prezentacije i interpretacije rezultata. Osoba zadužena za te zadatke je stručnjak rudarenja podataka (eng. data miner).

1.KORAK: Definiranje problema

Ovo je prvi korak kod rudarenja podataka. Znači treba se definirati problem koji se želi riješiti. Ako se problem loše definira, ne može se očekivati da će rudarenje u poslovnom smislu biti uspješno, iako rezultati analize mogu biti valjani. Ovdje možemo uzeti onaj primjer pelena i piva. Problem koji je ovdje bio postavljen jest pronaći artikle koji se često prodaju zajedno. Primjer dobrog definiranja problema je primjer banke s velikim brojem klijenata koji kasne s otplatama rata hipotekarnih kredita. Ovdje banka želi ustanoviti da li je moguće od podataka o zajmoprimci predvidjeti hoće li on kasniti s otplatama ili ne.

2.KORAK: Prikupljanje i priprema podataka

Iskustva iz prakse pokazuju da je najveći trud u procesu rudarenja potrebno uložiti u ovaj korak. Ovisno o kakvoći i organiziranosti podataka u organizaciji, uloženi rad u ovoj fazi kreće se od 50-80% cjelokupnog truda u procesu rudarenja. Izbor i priprema podataka su kritične aktivnosti za konačni uspjeh projekta. Ovaj korak obuhvaća izbor izvora podataka, integraciju podataka iz različitih baza podataka, njihovo čišćenje i dodatno sakupljanje podataka koji su potrebni, a nisu trenutno raspoloživi.

3.KORAK: Izabiranje metode rudarenja

U ovom koraku se ne može znati najbolja metoda, jer sve ovisi o prirodi problema. Npr. neuronske mreže su najbolje obrazloženje neke pojave npr. vrijednost kuće, a u metoda stabla odlučivanja je pogodna za npr. analizu odobravanja kredita. Znači potrebno je u veći metoda rudarenja prvo eksperimentirati pa onda izabrati onu najbolju koja daje rezultate.

4.KORAK: Učenje

Ovdje metoda uči na podatcima. Ovdje postoji opasnost da se uz previše učenja dobiju rezultati koji super odgovaraju podatcima na kojima je algoritam učio i izgradio model, a loše budućim podatcima. A cilj modela je da se dobro ponaša na budućim podatcima.

5.KORAK: Interpretacija rezultata

U ovom koraku analitičar na kraju odlučuje je li pravilo zanimljivo, relevantno i upotrebljivo za organizaciju.2.6. Tko su sudionici u procesu Data Mininga?

7

Page 9: Data Mining - Rudarenje Podataka

U procesu rudarenja poželjno da sudjeluju:

1) informatičar – on brine o pripremi podataka2) analitičar podataka – to je npr. statističar. On brine o izboru metode i metodološkoj

interpretaciji rezultata rudarenja3) stručnjak – on mora biti poznavatelj poslovnog područja, koji definira poslovni

problem, odabire relevantne podatke, interpretira rezultate i predlaže aktivnosti na temelju rezultata rudarenja

4) voditelj projekta - on planira i organizacijski vodi projekt rudarenja podataka

2.7. Tko traži stručnjake u Data Miningu?

Istraživanja su pokazalo je da većina poduzeća koja traže stručnjaka rudarenja podataka dolaze iz IT sektora (43%), marketinga (19%) te iz bankarskog sektora i osiguranja (17%).

Položaj u poduzeću na koji se zapošljavaju nije jedinstven, no najčešće je to menadžer (20%), stručnjak rudarenja podataka (16%), statističar i/ili operacijski istraživač (12%), marketinški analitičar (10%) te softverski inžinjer/arhitekt (10%).

8

Page 10: Data Mining - Rudarenje Podataka

Podjednaki broj poduzeća želi zaposliti osobe sa diplomom (40%) i magisterijem (40%). Prilično veliki broj poslodavaca traži i doktorat (20%). Vezano uz godine radnog iskustva rezultati pokazuju da su jednako traženi oni sa manje od 5 godina iskustva i oni sa 5 do 10 godina iskustva. Samo u 3% slučajeva zahtjeva se više od 10 godina iskustva.

Zadaci unutar procesa rudarenja podataka koji se očekuju od zaposlenika su najčešće prezentiranje rezultata (29%), izgradnja novih modela (15%) i priprema podataka (13%).

9

Page 11: Data Mining - Rudarenje Podataka

Znanje klasifikacijske metode rudarenja podataka je najtraženije (18%). Metode predviđanja i statističke tehnike su jednako zastupljene sa po 8%.

Znanje softvera koje je potrebno imati najviše odlazi na SQL (44%) i SAS (42%). Zanimljivo je spomenuti da specifični softver za rudarenje podataka (primjerice Clementine) se vrlo rijetko spominje. Dodatne vještine koje se zahtijevaju su analitičke vještine (42%), konzalting (19%), projektni menadžment (16%), profiliranje korisnika (15%) i iskustvo u području (15%).

Kada uzmemo u obzir sve ovdje navedeno dolazimo do profila stručnjaka rudarenja podataka. To su osobe koje su najvjerojatnije zaposlene u IT sektoru, mnogi od njih rade na položaju menadžera i njihov posao je najčešće vezan uz prezentaciju rezultata i razvoj modela za rudarenje podataka. Vjerojatno se služe klasifikacijskom metodom, a od njih se zahtjeva i posjedovanje analitičkih vještina.

2.8. Primjeri rudarenja podataka

10

Page 12: Data Mining - Rudarenje Podataka

Tvrtka Petrol napravila je dvije analize:

- analizu veleprodaje i identificirala kupce za koje je vjerojatno da će biti slabi platiše u budućnosti - analizu računa kupaca kako bi otkrila u kojim danima u tjednu treba imati veće zalihe goriva

Rudarenje podataka se koristi još i u:

- Politici: rudarenje je metoda kojom je U.S. Army uspjela identificirati vođu napada na Twin Towers, 11.9.2001.; a tom se metodom također koriste CIA i Canadian Security Intelligence Service- Igrama: već od 60-ih godina u nekim kombinatornim igrama poput šaha- Poslovanju: pomaže u bržem donošenju poslovnih odluka zbog kontaktiranja samo onih klijenata za koje postoji visoka vjerojatnost da će odgovoriti

III. Z A K LJ U Č A K

11

Page 13: Data Mining - Rudarenje Podataka

Jedna suvremena informacijska tehnologija izaziva jaku asocijaciju na poimanje informacije kao resursa, jednako kao što su to sirovine i energenti do kojih se dolazi rudarenjem u rudnicima, bilo ugljena, željezne rude i sl. Riječ je o rudarenju podataka.

Suvremena računala imaju velike, ali još uvijek i nedovoljno poznate mogućnosti. Osnovno poimanje računala vezano je uz podatke, ali uz podatke oni čuvaju i znanje, a iz tog znanja mogu proizvoditi nova znanja. Poznata izreka koja kaže da tko ima informaciju ima moć danas više nije adekvatna. Informacija nije dovoljna, nužno je znanje što učiniti s tim informacijama. Znanje je snaga, pa se kaže da će samo ona gospodarstva biti uspješna u ovom stoljeću koja će znati koristiti sadašnje i generirati novo znanje. To znanje je već u računalnimmemorijama i bazama podataka ali je gotovo je nevidljivo, jer je rasuto poput mrvica u moru brojeva i riječi.

Koristeći dostignuća umjetne inteligencije, rudarenje podataka oblikovalo se u tehnološki pokret i biznis. Rudarenje je mnogo više od kopanja, nije cilj kopati, već odvojiti korisno od nekorisnog. Kod rudarenja podataka iz mase podataka treba izdvojiti maledijelove koji predstavljaju znanje, a onda dodatnom obradom stvoriti novo znanje, pa doći i do novih tehnoloških otkrića. U pojmovnom razlikovanju znanjaod podataka, znanje se sastoji od činjenica, pretpostavki i vjerovanja, ali posebno važno i od načina kako ih upotrijebiti.

Rudarenje podataka je znači automatizirano traženje informacija u mnoštvu podataka. Cilj ove metode jest pronalaženje pravila, odnosno uzoraka koji omogućuju pronalaženje veza između uzroka i posljedica

Ogromne baze podataka bogate su podacima, ali i siromašne informacijama koje su skrivene u pohranjenim podacima. Upravo je rudarenje podataka to koje pomaže otkriti važne informacije i znanje utkano u podatke, uvelike pridonoseći donošenju odluka, poslovanju i znanosti.

Proces rudarenja ne može izvršiti samo 1 osoba jer se on sastoji od više faza, točnije 3. 1. tzv. Problemska faza odnosno odabir i definiranje problema, procjena zadnjeg te primjena znanja. Te zadatke obavlja korisnik. 2. Podatkovna faza: sve vezano uz pripremu podataka za rudarenje; obavlja ju informatičar 3. Metodološka faza : sve od analize, selekcije, prezentacije do interpretacije rezultata. Stručnjak za rudarenje podataka (eng.data miner) je osoba zadužena za zadatke koji obuhvaćaju treću i zadnju fazu procesa rudarenja.

Ova metoda zahtijeva visoku razinu stručnog znanja o metodama. Još uvijek se razvijaju alati koji će omogućiti korištenje DM menadžerima i bez specijaliziranog stručnog znanja, te se također radi na edukaciji korisnika ove metode.

IV. L I T E R A T U R A

12

Page 14: Data Mining - Rudarenje Podataka

1. V. Čačić, M. Varga, Informacijska tehnologija u poslovanju, Element, Zagreb, 2004

2. N. Novak, J. Mesarić, B. Dukić, M. Zekić-Sušac, http://www.efos.hr/informatika, materijali za predavanja iz kolegija Informatika i informatičke tehnologije, 30.4.2008.

3. http://en.wikipedia.org/wiki/Data_mining 02.05.2008.

4. www.skladistenje.com 02.05.2008.

5. Panian, Ž., Klepac, G., Poslovna inteligencija, Masmedia, Zagreb, 2003.6.

6. www.bitart.hr/DataMining.aspx 10.05.2008.

13