Otkrivanje Znanja u Bazama Podataka (2)

Embed Size (px)

Citation preview

SVEUILITE U MOSTARUEKONOMSKI FAKULTET

OTKRIVANJE ZNANJA U BAZAMA PODATAKA (izrada projekta)

SADRAJ

1.OPIS PROBLEMA32.PODACI43.DEFINIRANJE DATASETA64.IZBOR DATA MINING ALGORITMA71.1HIJERARHIJSKO KLASTERIRANJE71.2ASOCIJATIVNA PRAVILA121.2.1PRIMJENA ASOCIJATIVNIH PRAVILA141.3OUTLIERS191.3.1BOXPLOT251.4TEORIJSKE DISTRIBUCIJE VJEROJATNOSTI26

1. OPIS PROBLEMA

U veini istraivanja obrada podataka prestvalja jedna od kljunih koraka. U veem broju sluajeva struktura tih podataka nije unaprijed poznata, te je potrebno tijekom analize grupirati podatke u klastere te iz takve strukture donijeti zakljuke istraivanja.Danas se koristi vrlo velik broj metoda za navedeni nain obrade podataka i razliiti alati pomou kojih se te obrade izvravaju. Razvijen je i vei broj alata koji su slobodni za koritenje ija kvaliteta u sve vie sluajeva prerasta kvalitetu komercijalnih rjeenja.U radu e biti prikazane neke od najee koritenih metoda obrade podataka: hijerarhijsko klasteriranje, zatim asocijativna pravla, outlieri i na kraju e biti objanjena terorijska distribucija vjerojatnosti. Nakon objanjenja svake od navedenih metoda, koristi emo se R jezikom kako bi predoili rezultate tih metoda.

2. PODACI

Podaci su rezultat gotovo svih istraivakih aktivnosti. Opisuju karakteristike ivih bia, prirodnih pojava, dinamikih sustava, karakteristika materijala, trenutnih stanja sustava, promjene u vremenu nekog sustava itd. U istraivanjima ti podaci su osnova za analizu, zakljuivanje i razumijevanje predmeta istraivanja. esto je potrebno podatke klasificirati ili grupirati u neke kategorije ili klastere. Te kategorije mogu bit unaprijed poznate ili se tek analizom pronalazi broj kategorija koje emo u budunosti koristiti. Cilj nam je da podaci unutar iste kategorije prikazuju sline karakteristike prema nekom kriteriju.Ako se koritenje ovih metoda vee uz neke poslovne svrhe, kao npr. U sluaju menaderskog raunovodtsva onda se uglavnom ti podaci uitavaju iz razliitih baza podataka, transakcijskih baza, sustava za potporu odluivanju, skladita podataka ili razliitih datoteka i excel tablica. Dakle, uglavnom se koriste podaci iz odreenih informacijskih sustava, na temelju kojih se otkrivaju skrivene veze i odnosi koji postoje izmeu razliitih ekonomskih varijabli i veliina.Primjera za klasteriranje ima mnogo: klasicikacije trokova, potraivanja, obveza, imovine, dobavljaa, kupaca. U marketingu je posebno vano klasteriranje kupaca s obzirom na njihova razliita obiljeja, demografska, ekonomska, socijalna.Dakle, podaci su potrebni kako bi se provele razne metode, a rezultati razliitih metoda slue za donu poslovenje odluka u poslovanju.Podaci koji se koriste u menaderskom odluivanju nalaze se u bazama podataka. Ti podaci su dinamiki , to znai da se mijenaju u vremenu. Zbog te dinaminosti potrebno je porvesti nekoliko aktivnosti vezanih uz prikupljanje podataka. Prva aktivnost je izbor podataka tj. selekcija. Rezultat selekcijesu ciljni podaci koji se selektiraju iz baza podataka. Ti podaci su ulagvnom u obliku tablica relacijskog modela. Selekcija se koncentrira na podskup podataka kako bi se generirale informacije. Druga ajtivnost je filtriranje podataka kojoj se uklanja neaurnost podataka, i na te podatke se primjenjuje odabrana i odgovarajua metoda rudarenja podataka.U naem radu mi emo prikazati primjere koje prikazuju male dijelove iz odreene baze podataka ili nekog istraivanja, jer je cilj prikazati kako se provode neke metode, u koje svrhe i koji se zakljuci mogu dobiti iz svake od njih, a ne donositi odluke o poslovanju nekog poduzea, i sl.

3. DEFINIRANJE DATASETA

Kao Dateset definirali smo tablicu u Excelu koja predstavlja raune sa kombinacijama prodanih proizvoda i ukupnim iznosom rauna. Cijene su uzete slobodno, kao i proizvodi, jer Dataset ne predstavlja realan prikaza baze podataka iz neke trgovine, ve slui kao primjer kako bi se pokazao postupak 4 metode klasteriranja: hijerarhijsko klasteriranje, u kojem se eli uvijeti razlika izmeu prodanih proizvoda u odnosu na cijenu, zatim asocijacijska pravila pomou kojih se eli saznati dali se moe izvui neko pravilo o zajednikom kupovanju dvaju ili vie proizvoda dakle ako A onda B, zatim Outlier kojim se rauna koliko cijena jednog proizvoda odstupa od cijene drugog, te na kraju teorija distribucije.Na primjer Dataseta izgleda ovako:

Slika 1 - Dataset

4. IZBOR DATA MINING ALGORITMA

U radu e biti prikazana 4 data mining algoritma:1. Hijerarhijsko klasteriranje2. Asocijativna pravila Apriori Logaritam3. Outlier4. Teorija distribucije vjerojatnosti

1.1 HIJERARHIJSKO KLASTERIRANJE

Aglomerativno hijerarhijsko klasteriranje predstavlja grupiranje od pojedinanih objekata prema jednom zajednikom klasteru. Divizivno grupiranje s druge strane u svakom koraku dijeli postojee klastere prema nekom kriteriju. Rezultat hijerarhijskog grupiranja se obino prikazuje u obliku dendograma, tj. binarnog stabla gdje svaka grana moe imati toni dvije grane ili lista.u nastavku e biti prikazan aglomerativni algoritam. Sva pravila vrijede i ia divizivni, samo to je razliit smjer grupiranja. Divizivni algoritmi u svakom koraku moraju ispitati udaljenosti moguih podjela , to je raunski veoma zahtjevno, pa se stoga aglomerativni algoritmi puno ee koriste.Hijerarhijski algoritmi organiziraju podatke na osnovu matrice udaljenosti. To je simetrina tablica u koju se unose vrijednosti udaljenosti izmeu svaka dva objekta. Dendogram ustvari prikazuje udaljensoto izmeu dva objekta, tj. svaki meuvor prikazuje koliko su blizu dva objekta ili dvije grupe objekata. Udaljenosti se ispisuju na osi pa ih je mogue jednostavno oitati. Krajnji rezultat se dobije rezom grafa u nekom koraku.taj rez moe biti proizvoljan od strane korisnika sustava ili dobiven koritenjem nekog kriterija validacije klastera.Ovaj nain prikaza je vrlo informativan posebno u sluaju kada u podacima postoje hijerarhijski odnosi kao npr. Podaci o slinosti jezika, istraivanju evolucijskih procesa, medicini, biologiji, arheologiji.Kao krajnji rezultat hijerarhijskog klasteriranja dobiva se dendogram. Toke na dendogramu prestavljaju pojedine objekte, a crtice predstvaljaju korake algoritma.

Slika 2 - Dendogram[footnoteRef:1] [1: http://www.cs.nyu.edu/courses/summer08/G22.3033-002/fig_dendrogram.jpg, preuzeto 15.6.2014]

Algoritam aglomerativnog hijerarhijskog grupiranja moe se saeti u sljedee korake:1. Poeti sa N jednolanih klastera te izraunati matricu udaljenosti da svih N klastera. 2. Pronai minimalnu udaljenost izmeu dva klastera, npr. Klastera Ci i Cj, te spojiti ta dva klastera u novi klaster Cij.3. Aurirati matricu udaljenosti na nain da se iz nje uklone klasteri Ci i Cj te se doda novi klaster Cij i izraunaju udaljenosti izmeu Cij i svih ostalih klastera.4. Ponavljati korake 2. I 3. Dok ne ostane samo jedan klaster, tj. svi klasteri su spojeni u jedinstveni klaster.[footnoteRef:2] [2: https://docs.google.com/viewer?pid=bl&srcid=ADGEESiKgHYeLnOGBJ7LPav3cPAPO_s6nd5sqsJkXg5O2mWq8ZIo-K5vW3Dru5J_pjpbUsCDPuvwi4cHR0VkBpiDv7RG_9NPdf26MJ7SbDeGoJfb_9idVsjlyNAk2JoQR2y7HAqgd34N&q=cache%3A-RU41dhow6wJ%3Ahrcak.srce.hr%2Ffile%2F130078%20primjer%20seta%20podataka&docid=42ca1c0795e8e7cfece066ebfa3fa1ff&a=bi&pagenumber=6&w=1058, preuzeto 15.6.2014]

Udaljenost izmeu pojedinih objekata je jednoznano definirana sa nekom odabranom mjerom udaljenosti. Kada objekte spojimo u novi klaster, udaljenost tog klastera je potrebno definirati na drugaiji nain, tj. potrebno je odrediti kako pojedini objekti u klasteru utjeu na funkciju udaljenosti.Tipovi hijerarhijskog klasteriranja: SINGLE LINK udaljenost izmeu dvaju klastera je udaljenost izmeu njihovih najbliih toaka. AVERAGE LINK - Udaljenost izmeu dvaju klastera je udaljenost izmeu njihovih centroida. COMPLETE LINK udaljenost izmeu dvaju klastera je udaljenost izmeu njihovih najudaljenijih toaka.[footnoteRef:3] [3: http://www.fer.unizg.hr/_download/repository/Automati_2012_13_3_studijski_primjer.pdf, preuzeto 15.6.2014]

Slika 3 - Metode hijerarhijskog klasteriranja[footnoteRef:4] [4: http://www.multid.se/genex/clustering_distances.png, preuzeto 15.6.2014]

Primjer hijerarhijskog klasteriranja u R jeziku:Dakle, napravit emo hijerarhijsko klasteriranje proizvoda koji su definirani u Datasetu i vidit emo koliko su oni udaljeni s obzirom na cijenu.Najprije kreiramo tablicu:

Stavimo je u r jezik, i zadamo sljedee naredbe:> x x cokolada olovka marker kola gumica keks pelene parfem zvakecokolada 0 1 3 1 2 1 26 44 3olovka 4 0 2 1 3 0 25 43 4marker 3 2 0 4 5 2 23 41 6kola 1 2 4 0 1 2 27 45 2gumica 2 3 5 1 0 3 28 46 1keks 1 0 2 2 2 0 25 43 4pelene 26 25 23 27 28 25 0 18 29parfem 44 43 41 45 46 43 18 0 47zvake 3 4 6 2 1 4 29 47 0> d d cokolada olovka marker kola gumica keks pelene parfemolovka 4 marker 3 2 kola 1 2 4 gumica 2 3 5 1 keks 1 0 2 2 2 pelene 26 25 23 27 28 25 parfem 44 43 41 45 46 43 18 zvake 3 4 6 2 1 4 29 47> plot(h.clust(d, method="single")+ dError: unexpected symbol in:"plot(h.clust(d, method="single")d"> plot(h.clust(d, method="single"))Error in plot(h.clust(d, method = "single")) : could not find function "h.clust"> plot(hclust(d, method="single"))Rjeenje u R jeziku izgleda ovako:

Slika 4 - Rjeenje hijerarhijskog klasteriranja u R jeziku

1.2 ASOCIJATIVNA PRAVILA

Asocijativna pravila (ili asocijativno otkrivanje) je postupak pri kojem se identificiraju elementi koji se pojavljuju zajedno u nekom dogaaju ili zapisu. Drugim rijeima asocijativna pravila su metoda za otkrivanje korelacija u pojavljivanju pojedinih elemenata (najee artikala). Ona ukazuju na to koliko esto se dogaaji pojavljuju zajedno. Ova se metoda koristi esto kod obrade podataka koji prate neke transakcije npr. prodaju, nabavu i slino. Osnovni pokazatelji asocijativnih pravila su faktor podrke i faktor povjerenja. Faktor podrke govori koliko su procentualno odreena kategorija, klasa ili pravilo zastupljeni u skupu podataka. Faktor povjerenja predstavlja mjeru kvaliteta pravila koja predstavlja odnos izmeu zastupljenosti cijelog pravila i zastupljenosti uzroka, ili izmeu podrke cijelog pravila i podrke uzroka pravila. Povjerenje predstavlja uvjetnu vjerovatnost. Asocijativna pravila koriste se prije svega u obradi podataka u obliku transakcija. Vani termini u terminologiji asocijativnih pravila su: Element ili dio ( u terminologiji obrade podataka uobiajenije je koritenje par atribut-vrijednost) Transakcija (skup elemenata, korespondira terminu primjer u podruju obrade podataka ) Skup transakcija ( korespondira pojmu skupa podataka)

Tipino za transakcije je da se razlikuju u broju elemenata, to uglavnom nije sluaj s podacima koji se pripremaju za obradu podataka nekom od metoda modeliranja. Stoga je za veinu ostalih metoda modeliranja podataka nuno transformirati transakcijske podatke.Svaka transakcija u skupu transakcija, daje nam informaciju o tome koji elementi se zajedno pojavljuju u transakcijama. Koritenjem transakcija mogue je napraviti tablice koje nam daju frekvenciju pojavljivanja parova (ili veeg broja elemenata) odreenih elemenata u transakcijama. Iz tih tablica lako je napraviti jednostavna pravila poput:R1="Element 1 pojavljuje se zajedno s elementom 2 u 10 % svih transakcija"10% je mjera frekvencije pojavljivanja para elemenata 1 i 2 u skupu svih transakcija i predstavlja "podrku" (support) pravila. Ako je frekvencija pojavljivanja elementa 1 u svim transakcijama 15%, a elementa 2, 20%, tada omjer broja transakcija u kojima se pojavljuju oba elementa (odnosno podrka pravila) prema broju transakcija u kojima 16 se pojavljuje element 1 (uvjetni dio pravila), nazivamo pouzdanou (confidence) pravila. U ovom je sluaju pouzdanost pravila R1:c (R1) = 10/15 = 0.666 Lako je napraviti i inverzno pravilo:R2="Element 2 pojavljuje se zajedno s elementom 1 u 10 % svih transakcija"Iako se naizgled radi o istom pravilu, svojstva R1 i R2 se razlikuju. Tako je pouzdanost pravila: c (R2) = 10/20 = 0.5

Pouzdanost pravila od 0.5 jednaka je tvrdnji da kada se u transakciji pojavi element 2, postoji 50% vjerojatnosti da e se u istoj transakciji pojaviti takoer i element 1. Na prvi pogled izgleda da su najpouzdanija pravila ona koja su najbolja. Problem se moe pojaviti kada se npr. element 1 pojavljuje vrlo esto u transakcijama (recimo u 60% transakcija). U tom sluaju pravilo moe imati slabiju pouzdanost od sasvim sluajnog odabira. To pokazuje da kao mjera dobrog pravila treba neto bolje od pouzdanosti.Veliina koja se esto koristi za ocjenjivanje kvalitete pravila pridruivanja je lift ili koeficijent poboljanja. Govori nam koliko puta smo sigurniji da e kupac kupiti proizvod koji ini desnu stranu pravila znajui lijevu stranu pravila, u odnosu na sluaj kad ne znamo lijevu stranu pravila (sluajno pogaanje). Formalno, za neko pravilo pridruivanja X->Y, koeficijent poboljanja je izraunat na sljedei nain: Lift(X->X)=Conf(X->Y)/Supp(Y)

1.2.1 PRIMJENA ASOCIJATIVNIH PRAVILA

Asocijativna pravila koriste se u analizi tzv. potroakih koarica (eng. market basket analysis), primarno zbog jasnoe i iskoristivosti dobivenih pravila. Ona jasno izraavaju u kojoj su mjeri vani produkti korelirani, te time sugeriraju konkretne akcije. Asocijativna pravila koriste se prije svega u obradi podataka kod kojih su atributi nominalnog (kategorikog) tipa. Osim samog procesa generiranja asocijativnih pravila, za proces primjene ove tehnike vano je efikasno rijeiti i slijedee probleme: Izbor pogodnog skupa elemenata Praktina ogranienja Ova metoda se najee rabi u maloprodajnim centrima, a podloga za obradu podataka su podaci s rauna koji su izdani na POS terminalima. Analiza potroake koarice otkriva u nizu takvih transakcija skrivena pravila koja se tiu prodaje robe. Cilj metode je otkriti pravila koja nas upozoravaju na sljedee: ako kupac kupuje proizvod X, tada e kupiti proizvod Y, naravno, uz odreenu vjerojatnost temeljenu na povijesnim podacima transakcijske baze. U bazi podataka postoje informacije o izvrenim transakcijama, a svaki raun u bazi predstavlja jednog kupca. Maloprodajni raun takoer prikazuje set proizvoda koje je taj kupac kupio u odreenom maloprodajnom centru.Vano je napomenuti da se ta metoda ne rabi samo za parove proizvoda koji se pojavljuju u transakciji, ve i za vie od dva proizvoda. Tada proizvode promatramo u tri dimenzije, s obzirom na kombinacije koje se pojavljuju prilikom kupnje. Obiljeje je ove metoda da daje rezultate svoje obrade u obliku:AKO a, ONDA b uz postotak vjerojatnostiU sluaju viedimenzionalnih analiza oblik generiranog znanja moe se svesti na tvrdnje tipa: AKO b i c, ONDA a (vjerojatnost) iliAKO b i NE c, ONDA a (vjerojatnost) iliAKO NE b i NE c, ONDA f (vjerojatnost) i sl.

Prednosti asocijativnih pravila su:1. Asocijativna pravila su jednostavna i jasna;2. Metoda asocijativnih pravila je namijenjena problemima koji nisu klasifikacijskog tipa, tj. nema ciljnog atributa;3. Omoguuju obradu podataka kod kojih primjeri imaju varijabilni broj atributa;4. Algoritmi kojima se generiraju asocijativna pravila u principu su vrlo jednostavni.

Primjer asocijativnih pravila u R jezikuNajprije iz tablice uitamo podatke i onda napiemo kod koji izgleda ovako:> x x X1001 cokolada1 1001 olovka2 1001 marker3 1002 olovka4 1002 cokolada5 1003 olovka6 1003 keks7 1003 gumica8 1004 olovka9 1004 cokolada10 1004 keks11 1005 marker12 1006 olovka13 1006 marker14 1007 olovka15 1007 cokolada> library(arules)Loading required package: MatrixLoading required package: lattice

Attaching package: arules

The following object(s) are masked from package:base:

%in%, write

> y y y y y y y basket_rules inspect(basket_rules) lhs rhs support confidence lift1 {cokolada} => {olovka} 0.5714286 1 1.166667

Rjeenje u R jeziku:

Slika 5 - Rjeenje primjera asocijativnih pravila u R jeziku1.3 OUTLIERS

Netipine vrijednosti (outliers) su statistiki podaci koji imaju razliite vrijednosti od drugih u uzorku. U statistici, on je primjedba da je brojano daleko od ostatka podataka. Outlier (strei podatak) je ona vrijednost obiljeja koja je obino ili netono izmjeren ili krivo unesen u bazu podataka (moda iz neke druge baze) ili je toan, ali predstavlja rijetku pojavu u populaciji.Naini opisivanja podatakaDvije aktivnosti su neophodne za karakterizaciju skupa podataka:1. Ispitivanje cjelokupnog oblika grafikih podataka za vane znaajke, ukljuujui simetrije i odstupanja od pretpostavki. 2. Uvidom u podatke za neobine opservacije koje su daleko od mase podataka. Te toke esto se spominju kao odstupanja.

Histogram je grafiki prikaz distribucije (raspodjele) frekvencija podataka mjerenih na kvantitativnoj (kontinuiranoj) skali. Tipine primjene histograma su u poetnim etapama rjeavanja problema, za uoavanje neobinog oblika distribucije frekvencija (lokacija, varijabilitet, outlieri, asimetrija, spljotenost, viemodalnost, i dr.)

Zajedno sa histogramom, obino se prikazuju i tzv.boxplot, qqplot. U statistikoj kontroli histogrami se koriste u tzv.analizi sposobnosti procesa da se kree unutar zadanihgranica. Posebno su korisni paralelni histogrami i boxplotovi (za usporedbu distribucije po grupama tj. kategorijama neke druge varijable faktora).

Slika 6 - Primjer outlieraInterpretacija:75.centil ili 3. kvartil (Q3): U (otprilike) 75% upanija je Buchanan postigao broj bodova (po upaniji) manji ili jednak 289. ili u (otprilike) 25% upanija je broj bodova (po upaniji) za Buchanana bio vei ili jednak 289.

Box plot je koristan grafiki prikaz za opisivanje ponaanja podataka u sredini, kao i na krajevima distribucija. Koristi medijan i donje i gornje kvartile (definirana kao 25. i 75. percentila). Ako je nii kvartil Q1 i gornji kvartil je Q3, onda razlika (Q3 - Q1) se zove interkvartilni raspon ili IQ. Boxplot dijagram daje manje informacija od histograma, ali je vrlo prikladan za usporedbe.

Odstupanja mogu sadravati vane informacije i treba ih istraiti paljivo. esto sadre vrijedne informacije o procesu pod istragom ili prikupljanje podataka i snimanje procesa. Prije razmatranja mogueg ukidanja tih toaka iz podataka, treba pokuati shvatiti zato su se pojavile i da li je vjerojatno da e se sline vrijednosti i dalje pojavljivati. Naravno, outliers su esto loe toke podataka.

Kako izraunati outliere:

1. Saznajte kako prepoznati potencijalne izlazne vrijednosti. Prije izraunavanja da li ili ne podaci ukazuju na izlazne vrijednosti, te je korisno ispitati skup podataka i izabrati potencijalne krajnosti. Na primjer, zamislite skup podataka koji predstavlja temperature od 12 razliitih predmeta u sobi. Ako 11 objekata imaju temperaturu od 70 Fahrenheita, odnosno 21 stupanj, ali dvanaesti objekt (moda penica) ima temperaturu od 300 Fahrenheita, tj. 150 stupnjeva Celzija, letimian pregled mogu vam rei da je penica vjerojatno outlier.2. Rasporedi toke podataka od najnie do najvie. Nastavljajui na gore navedenom primjeru, razmotrite sljedee podatke koji predstavljaju temperature nekoliko objekata: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Ovaj skup bi trebao biti razvrstan kako slijedi: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.3. Izraunajte medijan skupa podataka. Medijan je podatkovna toka iznad koje je polovica podataka i ispod koje je polovica podataka. U gore navedenom primjeru, srednja dva pojma su 70 i 71, tako da je medijan ((70 + 71) / 2), ili 70,5.4. Izraunajte donji kvartil. Ova toka, oznaka Q1, je toka ispod koje je 25 posto podataka. U gore navedenom primjeru, dva broja e morati biti u prosjeku opet ovaj put, 70 i 70. Njihov je prosjek ((70 + 70) / 2), ili 70.5. Izraunati gornji kvartil. Ova toka, oznaka Q3, je toka iznad koje je 25 posto podataka. Nastavljajui s gornjim primjerom, u prosjeku na dvije toke 71 i 72 prinose Q2 = 71,5.6. Pronaite "unutarnje ograde" za skup podataka. Prvi korak je da se mnoi razlika izmeu Q1 i Q3 (zove se interkvartilni raspon) sa 1,5. U gore navedenom primjeru, interkvartilni raspon (71,5-70), ili 1,5. Mnoenjem to za 1,5 prinosa 2,25. Dodati ovaj broj za Q3 i oduzimati od Q1 za izgradnju unutarnje ograde. Unutarnje ograde u ovom primjeru e biti 67,75 i 73,75. Sve toke podataka koji se nalaze izvan tog raspona smatraju se blage krajnosti (outliers). U podataka navedenih u ovom primjeru, samo temperatura u penici - 300 stupnjeva - smatra se blagim outlierom.7. Pronai "vanjske ograde" za skup podataka. To je uinjeno na isti nain kao i unutarnje ograde, osim to se interkvartilni raspon mnoi s 3 umjesto 1,5. Mnoenjem interkvartilnog raspona (1,5 * 3) dobivamo 4,5. Vanjske ograde su, dakle, 65,5 i 76. Sve toke podataka koje se nalaze izvan vanjske ograde smatraju se ekstremnim krajnosti. U ovom primjeru, temperatura penice, 300 stupnjeva, takoer se smatra ekstremnim outlierom.Primjer outliersa u R jeziku

Histogram:Zadatak je pronai outliere skupa odreenih proizvoda koji su definirani u Datasetu i zatim vidjeti koliko odreeni proizvod odstupa najvie s obzirom na cijenu.Najprije kreiramo tablicu, ubacimo je u R jezik i zadamo slijedee naredbe:

> x xid proizvod cijena1 1001 OLOVKA 52 1001 COKOLADA 43 1001 GUMICA 24 1002 OLOVKA 55 1002 MARKER 76 1002 PARFEM 487 1003 PARFEM 488 1004 OLOVKA 59 1004 PARFEM 4810 1004 COKOLADA 411 1005 COKOLADA 412 1005 OLOVKA 513 1005 KOLA 314 1006 OLOVKA 515 1006 ZVAKE 116 1006 COKOLADA 417 1007 OLOVKA 518 1007 COKOLADA 419 1008 OLOVKA 520 1008 COKOLADA 421 1008 PELENE 3022 1009 OLOVKA 523 1009 MARKER 724 1009 PARFEM 4825 1010 PARFEM 4826 1011 OLOVKA 527 1011 PARFEM 4828 1011 COKOLADA 429 1012 COKOLADA 430 1012 OLOVKA 531 1012 KEKS 532 1013 OLOVKA 533 1013 ZVAKE 134 1013 COKOLADA 4

> summary(x)

id proizvod cijenaMin. :1001 OLOVKA :11 Min. : 1.001st Qu.:1004 COKOLADA: 9 1st Qu.: 4.00Median :1007 PARFEM : 6 Median : 5.00Mean :1007 MARKER : 2 Mean :12.793rd Qu.:1011 ZVAKE : 2 3rd Qu.: 6.50Max. :1013 GUMICA : 1 Max. :48.00(Other) : 3

> hist(x$cijena)

Rjeenje u R jeziku izgleda ovako:

Slika 7 - Rjeenje outliera u R jeziku

1.3.1BOXPLOT

Uzet je jednostavan popis podataka u kojemu postoji outlier kojeg treba prikazati u R jeziku:11 489, 11 008, 11 873, 80 000 000, 9 558, 8 645, 8 024 i 8 371.Ovo je primjer kako pronai outliere koristei definiciju outliera sluei se boxplot funkcijom u R jeziku i pri tome vidjeti svoje podatke.

> dat = c(11489, 11008, 11873, 80000000, 9558, 8645, 8024, 8371)> a = boxplot(dat)> a$out[1] 8e+07

Slika 8 - PrintScreen dobivenog outliera u R jeziku

1.4 TEORIJSKE DISTRIBUCIJE VJEROJATNOSTI

Za razliku od empirijskih distribucija frekvencija opaenih podataka, teorijske distribucije vjerojatnosti opisane su matematikim modelom. Kada neka empirijska distribucija aproksimira, tj. slijedi odreenu teorijsku distribuciju vjerojatnosti, moemo upotrijebiti teorijsko znanje o dotinoj distribuciji kako bismo dobili odgovore na pitanja o podacima. To najee zahtjeva procjenu vjerojatnosti. Vjerojatnost dogaanja mjera je neizvjesnosti. Mjeri ansu da se odreeni dogaaj dogodi. Pozitivan je broj i moe poprimiti vrijednosti izmeu 0 i 1. Ako je vjerojatnost 0, onda je dogaaj nemogu. Ako je vjerojatnost 1 , onda je dogaaj nuan, tj. mora se dogoditi. Vjerojatnost komplementarnog dogaaja (1-vjerojatnost) mjeri ansu da se promatrani dogaaj ne dogodi. Postoje razliiti pristupi u raunanju vjerojatnosti: subjektivan pristup podrazumijeva osobni stupanj vjerovanja da e se dogaaj dogoditi (npr. da e svijet propasti 2050. godine); frekvencijski pristup temelji se na brojanju dogaaja pri nebrojenom ponavljanju eksperimenta (npr. koliko puta e novi pasti na glavu ako ga 1000 puta bacimo); a priori pristup pretpostavlja poznavanje teorijskog modela, tj. distribucije svih moguih vjerojatnosti nekog dogaaja (npr. boja oiju djeteta majke s plavim i oca sa smeim oima) Pravila vjerojatnosti: Pravilo adicije: ako se dva dogaaja (A i B) meusobno iskljuuju, vjerojatnost da se dogodi jedan od njih (A ili B) jednaka je sumi njihovih vjerojatnosti Vjerojatnost (A ili B) = Vjerojatnost (A) + Vjerojatnost (B) Pravilo multiplikacije: ako su dva dogaaja (A i B) meusobno nezavisni, vjerojatnost da se dogode oba dogaaja (A i B) jednaka je umnoku njihovih vjerojatnosti. Vjerojatnost (A i B) = Vjerojatnost (A) Vjerojatnost (B) Sluajna varijabla x, je varijabla koja poprima pojedinane vrijednosti s odreenom vjerojatnou. Dva su osnovna tipa: diskretna ili diskontinuirana sluajna varijabla: numerike vrijednosti su cijeli brojevi kontinuirana sluajna varijabla: numerike vrijednosti su realni brojevi Distribucija(raspodjela) vjerojatnosti prikazuje nain na koji je ukupna vjerojatnost (koja je jednaka 1) raspodijeljena na pojedine vrijednosti sluajne varijable. Svaku distribuciju vjerojatnosti definiraju parametri (npr. prosjek, varijanca). Zavisno od tipa sluajne varijable i distribucije dijelimo na diskretne i kontinuirane. Diskretne distribucije vjerojatnosti primjeri: Binomna raspodjela, Poissonova raspodjela Moemo izvesti vjerojatnost za svaku moguu vrijednosti sluajne varijable. Suma svih moguih vjerojatnosti sluajne varijable je 1. Kontinuirane distribucije vjerojatnosti primjeri: normalna raspodjela, 2 raspodjela; t raspodjela, F raspodjela Moemo izvesti vjerojatnost za sluajnu varijablu, x, koja poprima vrijednosti u odreenim razredima (budui da ima beskonano mnogo vrijednosti x) Ako horizontalna os predstavlja vrijednosti varijable x, prema jednadbi distribucije moe se nacrtati krivulja. Ova jednadba zove se funkcija gustoe vjerojatnosti. Ukupna povrina ispod krivulje iznosi 1 i predstavlja vjerojatnost svih moguih dogaaja. Vjerojatnost da x lei izmeu dvije vrijednosti jednaka je povrini ispod krivulje izmeu te dvije vrijednosti. Vjerojatnost da x lei izmeu dvije vrijednostiPrimjer normalne distribucijeKolika je vjerojatnost da student na ispitu dobije ocjenu 5(90-100) bodova ako je modalna vrijednost 50 uz 20% devijacije. pnorm(90, mean=50, sd=20, lower.tail=FALSE) [1] 0.02275013 Koritenjem metode normalne distribucije dolazimo do rezultata da 2,23% studenata dobiva odline ocjene. > x=seq(0,100,length=200)> y=dnorm(x,mean=50,sd=20)> plot(x,y,type="l",lwd=2,col="red")> x=seq(90,100,length=100)> y=dnorm(x,mean=50,sd=20)>polygon(c(90,x,100),c(0,y,0),col="gray")Slika 9 - Graficki prikaz distribucije odlicnih studenata(siva zona)

28

Sheet1COKOLADAOLOVKAMARKERKOLAGLUMICAKEKSPELENEPARFEMZVAKECOKOLADA01312126443OLOVKA40213025434MARKER32045223416KOLA12401227452GUMICA23510328461KEKS10222025434PELENE26252327282501829PARFEM44434145464318047ZVAKE34621429470

Sheet2

Sheet3

Sheet1ID RACUNA PROIZVODIIZNOS(KM)1001OLOVKA COKOLADA GUMICA111002OLOVKA MARKER PARFEM601003PARFEM481004OLOVKA PARFEM COKOLADA531005COKOLADA OLOVKA KOLA121006OLOVKA ZVAKE COKOLADA101007OLOVKA COKOLADA 91008OLOVKA COKOLADA PELENE391009OLOVKA MARKER PARFEM601010PARFEM481011OLOVKA PARFEM COKOLADA571012COKOLADA OLOVKA KEKS141013OLOVKA ZVAKE COKOLADA10

Sheet2

Sheet3