19
1 INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Visualization ČVOROVI (WIDGET): Parallel Coord., Survey plot, Correspondence Analysis, Multi Corr.An alysis SKUPOVI PODATAKA: Anneal AUTOR: Andrea Šćepanović 473/07 2011, Beograd

INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

Embed Size (px)

Citation preview

Page 1: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

1

INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTU

OBLAST: Visualization

ČVOROVI (WIDGET): Parallel Coord., Survey plot, Correspondence Analysis, Multi Corr.Analysis

SKUPOVI PODATAKA: Anneal

AUTOR: Andrea Šćepanović 473/07

2011, Beograd

Page 2: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

Orange

2

SADRŽAJ

1. UVOD

2. OPIS ČVORA Parallel Coordination

3. OPIS ČVORA Survey plot

4. OPIS ČVORA Correspondence Analysis

5. OPIS ČVORA Multi Corr.Analysis

6. ZAKLJUČAK

Page 3: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

Orange

3

1. UVOD

Seminarski rad, u formi skripte za softver Orange, ima za zadatak da,

koristeći odreĎenu bazu podataka, opiše korišćenje čvorova (widgets) koji se

odnose na polje Visualisation.

Orange, sveobuhvatna komponenta, koja predstavlja okvir za mašinsko

učenje i data mining. Ovaj softver sadrži algoritme za mašinsko učenje i

data mining. Orange sadrži procedure za: uvoĎenje i pretprocesiranje

podataka, tehnike klasifikacije, klasterovanja, regresione metode, kao i

modele za validaciju.

Naredna skripta opisuje četiri čvora softvera Orange, primenjenog na bazi

podataka Zoo .

Čvorovi koji će biti obraĎeni su :

Parallel Coordinates

Survey plot

Correspondence Analysis

Multi Correspondence Analysis

Page 4: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

Orange

4

2. OPIS ČVORA Parallel Coordinates

Kada pokrenemo program Orange javlja se početni ekran (Slika 1)

Slika 1- Izgled radne površine Orange softvera

Da bismo učitali bazu (Slika 2), potrebno je da kliknemo na čvor File , koji se

nalazi u gornjem levom uglu prozora. Izborom čvora File klikom na ikonu

Folder otvara nam se prozor za učitavanje baze, u ovom slučaju Zoo.

Slika 2 – Učitavanje baze

Page 5: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

Orange

5

Ako povežemo čvor File sa čvorom DataTable možemo pregledati našu

bazu(Slika3).

Slika 3-Data Table

Otvaranjem čvora Data Table (slika 4) vidimo da baza sadrži 101 slučaj, 16

atributa(sa dlakom, sa perjem, izležu se iz jaja, sisaju mleko,

vazdušnodesanti, predatori, vodeni, sa zubima, sa kičmom, sa disajnim

sistemom, otrovan, sa nogama, sa perajima, sa repom, domaći, reda mačke

Slika 5- Pregled baze podataka

Page 6: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

Orange

6

i jednim meta atributom – ime životinje. Izlaz pokazuje u koju se od 7 klasa

(sisar, ptica, riba, insekt, vodozemac, beskičmenjak, reptil) ubraja ta

životinja. Cilj analize ovih podataka jeste da se uoče odreĎene zavisnosti,

veze i pravila vezana za podatke i na osnovu vizualizacije protumače.

Nakon upoznavanja sa bazom podataka, krećemo da koristimo čvor Parallel

Coordinates iz polja Visualize (slika 6).

Slika 6 – Parallel Coordinates

Parallel Coordinates je tehnika prikazivanja multidimenzionih podataka.

Svaki atribut se prikazuje vertikalnom linijom, gde su najveće i najmanje

vrednosti odreĎene dimenzije raspodeljene višom i nižom tačkom na

vertikalnoj liniji.

Na Slici 7 možemo videti podatke iz baze Zoo. Slučajevi su uvršćeni u jednu

od 7 različitih klasa, koji su prikazani linijama različitih boja (plava, crvena,

zelena, narandžasta, žuta, ružičasta i tirkiz plava).Ako pogledamo atribut

perje (druga vertikala linija), vrednost 0 na vertikalnoj liniji pokazuje da

životinja nema perje, dok 1 znači da se radi o životinji sa perjem. Isto važi i

za ostale atribute, osim atributa noge koji može uzeti vrednosti (0,8).

Uzmimo klasu ptice, ako pratimo crvenu liniju koja povezuje linije atributa

možemo videti da većina ima perje i izleže se iz jaja( gust red linija koje

povezuju atribute perje i jaja u njihovim potvrdnim vrednostima 1).

Page 7: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

Orange

7

Slika 7 – Izgled prozora Parallel Coordinate

Glavno polje (Main Tab) omogućava korisniku da izdvoji atribute koji su mu

potrebni za analizu i koji će biti prikazani u prozoru, kao i redosled

prikazivanja atributa (Slika 8).

Slika 8- Izdvajanje atributa

Ukoliko nam za analizu nisu potrebni svi atributi, možemo ih izdvojiti i staviti

u Hidden attributes jednostavnim prevlačenjem ili klikom na njih a potom i

na dugme sa plavom strelicom na dole( na slici 8 kursor miša pokazuje na

ovo dugme). Sa ovako redukovanim skupom atributa možemo lakše uočiti

veze izmeĎu njih, samu raspodelu klasa kao i odstupanja.

Page 8: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

Orange

8

TakoĎe, postavljanjem kursora na vrednost atributa, kao što je prikazano na

slici 9, možemo dobiti informaciju o raspodeli klase kod ovog atributa,kao i

broj slučajeva koji imaju ovu vrednost. Konkretno kursor pokazuje na atribut

jaja sa vrednošću 1 ( životinja se izleže iz jaja) – 58, 4 % od ukupnog broja

životinja. Najveći broj životinja sa ovim atributom čine ptice 33,9%

Slika 9- Informacije o atributu

Zoom/Select odeljak- u zavisnosti od izbora alatke definišemo šta će se

desiti ako kliknemo na grafik( da li ćemo zumirati - lupa, ili pomerati grafik-

šaka). Nalazi se u levom uglu glavnog taba-slika 9.

U slučajevima kada imamo klasifikovane podatke, samo jedna klasa ( jedna

nasuprot ostalima) može biti izdvojena , tako što ćemo je izabrati iz Target

class, ali ova opcija se javlja u starijoj verziji softvera Orange.

Ako baza sadrži mnogo atributa, korišćenje Optimization dialog , može nam

koristiti u pronalaženju korelacija izmeĎu varijabli. Može se odlučiti na

osnovu korelacija izmeĎu susednih atributa, odabirom correlation i zatim

„start optimization“ gde je cilj pronaći redosled atributa takav da će susedni

atributi imati najveću sumu apsolutnih vrednosti korelacija. Ovo je

interesantno zbog samih korelacija izmeĎu variabli, ali i ovakvo prikazivanje

slučajeva je vizualno bolje. MeĎutim za ovu analizu potrebne su numeričke

vrednosti, a baza zoo sadrži binarne-0 i 1, ( osim atributa noge ).

Polje Podešavanja (Settings) se koristi za kontrolu odreĎenih aspekata

prikazivanja (Slika 10) .

Page 9: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

Orange

9

Transparency- može se menjati radi boljeg uočavanja slučajeva i koje to

atribute oni sadrže

Jittering settings:

Polje Jittering – Nasumično postavljene vrednosti pri prikazivanju

diskretnih podataka. Može biti korisno kada podaci sadrže slučajeve

koji dele dosta vrednosti atributa (slika 10) .

Slika 10- Settings

Visual settings:

Grafik se može pribeležiti sa prikazivanjem najmanje i najviše

vrednosti atributa ( show attribute values).

Show splines- svaki slučaj može buti pretvoren u krivulje, umesto

linija. Na ovaj način lakše pratimo slučaj kroz grafik.

show legend – prikazati legendu klasi

Axis distance- povećanje / smanjenje rastojanje osa

Statistical information

Statistic – da li želimo da prikažemo srednju vrednost, odstupanje ili

medijanu, kvarile.

Middle labels – da li želimo da prikazemo korelacije izmeĎu susednih

atributa ili VizRank metod

Page 10: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

Orange

10

TakoĎe, možemo označiti polje “ show distributions “ koje prikazuje

distribuciju kod vrednosti atributa u vidu stubića različitih boja

colors

Set color- odabir boja, paleta koja se koristi pri prikazivanju

slučajeva

Auto send selected data – kada odaberemo primere iz grafika, da li želimo

da ih pošaljemo sledećem čvoru automatski ako:

Adding/removing selection areas – odabrana polja

dodajemo/uklanjamo, odnosno

Moving/resizing selection areas- pomeramo, preoblikujemo

odabrana polja

Page 11: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

Orange

11

3. OPIS ČVORA Survey plot

Čvor Survey plot koristi višeatributivnu tehniku prikazivanja, koja

pomaže da lakše uočimo korelacije izmeĎu bilo koje dve variable, naročito

ako su podaci sortirani prema nekoj odreĎenoj dimenziji. Povezaćemo

čvor sa bazom( slika 11)

Slika 11 – Povezivanje čvora Survey Plot

Kada otvorimo čvor (slika 12), svaki splet u grafičim podacima odgovara

odreĎenom slučaju iz baze. Podaci o odreĎenom atributu su prikazani u

kolonama, gde dužina linije odgovara broju slučajeva iz baze. Kada baza

sadrži diskretne ili kontinualne klase, spletovi (slučajevi) se prikazuju

odgovarajućim bojama. Prostavljanjem kursora na splet dobijamo

informacije o atributu, klasi I nazivu životinje. Na slici 12 za odreĎeni splet

vidimo da se radi o klasi insekti I životinji pčela, takoĎe možemo videti I

vrednosti drugih atributa.

Page 12: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

Orange

12

Slika 12 – Survey plot čvor

U glavnom (main) tabu imamo opciju Sorting. Možem odabrati dva atrbibuta

prema kome će se sortirati grafik (slika 13). Izabrali smo atribut noge I

otrovan, na vrhu će se pojaviti životinje sa najvećom vrednošću ovih

atributa. Ono što je zanimljivo da se na prvim mestima javljaju

beskičmenjaci I to na vrhu- kao što je škorpija, ali I na dnu grafika, bez

nogu I nije otrovna-školjka. Atributi prikazani u garfikčkom prikazu nalaze se

u polju “Shown attributes”, svi ostali pojaviće se u polju “Hidden attributes.

Slika 13 – Sortiranje na osnovu izabrana dva atributa

Page 13: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

Orange

13

TakoĎe, podatak koji možemoo izdvojiti je kada označimo sortiranje po

sisanju mleka I bilo koji drugi atribut (npr. Kičma), možemo videti da se

izdvajaju sisari, kao jedina klasa životinja koja sisa mleko (slika 14)

Slika 14 – Sortiranje sisara

Tab Settings

Visual settings- ako označimo “Example tracking” prevlačenjem

kursora preko grafika dobijamo označeno polje oko reda koji

predstavlja neki slučaj. Na slici 15 ovo polje nam daje informacije o

vrednosti atributa koje ima reptil morska zmija. Ova životinja se

izdvaja od svoje klase.

Show legend- prikazuje podatke o atributima I klasama na dnu grafika

Page 14: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

Orange

14

Slika 15- Example tracking

Tooltips settings

Atributi koji se pojavljuju u listi atributa mogu se sortirati prema nekom

kriterijumu. Ovo polje kontroliše količinu podataka koja se javlja u

poljima koja nose podatke o slučaju. Možemo ograničiti na atribute koji se

nalaze u “visualized attributes”, sve atribute “all attributes” ili da se

uopšte ne prikazuju ove informacije (slika 16).

Page 15: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

Orange

15

Slika 16- Podešavanja za polje sa informacijama o slučaju

Uopšteno gledano, uz pomoć ovog čvora možemo sortirati slučajeve onako

kako odgovara za analizu, a uz to dobijamo I informacije o svim vrednostima

odreĎenog slučaja. Survey Plot čvor je koristan jer nam daje jasniji uvid o

slučajevima koji su izdvojeni iz svoje klase po odreĎenim atributima koje

poseduju.

4. OPIS ČVORA Correspondence Analysis

Nakon što ga povežemo sa čvorom File, otvaramo čvor Correspondence

Analysis, a izgled prozora možemo videti na slici 17.

Slika 17 – Correspondence analysis

Analiza korespodencije se koristi za analizu kvalitativnih podataka. Prvobitno

je kreirana za analizu kontingenciskih tabela, ali je prilagodljiva i koristi se

za mnoge podatke date u tabelama, dakle dozvoljava uporeĎivanje mera

koje se nalaze u kolonama i redovima. Moguće je analizirati strukturu

kategoričkih varijabli koje se nalaze u tabelama. Analiza prikazuje grafički

Page 16: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

Orange

16

prikaz interakcije izmeĎu dva atributa, tj. Sličnosti koje postoje izmeĎu

njihovih struktura.

U tabu Graph (slika 17) možemo izabrati atribute po kolonama i tabelama

(column attributes i Row attributes). Atributi se na grafikonu prikazuju u

vidu tačaka plave i crvene boje. Ispod se nalaze opcije za obeležavanje osa

– sličnosti struktura se prikazuju po atributima koji se odnose na ose.

Contribution to inertia – pokazuje udeo u ukupnoj varijansi. Gleda se prema

dimenziji koja ima najveći procenat.

Slika 18- Correspondence Analysis poreĎenje

Na slici 18 imamo prikaz uporeĎivanja atributa kolone-vrsta životinje I

atribute reda-noge. Kao nešto što se izdvaja uokvireno je

pravougaonicima na slici 18- insekti I ribe. U odnosu na Axis1, na osnovu

blizine varijabli na grafiku, možemo zaključiti da su insekti najčešće

šetonožne životinje, kao I ribe za životinje bez nogu. U polju Settings

(slika 19) možemo korigovati:

Point size- veličinu tačaka u

grafiku

Transparency- transparentnost/

jačina boje

Jitter points- Nasumično

postavljene vrednosti pri prikazivanju diskretnih podataka

Page 17: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

Orange

17

Slika 19- Polje za podešavanja

5. OPIS ČVORA Multi Corr.Analysis

Multi Correspodence Analysis (MCA) omogućava poreĎenje više varijabli, za

razliku od prethodnog čvora. TakoĎe, kod ovih varijabli je značajno da

vrednosti budu binarne. Porede se redovi I kolone I pronalaze sličnosti u

njihovim strukturama. Na slici 20 možemo videti prikaz prozora Multi

correspondence analysis .

Za Graph polje važi isto kao i za prethodni čvor, ali sad postoji izbor više

atributa. Držanjem dugmeta CTRL na tastaturi i klikom na atribute, možemo

izabrati šta je to što želimo da prikažemo na grafiku.

Page 18: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

Orange

18

Slika 20- Multi Correspondence Analysis

Na slici 20 možemo videti više atributa – vrsta, izleže se iz jaja, sisa mleko,

ima perje ili dlaku. Sličnosti na koje nam ukazuje grafikon su uokvirene.

Najveća sličnost (desni pravougaonik na grafiku) je kod onih koji imaju dlaku

i sisaju mleko, najveći broj ih pripada sisarima i ne nose jaja.

U polju Settings , kao i kod čvora Correspodence Analysis možemo menjati

veličinu tačaka, transparentnost i nasumično postavljanje podataka.

6. ZAKLJUČAK

Slika 22- Čvorovi Visualize

Parallel Coordinates je tehnika prikazivanja multidimenzionih podataka.

Svaki atribut se prikazuje vertikalnom linijom, gde su najveće i najmanje

vrednosti odreĎene dimenzije raspodeljene višom i nižom tačkom na

vertikalnoj liniji. Čvor Survey Plot koristi višeatributivnu tehniku

Page 19: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Parallel-Coord.-Survey... · podataka, tehnike klasifikacije, klasterovanja, regresione metode,

Orange

19

prikazivanja, koja pomaže da lakše uočimo korelacije izmeĎu bilo koje dve

variable, naročito ako su podaci sortirani prema nekoj odreĎenoj dimenziji.

Čvorovi Correspondance analysis(CA) i Multi Correspondance analysis(MCA)

omogućavaju analizu strukture kategoričkih varijabli koje se nalaze u

tabelama. Ovi čvorovi daju grafički prikaz interakcije izmeĎu dva atributa-

kod CA, i više atributa kod MCA, što kod prethodna dva čvora nismo mogli.

Na primeru baze Zoo uvideli smo da pomocu Parallel Coordinates i Survey

Plot imamo uvid o slučajevima, vrednosti atributa koje uzimaju i možemo

lako uvideti i izuzetke . Značaj korišćenja CA i MCA je u tome što informacije

sadržane u tabelama daje kroz jednostavan prikaz tačaka redova i kolona

odreĎene tabele( Row i Column points). TakoĎe, nismo morali gledati po

atributima da li ako je vrednost atributa mleko jedan, onda pripada sisarima,

to smo mogli jednostavnije i brže učiniti analizom corespodencije i videti na

grafiku i dalje analizirati ukoliko nam je ovaj podatak značajan. Na slici 23

vidimo da se jedino izdvajaju mleko 1 i sisari(uokvireno na grafiku), što se

dalje može analizirati na drugim čvorovima. Kod CA ne postoji test

statističke značajnosti za dobijene rezultate, osnovna svrha je da stvori

jednostavan prikaz informacija iz tabela.

Slika 23-Analiza korespodencije

Dok čvorove Parallel Coordinates i Survey Plot ima više smisla koristiti kod

podataka koji su numeričkog tipa, CA i MCA koristimo kod podataka

kategoričkog tipa.