Upload
nguyenthu
View
220
Download
0
Embed Size (px)
Citation preview
1
INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTU
OBLAST: Visualization
ČVOROVI (WIDGET): Parallel Coord., Survey plot, Correspondence Analysis, Multi Corr.Analysis
SKUPOVI PODATAKA: Anneal
AUTOR: Andrea Šćepanović 473/07
2011, Beograd
Orange
2
SADRŽAJ
1. UVOD
2. OPIS ČVORA Parallel Coordination
3. OPIS ČVORA Survey plot
4. OPIS ČVORA Correspondence Analysis
5. OPIS ČVORA Multi Corr.Analysis
6. ZAKLJUČAK
Orange
3
1. UVOD
Seminarski rad, u formi skripte za softver Orange, ima za zadatak da,
koristeći odreĎenu bazu podataka, opiše korišćenje čvorova (widgets) koji se
odnose na polje Visualisation.
Orange, sveobuhvatna komponenta, koja predstavlja okvir za mašinsko
učenje i data mining. Ovaj softver sadrži algoritme za mašinsko učenje i
data mining. Orange sadrži procedure za: uvoĎenje i pretprocesiranje
podataka, tehnike klasifikacije, klasterovanja, regresione metode, kao i
modele za validaciju.
Naredna skripta opisuje četiri čvora softvera Orange, primenjenog na bazi
podataka Zoo .
Čvorovi koji će biti obraĎeni su :
Parallel Coordinates
Survey plot
Correspondence Analysis
Multi Correspondence Analysis
Orange
4
2. OPIS ČVORA Parallel Coordinates
Kada pokrenemo program Orange javlja se početni ekran (Slika 1)
Slika 1- Izgled radne površine Orange softvera
Da bismo učitali bazu (Slika 2), potrebno je da kliknemo na čvor File , koji se
nalazi u gornjem levom uglu prozora. Izborom čvora File klikom na ikonu
Folder otvara nam se prozor za učitavanje baze, u ovom slučaju Zoo.
Slika 2 – Učitavanje baze
Orange
5
Ako povežemo čvor File sa čvorom DataTable možemo pregledati našu
bazu(Slika3).
Slika 3-Data Table
Otvaranjem čvora Data Table (slika 4) vidimo da baza sadrži 101 slučaj, 16
atributa(sa dlakom, sa perjem, izležu se iz jaja, sisaju mleko,
vazdušnodesanti, predatori, vodeni, sa zubima, sa kičmom, sa disajnim
sistemom, otrovan, sa nogama, sa perajima, sa repom, domaći, reda mačke
Slika 5- Pregled baze podataka
Orange
6
i jednim meta atributom – ime životinje. Izlaz pokazuje u koju se od 7 klasa
(sisar, ptica, riba, insekt, vodozemac, beskičmenjak, reptil) ubraja ta
životinja. Cilj analize ovih podataka jeste da se uoče odreĎene zavisnosti,
veze i pravila vezana za podatke i na osnovu vizualizacije protumače.
Nakon upoznavanja sa bazom podataka, krećemo da koristimo čvor Parallel
Coordinates iz polja Visualize (slika 6).
Slika 6 – Parallel Coordinates
Parallel Coordinates je tehnika prikazivanja multidimenzionih podataka.
Svaki atribut se prikazuje vertikalnom linijom, gde su najveće i najmanje
vrednosti odreĎene dimenzije raspodeljene višom i nižom tačkom na
vertikalnoj liniji.
Na Slici 7 možemo videti podatke iz baze Zoo. Slučajevi su uvršćeni u jednu
od 7 različitih klasa, koji su prikazani linijama različitih boja (plava, crvena,
zelena, narandžasta, žuta, ružičasta i tirkiz plava).Ako pogledamo atribut
perje (druga vertikala linija), vrednost 0 na vertikalnoj liniji pokazuje da
životinja nema perje, dok 1 znači da se radi o životinji sa perjem. Isto važi i
za ostale atribute, osim atributa noge koji može uzeti vrednosti (0,8).
Uzmimo klasu ptice, ako pratimo crvenu liniju koja povezuje linije atributa
možemo videti da većina ima perje i izleže se iz jaja( gust red linija koje
povezuju atribute perje i jaja u njihovim potvrdnim vrednostima 1).
Orange
7
Slika 7 – Izgled prozora Parallel Coordinate
Glavno polje (Main Tab) omogućava korisniku da izdvoji atribute koji su mu
potrebni za analizu i koji će biti prikazani u prozoru, kao i redosled
prikazivanja atributa (Slika 8).
Slika 8- Izdvajanje atributa
Ukoliko nam za analizu nisu potrebni svi atributi, možemo ih izdvojiti i staviti
u Hidden attributes jednostavnim prevlačenjem ili klikom na njih a potom i
na dugme sa plavom strelicom na dole( na slici 8 kursor miša pokazuje na
ovo dugme). Sa ovako redukovanim skupom atributa možemo lakše uočiti
veze izmeĎu njih, samu raspodelu klasa kao i odstupanja.
Orange
8
TakoĎe, postavljanjem kursora na vrednost atributa, kao što je prikazano na
slici 9, možemo dobiti informaciju o raspodeli klase kod ovog atributa,kao i
broj slučajeva koji imaju ovu vrednost. Konkretno kursor pokazuje na atribut
jaja sa vrednošću 1 ( životinja se izleže iz jaja) – 58, 4 % od ukupnog broja
životinja. Najveći broj životinja sa ovim atributom čine ptice 33,9%
Slika 9- Informacije o atributu
Zoom/Select odeljak- u zavisnosti od izbora alatke definišemo šta će se
desiti ako kliknemo na grafik( da li ćemo zumirati - lupa, ili pomerati grafik-
šaka). Nalazi se u levom uglu glavnog taba-slika 9.
U slučajevima kada imamo klasifikovane podatke, samo jedna klasa ( jedna
nasuprot ostalima) može biti izdvojena , tako što ćemo je izabrati iz Target
class, ali ova opcija se javlja u starijoj verziji softvera Orange.
Ako baza sadrži mnogo atributa, korišćenje Optimization dialog , može nam
koristiti u pronalaženju korelacija izmeĎu varijabli. Može se odlučiti na
osnovu korelacija izmeĎu susednih atributa, odabirom correlation i zatim
„start optimization“ gde je cilj pronaći redosled atributa takav da će susedni
atributi imati najveću sumu apsolutnih vrednosti korelacija. Ovo je
interesantno zbog samih korelacija izmeĎu variabli, ali i ovakvo prikazivanje
slučajeva je vizualno bolje. MeĎutim za ovu analizu potrebne su numeričke
vrednosti, a baza zoo sadrži binarne-0 i 1, ( osim atributa noge ).
Polje Podešavanja (Settings) se koristi za kontrolu odreĎenih aspekata
prikazivanja (Slika 10) .
Orange
9
Transparency- može se menjati radi boljeg uočavanja slučajeva i koje to
atribute oni sadrže
Jittering settings:
Polje Jittering – Nasumično postavljene vrednosti pri prikazivanju
diskretnih podataka. Može biti korisno kada podaci sadrže slučajeve
koji dele dosta vrednosti atributa (slika 10) .
Slika 10- Settings
Visual settings:
Grafik se može pribeležiti sa prikazivanjem najmanje i najviše
vrednosti atributa ( show attribute values).
Show splines- svaki slučaj može buti pretvoren u krivulje, umesto
linija. Na ovaj način lakše pratimo slučaj kroz grafik.
show legend – prikazati legendu klasi
Axis distance- povećanje / smanjenje rastojanje osa
Statistical information
Statistic – da li želimo da prikažemo srednju vrednost, odstupanje ili
medijanu, kvarile.
Middle labels – da li želimo da prikazemo korelacije izmeĎu susednih
atributa ili VizRank metod
Orange
10
TakoĎe, možemo označiti polje “ show distributions “ koje prikazuje
distribuciju kod vrednosti atributa u vidu stubića različitih boja
colors
Set color- odabir boja, paleta koja se koristi pri prikazivanju
slučajeva
Auto send selected data – kada odaberemo primere iz grafika, da li želimo
da ih pošaljemo sledećem čvoru automatski ako:
Adding/removing selection areas – odabrana polja
dodajemo/uklanjamo, odnosno
Moving/resizing selection areas- pomeramo, preoblikujemo
odabrana polja
Orange
11
3. OPIS ČVORA Survey plot
Čvor Survey plot koristi višeatributivnu tehniku prikazivanja, koja
pomaže da lakše uočimo korelacije izmeĎu bilo koje dve variable, naročito
ako su podaci sortirani prema nekoj odreĎenoj dimenziji. Povezaćemo
čvor sa bazom( slika 11)
Slika 11 – Povezivanje čvora Survey Plot
Kada otvorimo čvor (slika 12), svaki splet u grafičim podacima odgovara
odreĎenom slučaju iz baze. Podaci o odreĎenom atributu su prikazani u
kolonama, gde dužina linije odgovara broju slučajeva iz baze. Kada baza
sadrži diskretne ili kontinualne klase, spletovi (slučajevi) se prikazuju
odgovarajućim bojama. Prostavljanjem kursora na splet dobijamo
informacije o atributu, klasi I nazivu životinje. Na slici 12 za odreĎeni splet
vidimo da se radi o klasi insekti I životinji pčela, takoĎe možemo videti I
vrednosti drugih atributa.
Orange
12
Slika 12 – Survey plot čvor
U glavnom (main) tabu imamo opciju Sorting. Možem odabrati dva atrbibuta
prema kome će se sortirati grafik (slika 13). Izabrali smo atribut noge I
otrovan, na vrhu će se pojaviti životinje sa najvećom vrednošću ovih
atributa. Ono što je zanimljivo da se na prvim mestima javljaju
beskičmenjaci I to na vrhu- kao što je škorpija, ali I na dnu grafika, bez
nogu I nije otrovna-školjka. Atributi prikazani u garfikčkom prikazu nalaze se
u polju “Shown attributes”, svi ostali pojaviće se u polju “Hidden attributes.
Slika 13 – Sortiranje na osnovu izabrana dva atributa
Orange
13
TakoĎe, podatak koji možemoo izdvojiti je kada označimo sortiranje po
sisanju mleka I bilo koji drugi atribut (npr. Kičma), možemo videti da se
izdvajaju sisari, kao jedina klasa životinja koja sisa mleko (slika 14)
Slika 14 – Sortiranje sisara
Tab Settings
Visual settings- ako označimo “Example tracking” prevlačenjem
kursora preko grafika dobijamo označeno polje oko reda koji
predstavlja neki slučaj. Na slici 15 ovo polje nam daje informacije o
vrednosti atributa koje ima reptil morska zmija. Ova životinja se
izdvaja od svoje klase.
Show legend- prikazuje podatke o atributima I klasama na dnu grafika
Orange
14
Slika 15- Example tracking
Tooltips settings
Atributi koji se pojavljuju u listi atributa mogu se sortirati prema nekom
kriterijumu. Ovo polje kontroliše količinu podataka koja se javlja u
poljima koja nose podatke o slučaju. Možemo ograničiti na atribute koji se
nalaze u “visualized attributes”, sve atribute “all attributes” ili da se
uopšte ne prikazuju ove informacije (slika 16).
Orange
15
Slika 16- Podešavanja za polje sa informacijama o slučaju
Uopšteno gledano, uz pomoć ovog čvora možemo sortirati slučajeve onako
kako odgovara za analizu, a uz to dobijamo I informacije o svim vrednostima
odreĎenog slučaja. Survey Plot čvor je koristan jer nam daje jasniji uvid o
slučajevima koji su izdvojeni iz svoje klase po odreĎenim atributima koje
poseduju.
4. OPIS ČVORA Correspondence Analysis
Nakon što ga povežemo sa čvorom File, otvaramo čvor Correspondence
Analysis, a izgled prozora možemo videti na slici 17.
Slika 17 – Correspondence analysis
Analiza korespodencije se koristi za analizu kvalitativnih podataka. Prvobitno
je kreirana za analizu kontingenciskih tabela, ali je prilagodljiva i koristi se
za mnoge podatke date u tabelama, dakle dozvoljava uporeĎivanje mera
koje se nalaze u kolonama i redovima. Moguće je analizirati strukturu
kategoričkih varijabli koje se nalaze u tabelama. Analiza prikazuje grafički
Orange
16
prikaz interakcije izmeĎu dva atributa, tj. Sličnosti koje postoje izmeĎu
njihovih struktura.
U tabu Graph (slika 17) možemo izabrati atribute po kolonama i tabelama
(column attributes i Row attributes). Atributi se na grafikonu prikazuju u
vidu tačaka plave i crvene boje. Ispod se nalaze opcije za obeležavanje osa
– sličnosti struktura se prikazuju po atributima koji se odnose na ose.
Contribution to inertia – pokazuje udeo u ukupnoj varijansi. Gleda se prema
dimenziji koja ima najveći procenat.
Slika 18- Correspondence Analysis poreĎenje
Na slici 18 imamo prikaz uporeĎivanja atributa kolone-vrsta životinje I
atribute reda-noge. Kao nešto što se izdvaja uokvireno je
pravougaonicima na slici 18- insekti I ribe. U odnosu na Axis1, na osnovu
blizine varijabli na grafiku, možemo zaključiti da su insekti najčešće
šetonožne životinje, kao I ribe za životinje bez nogu. U polju Settings
(slika 19) možemo korigovati:
Point size- veličinu tačaka u
grafiku
Transparency- transparentnost/
jačina boje
Jitter points- Nasumično
postavljene vrednosti pri prikazivanju diskretnih podataka
Orange
17
Slika 19- Polje za podešavanja
5. OPIS ČVORA Multi Corr.Analysis
Multi Correspodence Analysis (MCA) omogućava poreĎenje više varijabli, za
razliku od prethodnog čvora. TakoĎe, kod ovih varijabli je značajno da
vrednosti budu binarne. Porede se redovi I kolone I pronalaze sličnosti u
njihovim strukturama. Na slici 20 možemo videti prikaz prozora Multi
correspondence analysis .
Za Graph polje važi isto kao i za prethodni čvor, ali sad postoji izbor više
atributa. Držanjem dugmeta CTRL na tastaturi i klikom na atribute, možemo
izabrati šta je to što želimo da prikažemo na grafiku.
Orange
18
Slika 20- Multi Correspondence Analysis
Na slici 20 možemo videti više atributa – vrsta, izleže se iz jaja, sisa mleko,
ima perje ili dlaku. Sličnosti na koje nam ukazuje grafikon su uokvirene.
Najveća sličnost (desni pravougaonik na grafiku) je kod onih koji imaju dlaku
i sisaju mleko, najveći broj ih pripada sisarima i ne nose jaja.
U polju Settings , kao i kod čvora Correspodence Analysis možemo menjati
veličinu tačaka, transparentnost i nasumično postavljanje podataka.
6. ZAKLJUČAK
Slika 22- Čvorovi Visualize
Parallel Coordinates je tehnika prikazivanja multidimenzionih podataka.
Svaki atribut se prikazuje vertikalnom linijom, gde su najveće i najmanje
vrednosti odreĎene dimenzije raspodeljene višom i nižom tačkom na
vertikalnoj liniji. Čvor Survey Plot koristi višeatributivnu tehniku
Orange
19
prikazivanja, koja pomaže da lakše uočimo korelacije izmeĎu bilo koje dve
variable, naročito ako su podaci sortirani prema nekoj odreĎenoj dimenziji.
Čvorovi Correspondance analysis(CA) i Multi Correspondance analysis(MCA)
omogućavaju analizu strukture kategoričkih varijabli koje se nalaze u
tabelama. Ovi čvorovi daju grafički prikaz interakcije izmeĎu dva atributa-
kod CA, i više atributa kod MCA, što kod prethodna dva čvora nismo mogli.
Na primeru baze Zoo uvideli smo da pomocu Parallel Coordinates i Survey
Plot imamo uvid o slučajevima, vrednosti atributa koje uzimaju i možemo
lako uvideti i izuzetke . Značaj korišćenja CA i MCA je u tome što informacije
sadržane u tabelama daje kroz jednostavan prikaz tačaka redova i kolona
odreĎene tabele( Row i Column points). TakoĎe, nismo morali gledati po
atributima da li ako je vrednost atributa mleko jedan, onda pripada sisarima,
to smo mogli jednostavnije i brže učiniti analizom corespodencije i videti na
grafiku i dalje analizirati ukoliko nam je ovaj podatak značajan. Na slici 23
vidimo da se jedino izdvajaju mleko 1 i sisari(uokvireno na grafiku), što se
dalje može analizirati na drugim čvorovima. Kod CA ne postoji test
statističke značajnosti za dobijene rezultate, osnovna svrha je da stvori
jednostavan prikaz informacija iz tabela.
Slika 23-Analiza korespodencije
Dok čvorove Parallel Coordinates i Survey Plot ima više smisla koristiti kod
podataka koji su numeričkog tipa, CA i MCA koristimo kod podataka
kategoričkog tipa.