Author
others
View
24
Download
1
Embed Size (px)
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.2
Uvod
• Razliciti izvori i formati podataka• Nedostajuci i nekonsistentni podaci,
greške• Podatke je neophodno pripremiti za
proces IP-a• Preprocesiranje podataka
• Izdvajanje karakteristika• Prenosivost tipova podataka• Cišcenje podataka• Izbor i transformacija podataka• Redukcija podataka
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.3
Izdvajanje karakteristika
• Izdvajanje karakteristika izravnih/nestruktuiranih podataka
• Karakteristika koja se izdvaja zavisi odaplikacije (slike, veb logovi, tekstualnipodaci, ...)
• Podaci mogu da sadrže heterogenetipove
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.4
Prenosivost tipova podataka
• Neke karakteristike onemogucujuprimenu gotovih alata
• Pojedini algoritmi rade samo saodredjenim tipovima podataka
• Potrebna je promena tipa nekogpodataka
• Moguce je gubljenje informacija• Najcešca transformacija u numericke
podatke
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.5
Prenosivost tipova podataka
Prenosivost podataka izmedu tipova• Diskretizacija - neprekidni u kategoricke
atribute
• Binarizacija - kategoricki u numericke atribute
• Tekstualni atributi u u numericke
• Podaci iz vremenskih serija u diskretne niske
• Podaci iz vremenskih serija u numerickepodatke
• Diskretne niske u numericke podatke
• ...
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.6
Diskretizacija
Transformacija neprekidnih u kategorickeatribute• Obicno se primenjuje na atribute u klasifikaciji
ili analizi zasnovanoj na pravilima pridruživanja• Koraci u transformaciji
• odabrati broj kategorija n• interval brojeva se deli na n podintervala• sve vrednosti iz jednog podintervala se
preslikavaju u istu kategoricku vrednost
• Izmedju dobijenih vrednosti (oznaka) ne postojiuredjenje (kategoricke vrednosti!)
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.7
Nacin izbora intervala
• Jednake širine intervala
• Ako su a i b granice intervala [a,b] tada jeb − a jednako za sve intervale
• Za svaki atribut se interval [min,max ] delina n podintervala
• Nekorektno ako je distribucija elemenataneravnomerna po intervalima
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.8
Nacin izbora intervala (nastavak)
• Jednaki log-intervali
• Ako su a i b granice intervala [a,b] tada jelog(b)− log(a) jednako za sve intervale
• Ima efekat u slu caju geometrijskogpovecanja granica intervala[a,a× α], [a× α, a× α2], itd. za α > 1.
• Nekorektno ako je distribucija elemenataneravnomerna po intervalima
• Ako distribucija elemenata atributa može da semodelira funkcionalom f tada se biraju intervali[a,b] takvi da je f (b)− f (a) jednako za sveintervale
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.9
Nacin izbora intervala (nastavak)
• Jednak broj elemenata u intervalu
• Vrednosti atributa se prebroje, i dobijenibroj k podeli sa n
• Vreddnosti atributa se sortiraju i u svakiinterval se uzima k/n elemenata
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.10
Primer - broj klasa poznat
Po 3 kategorije za x i y Po 5 kategorija za x i y
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.11
Primer -broj klasa nepoznat
Originalni podaci
Jednaka frekvencija
Intervali jednake širine
K-sredine
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.12
Binarizacija
Binarizacija - transformacija neprekidnih idiskretnih atributa u binarne• Obicno se primenjuje na atribute u analizi
zasnovanoj na pravilima pridruživanja
• Cest redosled: neprekidni→ kategoricki→skup binarnih atributa
• Postupak• Ako kategoricki atribut ima n vrednosti formira se
n binarnih atributa• Svaki binarni atribut odgovara jednoj vrednosti
kategorickih promenljivih• U jednom redu tacno jedna od n vrednosti ima
vrednost 1
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.13
Tekstualni podaci u numericke
• Predstavljanje tekstualnih podataka retkog numerickogvektora nije pogodno za najveci broj IP metoda
• Na takve podatke mogu da se primenjuju samo nekemere (npr. kosinusna mera, ali ne i Euklidsko rastojanje)
• Latentna semanticka anliza (LSA) - tekst u ne-retkureprezentaciju manje dimenzije
• Posle transformacije dokument X = (x1, x2, ..., xd ) seskalira funkcijom 1√∑d
i=1 x2(x1, x2, ..., xd )
• Na ovako dobijene podatke može da se primeniEuklidsko rastojanje
• U praksi se IP algoritmi primenjuju direktno da podatkedobijene sa LSA dok se dalja transformacija ne radi
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.14
Podaci iz vremenskih serija u diskretneniske
Konverzija se vrši SAX algoritmom (simbolicka aproksimacijaagregata, eng. symbolic aggregate approximation)
1 U prvom koraku se serija deli u prozore velicine w zakoje se racuna prosecna vrednost atributa (vremenskeserije) za koju je prozor odredjen
2 U drugom koraku se srednje vrednosti vremenskih serijadiskretizuju pomocu tehnike sa intervalima koji imaju istibroj elemenata
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.15
Podaci iz vremenskih serija u diskretneniske (nastavak)
Drugi korak SAX algoritma
• Pretpostavka je da se vrednosti u vremenskim serijamaimaju normalnu (Gausovu) raspodelu
• Srednja vrednost i standardna devijacija vrednostivremenskih serija iz prozora se procenjuju na osnovuparametara normalne raspodele
• Za odredjivanje granica intervala se koriste kvantilinormalne raspodele
• Diskretizacija se vrši najcešce u 3–10 intervala koji sepreslikavaju u simbolicke vrednosti
Za dati numericki atribut x i broj p ∈ [0,100], p-ti percentil jevrednost x-a takva da je p% posmatrane vrednosti x manje odnje. Na primer, 50-ti percentil je vrednost od koje je manje 50%vrednosti u x-u.
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.16
Podaci iz vremenskih serija u numerickepodatke
Omogucava upotrebu algoritama koji rade sa multidimenzionimpodacima
1 Najcešce se koristi diskretna transformacija talasicima(DWT, eng. discrete wavelet transform)
2 Konvertuje podatke iz vremenskih serija umultidimenzione kao skup koeficijenat akoji predstavljarazlike izmedju razlicitih delova serije
3 Može da se koristi i diskretna Furijeova transformacija(DFT, eng. discrete Fourier transform)
4 Zajednicka osobina obe metode je da dobijenikoeficijenti nisu zavisni kao u originalnim podacima
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.17
Diskretne niske u numericke podatke
Transformacija se vrši u dva koraka
1 Diskretne niske se konvertuju u skup binarnihvremenskih serija ciji je broj jednak broju razlicitihsimbola
2 Svaka serija se konvertuje u multidimenzioni vektorpomocu transformacije talasicima. Osobine iz ovihvektora se kombinuju i formira se multidmenzioni slog.
Primer: DNK sekvenca
ACACACTGTGACTG10101000001000010101000001000000001010001000000001010001
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.18
Cišcenje podataka
Aspekti
1 Rad sa nedostajucim podacima
2 Rad sa nekorektnim podacima
3 Rad sa dupliranim podacima
4 Skaliranje i normalizacija
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.19
Rad sa nedostajucim podacima
Razlozi za pojavu
• Informacije nisu prikupljene (npr. ljudi odbijaju daprikažu svoju težinu, starost, velicinu plate,...)
• Atributi nisu primenljivi u svim slucajevima (npr. platanije primenljiva na decu)
• Šta raditi u takvim slucajevima?
Rukovanje nedostajucim vrednostima
1 Kompletni slogovi (ceo objekat) koji sadrže takavpodatak se brišu
2 Nedostajuca vrednost se procenjuje i unosi (imputacija)
3 Algoritam može da obraduje i atribute/slogove sanedostajucim podacima
4 Zamena sa mogucim vrednostima (u zavisnosti da lizavisi do njega ili ne)
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.20
Rad sa nekorektnim podacima
Aspekti
1 Otkrivanje nekonzistentnosti (npr. podaci iz više izvorakoji se odnose na istu stvar su razliciti)
2 Domensko znanje
3 Metoda orijentisana ka podacima
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.21
Rad sa dupliranim podacima
Najcešce se javljaju kod spajanja podatakaiz heterogenih izvora
• Primer: Ista osoba sa više elektronskih adresa
• Najcešce se eliminišu iz materijala
• Kada duplirane podatke ne treba brisati?
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.22
Skaliranje i normalizacija
• Transformacija promenljive oznacava transformaciju kojase primenjuje na sve vrednosti te promenljive
• Za svaki objekat, transformacija se primenjuje navrednosti promenljive za taj objekat
• Jednostavne funkcije, npr.√
x , xk , log(x),ex , |x |,1/x
• U statistici se cesto koriste√
x , log(x) i 1/x raditransformacije podataka koji nemaju Gausovu(normalnu) raspodelu u podatke koji imaju tu raspodelu
• U IP postoje i drugi razlozi. Npr. ako je vrednostpromenljive izmedu 1 i 1.000.000.000, primenom logfunkcije se dobijaju bolji odnosi kod poredenja (npr. 108sa 109 i 10 sa 1000)
• Oprez - moguca promena prirode podataka (npr.transformacija sa 1/x)
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.23
Skaliranje i normalizacija
• Potreba za normalizacijom - više atributa koji su razlicitoskalirani
• Standardizacija: neka j-ti atribut ima srednju vrednost µj
i standardnu devijaciju σj . Tada se vrednost x ji j-tog
atributa sloga Xi normalizuje primenom izraza z ji =
x ji −µj
σj
• Za normalnu raspodelu dobijene vrednosti najcešce senalaze u intervalu [−3,3]
• Za svodjenje u interval [0,1] primenjuje se min-maks
skaliranje y ji =
x ji −minj
maxj−minj
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.24
Redukcija i transformacija podataka
Manja kolicina podataka - efikasnija primena algoritama
1 Agregacija
2 Uzimanje uzoraka
3 Izbor karakteristika
4 Redukcija podataka pomocu rotacije osa
5 Ostale metode dimenzione redukcije
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.25
Agregacija
Kombinovanje dva ili više atributa (ili objekata) ujedan atribut (objekat)
Svrha
1 Redukcija podataka (smanjivanje broja atributaili objekata)
2 Promena skale (npr. umesto 365 danadobijamo 12 meseci)
3 ’Stabilniji’ podaci (agregirani podaci imajutendenciju da imaju manja odstupanja)
4 ...
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.26
Primer agregacije vrednost padavina uAustraliji
St.dev. prosecnih mesecnih padavina St. dev. prosecnih godišnjih padavina
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.27
Uzimanje uzoraka
• Izbor uzoraka je glavna tehnika koja se koristi uizdvajanju podataka.
• Cesto se koristi kako za preliminarnaistraživanja tako i za konacne analize podataka
• Statisticari biraju uzorke jer je dobijanjekompletnog skupa podataka koji su od interesajako skupo i vremenski zahtevno
• Izbor uzoraka se koristi u IP jer je obradakompletnog skupa podataka koji je od interesatakode jako skupa ili vremenski zahtevna
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.28
Uzimanje uzoraka
Kljucni principi za efektivan izbor uzoraka su:
• Korišcenjem uzoraka koji su reprezentativnidobija se efekat skoro isti kao da je radeno nakompletnom skupu podataka
• Uzorak je reprezentativan ako imaaproksimativno iste osobine kao i originalniskup podataka
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.29
Tipovi uzoraka
• Jednostavan slucajni uzorak (jednakaverovatnoca za izbor bilo koje slucajne stavke)
• Sa i bez vracanja (duplikata iz originalnogskupa)
• Pristrasno uzorkovanje (neki podaci su važnijiod drugih)
• Stratifikovano uzorkovanje (uzorkovanje saraslojavanjem)
• Podaci se dele u više delova, a zatim sebira jednostavan slucajni uzorak iz svakogod delova
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.30
Velicina uzorka
Velicina uzorka treba da bude dovoljno velika da sene naruši struktura objekta ili uklone interesantneosobine
Velicine uzorka su redom 8000, 2000 i 500 tacaka
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.31
Izbor karakteristika
1 Jedan od nacina za smanjenjedimenzionalnosti
2 Eliminacija redundatnih karakteristika (npr. brojpoena i ocena)
3 Eliminacije irelevantnih karakteristika
4 Razvijen je veliki broj tehnika, pogotovu zaklasifikaciju
5 Cesto se formiraju novi atributi koji ukljucujuvažne karakteristike zbog efikasnije obrade
6 Preslikavanje u novi prostor (npr. Furijeovaanaliza, talasici)
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.32
Redukcija podataka pomocu rotacije osaKorelacije izmedju razlicitih atributa u podacima
−2
0
2−2
0
2
−0.4−0.2
00.20.4
−20
2−2 0 2
−0.4
−0.2
0
0.2
0.4
xy
−20
2−2 0 2
−0.4
−0.20
0.2
0.4
xy
−202−2 0 2−0.4
−0.2
0
0.2
0.4
xy
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.33
Redukcija podataka pomocu rotacije osa
• Automatsko uklanjanje koordinatnih osapomocu rotacije?
• PCA (Principal Component Analysis)
• SVD (Singular Value Decomposition)
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.34
Principal Component Analysis
• Smanjenje broja dimenzija podataka
• Nalaženje obrazaca u podacima velikedimenzionalnosti
• Vizealizacija podataka velike dimenzionalnosti
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.35
Principal Component Analysis (nastavak)
• Osnovna ideja: rotacija podataka u sistem saosama gde je najveci broj varijansi pokrivennajmanjim brojem dimenzija
• Novi sistem sa osama zavisi od korelacijeizmedju atributra
• PCA se (najcešce ) primenjuje posleoduzimanja srednje vrednosti od svake tacke
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.36
Principal Component Analysis (nastavak)
• Za matricu podataka D reda m × n može da seformira matrica kovarijansi C sa elementimacij = cov(d∗i ,d∗j) (cij je kovarijansa i-te i j-tekolone (atributa) podataka)
• Kovarijansa je mera kako se atributi menjaju uparu. Ako je i = j tada je kovarijnsa jednakavarijansi atributa.
• Ako se matrica D prethodno pripremi tako da jesrednja vrednost svakog od atributa jednaka 0,tada je C = DT D
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.37
Principal Component Analysis (nastavak)
Cilj PCA je nalaženje transformacijepodataka za koju važi
1 Svaki par novodobijenih atributa imakovarijansu 0
2 Atributi su uredjeni u odnosu na velicinuvarijanse (u opadajucem redosledu) koja jepokrivena od strane atributa
3 Zahteva se ortogonalnost izmedju atributa,tako da svaki naredni atribut pokriva što jemoguce veci broj preostalih varijansi
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.38
Principal Component Analysis (nastavak)
Transformacija se vrši upotrebomsopstvenih vrednosti matrice kovarijansi
1 Neka su λi (nenegativne) sopstvene vrednostiCm uredjene u redosleduλ1 ≥ λ2 ≥ ...λm−1 ≥ λm
2 Neka je U = [u1, ...,un] matrica sopstvenihvektora od C uredjena tako da i-ti vektorodgovara i-toj najvecoj sopstvenoj vrednosti
3 Neka je matrica D prethodno pripremljena takoda je srednja vrednost svakog od atributajednaka 0
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.39
Principal Component Analysis (nastavak)
1 Matrica D′ = DU je tražena transformaisanamatrica podataka
2 Novi atribut je linearna kombinacija starihatributa: težine linearne kombinacije i-togatributa su komponenete i-tog sopstvenogvektora.
3 Varijansa novog i-tog atributa je λi . Zbirvarijansi originalnih atributa je jednak zbiruvarijansi novih atributa
4 Novi atributi se nazivaju glavne komponente;prvi novi atribut je prva glavna komponenta, itd.
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.40
Principal Component Analysis (nastavak)
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.41
Singular Value Decomposition
1 Identican je PCA ako je srednja vrednostsvakog atributa matrice jednaka 0
2 Formalno, matrica D dimenzije m × n može dase predstavi kao D = UΣPT , gde je U matricareda n × n levo singularnih vektora ui , Σ jen ×m dijagonalna matrica singularnihvrednosti, i P je m ×m matrica desnosingularnih vektora.
3 SVD dekompozicija matrice podatakazadovoljava sledece osobine
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.42
Singular Value Decomposition (nastavak)
1 Obrasci u atributima su obuhvaceni desnosingularnim vektorima. Kolone matrice Q suortonormirani sopstveni vektori od DDT .
2 Obrasci u objektima su obuhvaceni levosingularnim vektorima. Kolone matrice P suortonormirani sopstveni vektori od DT D.
3 Neka su podaci na dijagonali u Σ uredjeni uopadajucem redosledu, a kolone u P i Q suuredjene u skladu sa tim.
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.43
Singular Value Decomposition (nastavak)
4 Neka su Pk i Qk skracene m× k i n× k matriceizdvajanjem prvioh k kolona, i neka je Σkmatrica reda k × k koja sadrži k najvecihsingularnih vrednosti.
5 Tada SVD faktorizacija aproksimirareprezentaciju m dimenzionalnih podatakapocetnog skupa D formulom D ≈ Qk ΣkPT
k
Uvod
PreprocesiranjepodatakaIzdvajanje karakteristika
Prenosivost tipova podataka
Diskretizacija
Binarizacija
Tekstualni u numericke
Podaci iz vremenskihserija
Diskretne niske unumericke
Cišcenje podataka
Rad sa nedostajucimpodacima
Rad sa nekorektnimpodacima
Rad sa dupliranimpodacima
Skaliranje i normalizacija
Redukcija i transformacijapodataka
Agregacija
Uzimanje uzoraka
Izbor karakteristika
Redukcija podatakapomocu rotacije osa
1.44
Ostale metode dimenzione redukcije
• LSA
• Talasici
• Furijeove transformacije
• Analiza faktora
• Multidimenziono skaliranje (MDS), Brzopreslikavanje, ISOMAP
• Spektralna transformacija grafova
• ...