Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.2
Uvod
Šta predstavlja anomaliju/element vangranica?
• Podatak cije su vrednosti znacajnorazlike od vrednost ostalih podataka umaterijalu• Anomalija je opservacija koja se toliko
razlikuje od ostalih opservacija da sejavlja sumnja da je nastala pomocudrugacijeg mehanizma (Hokinsova(Hawkins) definicija anomalije)• ...
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.3
Uvod
Anomalije su relativno retke, ali moguznacajno da uticu na rezultat istraživanja
Razliciti uzroci nastanka:• mehanicke/ljudske greške,• promene u ponašanju sistema,• greške u instrumentima koji formiraju
podatke,• sakupljeni podaci su iz razlicitih izvora,• ...
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.4
Uvod
• Neki algoritmi IP-a su otporni na pojavuanomalija, ali ne svi• Anomalije se otklanjaju u fazi pripreme
podataka• Automatsko otkrivanje anomalija!?
Oprez!
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.5
Važnost otkrivanja anomalija
Figure: Kretanje kupovnog kursa evra u periodu2002-2018g.
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.6
Šum i anomalije
Šum• pogrešna vrednost ili dogadaj sa
greškom. Npr.• težina je pogrešno zapisana• merenje težine limuna /lime
• slucajan dogadaj• ne mora da proizvede neuobicajene
vrednosti/objekte• nije od interesa u istraživanju
Anomalije jesu od interesa ako nisu rezultatšuma
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.7
Tehnike otkrivanja anomalija
Pretpostavka: postoji znacajno veci broj"normalnih" nego "nenormalnih" podataka(anomalija) u posmatranom materijalu
Tehnike• zasnovane na formiranju modela• sa vizuelizacijom• zasnovane na statistici• zasnovane na odredivanju rastojanja• zasnovane na odredivanju gustine
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.8
Karakteristike procesa otkrivanja• Broj atributa
• jedan (univarijantne metode)• više atributa (multivarijantne metode)• teže za otkrivanje ako se koriste svi
atributi• šum / neupotrebljivi atributi• anomalija samo u odnosu na neke od
atributa• ni jedan od atributa nema anomaliju ali
kombinacija ima (npr. težina x visina)• Globalna /lokalna perspektiva
posmatranja• Velicina anomalije• Istovremeno odredivanje jedne ili više
anomalija• Efikasnost
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.9
Velicina anomalije
• Metode koje daju samo binarnukarakterizaciju (jeste/nije)• najcešce zasnovane na klasifikaciji)
• Metode koje svakoj tacki dodeljuju skor/ velicinu anomalije• Velicina anomalije predstavlja stepen po
kome je objekat rangiran kao anomalija• Prag velicine• Broj anomalija zavisi od praga, konteksta
u kome se posmatraju podaci, ...
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.10
Varijante problema otkrivanja anomalija
• Za dati skup D naci sve tacke x ∈ Dcija je velicina anomalije veca od nekogpraga t• Za dati skup D naci sve tacke x ∈ D
koje imaju n najvecih vrednosti velicineanomalije• Za dati skup D koji najvecim delom
sadrži normalne ali neoznacene tacke itestnu tacku x , odrediti njenu velicinuanomalije u odnosu na skup D
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.11
Metode zasnovane na formiranju modela
Dva koraka:1 Napravi se model sa ’normalnim’
ponašanjem na izabranom skupu• Sa nadgledanjem
• Anomalije su tacke koje se ne uklapajudobro u karakteristike
• Anomalije su tacke koje narušavaju izgledmodela
• Nenadgledani modeli• Anomalije su tacke koje pripadaju retkim
klasama
2 Koristeci napravljen model nalaze sepodaci koji odskacu
Izbor i precizno odredivanje podskupa jezahtevno ako je skup podataka jako veliki
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.12
Metode zasnovane na vizuelizacijiKorisne ako se podaci predstavljaju umanjem broju dimenzija
Problem vizuelizacije multidimenzionihpodataka
Ogranicenje: podložne subjektivnoj ocenipodataka
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.13
Metode zasnovane na vizuelizaciji
Primer: normalna raspodela, konveksnipologin
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.14
Metode zasnovane na statistici
Element van granica je objekat koji imamanju verovatnocu u odnosu naverovatnocu u odnosu na distribucijuverovatnoca u modelu podataka• Pretpostavlja se poznavanje distribucije
podataka• Statisticki test zavisi od same
distribucije, njenih parametara, ipostavljenog praga pouzdanosti• Problem: distribucija je cesto
nepoznata, ili podaci imaju mešavinudistribucija
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.15
Metode zasnovane na statistici
Najjednostavniji primeri: unimodalnastatistikaPrimer: broj godina:godine={3,56,23,39,156,52,41,22,9,28,139,31,55,20,-67,37,11,55,45,37}
• Statisticki parametar: sredina m = 39.9,standardna devijacija σ = 45.65
• Izborom praga: m ± 2× σ dobija se da su svipodaci van skupa [−54.1,131.2] potencijalnielementi van granica
• Sa velikom verovatnocom dobija se da supodaci van granica -67, 139 i 156.
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.16
Z-vrednost
Unimodalne statistike koriste test pouzdanostikrajeva, odnosno verovantocu da se element nalazina krajevima
Funkcija gustine za normalnu raspodelu
FX (x) =1
σ ×√
2× π× e
−(x−µ)2
2×σ2
• Standardna normalna raspodela ima sredinu 0i devijaciju 1.
• U odredenim slucajevima sredina i devijacijamogu da budu poznate unapred
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.17
Z-vrednost
• Alternativno, kod velike kolicine podataka, µ i σmogu imaju visoku pouzdanost i mogu daposluže za racunanje Z vrednosti za slucajnupromenljivu.
• Z vrednost za posmatrani podatak xi jezi = (xi − µ)/σ
Velike vrednosti zi odgovaraju gornjim granicama, amale donjim granicama
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.18
Z-vrednost
• Alternativno, kod velike kolicine podataka, µ i σmogu imaju visoku pouzdanost i mogu daposluže za racunanje Z vrednosti za slucajnupromenljivu.
• Z vrednost za posmatrani podatak xi jezi = (xi − µ)/σ
• Velike apsolutne vrednosti zi odgovarajugornjim i donjim granicama
• Normalna raspodela može da se prikaže prekoZ vrednosti jer u tom slucaju odgovaraskaliranoj i transliranoj slucajnoj promenljivojsa srednom 0 i devijacijom 1
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.19
Z-vrednost
FX (x) =1
σ ×√
2× π× e
−z2i
2
0.683
prag gustine 0.954
µ− 2σ µ− σ µ
gornjadonjax
Grubo pravilo: ako je |Z | > 3 tada podacipredstavljaju ekstemne vredosti
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.20
Grub-ov metod
• Kada je broj elemenmata manji (zaprocenu µ i σ, tada se koristi Grubovmetod• Z vrednost se racuna na slican nacin• Umesto normalne raspodele koristi se
studentova t-raspodela sa n stepeniuslobode
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.21
Racunanje izglednih (likelihood)verovatnoca
• Pretpostavka je da skup D sadrži primerke samešavinom dve raspodele
• M (raspodela vecine ’normalnih’podataka)
• A (raspodela podataka sa anomalijom)
• Pristup:
• Inicijalno pretpostavka je da svi podaciimaju raspodelu M
• Neka je Lt(D) pretpostavljenaverovatnoca pripadnosti za D u trenutku t
• Svaku tacku xt ∈ M premestiti u A iodrediti Lt+1(D) i ∆ = Lt(D)− Lt+1(D)
• Ako je razlika > praga tada je xt anomalija
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.22
Osobine metoda zasnovanih na statistici
• Stroga matematicka zasnovanost
• Velika efikasnost
• Dobri rezultati ako je poznata raspodela
• Problemi u proceni kod višedimenzionihpodataka
• Anomalije mogu da uticu na parametreraspodele
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.23
Metode zasnovane na odredivanjurastojanjaObjekat je anomalija/ element van granica ako jeceo objekat ili njegov deo udaljen više odpredvidene granice
Više tehnika• K-najbližih suseda (važan izbor k )
• Racunanje rastojanja - Mahalanobisovorastojanje
• Rastojanje se odreduje izmedu tacke x isredine x skupa podataka
Mahalanobis(x , x) =√
x − x)Σ−1(x − x)T
gde je Σ−1 inverzna matrica matrice kovarijansipodataka
• ...
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.24
Uticaj raspodele na rastojanje
Medusobno rastojanje tacakaA(−6.8,−2.9) i B(6.8,3.1)
Euklidsko rastojanje tacaka je 14.7, aMahalanobisovo 6
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.25
Odredivanje rastojanja K-nn
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.26
Osobine metoda zasnovanih na rastojanju
• Jednostavne su za primenu• Racunarski zahtevne - O(n2)
• Osetljive na promene parametara• Problem sa odredivanjem rastojanja u
vešedimenzionom prostoru
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.27
Metode zasnovane na odredivanju gustine
Velicina anomalije objekta je obrnuto proporcionalnagustini elemeneta u njegovom okruženju
Više tehnika
• K-najbližih suseda (važan izbor k ) - inverznood rastojanja do knn suseda
• Inverzno prosecnom rastojanju do k suseda
• DBSCAN
• druge metode klasterovanja
Problem kod regiona sa razlicitom gustiom
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.28
Gustina prema Knn suseda
Gustina = inverzno od rastojanja do Knn suseda
gustina(x , k) =
∑
y∈N(x ,k)rastojanje(x , y)
|N(x , k)|
−1
gde je N(x , k) skup koji sadrži k najbližih suseda odx , |N(x , k)| je vlicina tog skupa, a y je najbliži sused.
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.29
Relativna gustina prema Knn suseda
Ako su skupovi razlicite gustine tada možeda se primeni odredivanje prosecnerelativne gustine prg
prg(x , k) =gustina(x , k)∑
y∈N(x ,k)gustina(y , k)/|N(x , k)|
gde je N(x , k) skup koji sadrži k najbližih suseda odx , |N(x , k)| je vlicina tog skupa, a y je najbliži sused.
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.30
Relativna gustina prema Knn suseda
Upotreba relativne gustine omogucavabolje odredivanje anomalija u slucajuskupova sa razlicitom gustinom
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.31
LOF pristup
• Za svaku tacku se odredi gustina u lokalnom okruženju
• Odredi se LOF (Local Outlier Factor) za tacku x kaoprosecan odnos gustine za x i gustine njegovih najbližihsuseda
• Veliki LOF —-> element van granica
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.32
Pristup zasnovan na klasterovanju
Objekat je anomalija/element van granica ako jeocigledno da ne pripada ni jedmom klasteru
Objekat je element van granica/anomalija
• Kod metoda klasterovanja zasnovanih naprototipovima, ako nije blizu centru ni jednogod klastera
• Kod klastera zasnovanih na gustini, ako jenjegova gustina mala
• Kod metoda zasnovanih na grafovima, ako nijedobro povezan
Problem: Neke metode klasterovanja formirajuklastere sa malim brojem elemenata
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.33
Relativno rastojanje u odnosu na klaster
Rastojanje u odnosu na relativno rastojanjedo najbližeg centroida
OtkrivanjeanomalijaUvod
Tehnike otkrivanja
Metode zasnovane naformiranju modela
Metode zasnovane navizuelizaciji
Metode zasnovane nastatistici
Metode zasnovane naodredivanju rastojanja
Metode zasnovane naodredjivanju gustine
4.34
Osobine metoda zasnovanih na gustini
• Jednostavne su za primenu• Racunarski zahtevne - O(n2)
• Osetljive na promene parametara• Problem sa odredivanjem gustine u
vešedimenzionom prostoru• Problem u odredivanju tehnike
klasterovanja i broja klastera