34
Otkrivanje anomalija Nenad Miti´ c Matematiˇ cki fakultet [email protected]

Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

Otkrivanje anomalija

Nenad MiticMatematicki fakultet

[email protected]

Page 2: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.2

Uvod

Šta predstavlja anomaliju/element vangranica?

• Podatak cije su vrednosti znacajnorazlike od vrednost ostalih podataka umaterijalu• Anomalija je opservacija koja se toliko

razlikuje od ostalih opservacija da sejavlja sumnja da je nastala pomocudrugacijeg mehanizma (Hokinsova(Hawkins) definicija anomalije)• ...

Page 3: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.3

Uvod

Anomalije su relativno retke, ali moguznacajno da uticu na rezultat istraživanja

Razliciti uzroci nastanka:• mehanicke/ljudske greške,• promene u ponašanju sistema,• greške u instrumentima koji formiraju

podatke,• sakupljeni podaci su iz razlicitih izvora,• ...

Page 4: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.4

Uvod

• Neki algoritmi IP-a su otporni na pojavuanomalija, ali ne svi• Anomalije se otklanjaju u fazi pripreme

podataka• Automatsko otkrivanje anomalija!?

Oprez!

Page 5: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.5

Važnost otkrivanja anomalija

Figure: Kretanje kupovnog kursa evra u periodu2002-2018g.

Page 6: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.6

Šum i anomalije

Šum• pogrešna vrednost ili dogadaj sa

greškom. Npr.• težina je pogrešno zapisana• merenje težine limuna /lime

• slucajan dogadaj• ne mora da proizvede neuobicajene

vrednosti/objekte• nije od interesa u istraživanju

Anomalije jesu od interesa ako nisu rezultatšuma

Page 7: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.7

Tehnike otkrivanja anomalija

Pretpostavka: postoji znacajno veci broj"normalnih" nego "nenormalnih" podataka(anomalija) u posmatranom materijalu

Tehnike• zasnovane na formiranju modela• sa vizuelizacijom• zasnovane na statistici• zasnovane na odredivanju rastojanja• zasnovane na odredivanju gustine

Page 8: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.8

Karakteristike procesa otkrivanja• Broj atributa

• jedan (univarijantne metode)• više atributa (multivarijantne metode)• teže za otkrivanje ako se koriste svi

atributi• šum / neupotrebljivi atributi• anomalija samo u odnosu na neke od

atributa• ni jedan od atributa nema anomaliju ali

kombinacija ima (npr. težina x visina)• Globalna /lokalna perspektiva

posmatranja• Velicina anomalije• Istovremeno odredivanje jedne ili više

anomalija• Efikasnost

Page 9: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.9

Velicina anomalije

• Metode koje daju samo binarnukarakterizaciju (jeste/nije)• najcešce zasnovane na klasifikaciji)

• Metode koje svakoj tacki dodeljuju skor/ velicinu anomalije• Velicina anomalije predstavlja stepen po

kome je objekat rangiran kao anomalija• Prag velicine• Broj anomalija zavisi od praga, konteksta

u kome se posmatraju podaci, ...

Page 10: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.10

Varijante problema otkrivanja anomalija

• Za dati skup D naci sve tacke x ∈ Dcija je velicina anomalije veca od nekogpraga t• Za dati skup D naci sve tacke x ∈ D

koje imaju n najvecih vrednosti velicineanomalije• Za dati skup D koji najvecim delom

sadrži normalne ali neoznacene tacke itestnu tacku x , odrediti njenu velicinuanomalije u odnosu na skup D

Page 11: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.11

Metode zasnovane na formiranju modela

Dva koraka:1 Napravi se model sa ’normalnim’

ponašanjem na izabranom skupu• Sa nadgledanjem

• Anomalije su tacke koje se ne uklapajudobro u karakteristike

• Anomalije su tacke koje narušavaju izgledmodela

• Nenadgledani modeli• Anomalije su tacke koje pripadaju retkim

klasama

2 Koristeci napravljen model nalaze sepodaci koji odskacu

Izbor i precizno odredivanje podskupa jezahtevno ako je skup podataka jako veliki

Page 12: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.12

Metode zasnovane na vizuelizacijiKorisne ako se podaci predstavljaju umanjem broju dimenzija

Problem vizuelizacije multidimenzionihpodataka

Ogranicenje: podložne subjektivnoj ocenipodataka

Page 13: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.13

Metode zasnovane na vizuelizaciji

Primer: normalna raspodela, konveksnipologin

Page 14: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.14

Metode zasnovane na statistici

Element van granica je objekat koji imamanju verovatnocu u odnosu naverovatnocu u odnosu na distribucijuverovatnoca u modelu podataka• Pretpostavlja se poznavanje distribucije

podataka• Statisticki test zavisi od same

distribucije, njenih parametara, ipostavljenog praga pouzdanosti• Problem: distribucija je cesto

nepoznata, ili podaci imaju mešavinudistribucija

Page 15: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.15

Metode zasnovane na statistici

Najjednostavniji primeri: unimodalnastatistikaPrimer: broj godina:godine={3,56,23,39,156,52,41,22,9,28,139,31,55,20,-67,37,11,55,45,37}

• Statisticki parametar: sredina m = 39.9,standardna devijacija σ = 45.65

• Izborom praga: m ± 2× σ dobija se da su svipodaci van skupa [−54.1,131.2] potencijalnielementi van granica

• Sa velikom verovatnocom dobija se da supodaci van granica -67, 139 i 156.

Page 16: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.16

Z-vrednost

Unimodalne statistike koriste test pouzdanostikrajeva, odnosno verovantocu da se element nalazina krajevima

Funkcija gustine za normalnu raspodelu

FX (x) =1

σ ×√

2× π× e

−(x−µ)2

2×σ2

• Standardna normalna raspodela ima sredinu 0i devijaciju 1.

• U odredenim slucajevima sredina i devijacijamogu da budu poznate unapred

Page 17: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.17

Z-vrednost

• Alternativno, kod velike kolicine podataka, µ i σmogu imaju visoku pouzdanost i mogu daposluže za racunanje Z vrednosti za slucajnupromenljivu.

• Z vrednost za posmatrani podatak xi jezi = (xi − µ)/σ

Velike vrednosti zi odgovaraju gornjim granicama, amale donjim granicama

Page 18: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.18

Z-vrednost

• Alternativno, kod velike kolicine podataka, µ i σmogu imaju visoku pouzdanost i mogu daposluže za racunanje Z vrednosti za slucajnupromenljivu.

• Z vrednost za posmatrani podatak xi jezi = (xi − µ)/σ

• Velike apsolutne vrednosti zi odgovarajugornjim i donjim granicama

• Normalna raspodela može da se prikaže prekoZ vrednosti jer u tom slucaju odgovaraskaliranoj i transliranoj slucajnoj promenljivojsa srednom 0 i devijacijom 1

Page 19: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.19

Z-vrednost

FX (x) =1

σ ×√

2× π× e

−z2i

2

0.683

prag gustine 0.954

µ− 2σ µ− σ µ

gornjadonjax

Grubo pravilo: ako je |Z | > 3 tada podacipredstavljaju ekstemne vredosti

Page 20: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.20

Grub-ov metod

• Kada je broj elemenmata manji (zaprocenu µ i σ, tada se koristi Grubovmetod• Z vrednost se racuna na slican nacin• Umesto normalne raspodele koristi se

studentova t-raspodela sa n stepeniuslobode

Page 21: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.21

Racunanje izglednih (likelihood)verovatnoca

• Pretpostavka je da skup D sadrži primerke samešavinom dve raspodele

• M (raspodela vecine ’normalnih’podataka)

• A (raspodela podataka sa anomalijom)

• Pristup:

• Inicijalno pretpostavka je da svi podaciimaju raspodelu M

• Neka je Lt(D) pretpostavljenaverovatnoca pripadnosti za D u trenutku t

• Svaku tacku xt ∈ M premestiti u A iodrediti Lt+1(D) i ∆ = Lt(D)− Lt+1(D)

• Ako je razlika > praga tada je xt anomalija

Page 22: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.22

Osobine metoda zasnovanih na statistici

• Stroga matematicka zasnovanost

• Velika efikasnost

• Dobri rezultati ako je poznata raspodela

• Problemi u proceni kod višedimenzionihpodataka

• Anomalije mogu da uticu na parametreraspodele

Page 23: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.23

Metode zasnovane na odredivanjurastojanjaObjekat je anomalija/ element van granica ako jeceo objekat ili njegov deo udaljen više odpredvidene granice

Više tehnika• K-najbližih suseda (važan izbor k )

• Racunanje rastojanja - Mahalanobisovorastojanje

• Rastojanje se odreduje izmedu tacke x isredine x skupa podataka

Mahalanobis(x , x) =√

x − x)Σ−1(x − x)T

gde je Σ−1 inverzna matrica matrice kovarijansipodataka

• ...

Page 24: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.24

Uticaj raspodele na rastojanje

Medusobno rastojanje tacakaA(−6.8,−2.9) i B(6.8,3.1)

Euklidsko rastojanje tacaka je 14.7, aMahalanobisovo 6

Page 25: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.25

Odredivanje rastojanja K-nn

Page 26: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.26

Osobine metoda zasnovanih na rastojanju

• Jednostavne su za primenu• Racunarski zahtevne - O(n2)

• Osetljive na promene parametara• Problem sa odredivanjem rastojanja u

vešedimenzionom prostoru

Page 27: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.27

Metode zasnovane na odredivanju gustine

Velicina anomalije objekta je obrnuto proporcionalnagustini elemeneta u njegovom okruženju

Više tehnika

• K-najbližih suseda (važan izbor k ) - inverznood rastojanja do knn suseda

• Inverzno prosecnom rastojanju do k suseda

• DBSCAN

• druge metode klasterovanja

Problem kod regiona sa razlicitom gustiom

Page 28: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.28

Gustina prema Knn suseda

Gustina = inverzno od rastojanja do Knn suseda

gustina(x , k) =

y∈N(x ,k)rastojanje(x , y)

|N(x , k)|

−1

gde je N(x , k) skup koji sadrži k najbližih suseda odx , |N(x , k)| je vlicina tog skupa, a y je najbliži sused.

Page 29: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.29

Relativna gustina prema Knn suseda

Ako su skupovi razlicite gustine tada možeda se primeni odredivanje prosecnerelativne gustine prg

prg(x , k) =gustina(x , k)∑

y∈N(x ,k)gustina(y , k)/|N(x , k)|

gde je N(x , k) skup koji sadrži k najbližih suseda odx , |N(x , k)| je vlicina tog skupa, a y je najbliži sused.

Page 30: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.30

Relativna gustina prema Knn suseda

Upotreba relativne gustine omogucavabolje odredivanje anomalija u slucajuskupova sa razlicitom gustinom

Page 31: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.31

LOF pristup

• Za svaku tacku se odredi gustina u lokalnom okruženju

• Odredi se LOF (Local Outlier Factor) za tacku x kaoprosecan odnos gustine za x i gustine njegovih najbližihsuseda

• Veliki LOF —-> element van granica

Page 32: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.32

Pristup zasnovan na klasterovanju

Objekat je anomalija/element van granica ako jeocigledno da ne pripada ni jedmom klasteru

Objekat je element van granica/anomalija

• Kod metoda klasterovanja zasnovanih naprototipovima, ako nije blizu centru ni jednogod klastera

• Kod klastera zasnovanih na gustini, ako jenjegova gustina mala

• Kod metoda zasnovanih na grafovima, ako nijedobro povezan

Problem: Neke metode klasterovanja formirajuklastere sa malim brojem elemenata

Page 33: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.33

Relativno rastojanje u odnosu na klaster

Rastojanje u odnosu na relativno rastojanjedo najbližeg centroida

Page 34: Otkrivanje anomalija - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip2/otkrivanje_anomalija.pdfStatisticki test zavisi od sameˇ ... Ako je razlika > praga tada je x t anomalija

OtkrivanjeanomalijaUvod

Tehnike otkrivanja

Metode zasnovane naformiranju modela

Metode zasnovane navizuelizaciji

Metode zasnovane nastatistici

Metode zasnovane naodredivanju rastojanja

Metode zasnovane naodredjivanju gustine

4.34

Osobine metoda zasnovanih na gustini

• Jednostavne su za primenu• Racunarski zahtevne - O(n2)

• Osetljive na promene parametara• Problem sa odredivanjem gustine u

vešedimenzionom prostoru• Problem u odredivanju tehnike

klasterovanja i broja klastera