Ritka események kezelése intelligens adatfeldolgozás segítségével

Budapesti Műszaki és Gazdaságtudományi EgyetemMéréstechnika és Információs Rendszerek Tanszék

Ritka események kezelése intelligens adatfeldolgozás segítségével

Autonóm és hibatűrő információs rendszerek

Előadó: Kocsis Imre, fóliák: Salánki Á[email protected], [email protected]

2013.12.02.

mailto:[email protected]





Fontosak a szabályok…

Fontosak a szabályok…

Kivételek?

Kivételek?

Alapfogalmak Ritka esemény

o Arányaiban ritkán fordul előo Hasonló

ok/következmény/jellemzők

o Ritka? Mennyire ritka?

Outlier/anomália o Egyetlen, a többitől független adatponto Semmilyen közös vonása nincs másokkal

Sűrűségfüggvény emlékeztető

𝑝 [100 ≤𝑋 ≤110 ]=∫100

110

𝑓 (𝑥 )d 𝑥≈10×0.014=0.14

Kétdimenziós sűrűségfüggvény

Alapfogalmak Ritka esemény

o Arányaiban ritkán fordul előo Hasonló

ok/következmény/jellemzők

o Ritka? Mennyire ritka?

Outlier/anomália o Egyetlen, a többitől független adatponto Semmilyen közös vonása nincs másokkal

Egy dimenzióban

Két dimenzióban?

Alapfogalmak

Ritka események a gyakorlatban – dDOS

Kép forrása: http://www.csoonline.com/article/592776/the-ddos-attack-survival-guide-

R. események a gyakorlatban – SPAM detektálás

Kép forrása: D. Conway, J.M. Whyle: Machine Learning for Hackers

A SPAM valószínűsége

kisebb

A SPAM valószínűsége

nagyobb

A SPAM-ek száma

arányaiban sokkal kisebb

R. események a gyakorlatban – csalásfelderítés

Kép forrása: http://visualizeit.wordpress.com/

X tengely: számlavezetők

Y tengely: tranzakciók száma / nap

színezés: mennyire biztos a csalás?

Felügyelt és nem felügyelt tanulás Felügyelt tanulás

o Adott néhány pontra az elvárt kimenet iso a tanuló példákból való általánosításo Output: függvény

• a meglévő mintapontokra jól képez le • megfelelően általánosítható

Nem felügyelt tanuláso Nincs meg az elvárt kimeneto Visszajelzés nélkül építi a modellto szabályok, összefüggések keresése (ismeretfeltárás)

Tanulóhalmaz – amin építjük a modelltTeszthalmaz – amin ellenőrizzük

Felügyelt és nem fel. tanulás – folyamatábra

Kép forrása: http://practiceovertheory.com/blog/2010/02/15/machine-learning-who-s-the-boss/

Osztályozás alapfeladat

Képosztályozás: a képen látható objektum madár vagy repülő?


Levelek osztályozása: SPAM vagy nem SPAM?


Szabályok alapján Severity osztályozása

Kép forrása: http://192.9.172.90/bigadmin/features/articles/3pmi_mgmt.full.jsp

Osztályozás Input: (, ), ahol

o változó vektoro az ún. osztálycímke

Osztályozás (klasszifikálás):o az ismert () párok alapján kitalálni az ismeretlen

osztálycímkék értékét (előre megadott lehetőségek közül)

Feladó – ismert vagy ismeretlen? Tárgy – tartalmazza-e a luxury szót? Üzenet tartalma – term-doc. matrix

SPAM?

Osztályozás – alapfeladat

Osztálycímke?Attribútumok?

Input?Tanuló algoritmus?

Példák osztályozási módszerekre – döntési fa

Példák osztályozási módszerekre – döntési fa Döntési fák

oMinden szinten tesztelünk egy attribútumot, az értékek alapján kettévágjuk az értékkészletet

o Levelek: többségre döntünk Milyen attribútum szerint vágunk?

o Legjobb: legtöbb információt hordozza

Meddig menjünk?

Döntési fa vs diagram Döntési diagrammal összekötni

Ha bináris teljes döntési fa, lehet, hogy jobb reprezentációja is van: BDD, ROBDD.

Általános eset: mivel többségi osztályra döntünk, inkább nem tanácsos

Példák osztályozási módszerekre – naiv Bayes Bayes tétel

Naiv Bayes modello Számoljuk ki minden . osztályra a posteriori

valószínűségeket• , • stb.

o Döntsünk a legnagyobbra

Példák osztályozási módszerekre – naiv Bayes Valószínűségi képlet kifejtése:

Naiv Bayes modell: feltételezzük, hogy az egyes attribútumok egymástól függetlenek

Valami konstans

Példák osztályozási módszerekre – naiv Bayes Osztályozás menete

o Az ismert osztályváltozók alapján meghatározzuk az egyszeres feltételes valószínűségeket

o Kiszámítjuk a szorzat értékét

„A statisztikák szerint a SPAM levelek 45%-a tartalmazza a <HTML> taget és 20%-uk a <TABLE> taget. Ez a levél tartalmazza a <HTML> taget, de a <TABLE>-t nem. SPAM?”

Csoportosítás Csoportosítás (clustering) – megtalálni az

egymáshoz hasonló elemeketo Output: klaszterek

Egymáshoz hasonló?

Csoportosítási módszerek Középpont alapú

o a pont a hozzá legközelebb lévő középpont klaszterébe tartozik

o Pl. k-Means Kapcsolat alapú

o legalább egy ponthoz közelebb van a saját klaszterében, mint a többiekében

o Pl. single-link Sűrűség alapú

o a klaszterek sűrűség alapján felismerhetőeko Pl. DBScan

Egyéb

Csoportosítási módszerek Középpont alapú Kapcsolat alapú Sűrűség alapú Egyéb



A különbség

Kép forrása: Ramaswamy S , Golub T R JCO 2002;20:1932-1941

Kis kitérő: attribútumszelekció Emlékeztető: szondakiválasztás

o Függőségi mátrix: sorokban szondák, oszlopokban komponensek

o Keressük azt a minimális szondahalmazt, amiben minden hibára legalább 1 szonda jelez

Általánosítás: attribútumszelekcióo Bemeneti adatmátrix függőségi mátrixo Keressük azt a minimális attribútumhalmazt (vagy annak

egy transzformációját), ami elegendő információt szolgáltat az adathalmaz egészéről

Mi az, amit először dobunk el?

Alapproblémák Detektálás

o Minden ritka osztályból legalább 1 reprezentáns megtalálásao Pl.: tudjuk, hogy múlt héten az egyik szolgáltatásunk kis

időre leállt. Mikor? Jellemzés

o A reprezentánsok alapján a teljes ritka osztály megtalálásao Pl.: Tudjuk, hogy az adott pillanatban már nem élt a

szolgáltatás, mettől meddig tartott a kiesés? Analízis

o Fontos attribútumok, amik alapján a ritkák a jövőben felfedezhetők?

o Pl.: Mi okozta a leállást?

Miért nem jó erre egy klasszikus osztályozás/feature

selection?

Majdnem jó módszerek Kiegyensúlyozatlan klasszifikáció

o Alulmintavételezzük amit már láttunk

Anomália detektáláso Olyan különálló pontokat keresünk, amik mindegyik mástól

különböznek

Klasszikus attribútumkiválasztáso Olyat keres, ami a többségire jó

Klasszikus klaszterezéso Sűrűség, kapcsolat alapú algoritmusok még akár jók is lehetnek

Kiindulási feltételek Simaság

o A többségi osztály eloszlásfüggvénye megfelelően sima

Kompaktságo A ritka osztályba tartozó elemek egymástól vett

távolsága kisebb, mint a többségtől vett távolság

Ami nem kell feltételül: szeparáltság

Ha nincs: véletlen mintavételezés

Kiindulási feltételek Simaság

o A többségi osztály eloszlásfüggvénye megfelelően simaoMatematikája kell?

Kompaktságo A ritka osztályba tartozó elemek egymástól vett

távolsága kisebb, mint a többségtől vett távolság

Ami nem kell feltételül: szeparáltság

Ha nincs: véletlen mintavételezés

FELÜGYELT DETEKTÁLÁS

Cél: minden ritka osztályból legalább egy reprezentánst megtalálni

Feladat Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle a pontokat,

hogy a lehető leggyorsabban megtaláljuk a ritkákat?

Pl.: domain expert leellenőrzi, amit mondunk neki, de minél kevesebbet kelljen manuálisan dolgozni

Variációk egy témárao Mennyi információnk van? o Milyen adatunk van? (csak attribútumok? Kapcsolatok

is?)

Apriori információval,1 ritka osztály – NNDB Adottak: Amit keresünk: nagy lokális sűrűségváltások

Módszer? Ellenőrizzük a szomszédokat!

Analógia: sűrűség alapú klaszterezés vagy edge-detection a képfeldolgozásban

Algoritmus1. -re , az adott ciklusban megengedhető maximális

sugár2. -re 3. Sejtett ritka elem: ,

amire maximális.4. Ha ritka, vége.5. Ha nem,

,ugrás 1-re.

|𝑁𝑁|=7|𝑁𝑁|=14

Apriori információval – NNDB , na de mekkora legyen ?

Ötlet: ha a ritkák aránya , akkor legyen számítsuk ki -re a . legközelebbi elem távolságát: .

Legyen .

Ha a ritkák tényleg nagyon közel vannak egymáshoz,

akkor beleférnek egy körbe

Változatok Több minor osztály?

oMint a bináris eset, csak addig kérdezünk, amíg minden osztályt meg nem találunk

Kevesebb apriori információ?o Adottak: és semmi más𝑆oMódszer: eloszlásbecslés, majd azon mesterséges

sűrűségszámítás

Relációs kapcsolatok is adottak?oMódosítani kell a hasonlóságszámítást

Szintetikus adat

Éles adat?

Éles adat?

Éles adat?

Éles adat?

Éles adat?

FELÜGYELET NÉLKÜLI ANALÍZIS

Cél: megtalálni orákulum nélkül a ritka eseményeket és a jellemző attribútumokat

Feladat Mi van akkor, ha nincs orákulum?

Input: bemeneti adathalmaz Output

o Ritka eseményeko Jellemző attribútumok

Ötlet: egyébként is projektálnánk valamilyen attribútumtérbe az adathalmazt – próbáljuk ki az összes megfelelő teret is

Analízis, mint optimalizációs feladat

Célfüggvény:

Kompaktság: a ritka elemek közelebb vannak egymáshoz, mint a többiekhez

– dimenziószám (attribútumhalmaz

mérete)

Összesen ritka elemet feltételezünk

Összesen attribútumot várunk

Partial Augmented Lagrangian Method Célfüggvény, peremfeltételek: túl sok a változó Gradiens módszer: előbb közelítjük -t, aztán -t

Működne-e a kimerítő keresés (mondjuk =100.000 𝑛 és =100)𝑑 ?

Célfüggvény:

PALM szintetikus adatok𝑛=100 ,𝑛𝑝2=5 ,𝑑=4 ,𝑑𝑟=2

Palm éles adatok? Nagyon érzékeny az attribútumok skálájára

oMB vs kB?o Ballooning adatok: csak 0 vagy 1, miközben néhány

CPU-adat fel van szorozva 1000-rel

Futásidő

KARAKTERIZÁLÁS

Cél: megkeresni a ritka osztályok minden példányát

Feladat Felügyelt detektáló algoritmus vége: legalább 1

ritka elem minden osztálybólo Jelölés: többi

Input: a biztosan többségi és biztosan ritka elemek indexei

Output: ritkának feltételezett elemek indexei

Ötlet: zárjuk be a ritkákat egy -dimenziós hipergömbbe, mert ők úgyis annyira közel vannak egymáshoz

Karakterizálás, mint optimalizációs feladat

Célfüggvény:

𝜶𝟏

𝜷𝟏

𝜷𝟐

𝑹

RACH – Rare Category Characterization Célfüggvény, peremfeltételek: túl sok a változó Ötlet: gradiens módszer

o Kiszámítjuk egy középponthoz az ideális -to Ha megvan, milyen pontokat fedtünk le, számítunk egy

új középpontot

Módosítás: vetített szubgradiens módszero Előbb egy ideális megoldást(pl. középpontra), aztán a

hozzá legközelebb lévő olyan, ami ki is elégíti a feltételeket

Hátrányok Futásidő:

o Távoli pontok eldobásao „Okosítás”: pl. a ritka pontok úgyis mindenütt benne

vannak a gömbben, rájuk egyszerűbb számolni -dimenziós hipergömb néha túl általános

o Skálázás? Néha nem konvergál

Alapproblémák Detektálás

o Minden ritka osztályból legalább 1 reprezentáns megtalálásao Pl.: tudjuk, hogy múlt héten az egyik szolgáltatásunk kis

időre leállt. Mikor? Jellemzés

o A reprezentánsok alapján a teljes ritka osztály megtalálásao Pl.: Tudjuk, hogy az adott pillanatban már nem élt a

szolgáltatás, mettől meddig tartott a kiesés? Analízis

o Fontos attribútumok, amik alapján a ritkák a jövőben felfedezhetők?

o Pl.: Mi okozta a leállást?

Documents

Ritka események kezelése intelligens adatfeldolgozás segítségével