Ritka események kezelése intelligens adatfeldolgozás segítségével

Preview:

DESCRIPTION

Ritka események kezelése intelligens adatfeldolgozás segítségével. Autonóm és hibatűrő információs rendszerek Előadó: Kocsis Imre, fóliák: Salánki Ágnes ikocsis@ mit.bme.hu , salanki.agnes @ inf.mit.bme.hu 2013.12.02. Fontosak a szabályok…. Fontosak a szabályok…. Kivételek?. Kivételek?. - PowerPoint PPT Presentation

Citation preview

Budapesti Műszaki és Gazdaságtudományi EgyetemMéréstechnika és Információs Rendszerek Tanszék

Ritka események kezelése intelligens adatfeldolgozás segítségével

Autonóm és hibatűrő információs rendszerek

Előadó: Kocsis Imre, fóliák: Salánki Ágnesikocsis@mit.bme.hu, salanki.agnes@inf.mit.bme.hu

2013.12.02.

Fontosak a szabályok…

Fontosak a szabályok…

Kivételek?

Kivételek?

Alapfogalmak Ritka esemény

o Arányaiban ritkán fordul előo Hasonló

ok/következmény/jellemzők

o Ritka? Mennyire ritka?

Outlier/anomália o Egyetlen, a többitől független adatponto Semmilyen közös vonása nincs másokkal

Sűrűségfüggvény emlékeztető

𝑝 [100 ≤𝑋 ≤110 ]=∫100

110

𝑓 (𝑥 )d 𝑥≈10×0.014=0.14

Kétdimenziós sűrűségfüggvény

Alapfogalmak Ritka esemény

o Arányaiban ritkán fordul előo Hasonló

ok/következmény/jellemzők

o Ritka? Mennyire ritka?

Outlier/anomália o Egyetlen, a többitől független adatponto Semmilyen közös vonása nincs másokkal

Egy dimenzióban

Két dimenzióban?

Alapfogalmak

Ritka események a gyakorlatban – dDOS

Kép forrása: http://www.csoonline.com/article/592776/the-ddos-attack-survival-guide-

R. események a gyakorlatban – SPAM detektálás

Kép forrása: D. Conway, J.M. Whyle: Machine Learning for Hackers

A SPAM valószínűsége

kisebb

A SPAM valószínűsége

nagyobb

A SPAM-ek száma

arányaiban sokkal kisebb

R. események a gyakorlatban – csalásfelderítés

Kép forrása: http://visualizeit.wordpress.com/

X tengely: számlavezetők

Y tengely: tranzakciók száma / nap

színezés: mennyire biztos a csalás?

Felügyelt és nem felügyelt tanulás Felügyelt tanulás

o Adott néhány pontra az elvárt kimenet iso a tanuló példákból való általánosításo Output: függvény

• a meglévő mintapontokra jól képez le • megfelelően általánosítható

Nem felügyelt tanuláso Nincs meg az elvárt kimeneto Visszajelzés nélkül építi a modellto szabályok, összefüggések keresése (ismeretfeltárás)

Tanulóhalmaz – amin építjük a modelltTeszthalmaz – amin ellenőrizzük

Felügyelt és nem fel. tanulás – folyamatábra

Kép forrása: http://practiceovertheory.com/blog/2010/02/15/machine-learning-who-s-the-boss/

Osztályozás alapfeladat

Képosztályozás: a képen látható objektum madár vagy repülő?

Osztályozás alapfeladat

Levelek osztályozása: SPAM vagy nem SPAM?

Osztályozás alapfeladat

Szabályok alapján Severity osztályozása

Kép forrása: http://192.9.172.90/bigadmin/features/articles/3pmi_mgmt.full.jsp

Osztályozás Input: (, ), ahol

o változó vektoro az ún. osztálycímke

Osztályozás (klasszifikálás):o az ismert () párok alapján kitalálni az ismeretlen

osztálycímkék értékét (előre megadott lehetőségek közül)

Feladó – ismert vagy ismeretlen? Tárgy – tartalmazza-e a luxury szót? Üzenet tartalma – term-doc. matrix

SPAM?

Osztályozás – alapfeladat

Osztálycímke?Attribútumok?

Input?Tanuló algoritmus?

Példák osztályozási módszerekre – döntési fa

Példák osztályozási módszerekre – döntési fa Döntési fák

oMinden szinten tesztelünk egy attribútumot, az értékek alapján kettévágjuk az értékkészletet

o Levelek: többségre döntünk Milyen attribútum szerint vágunk?

o Legjobb: legtöbb információt hordozza

Meddig menjünk?

Döntési fa vs diagram Döntési diagrammal összekötni

Ha bináris teljes döntési fa, lehet, hogy jobb reprezentációja is van: BDD, ROBDD.

Általános eset: mivel többségi osztályra döntünk, inkább nem tanácsos

Példák osztályozási módszerekre – naiv Bayes Bayes tétel

Naiv Bayes modello Számoljuk ki minden . osztályra a posteriori

valószínűségeket• , • stb.

o Döntsünk a legnagyobbra

Példák osztályozási módszerekre – naiv Bayes Valószínűségi képlet kifejtése:

Naiv Bayes modell: feltételezzük, hogy az egyes attribútumok egymástól függetlenek

Valami konstans

Példák osztályozási módszerekre – naiv Bayes Osztályozás menete

o Az ismert osztályváltozók alapján meghatározzuk az egyszeres feltételes valószínűségeket

o Kiszámítjuk a szorzat értékét

„A statisztikák szerint a SPAM levelek 45%-a tartalmazza a <HTML> taget és 20%-uk a <TABLE> taget. Ez a levél tartalmazza a <HTML> taget, de a <TABLE>-t nem. SPAM?”

Csoportosítás Csoportosítás (clustering) – megtalálni az

egymáshoz hasonló elemeketo Output: klaszterek

Egymáshoz hasonló?

Csoportosítási módszerek Középpont alapú

o a pont a hozzá legközelebb lévő középpont klaszterébe tartozik

o Pl. k-Means Kapcsolat alapú

o legalább egy ponthoz közelebb van a saját klaszterében, mint a többiekében

o Pl. single-link Sűrűség alapú

o a klaszterek sűrűség alapján felismerhetőeko Pl. DBScan

Egyéb

Csoportosítási módszerek Középpont alapú Kapcsolat alapú Sűrűség alapú Egyéb

Csoportosítási módszerek Középpont alapú Kapcsolat alapú Sűrűség alapú Egyéb

Csoportosítási módszerek Középpont alapú Kapcsolat alapú Sűrűség alapú Egyéb

A különbség

Kép forrása: Ramaswamy S , Golub T R JCO 2002;20:1932-1941

Kis kitérő: attribútumszelekció Emlékeztető: szondakiválasztás

o Függőségi mátrix: sorokban szondák, oszlopokban komponensek

o Keressük azt a minimális szondahalmazt, amiben minden hibára legalább 1 szonda jelez

Általánosítás: attribútumszelekcióo Bemeneti adatmátrix függőségi mátrixo Keressük azt a minimális attribútumhalmazt (vagy annak

egy transzformációját), ami elegendő információt szolgáltat az adathalmaz egészéről

Mi az, amit először dobunk el?

Alapproblémák Detektálás

o Minden ritka osztályból legalább 1 reprezentáns megtalálásao Pl.: tudjuk, hogy múlt héten az egyik szolgáltatásunk kis

időre leállt. Mikor? Jellemzés

o A reprezentánsok alapján a teljes ritka osztály megtalálásao Pl.: Tudjuk, hogy az adott pillanatban már nem élt a

szolgáltatás, mettől meddig tartott a kiesés? Analízis

o Fontos attribútumok, amik alapján a ritkák a jövőben felfedezhetők?

o Pl.: Mi okozta a leállást?

Miért nem jó erre egy klasszikus osztályozás/feature

selection?

Majdnem jó módszerek Kiegyensúlyozatlan klasszifikáció

o Alulmintavételezzük amit már láttunk

Anomália detektáláso Olyan különálló pontokat keresünk, amik mindegyik mástól

különböznek

Klasszikus attribútumkiválasztáso Olyat keres, ami a többségire jó

Klasszikus klaszterezéso Sűrűség, kapcsolat alapú algoritmusok még akár jók is lehetnek

Kiindulási feltételek Simaság

o A többségi osztály eloszlásfüggvénye megfelelően sima

Kompaktságo A ritka osztályba tartozó elemek egymástól vett

távolsága kisebb, mint a többségtől vett távolság

Ami nem kell feltételül: szeparáltság

Ha nincs: véletlen mintavételezés

Kiindulási feltételek Simaság

o A többségi osztály eloszlásfüggvénye megfelelően simaoMatematikája kell?

Kompaktságo A ritka osztályba tartozó elemek egymástól vett

távolsága kisebb, mint a többségtől vett távolság

Ami nem kell feltételül: szeparáltság

Ha nincs: véletlen mintavételezés

FELÜGYELT DETEKTÁLÁS

Cél: minden ritka osztályból legalább egy reprezentánst megtalálni

Feladat Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle a pontokat,

hogy a lehető leggyorsabban megtaláljuk a ritkákat?

Pl.: domain expert leellenőrzi, amit mondunk neki, de minél kevesebbet kelljen manuálisan dolgozni

Variációk egy témárao Mennyi információnk van? o Milyen adatunk van? (csak attribútumok? Kapcsolatok

is?)

Apriori információval,1 ritka osztály – NNDB Adottak: Amit keresünk: nagy lokális sűrűségváltások

Módszer? Ellenőrizzük a szomszédokat!

Analógia: sűrűség alapú klaszterezés vagy edge-detection a képfeldolgozásban

Algoritmus1. -re , az adott ciklusban megengedhető maximális

sugár2. -re 3. Sejtett ritka elem: ,

amire maximális.4. Ha ritka, vége.5. Ha nem,

,ugrás 1-re.

|𝑁𝑁|=7|𝑁𝑁|=14

Apriori információval – NNDB , na de mekkora legyen ?

Ötlet: ha a ritkák aránya , akkor legyen számítsuk ki -re a . legközelebbi elem távolságát: .

Legyen .

Ha a ritkák tényleg nagyon közel vannak egymáshoz,

akkor beleférnek egy körbe

Változatok Több minor osztály?

oMint a bináris eset, csak addig kérdezünk, amíg minden osztályt meg nem találunk

Kevesebb apriori információ?o Adottak: és semmi más𝑆oMódszer: eloszlásbecslés, majd azon mesterséges

sűrűségszámítás

Relációs kapcsolatok is adottak?oMódosítani kell a hasonlóságszámítást

Szintetikus adat

Éles adat?

Éles adat?

Éles adat?

Éles adat?

Éles adat?

FELÜGYELET NÉLKÜLI ANALÍZIS

Cél: megtalálni orákulum nélkül a ritka eseményeket és a jellemző attribútumokat

Feladat Mi van akkor, ha nincs orákulum?

Input: bemeneti adathalmaz Output

o Ritka eseményeko Jellemző attribútumok

Ötlet: egyébként is projektálnánk valamilyen attribútumtérbe az adathalmazt – próbáljuk ki az összes megfelelő teret is

Analízis, mint optimalizációs feladat

Célfüggvény:

Kompaktság: a ritka elemek közelebb vannak egymáshoz, mint a többiekhez

– dimenziószám (attribútumhalmaz

mérete)

Összesen ritka elemet feltételezünk

Összesen attribútumot várunk

Partial Augmented Lagrangian Method Célfüggvény, peremfeltételek: túl sok a változó Gradiens módszer: előbb közelítjük -t, aztán -t

Működne-e a kimerítő keresés (mondjuk =100.000 𝑛 és =100)𝑑 ?

Célfüggvény:

PALM szintetikus adatok𝑛=100 ,𝑛𝑝2=5 ,𝑑=4 ,𝑑𝑟=2

Palm éles adatok? Nagyon érzékeny az attribútumok skálájára

oMB vs kB?o Ballooning adatok: csak 0 vagy 1, miközben néhány

CPU-adat fel van szorozva 1000-rel

Futásidő

KARAKTERIZÁLÁS

Cél: megkeresni a ritka osztályok minden példányát

Feladat Felügyelt detektáló algoritmus vége: legalább 1

ritka elem minden osztálybólo Jelölés: többi

Input: a biztosan többségi és biztosan ritka elemek indexei

Output: ritkának feltételezett elemek indexei

Ötlet: zárjuk be a ritkákat egy -dimenziós hipergömbbe, mert ők úgyis annyira közel vannak egymáshoz

Karakterizálás, mint optimalizációs feladat

Célfüggvény:

𝜶𝟏

𝜷𝟏

𝜷𝟐

𝑹

RACH – Rare Category Characterization Célfüggvény, peremfeltételek: túl sok a változó Ötlet: gradiens módszer

o Kiszámítjuk egy középponthoz az ideális -to Ha megvan, milyen pontokat fedtünk le, számítunk egy

új középpontot

Módosítás: vetített szubgradiens módszero Előbb egy ideális megoldást(pl. középpontra), aztán a

hozzá legközelebb lévő olyan, ami ki is elégíti a feltételeket

Hátrányok Futásidő:

o Távoli pontok eldobásao „Okosítás”: pl. a ritka pontok úgyis mindenütt benne

vannak a gömbben, rájuk egyszerűbb számolni -dimenziós hipergömb néha túl általános

o Skálázás? Néha nem konvergál

Alapproblémák Detektálás

o Minden ritka osztályból legalább 1 reprezentáns megtalálásao Pl.: tudjuk, hogy múlt héten az egyik szolgáltatásunk kis

időre leállt. Mikor? Jellemzés

o A reprezentánsok alapján a teljes ritka osztály megtalálásao Pl.: Tudjuk, hogy az adott pillanatban már nem élt a

szolgáltatás, mettől meddig tartott a kiesés? Analízis

o Fontos attribútumok, amik alapján a ritkák a jövőben felfedezhetők?

o Pl.: Mi okozta a leállást?