63
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Ritka események kezelése intelligens adatfeldolgozás segítségével Autonóm és hibatűrő információs rendszerek Előadó: Kocsis Imre, fóliák: Salánki Ágnes ikocsis@ mit.bme.hu , salanki.agnes @ inf.mit.bme.hu 2013.12.02.

Ritka események kezelése intelligens adatfeldolgozás segítségével

Embed Size (px)

DESCRIPTION

Ritka események kezelése intelligens adatfeldolgozás segítségével. Autonóm és hibatűrő információs rendszerek Előadó: Kocsis Imre, fóliák: Salánki Ágnes ikocsis@ mit.bme.hu , salanki.agnes @ inf.mit.bme.hu 2013.12.02. Fontosak a szabályok…. Fontosak a szabályok…. Kivételek?. Kivételek?. - PowerPoint PPT Presentation

Citation preview

Page 1: Ritka események kezelése intelligens adatfeldolgozás segítségével

Budapesti Műszaki és Gazdaságtudományi EgyetemMéréstechnika és Információs Rendszerek Tanszék

Ritka események kezelése intelligens adatfeldolgozás segítségével

Autonóm és hibatűrő információs rendszerek

Előadó: Kocsis Imre, fóliák: Salánki Á[email protected], [email protected]

2013.12.02.

Page 2: Ritka események kezelése intelligens adatfeldolgozás segítségével

Fontosak a szabályok…

Page 3: Ritka események kezelése intelligens adatfeldolgozás segítségével

Fontosak a szabályok…

Page 4: Ritka események kezelése intelligens adatfeldolgozás segítségével

Kivételek?

Page 5: Ritka események kezelése intelligens adatfeldolgozás segítségével

Kivételek?

Page 6: Ritka események kezelése intelligens adatfeldolgozás segítségével

Alapfogalmak Ritka esemény

o Arányaiban ritkán fordul előo Hasonló

ok/következmény/jellemzők

o Ritka? Mennyire ritka?

Outlier/anomália o Egyetlen, a többitől független adatponto Semmilyen közös vonása nincs másokkal

Page 7: Ritka események kezelése intelligens adatfeldolgozás segítségével

Sűrűségfüggvény emlékeztető

𝑝 [100 ≤𝑋 ≤110 ]=∫100

110

𝑓 (𝑥 )d 𝑥≈10×0.014=0.14

Page 8: Ritka események kezelése intelligens adatfeldolgozás segítségével

Kétdimenziós sűrűségfüggvény

Page 9: Ritka események kezelése intelligens adatfeldolgozás segítségével

Alapfogalmak Ritka esemény

o Arányaiban ritkán fordul előo Hasonló

ok/következmény/jellemzők

o Ritka? Mennyire ritka?

Outlier/anomália o Egyetlen, a többitől független adatponto Semmilyen közös vonása nincs másokkal

Page 10: Ritka események kezelése intelligens adatfeldolgozás segítségével

Egy dimenzióban

Page 11: Ritka események kezelése intelligens adatfeldolgozás segítségével

Két dimenzióban?

Page 12: Ritka események kezelése intelligens adatfeldolgozás segítségével

Alapfogalmak

Page 13: Ritka események kezelése intelligens adatfeldolgozás segítségével

Ritka események a gyakorlatban – dDOS

Kép forrása: http://www.csoonline.com/article/592776/the-ddos-attack-survival-guide-

Page 14: Ritka események kezelése intelligens adatfeldolgozás segítségével

R. események a gyakorlatban – SPAM detektálás

Kép forrása: D. Conway, J.M. Whyle: Machine Learning for Hackers

A SPAM valószínűsége

kisebb

A SPAM valószínűsége

nagyobb

A SPAM-ek száma

arányaiban sokkal kisebb

Page 15: Ritka események kezelése intelligens adatfeldolgozás segítségével

R. események a gyakorlatban – csalásfelderítés

Kép forrása: http://visualizeit.wordpress.com/

X tengely: számlavezetők

Y tengely: tranzakciók száma / nap

színezés: mennyire biztos a csalás?

Page 16: Ritka események kezelése intelligens adatfeldolgozás segítségével

Felügyelt és nem felügyelt tanulás Felügyelt tanulás

o Adott néhány pontra az elvárt kimenet iso a tanuló példákból való általánosításo Output: függvény

• a meglévő mintapontokra jól képez le • megfelelően általánosítható

Nem felügyelt tanuláso Nincs meg az elvárt kimeneto Visszajelzés nélkül építi a modellto szabályok, összefüggések keresése (ismeretfeltárás)

Tanulóhalmaz – amin építjük a modelltTeszthalmaz – amin ellenőrizzük

Page 17: Ritka események kezelése intelligens adatfeldolgozás segítségével

Felügyelt és nem fel. tanulás – folyamatábra

Kép forrása: http://practiceovertheory.com/blog/2010/02/15/machine-learning-who-s-the-boss/

Page 18: Ritka események kezelése intelligens adatfeldolgozás segítségével

Osztályozás alapfeladat

Képosztályozás: a képen látható objektum madár vagy repülő?

Page 19: Ritka események kezelése intelligens adatfeldolgozás segítségével

Osztályozás alapfeladat

Levelek osztályozása: SPAM vagy nem SPAM?

Page 20: Ritka események kezelése intelligens adatfeldolgozás segítségével

Osztályozás alapfeladat

Szabályok alapján Severity osztályozása

Kép forrása: http://192.9.172.90/bigadmin/features/articles/3pmi_mgmt.full.jsp

Page 21: Ritka események kezelése intelligens adatfeldolgozás segítségével

Osztályozás Input: (, ), ahol

o változó vektoro az ún. osztálycímke

Osztályozás (klasszifikálás):o az ismert () párok alapján kitalálni az ismeretlen

osztálycímkék értékét (előre megadott lehetőségek közül)

Feladó – ismert vagy ismeretlen? Tárgy – tartalmazza-e a luxury szót? Üzenet tartalma – term-doc. matrix

SPAM?

Page 22: Ritka események kezelése intelligens adatfeldolgozás segítségével

Osztályozás – alapfeladat

Osztálycímke?Attribútumok?

Input?Tanuló algoritmus?

Page 23: Ritka események kezelése intelligens adatfeldolgozás segítségével

Példák osztályozási módszerekre – döntési fa

Page 24: Ritka események kezelése intelligens adatfeldolgozás segítségével

Példák osztályozási módszerekre – döntési fa Döntési fák

oMinden szinten tesztelünk egy attribútumot, az értékek alapján kettévágjuk az értékkészletet

o Levelek: többségre döntünk Milyen attribútum szerint vágunk?

o Legjobb: legtöbb információt hordozza

Meddig menjünk?

Page 25: Ritka események kezelése intelligens adatfeldolgozás segítségével

Döntési fa vs diagram Döntési diagrammal összekötni

Ha bináris teljes döntési fa, lehet, hogy jobb reprezentációja is van: BDD, ROBDD.

Általános eset: mivel többségi osztályra döntünk, inkább nem tanácsos

Page 26: Ritka események kezelése intelligens adatfeldolgozás segítségével

Példák osztályozási módszerekre – naiv Bayes Bayes tétel

Naiv Bayes modello Számoljuk ki minden . osztályra a posteriori

valószínűségeket• , • stb.

o Döntsünk a legnagyobbra

Page 27: Ritka események kezelése intelligens adatfeldolgozás segítségével

Példák osztályozási módszerekre – naiv Bayes Valószínűségi képlet kifejtése:

Naiv Bayes modell: feltételezzük, hogy az egyes attribútumok egymástól függetlenek

Valami konstans

Page 28: Ritka események kezelése intelligens adatfeldolgozás segítségével

Példák osztályozási módszerekre – naiv Bayes Osztályozás menete

o Az ismert osztályváltozók alapján meghatározzuk az egyszeres feltételes valószínűségeket

o Kiszámítjuk a szorzat értékét

„A statisztikák szerint a SPAM levelek 45%-a tartalmazza a <HTML> taget és 20%-uk a <TABLE> taget. Ez a levél tartalmazza a <HTML> taget, de a <TABLE>-t nem. SPAM?”

Page 29: Ritka események kezelése intelligens adatfeldolgozás segítségével

Csoportosítás Csoportosítás (clustering) – megtalálni az

egymáshoz hasonló elemeketo Output: klaszterek

Egymáshoz hasonló?

Page 30: Ritka események kezelése intelligens adatfeldolgozás segítségével

Csoportosítási módszerek Középpont alapú

o a pont a hozzá legközelebb lévő középpont klaszterébe tartozik

o Pl. k-Means Kapcsolat alapú

o legalább egy ponthoz közelebb van a saját klaszterében, mint a többiekében

o Pl. single-link Sűrűség alapú

o a klaszterek sűrűség alapján felismerhetőeko Pl. DBScan

Egyéb

Page 31: Ritka események kezelése intelligens adatfeldolgozás segítségével

Csoportosítási módszerek Középpont alapú Kapcsolat alapú Sűrűség alapú Egyéb

Page 32: Ritka események kezelése intelligens adatfeldolgozás segítségével

Csoportosítási módszerek Középpont alapú Kapcsolat alapú Sűrűség alapú Egyéb

Page 33: Ritka események kezelése intelligens adatfeldolgozás segítségével

Csoportosítási módszerek Középpont alapú Kapcsolat alapú Sűrűség alapú Egyéb

Page 34: Ritka események kezelése intelligens adatfeldolgozás segítségével

A különbség

Kép forrása: Ramaswamy S , Golub T R JCO 2002;20:1932-1941

Page 35: Ritka események kezelése intelligens adatfeldolgozás segítségével

Kis kitérő: attribútumszelekció Emlékeztető: szondakiválasztás

o Függőségi mátrix: sorokban szondák, oszlopokban komponensek

o Keressük azt a minimális szondahalmazt, amiben minden hibára legalább 1 szonda jelez

Általánosítás: attribútumszelekcióo Bemeneti adatmátrix függőségi mátrixo Keressük azt a minimális attribútumhalmazt (vagy annak

egy transzformációját), ami elegendő információt szolgáltat az adathalmaz egészéről

Mi az, amit először dobunk el?

Page 36: Ritka események kezelése intelligens adatfeldolgozás segítségével

Alapproblémák Detektálás

o Minden ritka osztályból legalább 1 reprezentáns megtalálásao Pl.: tudjuk, hogy múlt héten az egyik szolgáltatásunk kis

időre leállt. Mikor? Jellemzés

o A reprezentánsok alapján a teljes ritka osztály megtalálásao Pl.: Tudjuk, hogy az adott pillanatban már nem élt a

szolgáltatás, mettől meddig tartott a kiesés? Analízis

o Fontos attribútumok, amik alapján a ritkák a jövőben felfedezhetők?

o Pl.: Mi okozta a leállást?

Miért nem jó erre egy klasszikus osztályozás/feature

selection?

Page 37: Ritka események kezelése intelligens adatfeldolgozás segítségével

Majdnem jó módszerek Kiegyensúlyozatlan klasszifikáció

o Alulmintavételezzük amit már láttunk

Anomália detektáláso Olyan különálló pontokat keresünk, amik mindegyik mástól

különböznek

Klasszikus attribútumkiválasztáso Olyat keres, ami a többségire jó

Klasszikus klaszterezéso Sűrűség, kapcsolat alapú algoritmusok még akár jók is lehetnek

Page 38: Ritka események kezelése intelligens adatfeldolgozás segítségével

Kiindulási feltételek Simaság

o A többségi osztály eloszlásfüggvénye megfelelően sima

Kompaktságo A ritka osztályba tartozó elemek egymástól vett

távolsága kisebb, mint a többségtől vett távolság

Ami nem kell feltételül: szeparáltság

Ha nincs: véletlen mintavételezés

Page 39: Ritka események kezelése intelligens adatfeldolgozás segítségével

Kiindulási feltételek Simaság

o A többségi osztály eloszlásfüggvénye megfelelően simaoMatematikája kell?

Kompaktságo A ritka osztályba tartozó elemek egymástól vett

távolsága kisebb, mint a többségtől vett távolság

Ami nem kell feltételül: szeparáltság

Ha nincs: véletlen mintavételezés

Page 40: Ritka események kezelése intelligens adatfeldolgozás segítségével

FELÜGYELT DETEKTÁLÁS

Cél: minden ritka osztályból legalább egy reprezentánst megtalálni

Page 41: Ritka események kezelése intelligens adatfeldolgozás segítségével

Feladat Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle a pontokat,

hogy a lehető leggyorsabban megtaláljuk a ritkákat?

Pl.: domain expert leellenőrzi, amit mondunk neki, de minél kevesebbet kelljen manuálisan dolgozni

Variációk egy témárao Mennyi információnk van? o Milyen adatunk van? (csak attribútumok? Kapcsolatok

is?)

Page 42: Ritka események kezelése intelligens adatfeldolgozás segítségével

Apriori információval,1 ritka osztály – NNDB Adottak: Amit keresünk: nagy lokális sűrűségváltások

Módszer? Ellenőrizzük a szomszédokat!

Analógia: sűrűség alapú klaszterezés vagy edge-detection a képfeldolgozásban

Page 43: Ritka események kezelése intelligens adatfeldolgozás segítségével

Algoritmus1. -re , az adott ciklusban megengedhető maximális

sugár2. -re 3. Sejtett ritka elem: ,

amire maximális.4. Ha ritka, vége.5. Ha nem,

,ugrás 1-re.

|𝑁𝑁|=7|𝑁𝑁|=14

Page 44: Ritka események kezelése intelligens adatfeldolgozás segítségével

Apriori információval – NNDB , na de mekkora legyen ?

Ötlet: ha a ritkák aránya , akkor legyen számítsuk ki -re a . legközelebbi elem távolságát: .

Legyen .

Ha a ritkák tényleg nagyon közel vannak egymáshoz,

akkor beleférnek egy körbe

Page 45: Ritka események kezelése intelligens adatfeldolgozás segítségével

Változatok Több minor osztály?

oMint a bináris eset, csak addig kérdezünk, amíg minden osztályt meg nem találunk

Kevesebb apriori információ?o Adottak: és semmi más𝑆oMódszer: eloszlásbecslés, majd azon mesterséges

sűrűségszámítás

Relációs kapcsolatok is adottak?oMódosítani kell a hasonlóságszámítást

Page 46: Ritka események kezelése intelligens adatfeldolgozás segítségével

Szintetikus adat

Page 47: Ritka események kezelése intelligens adatfeldolgozás segítségével

Éles adat?

Page 48: Ritka események kezelése intelligens adatfeldolgozás segítségével

Éles adat?

Page 49: Ritka események kezelése intelligens adatfeldolgozás segítségével

Éles adat?

Page 50: Ritka események kezelése intelligens adatfeldolgozás segítségével

Éles adat?

Page 51: Ritka események kezelése intelligens adatfeldolgozás segítségével

Éles adat?

Page 52: Ritka események kezelése intelligens adatfeldolgozás segítségével

FELÜGYELET NÉLKÜLI ANALÍZIS

Cél: megtalálni orákulum nélkül a ritka eseményeket és a jellemző attribútumokat

Page 53: Ritka események kezelése intelligens adatfeldolgozás segítségével

Feladat Mi van akkor, ha nincs orákulum?

Input: bemeneti adathalmaz Output

o Ritka eseményeko Jellemző attribútumok

Ötlet: egyébként is projektálnánk valamilyen attribútumtérbe az adathalmazt – próbáljuk ki az összes megfelelő teret is

Page 54: Ritka események kezelése intelligens adatfeldolgozás segítségével

Analízis, mint optimalizációs feladat

Célfüggvény:

Kompaktság: a ritka elemek közelebb vannak egymáshoz, mint a többiekhez

– dimenziószám (attribútumhalmaz

mérete)

Összesen ritka elemet feltételezünk

Összesen attribútumot várunk

Page 55: Ritka események kezelése intelligens adatfeldolgozás segítségével

Partial Augmented Lagrangian Method Célfüggvény, peremfeltételek: túl sok a változó Gradiens módszer: előbb közelítjük -t, aztán -t

Működne-e a kimerítő keresés (mondjuk =100.000 𝑛 és =100)𝑑 ?

Célfüggvény:

Page 56: Ritka események kezelése intelligens adatfeldolgozás segítségével

PALM szintetikus adatok𝑛=100 ,𝑛𝑝2=5 ,𝑑=4 ,𝑑𝑟=2

Page 57: Ritka események kezelése intelligens adatfeldolgozás segítségével

Palm éles adatok? Nagyon érzékeny az attribútumok skálájára

oMB vs kB?o Ballooning adatok: csak 0 vagy 1, miközben néhány

CPU-adat fel van szorozva 1000-rel

Futásidő

Page 58: Ritka események kezelése intelligens adatfeldolgozás segítségével

KARAKTERIZÁLÁS

Cél: megkeresni a ritka osztályok minden példányát

Page 59: Ritka események kezelése intelligens adatfeldolgozás segítségével

Feladat Felügyelt detektáló algoritmus vége: legalább 1

ritka elem minden osztálybólo Jelölés: többi

Input: a biztosan többségi és biztosan ritka elemek indexei

Output: ritkának feltételezett elemek indexei

Ötlet: zárjuk be a ritkákat egy -dimenziós hipergömbbe, mert ők úgyis annyira közel vannak egymáshoz

Page 60: Ritka események kezelése intelligens adatfeldolgozás segítségével

Karakterizálás, mint optimalizációs feladat

Célfüggvény:

𝜶𝟏

𝜷𝟏

𝜷𝟐

𝑹

Page 61: Ritka események kezelése intelligens adatfeldolgozás segítségével

RACH – Rare Category Characterization Célfüggvény, peremfeltételek: túl sok a változó Ötlet: gradiens módszer

o Kiszámítjuk egy középponthoz az ideális -to Ha megvan, milyen pontokat fedtünk le, számítunk egy

új középpontot

Módosítás: vetített szubgradiens módszero Előbb egy ideális megoldást(pl. középpontra), aztán a

hozzá legközelebb lévő olyan, ami ki is elégíti a feltételeket

Page 62: Ritka események kezelése intelligens adatfeldolgozás segítségével

Hátrányok Futásidő:

o Távoli pontok eldobásao „Okosítás”: pl. a ritka pontok úgyis mindenütt benne

vannak a gömbben, rájuk egyszerűbb számolni -dimenziós hipergömb néha túl általános

o Skálázás? Néha nem konvergál

Page 63: Ritka események kezelése intelligens adatfeldolgozás segítségével

Alapproblémák Detektálás

o Minden ritka osztályból legalább 1 reprezentáns megtalálásao Pl.: tudjuk, hogy múlt héten az egyik szolgáltatásunk kis

időre leállt. Mikor? Jellemzés

o A reprezentánsok alapján a teljes ritka osztály megtalálásao Pl.: Tudjuk, hogy az adott pillanatban már nem élt a

szolgáltatás, mettől meddig tartott a kiesés? Analízis

o Fontos attribútumok, amik alapján a ritkák a jövőben felfedezhetők?

o Pl.: Mi okozta a leállást?