Upload
cordero-chavez
View
52
Download
2
Embed Size (px)
DESCRIPTION
Ritka események kezelése intelligens adatfeldolgozás segítségével. Autonóm és hibatűrő információs rendszerek Előadó: Kocsis Imre, fóliák: Salánki Ágnes ikocsis@ mit.bme.hu , salanki.agnes @ inf.mit.bme.hu 2013.12.02. Fontosak a szabályok…. Fontosak a szabályok…. Kivételek?. Kivételek?. - PowerPoint PPT Presentation
Citation preview
Budapesti Műszaki és Gazdaságtudományi EgyetemMéréstechnika és Információs Rendszerek Tanszék
Ritka események kezelése intelligens adatfeldolgozás segítségével
Autonóm és hibatűrő információs rendszerek
Előadó: Kocsis Imre, fóliák: Salánki Á[email protected], [email protected]
2013.12.02.
Fontosak a szabályok…
Fontosak a szabályok…
Kivételek?
Kivételek?
Alapfogalmak Ritka esemény
o Arányaiban ritkán fordul előo Hasonló
ok/következmény/jellemzők
o Ritka? Mennyire ritka?
Outlier/anomália o Egyetlen, a többitől független adatponto Semmilyen közös vonása nincs másokkal
Sűrűségfüggvény emlékeztető
𝑝 [100 ≤𝑋 ≤110 ]=∫100
110
𝑓 (𝑥 )d 𝑥≈10×0.014=0.14
Kétdimenziós sűrűségfüggvény
Alapfogalmak Ritka esemény
o Arányaiban ritkán fordul előo Hasonló
ok/következmény/jellemzők
o Ritka? Mennyire ritka?
Outlier/anomália o Egyetlen, a többitől független adatponto Semmilyen közös vonása nincs másokkal
Egy dimenzióban
Két dimenzióban?
Alapfogalmak
Ritka események a gyakorlatban – dDOS
Kép forrása: http://www.csoonline.com/article/592776/the-ddos-attack-survival-guide-
R. események a gyakorlatban – SPAM detektálás
Kép forrása: D. Conway, J.M. Whyle: Machine Learning for Hackers
A SPAM valószínűsége
kisebb
A SPAM valószínűsége
nagyobb
A SPAM-ek száma
arányaiban sokkal kisebb
R. események a gyakorlatban – csalásfelderítés
Kép forrása: http://visualizeit.wordpress.com/
X tengely: számlavezetők
Y tengely: tranzakciók száma / nap
színezés: mennyire biztos a csalás?
Felügyelt és nem felügyelt tanulás Felügyelt tanulás
o Adott néhány pontra az elvárt kimenet iso a tanuló példákból való általánosításo Output: függvény
• a meglévő mintapontokra jól képez le • megfelelően általánosítható
Nem felügyelt tanuláso Nincs meg az elvárt kimeneto Visszajelzés nélkül építi a modellto szabályok, összefüggések keresése (ismeretfeltárás)
Tanulóhalmaz – amin építjük a modelltTeszthalmaz – amin ellenőrizzük
Felügyelt és nem fel. tanulás – folyamatábra
Kép forrása: http://practiceovertheory.com/blog/2010/02/15/machine-learning-who-s-the-boss/
Osztályozás alapfeladat
Képosztályozás: a képen látható objektum madár vagy repülő?
Osztályozás alapfeladat
Levelek osztályozása: SPAM vagy nem SPAM?
Osztályozás alapfeladat
Szabályok alapján Severity osztályozása
Kép forrása: http://192.9.172.90/bigadmin/features/articles/3pmi_mgmt.full.jsp
Osztályozás Input: (, ), ahol
o változó vektoro az ún. osztálycímke
Osztályozás (klasszifikálás):o az ismert () párok alapján kitalálni az ismeretlen
osztálycímkék értékét (előre megadott lehetőségek közül)
Feladó – ismert vagy ismeretlen? Tárgy – tartalmazza-e a luxury szót? Üzenet tartalma – term-doc. matrix
SPAM?
Osztályozás – alapfeladat
Osztálycímke?Attribútumok?
Input?Tanuló algoritmus?
Példák osztályozási módszerekre – döntési fa
Példák osztályozási módszerekre – döntési fa Döntési fák
oMinden szinten tesztelünk egy attribútumot, az értékek alapján kettévágjuk az értékkészletet
o Levelek: többségre döntünk Milyen attribútum szerint vágunk?
o Legjobb: legtöbb információt hordozza
Meddig menjünk?
Döntési fa vs diagram Döntési diagrammal összekötni
Ha bináris teljes döntési fa, lehet, hogy jobb reprezentációja is van: BDD, ROBDD.
Általános eset: mivel többségi osztályra döntünk, inkább nem tanácsos
Példák osztályozási módszerekre – naiv Bayes Bayes tétel
Naiv Bayes modello Számoljuk ki minden . osztályra a posteriori
valószínűségeket• , • stb.
o Döntsünk a legnagyobbra
Példák osztályozási módszerekre – naiv Bayes Valószínűségi képlet kifejtése:
Naiv Bayes modell: feltételezzük, hogy az egyes attribútumok egymástól függetlenek
Valami konstans
Példák osztályozási módszerekre – naiv Bayes Osztályozás menete
o Az ismert osztályváltozók alapján meghatározzuk az egyszeres feltételes valószínűségeket
o Kiszámítjuk a szorzat értékét
„A statisztikák szerint a SPAM levelek 45%-a tartalmazza a <HTML> taget és 20%-uk a <TABLE> taget. Ez a levél tartalmazza a <HTML> taget, de a <TABLE>-t nem. SPAM?”
Csoportosítás Csoportosítás (clustering) – megtalálni az
egymáshoz hasonló elemeketo Output: klaszterek
Egymáshoz hasonló?
Csoportosítási módszerek Középpont alapú
o a pont a hozzá legközelebb lévő középpont klaszterébe tartozik
o Pl. k-Means Kapcsolat alapú
o legalább egy ponthoz közelebb van a saját klaszterében, mint a többiekében
o Pl. single-link Sűrűség alapú
o a klaszterek sűrűség alapján felismerhetőeko Pl. DBScan
Egyéb
Csoportosítási módszerek Középpont alapú Kapcsolat alapú Sűrűség alapú Egyéb
Csoportosítási módszerek Középpont alapú Kapcsolat alapú Sűrűség alapú Egyéb
Csoportosítási módszerek Középpont alapú Kapcsolat alapú Sűrűség alapú Egyéb
A különbség
Kép forrása: Ramaswamy S , Golub T R JCO 2002;20:1932-1941
Kis kitérő: attribútumszelekció Emlékeztető: szondakiválasztás
o Függőségi mátrix: sorokban szondák, oszlopokban komponensek
o Keressük azt a minimális szondahalmazt, amiben minden hibára legalább 1 szonda jelez
Általánosítás: attribútumszelekcióo Bemeneti adatmátrix függőségi mátrixo Keressük azt a minimális attribútumhalmazt (vagy annak
egy transzformációját), ami elegendő információt szolgáltat az adathalmaz egészéről
Mi az, amit először dobunk el?
Alapproblémák Detektálás
o Minden ritka osztályból legalább 1 reprezentáns megtalálásao Pl.: tudjuk, hogy múlt héten az egyik szolgáltatásunk kis
időre leállt. Mikor? Jellemzés
o A reprezentánsok alapján a teljes ritka osztály megtalálásao Pl.: Tudjuk, hogy az adott pillanatban már nem élt a
szolgáltatás, mettől meddig tartott a kiesés? Analízis
o Fontos attribútumok, amik alapján a ritkák a jövőben felfedezhetők?
o Pl.: Mi okozta a leállást?
Miért nem jó erre egy klasszikus osztályozás/feature
selection?
Majdnem jó módszerek Kiegyensúlyozatlan klasszifikáció
o Alulmintavételezzük amit már láttunk
Anomália detektáláso Olyan különálló pontokat keresünk, amik mindegyik mástól
különböznek
Klasszikus attribútumkiválasztáso Olyat keres, ami a többségire jó
Klasszikus klaszterezéso Sűrűség, kapcsolat alapú algoritmusok még akár jók is lehetnek
Kiindulási feltételek Simaság
o A többségi osztály eloszlásfüggvénye megfelelően sima
Kompaktságo A ritka osztályba tartozó elemek egymástól vett
távolsága kisebb, mint a többségtől vett távolság
Ami nem kell feltételül: szeparáltság
Ha nincs: véletlen mintavételezés
Kiindulási feltételek Simaság
o A többségi osztály eloszlásfüggvénye megfelelően simaoMatematikája kell?
Kompaktságo A ritka osztályba tartozó elemek egymástól vett
távolsága kisebb, mint a többségtől vett távolság
Ami nem kell feltételül: szeparáltság
Ha nincs: véletlen mintavételezés
FELÜGYELT DETEKTÁLÁS
Cél: minden ritka osztályból legalább egy reprezentánst megtalálni
Feladat Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle a pontokat,
hogy a lehető leggyorsabban megtaláljuk a ritkákat?
Pl.: domain expert leellenőrzi, amit mondunk neki, de minél kevesebbet kelljen manuálisan dolgozni
Variációk egy témárao Mennyi információnk van? o Milyen adatunk van? (csak attribútumok? Kapcsolatok
is?)
Apriori információval,1 ritka osztály – NNDB Adottak: Amit keresünk: nagy lokális sűrűségváltások
Módszer? Ellenőrizzük a szomszédokat!
Analógia: sűrűség alapú klaszterezés vagy edge-detection a képfeldolgozásban
Algoritmus1. -re , az adott ciklusban megengedhető maximális
sugár2. -re 3. Sejtett ritka elem: ,
amire maximális.4. Ha ritka, vége.5. Ha nem,
,ugrás 1-re.
|𝑁𝑁|=7|𝑁𝑁|=14
Apriori információval – NNDB , na de mekkora legyen ?
Ötlet: ha a ritkák aránya , akkor legyen számítsuk ki -re a . legközelebbi elem távolságát: .
Legyen .
Ha a ritkák tényleg nagyon közel vannak egymáshoz,
akkor beleférnek egy körbe
Változatok Több minor osztály?
oMint a bináris eset, csak addig kérdezünk, amíg minden osztályt meg nem találunk
Kevesebb apriori információ?o Adottak: és semmi más𝑆oMódszer: eloszlásbecslés, majd azon mesterséges
sűrűségszámítás
Relációs kapcsolatok is adottak?oMódosítani kell a hasonlóságszámítást
Szintetikus adat
Éles adat?
Éles adat?
Éles adat?
Éles adat?
Éles adat?
FELÜGYELET NÉLKÜLI ANALÍZIS
Cél: megtalálni orákulum nélkül a ritka eseményeket és a jellemző attribútumokat
Feladat Mi van akkor, ha nincs orákulum?
Input: bemeneti adathalmaz Output
o Ritka eseményeko Jellemző attribútumok
Ötlet: egyébként is projektálnánk valamilyen attribútumtérbe az adathalmazt – próbáljuk ki az összes megfelelő teret is
Analízis, mint optimalizációs feladat
Célfüggvény:
Kompaktság: a ritka elemek közelebb vannak egymáshoz, mint a többiekhez
– dimenziószám (attribútumhalmaz
mérete)
Összesen ritka elemet feltételezünk
Összesen attribútumot várunk
Partial Augmented Lagrangian Method Célfüggvény, peremfeltételek: túl sok a változó Gradiens módszer: előbb közelítjük -t, aztán -t
Működne-e a kimerítő keresés (mondjuk =100.000 𝑛 és =100)𝑑 ?
Célfüggvény:
PALM szintetikus adatok𝑛=100 ,𝑛𝑝2=5 ,𝑑=4 ,𝑑𝑟=2
Palm éles adatok? Nagyon érzékeny az attribútumok skálájára
oMB vs kB?o Ballooning adatok: csak 0 vagy 1, miközben néhány
CPU-adat fel van szorozva 1000-rel
Futásidő
KARAKTERIZÁLÁS
Cél: megkeresni a ritka osztályok minden példányát
Feladat Felügyelt detektáló algoritmus vége: legalább 1
ritka elem minden osztálybólo Jelölés: többi
Input: a biztosan többségi és biztosan ritka elemek indexei
Output: ritkának feltételezett elemek indexei
Ötlet: zárjuk be a ritkákat egy -dimenziós hipergömbbe, mert ők úgyis annyira közel vannak egymáshoz
Karakterizálás, mint optimalizációs feladat
Célfüggvény:
𝜶𝟏
𝜷𝟏
𝜷𝟐
𝑹
RACH – Rare Category Characterization Célfüggvény, peremfeltételek: túl sok a változó Ötlet: gradiens módszer
o Kiszámítjuk egy középponthoz az ideális -to Ha megvan, milyen pontokat fedtünk le, számítunk egy
új középpontot
Módosítás: vetített szubgradiens módszero Előbb egy ideális megoldást(pl. középpontra), aztán a
hozzá legközelebb lévő olyan, ami ki is elégíti a feltételeket
Hátrányok Futásidő:
o Távoli pontok eldobásao „Okosítás”: pl. a ritka pontok úgyis mindenütt benne
vannak a gömbben, rájuk egyszerűbb számolni -dimenziós hipergömb néha túl általános
o Skálázás? Néha nem konvergál
Alapproblémák Detektálás
o Minden ritka osztályból legalább 1 reprezentáns megtalálásao Pl.: tudjuk, hogy múlt héten az egyik szolgáltatásunk kis
időre leállt. Mikor? Jellemzés
o A reprezentánsok alapján a teljes ritka osztály megtalálásao Pl.: Tudjuk, hogy az adott pillanatban már nem élt a
szolgáltatás, mettől meddig tartott a kiesés? Analízis
o Fontos attribútumok, amik alapján a ritkák a jövőben felfedezhetők?
o Pl.: Mi okozta a leállást?