Bayes becslések

Boha Roland

2006. november 21.

PPKE-ITK

Miről lesz szó?

• Bevezetés

• Ismétlés

• A becslés elve

• A becslés eredménye (valószínűségi sűrűségfüggvényként)

• Elméleti tulajdonságok

• Maximum a posteriori becslés

I. Bevezetés

• Thomas Bayes (1702-1761): angol matematikus, teológus

• Bayes tétele: Ha egy ,,kétfázisú'' kísérletben a második fázis eredményeiből akarunk visszakövetkeztetni az első fázis eredményére, akkor a Bayes-tétel hasznos segédeszköz. Legyen A és B két, pozitív valószínűségű esemény. A feltételes valószínűség definíciójából:P(B|A) = P(A|B)P(B)/P(A) (Bayes-formula).

• Bayes becslések: fontosak, mert nemlineáris és korrelált mérési hibával terhelt rendszerek esetén is alkalmazhatók.

• Alkalmazott Bayes: irányításelmélet, paraméterbecslés, spamszűrés, stb.

Véletlen: Klasszikus vs. Bayes

• Identifikációs probléma Bayes-i megközelítésben

• „Klasszikus” véletlen fogalma: az értékére vonatkozó mérések/kísérletek nem minden esetben ugyanolyanok, hanem ingadozást mutatnak. (Így egy rendszer paramétereinek értéke invariáns esetben konstans, azaz (nem véletlen) determinisztikus változó.)

• Klasszikus felhasználás: véletlen természetű folyamatok (pl. radioaktív bomlás) && sok kicsi, egymástól fgtlen, de külön nem modellezett folyamat jelenléte

• Véletlen Bayes-féle értelmezése: a megfigyelést végző személy tudása szerint osztályozza a változókat;

• Bayes értelemben véletlen változó minden változó és paraméter is akár, ami előttünk, mint megfigyelő előtt nem ismert. Így az ismeretlen rendszerparaméterek valószínűségi változónak tekintendők

• A Bayes megközelítés képes egy jónak tűnő alapot adni különböző döntésekhez, például egy irányítási probléma esetében.

II. Ismétlés, elméleti alapok

• Mindennek az alapja: Bayes formula és láncszabály (később)

• Véletlen változó egy valós értéket vehet fel.• Általában a várható érték: x, véletlen változó

valós, de ismeretlen értékkel, amit x-vel jelölünk. Az összes lehetséges, x által felvehető érték: Sx.

• Ha Sx egy intervallum a valós tengelyen, vagy egy általános vektor, akkor folyamatos típusú véletlen változóról beszélünk

• Így Sx = (x1, x2, …, xn), ami egy véges halmaz.

• Szubjektív valószínűség: egy egység (pl.: 100%), ami Sx –en eloszlik, és megmutatja, hogy melyik értékek bekövetkezése lehetséges: x = xi, ha Pr [x = xi] = P(xi), és P(x) egy Sx-en értelmezett, valós nem negatív függvény.

• Innen következik az, hogy Pr [x = xi vagy x = xj] = P(xi) + P(xj), és

• Továbbá: Nem csak számok elhetnek ezek, például

érmefeldobás: P(fej)+P(írás) = 1• Sűrűség fgv: , ahol részhalmaza Sx-nek, és a függvénynek

teljesítenie kell a relációt

xP 1)(

x dxxpx )(][Prx

dxxp 1)(

• Megjegyzés: P(.) és p(.) semmilyen jelentéssel nem bír, ha nem adjuk meg, hogy milyen véletlen változóról beszélünk. Pl.: p(x) = f(x) fgv, p(y) = f(y), p(2)-re nem jelenthetjük ki, hogy f(2), vagy g(2) lenne.

• Együttes eloszlás: (2 vagy több változóra) pl.: ha x= (a, b) és Sx = Sa * Sb rendezett párok halmaza, ahol a eleme Sa és b eleme Sb, ott p(x) = p(a, b) az együttes eloszlása a két véletlen változónak.

• Pl: a folytonos az Sa =(a1, a2) intervallumon, b pedig diszkrét: Sb = (b1, b2, b3). Ekkor p(a, b) meghatározható 3 fügvénnyel: {p(a, bi)= fi(a), i = 1, 2, 3} és fel is rajzólhatók úgy, hogy teljesítik a

i daaf

• Bayes-i értelemben a statisztikai beavatkozás nem más, mint a megelőző egyéni valószínűségi eloszlások korrekciója az elvárásoknak megfelelő (valós) adatokkal.

• Ez azt jelenti, hogy az feltételes valószínűségi eloszlások adják egy-egy döntés alapját.

Bayes formula klasszikus esetben

• Adottak Bi események és P(Bi) valószínűségeik

B1, B2,…,Bm elemei B eseményalgebrának, ahol: B1, B2,…,Bn teljes eseményrendszer:

ABPABP

BésBB

Továbbá P(Bi)>0 i=1,2,…,N

A más sokat emlegetett Bayes tétel.

II/b. Alapvető műveletek:

• Adott egy együttes valségi eloszlás 2 véletlen változóra: a és b meghatározza b valségi eloszlását, anélkül, hogy a-ról bármit is tudnánk. Matematikailag:

• Adot p(a, b), a eleme Sa b eleme Sb. p(b) így határozható meg:

redbbpb bb

)(]Pr[

• a eleme Sa bizonyos esetekben igaz:

abb dadbbapSabb ),(]&Pr[]Pr[

dabapbp ),()(

redbbpb bb

)(]Pr[

Egyezményesen, ha a diszkrét, az integrált szummázással lehet helyettesíteni.

Ha p(b) összefügg p(a,b)-val, akkor marginálisról beszélünk.

• Tekintsük azt az esetet, hogy a és b nem ismert, de valahogy meghatározható a szubjektív valségi eloszlásuk, p(a,b). Ezután valahogy (pl. méréssel) megszerezzük b valódi értékét:

• Így már csak a értéke ismeretlen, amihez a következőképpen juthatunk el:

Adott p(a,b), meghatározzuk a feltételes eloszlást: p(a|b=ß), b≠ß esetben p(a,b)-nak nincs jelentősége, de mégsem változtatunk. Így meghatározni p(a|b=ß)-t, megfelel annak az esetnek, mikor p(a,b), b=ß. Tehát:

p(a|b=ß) =κ* p(a,b)| b=ß , ahol κ az arányossági együttható.

Így minden a-ra: p(a,b)| b=ß =O, tehát p(a|b=ß) = O.

1da ß)b|p(a

da ß)b|p(a

ßb|p(b)

Κ-t így kaphatjuk meg:

Tudjuk, hogy:

dabapbp ),()(

• Továbbá átírhatjuk a p(a|b=b) alakot egyszerűen p(a|b)-vé, és az előzőek alapján kimondhatjuk, hogy p(a|b)=p(a,b)/p(b). Ezt tovább alakítva kapjuk a p(a,b)= p(a|b) p(b) formulát.

• Így kaphatunk együttes valségi eloszlást olyan esetekben, amikor feltételes (p(a|b)) és marginális (p(b)) eloszlások állnak rendelkezésünkre.

II/c. Független bizonytalan mennyiségek:

• Két mennyiség akkor független, ha az egyik valódi értéke nem hordoz semmiféle információt a másikról, tehát:

p(a|b)=p(a)Ha b ismeretlen p(b) valségi eloszlással, akkor

p(a,b)= p(a|b) p(b) és p(a|b)=p(a) formulákból következik, hogy p(a,b) = p(a)p(b)

Emellett p(a,b)= p(a|b)p(a), ha p(b|a)=p(b)Ez azt jelenti, hogy ha egy bizonytalan mennyiség

nem függ egy másik bizonytalan mennyiségtől, akkor kölcsönösen függetlenek.

• Hasznos lehet definiálni a feltételes függetlenséget: ha egy bizonytalan mennyiség valódi értéke: c, és b szintén bizonytalan mennyiség valódi értéke nem hordoz információt a bizonytalan mennyiségről, tehát a és b feltételesen függetlenek c tükrében, ha c ismert. Formálisan:

II/d. Származtatott relációk

dacbapcbp )|,()|(

)|(),|()|,( cbpcbapcbap

dacbap

cbapcbap

)|,(),|(

dacapcabp

capcabpcbap

),(),|(

),(),|(),|(

a és b felcserélése itt:

Bayes formula:

• N db együttes valségi eloszlás: x1, x2,…, xn és alkalmazzuk: p(a,b)= p(a|b)p(b) –t:

p(xN,xN-1,…,x1)=p(xN|xN-1,…,x1)* p(xN-1,xN-2…,x1)= p(xN|xN-1,…,x1)* p(xN-1,xN-2…,x1)* p(xN-2,…,x1) és N lépés után a láncszabályból következik: p(xN-

1,xN-2…,x1)=

111-kk )(.)x,,x|,p(x

A láncszabály tehát a feltételes és együttes sűrűségfüggvényekre vonatkozó összefüggés általánosítása több (N) valószínűségi változóra.

II/e. Kiegészítések

• A rendszer identifikációs probléma csak része egy sokkal összetettebb döntési problémának. (pl.: előrejelzés, irányítás, stb.)

• „A megfigyelés változtat egy véletlen változót valós számmá.” (Lindley, 1974)

• Egyesek szerint a Bayes-i statisztikai módszerek nem másak, mint valószínűségi elméletek statisztikai problémákon alkalmazva.

• Ez igaz is, egy bizonyos fokig, de a valségi elméletek a valségi eloszlásokat csak alakítani tudják egymásba, teljes biztonsággal létrehozni őket lehetetlen.

• A bayes-i módszerekkel dolgozóknak is szüksége van az elsődleges eloszlásokra, és ezt felhasználva ismeretlen/bizonytalan mennyiségekről/eseményekről használható állításokat készíteni.

III. A becslés elve• A rendszer ezentúl a világ egy részét jelenti,

amin egy identifikációs problémát szeretnénk megoldani.

• Ennek elvégzésére egy idősorozat szerű megfigyelést végzünk a rendszeren, az egyes megfigyelések: D(1),…,D(t),…, ezek az adatok. Általában két adatfajta figyelhető meg: bementi (u(t)) és kimeneti (y(t)) adatok. Így tehát: D(t)= {u(t), y(t)}

• Kimenetek passzívan figyelhetők meg, ha D(t)={y(t)}, akkor a rendszert autonómnak hívjuk.

• Az első megfigyelési pár általában a D(1)={u(1), y(1)}.

• Rövidített jelölés: x. Helyettesíti u-t, y-t, D-t is: x(j)(i) =

{x(i), x(i+j),…,x(j)}. Ha j<i, akkor üres halmaz. Tehát:• x(j)

(i) ={x(j), x(j-1)(i)} és D(j)

(i) ={y(j),u(j), D(j-1)(i)} , (i) kihagyható,

ha 1-et jelent. Az összes adat D(t)={D(1),…,D(t-1), D(t)}• Mit kell ahhoz tudni, hogy képesek legyünk

megoldani ezt a problémát?• Ha van egy ismert állapot: D(to), amihez tervezni kell

egy irányítási stratégiát a következő N (tetszőleges, de véges) lépésre:

• D(to+N)(to+1) megad minden szükséges információt

• Ahhoz, hogy optimális műveletsort találjunk, képesnek kell lennünk arra, hogy előrejelezzünk, mielőtt alkalmazzuk az u(to+1) bemenetet. Így:

p(D(to+N)(to+1) | D(to)) feltételes valségi eloszlásra van

szükségünk.

• Alkalmazva a láncszabályt: p(D(to+N)(to+1) | D(to))=

Alapvető egyenlőségeket felhasználva: p(D(t)|D(t-

1)) = p(y(t), u(t)|D(t-1))=p(y(t)|u(t), D(t-1))p(u(t)|D(t-

1)), ahonnan megkapható:

Ahol a feltételes valségi eloszlás p(u(t)|D(t-1)) leírja a transzformációt. Így a rendszer előző állapotai és t=to+1,…,t0+N segítségével egy irányítása megadható.

tDtDp1

)1( )|)((

)|)(()),(|)(( )D | p(D )1(Nto

)1((to)N)(to1)(to

tt DtupDtutyp

• Ha az irányítási stratégia determinisztikus, pl.: u(t)= f(t) (D(t-1)), akkor p(u(t)|D(t-1))= δ(u(t)- f(t) (D(t-

1))), ahol δ Lehet Dirac (ha u(t) folyamatos) és Kronecker δ (δ(δ(0)=1) és δ(x)=0, ha x ≠ 0) is, ha u(t) diszkrét.

• Amit nem ír le, pl.: a feltételes valségi eloszlást p(y(t)|u(t), D(t-1)) leírja minden t-re y(t) függvényében.

• Egy rendszermodellen olyan matematikai modellt értünk, ami leírja a feltételes valségi eloszlásokat egy időintervallumra, véges számú paraméterbeállítás mellet. (Paraméter itt: időinvariáns mennyiség, egy konstans.)

)|)(()),(|)(( )D | p(D )1(Nto

)1((to)N)(to1)(to

tt DtupDtutyp

• Abban az esetben, amikor néhány, vagy az összes paraméter halmaza véges, azt mondjuk Θ ismeretlen vagy bizonytalan:

p(y(t)|u(t), D(t-1), Θ) definiálja a feltételes eloszlásokat. Amikor nem ismerjük Θ valódi értékét, akkor ez a formula addig használhatatlan, amíg nem ejtjük ki a modell ismeretlen paramétereit:

p(y(t)|u(t), D(t-1)) =

Ahol az integrál első fele az előbb látott eloszlás, a második pedig a valségi eloszlás, ami leírja a paraméterek bizonytalanságát egy adott időpillanatban.

dDtupDtutyp

tt ))(|(),),(|)((

)D u(t),\ p(y(t), )D u(t),|p(y(t)

)1()1(

1)-(t 1)-(t

• Így a rendszer identifikációs problémája két részre bontható:

a.) a modellstruktúra olyan megválasztására, ami leírja a feltételes valségi eloszlásokat

b.) a modell paraméterek értékelése (pl.: feltételes valségi eloszlás meghatározása)

III/b.:1. Példa• Tekintsünk egy autonóm rendszert, nem

megfigyelhető bemenetekkel, és egy olyan kimenettel, ami véletlen események sorozatának a kimenete 2 lehetséges kimenettel: A és Ā. Így y(t) ≡ A, vagy y(t) ≡ Ā, de azt nem tudjuk, hogy melyik fog megvalósulni. Világos, hogy a kimeneti halmaz kételemű: Sy = {A, Ā}, és p(y(t))=f(t)(y(t)), aminek teljesítenie kell a következő relációt: f(t)(A)+f(t)(Ā) = 1. Ez jól leírható egy számmal:

f(t)(A) = α és f(t)(Ā) = 1-α.A modell megalkotásához néhány feltétellel kell

élnünk:

• Ha a rendszerről rendelkezésre álló alapvető információk alapján meghatároztuk a rendszermodellt, a valségi eloszlása p(y(t)), azaz α(t) szám is a priori információkon alapul. Emellett a rendszer előző állapotai egyéb információval nem szolgálnak y(t)-ről.

• Emellett a rendszerről feltételezhetjük a priori információk alapján, hogy α(t) mindenhol ugyanaz.

• Így a modellünk: p(y(t)|y(t-1)) = α, minden y(t) ≡ A-ra, és p(y(t)|y(t-1)) = 1-α minden y(t) ≡ Ā-ra. És ezt jól leírja egy Θ= α paraméter.

• Minden valségi eloszlás feltételes, gyakran nehéz egyszerűen kifejezni őket.

• Van olyan eset, amikor az első feltevésünk alapján nem határozható meg α paraméter. Ekkor átfogalmazhatjuk a következőképpen: Ha többet tudunk a rendszerről és meg tudjuk határozni α paramétert, akkor a rendszer „előéletéről” több információt is kaphatunk a folyamat várható kimeneteléről. (y(t)) Így a függetlenséget feltételes függetlenségre cseréltük így: p(y(t)|y(t-1), α)= p(y(t)| α). Így az ismeretlen paraméter egy folyamatos véletlen változóként figyelhető meg (α), ami 0 és 1 közötti valós értékű. Sα= <0,1>.

• A modell az előzőek helyett így definiálható:p(y(t)|y(t-1), α) = α, minden y(t) ≡ A-ra, és p(y(t)|y(t-1), α)

= 1-α minden y(t) ≡ Ā-ra. Ahol α változó és nem konstans.

• A kimenetek előrejelzéséhez a formula itt így használható:

• y(t) ≡ A-ra:

• y(t) ≡ Ā-ra:

dDtupDtutyp

tt ))(|(),),(|)((

)D u(t),\ p(y(t), )D u(t),|p(y(t)

)1()1(

1)-(t 1)-(t

dyptypytyp tt 1

)1()1( )|()|)((()|)((

dypytyp tt ))|(()|)((1

)1()1(

dypytyp tt ))|()(1()|)((1

)1()1(

III/c.: Diszkrét fehér zaj

• Ha a kimenet egy véletlen változó, akkor érdemes bevezetni egy függő valváltozót, ami megadja a y(t) és a korábbi ki és bemeneti adatok feltételes középértéke közti kapcsolatot. (e(t))

• Ha y(t) kimenet egy v oszlopvektor, akkor e(t)-t így definiálhatom:

0)]),(|)([

)())),(|)(()(

))),(|)(()),()((ˆ

)),()((ˆ)()(

)1()1(

DtuteE

tdyDtutypty

DtutyEDtuty

Dtutytyte

• e(t) (t=1,2,…) sorozat tulajdonságai: E[e(t)]=0 (1)

E[e(t) eT (t-i)]=0; i ≠ 0, i<t (2)

E[e(t) yT (t-i)]=0; 0<i<t (3)

E[e(t) uT(t-i)] = 0; 0≤i<t (4)

Ha létezik véletlen változók egy sorozata, (1) alapján nulla értékkel, ha kölcsönösen korrelálatlanok (2), akkor diszkrét fehér zajról beszélünk.

• i>0 estetben:

• i<0-ra időeltolás: τ=t-1

))(())(()](ˆ)([

)](ˆ)())(|)(()([)]()([

)),(()),(|)(()(

)]),()((ˆ)([

)]),()((ˆ)([)]()([

)1()1(

)1()1()(

DtudDtupityity

tytdyDtutyptyiteteE

DtupDtutypDp

Dituityity

DtutytyiteteE

))),()((ˆ)(()),(|)((

)]()([]),(|)()([

))(())(()),(|)((

)1()1(

DtutytygDtutyp

RteteEDtuteteE

tegtepDtutepg() időinvariáns, a kovariancia mátrix konstans:

Adott u(t) és D(t-1), akkor y(t) és e(t) az előzőek alapján:

• A műveleti modell megadható egy sztochasztikus egyenlet formájában: (láttuk már ezt az előbb is…)

• g(e(t))~N(O,R), ahol a modell jól le van írva, ha R kovariancia mátrixszal y^(t) kifejezett a ki- és bemenetekből.

)()),()((ˆ)( )1( teDtutyty t

)]()(2

1exp[||)2())(( 12

2 teRteRteg Tv

)),(ˆ(~)),(|)(( )1( RtyNDtutyp t

III/d.: Lineáris regressziós modell• Tekintsünk egy rendszert, aminek bemenetei:μ

kimenetei: v, mindkettő folytonos a megfelelő u(t) є Rμ és y(t) є R v intervallumon. y (t) függ az u(t) és a megelőző n ki- és bemeneti állapottól, D(t-1)

megadható.• Ha n elég nagy, akkor lehetnek olyan korábbi

állapotok, amik nem hordoznak elég információt y(t)-ről.

• Matematikailag: p(y(t)|u(t),D(t-1))=p(y(t)|u(t),D(t-1)(t-n))

és y^(t)(u(t), D(t-1))=y^(t)(u(t), D(t-1)(t-n))

tecituBityAtuBty

cituBityAtuBty

)())()(()()(

))()(()()(ˆ

))(())(()),(|)(( )1( tegtepDtutep t N-ed rendű lineáris regressziós modell

Ahol {e(t)} diszkrét fehér zaj konstans R kovariancia mátrixszal.

T>n esetben a modell jól leírható a paraméterekkel:

Θ={Ai (i=1,…,n), Bi (i=0,1,…,n), c, R}

III/e.: Inkrementális regressziós modell

• Gyakran a valódi feladatok nem stacionáriusak• A c konstansból egy elég nehezen

előrejelezhető változó lesz, ilyenkor ez a legmegfelelőbb eljárás:

)1()()(),1()(

),()()(

)()1()(

)1()()(ˆ

aholituBityA

tuBotyty

tDtuty

• A modell a következő formára írható át: y(t-1): az utolsó ismert állapot.

)()())(()()(1

tcituBityAtuBty i

,ahol {c(t)} egy független növekedésű sztochasztikus folyamat. c(t)= c(t-1)+ e(t) , azaz egy összeadott fehér zaj. {e(t)}

III/f.: ARMA modell

• y^(t)-ről feltesszük, hogy a megelőző ki és bemenetek függvénye. Ez azt jelenti, hogy egy determinisztikus függvény lesz az egész eddigi ki és bemenetek alapján.

• Emellett feltesszük, hogy rekurzívan így definiálható:

cituBityGtuB

ityCty

))()(()(

)(ˆ)(ˆ

A homogén rész stabil, mert minden gyök kívül van az egységkörön.

• Ha az y^(t)=y(t)-e(t) helyettesítéssel élünk, akkor egy közismertebb formát kapunk:

citeCeituB

ityAty

Ahol Ai=Ci-Gi, és általában a modell a konstans c nélkül használatos, ugyanis ehy helyes átskálázással (u(t) és/vagy y(t)) kiiktatható, de ismerni kell hozzá a mátrix-együtthatókat.

• Az ilyen modelleket ARMA modelleknek hívjuk, és közvetlenül függnek a valségi eloszlásoktól: p(y(t)|u(t), D(t-1))

• A diff. egyenletek felírásához szükséges:

Θ={Gi (i=1,2,…,n), Bi (i=0,1,…,n), Ci (1,2,…,n), c, R y^(i) (1,2,…,n)}, ahol y^(i) a kezdeti állapotok.

Ha a rendszer „előélete” elég hosszan ismert, akkor y^(i) elhagyható: 0-nak és ismertnek tekinthető.

Az ARMA modell sajnos csak akkor használható jól, ha Ci rögzített, mint ismert információ.

III/g: Állapottér modell

• A rendszermodellel kapcsolatban felvetődik a probléma, hogy hogyan paraméterezzünk egy feltételes valségi eloszlást t>t0 esetben.

• Általában t-től különböző dimenziójú skalárfüggvény lesz

• Emellett s(t-1) véges dimenziós halmazzal is leírható, ami elegendő statisztikát tartalmaz y(t)-ről, így:

p(y(t)|u(t), D(t-1)) = Ψ(y(t),u(t),s(t-1)) és legyen igaz: s(t)=Φ(s(t-1),u(t),y(t)). Így a modellezési probléma lecsökkenthető s(t) dimenziómegválasztására és Ψ skalár fgv parametrizálására.

)()()1()(

)())1(),()((ˆ)(

)()),()((ˆ)( )1(

tFutGytHsts

tetDutCsty

tetstutyty

teDtutyty t

• Összeadva néhány előző egyenlettel: p(e(t)|u(t),s(t-1))=p(e(t))~N(O,R)

• Együtt az előzővel definiálja Ψ függvényt.• s(t)=A s(t-1)+B u(t)+ H e(t), ahol A=H+GC

B=GD+F• y(t)-t és a másodi s(t)-t megadó egyenletet

innovációs formulának hívják

dekompozíció

y^(t) és Φ(t) linearitásából

III/h.: Mérhető külső zajok

• adatgyűjtés modellezés előtt, vannak priori információk, amik mindig elérhetőek

• Ilyen, és a legfontosabb a kimenet: y(t)Két részhalamzra osztható: y(t)={v(t), ys(t)},Ahol v(t) a mérhető külső zaj, ami függ a múltjától,

de a jelentől nem. A múltbeli értékek megfigyelhetők: p(v(t)|ys(t), u(t), D(t-1))=p(v(t)|v(t-

1)). Tekinthetőek egy önálló irányíthatatlan környezetnek.

ys(t): pedig a „külső világ” irányított részének kimenete

• Felírhatjuk továbbá: p(y(t)|u(t), D(t-1))= p(v(t), ys(t)|u(t), D(t-1))=p(v(t)|ys(t),u(t), D(t-1)) * p(ys(t)|u(t),D(t-1)) és a külső zajok definiálása szerint:

p(y(t)|u(t), D(t-1))= p(v(t)|v(t-1)) p(ys(t)|u(t), D(t-1)), így a modell felbontható két részre, ahol az első rész a külső, mérhető zajokat a második pedig a rendszert magát írja le.

A valségi eloszlás pedig egy általános leírást ad az irányításról, magában foglalva a mérhető zajokat:

p(u(t)|D(t-1))=p(u(t)|u(t-1), ys(t-1),v(t-1))

IV. Paraméter értékelés és kimenet becslés

• Tegyük fel, hogy egy rendszermodellt ismerünk Θ paramétereiből. Így egy bizonyos τ időintervallumon (τ= t0+1, t0+2,…,t) a feltételes valségi eloszlás a következőképpen alakul: p(y(τ)|u(τ), D(τ-1), Θ)

• Ezzel kapcsolatban felmerülő kérdések:Hogyan nyerhetők ki azok a paraméterek, amik a ki- és

bemeneti adatokat tartalmazzák? (Bayes-i feltevésben: Hogyan számolható aposteriori valségi eloszlás? p(Θ|D(t)) )

Hogyan jelezhető előre egy adott bemenetre egy kimenet, ha csak az előző kimenetek ismertek? (Bayes-i feltevésben: Hogyan számítható y(t+1) feltételes valségi eloszlása u(t+1) és D(t) feltételével, (Θ, mint feltétel itt nem szerepel) )

Dtutyp

)),1(|(

),),1(|)1((

)),1(|)1((

Ahol az első rész a feltételes valségi eloszlás, amit a modell szerkezete határoz meg.

A fenti kérdések közül második megoldódik, ha az első megválaszolható, és megadható a kapcsolat aposzteriori valsédi eloszlás és az integrál második fele között.

Valós idejű esetben az új ki- és bemeneti párokkal is frissítik a valségi eloszlást.

• Valós időben és egy pillanatnyiban is következőképpen fogalmazhatjuk meg a problémát: Adott p(Θ|D(t-1)) és az adatok D(t)

(t1+1) t1<t,határozzuk meg p(Θ|D(t)).

• Ha boldogulunk vele T1=0 esetben, akkor az egy pillanat esetét megoldottuk, innen már csak t1=t-1 beállítást kell használnunk egy rekurzív formulához. Alkalmazva a Bayes formulát a=Θ, b= D(t)

(t1+1) és c= D(t1)-re azt kapjuk, hogy:

)|(),|(

)1()1(11

dDpDDp

DpA használatához ki kell fejezni a feltételes valségi eloszlást

IV/b: Bemenetgenerálás• Autonóm rendszer – nincs megfigyelhető

bemenete: D(τ)=y(τ) és a feltételes eloszlás itt p(y(τ)|y(τ-1), Θ), amik a modellben adottak.

• A bemenet determinisztikus: minden u(k) (k= 1,2,…, τ) minden τ konstans paraméternek tekinthető és elhagyhatóak p(y(τ)|u(τ), D(τ-1), Θ)-ből. Ez az eset az előzőre vezethető vissza.

• Sztochasztikus bemeneti sorozat: pl.: a kimenettől/ismeretlen (Θ) paraméterektől függetlenül jöttek létre: p(u(τ), D(τ-1), Θ)= p(u(τ)|u(τ-1))

• Zárt rendszer (pl. adaptív szabályozó) által generált bemenetek: függnek az előző kimenetektől és az ismeretlen (Θ) paraméterektől is.

Mindegyik ugyanúgy megoldható…

V. A Bayes paraméterbecslés tulajdonságai

• A becslési eljárás eredménye a p(Θ|DN) feltételes valségi sűrűségfgv, tehát nem valamely pontbecslés, hanem a teljes becsült függvény. Ez a módszer elméleti ereje és alkalmazási gyengesége is. Elméletileg a becsült Θ paraméterekre vonatkozó teljes statisztika rendelkezésre áll, nemcsak aszimptotikusan, hanem véges esetben is, ehhez azonban egy függvényt kell(ene) minden lépésben kihasználni.

• A becslés maga, a Bayes formulából adódóan természetében rekurzív, végrehajtásához a p(y(k)|Dk-1, Θ)parametrizált rendszermodellen kívül a p0(Θ) prior, vagy kezdeti becslés is szükséges. A priori becsléssel a paraméterekről rendelkezésünkre álló technológiai, fizikai, vagy üzemeltetői tudás építhető be a paraméterbecslésbe elméletileg tiszta és jól követhető módon.

Ritka az az eset, amikor valóban semmit nem tudunk a paraméterek értékéről, ilyenkor általában megadható valamely lehetséges értéktartomány amely felett egyenletes, vagy igen nagy szórású normális eloszlásfgv-t adhatunk meg prior becslésként.

• Belátható, hogy autoregressziós bemenet-kimenet modell és normális eloszlású becslési hiba, valamint normális eloszlású prior becslés mellett a Bayes becslés a standard rekurzív legkisebb négyzetes (LKN) becslésre vezet, tehát ilyen esetben jól számítható.

Maximum a posteriori becslés• A bayes becslésből származtatható úgy, hogy a

becslés eredményeként kapott teljes valségi sűrűségfüggvény (p(Θ|DN) ) helyett annak egy pontbecslését, méghozzá a maximum likelihood (legnagyobb valség elve) alapján képzett pontbecslést használjuk. Miután a teljes DN mért adat rekordban csak az y(k) (k=1,2,…,N) kimenetek tekinthetők valóban függő változónak (a bemeneteket paraméterbecslési célra elvileg tetszőlegesen megválaszthatjuk), ezért a Bayes paraméterbecslés (1) nem rekurzív alakja a következő formában is felírható, (2) alapján (3):

)](),([maxarg)(yˆ

)(),()p(y

)()p|p(y )y|p(

),|)(()|p(y

)D|p( )(p

ahol ,)()),|)(((

Ez utóbbi a maximum likelihood elven képzett becslés maximuma a Maximum A Posteriori (MAP) becslés.

Fontos, mert kapcsolatot jelent a ML es a Bayes becslés között, emellett belátható, hogy mindkettőhöz teljes valószínűségi modell kell.

Források

• Hangos Katalin – Szederkényi Gábor: Dinamikus Rendszerek Paramétereinek becslése, Veszprémi Egyetemi Kiadó, Veszprém 1999.

• V. Peterka - Bayesian Approach To System Identification

• http://www.wikipedia.org

Köszönöm a figyelmet!

rollair@teamlupus.hu

Bayes becslések

Documents

Submitted to Statistical Science Bayes, Oracle …statweb.stanford.edu/~ckirby/brad/papers/2017...Submitted to Statistical Science Bayes, Oracle Bayes, and Empirical Bayes Bradley

Metode Bayes

Experiment Design Based on Bayes Risk and Weighted Bayes ...bb/PODE/PODE2014_Slides/RogerJelliffe_PODE_2014.pdf1 Experiment Design Based on Bayes Risk and Weighted Bayes Risk with

Naïve Bayes 𝑖 𝜶 - Kangwoncs.kangwon.ac.kr/.../2015_MachineLearning/07_naive_bayes.pdf · 2016. 6. 17. · Naïve Bayes •Bayes rule을적용하면모든데이터에대하여고려해야함

Spam Filtering with Naïve Bayes – Which Naïve Bayes?cobweb.cs.uga.edu/.../CSCI6900...Presentation2.pdf · Title: Spam Filtering with Naïve Bayes – Which Naïve Bayes? Author:

Bayes Theorem

December 2010T. A. Louis: Basic Bayes 1 Basic Bayes

The Naïve Bayes Classifier - svivek · •The naïve Bayes Classifier •Learning the naïve Bayes Classifier •Practical concerns 2. Today’s lecture •The naïve Bayes Classifier

Naïve Bayes

Spam Filtering with Naive Bayes â€“ Which Naive Bayes?

Classification Bayes

Naive Bayes

Naive Bayes and Gaussian Bayes Classifier

Fundamental Advantages of Bayes in Drug Developmenthbiostat.org/doc/bayes/meetup.pdf · 2020-04-26 · Fundamental Advantages of Bayes in Drug Development Background Freq&Bayes Needed

Classification: Naïve Bayes - University of Belgradeai.fon.bg.ac.rs/wp-content/uploads/2016/10/Naive-Bayes-Labs-2016.pdf · Naive Bayes classifier • Based on the Bayes rule •

BAYES, ORACLE BAYES, AND EMPIRICAL BAYES By Bradley …Bayes, Oracle Bayes, and Empirical Bayes Bradley Efron Stanford University Abstract. This article concerns the Bayes and frequentist

REGIONÁLIS KLÍMAMODELL-BECSLÉSEK A KÁRPÁT-MEDENCÉRE ...nimbus.elte.hu/oktatas/metfuzet/EMF025/PDF/15-Pieczka_etal.pdf · 96 REGIONÁLIS KLÍMAMODELL-BECSLÉSEK A KÁRPÁT-MEDENCÉRE

STATISZTIKA 2. - mateking · © STATISZTIKA 2. KÉPLETGYŰJTEMÉNY info@mateking.hu tel:06705411417 4 7. STATISZTIKAI BECSLÉSEK 7.1. Becslések

Lecture 9: Bayesian Learning - Otto-Friedrich- · PDF fileLEARNING, MDL principle, Bayes Optimal Classiﬁer, Naive Bayes Classiﬁer, Bayes Belief Networks ... on Bayes theorem Lecture

Variational Bayes