Spi 6a Recunoastere Metode Decizie

RECUNOASTEREA FORMELOR(1/2)

PATTERN-URI SI CLASE DE PATTERN-URI

RECUNOASTERE BAZATA PE METODE TEORETICE DE DECIZIE

Potrivire ("matching")Clasificatori statistici optimiRetele neurale

Recunoasterea obiectelor / formelor ("pattern/object recognition"):

-tehnici de teoria deciziei (pattern-uri descrise cu descriptori cantitativi: lungime, arie, textura);

-tehnici structurale (pattern-uri descrise cu descriptori calitativi: descriptori relationali).

Concept central: invatarea din esantioane!

PATTERN-URI SI CLASE DE PATTERN-URI

-pattern ~ aranjament de descriptori (caracteristici);-clasa de pattern-uri = familie de pattern-uri cu anumite proprietati comune

=> clasele notate ω1 , ω2 , ... , ωW (W = numarul de clase);

-recunoasterea de forme = asignarea formelor la clasele de care apartin.

Reprezentari pentru forme:-vectori (pentru descriptori cantitativi);-siruri (pentru descriptori structurali);-arbori (pentru descriptori structurali).

Reprezentare ca vector:

nx

x

x

....2

1

x

xi = descriptorul i.

Varianta: x = ( x1, x2,... , xn )T.

Exemplu: clasificarea a trei tipuri de flori de iris (Fisher, 1936) in functie de lungimile si latimile petalelor.

Concluzie: separabilitatea claselor este puternic influentata de alegerea descriptorilor (problema selectiei caracteristicilor).

Exemplu: clasificarea unor forme cu zgomote (reprezentare prin semnatura => semnal 1-D), esantionare la valori specificate θ => vectorii de forma cu x1 = r(θ1), x2 = r(θ2), ... , xn = r(θn) => puncte in spatiul Euclidian n-

dimensional (clasele ~ grupari de puncte "nori" in acest spatiu).

Varianta: amplitudinile inlocuite cu primele n momente statistice pentru fiecare semnatura.

In anumite aplicatii: caracteristicile formelor sunt cel mai bine descrise prin relatii structurale. Exemplu: recunoasterea de amprente (proprietatile proeminentelor: terminare abrupta, unificare, segmente deconectate).

=> descriptori siruri (exemplu: descrierea formei in trepte prin ...ababababab...);

=> descriptori arbore (majoritatea schemelor de ordonare ierarhice).

Exemplu: imagine din satelit (centrul orasului cu constructii aglomerate si zona rezidentiala inconjuratoare) => descriere arbore:

RECUNOASTERE BAZATA PE METODE TEORETICE DE DECIZIE

-utilizeaza functii de decizie (discriminante).Fie:

x = ( x1, x2,... , xn )T vector de forma;

W clase de forme: ω1 , ω2 , ... , ωW ;

=> este necesar sa se gaseasca W functii de decizie d1(x),

d2(x), ... , dW(x), cu proprietatea ca daca o forma x apartine clasei ωi , atunci

di(x) > dj(x) j = 1, 2, ... , W; j ≠ i.

Granita de decizie separand clasele ωi si ωj este data de valorile lui x

pentru care:di(x) - dj(x) = 0

Pentru doua clase: o singura functie dij(x) = di(x) - dj(x) = 0:

dij(x) >0 => x Є ωi

dij(x) <0 => x Є ωj.

Potrivire ("matching")

fiecare clasa ~ vector de forma prototip=> forma necunoscuta asignata clasei celei mai apropiate (pe baza

unei metrici predefinite).

Clasificator de distanta minima

prototipul fiecarei clase = vectorul medie a formelor clasei respective:

WjN

jxj

jj ,...,2,1

1

xm

distanta Euclidiana ~ apropierea fata de o clasa => calcularea distantelor:

Dj(x) = ║x - mj║ j = 1, 2, .. , W

(unde ║a║ =(aTa)1/2 este noma euclidiana) => x Є ωi daca Di(x) minim.

Selectarea distantei minime ~ evaluarea functiilor:

dj(x) = xT mj – ½ mjT mj j = 1, 2, ... , W

x Є ωi daca di(x) maxim (~ functie de decizie).

Granita de decizie intre clasele ωi si ωj :

dij(x) = di(x) - dj(x) = xT (mi - mj ) – ½ (mi - mj ) T (mi - mj )

= 0

(bisectoarea perpendiculara a segmentului unind mi si mj).

Ex: n = 2 bisectoarea ~linie, n = 3 bisectoarea ~ plan, n > 3 bisectoarea ~ hiperplan.

Aplicatie. doua clase de forme ω1 si ω2 , cu vectorii medie m1 = (4.3,

1.3)T si m2 = (1.5, 0.3)T. Functiile de decizie:

d1(x) = xT m1 – ½ m1T m1 = 4.3 x1 + 1.3 x2 – 10.1

d2(x) = xT m2 – ½ m2T m2 = 1.5 x1 + 0.3 x2 – 1.17

ecuatia granitei:d12(x) = d1(x) – d2(x) = 2.8 x1 + 1.0 x2 – 8.9 = 0

x Є ω1 => d12(x) > 0, x Є ω2 => d12(x) < 0

Aplicatie. Sistem de citire a caracterelor stilizate American Banker's Association E-13B (14 caractere, grid 9x7, cerneala magnetica).

Caracterele scanate pe orizontala => semnal electric 1-D ~rata de crestere sau descrestere a ariei caracterului de sub capul de citire.

Clasificator de distanta minima: se memoreaza valorile pentru fiecare forma de unda, fiecare set de esantioane reprezentand un vector prototip mj , j = 1, 2, ... , 14. Caracter necunoscut: scanat vector x => x Є ωj pentru:

dj(x) = xT mj – ½ mj

T mj j = 1, 2, ... , 14maxim.

Potrivire prin corelatie

-potrivirea unei subimagini w(x, y) de dimensiune JxK in cadrul unei imagini f(x, y) de dimensiune MxN.

Corelatia dintre f(x, y) si w(x, y) este data de:

s t

tysxwtsfyxc ),(),(),(

pentru x = 0, 1, 2, ... , M-1 si y = 0, 1, 2, ... , N-1 (insumarea facuta peste regiunea de imagine unde w si f se suprapun).

Exemplu: originea lui f in coltul stanga-sus si originea lui w in centru.

c maxim => pozitia unde w se potriveste cel mai bine cu f.

Aplicatie. (a) imaginea f(x, y); (b) w(x, y); (c) coeficientul de corelatie afisat ca o imagine => valoarea maxima (cea mai luminoasa) ~ cea mai buna potrivire.

a) b) c)

W

kkkjj pLr

1

)/()( xx

W

kkkkjj PpL

pr

1

)()/()(

1)( x

xx

Clasificatori statistici optimi

Fundamentare

-probabilitatea ca o forma x Є ωi = p(ωi /x);

- pierdere Lij = decizia gresita x Є ωj , de fapt x Є ωi

-x poate sa apartina oricareia din cele W clase => pierderea medie prin asignarea lui x la clasa ωj (risc mediu conditional):

Teoria probailitatilor: p(A/B) = [p(A)p(B/A)]/p(B) =>

p(x /ωk) =functia de densitate de probabilitate a formelor din clasa ωk ;

P(ωk) = probabilitatea de aparitie a clasei ωk .

W

kkkkjj PpLr

1

)()/()( xx

W

qqqqj

W

kkkki PpLPpL

11

)()/()()/( xx

)()/()()()/()1()(1

jj

W

kkkkjj PppPpr xxxx

1/p(x) pozitiv si comun tuturor rj(x), j = 1, 2,... , W se neglijeaza.

calculeaza r1(x), r2(x), ..., rW(x) => x Є ωi cu ri(x) minim => pierderea medie

totala minima.

Clasificatorul care minimizeaza pierderea medie totala = clasificator Bayes.x asignat la clasa ωi , daca ri(x) < rj(x), pentru j = 1, 2,... , W, j ≠ i, adica:

pentru toti j , j ≠ i. Pierderea pentru o decizie corecta este zero, iar pentru o decizie incorecta se atribuie o aceeasi valoare > 0 (ex. 1), functia de pierdere devine:

Lij = 1 – δij

unde δij = 1 pentru i = j si δij= 0 pentru i ≠ j =>

)()/()()()/()( jjii PppPpp xxxx

)()/()()/( jjii PpPp xx

WjPpd jjj ,...,2,1)()/()( xx

x asignat la clasa ωj daca pentru toate j≠i :

sau echivalent

Observatie: clasificatorul Bayes pentru o functie de pierdere 0-1 este chiar calculul functiilor de decizie de forma:

x Є ωj cu dj(x) maxim.

Cea mai utilizata forma pentru p(x/ωj) = functia de densitate de

probabilitate Gaussiana.

Clasificator Bayes pentru clase de forme Gaussiene

Problema 1-D (n = 1), cu doua clase (W = 2), densitati Gaussiene, mediile m1 si m2, deviatiile standard σ1 si σ2.

Functiile de decizie Bayes:

2,1)(2

1)()/()(

2

2

2

)(

jPePxpxd j

mx

j

jjjj

j

(formele sunt scalari, notati cu x).

Functiile de densitate de probabilitate a celor doua clase:

Granita = un singur punct x0, pentru care d1(x0) = d2(x0) .

Daca P(ω1) = P(ω2) = ½ (cele doua clase au probabilitati egale de

aparitie) => granita de decizie x0 pentru care p(x0 /ω1) = p(x0 /ω2) =>

intersectia celor doua functii de probabilitate.x> x0 => x Є ω1

x< x0 => x Є ω2

In cazul n-dimensional, densitatea Gaussiana a vectorilor in clasa j de forme:

)()(2

1

2/12/

1

||)2(

1)/(

jjT

j

epj

nj

mxCmx

Cx

fiecare densitate complet specificata prin vectorul medie

mj = Ej {x}

si matricea de covarianta

Cj = Ej {(x – mj)(x – mj)T}

undeEj ~ valoarea asteptata a argumentului peste formele din clasa j;

| Cj | = determinantul matricii Cj .

jj

j N x

xm1

j

Tjj

T

jj N x

mmxxC1

valorile asteptate ≈ valorile medii:

(Nj = numarul de forme din clasa j).

Matricea de covarianta: simetrica.-ckk = varianta elementului k din vectorii de forme;

-cjk = covarianta lui xj si xk (0 pentru xj si xk necorelati).

)()/()( jjj Ppd xx

)(ln)/(ln)]()/(ln[)( jjjjj PpPpd xxx

)]()[(2

1||ln

2

12ln

2)(ln)( 1

jjT

jjjj

nPd mxCmxCx

)]()[(2

1||ln

2

1)(ln)( 1

jjT

jjjj Pd mxCmxCx

Functia de decizie Bayes pentru clasa ωj :

Forma exponentiala a densitatii Gaussiene => mai convenabil sa se lucreze cu logaritmul natural al functiei de decizie:

(n/2)ln2π acelasi pentru toate clasele => se poate elimina:

pentru j = 1, 2,... , W (functiile de decizie Bayes pentru clase de forme Gaussiene sub conditia unei functii de pierdere 0-1).

jTjj

Tjj Pd mCmmCxx 11

2

1)(ln)(

jTjj

Tjd mmmxx

2

1)(

Daca toate matricile de covarianta sunt egale, Cj = C , pentru j = 1, 2,... , W :

functii de decizie liniare (hiperplanuri) pentru j = 1, 2,... , W.

In plus, daca C = I (matricea identitate) iar P(ωj) = 1/W pentru j = 1, 2,... , W :

functii de decizie pentru clasificatorul de distanta minima.

Concluzii.1) clasificatorul de distanta minima este optim in sensul Bayes daca:

-clasele de forme sunt Gaussiene;-toate matricile de covarianta sunt egale cu matricea identitate;-toate clasele au probabilitati egale de aparitie.

2) clasele ~ hipersfere in spatiul n-dimensional, clasificatorul de distanta minima stabilind cate un hiperplan intre oricare doua clase (mediatoare pe segmentul unind centrele perechii de hipersfere). 3) In doua dimensiuni clasele sunt cercuri, iar granita intre doua clase este o dreapta.

Aplicatie. Doua clase de forme 3-D, distributie Gaussiana.

jj

j N x

xm1

3

3

1

4

1

1

1

3

4

121 mm

j

Tjj

T

jj N x

mmxxC1

311

131

113

16

121 CC

Se aplica ecuatiile:

jTjj

Tjj Pd mCmmCxx 11

2

1)(ln)(

844

484

4481C

Matricile de covarianta egale, presupunand P(ω1) = P(ω2) = 1/2 =>

in care

=> functiile de decizied1(x) = 4x1 – 1.5

d2(x) = -4x1 + 8x2 + 8x3 – 5.5

Suprafata de separare intre cele doua clase:

d1(x) - d2(x) = 8x1 - 8x2 - 8x3 + 4 = 0

Aplicatii: in domeniul imaginilor luate din avion, satelit, statii spatiale cu scannere multispectrale (utilizarea pamanturilor, evidenta recoltelor, detectarea bolilor culturilor, evidenta padurilor, apelor, monitorizarea calitatii apelor, etc) => volum foarte mare de date => pelucrare automata.

Exemplu. Scanner multispectral, cu lungimi de unda in benzile 0.40-0.44, 0.58-0.62, 0.66-0.72, 0.80-1.00 μm (benzile violet, verde, rosu si infrarosu). O regiune patru imagini digitale (punct de pe sol ~ vector de forma x = (x1, x2, x3, x4)

T, valorile de culori):

Clasificatorul Bayes pentru forme Gaussiene: estimarea vectorului medie si matricii de covarianta pentru fiecare clasa prin preluarea de date multispectrale pentru fiecare regiune de interes si utilizand aceste esantioane asemanator cu exemplul precedent.

In continuare imagini achizitionate prelucrate cu acest clasificator => identifica zone de padure, lacuri, parcele agricole, etc.

Retele neurale

-clasificatorul de distanta minima complet specificat prin vectorul medie din fiecare clasa;

-clasificatorul Bayes pentru populatii Gaussiene complet specificat de vectorul medie si matricea de covarianta din fiecare clasa;

-formele utilizate pentru estimarea acestor parametri = forme de antrenare;

-set de astfel de forme din fiecare clasa =set de antrenare;-procesul in care un set de antrenare este utilizat pentru obtinerea

functiilor de decizie = invatare ("learning") sau antrenare ("training").

Retea neurala = multitudine de elemente de calcul neliniare interconectate (neuroni).

Retelele utilizate pentru dezvoltarea adaptiva a coeficientilor functiilor de decizie prin prezentarea succesiva a seturilor de forme de antrenare.

Perceptron pentru doua clase de forme

Perceptronul cel mai simplu: invata o functie de decizie liniara care desparte doua seturi de antrenare. Schema (2 clase de forme):

n

inii wxwd

11)(x

0...

0)(

12211

11

nnn

n

inii

wxwxwxw

wxwd x

Raspunsul = suma ponderata a intrarilor:

~ functie liniara de decizie in raport cu vectorii de forme (wi , i = 1, 2, ... ,n, n+1

ponderi):-d(x) > 0 => elementul de prag comuta la iesire pe +1 (~ x Є ω1);

- d(x) < 0 => elementul de prag comuta la iesire pe -1 (~ x Є ω2);

- d(x) = 0 => x Є suprafata de separatie ω1 si ω2.

(o singura functie de decizie pentru doua clase).Granita de decizie:

hiperplan in spatiul n-dimensional de forme:-w1 wn : orientarea hiperplanului;

-wn+1 : departarea fata de origine;

-wn+1 = 0 hiperplanul trece prin origine;

-wj = 0 hiperplanul paralel cu axa xj.

Varianta de implementare: suma primilor n termeni si comparatie cu wn+1 , iesirea sistemului:

n

inii

n

inii

wxwdaca

wxwdacaO

11

11

1

1

Rezulta implementarea (nu apare intrarea pentru wn+1):

Alta formulare:-vectorul de forme marit cu o componenta egala cu 1, y = (y1, y2, ... ,

yn,1)T ;

-vectorul de ponderi w = (w1, w2, ... , wn, wn+1,)

=> functia de decizie:

1

1

)(n

i

Tii ywd ywy

Indiferent de formulare, problema: gasirea lui w utilizand un set dat de antrenare de vectori de forma din fiecare din cele doua clase.

Algoritmi de antrenare

1) doua seturi de antrenare pentru doua clase separabile liniar si se doreste obtinerea vectorului de ponderi.

Initial: vector de ponderi arbitrar w(1).La pasul k:

-daca y(k)Єω1 si wT(k)y(k)≤0 inlocuieste w(k) cu:

w(k+1) = w(k) + cy(k)c fiind un incremet pozitiv de corectie (deocamdata fix);

-daca y(k)Єω2 si wT(k)y(k)≥0 inlocuieste w(k) cu:

w(k+1) = w(k) - cy(k)altfel w(k) ramane nemodificat.

Algoritmul se mai numeste regula de corectie cu increment fix.Convergenta algoritmului: cand intregul set de antrenare din ambele

clase este trecut fara erori.Convergenta: numar finit de pasi daca cele doua seturi de antrenare

sunt separabile liniar ("teorema de antrenare perceptron").

Exemplu: doua seturi de antrenare, fiecare cu doua forme. Algoritmul este convergent, caci seturile sunt liniar separabile.

Vectorii de forme mariti: {(0,0,1)T, (0,1,1)T} Єω1 si {(1,0,1)T, (1,1,1)T} Єω2. Fie c

= 1, w(1) = 0, pasii algoritmului:

Corectii au fost facute la pasii 1 si 3.Algoritmul reluat, etc => convergenta k = 14, w(14) = (-2,0,1)T =>

functia de decizie corespunzatoare d(y) = -2 y1 + 1.

Revenind la spatiul de forme original, xi = yi si d(x) = -2 x1 + 1 (dreapta

verticala din desen).

)(

)()()1(

k

Jkk

www

www

yyww

w)(

)( TrJ

2) Clase neseparabile. In practica in majoritatea cazurilor clasele sunt neseparabile. Una dintre primele tehnici: regula delta, sau Widrow-Hoff sau regula delta LMS ("least-mean-square") pentru antrenarea perceptronilor: minimizeaza eroarea intre raspunsul actual si raspunsul dorit la fiecare pas de antrenare.

Functie criteriu:J(w) = ½ (r - wT y)2

r este raspunsul dorit:-r = +1 daca y Є ω1 ;

-r = -1 daca y Є ω2.

Taskul: ajustarea incrementala a lui w in directia gradientului negativ al lui J(w) pentru a cauta minimul acestei functii, care are loc cand r = wT y (clasificare corecta).

w(k) = vectorul de ponderi la pasul iterativ k => algoritm de coborare a gradientului:

(α>0 magnitudinea corectiei). Din ecuatia pentru J(w):

inlocuid in ecuatia precedenta:

w(k+1) = w(k) + α[r(k) - wT(k)y(k)]y(k)

cu w(1) ales arbitrar.Modificarea vectorului de ponderi (def):

Δw = w(k+1) - w(k)

algoritmul de corectie delta:

Δw= αe(k)y(k)unde

e(k) = r(k) - wT(k)y(k)

(eroarea produsa cu vectorul de ponderi w(k) cand este furnizata forma y(k)).

Schimband w(k) cu w(k+1):

e(k) = r(k) - wT(k+1)y(k)

Modificarea erorii:Δe(k) =[ r(k) - wT(k+1)y(k)] – [ r(k) - wT(k)y(k)]=

= - [wT(k+1) - wT(k)]y(k) = -ΔwTy(k)

dar Δw = αe(k)y(k) , deci:

Δe = -αe(k)yT (k) y(k) = -αe(k)║ y(k)║ 2

modificand ponderile eroarea se reduce cu un factor ║ y(k)║ 2.Pentru stabilitate: 0 < α < 2, practic 0.1 < α < 1.0.

Astfel, algoritmul reprezentat de ecuatia:w(k+1) = w(k) + α[r(k) - wT(k)y(k)]y(k)

converge la o solutie care minimizeaza eroarea patratica medie peste formele unui set de antrenare.

Cei doi algoritmi: pot fi extinsi pentru mai multe clase si pentru functii de decizie neliniare.

Retele neurale multistrat cu alimentare inainte ("multilayer feedforward neural networks")

Arhitectura de baza: niveluri de noduri de calcul identice structural (neuroni), a.i. iesirea fiecarui neuron de pe un strat (nivel) alimenteaza intrarea fiecarui neuron de pe stratul urmator.

-numar de neuroni primul strat NA = n dimensiunea vectorilor de forme;

-stratul de iesire (Q) numar de neuroni NQ = W numarul de clase de

forme;-reteaua recunoaste x Є ωi daca iesirea i a retelei este activa ("high") si

toate celelalte iesiri sunt inactive ("low").

ojjIjje

Ih /)(1

1)(

-functie de activare "sigmoida" limitatoare software (functie sigmoida = functie matematica cu grafic de forma S, exemplu: functia logistica P(t) = 1/(1+e-t)):

(Ij , j = 1, 2, ... , NJ intrarea in elementul de activare al fiecarui nod in stratul J al

retelei, θj offset si θo controleaza forma functiei sigmoide).

-Ij > θj => iesire "high“ (≈0.95);

-Ij < θj => iesire "low“(≈0.05).

Doua straturi succesive K si J (in aceasta ordine): intrarea in elementul de activare din fiecare nod j de pe stratul J:

KN

kkjkj OwI

1pentru j = 1, 2, ... , NJ , (NJ numarul de noduri de pe stratul J) unde wjk este

ponderea modificand iesirea Ok a nodului k de pe stratul K inainte de a fi

furnizata nodului j de pe stratul J. Iesirile de pe stratul K:

Ok = hk (Ik)

pentru k = 1, 2, ... , NK.

=> sunt necesari NJ x NK coeficienti + NJ coeficienti θj pentru a

specifica complet nodurile de pe stratul J.

Substituind ecuatia lui Ij in ecuatia lui hj (Ij):

oj

kN

kkjkOw

jj

e

Ih /)(

11

1)(

(functia de activare)

In timpul antrenarii:-adaptarea neuronilor in stratul de iesire: simplu! (se cunoaste iesirea

dorita a fiecarui nod);- mai complicat: ajustarea ponderilor in straturile ascunse (adica toate

celelalte straturi decat stratul de iesire).

QN

qqqQ OrE

1

2)(2

1

qp

Qqp w

Ew

Antrenare prin propagare inapoi.

Initial: stratul de iesire. Eroarea patratica totala intre raspunsurile dorite rq si

raspunsurile actuale corespunzatoare Oq ale nodurilor in stratul (de iesire) Q:

(NQ = numarul de noduri in stratul de ieisire Q, ½ prin conventie in notatie

pentru derivare ulterioara).

Obiectivul: dezvoltarea unei reguli de antrenare (asemanatoare cu regula delta) care permite ajustarea ponderilor in fiecare dintre straturi cautand un minim al functiei de eroare EQ => derivarea partiala a erorii in raport cu

ponderile:

stratul P precede stratul Q, Δwqp conform definitiei:

Δw= αe(k)y(k)si α increment pozitiv de corectie.

EQ = f(Oq) = f(f(Iq)) =>

qp

q

q

Q

qp

Q

w

I

I

E

w

E

. . . . . . .In final se obtine:

pqpqqqqqp OOIhOrw )(')(

Dupa specificarea functiei hq(Iq) se cunosc toate variabilele din aceasta ecuatie

(sau pot fi observate).

La prezentarea oricarei forme de antrenare la intrarea retelei:-se cunoaste care ar trebui sa fie raspunsul dorit rq al fiecarui nod de

iesire;-se poate observa valoarea Oq a fiecarui nod de iesire;

-se poate observa Iq, intrarea in elementele de activare de pe stratul Q;

-se poate observa Op iesirea nodurilor din stratul P

=> ajustarea ponderilor care modifica legaturile intre ultimul si penultimul strat in retea.

jpjpppppj OOIhOrw )(')(

)(')( ppppp IhOr

p

p

p

P

p

Pp I

O

O

E

I

E

Continuand prelucrarile inapoi de la stratul de iesire sa va analiza ce se intampla la stratul P. Analog:

unde termenul de eroare:

Exceptand rp toate variabilele sunt cunoscute sau pot fi observate in retea.

rp fara sens intr-un strat intern (nu se cunoaste raspunsul unui nod intern in

termenii apartenentei formei la o clasa, doar pentru stratul de iesire se poate specifica clasa la care apartine) => se reformuleaza δp prin cantitati care sunt

cunoscute sau pot fi observate:

. . . . . . .Rezulta:

qp

N

qqppp wIh

Q

1

)('

se poate calcula! (se cunosc toti parametrii) => se poate calcula δp din δq si wqp

care s-au calculat in stratul imediat urmator stratului P => o cale de propagare inapoi a erorii in retea incepand de la stratul de iesire.

kjjk Ow

)(')( jjjjj IhOr

jp

N

ppjjj wIh

P

1

)('

)1()(' jjjj OOIh

)1()( jjjjj OOOr

jp

N

ppjjj wOO

P

1

)1(

Concluzie. Se poate generaliza procedura de antrenare astfel: pentru oricare straturi K si J (K precede imediat pe J) se calculeaza ponderile wjk care

modifica conexiunile intre aceste doua straturi utilizand:

Daca stratul J este stratul de iesire:

iar daca este un strat intern:

pentru j = 1, 2, ... , Nj. Utilizand functia de activare sigmoida cu θo = 1:

rezulta cele doua expresii pentru δj (strat de iesire / intermediar):

pentru j = 1, 2, ... , Nj.

Aceste ecuatii = regula delta generalizata pentru antrenarea retelei neurale multistrat cu alimentare inainte.

Initial: set de ponderi arbitrare, dar nu egale.Aplicarea regulii delta generalizate la fiecare pas - doua faze:

1) se prezinta la intrarea retelei un vector de antrenare propagat peste straturi calculand iesirea Oj pentru fiecare nod. Iesirile Oq (stratul de

iesire) comparate cu rp (raspunsurile dorite) => termenii de eroare δq.

2) se face o trecere inapoi prin retea: semnalul de eroare trecut la fiecare nod se modifica ponderea corespunzatoare. Aceasta procedura se aplica de asemenea ponderilor θj.

Intr-o sesiune de antrenare cu succes: eroarea retelei scade cu numarul de iteratii => convergenta catre un set stabil de ponderi.

In operare normala: toate caile inapoi deconectate.

Fiecare forma de intrare:-propagata prin retea;-clasificata (clasa cu nodul de iesire "high", toate celelalte

noduri fiind "low“);-daca niciuna din ieisiri nu este "high" / mai multe iesiri

sunt"high" => forma nu poate fi clasificata / asignata clasei cu valoarea numerica cea mai mare.

Aplicatie: reteaua neurala multistrat generala antrenata sa recunoasca patru forme, inclusiv formele cu zgomot.

Vectorii de forme = calcularea semnaturilor normalizate ale formelor (=> 48 esantioane egal distantate ale fiecarei semnaturi). Reteaua neurala cu trei niveluri "feedforward“:

Numar noduri de pe primul nivel = dimensiunea vectorilor de forme (48).Numar noduri nivelul de iesire = numarul de clase (4).Numar noduri nivelul mijlociu = media (48+4)/2 (alegere erisitca).

Functiile de activare:

oj

kN

kkjkOw

jj

e

Ih /)(

11

1)(

cu θo = 1.

Procesul de antrenare divizat in doua parti:1) Ponderile initializate la valori mici aleatoare cu media zero

reteaua antrenata cu vectorii de forme fara zgomot => reteaua a invatat formele din cele patru clase cand pentru oricare forma de antrenare din clasa ωi elementele stratului de iesire au furnizat Oi ≥ 0.95 ("high") si Oq ≤ 0.05 ("low")

pentru q = 1, 2, ..., NQ ; q ≠ i.

2) S-au utilizat formele cu zgomot, generate astfel: fiecarui pixel de pe conturul formei fara zgomot i s-a asignat o probabilitate V de a-si pastra coordonatele sale originale si probabilitatea R = 1-V de a fi asignat aleator unuia din cei opt vecini ai sai (marind R creste zgomotul in forme). S-au generat doua seturi de forme cu zgomot: primul set (set de test) cu 100 de forme cu zgomot pentru fiecare clasa R variind intre 0.1 – 0.6 (in total 400 de forme) si un al doilea set de forme cu zgomot pentru antrenare.

Experimentul doua faze:I. Au fost generate mai multe seturi cu zgomot pentru antrenarea retelei

cu date cu zgomot:-un set de 10 forme cu Rt = 0 (t = "training"), deci fara zgomot s-a

antrenat reteaua (modificand poderile) si apoi s-a trecut pentru clasificare setul de forme de test => reprezentand grafic performantele obtinute (probabilitatea de clasificare gresita in functie de nivelul de zgomot din formele de test, probabilitatea calculandu-se prin raportul clasificari gresite/numar total de forme);

-dupa antrenarea cu setul avand Rt = 0 s-a facut o noua antrenare cu

un set avand Rt = 0.1, modificand valorile ponderilor. S-a facut o noua

clasificare a vectorilor din setul de test => vizibila imbunatatire a performantelor.

-etc.

Exceptie: performante mai bune pentru Rt = 0.4 decat pentru Rt = 0.3 .

Explicatie: numar mic de esantioane folosite pentru antrenare.

II. S-a reluat experimentul folosind pentru antrenare seturi cu numar diferit de esantioane si s-a reprezentat grafic (referinta din graficul precedent performanta pentru Rt = 0.3 si 10 esantioane).

Documents

Spi 6a Recunoastere Metode Decizie