24
Inteligencja Inteligencja Obliczeniowa Obliczeniowa Learnmatrix, Learnmatrix, Ad Ad a a line, M line, M a a d d a a line i modele line i modele liniowe liniowe Wykład 7 Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: W. Duch

Learnmatrix, Adaline, Madaline i modele liniowe

  • Upload
    phamanh

  • View
    239

  • Download
    0

Embed Size (px)

Citation preview

Inteligencja ObliczeniowaInteligencja ObliczeniowaLearnmatrix, Learnmatrix, AdAdaaline, Mline, Maaddaaline i modele linioweline i modele liniowe

Wykład 7

Włodzisław DuchKatedra Informatyki Stosowanej UMK

Google: W. Duch

Co byłoCo było

• SOM - samoorganizacja.

• Uczenie konkurencyjne

Co będzieCo będzie

• Sieć Hamminga – prototypy.

• Learnmatrix.

• Adaline.

• Madaline.

Sieć prototypów (Hamminga)Sieć prototypów (Hamminga)

• Zadanie: dla wektora X znaleźć najbardziej podobny prototyp Xp i odpowiadający mu wektor Yp

• Zapamiętaj prototypy (Xp, Yp),

• Niech Xp =(bp1, bp2, ... bpn), bpi= ±1, wektory Yp dowolne.

• Warstwa ukryta sieci Hamminga działa w trybie WTA (Winner Takes All) – tylko najaktywniejszy węzeł c pozostaje aktywny i przesyła prototyp Yc do wyjścia.

• Decyzje podejmowane są na podstawie aktywności

d(X,Xp) = -i Xpi Xi [n,+n]

• Sieć Hamminga = metoda najbliższego sąsiada 1-NN, wybiera prototyp, który ma najwięcej zgodnych bitów, czyli min ||X-Xp||.

Sieć prototypów (Hamminga)Sieć prototypów (Hamminga)

• 4 prototypy, 2-wym. wektory Y

{X}

n bitów

b1

b2

bn

....

prototypyX1

max, WTA

Y1

Y2

X2

X3X4

X21

X11

X1nX12

X4n

Y11Y12

Niewiele realizacji sieciowych, łatwiej jest wyszukać najbliższego sąsiada lub największy iloczyn skalarny. Metody oparte na podobieństwie to szeroka dziedzina.

Sieć Hamminga - przykładySieć Hamminga - przykłady

• http://home.agh.edu.pl/~vlsi/AI/hamming_en/• http://www.hackchina.com/en/cont/118912 • http://neuron.eng.wayne.edu/Hamming/voting.html

Macierz ucząca się Macierz ucząca się

• Lernmatrix, Steinbuch (1961)

pamięć asocjacyjna oparta na prototypach. model analogowy, potencjometry Wij [].

Wejścia: kolumny ei [-1,+1], dane wejściowe; en+1 = 1 (stała wartość).

Wiersze bi ={0,1}, po jednym da każdej z m klas.

Realizacja funkcji liniowej:

1( )i ij j inj

Z e W e W

Macierz ucząca – schematMacierz ucząca – schemat

e1 e2 e3 e4 e5 e6

b1

b2

b3

b4

b5

Macierz ucząca się - teoriaMacierz ucząca się - teoria

• Określenie granic dla klasy: wybrać max. Zi (e)

• Oparte na odległości od najbliższego prototypu. • Granice klas: hiperpowierzchnie klasyfikujące dla

Zi(e)=Zk(e) dla wszystkich i > k.

• Wagi Wi dla klasy i określone są przez prototyp Wi = e* (np. średnia dla klasy)Win+1= -½ ||e*||2.

Macierz ucząca się - teoriaMacierz ucząca się - teoria

• Dwa prototypy, W1=e1*

oraz W2=e2*

na granicy pomiędzy klasami Z1(e)=Z2(e)

2 21 1 2 2

1 12 2

W e W W e W

2 22 21 1 2 22 | | 2 | |W W e e W W e e

2 21 2W e W e

• Granica jest więc prostą jednakowo oddaloną od obu prototypów.

Macierz ucząca się - klasyfikacjaMacierz ucząca się - klasyfikacja

• Granice decyzji dla 4 prototypów.

Macierz ucząca się - uczenieMacierz ucząca się - uczenie

• Jak znaleźć dobre prototypy? • Uśrednianie po wektorach treningowych:

zmiana wag dla prototypów: stara + krok w stronę nowej, np. po N krokach dla wzorca e(N+1) z klasy i zmieniamy wagi

• Można oczywiście użyć innych czynników stabilizujących uczenie.

• Macierze uczące działały współbieżnie już w latach 60.

Macierz ucząca się – uczenie 2Macierz ucząca się – uczenie 2

• Dipol macierzy uczących się - realizuje dowolne funkcje, binarna nieliniowość.

• Pierwsza macierz klasyfikuje, druga dostaje ...0001000... – wtedy jeden wiersz poddawany jest adaptacji i można dokonać aproksymacji funkcji kawałkami liniowej.

Składanie funkcji z lokalnych kawałkami liniowych funkcji, czyli realizacja sprzętowa aproksymacji za pomocą funkcji sklejanych.

Aproksymacja elementami liniowymi Aproksymacja elementami liniowymi Neurony realizują funkcje liniowe.

Sieć bez warstwy ukrytej potrafi zrealizować te same funkcje co sieć z liniowymi elementami w warstwach pośrednich!

Jeśli mamy k warstw linowych to sygnał na wyjściu:

X(k) = Wk X(k-1) = Wk Wk-1 X(k2) =

... Wk Wk-1. W1 X(0) = W’ X(0);

Wniosek: nieliniowości są niezbędne.

Adaline• Widrow, Hoff (1960) układy analogowe, memistory.

• Adaline (Adaptive Linear Element, lub Adaptive Linear Neuron) – realizuje funkcję f(X)=sgn(XT W), prosta nieliniowość!

• Uczenie: na podstawie próbek (Xi,Yi) znajdź najlepsze parametry W by zminimalizować błąd średniokwadratowy.

• Dla elementu liniowego równanie XTW = Y.Rozwiązanie: macierz pseudoodwrotna, rozkład na wartości osobliwe (SDV, Singular Value Decomposition)

• Organizmy tak się nie uczą! Potrzebujemy rozwiązań on-line. Zasada najmniejszego zakłócania: poprawiaj małymi krokami po prezentacji każdej pary skojarzeń.

2min ( ; )W

X

f X W Y

Adaline - schemat.

+1

x1

x2

xn

W0

W1

W2

Wn

I

-I

Y

Memistory

Sumator

Sygnały błędu

Adaline w 2011 roku.

AdAdaaline - geometrialine - geometria

Jakich odwzorowań Adaline może się nauczyć? Dla 2 wejść:

1 1 2 2 0 0X W X W W

o

o

x

x

xx

x

oo

o

o oo o

x x

x

ox

x

Sytuacja liniowo separowalna Sytuacja nieseparowalna

Z 16 odwzorowań logicznych 2 nie da się nauczyć tylko: f1 (1,1) = f1 (–1,–1)= 1; f1 (1,–1) = f1 (–1,1) = –

1 f2 (1,1) = f2 (–1,–1)=–1; f2 (1,–1) = f2 (–1,1) =

1

AdAdaaline – liniowa separowalność.line – liniowa separowalność.

Jeśli Xi = ± 1, możliwych wektorów n-elementowych jest K=2n; a możliwych odwzorowań binarnych jest 2K .

Dla

n=2, K=4, 2K=16

Można je przedstawić symbolicznie pokazując wartości +/- lub cz/białe, dla każdej pary X=(±1,±1)

Pierwsze f(x1,x2)=1,

ostatnie: f(x1,x2)=1

AdAdaaline – uczenieline – uczenie

Dla dużego n prawie żadne odwzorowania nie są liniowo separowalne! Ile par skojarzeń (X,Y) może zapamiętać Adaline? n, bo dla n ortogonalnych wektorów Xi= (0...010...0) przyjmiemy Wi =Yi.

• Uczenie elementu liniowego: błąd dla prezentacji k-tej pary (Xk, Yk)T

k k k k kY I Y W X

'2; 'T T k

k k k k kk

XW X Y W X W W WX

2k

kk

XWX

Parametr uczenia <1 pozwala uniknąć popsucia skojarzeń dla poprzednich par.

Najprostsza reguła: zmniejszaj błąd

Uczenie elementu liniowegoUczenie elementu liniowegoChcemy uzyskać Y = W X dla par treningowych (X,Y).Dane napływają w sposób ciągły.

Reguła uczenia typu delta wynika z minimalizacji metodą najmniejszych kwadratów (LMS, Least Mean Square):

2

2

, ;~

, ;

T

ii

T

Y I Y X W

X Y WW

W

W X Y W X Y X W X

X

Madaline

Madaline: sieci z wielu elementów Adaline. Realizacja za pomocą memistorów - w elektrolicie były elektrody z substancjami, które zależnie od kierunku prądu przenosiły się z jenej elektrody na drugą zmieniając przewodność. Teraz zastąpiony przez memrystor, prądowo sterowany opornik: http://pl.wikipedia.org/wiki/Memrystor

3 warstwy: –wejście, przyjmuje dane;–adaptujące się elementy (warstwa ukryta);–wyjście - elementy logiczne, funkcja „większość”.

Wiele hiperpłaszczyzn, rozwiązywały dowolne zagadnienie.Algorytm uczenia dla sieci wielowarstwowych nie był znany.

Co dalej? Co dalej?

• Dynamiczne pamięci skojarzeniowe

• Sieci Hopfielda

• Sieci Hebbowskie i modele mózgu

• Samoorganizacja

• Perceptrony wielowarstwowe

Koniec wykładu 7Koniec wykładu 7

Dobranoc