27
Metody Deep Learning Wykład 1 http://arxiv.org/pdf/1502.01852.pdf

Metody Deep Learning - Wykład 1

Embed Size (px)

Citation preview

Metody Deep LearningWykład 1

http://arxiv.org/pdf/1502.01852.pdf

Cele kursu

● Co to jest Deep Learning?● Do czego można tego użyć?● Jak tego użyć?

Materiały

Materiały

Materiały

Co to jest Deep Learning?

wikipedia:A set of algorithms that attempt to model high-level abstractions in data by using model architectures composed of multiple non-linear transformations.

Kontekst historyczny

Hype Cycle

Plan kursu

Przebieg kursu

● cotygodniowe wykłady● 2-3 homeworki● praktyki wakacyjne dla conajmniej jednego

uczestnika

Narzędzia

● python○ numpy○ pylearn2○ theano, keras○ pycaffe (interfejs do caffe)

● java○ deeplearning4j, nd4j

● c++○ caffe

● lua○ torch7

Zaczynamy

Sieci feed-forward

Artificial neuron

● jednostka obliczająca matematyczną funkcję na wektorze wejściowym

● podstawowy element do budowy głębokich sieci neuronowych

● inspiracja biologiczna

Artificial neuron c.d

● Neuron pre-activation

● Neuron activation

● - wagi● - bias● - funkcja aktywacji (activation function)

Funkcje aktywacji

● linear activation function

Funkcje aktywacji c.d

● sigmoid activation function○ wartości pomiędzy [0, 1]○ rosnąca

Funkcje aktywacji c.d

● hyperbolic tangent (“tanh”) activation function○ wartości pomiędzy [-1,1]

Funkcje aktywacji c.d

● Rectified linear activation function (ReLU)

Binarna klasyfikacja

Binarna klasyfikacja

Klasyfikacja c.d

● Przykładowe problemy liniowo separowalne

Ograniczenia

● Minsky, 1969● Brak możliwości separacji punktów linią

prostą

Ograniczenia, XOR c.d

● Przy zmianie reprezentacji danych wejściowych punkty są separowalne

● Zamiany reprezentacji mogą dokonać inne neuron

Multi-layered perceptron

● wiele warstw● wyjście z neuronów niższej warstwy są

wejściem dla neuronów z warstwy wyżej

Multi-layered perceptron c.d

● Universal approximation theorem: “One layer of hidden units suffices to approximate any function with finitely many discontinuities to arbitrary precision, if the activation functions of the hidden units are non-linear.”

K. Hornik 1991

Q&A