Sujets couverts

  • View
    28

  • Download
    0

Embed Size (px)

DESCRIPTION

Sujets couverts. Introduction Classification linéaire avec le Perceptron et la régression logistique Réseau de neurones artificiel. Perceptron ( Rosenblatt , 1957). Un des plus vieux algorithmes de classification - PowerPoint PPT Presentation

Text of Sujets couverts

Raisonnement probabiliste

IFT 615 Intelligence artificielle

Apprentissage supervisFroduald KabanzaDpartement dinformatiqueUniversit de Sherbrookeplaniart.usherbrooke.ca/kabanza/cours/ift615Largement bas sur du matriel dHugo LarochelleSujets couvertsIntroduction

Classification linaire avec le Perceptron et la rgression logistique

Rseau de neurones artificiel

IFT615Froduald Kabanza2IntroductionIFT615Froduald Kabanza3Section 8.1 du livre3Un problme dapprentissage supervis est formul comme suit:tant donn un ensemble dentranement de N exemples:

o chaque a t gnr par une fonction inconnue , dcouvrir une nouvelle fonction (modle ou hypothse) qui sera une bonne approximation de (cest dire )

Apprentissage supervisIFT615Froduald Kabanza4

Espace dhypothsesHf(x)hopt(x) HErrorNote : chacun des x_i, y_i peut tre un vecteur. Dans ce cas, on notera x_i,j le j eme lment du vecteur. Idem pour y_i,j.

f nest pas gnralement connu. On en connait une partie permettant de produire les exemples dapprentissage et les exemples de test.

Lorsque lensemble des valeurs des sorties est un ensemble fini, on parle de problme de classification. Par exemple: chaud, froid, tide.

Lorsque y est un nombre rel (lensemble des valeurs de sortie est infini, par exemple: temprature), on parle de rgression.

On dit quune hypothse gnralise bien si elle prdit correctement la valeur de y pour des exemples indits.

On dit quune hypothse est cohrente si elle prdit correctement la valeur de y pour les exemples dentranement.

4Donnes : ensemble dentranement de N exemples:

Problme : trouver h(x) tel que

Un algorithme dapprentissage peut donc tre vu comme tant une fonction laquelle on donne un ensemble dentranement et qui donne en retour la fonction h

Apprentissage supervisIFT615Froduald Kabanza5

avec

5Reconnaissance de caractresEntre : X = vecteur de pixels

Sortie: Y = un chiffre entre 0 et 1

6Donnes : ensemble dentranement de N exemples:

Problme : trouver h(x) tel que

Le problme dapprentissage est ralisable si f(x) HApprentissage supervisIFT615Froduald Kabanza7

avec

Espace dhypothsef(x)hopt(x) HErrorH7tant donn un ensemble de donnes dentrainement, lapprentissage est un problme de recherche de lhypothse h dans un espace dhypothses H, tel que h minimise la distance f(x)

Les donnes sont souvent bruits et disponibles en quantit limite. Il y a donc une variation dans les donnes et dans les modles (reprsentations).

Lerreur dpend de la qualit des donnes dentrainements et de la mthode utilise pour slectionner/chercher la bonne hypothse

Apprentissage supervisIFT615Froduald Kabanza8Espace dhypothsef(x)hopt(x) HErrorHLapprentissage est une recherche dans un espace dhypothses possibles pour trouver lhypothse qui se comporte bien mme sur des exemples nappartenant pas lensemble dentranement.

Ici, on cherche minimiser lerreur gnralise (c.-d., incluant les donnes venir, pas juste les donnes dentrainement).

8Dpendamment des approches dapprentissage, la fonction h peut tre reprsent de diffrente manire:

Rgle de production (if-then) avec la logique du premier ordreArbre de dcisionFonction linaires , polynomialesRseau de neurones artificielProgrammes JavaEtc.

Dans cette leon, nous voyons la rgression linaire et le rseau de neurones artificiel

Le livre couvre diffrentes autres approchesModles et approche pour chercher la fonction hIFT615Froduald Kabanza99Comment valuer le succs dun algorithme dapprentissage?on pourrait regarder lerreur moyenne commise sur les exemples dentranement, mais cette erreur sera ncessairement optimiste a dj vu la bonne rponse pour ces exemples!on mesurerait donc seulement la capacit de lalgorithme mmoriser

Ce qui nous intresse vraiment, cest la capacit de lalgorithme gnraliser sur de nouveaux exemplesa reflte mieux le contexte dans lequel on va utiliser h

Pour mesurer la gnralisation, on met de ct des exemples tiquets, qui seront utiliss seulement la toute fin, pour calculer lerreuron lappel lensemble de test

Mesure de la performance dun algorithme dapprentissageIFT615Froduald Kabanza10

Wikipedia:

Lesurapprentissageousur-ajustement(en anglais overfitting) est un problme frquent avec les algorithmes dapprentissage.

Il est en gnral provoqu par un mauvais dimensionnement de la structure ou la reprsentation utilise pour lespace des hypothses.

Par exemple, dans le cas des rseaux de neurones comme on le verra plus tard, il est li au choix de la structure du rseau de neurones.

De par sa trop grande capacit stocker des informations, une structure dans une situation de surapprentissage aura de la peine gnraliser les caractristiques des donnes. Elle se comporte alors comme une table contenant tous les chantillons utiliss lors de l'apprentissage et perd ses pouvoirs de prdiction sur de nouveaux chantillons.

Pour limiter ce genre de problmes dans le cas des rseaux de neurones, on doit veiller utiliser un nombre adquat de neurones et de couches caches.Cependant, ces paramtres sont difficiles dterminer l'avance. Pour dtecter un surapprentissage, on spare les donnes en deux sous-ensembles: l'ensemble d'apprentissage et l'ensemble de validation. L'ensemble d'apprentissage comme son nom l'indique permet de faire voluer les poids du rseau de neurones avec par exemple unertropropagation. L'ensemble de validation n'est pas utilis pour l'apprentissage mais permet de vrifier la pertinence du rseau avec des chantillons qu'il ne connait pas.

On peut vraisemblablement parler de surapprentissage si l'erreur de prdiction du rseau sur l'ensemble d'apprentissage diminue alors que l'erreur sur la validation augmente de manire significative. Cela signifie que le rseau continue amliorer ses performances sur les chantillons d'apprentissage mais perd son pouvoir de prdiction sur ceux provenant de la validation.

Pour avoir un rseau qui gnralise bien, on arrte l'apprentissage ds que l'on observe cette divergence entre les deux courbes. On peut aussi diminuer la taille du rseau et recommencer l'apprentissage. Les mthodes de rgularisation comme leweight decaypermettent galement de limiter la spcialisation.

10tant donns un ensemble de points dans R2, approcher cet ensemble par une fonction f dune seule variable.

Donnes dentranement : paires (x, f(x))

Hypothse: quation dune fonction h(x) qui approxime f(x)Espace dhypothses : ensemble de polynmes de degrs k.

Exemple familierIFT615Froduald Kabanza11

Comme il sagit de R^2, il sagit donc ici dune rgression.11Exemples despaces dhypothsesIFT615Froduald Kabanza12f(x) = 0.5 + x + x2 + 6x3H1H2H3H1={a+bx}; H2={a+bx+cx2}; H3={a+bx+cx2+dx3};Linaire; Quadratique; Cubique; H1 H2 H3Comme il sagit de R^2, il sagit donc ici dune rgression.

Nous avons vu quun problme dapprentissage est ralisable si lespace dhypothses correspondant contient la vraie fonction

12Comment choisir parmi plusieurs hypothses consistants?

Hypothse : fonction linaire

Hypothse :Polynme de degr 7

Donnes : polynme degr 6Hypothse : fonction linaire

Hypothse: fonction sinusodaleUtiliser le principe du rasoir dOckham: maximiser une combinaison/compromis entre consistance et simplicitIFT615Froduald Kabanza13Wikipdia:

Lerasoir d'Ockhamourasoir d'Occamest un principe de raisonnement philosophique entrant dans les concepts derationalisme.

Son nom vient duphilosophefranciscainGuillaume d'Ockham(xivesicle), bien qu'il ft connu avant lui. On le trouve galement appelprincipe de simplicit

En gros, il dit que les hypothses suffisantes les plus simples sont les plus vraisemblables. C'est un des principesheuristiquesutilis souvent en IA, sans pour autant quil soit formellement prouv.

Donc, dans le cas o deux hypothses ont la mme vraisemblance (ou poids d'vidence), on favorisera l'hypothse la plus simple.

Il s'agit en fait d'une application directe duthorme de Bayes, o l'hypothse la plus simple a reu la probabilita priori la plus forte. Voir livre, Section 18.2.

13Compromis entre expressivit et complexitNous avons vu quun problme dapprentissage est ralisable si lespace dhypothses correspondant contient la vraie fonction.

Dans ce cas, pourquoi ne pas choisir simplement lespace dhypothse le plus large possible (exemple: programmes Java ou machine de Turing)?

Parce quil existe en gnral un compromis entre lexpressivit de lespace dhypothse la complexit de la recherche dune bonne hypothse dans cet espace

On a en plus un compromis entrelexpressivit de lespace dhypothse lefficacit en temps de calcul de h(x) et sa simplicit de reprsentation

IFT615Froduald Kabanza14Par exemple, approcher des donnes par une ligne droite est un calcul ais (par la mthode des moindres carrs).

Lapproche par un polynme de degr plus lev est un calcul bien plus complexe.

Et le faire par des machines de Turing est en gnral un problme indcidable.

En plus, on veut pouvoir utiliser h(x) une fois que lon la dcouvert. On veut donc que h(x) calcule rapidement sa sortie. La reprsentation de lespace dhypothse peut tre un facteur la fois pour la rapidit de calcul de h(x) et sa reprsentation simple.

Par exemple, si h(x) est reprsent par une fonction linaire, il est rapide calcul. Par contre, sil est approxim par une machine de Turing, on na pas de garanti sur sa complexit asymptotique.

14Regression linaire ( une variable)IFT615Froduald Kabanza15Cest un rappel de ce que vous avez vu au secondaire ou au CGEP avec une perspective di