37

Recursive Neural Network summary

Embed Size (px)

Citation preview

Réseau de neuronesrécursif

Présenté par Nadir Kheloui

et Stephen Larroque

Étudiants M2 IAD à Paris 6

Un algorithme pour l’apprentissagede structures de données

Par Richard Socher

et Cliff C.Lin, A. Ng, C. Manning

Stanford University

• Problématique

• Compositionnalité

• Présentation de la solution

• Algorithme et fonctions

• Performances

• Avantages/Inconvenients

• Améliorations et Conclusion

Plan

• Comment tagguer:«Le pays de mon enfance» ?

Problématique

• Comment tagguer:«Le pays de mon enfance» ?

Problématique

Données seules (mots) insuffisantes, besoin de connaitre la structure des données!

• Utilisé en mathématiques, sémantique, philosophie du langage, bd relationnelles, etc.

• Sens d’une expression complexe (ici groupe de mots/régions) est définie par:

1.Les sens des atomes (mots/sous-expression)

2.Les règles pour les combiner

Principe de compositionnalité

• Sens des atomes => POS taggers, Named Entity Recognition, Topic Modeling, Points Of Interest, détection de régions...

• Reste à trouver les règles de composition!

Principe de compositionnalité

• Réseau de neurones récursif (!= récurrent)

• Approche ascendante «Bottom-up»

• Récursif ~ classification hiérarchique

• Supervisé (contrôle la forme de la structure)

• But: Apprendre la structure des données: arbre sémantique (= règles de composition)

Présentation de la solution

• Récurrent: boucle et feedbacks arrières pendant feedforward:

• Récursif: rappelle plusieurs fois le RN en utilisant en entrée les sorties précédentes!

Récurrent vs récursif

Déroulement

Déroulement

Déroulement

Déroulement

Déroulement

Déroulement

Déroulement

• Entrées: X apprentissage (feuilles arbre), Y arbres solutions

• Pré: SOM voisinage spatial pour x in X

• Sortie RN: 2 régions avec max similarité

• Sortie algorithme: arbre sémantique avec scores à la racine et pour chaque noeuds

• Post: classifieur Softmax/KNN pour classer racine score avec thème des voisins

Algorithme

• But: apprendre à construire arbres sémantiques (règles de composition implicites) à partir d’exemples

• Tant que critere_arret:

– Tirer un exemple x au hasard dans X

– Initialise Arbre avec feuilles = atomes de x; et RN réseau de neurones

– Tant que longueur de x > 1 (pas convergé vers racine):• Detecter 2 noeuds max sim à partir de sortie de RN.feedforward(x)• Créer un parent pour ces 2 noeuds dans Arbre• Enlever ces 2 noeuds de x

– J = Comparer Arbre avec y, arbre solution dans Y pour x (Max-Margin)

– RN.backpropagation(J)

=>Fin: retourner RN, réseau de neurones appris

Apprentissage

• Activation: Sigmoïde standard

• Coût: RNN Max-Margin Framework

Fonction d’activation et coût

• Inspiré de Taskar et al. 2004:

où: = pénalité (marge), écarte arbres incorrects = score de similarité pour deux régions

• Pénalise tous les mauvais arbres (parsing)

• Marge: arbre correct score >> max arbre incorrect

• Similaire à SVM

• Réduit problème parsing ~= discrimination

RNN Max-Margin Framework

• Précision 88.1% contre GIST 84.0%

Performances

• Garantie de convergence arbre

• Plusieurs niveaux de sémantique(score/représentation vectorielle pour chaque noeud)

• Fournit un score descripteur à la racine(ex: utilisable pour recherche d’images)

• Converge rapidement (contrairement aux réseaux récurrents) avec optimiseur standard L-BFGS (et DropConnect?)

Avantages

• Sémantique et tagging d’image, descripteur semi-local-global; détecteur de plagiat...

Cas d’exemple

• Sémantique et tagging d’image, descripteur semi-local-global; détecteur de plagiat...

Cas d’exemple

• Problème super concave (RN+pleins d’algos): aucune garantie d’optimalité globale

• Supervisé: nécessite de fournir un arbre solution pour chaque exemple

• Tolérance des classes d’équivalence d’arbres?

• Évaluation des performances? (CENTRIST)

Inconvénients

• Autres fonctions d’activation

• Semi ou non-supervisé?

• Perfs médiocres pour longues phrases (mais courtes OK!)

• Deep recursive neural network

• Entropie pour calcul similarité

Améliorations?

• Garanties convergence et relativement rapide!

• Adapté à l’extraction d’arbres sémantiques

• Plusieurs niveaux d’analyse sémantique

• Peut être utilisé comme descripteur global/tagger

• Potentiellement adaptable à n’importe quel classifieur discriminatif pour apprendre des arbres de composition!

Conclusion

– http://people.csail.mit.edu/torralba/code/spatialenvelope/

– http://smp.limsi.fr/index.php/Utilisation_des_descripteurs_GIST_et_CENTRIST

– http://techtalks.tv/talks/54422/

– http://curtis.ml.cmu.edu/w/courses/index.php/Taskar_et_al._2004._Max-margin_Parsing

– http://videolectures.net/nips09_torralba_uvs/

Liens

– Parsing Natural Scenes and Natural Language with Recursive Neural Networks, by R.Socher, Cliff C. Lin, A.Ng, C.Manning, The 28th International Conference on Machine Learning (ICML 2011)

– Modeling the shape of the scene: a holistic representation of the spatial envelope, A.Torralba, A.Oliva, International Journal of Computer Vision, Vol. 42(3): 145-175, 2001.http://people.csail.mit.edu/torralba/code/spatialenvelope/

– Max-margin parsing, by Ben Taskar, Taskar, B. and Klein, D. and Collins, M. and Koller, D. and Manning, C.. In Proc. EMNLP, 2004.http://acl.ldc.upenn.edu/acl2004/emnlp/pdf/Taskar.pdf

– Regularization of Neural Networks using DropConnect, Li Wan et al., 2013, ICML 2013

– Plus de références dans le rapport

Références

Slides Bonus

• But: construire un arbre sémantique pour un exemple

• Idem que Apprentissage mais:

– sans propagation arrière

– on retourne l’Arbre appris

– Enfin on peut classer l’exemple avec score racine dans classifieur Softmax ou KNN

Détection

• Descripteurs globaux avec perfs similaires à desc. locaux

• Fournit un score pour décrire toute la scène

• Algorithme GIST:– Calcul descripteur brut (filtres de Gabor)– PCA

• Algorithme CENTRIST:– Filtres Sobel– Intensité par voisinage puis histogramme de cette map

GIST et CENTRIST

• Successeur spirituel de Dropout (Hinton13)

• Aide la convergence par stochasticité

• Quelques poids d’arcs entrants au hasard nullifiés

http://cs.nyu.edu/~wanli/dropc/

DropConnect

• Convergence largement plus rapide!

• Meilleure généralisation!

DropConnect Performances

• Agglomerative = Bottom-Up

• Visualisé comme un dendrogramme

Hierarchical Clustering

• RN au lieu de SVM

• Apprend fonctions (règles) non linéaires

• Adaptable à de nombreuses tâches (texte, imagerie, etc.)

• Testé sur cas réels (pas Penn Treebank POS)

Différences avec Taskar2004

Merci!