Upload
stephen-larroque
View
81
Download
3
Embed Size (px)
Citation preview
Réseau de neuronesrécursif
Présenté par Nadir Kheloui
et Stephen Larroque
Étudiants M2 IAD à Paris 6
Un algorithme pour l’apprentissagede structures de données
Par Richard Socher
et Cliff C.Lin, A. Ng, C. Manning
Stanford University
• Problématique
• Compositionnalité
• Présentation de la solution
• Algorithme et fonctions
• Performances
• Avantages/Inconvenients
• Améliorations et Conclusion
Plan
• Comment tagguer:«Le pays de mon enfance» ?
Problématique
Données seules (mots) insuffisantes, besoin de connaitre la structure des données!
• Utilisé en mathématiques, sémantique, philosophie du langage, bd relationnelles, etc.
• Sens d’une expression complexe (ici groupe de mots/régions) est définie par:
1.Les sens des atomes (mots/sous-expression)
2.Les règles pour les combiner
Principe de compositionnalité
• Sens des atomes => POS taggers, Named Entity Recognition, Topic Modeling, Points Of Interest, détection de régions...
• Reste à trouver les règles de composition!
Principe de compositionnalité
• Réseau de neurones récursif (!= récurrent)
• Approche ascendante «Bottom-up»
• Récursif ~ classification hiérarchique
• Supervisé (contrôle la forme de la structure)
• But: Apprendre la structure des données: arbre sémantique (= règles de composition)
Présentation de la solution
• Récurrent: boucle et feedbacks arrières pendant feedforward:
• Récursif: rappelle plusieurs fois le RN en utilisant en entrée les sorties précédentes!
Récurrent vs récursif
• Entrées: X apprentissage (feuilles arbre), Y arbres solutions
• Pré: SOM voisinage spatial pour x in X
• Sortie RN: 2 régions avec max similarité
• Sortie algorithme: arbre sémantique avec scores à la racine et pour chaque noeuds
• Post: classifieur Softmax/KNN pour classer racine score avec thème des voisins
Algorithme
• But: apprendre à construire arbres sémantiques (règles de composition implicites) à partir d’exemples
• Tant que critere_arret:
– Tirer un exemple x au hasard dans X
– Initialise Arbre avec feuilles = atomes de x; et RN réseau de neurones
– Tant que longueur de x > 1 (pas convergé vers racine):• Detecter 2 noeuds max sim à partir de sortie de RN.feedforward(x)• Créer un parent pour ces 2 noeuds dans Arbre• Enlever ces 2 noeuds de x
– J = Comparer Arbre avec y, arbre solution dans Y pour x (Max-Margin)
– RN.backpropagation(J)
=>Fin: retourner RN, réseau de neurones appris
Apprentissage
• Inspiré de Taskar et al. 2004:
où: = pénalité (marge), écarte arbres incorrects = score de similarité pour deux régions
• Pénalise tous les mauvais arbres (parsing)
• Marge: arbre correct score >> max arbre incorrect
• Similaire à SVM
• Réduit problème parsing ~= discrimination
RNN Max-Margin Framework
• Garantie de convergence arbre
• Plusieurs niveaux de sémantique(score/représentation vectorielle pour chaque noeud)
• Fournit un score descripteur à la racine(ex: utilisable pour recherche d’images)
• Converge rapidement (contrairement aux réseaux récurrents) avec optimiseur standard L-BFGS (et DropConnect?)
Avantages
• Sémantique et tagging d’image, descripteur semi-local-global; détecteur de plagiat...
Cas d’exemple
• Sémantique et tagging d’image, descripteur semi-local-global; détecteur de plagiat...
Cas d’exemple
• Problème super concave (RN+pleins d’algos): aucune garantie d’optimalité globale
• Supervisé: nécessite de fournir un arbre solution pour chaque exemple
• Tolérance des classes d’équivalence d’arbres?
• Évaluation des performances? (CENTRIST)
Inconvénients
• Autres fonctions d’activation
• Semi ou non-supervisé?
• Perfs médiocres pour longues phrases (mais courtes OK!)
• Deep recursive neural network
• Entropie pour calcul similarité
Améliorations?
• Garanties convergence et relativement rapide!
• Adapté à l’extraction d’arbres sémantiques
• Plusieurs niveaux d’analyse sémantique
• Peut être utilisé comme descripteur global/tagger
• Potentiellement adaptable à n’importe quel classifieur discriminatif pour apprendre des arbres de composition!
Conclusion
– http://people.csail.mit.edu/torralba/code/spatialenvelope/
– http://smp.limsi.fr/index.php/Utilisation_des_descripteurs_GIST_et_CENTRIST
– http://techtalks.tv/talks/54422/
– http://curtis.ml.cmu.edu/w/courses/index.php/Taskar_et_al._2004._Max-margin_Parsing
– http://videolectures.net/nips09_torralba_uvs/
Liens
– Parsing Natural Scenes and Natural Language with Recursive Neural Networks, by R.Socher, Cliff C. Lin, A.Ng, C.Manning, The 28th International Conference on Machine Learning (ICML 2011)
– Modeling the shape of the scene: a holistic representation of the spatial envelope, A.Torralba, A.Oliva, International Journal of Computer Vision, Vol. 42(3): 145-175, 2001.http://people.csail.mit.edu/torralba/code/spatialenvelope/
– Max-margin parsing, by Ben Taskar, Taskar, B. and Klein, D. and Collins, M. and Koller, D. and Manning, C.. In Proc. EMNLP, 2004.http://acl.ldc.upenn.edu/acl2004/emnlp/pdf/Taskar.pdf
– Regularization of Neural Networks using DropConnect, Li Wan et al., 2013, ICML 2013
– Plus de références dans le rapport
Références
• But: construire un arbre sémantique pour un exemple
• Idem que Apprentissage mais:
– sans propagation arrière
– on retourne l’Arbre appris
– Enfin on peut classer l’exemple avec score racine dans classifieur Softmax ou KNN
Détection
• Descripteurs globaux avec perfs similaires à desc. locaux
• Fournit un score pour décrire toute la scène
• Algorithme GIST:– Calcul descripteur brut (filtres de Gabor)– PCA
• Algorithme CENTRIST:– Filtres Sobel– Intensité par voisinage puis histogramme de cette map
GIST et CENTRIST
• Successeur spirituel de Dropout (Hinton13)
• Aide la convergence par stochasticité
• Quelques poids d’arcs entrants au hasard nullifiés
http://cs.nyu.edu/~wanli/dropc/
DropConnect
• RN au lieu de SVM
• Apprend fonctions (règles) non linéaires
• Adaptable à de nombreuses tâches (texte, imagerie, etc.)
• Testé sur cas réels (pas Penn Treebank POS)
Différences avec Taskar2004