24
Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de FLE et traitement automatique : perspectives didactiques Work In Progress… Sylvain Detey (U. Waseda, Japon), Maxime Le Coz (Archean Technologies, France), Lionel Fontan (Archean Technologies, France), Corentin Barcat (TUFS, Japon), Yuji Kawaguchi (TUFS, Japon), Hisae Akihiro (TUFS, Japon), Kaori Sugiyama (Seinan Gakuin U., Japon) & Nori Kondo (NUFS, Japon). IPFC2018 – Paris MSH – 26-27 novembre 2018

Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

Annotationsminimalesmulti-niveauxd’uncorpusdeparolespontanéed’apprenants

japonaisdeFLEettraitementautomatique :perspectivesdidactiques

WorkInProgress…

SylvainDetey (U.Waseda,Japon),MaximeLeCoz(ArcheanTechnologies,France),LionelFontan(Archean Technologies,France),CorentinBarcat (TUFS,Japon),Yuji Kawaguchi(TUFS,Japon),Hisae

Akihiro (TUFS,Japon),Kaori Sugiyama (Seinan Gakuin U.,Japon)&NoriKondo(NUFS,Japon).

IPFC2018– ParisMSH– 26-27novembre2018

Page 2: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

Plan

1)Lecorpus:objectifsetenjeux

2)Desannotationsminimalesàune

descriptionautomatisée

3)Perspectivesd’analyses

4)Perspectivesdidactiques

Page 3: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

1)Lecorpus:objectifsetenjeux

CLIJAF:Corpuslongitudinalinterphonologiqued’apprenantsjaponaisdefrançais (Detey,2011-2019)

Japanese SocietyforthePromotionofScience(JSPS)

Collaborateurs:Y.Kawaguchi(TUFS),M.Kondo(Waseda),H.Akihiro (TUFS),K.Sugiyama (SeinanGakuin),K.Kawashima (Fukuoka)

Page 4: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

1)Lecorpus:objectifsetenjeux

Volet1:– longitudinal(4sessionssur2ans)– apprenantsdébutants(A1.1-B1)– focussurlaprononciation– perception&production– parolenon-spontanée(partie1duprotocoleIPFC)

Page 5: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

1)Lecorpus:objectifsetenjeux

Volet2:– parolespontanée (partie2duprotocoleIPFC)– apprenantsdeniveauintermédiaire (- B2+)– extensionauxautresniveaux:lexique,syntaxe…

Question:Quellesdivergences(« erreurs »)persistantesàl’oral ?

Interfaceprononciation/lexique/grammairecf.difficultésdetranscription&codage:naturedela« divergence »

Finalité: didactiqueaiderlesapprenantsàrésoudrelesdivergencespersistantes

Page 6: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

1)Lecorpus:objectifsetenjeuxLecorpus:

Analysephonético-phonologique:ExploitationdeCLIJAF1&2(mots,texte,conversations)

Pourcetteprésentation:FocussurCLIJAF2– parolespontanée(conversations)

Page 7: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

1)Lecorpus:objectifsetenjeux

CLIJAF2:parolespontanée- Locuteurs:39(31F&8H)- Conversationsguidées:46- Conversationslibres:67- Durée:environ26h- Format:son+transcriptionorthographiquealignés

(Transcriber)

Sous-corpusWaseda+TUFSdanslaBDD- Nbremots:167172- Durée:18h33- Nbreannotations:56137

Page 8: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

Analysemultiniveauxd’uncorpusoral:énorme chantier…méthodologie, outils,RH…coûteux…+lesdéfisdutraitementd’uneL2!(e.g.FLLOC,Myles&Mitchell, http://www.flloc.soton.ac.uk/)

Approche didactique:- annotationsminimales: repérage desdivergencesdesurface- pointdevue del’enseignant deFLE:“divergences”et“modèles”

Méthodologie:- Transcriptionorthographique- Conventions adhoc(GARS,IPFC…)- Transcriber (simple,gratuit,testé)

2)Desannotationsminimales àunedescriptionautomatisée

Page 9: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

2)Desannotationsminimales àunedescriptionautomatisée

Annotationsmanuellesminimalesdesdivergences:

1) [v]_ou[c]ou[v/c]__modificationvocaliqueouconsonantiquesimpleoumultiple (sansprécision)

2) [e]_..._[xxx]:formesinacceptablestranscritestellesquellespuisformejugéesouhaitableparletranscripteur:[e]_à_[en]Allemagne, je[e]_vas_[vais]

3) [ac]_[]:formesinacceptablesauto-corrigées(dernier énoncé):jesuisallé[ac]_àAllemagneeuhjesuisalléenAllemagne_[]

Page 10: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

Exemple de séquence

Page 11: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

Traitement automatisépourunedescriptionàviséedidactique:PartenariatavecArchean Labs (L.Fontan&M.LeCoz)

- Unserveur destockageetdetraitement- Unedescriptionquantitativeducorpus- Unconcordanciertexte-son (didactique&recherche)- Uneinterfaced’évaluationpédagogique

2)Desannotationsminimales àunedescriptionautomatisée

Page 12: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

2)Desannotationsminimalesàunedescription automatisée:Fonctionnalités Recherche

Page 13: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

2)Desannotationsminimalesàunedescription automatiséeStatistiquesGlobales

Page 14: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

2)Desannotationsminimalesàunedescription automatiséeProfilsd’apprenants

Page 15: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

3)Perspectivesd’analyse

Caractéristiques:- Parapprenant:nbre&typed'erreurs- Inter-apprenants:erreursrécurrentes,parniveaux,partypedeconversation

- Longitudinales:2sessions

Page 16: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

3)Perspectivesd’analyse

Pourcentage d’erreurs en fonction du niveau de l’apprenant

Page 17: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

3)Perspectivesd’analyse

Evolution longitudinale du pourcentage d’erreurs

Page 18: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

3)Perspectivesd’analyse

Répartition des erreurs entre prononciation et autre pour 10 apprenants B2

Prononciation Autre

Page 19: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

Auniveauphonético-phonologique:apprentissagesemi-superviséavecThomasPellegrini (IRIT,Toulouse),ANRJeuneChercheurLUDAU(Lightly-supervisedandUnsupervisedDiscoveryofAudioUnitsusingDeepLearning):à positionetnaturedeladivergencesegmentale

3)Perspectivesd’analyse

Page 20: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

3)Perspectivesd’analyse

Approche:• Rechercheàpartirdelacibleversdesdivergences(correction)• Recherched’un itemdivergentetrécupérationducontexte• Recherched’une catégoriePDD(encours)

Intérêt:1) Adéquation lexicogrammaticale vs.Adéquation phonétique :

récupérationdusignalsonoreencontexteànaturedeladivergence:« du »/« du »

2) Doubleentrée: productionvsciblepossible

Page 21: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

4)PerspectivesdidactiquesDes« divergences »:générationd’activitésdidactiques:- Phonético-phonologiques- Lexicales- Morpho-syntaxiques- Discursives

ConnexionsavecCAPT-L2etLexpro- Profilphonologiquedesapprenants- Profillexicaldesapprenants

Enprojet:- Profilgrammaticaldesapprenants- Dimensiondiscursiveetsociolinguistique

à Personnalisationducontenudidactiqueselonleprofil

Page 22: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

Conclusion

Apportparrapportàunconcordancierstandard:- Évaluationdel’oral- Rapportentreformesproduitesetformesattendues(doubleentréederecherche)

Défis:1) Transcriptionorthographique:manuelle?2) Annotationminimale:manuelle?3) Multiplicitédesmodèles:degréd’acceptabilité?

Nécessitédecodagemultiple

Objectifultime:unsystèmedecorrectionautomatiquedelaparoleL2

à Besoindesystème(s)deréférence:- phonologiederéférence (CAPT-L2)- lexiquederéférence (Lexpro)- grammairederéférence (cf.correcteursgrammaticaux– maisdel’oral!)

Page 23: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

Remerciements

• Japanese SocietyforthePromotionofScience• Archean Technologies• Lesétudiantsducorpus• LaboratoirePraxiling UMR5267U.Montpellier3

Page 24: Annotations minimales multi-niveaux d’un corpus de parole ... · - lexique de référence (Lexpro) - grammaire de référence (cf. correcteurs grammaticaux – mais de l’oral

Annotationsminimalesmulti-niveauxd’uncorpusdeparolespontanéed’apprenants

japonaisdeFLEettraitementautomatique :perspectivesdidactiques

WorkInProgress…

SylvainDetey (U.Waseda,Japon),MaximeLeCoz(ArcheanTechnologies,France),LionelFontan(Archean Technologies,France),CorentinBarcat (TUFS,Japon),Yuji Kawaguchi(TUFS,Japon),Hisae

Akihiro (TUFS,Japon),Kaori Sugiyama (Seinan Gakuin U.,Japon)&NoriKondo(NUFS,Japon).

IPFC2018– ParisMSH– 26-27novembre2018