19
LLLDL 487 Linguistique informatique et linguistique de corpus Partie 3 : corpus oraux Anne Lacheret

LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

  • Upload
    lemien

  • View
    252

  • Download
    3

Embed Size (px)

Citation preview

Page 1: LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

LLLDL 487 Linguistique informatique et linguistique de corpus

Partie 3 : corpus oraux

Anne Lacheret

Page 2: LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

Rappel objectifs cours

• La numérisation des données langagières écrites et sonores : bouleversement de la linguistique

• Nouvelles méthodes d’observation des faits langagiers

linguistique de corpus. • Ressources : données et outils pour les traiter. • Objectifs du cours

Page 3: LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

Planning

• Introduction aux corpus de la langue parlée : pourquoi ? Comment ? Où ?

• Transcrire phonétiquement des corpus oraux • TP : segmentation + transcription

Page 4: LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

Organisation des séances

• 8 avril

• 15 avril

• 22 avril

• 3 juin: partiel

Page 5: LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

Bibliographie et matériel de travail (1/2)

• Web

– Utilitaire PRAAT

– Site projet-rhapsodie.fr http://www.projet-rhapsodie.fr/

• Documents pdf sur site http://www.lacheret.com/, onglet enseignement, §. Licence 2, Linguistique de corpus

– Transparents cours avant chaque séance

– Alphabet Sampa

– Lecture de spectrogramme :

• Indices spectro

• Indices spectro-voyelles

• Indices spectro-consonnes

Page 6: LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

Bibliographie & matériel de travail (2/2)

• Ouvrages

– Blanche-Benveniste (1997), Approches de la langue parlée en français, Paris, Ophrys.

– Fuchs C., Danlos L., Lacheret A., Luzzati D., Victorri B. (1993),

Linguistique et traitements automatiques des langues, Paris, Hachette. • Première partie : les niveaux de traitement de la langue, section 1.

Phonétique et phonologie, pp40-64.

Page 7: LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

Séance du 8 avril 2013

• Pourquoi des corpus transcrits et annotés phonétiquement ?

• Présentation rapide des sites mentionnés dans la bibliographie

• Introduction à la lecture de spectrogramme

• Problèmes de transcription

– Mots orthographiques vs mots phonologiques

• Principes de la segmentation en phonèmes

Page 8: LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

Objectifs séances corpus oraux : pourquoi des corpus annotés phonétiquement ?

• Transcription vs annotation

• Développer savoir-faire dans l’annotation phonétique de corpus (uniquement le niveau segmental)

• Pourquoi des corpus annotés phonétiquement ?

– Linguistique théorique

– Traitement automatique des langues

– Linguistique cognitive et linguistique clinique

Page 9: LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

Les pré-requis : savoir lire un spectrogramme

• Support d’annotation : entrée pour l’annotation

Page 10: LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

Les pré-requis : savoir lire un spectrogramme (2/2)

• Sortie fournie par l’annotateur

Page 11: LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

Résumé chaîne de traitement

Son de parole continue

Transcription orthographique

Transcription phonétique

Segmentation en syllabes

Ordinateur Logiciel Praat + outil pour la segmentation et la transcription semi-automatique (easy-align sur le web)

Page 12: LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

Son (casque) + acoustique : spectre de parole

Page 13: LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

Caractéristiques du signal : observations générales (1/2)

+- présence du signal, +- zones de silence (arrêt de la phononation), +- zones voisées, etc

Page 14: LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

Caractéristiques du signal : observations générales (2/2)

Page 15: LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

Introduction à la lecture de spectrogramme (voir aussi Fuch& al.40-64)

• Complexité du signal acoustique

– 3 types de source

• Source d’impulsion périodique

• Source de bruit

• Source impulsionnelle

– Cavités de résonance et formants

• Conséquences

– Un signal régulier caractéristique des voyelles

– Un signal aléatoire bruité caractéristique des sons /s/ et //

– Variations brutales associées à bruits d’explosion correspondant et à silence à ouverture/aperture du conduit buccal lors de la production des occlusives

Page 16: LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

Signal régulier Signal aléatoire Silence

Page 17: LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

Les indices (cf site doc pdf)

• De façon générale

• Voyelles

• Consonnes

Page 18: LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

Exercice : segmenter et annoter les segments voy (dont semi-voyelles)/cons, silence (_)

Page 19: LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De façon générale •Voyelles ... Correction exercice . Title: LLLDL 487 Linguistique

Correction exercice