LLLDL 487 Linguistique informatique et linguistique de … · linguistique de corpus. ... •De...

Preview:

Citation preview

LLLDL 487 Linguistique informatique et linguistique de corpus

Partie 3 : corpus oraux

Anne Lacheret

Rappel objectifs cours

• La numérisation des données langagières écrites et sonores : bouleversement de la linguistique

• Nouvelles méthodes d’observation des faits langagiers

linguistique de corpus. • Ressources : données et outils pour les traiter. • Objectifs du cours

Planning

• Introduction aux corpus de la langue parlée : pourquoi ? Comment ? Où ?

• Transcrire phonétiquement des corpus oraux • TP : segmentation + transcription

Organisation des séances

• 8 avril

• 15 avril

• 22 avril

• 3 juin: partiel

Bibliographie et matériel de travail (1/2)

• Web

– Utilitaire PRAAT

– Site projet-rhapsodie.fr http://www.projet-rhapsodie.fr/

• Documents pdf sur site http://www.lacheret.com/, onglet enseignement, §. Licence 2, Linguistique de corpus

– Transparents cours avant chaque séance

– Alphabet Sampa

– Lecture de spectrogramme :

• Indices spectro

• Indices spectro-voyelles

• Indices spectro-consonnes

Bibliographie & matériel de travail (2/2)

• Ouvrages

– Blanche-Benveniste (1997), Approches de la langue parlée en français, Paris, Ophrys.

– Fuchs C., Danlos L., Lacheret A., Luzzati D., Victorri B. (1993),

Linguistique et traitements automatiques des langues, Paris, Hachette. • Première partie : les niveaux de traitement de la langue, section 1.

Phonétique et phonologie, pp40-64.

Séance du 8 avril 2013

• Pourquoi des corpus transcrits et annotés phonétiquement ?

• Présentation rapide des sites mentionnés dans la bibliographie

• Introduction à la lecture de spectrogramme

• Problèmes de transcription

– Mots orthographiques vs mots phonologiques

• Principes de la segmentation en phonèmes

Objectifs séances corpus oraux : pourquoi des corpus annotés phonétiquement ?

• Transcription vs annotation

• Développer savoir-faire dans l’annotation phonétique de corpus (uniquement le niveau segmental)

• Pourquoi des corpus annotés phonétiquement ?

– Linguistique théorique

– Traitement automatique des langues

– Linguistique cognitive et linguistique clinique

Les pré-requis : savoir lire un spectrogramme

• Support d’annotation : entrée pour l’annotation

Les pré-requis : savoir lire un spectrogramme (2/2)

• Sortie fournie par l’annotateur

Résumé chaîne de traitement

Son de parole continue

Transcription orthographique

Transcription phonétique

Segmentation en syllabes

Ordinateur Logiciel Praat + outil pour la segmentation et la transcription semi-automatique (easy-align sur le web)

Son (casque) + acoustique : spectre de parole

Caractéristiques du signal : observations générales (1/2)

+- présence du signal, +- zones de silence (arrêt de la phononation), +- zones voisées, etc

Caractéristiques du signal : observations générales (2/2)

Introduction à la lecture de spectrogramme (voir aussi Fuch& al.40-64)

• Complexité du signal acoustique

– 3 types de source

• Source d’impulsion périodique

• Source de bruit

• Source impulsionnelle

– Cavités de résonance et formants

• Conséquences

– Un signal régulier caractéristique des voyelles

– Un signal aléatoire bruité caractéristique des sons /s/ et //

– Variations brutales associées à bruits d’explosion correspondant et à silence à ouverture/aperture du conduit buccal lors de la production des occlusives

Signal régulier Signal aléatoire Silence

Les indices (cf site doc pdf)

• De façon générale

• Voyelles

• Consonnes

Exercice : segmenter et annoter les segments voy (dont semi-voyelles)/cons, silence (_)

Correction exercice

Recommended