Upload
baird
View
34
Download
5
Embed Size (px)
DESCRIPTION
XML, DTD et TEI pour un dictionnaire étymologique des créoles. 12 Octobre 2007 Hélène Manuélian et Emmanuel Schang Universités de Cergy Pontoise et Orléans. Ressources textuelles. Données hétérogènes (en-t êtes, caractères spéciaux, illustrations, sens de l’écriture, etc.) - PowerPoint PPT Presentation
Citation preview
XML, DTD et TEI pour un dictionnaire étymologique des
créoles
12 Octobre 2007
Hélène Manuélian et Emmanuel Schang
Universités de Cergy Pontoise et Orléans
Ressources textuelles
Données hétérogènes (en-têtes, caractères spéciaux, illustrations, sens de l’écriture, etc.)
Informatisation≠lecture possible sur un écran La solution : coder les données
Un problème : moyens pour le codage informatique souvent incompatibles entre eux et dédiés à une catégorie de texte
Une solution : NORMALISER !
Quels éléments coder ?
Niveau physique : codage des caractères. Niveau logique :
– sémantique du codage – organisation de l'information – description explicite de cette information.
Niveau de présentation : indépendant du support de sortie (CD-Rom, Page Web, etc…) .
Normalisation
Ressources portables : – Echanges possibles quels que soient les moyens
informatiques de l’utilisateur
– Archivage garanti, malgré l’évolution des technologies
– Visibilité nationale et internationale La référence : une instance internationale
– Comité de l’ISO (International Standard Office)
– Normes éditées par le TC 37 / SC 4 (Sous comité pour la standardisation des ressources textuelles)
Au commencement…
SGML (Standard Generalized Markup Language)
Les données au format SGML ont un format d’arbre hiérarchique (comme en syntaxe !)
Représente les données textuelles avec des éléments de contenus encapsulés les uns avec les autres : balises
Exemple<entry>
<form><orth>porte</orth><pron>poRt </pron>
</form><gramGrp>
<pos>n</pos>
</gramGrp><sense n="1">
<def>Ouverture pratiquée dans un des plans verticaux qui limitent un espace clos(…) </def>
</sense><sense n="2">
<def> Panneau mobile permettant d'obturer cette ouverture</def>
</sense></entry>
Entry
Form GramGrp Sense1Sense2
Orth pron pos def def
XML est …
Un protocole de stockage et de gestion de l’information
Une famille de technologies qui permettent d’effectuer le formatage de documents et l’extraction de données
Une philosophie de gestion de l’information qui recherche un maximum d’utilité et de souplesse en organisant les données sous la forme la plus pure et la plus structurée
XML n’est pas…
A proprement parler un langage de balisage En fait, c’est un ensemble de règles qui
permettent le balisage
Les balises servent à… Délimiter un fragment de texte<paragraph> blablabla </paragraph>
Indiquer le rôle d’un fragment de texte<salutation> bonjour ! </salutation>
Indiquer la position d’un élément dans un texte<title> TITRE </title> <paragraph> BLABLA
</paragraph>
Imbriquer des éléments les uns dans les autres<chapter> <paragraph> blabla-truc </paragraph> <paragraph>
blabla-bidule </paragraph> <paragraph> blabla-machin </paragraph> </chapter>
Faire des liens entre les fichiers<graphique fileref = "sourire.pict"/>
Composition d’une balise
<link type="coref” subtype="infidèle" lex-rel="hyper" />
Autres valeurs possibles pour l’attribut type :
"anaphor" "bridging"
Autres valeurs possibles pour l’attribut subtype si type = "coref" : "direct"
Autres valeurs possibles pour l’attribut lex-rel :
”hypo" ”syn"
Attributs "Valeurs"
Modèle de document
XML fournit ce qu’on appelle un modèle de document – Ce sont des règles propres à un type de document
– Qui permettent de comparer le document produit à un document du même type et de dire s’il est conforme aux règles. On parle de validation.
– Il en existe deux sortes : DTD (Document Type Definition) et Schéma XML. Je ne présente que les DTD ici.
DTD Ensemble de règles qui indiquent quelles balises le
document peut utiliser en fonction de sa nature. Elle fournit une description formelle de l’organisation
de l’information au sein du document. Elle fournit la liste des attributs possibles pour
une balise et les valeurs possibles de ces attributs On fait référence à la DTD utilisée au début du
document pour que XML puisse valider le document
La TEI
Text Encoding Initiative Résultat d’un consensus entre diverses
associations internationales spécialisées dans l’alliance entre linguistique et informatique
Propose des directives d’encodage des ressources textuelles (normes de codage et représentation uniforme des données)
La TEI
A la fois rigoureuse et flexible : l’utilisateur élabore son propre schéma de codage à partir d’un ensemble d’éléments et d’attributs
Structure de base commune : tous les documents sont divisés en deux parties : l’entête et le texte.
<teiHeader> informations générales sur le texte </teiHeader>
<text> texte constituant la ressource textuelle </text>
L’entête TEI Mise au point par des experts en documentation Contient la description complète du document en
quatre parties<fileDesc> description du fichier </fileDesc>
<encodingDesc> description du codage </encodingDesc>
<profileDesc> profil textuel du document (classification du texte, thème, etc.) </profileDesc>
<revisionDesc> historique des changements </revisionDesc>
Texte TEIExemple pour un roman
<text>
<front> <body> <back>
<div> <div> <div> <div>
Exemple pour un ensemble d’articles :
<text>
<front> <group> <back>
<text> <text> <text>
<front> <body> <back>
<div> <div> <div> <div>
Une norme en cours d’élaboration : LMF
Lexical Markup Framework Deux perspectives:
– La modélisation des dictionnaires – La construction de bases de données lexicales
pour le TAL Projet de spécification de structure de bases
de données lexicales et lexicographiques qui unifie ces deux modèles
Structure de LMF
Info. globales
Base de Données Lexicales
1..1
1..1
Entrée lexicale
0..n
1..1
1..1
Forme
1..1
Sens
0..n
1..1
0..n
1..1
ExtensionLexicaleExtension Lexicale
Extension Lexicale
Perspectives pour le dictionnaire des créoles
Utiliser la norme « Print Dictionaries » de la TEI.
Utiliser, voire contribuer à l’élaboration de la norme : la structure d’un dictionnaire des créoles pourrait montrer qu’une souplesse reste nécessaire
Propositions au TC37/SC4
Problème
Structure des dictionnaires étymologiques du créoles peut-être problématique, parce que différente de la structure des dictionnaires étymologiques classiques, et des dictionnaires bi/multilingues
Deux exemples
Exemples standards<entry>
<form><orth>publish</orth>
...</form><etym>
<lang>ME.</lang><mentioned>publisshen</mentioned><lang>F.</lang><mentioned>publier</mentioned><lang>L.</lang><mentioned>publicare,
publicatum</mentioned>. <xr>See
<ref>public</ref>; cf. 2d <ref>-ish</ref>.
</xr></etym>
</entry> (From: Webster's Second
International)
<entry><form>
<orth>dresser</orth>
</form><sense n="a"><usg type="dom">Theat</usg><cit type="translation" xml:lang="fr">
<quote>habilleur</quote><gen>m</gen>
</cit></sense ><sense n= "b" >
<usg type="dom">Comm</usg><form type="compound">
<orth> window <oRef/></orth>
</form><cit type="translation" xml:lang="fr"><quote>étalagiste</quote><gen>mf</gen></cit>
</sense>
<!-- ... --> ハ</entry>
Exemple (C. Fontes)
Dictionnaire étymologique du forro Particularité : à la fois dictionnaire trilingue
et dictionnaire étymologique Structure complexe : forro / Traduction(s)
portugaise(s) / traduction(s) anglaise(s) / Etymologie : propriété 1 + propriété 2 + …
Exemple de problème à résoudre
<entry><form>
<orth> blagadu </orth><pron> [blaˈgadu] </pron>
</form><gramGrp>
<pos>adj</pos></gramGrp><trans n=“1”>
P. desfeito; terminado; arregalado;</trans><trans n=“2”>
E. undone; ended; wide opened.</trans><etym>
<lang> P. </lang><mentioned> desbragado </mentioned><gloss>unchained </gloss>
+ aférese + lambdacismo ; <lang>P. </lang> <mentioned> embargado </mentioned><gloss> seized </gloss>+aférese + lambdacismo + metatese
</etym></entry>
une application
prenons l’exemple du forro il existe :
– un dictionnaire étymologique : Rougé (2004)– un mémoire de master (Fontes 2007)– un dictionnaire fantôme (Aires Major xxxx)
des bouts de travaux ici et là (Ferraz 1979, Hagemeijer 2007, Schang 2000, …).
deux approches différentes
1. codage TEI des textes existants (dans leur version électronique)
2. réalisation d’une base de données sous un format nouveau en incorporant des infos prises dans les dictionnaires existants. Il s’agit alors d’un nouveau travail.
avantages et inconvénients
Solution 1 :– faible coût (+)– rien de neuf (-)
Solution 2 :– coût important selon l’ampleur du projet– véritable base multimédia (son/corpus, images,
etc.)
un exemple simple
aba, bord d’un habitEn guinéen aba : « revers », « bas d'un vêtement » ; à Santiago aba :
«rebord d'un chapeau ou d'une jupe. » Pour le capverdien, Lang donne aussi ce nom comme synonyme de bandera « dessus de la porte ».
En forro aba : « volant d’une robe », « rebord d’un chapeau » ; baba de même sens en est vraisemblablement une variante. aba est aussi attesté en angolar avec le même sens, mais il nous semble, considérant les vêtements traditionnels des angolares, qu’il s’agit là d’un emprunt récent au forro.
(Rougé 2004)
structure d’une entréeentry
form gloss etym
Dans ce qui est étiqueté ‘etym’, on va trouver des informations de nature étymologique sur diverses langues. On peut concevoir des sous-entrées pour chaque langue.Pour chaque langue évoquée, on trouve : une ou deux formes une ou deux gloses des informations variées (emprunt récent, synonymes, etc.)
un exemple délicat
Rougé (2004:49)aguardar, attendreL’impératif pluriel du verbe aguardar, aguardai, a donné
l’interjection forro agwêdê ! « Attention ! » qui est utilisée en particulier dans Agwêdê ! Alê ! « Attention! Le roi ! », formule rituelle qui ouvre les devinettes traditionnelles. L’harmonisation vocalique régressive empêche que agwêdê puisse être interprété comme un dérivé de gwada, qui pourtant est de même racine.
proposition de codage TEI
<entry> <form>aguardar</form>,
<gloss xml:lang="fr">attendre</gloss><etym>Limpératif pluriel du verbe aguardar, aguardai, a donné
l’interjection <lang>forro</lang> <form xml:lang="cri">agwêdê!</form> <gloss>Attention!</gloss> qui est utilisé en particulier dans
<mentioned>Agwêdê! Al!</mentioned> <gloss xml:lang="fr">Attention! Le roi!</gloss>,
<def>formule rituelle qui ouvre les devinettes traditionnelles.</def>
L’harmonisation vocalique régressive empêche que <mentioned>agwêdê</mentioned> puisse être interprêté comme un dérivé de <mentioned>gwada</mentioned>, qui pourtant est de même racine.</etym>
</entry>
CreolData et LMF
un projet de base de données lexicales (Schang & alii 2005)
idée simple : réutiliser l’existant pour l’incorporer dans une base de données fonctionnant avec xml
à l’origine, utilisation de LMF et Afnor (Lexique pour le TAL)
CreolData et LMF
Entrée Lexicaleidentifiant : ‘535’forme lemmatisée : ‘flêsê’sens : ‘s535 s536’
Forme 1chaîne : ‘flêsê’
Forme 2
chaîne : ‘ôflêsê’
Sens identifiant : "s535"comportement syntaxique : ‘syn535’
Définitiontexte : ‘donner quelque chose en
cadeau à quelqu'un’ Sens identifiant : "s536"comportement syntaxique : "syn536"
Définitiontexte : " présenter un enfant à
l'Eglise"
CreolData et LMF
ce qui donne sous forme xml :<lexicalEntry id="535" pos="verb" lemmatizedForm="flêsê"
autonomy="yes" components="" senses="s535 s536"> <form id="f535a" string="flêsê"/><form id="f535b" string="ôflêsê"/></lexicalEntry>
pour le sens :<sense id="s535" syntacticBehaviors="syn535"
definitionBlocks="def535"> <definition id="def535" text="donner quelque chose en
cadeau à quelqu’un" lang="fr"/></sense><sense id="s536" syntacticBehaviors="syn536"
definitionBlocks="def535"> <definition id="def536" text="présenter un enfant à
l’Eglise" lang="fr"/> </sense>
CreolData et LMF
un système adapté à la description syntaxique :<syntacticBehavior id="syn535" frameSet="fS535"/> <frameSet id="fS535" frames="fS535_f1 fS535_f2"/> <frame id="fS535_f1" comment="verbe doc"
slots="synSlot_1 synSlot_2 synSlot_3"/> <frame id="fS535_f2" comment="verbe à cos"
slots="synSlot_1 synSlot_3 synSlot_4"/> <slot id="synSlot_1" function="subject"
semanticActant="agent" syntacticActant="np"/> <slot id="synSlot_2" function="object"
semanticActant="benef" syntacticActant="np"/> <slot id="synSlot_3" function="object"
semanticActant="theme" syntacticActant="np"/> <slot id="synSlot_4" function="object"
semanticActant="benef" syntacticActant="da_np"/>
CreolData et LMF
comportement syntaxique
id="syn535"
ensemble de cadresid="fS535"
cadre 1verbe double objet
slots : 1, 2, 3
cadre 2verbe à Compl. Obj.
Sec.slots : 1, 3, 4
slot 1
SN
slot 2
SN
slot 3
SN
slot 4
SP
CreolData et LMF
avantages :– liens avec des fichiers sons et des images facilités par la
structure hiérarchisée.
– description syntaxique et morphologique poussée permettant le développement d’analyseurs morphologiques et de grammaires électroniques
inconvénients :– pas de place initialement prévue pour l’étymologie.
Travail à faire pour l’évolution de la norme