27
Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Embed Size (px)

Citation preview

Page 1: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Silfide : ressources, outils et normalisation

Laurent RomaryLaboratoire LoriaNancy

Page 2: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Silfide - présentation

Serveur Interactif pour la Langue Française, son Identité, sa Diffusion, son EtudeProjet commun lancé au début de 1996

CNRS (Centre National de la Recherche Scientifique)

Aupelf•Uref (Association des Universités Partiellement ou Entièrement de Langue Française)

Équipes : Loria, INaLF, CLIPS, LIMSI, LPL

Page 3: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Principaux objectifs

coordonner les efforts de la communauté académique dans le domaine des ressources linguistiques

développer et promouvoir des actions de normalisation

procurer un accès libre aux ressources et aux services associés

Page 4: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Contexte

Ressources linguistiques Textes (littérature,théâtre, poésie, journaux, etc.) Transcriptions (e.g. dialogues) Dictionnaires, lexiques

Utilisateurs Lexicographes, linguistes, informaticiens Outils divers (e.g. étiqueteurs morpho-

syntaxiques)

Page 5: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Un constat

coût intellectuel et financier de la création des données

quelle documentation associée à ces données ?

comment utiliser ces données (outils) ?

Normaliser pour mieux utiliser et partager nos données.

Page 6: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

TEI (Text Encoding Initiative)

Origine : réunion de novembre 1987 au Vassar College (Poughkeepsie, New York)

Directives de codage des textes électroniques sur la base de SGML

Institutions scientifiques :ACH, ALLC, ACL

Guidelines for Electronic Text Encoding and Interchange (TEI P3)

eds. : Michael Sperberg-McQueen et Lou Burnard

Page 7: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

TEI - Contenu

Recommandations norme SGML (Standard Generalized Markup

Language) modularité de la DTD TEI

un jeu de balises "noyau" (core tag set) : en-tête, divisions, paragraphes etc.

des ensembles de balises de base (base tag sets) : prose, poésie en vers, dictionnaires, etc.

des jeux de balises additionnelles (additional tag sets) : liens hypertextuels etc.

Conséquence : une famille de DTD TEI

Page 8: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

TEI - Documentation des textes

Identification et suivi des textescf. catalogage des documents électroniques (ex.

Silfide)cf. échange des documents électroniques

Comment : en-tête TEI (TeiHeader)aspects bibliographiques du document source

(auteur, éditeur, édition, etc.)aspects propres au document électronique (aspects

bibliographiques, codage, historique des révisions etc.)

Page 9: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

TEI - Pièces de théâtre

interventions et indications scéniques<sp who=“P”>

<speaker>Paul</speaker>

<p>Il fait chaud aujourd’hui…</p>

</sp>

<stage>Paul allume une cigarette</stage>

remarque : déclaration des personnages dans une <castList>

Page 10: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

TEI - Transcriptions de l’oral

tours de parole, segments<u who=“S”>

<seg>France Telecom, bonjour.</seg>

<seg>Que désirez-vous?</seg>

</u>

remarque : possibilités de coder les pauses, transitions,

superpositions, bruits, difficultés de transcription etc.

Page 11: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

TEI - Dictionnaires

structure minimale d’une entrée : mot-vedette, indications grammaticales, définition,

exemples<entry>

<form>

<orth>table</orth>

</form>

<gramGrp><pos>n.f.</pos><gramGrp>

<def>Pièce de mobilier…</def>

<eg>Une table de cuisine</eg>

</entry>

Page 12: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Silfide - du point de vue de l’utilisateur

pas de balise SGML…un scénario en deux temps 

Sélection de ressources : construction d’un corpus de travail (“panier”)

Requêtes sur le contenu : utilisation d’outils en ligne sur ce corpus

Page 13: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Sélection des ressources

Liste des sélections

•Le petit Prince…•Le Père Goriot…•ksqjdhlksqjhd•ksjqdhlkqj•…

Titre

Auteur

Requête complexe

Recherche

panier

Sélection Travail en ligne

Résultat

Page 14: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Et XML arriva...

Où l’internet donne raison à la démarche de la TEI

Page 15: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Un rapide état des lieux - 1

XML Une recommandation du W3C simplifiant

SGML Un gain en souplesse et en puissance

Document bien formé/valide

Des interfaces de programmation API DOM : modèle arborescent API SAX : accès par évènements

Page 16: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Un rapide état des lieus - 2

Des recommandations associées Xpath

Un langage généralisé d ’accès à la structure d ’un document XML/body//div/q[lan=“de”]

, XSLUn langage de transformation et de présentationUn système à base de règle exprimées en XMLLes bases d ’une BD orientée XML?

Page 17: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Mise en réseau de serveurs Silfide

DB1Serveur 1

DB2

Serveur 2

DB3

Serveur 3

DB4

Serveur 4

Client(navigateur)

http

Point d ’accès local

Page 18: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Usage généralisé de XML

Informations utilisateursGestion de l ’espace de travail

Paramètres de session « Panier »

RequêtesListes de résultats

Page 19: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Silfide et XML…

DB1Server 1

DB2

Server 2

DB3

Server 3

DB4

Server 4

User Client

<XQL>

Local access point<XRS>

<SWS>

Page 20: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Bilan : apports d ’XML

Uniformisation des formats Contenus « utiles » (adapter la TEI…) Gestion des échanges

Fractionnement et recomposition Utilisation des documents par parties

E.g. : entrée d ’un dictionnaire

Résultat >> documentApplications : commandes en « pipe » (cf. HCRC)

Page 21: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Bilan : apports d ’XML - 2

De premiers composants réutilisables Parseurs XML Interpréteur de requêtes sur des documents

structurés Au delà?

Page 22: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Et maintenant ?

Pistes de développement des efforts de normalisation

Page 23: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Développements en cours - 1

Ressources primaires Initiative INaLF-Loria de rétro-conversion de

textes issus de FrantextThéâtre, poésie etc.Des bases éditoriales codifiées et simplifiées (en-

tête minimal)

Une prise de conscience du besoin de normalisation : IRESCO, Paris IV, etc.

Page 24: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Développements en cours - 2

Annotation externe Cf. CES/Eagles - avènement de Xpath Exemple: alignement de textes multilingues Annotation de la référence MLIS/Mate: une initiative européenne dans le

domaine de l ’étude du dialogue

Page 25: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Développements en cours - 3

Ressources pour l ’Informatique linguistique Terminologie/lexicographie multilingue

MARTIF (ISO 12200, expérimenté dans MLIS/Dhydro)

Lexique syntaxiqueTAGML

Page 26: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Perspectives

Stabiliser une « couche basse » API d ’accès aux mots d ’un texte Entrées/Sorties d ’étiqueteurs morpho-

syntaxiques Architectures de ressources lexico-

grammaticales

Page 27: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy

Moyens

Accroître la normalisation des données et des interfaces Des rencontres régulières (au delà de cette

journée « découverte ») Un vrai GT sur ce thème

Aboutir à une base commune pour: Échanger des données primaires Échanger des composants Évaluer nos systèmes