Upload
joseph-atkinson
View
31
Download
3
Embed Size (px)
DESCRIPTION
Ontology Multilingue et Système Documentaire. Farah HARRATHI (PhD) Rami HARRATHI (PhD) Catherine ROUSSEY (MCF), Sylvie CALABRETTO (HDR),. Plan. SyDoM Système Documentaire Multilingue Passage à l’échelle Travaux de Farrah HARRATHI - PowerPoint PPT Presentation
Citation preview
FRE 2672
Ontology Multilingueet Système Documentaire
Farah HARRATHI (PhD)
Rami HARRATHI (PhD)
Catherine ROUSSEY (MCF),
Sylvie CALABRETTO (HDR),
SyDoM Système Documentaire Multilingue
Passage à l’échelleTravaux de Farrah HARRATHI
Documents Structurés: interrogation par le contenu et la structure
Travaux de Rami Harrathi
Perspectives
Plan
2
3
Introduction
Problématique Recherche d’Information dans un corpus Multilingue (RIM)
Indexation: Amélioration de la représentation de l’information
Contexte Doc ’INSA: les preprints de la SAE Contenu textuel Articles anglais de mécanique Public français: étudiants ou chercheurs Problème: indexation?, interrogation?, visualisation? Format pérenne XML
Proposer un système capable de répondre aux besoins d'une bibliothèque spécialisée Système Documentaire Multilingue
RIM : les ressources linguistiques
NécessairesConstruction difficileQualité ressources qualité résultatsAdéquation ressources / corpus :
connaissance du domaine terminologie du domaine
Problème de traduction des termesterme = "manifestation linguistique d'un concept dans un
texte"
Les objectifs du système SyDoM
Indexation manuelle (qualité / quantité) automatisationMultilingue :
utilisation d’un langage pivotAméliorer la précision des index :
prise en compte des relationsGérer et normaliser les connaissancesDifférencier le terme du concept ontologie
Besoin d’un modèle de représentation des connaissances
Les Graphes Sémantiques
« Tom réalise une expérimentation sur un moteur »
tc1.1tr1 tr21 12 2
tc2.1 tc1.2
Personne Expérimentation
Moteuragent
patient
1 12 2
Un type de concept
Un terme label d’un type de concept
Un arc
Une ontologie
ExpérimentationMoteu
r
Experimentation
Engine
Ensemble des vocabulaires
Ensemble des types de concepts
Vocabulaire anglais
Vocabulaire français
tc1
T
tc1.1 tc1.2
tc1.2.1
tc2
tc2.1
Les Graphes Sémantiques
Le niveau conceptuel : une modélisation du domaine ne dépend pas d’une seule langue (type terme)
définit le langage pivot
Le niveau terminologique : vocabulaire = ensemble de termes d’une langue le terme dans un contexte référence un concept
terme = label d’un type
définit les langages de présentation pour l’utilisateur
Carburant
Les Graphes Sémantiques :
Projection étendue
butDéveloppeme
nt
1 2
butDéveloppeme
ntDiese
l
1 2
Projection étendue
Relation de spécialisation
Carburant
composant
Moteur monocylindr
e
2 1
H
G
Spécialise ou généralise les types Ne conserve pas le nombre de nœuds conceptsConserve le nombre d ’arcs
SyDoM: 3 modules
Module Gestion de l’ontologie
Module IndexationAnnotationConstruction des indexMAJ de l’ontologie
Module RechercheConstruction d'une requêteTraduction en langage pivotRecherche de documentsVisualisation
experimental study
of combustion in diesel
engine
Indexation
Documentaliste
Index Annotations
1
2
L’ontologie
experimental study of
combustion in diesel engine
Mise à jour de l’ontologie
Visualisation des résultats
Si l’utilisateur souhaite connaître l’endroit de la deuxième annotation de « moteur diesel » dans le texte, alors en cliquant sur « 2 » le système surligne l’occurrence dans le texte
Si l’utilisateur clique sur un lien hypertexte alors le système affiche la définition du concept ou de la relation sélectionné
20
Outline
Context: SyDoM prototypeManual indexing semi-automatic indexingLarge scale corpora
A new indexing procedureLanguage propertiesStatistical and linguistic method
Experimentation and Future works
21
State of the Art : Concept Extraction
Monolingual Corpora1. Statistical Methods : ANA, etc.
2. Linguistic Methods : LEXTER, NOMINO, FASTER, etc.
3. Hybrid Methods : XTRACT, SYNTEX, EXIT, etc.
Multilingual Corpora : Endogenous Method Latent Semantic Indexing Method parallel corpora
Terms gathering:Contextual Distribution
22
Our Proposition : Theory
General language propertiesLeast Effort PrincipleSaussure PrincipleWord Sequence Term Unicity
Statistic and linguistic analysisMutual InformationContextual Distribution
23
General Language Properties
Principle of Least Effort Empty words are frequent and short.
Saussure PrincipleLocal differences help identifying empty from non empty
words
Word sequences2 patterns are possible NEN or NEEN
Unicity Principle In a textual unit, two occurrences of the same term cannot
be found.
25
Simple Terms Extraction
word categorization
A S
Lexical data available after
corpus pre-processing.
Candidate terms
terms
ontology
matching
validation
26
Mutual Information
MI(x,y)=log2(P(x,y)/(P(x)P(y)) = log2(N*f(x,y)/f(x)f(y))
If 2 words, T1 and T2, appear together in the corpus in a significative way then the sequence of these 2 words (T1T2) is considered as a new term of the domain untitled a compound term.
Term frequency « graphe » 9313
Term frequency« conceptuel » 8205
Term frequency« conceptuel » at position p+1 such as « graphe » is at the position p
7522
27
Compound Term Extraction
Mutual Information is used to determine compound terms.
Iterative and incremental process.
Terms lists New termsDetection of new
terms
Addition of new terms
28
Contextual Distribution
distribution of T2 :(T1), (T5-T3), (T3-T5), (T3-T1).distribution of T4 :(T3-T1), (T3-T5), (T1), (T5-T3).
if 2 terms have similar contextual distributions, then they are 2 occurrences of the same concept.
1) T1T2 4) T3T2T5 7) T5T4T3
2) T3T4T1 5) T3T4T5 8) T3T2T1
3) T5T2T3 6) T1T4
29
Concept labellingIf 2 terms have the same context they are
semantically closed.« the inventory of products in dump »
« the inventory of products in warehouse »
« the inventory of products in store »
terms « dump », « warehouse » and « store » belong to the same concept
Warehouse
Store
Dump
?
Store
Garage
Warehouse
Dump
Drugstore
Stocking Place
matching
Ontology concept
Build concept (to name)
30 doctor’s prescriptionsExtraction of compound termsComparison with TerminologyExtractor
Patient âgé de 55 ans, adressé par le Dr M. pour coronarographie en vue d'une revascularisation.
Ce patient sportif réalise régulièrement des épreuves d'effort à titre systématique. En janvier 1990, l'épreuve d'effort était négative à 210 watts. Le 27.11.91, elle s'avérait positive et symptomatique dès 120 watts.
La scintigraphie myocardique réalisée en décembre montrait une ischémie antérieure.
La coronarographie a mis en évidence une sténose de l'IVA distale sub-occlusive et la même lésion sur la circonflexe distale. Ces deux vaisseaux sont revascularisés par collatéralité, la fonction ventriculaire gauche est normale.
Experimentation
30
33
Conclusions et perspectives
Generic method of concept extraction using large scale multilingual corpora
Combination of linguistic and statistical approaches.
SyDoM prototype evolutionSemi automatic indexing
Tests on several corpora in order to find appropriate thresholds.
Relation extraction method?
Proposer un modèle logique d’interrogation de partie de document.
Toujours basé sur les Graphes Conceptuels.
Repart des travaux de Ammar Kheirbek et Yves Chiramella.
Proposition
35
Classification de documents techniques à base d’ontologies multilingues
Prise en compte de la structure logique, sémantique du document.
Différents niveau de ressources sémantiquesOntologie formelle pour la gestion de projetOntologie linguistique pour l’indexation de document.
Une bourse du ministère à la recherche d’un bon étudiant de Master Recherche
voir liris.cnrs.fr/actu/these2008 sujet N°4.
Perspectives