Upload
ian-fulton
View
27
Download
3
Embed Size (px)
DESCRIPTION
Vers une ontologie du domaine de l’astronomie. IRIT J. Mothe, N. Hernandez, E. LeMoing. Objectifs. Évaluer la réutilisabilité de la connaissance du thesaurus IAU Détection de concepts Analyse des relations RT (est lié à) Enrichir cette connaissance Détection de nouveaux termes - PowerPoint PPT Presentation
Citation preview
MDA, 15 octobre 2004
Vers une ontologie du domaine de l’astronomie
IRIT
J. Mothe, N. Hernandez, E. LeMoing
MDA, 15 octobre 2004
Objectifs
• Évaluer la réutilisabilité de la connaissance du thesaurus IAU– Détection de concepts– Analyse des relations RT (est lié à)
• Enrichir cette connaissance– Détection de nouveaux termes– Détection de nouvelles relations
MDA, 15 octobre 2004
Détection de concepts
• Relations U (utilisé) et UF (utilisé pour) du thesaurusExemple : hubble sandage variable stars UF h s variable stars
• Regroupement automatique des termes sous même concepts (label principal = terme recommandé à utiliser)Exemple: concept : hubble sandage variable stars
label 2 : h s variable stars
Nouvelle connaissance extraites des corpus
Connaissance extraite de IAU
MDA, 15 octobre 2004
• 2959 termes dans le thesaurus2547 concepts ayant entre 1 et 6 labels
À valider
Détection de concepts
Nouvelle connaissance extraites des corpus
Connaissance extraite de IAU
MDA, 15 octobre 2004
Analyses des relations RT
• Analyse syntaxiqueAnalyse des mots communs de deux syntagmes
reliés par RT
• Analyse par le logiciel SyntexAnalyse du contexte dans lequel apparaissent deux syntagmes reliés par RT, dans un corpus
Nouvelle connaissance extraites des corpus
Connaissance extraite de IAU
MDA, 15 octobre 2004
Analyses des relations RT
• 5975 relations RT287 liant syntagmes différant d’un seul mot Exemple : infrared radiation RT infrared
1286 liant syntagmes comportant mot communExemple : absorption spectra RT energy spectra
Autres ? À partir des corpus (Syntex)
Exemple : agb RT hr diagram :
A&A95 agb star, hr diagram of star
Nouvelle connaissance extraites des corpus
Connaissance extraite de IAU
MDA, 15 octobre 2004
Termes différant d’un seul mot
Deux patrons syntaxiques :
– m1s1 RT m1s2 m2s2, (Patron A)
où m1s2 est une forme adjectivale du mot m1s1
Exemple : infrared RT infrared radiation
234 relations
– m1s1 RT m1s2 m2s2 (Patron B)
où m1s1=m2s2
Exemple : dipole RT electric dipole
53 relations
Nouvelle connaissance extraites des corpus
Connaissance extraite de IAU
MDA, 15 octobre 2004
Termes différant d’un seul mot (2)
Relations sémantiques déduites :
• Patron A : m1s1 RT m1s2 m2s2
- s1 « est un phénomène lié a » s2 Exemple : infrared radiation « est un phénomène lié a »
infrared
- s1 « est une caractéristique de » s2Exemple : pulse width « est une caractéristique » de pulse
- s1 « est une partie de » s2 Exemple : supernova envelope « est une partie de »
supernova
Nouvelle connaissance extraites des corpus
Connaissance extraite de IAU
MDA, 15 octobre 2004
Termes différant d’un seul mot (3)
• Patron B : m1s1 RT m1s2 m2s2
- s1 « est un » s2 (généricité/spécificité)
Exemple : dwarf cepheid « est un » cepheid
Nouvelle connaissance extraites des corpus
Connaissance extraite de IAU
MDA, 15 octobre 2004
Termes ayant un mot commun
Deux patrons syntaxiques:
– m1s1 m2s1 …mns1 RT m1s2 m2s2… m2sn
où m1s1 = m1s2 (patron C)Exemple : planck black body formula RT planck constant 590 relations
– m1s1 ... mns1 RT m1s2.. mns2 (patron D)
où mns1=mns2
Exemple : absorption spectra RT energy spectra
510 relations
Nouvelle connaissance extraites des corpus
Connaissance extraite de IAU
MDA, 15 octobre 2004
Termes ayant un mot commun (2)
Relations sémantiques déduites :• Patron C : m1s1 m2s1 …mns1 RT m1s1 m2s2… m2sn
- s1 et s2 sont des phénomènes liés entre eux
Exemple : signal analysi RT signal detection
- s1 et s2 sont des caractéristiques liées entre elle
Exemple : circumstellar envelope RT circumstellar shell
Nouvelle connaissance extraites des corpus
Connaissance extraite de IAU
MDA, 15 octobre 2004
Termes ayant un mot commun (3)
• Patron D m1s1 ... mns1 RT m1s2.. mns2
– s1 et s2 sont deux sous-concepts du concept mns1
Exemple : absorption spectra et energy spectra sont des sous-concepts de spectra
Nouvelle connaissance extraites des corpus
Connaissance extraite de IAU
MDA, 15 octobre 2004
Syntex : analyseur syntaxique de corpus
• Intérêt : extraire syntaxiquement les expressions d’une collection documentaire [Bourigault & Fabre, 2000]
• Deux phases– Pré-traitement par un étiqueteur
– Analyse syntaxique
– Analyse distributionnelle
• Originalité : apprentissage endogène [Bourigault & Lame, 2002]
Nouvelle connaissance extraites des corpus
Connaissance extraite de IAU
MDA, 15 octobre 2004
Syntex
Intérêt : analyse syntagmes reliés par RT sans mot commun à partir de contextes d ’apparition dans le corpus
• Syntagmes reliés par RT avec contexte commun, détermination de la relation sémantique à partir des patrons A,B,C,D
Exemple : surface photometry RT surface brightness : Contexte commun galaxy : ( A&A 95 : galaxy surface photometry, surface
brightness of galaxy), patron C : surface photometry et surface brightness sont des
caractéristiques de galaxy
Nouvelle connaissance extraites des corpus
Connaissance extraite de IAU
MDA, 15 octobre 2004
Syntex
• Syntagmes reliés par RT dont un des mots apparaît dans le contexte de l’autre syntagme, détermination de la relation sémantique à partir des patrons A,B,C,D
Exemple : rotation RT angular velocity :
Contexte de rotation velocity : ( A&A 95 : rotation velocity),
patron B : rotation et angular velocity sont deux types de velocity
Nouvelle connaissance extraites des corpus
Connaissance extraite de IAU
MDA, 15 octobre 2004
Bilan
• Proposition de patrons syntaxiques dans le but de déterminer les relations sémantique entre syntagmes
• Validation nécessaire
• Utilisation des patrons pour déduire de nouvelles relations entre concepts à partir des contextes donnés par Syntex
Nouvelle connaissance extraites des corpus
Connaissance extraite de IAU
MDA, 15 octobre 2004
• Détection de nouveaux termes du domaine– Termes apparaissant souvent dans le corpus– Termes avec fort tf.idf
Analyse en cours
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
MDA, 15 octobre 2004
• Détection de nouvelles relations– Entre termes de l’ontologie– Entre termes proposés précédemment
À partir des patrons syntaxiques et contextes des termes donnés par syntex
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
MDA, 15 octobre 2004
Conclusion
• Construction d’une ontologie à partir du thesaurus IAU
• Extraction de nouvelles connaissances à partir de corpus
• Apprentissage des relations syntaxiques
Validation pour semi-automatiser le procédé