19
MDA, 15 octobre 2004 Vers une ontologie du domaine de l’astronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

Vers une ontologie du domaine de l’astronomie

Embed Size (px)

DESCRIPTION

Vers une ontologie du domaine de l’astronomie. IRIT J. Mothe, N. Hernandez, E. LeMoing. Objectifs. Évaluer la réutilisabilité de la connaissance du thesaurus IAU Détection de concepts Analyse des relations RT (est lié à) Enrichir cette connaissance Détection de nouveaux termes - PowerPoint PPT Presentation

Citation preview

Page 1: Vers une ontologie du domaine de l’astronomie

MDA, 15 octobre 2004

Vers une ontologie du domaine de l’astronomie

IRIT

J. Mothe, N. Hernandez, E. LeMoing

Page 2: Vers une ontologie du domaine de l’astronomie

MDA, 15 octobre 2004

Objectifs

• Évaluer la réutilisabilité de la connaissance du thesaurus IAU– Détection de concepts– Analyse des relations RT (est lié à)

• Enrichir cette connaissance– Détection de nouveaux termes– Détection de nouvelles relations

Page 3: Vers une ontologie du domaine de l’astronomie

MDA, 15 octobre 2004

Détection de concepts

• Relations U (utilisé) et UF (utilisé pour) du thesaurusExemple : hubble sandage variable stars UF h s variable stars

• Regroupement automatique des termes sous même concepts (label principal = terme recommandé à utiliser)Exemple: concept : hubble sandage variable stars

label 2 : h s variable stars

Nouvelle connaissance extraites des corpus

Connaissance extraite de IAU

Page 4: Vers une ontologie du domaine de l’astronomie

MDA, 15 octobre 2004

• 2959 termes dans le thesaurus2547 concepts ayant entre 1 et 6 labels

À valider

Détection de concepts

Nouvelle connaissance extraites des corpus

Connaissance extraite de IAU

Page 5: Vers une ontologie du domaine de l’astronomie

MDA, 15 octobre 2004

Analyses des relations RT

• Analyse syntaxiqueAnalyse des mots communs de deux syntagmes

reliés par RT

• Analyse par le logiciel SyntexAnalyse du contexte dans lequel apparaissent deux syntagmes reliés par RT, dans un corpus

Nouvelle connaissance extraites des corpus

Connaissance extraite de IAU

Page 6: Vers une ontologie du domaine de l’astronomie

MDA, 15 octobre 2004

Analyses des relations RT

• 5975 relations RT287 liant syntagmes différant d’un seul mot Exemple : infrared radiation RT infrared

1286 liant syntagmes comportant mot communExemple : absorption spectra RT energy spectra

Autres ? À partir des corpus (Syntex)

Exemple : agb RT hr diagram :

A&A95 agb star, hr diagram of star

Nouvelle connaissance extraites des corpus

Connaissance extraite de IAU

Page 7: Vers une ontologie du domaine de l’astronomie

MDA, 15 octobre 2004

Termes différant d’un seul mot

Deux patrons syntaxiques :

– m1s1 RT m1s2 m2s2, (Patron A)

où m1s2 est une forme adjectivale du mot m1s1

Exemple : infrared RT infrared radiation

234 relations

– m1s1 RT m1s2 m2s2 (Patron B)

où m1s1=m2s2

Exemple : dipole RT electric dipole

53 relations

Nouvelle connaissance extraites des corpus

Connaissance extraite de IAU

Page 8: Vers une ontologie du domaine de l’astronomie

MDA, 15 octobre 2004

Termes différant d’un seul mot (2)

Relations sémantiques déduites :

• Patron A : m1s1 RT m1s2 m2s2

- s1 «  est un phénomène lié a » s2 Exemple : infrared radiation «  est un phénomène lié a »

infrared

- s1 « est une caractéristique de » s2Exemple : pulse width « est une caractéristique » de pulse

- s1 « est une partie de » s2 Exemple : supernova envelope « est une partie de »

supernova

Nouvelle connaissance extraites des corpus

Connaissance extraite de IAU

Page 9: Vers une ontologie du domaine de l’astronomie

MDA, 15 octobre 2004

Termes différant d’un seul mot (3)

• Patron B : m1s1 RT m1s2 m2s2

- s1 « est un » s2 (généricité/spécificité)

Exemple : dwarf cepheid « est un » cepheid

Nouvelle connaissance extraites des corpus

Connaissance extraite de IAU

Page 10: Vers une ontologie du domaine de l’astronomie

MDA, 15 octobre 2004

Termes ayant un mot commun

Deux patrons syntaxiques:

– m1s1 m2s1 …mns1 RT m1s2 m2s2… m2sn

où m1s1 = m1s2 (patron C)Exemple : planck black body formula RT planck constant 590 relations

– m1s1 ... mns1 RT m1s2.. mns2 (patron D)

où mns1=mns2

Exemple : absorption spectra RT energy spectra

510 relations

Nouvelle connaissance extraites des corpus

Connaissance extraite de IAU

Page 11: Vers une ontologie du domaine de l’astronomie

MDA, 15 octobre 2004

Termes ayant un mot commun (2)

Relations sémantiques déduites :• Patron C : m1s1 m2s1 …mns1 RT m1s1 m2s2… m2sn

- s1 et s2 sont des phénomènes liés entre eux

Exemple : signal analysi RT signal detection

- s1 et s2 sont des caractéristiques liées entre elle

Exemple : circumstellar envelope RT circumstellar shell

Nouvelle connaissance extraites des corpus

Connaissance extraite de IAU

Page 12: Vers une ontologie du domaine de l’astronomie

MDA, 15 octobre 2004

Termes ayant un mot commun (3)

• Patron D m1s1 ... mns1 RT m1s2.. mns2

– s1 et s2 sont deux sous-concepts du concept mns1

Exemple : absorption spectra et energy spectra sont des sous-concepts de spectra

Nouvelle connaissance extraites des corpus

Connaissance extraite de IAU

Page 13: Vers une ontologie du domaine de l’astronomie

MDA, 15 octobre 2004

Syntex : analyseur syntaxique de corpus

• Intérêt : extraire syntaxiquement les expressions d’une collection documentaire [Bourigault & Fabre, 2000]

• Deux phases– Pré-traitement par un étiqueteur

– Analyse syntaxique

– Analyse distributionnelle

• Originalité : apprentissage endogène [Bourigault & Lame, 2002]

Nouvelle connaissance extraites des corpus

Connaissance extraite de IAU

Page 14: Vers une ontologie du domaine de l’astronomie

MDA, 15 octobre 2004

Syntex

Intérêt : analyse syntagmes reliés par RT sans mot commun à partir de contextes d ’apparition dans le corpus

• Syntagmes reliés par RT avec contexte commun, détermination de la relation sémantique à partir des patrons A,B,C,D

Exemple : surface photometry RT surface brightness : Contexte commun galaxy : ( A&A 95 : galaxy surface photometry, surface

brightness of galaxy), patron C : surface photometry et surface brightness sont des

caractéristiques de galaxy

Nouvelle connaissance extraites des corpus

Connaissance extraite de IAU

Page 15: Vers une ontologie du domaine de l’astronomie

MDA, 15 octobre 2004

Syntex

• Syntagmes reliés par RT dont un des mots apparaît dans le contexte de l’autre syntagme, détermination de la relation sémantique à partir des patrons A,B,C,D

Exemple : rotation RT angular velocity :

Contexte de rotation velocity : ( A&A 95 : rotation velocity),

patron B : rotation et angular velocity sont deux types de velocity

Nouvelle connaissance extraites des corpus

Connaissance extraite de IAU

Page 16: Vers une ontologie du domaine de l’astronomie

MDA, 15 octobre 2004

Bilan

• Proposition de patrons syntaxiques dans le but de déterminer les relations sémantique entre syntagmes

• Validation nécessaire

• Utilisation des patrons pour déduire de nouvelles relations entre concepts à partir des contextes donnés par Syntex

Nouvelle connaissance extraites des corpus

Connaissance extraite de IAU

Page 17: Vers une ontologie du domaine de l’astronomie

MDA, 15 octobre 2004

• Détection de nouveaux termes du domaine– Termes apparaissant souvent dans le corpus– Termes avec fort tf.idf

Analyse en cours

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 18: Vers une ontologie du domaine de l’astronomie

MDA, 15 octobre 2004

• Détection de nouvelles relations– Entre termes de l’ontologie– Entre termes proposés précédemment

À partir des patrons syntaxiques et contextes des termes donnés par syntex

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 19: Vers une ontologie du domaine de l’astronomie

MDA, 15 octobre 2004

Conclusion

• Construction d’une ontologie à partir du thesaurus IAU

• Extraction de nouvelles connaissances à partir de corpus

• Apprentissage des relations syntaxiques

Validation pour semi-automatiser le procédé