Upload
timothee-renard
View
115
Download
7
Embed Size (px)
Citation preview
1
Modélisation, reformulation et interrogation d’expressions temporelles extraites de
textes en langage naturel
Ce travail est financé par l’Agence Nationale de la Recherche (ANR-Contint, projet RelaxMultiMedias 2)
Cyril Faucher, Jean-Yves Lafaye, Frédéric Bertrand
L3i, Université de La Rochelle, France [email protected]
Master 2, 16/09/2010
Le doctorat
La thèse c’est un sujet faire l’état de l’art du domaine (bibliographie) des contributions
expérimenter des approches, développer des applicationsvaloriser son travail par des articles : conférences nationales /
internationales et des revues (journaux) rédiger un mémoire de thèse
Mais aussi participer à des groupes de travail, séminaires, etc enseigner à l’Université, à l’IUT, etc
Débouchés principaux : Maître de Conférence, ingénieur de recherche (public ou privé), startup, etc
2
3
2
Thèse dans un contexte de projet de recherche avec des partenaires
industriels
Plan
1. Contexte et objectifs
2. Modéliser des propriétés temporelles d’événements
3. Acquisition et Modélisation de Connaissances Temporelles : chaîne TKAM
4
1. Contexte
Notion d’événements Nature des événements: culturels, touristiques Propriétés spatiales et temporelles Récurrence et périodicité
Interopérabilité avec les standards du domaine (presse) IPTC (NewsML, EventsML) iCalendar
52
1. Objectifs
Représenter de manière intégrée des événements et leurs données associées (métadonnées)
Assurer la persistance dans une base de données / connaissances
Aligner un modèle métier sur des ontologies existantes (donne accès à des raisonneurs, définit une sémantique de manière formelle et structurée)
Formuler des requêtes avec des expressions contrôlées proche du langage naturel
6
1. Contexte et objectifs
Chaîne d’acquisition de connaissances temporelles A partir de textes (dépêches), extraire des événements
Produire une reformulation du texte des dépêches, dans un langage formel non ambigu, proche du langage naturel initial
=> validation sémantique par l’utilisateur => interrogation
7
Texte libreEvénements + propriétés temporelles
Texte contrôlé
1. Contexte : utilisation de l’IDM
Utilisation des techniques de l’Ingénierie Dirigée par les Modèles pour assurer l’interopérabilité d’applications métier (passerelles entre les applicatifs) l’intégration de données hétérogènes la vérification de l’intégrité d’instances / d’information
Exemple : transformation / reformulation / intégration
8
Texte Libre
SGBDR
Texte contrôlé
Ontologie
2. Modéliser des propriétés temporelles d’événements : Comment ?
Deux types de représentations des occurrences d’événements Concrète : un ensemble (en extension) contenant des dates identifiables
dans un calendrier (une granularité est fixée, le calendrier est défini sur une base annuelle)
Extension :
{ …, « de 2010-05-20T14:00:00 à 2010-05-20T16:00:00 »,
« de 2010-05-27T14:00:00 à 2010-05-27T16:00:00 », … }
Abstraite : une formule décrit en intension l’ensemble précédentParticulièrement adapté aux événements périodiques ou pseudo
périodiques (exceptions), et aussi aux événements définis relativement les uns par rapport aux autres
Intension [Carnap] :« tous les jeudis de mai de chaque année de 14h à 16h »
« tous les jours 3 heures avant la basse mer »9
2. Modéliser des propriétés temporelles d’événements : avec quel modèle ?
Modèle métier : Modèle d’accessiblité [Battistelli, Teissèdre]
Modèle d’événement : métadonnées sur les événements (IPTC) spatiales temporelles …
Modèles temporels existants ISO 19108 standard : Time geometry: Instant, Period, Allen’s relations iCalendar format : Periodic interval, Exception (+ periodic exception) TimeML [Pustejovsky], OWL-Time [Pan]
Modèle temporel proposé synthèse de l’ISO et d’iCalendar sous une forme objet position relative (3 heures avant la basse mer) une grammaire formelle
10
2. Modéliser des propriétés temporelles d’événements : extrait du Modèle Temporel Extension de l’ISO 19108 Fondé sur le concept de règle périodique (PeriodicRule)
11
Norme ISO 19108
L’utilisateur saisie des expressions temporelles avec un éditeur contextuel
2. Un langage textuel contrôlé pour exprimer des propriétés temporelles
12
Vue textuelle
Peuplement
3. Workflow générique
13
6ème semaine de chaque mois
6ème semaine de chaque année
Janvier 2010 suit décembre 2009
Décembre 2009 précède janvier 2009
3. Validation des expressions
14
Base de connaissance
Modèle du calendrier
Expressions temporelles
Définition de règles
Espace technique :• objet • conception par contrats
Espace technique :• logique de description
- un mois est composé de 4 à 5 semaines- une année est composée de 52 à 53 semaines
- janvier suit décembre de l’année précédente- février suit janvier de la même l’année
3. Interrogation des expressions
15
Requêtes Est-ce qu’un musée est « ouvert le 20/05/2010 » ? Promotion : extension -> intension : « ouvert tous les jeudis » Recherche dans la base de connaissance des expressions du type
« tous les jeudis »« tous les jours (changement de granularité) »
Réponse du système : logique ternaire VRAI FAUX ? (inconnu)
3. Acquisition et de Modélisation de Connaissances Temporelles : chaîne TKAM
16
Instances du modèle temporel
Instances du modèle linguistique
iCalendar
Texte contrôlé
La chaîne de traitement a été expérimentée sur un
corpus de 513 expressions fournies par RelaxNews
Expression saisie : « Ouvert du lundi au vendredi, de 9h à 18h. Nocturne le jeudi jusqu'à 22h. Fermé le 18 mai. »
- du texte en langage naturel au texte contrôlé -