www.irstea.fr
Pour mieux
affirmer
ses missions,
le Cemagref
devient Irstea
Catherine ROUSSEY
Projet Animitex
28 aout 2014, Montpellier
Ontologies, Web de Données et SKOS Transformation
Merci à
Fabien Amarger
Fabien Gandon
2
Plan
• Définitions de base: de l’Ontologie aux ontologies
• Données Information Connaissances
• Interopérabilité et ontologies
• Format et standard du web sémantique
• Ontologie linguistique système de recherche d’information
• Exemple SKOS
• Ontologie de données web de données
• Exemple RDFS, OWL
• Ontologie Logique…
3
Définitions: DONNÉES, INFORMATIONS, CONNAISSANCES
Donnée: un élément d’information,
percevable,
manipulable
Information: donnée +
sens + contexte
type
Connaissance: information +
stabilité + croyance
abstraction + traitement
généralisation d’un ensemble d’information = modèle
toujours propre à une personne
partagée avec d’autres personnes
4
Schéma général DONNÉES, INFORMATIONS, CONNAISSANCES
Données
Information
Connaissances
Perception
Sens dans un contexte
Résultat d’un processus d’apprentissage: une
généralisation d’un ensemble d’information que
l’on va mémoriser
Données
Données typées
Classes en POO Description sous forme d’attribut (description
quantitative & qualitative ) + méthodes
(traitements)
Connaissances en IA Des traitement particuliers sur les données
qualitatives
Différent niveau de granularité : information
structurée non structurées
BD Relationnelle Données fortement structurées optimisées pour le
stockage
5
Définition ONTOLOGIE
Ontologie avec un O majuscule (philosophie):
Une science: une branche de la métaphysique qui a pour objectif
l’étude de l’être, c'est-à-dire l'étude des propriétés générales de tout
ce qui est…
Ontologies au pluriel avec un o minuscule (informatique):
Outils informatiques
résultat d’une modélisation d’un domaine d’étude
défini pour un objectif donné
acceptée par une communauté d’utilisateurs
…
6
Ontologies …
Gruber 1993 : « une ontologie est une spécification explicite d’une
conceptualisation »
• Conceptualisation: modèle abstrait du domaine: quelles entités?
• Spécification explicite: les types et leurs contraintes d’usage sont définis
dans un langage…
Exemples:
• Un thésaurus : vocabulaire normalisé
• Un schéma de BD : un modèle structuré d'un domaine
• Un système expert : un modèle du domaine formalisé pour les
inférences, des conditions exprimées à l'aide de formules logiques
Ontologie linguistique, ressource termino-ontologique, ontologie de
domaine, ontologie de haut niveau, vocabulaire de métadonnées…
Thomas R. Gruber. “A translation approach to portable ontology specifications”,
Knowledge Acquisition, Volume 5, Issue 2, June 1993, Pages 199–220
7
Différent niveau d’Intéropérabilité
7 Increasing Interoperability Capability
Incre
asin
g K
no
wle
dg
e
Lexical
Interoperability
Data
Interoperability Object
Interoperability
List
Thesaurus
Taxonomy
Conceptual Model
Logical
Theory
Controlled Vocabulary
Glossary
UML
DB
Schema XML Schema
ER Model
OWL
Description
Logic
Lexical Database
RDF
SKOS
8
Web sémantique, ontologies, web de données
World Wide Web Consortium
(W3C)
Credit Benjamin Nowak
9
Syntaxe de base du web sémantique RDF: RESOURCE DESCRIPTION FRAMEWORK
is a triple model i.e. every
piece of knowledge is broken down into
( subject , predicate , object )
RDF
Credit Fabien GANDON
10
http://inria.fr/~fabien#me
http://inria.fr/schema#author
http://inria.fr/rr/doc.html
http://inria.fr/schema#theme
"Music"
10
Credit Fabien GANDON
11 <rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-
rdf-syntax-ns#"
xmlns:inria="http://inria.fr/schema#" >
<rdf:Description
rdf:about="http://inria.fr/rr/doc.html">
<inria:author rdf:resource=
"http://inria.fr/~fabien#me" />
<inria:theme>Music</inria:theme>
</rdf:Description>
</rdf:RDF>
11
Credit Fabien GANDON
12
Les composants des ontologies
Concept /
Class
Term
Object/Instance
Relation
hasLabel
Property
Semantic Relation
Object Relation
Linguistic Relation
Textual Definition Logical Definition
isInstanceOf
hasArgument
hasName hasArgument
hasArgument
hasN
am
e
hasName
*
*
*
1
* * 1
1
* *
* *
1
*
13
Ontologie linguistique/terminologique
Concept/
Class
Term
Object/Instance
Relation
hasLabel
Property
Semantic Relation
Object Relation
Linguistic Relation
Textual Definition Logical Definition
isInstanceOf
hasArgument
hasName hasArgument
hasArgument
hasN
am
e
hasName
*
*
*
1
* * 1
1
* *
*
*
1
*
14
Problème de l’interopérabilité lexicale
Le même terme est utilisé pour représenter différents objets
Le même objet est référencé par des termes différents
Credit Fabien GANDON
15
A relatively large
natural stream of
water
15
rivière
fleuve
river
rio
A relatively large
natural stream of
water
Water course
Una corriente
relativamente larga
corriente de agua natural
Cours d’eau naturel de moyenne
ou de faible importance, qui en
principe n’aboutit pas directement
à la mer
Cours d’eau naturel
généralement important
(plus spécialement lorsque
ce cours d’eau se jette
dans la mer)
16
A relatively large
natural stream of
water
16
rivière
fleuve
river
rio
A relatively large
natural stream of
water
Water course
Una corriente
relativamente larga
corriente de agua natural
Cours d’eau naturel de moyenne
ou de faible importance, qui en
principe n’aboutit pas directement
à la mer
Cours d’eau naturel
généralement important
(plus spécialement lorsque
ce cours d’eau se jette
dans la mer)
17
17
18
Système de Recherche d’Information
Matchin
g
Docum
ent
index
and
user
query
1
2
3
Multilingual Corpora
Query
Ordered list of documents
Terminological
Ontology
Information
Retrieval
System
indexing
19
Système de Recherche sur le web
mapping
annotation Query
Results
annotation
annotation
20
Format des ontologies terminologiques SKOS: SIMPLE KNOWLEDGE ORGANIZATION SYSTEM
Credit http://www.w3.org/2004/02/skos/intro
21
Ontologie de données
*
Concept /
Class
Term
Object/Instance
Relation
hasLabel
Property
Semantic Relation
Object Relation
Linguistic Relation
Textual Definition Logical Definition
isInstanceOf
hasArgument
hasName hasArgument
hasArgument
hasN
am
e
hasName
*
*
1
* * 1
1
* *
* *
1
*
*
22
Exemple d’ontologie de données LE DICTIONNAIRE AGRICOLE GIEEA
23
Intéropérabilité de données LES FORMATS D’ÉCHANGE DE DONNÉES (SCHÉMA XML)
Blue
data
Blue
system
Green
data
Green
system
Red
data
Red
system
24
Intéropérabilité de données LE WEB DE DONNÉES OU LINKED DATA
An extension of the
current Web…
… where data are given
well-defined and
explicitly represented
meaning, …
… so that it can be
shared and used by
humans and machines,
...
... better enabling them
to work in cooperation
And clear principles on
how to publish data
25
Les ontologies dans le web de données
Une ontologie contient un vocabulaire et un schéma de données:
• consensuels,
• publiés sur le web et documentés
• formalisés avec des standards du web (RDF, OWL, SPARQL)
• Avec des contraintes en DL (conditions nécessaires et/ou suffisantes)
= un schéma de données pour le web de données
26
The Linking Open Data cloud
2
6
Credit Bill ROBERTS
Credit Linking Open Data cloud diagram, by Richard Cyganiak and Anja
Jentzsch. http://lod-cloud.net/
27
Format des ontologies de données RDF SCHEMA
define classes and relations of resources and organize their hierarchy
define signatures of relations (domain, range)
document them with labels and comments
define associated inference rules
Credit Fabien Gandon #12
#21
#47 #48
"document"
"book"
"livre"
"novel"
"roman"
"short story"
"nouvelle"
28
29
Format des ontologies de données OWL WEB ONTOLOGY LANGUAGE
OWL is based on Description Logics
The logical theory (model) can be define using different knowledge
representation Languages:
Description Logics, Frames, Conceptual Graphs
OWL Profiles
EL: large numbers of properties and/or classes and polynomial time.
QL: large volumes of instance data, and conjunctive query answering
using conventional relational database in LOGSPACE
RL: scalable reasoning without sacrificing too much expressive power
using rule-based reasoning in polynomial time
Credit Fabien Gandon
30
Ou trouver des ontologies ?
SWOOGLE
http://swoogle.umbc.edu/
Watson
http://watson.kmi.open.ac.uk/WatsonWUI/
LOV Linked Open Vocabulary
http://lov.okfn.org/dataset/lov/
W3C groups
http://www.w3.org/Consortium/activities
Credit Fabien Gandon
www.irstea.fr
Pour mieux
affirmer
ses missions,
le Cemagref
devient Irstea
C. Roussey J.P. Chanet (Irstea)
N. Hernandez O. Haemmerlé (IRIT)
Thèse de Fabien Amarger construction d’ontologies agricoles …
32
Plan
Motivation
Cas d’étude : projet sur les BSV
Interrogation avec SWIP
Thème de la thèse
Comment construire des ontologies à partir de sources non ontologiques
Etat de l’art:
Méthodologie Néon
Transformation SKOS
Notre proposition
Ontology Design Pattern
Multiplier les Sources
Calculer la confiance des éléments + filtrage
33
Motivations
• Volonté d’aider les agriculteurs à diminuer l’usage des produits
phytosanitaires
• Augmentation du nombre de données dans le domaine de l’agriculture
• Bulletins de Santé du Végétal
• thésaurus AGROVOC
• base de données publique e-phy
• etc.
• Volonté de contribuer au Linked Open Data (LOD)
• Interrogation de l’ontologie par requête en langage naturel (projet
SWIP)
• Méthodologie de construction d’ontologies à partir de divers sources
• Interrogation intelligente des informations collectées
34
Credit Fabien Amarger
35
Cas d'étude:
Bulletin de Sante du Végétal (BSV)
Bulletin d’alerte français contient des observations sur le
développement des cultures et les risques d’attaques de leurs
agresseurs
BSV distribués sur le web au format pdf
BSV hétérogènes: Différents auteurs, Différents style de
présentation, Différents contenus (texte structuré, tableau, image)
Aider la recherche d'information dans ces BSV + reconstruire
des données d'observation des cultures documentées par les
BSV
Comment faciliter la recherche des BSV ?
Trouver les BSV qui correspondent à un besoin
Identifier la partie des BSV intéressante
Un système de Recherche d’Information ?
36
Processus d'Interrogation SWIP de l'IRIT SEMANTIC WEB INTERFACE USING PATTERN
Interprétation de la requête en langage
naturel
Ontologie
+ triplets
RDF
Requête exprimée en langage naturel
Requête exprimée en langage pivot
Liste de requêtes formelles classées
Patrons
Formalisation de la
requête en langage pivot
phrases explicatives
Interrogation en français d’une base de triplets RDF
Credit Camille Pradel
37
Le Système d'Interrogation
SWIP
pdf Internet
Archive url
Annotation Triple store RDF
Stockage
Interrogation
Modélisation Ontologies
annotations
38
Cas d'étude: Annotations des BSV PROCESSUS ITÉRATIFS D'ANNOTATION
Ontologies
agricoles
1) Reformater les BSV
2) Tenir compte de la structure
des textes pour déduire des
données utiles
Annotation complexes=
•Attaque d'un type de culture
•Par un bio-agresseur
•Quand
•Où
•A quel niveau de risque
outil d'extraction d'information
BD d'annotations = ontologie
peuplée d'observations des
cultures
Annotations
RDF
39
Etat de l’art: méthodologie Néon
40
Etat de l’Art
• Processus incrémentale: Utilisation que d’une seule source
• Possibilité d’extraction :
• Classes
• Relations non nommées
• Intuition de relation de subsomption (rdfs:subClassOf)
• Techniques de désambiguïsation
• Contraignantes ou pas suffisantes
• Validation peu existante
• Validation de la conceptualisation manuelle
• Validation structurelle automatique
Méthodologie de construction d’ontologie exploitant la
multiplication des sources d’informations disponibles et dirigée par des
patrons de conceptions (Ontology Design Pattern)
41
Transformation automatique d’un SKOS EXAMPLE AGROVOC
42
Transformation automatique d’un SKOS RÉSULTAT SUR AGROVOC
43
Proposition
Hypothèses générales
• Chaque source est modelisée en fonction de son usage
• Besoin de remodeliser
• Toutes les sources n’ont pas la même qualité
• La présence de la même information dans plusieurs sources implique
une augmentation de la confiance attribuée à cette information
Motivations
• Construire des ontologies modulaires, Ontologie de domaine de haut
niveau centrée sur une fonctionnalité
• Premier cas d’étude module sur la taxonomie agricole
• Enrichissement de module AgronomicTaxon
44
Proposition ADAPTATION DE DEUX SCÉNARII DE NÉON
45
Irstea Agronomic Taxon DESIGN PATTERN ONTOLOGIQUES (ODP)
Il existe déjà des ODP en lien
avec l'agriculture
• FAO (projet Neon): isPestOf,
LinneanTaxonomy
• Données observations des
espèces disponibles sur le
Web de données :Geospecies
ontology, TaxonConcept, …
Fusion, intégration et
enrichissement de ces ODP
Pour répondre à nos besoins.
• Méthode de développement d’
ontologies à partir d’ODP
46
Irstea Agronomic Taxon DESIGN PATTERN ONTOLOGIQUES (ODP)
47
Proposition
Schéma générale de la méthode
48
Proposition TRANSFORMATION AUTOMATIQUE DIRIGÉE PAR LE MODULE
49
Transformation du thésaurus Agrovoc
SKOS original
50
Example Agrovoc
51
Proposition KB MERGING
52
Expérimentation
3 sources de bonne qualité:
Thésaurus Agrovoc
Classification TaxRef
Classification NCBI
Construction d’un gold standard à partir de la validation de 3 agronomes
INRA et Irstea.
Extraction des instances F measure > 0.74 très bonne précision
Extraction des relations à améliorer F measure < 0,45
53
Conclusion et Perspectives
Extraction de classes, de labels, de relation d'instanciation
Besoin de définir un modèle d’annotations spatio-temporelles des
observations
Construction d’une ontologie modulaire : 1 module créé / 5
Des spécifications du workflow d’annotation en devenir
more on googlesite agriontology
54
Réutilisation de sources agricoles
Sources agricoles: Thésaurus (Agrovoc) ou classification TaxRef, NCBI
Extraire des données de chaque source et les agréger en suivant les ODP
Construction d'ontologies modulaires