Quelques repères sur le Web sémantique / Web de données

Preview:

Citation preview

Quelques repères sur le Web sémantique / Web de données

Bertrand SajusMinistère de la Culture et de la Communication

Département des programmes numériques

INTD, 05/04/2013

1989-1993 : gestation du Web 

Quelques dates clés

2

1994 : - World Wide Web Consortium- T Berners-Lee : “ The Need for Semantics in the Web ”

1995 : HTML 2.0

1996 : HTTP 1.0

2001 : “The Semantic Web”T B-L, James Hendler and Ora Lassila, Scientific American Magazine

2000-2005 : Éclosion du Web 2.0

2006 Initiative W3C :Linked Open Data

2004 : RDF, OWL

2007 DBpedia

2008 SPARQL

2011Schema.org

2006  : - VIAF - Geonames

2011data.bnf.fr

Dans l'expérience commune des internautes, le Web c'est d'abord des « pages HTML »lisibles par des êtres humains et reliées entre elles par des hyperliens

Du Web des « pages HTML » au Web dit « sémantique »

3

Le Web sémantique est une extension du Web : il relie non pas des pages mais des données et s'adresse d'abord à des machines

Cadre de description des Ressources

RDF Resource Description Framework

4

Norme fondamentale du Web sémantique (2004)

- R comme Resource :

pages, images, videos, toute chose matérielle ou immatérielle

- D comme Description :

… tout ce qui peut avoir une URI

les caractéristiques des ressources et leurs interrelations

- F comme Framework :

le modèle et la syntaxe de ces descriptions

L'unité de base du Web sémantique est le triplet RDF

Arc de Triomphe de l’Étoile Parisest situé à

Sujet Prédicat Objet

Triplet RDF

5

Sujet Verbe ComplémentLangage naturel :

Triplet : ensemble constitué d'un sujet, d'un prédicat et d'un objet

Nœud Arc NœudGraphe :

http://viaf.org/viaf/44396537/

http://purl.org/dc/terms/creator

http://fr.dbpedia.org/page/Arc_de_triomphe_de_l%27%C3%89toile

Jean-François Chalgrin Arc de Triomphe de l’Étoileest l'auteur de

URIs (Uniform Ressource Identifier)

Chaque partie de la déclaration peut être nommée, et donc identifiée de manière absolueau plan mondial, par un URI :

http://viaf.org/viaf/44396537/

http://purl.org/dc/terms/creator

Utiliser le Web comme source de référentiels

Le Sujet est référencé dans VIAF (Virtual International Authority File)

Le Prédicat est défini dans le Dublin Core (DMCI)

L'Objet est décrit dansWikipédia / DBpediahttp://fr.dbpedia.org/resource/Arc_de_triomphe_de_l'Étoile

Arc de Triomphe de l’Étoile Parisest situé à

Jean-François Chalgrin

est l'architecte de

Académie des Beaux-Artsest membre de

Graphe composé de 5 triplets interconnectés

La place de l'Etoile de nuit Photographieest une

Repré

sent

e

8

Arc de Triomphe de l’Étoile Parisest situé à

Jean-François Chalgrin

est l'architecte de

Académie des Beaux-Artsest membre de

Enrichissement des données par liage

La place de l'Etoile de nuit Photographieest une

Repré

sent

e

Site dédié à l'architecture du XIXe s.

9

Arc de Triomphe de l’Étoile Parisest situé à

Jean-François Chalgrin

est l'architecte de

Académie des Beaux-Artsest membre de

Liens profonds entre les corpus

La place de l'Etoile de nuit Photographieest une

Repré

sent

e

Site dédié à l'architecture du XIXe s.

BDD biographique d'artistes néoclassiques

Plate-forme Web 2.0 d'échange de photos personnelles10

Arc de Triomphe de l’ÉtoileJean-François Chalgrinest l'architecte de

Les données ne sont pas spontanément interopérables

Site dédié à l'architecture du XIXe s.

BDD biographique d'artistes néoclassiques

Chalgrin, J-F. Académie des Beaux-Artsest membre de

?

… D'où l'utilité de référentiels communs

Exemple : VIAF (Virtual International Authority File), pour les auteurs

Arc de Triomphe de l’Étoile Parisest situé à

http://viaf.org/viaf/44396537/

est l'architecte de

Académie des Beaux-Artsest membre de

Site dédié à l'architecture du XIXe s.

BDD biographique d'artistes néoclassiques

SPARQL 

Le langage de requête : SPARQL Protocol and RDF Query Language

Conçu et promu par le W3C (2008, version 1.0)

Le langage de requête : SPARQL Protocol and RDF Query Language

Destiné à interroger les graphes RDF et en extraire des jeux de données :

Quelles sont les œuvres des membres de l'Académie des Beaux-Arts situées à Paris ?

Arc de Triomphe de l’Étoile Parisest situé à

Jean-François Chalgrin

est l'architecte de

Académie des Beaux-Artsest membre de

BDD biographique d'artistes néoclassiques

Site dédié à l'architecture du XIXe s.

13

Interconnexion des «Communautés»

Site dédié à l'architecture du XIXe s.Communauté de spécialistes

de l'architecture

BDD biographique d'artistes néoclassiquesCommunauté de spécialistes

du néoclacissisme

Plate-forme d'échange de photos personnellesCommunauté de photographes

amateurs

Data

14

Sorties des silos, les données traversent les frontières

Domaines institutionnels

Sujets d'intérêt

Domaines de connaissance

Espaces linguistiques

Data

Territoiresgéographiques

Circonscriptionsadministratives

Aires culturelles

15

Etc.

Tim Berners-Lee : « Le Web va changer de dimension »La Recherche - 01/11/2007

Web sémantique vs Web de(s) données

16

Web de données = résultat de l'application des normes et recommandationsdu "Web sémantique" aux données mises en ligne sur le Web

Web de données = immense graphe, indéfiniment extensible, composé de myriadesde triplets RDF

- Journal La Recherche : "Web sémantique, que signifie cette appellation ?"

- Tim Berners-Lee : "Le terme sémantique prête un peu à confusion (...) certains ont pensé qu'il s'agissait d'un Web qui permettrait par exemple d'effectuer des recherches sur Internet en posant des questions sous forme de phrases, en langage naturel. Or ce n'est pas son but. En fait, nous aurions dû l'appeler dès le départ Web de données."

Le Web de données est un espace de connaissance mondial  :

17

- L'information est disponible à un niveau granulaire très fin (data)

- Elle est décrite selon un modèle de description commun (RDF)

- Les données sont fortement reliées entre elles (Linked Data)

- Elles sont analysables par des machines

Les 4 principes du Web de données

18

1) Toute ressource sur laquelle on veut faire porter une assertion doit êtreidentifiée par un URI (Uniform Ressource Identifier)

2) Tout URI doit être construit à partir du protocole HTTP ce qui permet d’y accéder par des moyens numériques

3) L'utilisation d'un URI doit permettre de renvoyer des données aux formats standards du Web sémantique : RDF... et non pas seulement du HTML

4) Les ressources doivent être le plus possible liées entres elles selon ces normes

Le Web de données et les « données ouvertes »

19

L'échelle des données ouvertes selon T. Berners-Lee :

Les données sont en ligne quel que soit leur format

Les données sont disponibles sous forme structurée (ex. : CSV, XML, Excel, RDF)

Les données sont libres d'être exploitées juridiquement et techniquement dans des formats non-propriétaires (pas d'Excel par exemple)

Utilisation d'URIs pour identifier les données, de sorte que l'on puisse pointer dessus

Les données sont liées à d'autres données pour fournir un contexte à ces données= Linked Open Data (LOD)

«1, 2,  3.0 », ça buzze, c'est commode et percutant

… mais c'est quand même très simplificateur...

Et le 3.0 dans tout ça ?

20

Web 1.0

Années 1990

= Web documentaire

Web 2.0

Années 2000

= Web social

Web 3.0

Années 2010

= Web de données

• semantic web

L'utilisation des notions "semantic web" (Web sémantique) et "linked data" (Web de données) dans Google. Source : Google Trends

•linked data

L'essor du Web de données

2007 Dbpedia

21

Dbpedia première application grandeur nature du Web de données

LOD (Linked Open Data) Cloud, source lod-cloud.net/

Le Web de données comme écosystème de référentiels mondial

22

Dbpedia.org

Recommended