Web sémantique et Web de données, et si on passait à la pratique ?

  • View
    2.105

  • Download
    1

  • Category

    Internet

Preview:

Citation preview

Web sémantique, web de données : et si on passait à la pratique ?

Pierre Col Julien Homo@PierreCol @Julien_Homo

2

Pierre Col @PierreCol

Julien Homo @Julien_Homo

1978

1963

1983

1986

1996

2007

2010

2006

2009

2011

198

7

3

Web sémantique,web de données :de quoi parle-t-on ?

4

Le web sémantique, concrètementCertains en parlent…d’autres le font !

5

Le web sémantique, concrètement

6

Le web sémantique, concrètement

KnowledgeGraph

7

KnowledgeGraph

Le web sémantique, concrètement

8

KnowledgeGraph

Le web sémantique, concrètement

9

Le web sémantique, concrètement

KnowledgeGraph

10

Le web sémantique, concrètement

KnowledgeGraph

11

KnowledgeGraph

Le web sémantique, concrètement

12

Le web sémantique, concrètementKnowledgeGraph

13

Le web sémantique, concrètement

KnowledgeGraph

14

Tim Berners-Lee verbatim« The Semantic Web is a web of data,

in some ways like a global database »

« The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined

meaning, better enabling computers and people

to work in cooperation »

15

« Raw data now ! » février 2009

http://www.ted.com/talks/tim_berners_lee_on_the_next_web?language=fr

16

http://www.flickr.com/photos/jimgris/281139738/

L’idée : casser la vieille logique des silos de données cloisonnées…

Siège social d’Oracle, l’éditeur du SGBDR le plus utilisé dans le monde, dans la Silicon Valley

17

…pour partager la donnée structurée sur un espace décentralisé : le web

Un Web de documents

●Documents reliés par des liens●Pas de structuration sémantique●Pas de requêtes structurées

18

…pour partager la donnée structurée sur un espace décentralisé: le web

Puis un Web d’applications

●Données exposées à travers des API●API valables uniquement pour un silo●Pas d’interopérabilité entre les silos

19

…pour partager la donnée structurée sur un espace décentralisé : le web

Et maintenant un Web de données

●Web de données = espace unifié●Liens entre les données elles-mêmes●APIs remplacées par des standards ouverts

20

Web sémantique,web de données :quels standards aujourd’hui ?

21

Une condition nécessaire : assurer l’interopérabilité des données structurées

●Transport

22

Une condition nécessaire : assurer l’interopérabilité des données structurées

●Syntaxe

23

Une condition nécessaire : assurer l’interopérabilité des données structurées

●Sémantique

24

Un langage pour les machinesUne grammaire Le vocabulaire Des règles

d’écritureDes moyens

de communication

RDF RDFS / OWLOntologie

RDF/XMLN3, Turtle

RDFaHTTP

SPARQL

25

Standards : le layer cake aujourd’hui

Déjà normalisé ou en cours de normalisation au W3C

26

Le Linked Open Data Cloud - 2014

27

Web sémantique,web de données :levons le capot !

28

Contexte●Site portail

29

Contexte●Site portail

30

Contexte●Site portail

31

Problématique●Mesurer « la faisabilité technique de

réaliser un site portail basé sur les règles du web de données et du web sémantique »

32

Mais pourquoi recourir au Web Sémantique ?

●Agréger les données●Enrichir les données par des données

externes libre d’accès●Faciliter leur échange●Faciliter leur publication

33

Objectifs ●Offrir aux visiteurs une vision plus globale

des ressources disponibles

34

Objectifs ●Favoriser leur découverte par un effet de

sérendipité

35

Objectifs ●Enrichir l’expérience de navigation

36

Objectifs ●Mettre les données à la disposition de

tous

37

Par où commencer ?●Définir le périmètre de l’étude●Analyser les données●Réaliser un prototype

38

Quelles sont les sources disponibles ?

39

Comment accéder aux données ?●API intégrée au système de gestion de

bibliothèque

Requête SIGB Base de données Export XML

●Export au format XML

40

Quelles sont les données disponibles ?

41

Quelles sont les données disponibles ?

20 000 films

250 000 textes imprimés

2 500 ouvrages numériques

20 000 enregistrements musicaux

42

Comment sont structurées les données ?

43

Comment sont structurées les données ?

Propriétés

ID

Dénomination

Auteur

Lieu de création

Date de création

Dimensions

Catégorie matière

Catégorie technique

Mots-clés

Référence commerciale

44

Comment sont structurées les données ?

Propriétés

ID

Dénomination

Auteur

Lieu de création

Date de création

Dimensions

Catégorie matière

Catégorie technique

Mots-clés

Référence commerciale

Propriétés génériques d’une œuvre ?

45

Comment sont structurées les données ?

Propriétés

ID

Dénomination

Auteur

Lieu de création

Date de création

Dimensions

Catégorie matière

Catégorie technique

Mots-clés

Référence commerciale

Lien vers le Linked Open Data ?

46

Laisse Béton (Renaud)●Prenons un exemple !

47

Laisse Béton (Renaud)●Vu du catalogue Web (OPAC) …

48

Laisse Béton (Renaud)●… et du XML

49

Laisse Béton (Renaud)

●Il y a sûrement des choses à faire…

Propriétés ValeursID b18895888Dénomination Laisse BétonAuteur RenaudLieu de création -Date de création -Dimensions 1 disque compact (36 min)Catégorie matière -Catégorie technique -Mots-clés -Référence commerciale 0042282534828

50

…Et bien faisons les !●Réalisation d’un prototype

●Mesurer la faisabilité technique du projet sur un échantillon

●Montrer l’apport de l’Open Data

●Evaluer les difficultés

51

Mettre les données en communfilm01.avi “Livre A”

http://exemple.org/film/01 http://exemple.org/livre/A

52

Identifier les objets●Schéma arbitraire

●http://data.leschampslibres.org/

●Origine : numérotation arbitraire

Source Numéro Propriété IDBibliothèque de Rennes 1 Controlfield 001

http://data.leschampslibres.org/1/b18895888

53

Modéliser les objets

Modèle HADOCModèles “évènements” (LODE, CIDOC CRM, The Event Ontology…)

54

Laisse Béton (Renaud)

55

Relier les données à l’extérieur

●Oui mais dans quel but ?

56

Données VS Usages

57

Usages…●« Apporter à l’utilisateur des

compléments d’informations sur les objets culturels qu’il consulte sur le portail des Champs Libres »

58

… VS Données

PropriétésISBN

Référence commerciale

Nom et date de naissance de l’auteur

Noms de lieux

59

Sélectionner les sources externes

60

Graphe

Référence commerciale

Nom de l’auteur +

Date de naissanceNom de lieu

ISBN

ID

IDID

ID

61

Laisse Béton (Renaud)

62

Automatisons-le !

Aligner Annoter

Préparer les données

Localement

A distance

Récupérer les données externes

Interroger Interroger

63

Préparer les données : aligner

Nom Prénom Date de naissance

Hugo victor 26 février 1802

sartre jean paul 21/06/1905

http://catalogue.bnf.fr/ark:/12148/cb11907966z

Nom Prénom Date de naissance

Hugo Victor 1802-02-26

Victor 1802-02-26

64

Préparer les données : annoter

http://sws.geonames.org/2911298

65

Préparer les données●Idéalement

●Dumps RDF

●SPARQL Endpoint

●APIs Web RDF …

●Triplestore intermédiaire

66

Préparer les données●En réalité

●Dumps divers

●Pas de SPARQL Endpoint

●APIs Web diverses

●Conversion RDF

Triplestore

67

Récupérer les données externes●Requêtes SPARQL

●Triplestore intermédiaire

●SPARQL EndpointEnrichissements

Enrichissements

68

Récupérer les données externes●Requêtes SPARQL : exemples

http://catalogue.bnf.fr/ark:/12148/cb11907966z

Victor Hugo

1802-02-26

foaf:givenName foaf:name

db:birthDatehttp://catalogue.bnf.fr/ark:/12148/cb11907966z

69

Récupérer les données externes●Requêtes SPARQL : exemples

http://data.leschampslibres.org/1/b18895888

“0042282534828”

hadoc:isbn

“4.25 / 5” http://www.discogs.com/master/11710

http://www.wikidata.org/wiki/Q3216384

http://musicbrainz.org/release-group/374fd86d-838c-3d40-a2c8-680b800290e7

“0042282534828”

mb:barcode

owl:sameAsowl:sameAs

dcogs:rating

“4.25 / 5”

70

Récupérer les données externes●Autres : pas de RDF

●APIs Web

●Dumps (XML, CSV…)

●HTML

●…

Enrichissements

71

Récupérer les données externes●En réalité

●Architecture complexe

●A adapter selon les besoins

… …

72

Laisse béton (Renaud)Normalisation Triplestore intermédiaire Enrichissements RDF Enrichissements APIs

barcode ?

IDs Discogs Allmusic ?

73

74

Résultats

75

Outils

76

Outils●Convertir les données

Actions Outils

Aligner, annoter Antidot Information Factory, Gate, Python…

Créer des données RDF avec un éditeur

Morla, Top Braid composer, Editeur XML (Oxygen), Protégé

Transformer des données de XML vers RDF/XML

XSL, Python…

Transformer des entrées clés/valeurs en RDF

Google Refine

Transformer une base de données relationnelle en RDF

Db2triples, D2R server, …

77

Outils●Stocker les données dans un triplestore

Optimisation Outils

Mémoire Corese, Redstore

Triplestore natif Mulgara, AllegroGraph, BigOWLIM, 4store, Neo4j

BDR paramétrée Virtuoso, ARC, Oracle 11g, Sesame, 3store

Column store Cstore, Heart, BigData, Cloudera

78

Outils●Exploiter les données en RDF

Langages Outils

Java (triples) Jena, Sesame, Trialox SCB, RDF2Go

Java (ORM) Topaz, RDFReactor, So(m)mer, Elmo, jenabean

PHP RAP, ARC (généraliste)

C Redland

Python RDFlib

Ruby ActiveRDF

Scala Scardf

79

Laisse béton (Renaud)●Publication des données en RDF

80

Conclusion

81

Le web sémantique, ça marche !●Les géants mondiaux de l’Internet

avancent rapidement●De plus en plus d’organisations l’adoptent

pour des usages ciblés ●« Que puis-je faire pour le web

sémantique ? »●« Qu’est ce que le web sémantique

peut faire pour moi ? »

82

Le Web Sémantique, des atouts uniques●Disposer d’une quantité colossale de

jeux de données

●Accéder aux données de façon standardisée donc automatisable

●Les agréger pour servir tous types d’usages nouveaux

83

Le Web Sémantique, aller plus loin ?

Un livre dirigé parFabien Gandon, INRIA / W3C

EAN13 : 9782100572946

84

Le web sémantique : à vous de jouer !

WANTS YOU

85

Merci pour votre attention !

Des questions ?pcol@antidot.net @PierreCol

jhomo@antidot.net@Julien_Homo

@AntidotNet

www.antidot.net

Recommended