Open data & linked data

  • Published on
    07-Jul-2015

  • View
    270

  • Download
    3

DESCRIPTION

Prsentation sur la dmarche de l'Open Data (quelles donnes ? Quels acteurs ?) et sur les technologies gravitant autour du Linked Data (le modle RDF, RDFS, OWL, les ontologies, les triplestores, etc).

Transcript

  • 1. Open Data&Linked DataVincent Brout@VincentBroute

2. La dmarche de lOpen Data=> Publier des donnes libres daccs et de rutilisation en ligne Linked DataOpen Data Linked DataLinked Data : Technologies dveloppes par le W3CObjectif : publier sur le web des donnes structures et relies entre elles 5. Linked Data1994 : Cration du W3C & dbut des rflexions sur le web smantique2001 : Premier article dans une revue scientifique2004 : Premiers drafts des recommandations W3C : RDFS, OWL, RDF2006 : Semantic Web => Linked DataPlenary at WWW Geneva 94Ambigut sur le nom + erreur stratgique avec lintroduction de notions complexes lies lIA :En fait, nous aurions d l'appeler ds le dpart Web de donnes .Mais il est trop tard pour changer de nom. (Tim-Berners-Lee, 2007)2008 : Premier draft pour SPARQL 1.02013 : SPARQL 1.1 publi en tant que recommandation2014 : RDF 1.1 (JSON-LD + minor fixes) , Sept. 2014 : Working Draft Linked Data Platform best practices Ex : Rennes sur DBPedia 6. Organiser les donnes : RDFRDF = Modle de donnes, en graphLes entits sont dcrites par des triplets :Sujet : la ressource dcrire. Identifi par une URI HTTP ( = un noeud)Prdicat : la relation entre le sujet et lobjet. Identifi par une URI HTTP ( = un arc)Objet : litral ou une autre ressource ( = un autre noeud ou une feuille)(+) : le type et la langue de lobjetUn graph est compos dun ensemble de triplets/! RDF = le modle des donnes => dfinit lorganisation thorique des donnes (// modle relationnel, cl-valeurs, arbre ) 7. Organiser les donnes : RDF207 178 Rennes @frRenneshttp://fr.dbpedia.org/resource/RennesNathalie Apprhttp://fr.dbpedia.org/resource/Nathalie_ApprIlle-et-Vilainehttp://fr.dbpedia.org/resource/Ille-et-Vilaine1975-07-08populationTotalhttp://fr.dbpedia.org/ontology/populationTotaldepartmenthttp://fr.dbpedia.org/ontology/departmentmairehttp://fr.dbpedia.org/property/mairebirthDatehttp://fr.dbpedia.org/ontology/birthDatelabelhttp://www.w3.org/2000/01/rdf-schema#label 8. Organiser les donnes : RDFSrialisation RDF/XML :Rennes207178Nathalie Appr1975-07-08 9. Organiser les donnes : RDFPlus lisible, la srialisation Turtle :@prefix rdf: .@prefix dbp-prop: .@prefix dbp-ont: .@prefix xsd: .rdfs:label "Rennes" ;dbp-ont:department ;dbp-ont:populationTotal 207178^^xsd:integer ;dbp-prop:maire .rdfs:label Nathalie Appr ;dbp-ont:birthDate 1975-07-08^^xsd:date .Srialisations RDF : RDF-XML, N-Triples, Turtle, Trig, N-Quads, JSON-LD 10. Organiser les donnes : RDF3 vocabulaires (ontologies) = 3 niveaux dexpressivitConcepts RDF de base :rdf:Statement, rdf:subject, rdf:predicate, rdf:object + rdf:typehttp://www.w3.org/1999/02/22-rdf-syntax-ns, Concepts and Abstract Syntax, RDF 1.1 XML SyntaxFournit les lments de base pour construire des ontologiesrdfs:Class, rdfs:subClassOf, rdfs:domain, rdfs:range, rdfs:label, rdfs:commenthttp://www.w3.org/2000/01/rdf-schema, RDF Schema 1.1Niveau le plus expressif, complment RDFSEx: owl:ReflexiveProperty, owl:TransitiveProperty, etchttp://www.w3.org/2002/07/owl, OWL 2 Web Ontology LanguageRDFRDFSOWLObjectif : dcrire les ressources et crer de nouvelles ontologies 11. Crer des ontologies avec RDF, RDFS et OWLOntologie Donnes@prefix test: .@prefix rdf: .@prefix rdfs: .@prefix owl: .test:PopulatedPlace rdf:type owl:Class;rdfs:label Lieu peupl .test:Town rdf:type owl:Class;rdfs:label Ville;rdfs:subClassOf :PopulatedPlace .test:postalCode rdf:type owl:DatatypeProperty ;rdfs:label Code postal;rdfs:domain test:Town ;rdfs:range xsd:string .@prefix rdfs: .@prefix test: . rdf:type test:Town;rdfs:label Rennes;test:postalCode 35000 . rdf:type test:Town;rdfs:label Boulogne-Billancourt;test:postalCode 92100 .(...) 12. Crer des ontologies avec RDF, RDFS et OWLInfrenceCrer des rgles pour dcouvrir de nouvelles relations entre les ressourcesDonnes :John estPereDe MaryJohn estFrereDe JackRgle :Si (?x estPereDe ?y ET ?x estFrereDe ?z) alors (?z estOncleDe ?y)Infrence :Jack estOncleDe MaryReasonners : Cwm, Jena, etc?xJohn?yMary?yJackestFrereDeestPereDeestOncleDe 13. Stocker les donnes : triplestores> Stocker et requter RDF> Pas de crations de tables, schemas, etc.> Langage dinterrogation : SPARQL.> Endpoint pour interroger les donnes via HTTP en SPARQL. (Ex : DBPedia)> Quelques triplestores du march : Sesame, Jena (Apache), Virtuoso 14. Interroger les donnes : SPARQL Rcuprer le libell et la population de Rennes sur DBPedia :Pattern matchingprefix dbp-ont: select ?libelle ?pop WHERE { rdfs:label ?libelle ;dbp-ont:populationTotal ?popFILTER(lang(?libelle) = 'fr') .} Rcuprer le libell et la population de toutes les villes dIlle-et-Vilaine :prefix dbp-ont: select * WHERE {?ville dbp-ont:department ;rdfs:label ?libelle ;dbp-ont:populationTotal ?popFILTER(lang(?libelle) = 'fr') .} 15. Interroger les donnes : SPARQLRcuprer sur le SPARQL endpoint de lINSEE le nombre dhabitants par rgion en 2010 :Rennespopulation PopulationTotalepopulationLegale/commune/35238/2010 2071782010-01-01 subdivisionDeArrondissement de RennesIlle-Et-VilainesubdivisionDedateEx. pour Rennes : 16. Interroger les donnes : SPARQLRcuprer sur le SPARQL endpoint de lINSEE le nombre dhabitants par rgion en 2010 :PREFIX rdf:PREFIX igeo:PREFIX idemo:SELECT ?nomRegion (SUM(?popTotale) as ?pop) where {?ville rdf:type igeo:Commune ;idemo:population ?population ;igeo:subdivisionDe ?arrondissement .?arrondissement igeo:subdivisionDe ?dpt .?dpt igeo:subdivisionDe ?region .?region igeo:nom ?nomRegion .?population idemo:date "2010-01-01"^^ ;idemo:populationTotale ?popTotale .}GROUP BY ?nomRegion 17. Acteurs du Linked Data en France et dans le monde En France Dbpedia-fr : data RDF + Endpoint SPARQL (Virtuoso) INSEE : data RDF + Endpoint SPARQL (DataLift) Bibliothque Nationale de France : data RDF + Endpoint SPARQL (Virtuoso) Dans le monde DBPedia : data RDF + Endpoint SPARQL (Virtuoso) data.gov : data RDF data.gov.uk : data RDF 18. Bonus : Freebase Projet collaboratif Donnes en licence Creative Commons Rassembler les connaissances du web Format graph propritaire (graphd) Langage dinterrogation en JSON : MQL APIs (100 000 requtes / jour / token)Recherches, slections, critures, images Dumps RDF disponibles :- 1.9 milliards de triplets- 250Gb de donnes- Mis jour 1 fois / semaineExemples :Donnes sur Batman BeginsRcuprer les enfants de Madonna sur le Endpoint MQL:{"type":"/people/person","id":"/en/madonna","children":[]} 19. Questions ?