View
662
Download
0
Category
Preview:
Citation preview
TenForce – project: LOD2 1
Mise à disposition et valorisation des données publiques
COEPIA – 2014-01-17 09:30/partie 2
EU F7 projet - LOD2: Le partenaire TenForce (BE)Johan De Smedt
2014-01-17
TenForce – project: LOD2 2
Web sémantique et web des donnéesIngénierie des connaissances
Groupe Français de l’Industrie de l’Information (GFii)
EU F7 projet - LOD2: Le partenaire TenForce (BE)Johan De Smedt
2014-01-17
TenForce – project: LOD2 3
Introduction
2014-01-17
4
Example – L’ internet (1/.) http://www.gfii.fr/fr/2014-01-17
TenForce – project: LOD
2
TenForce – project: LOD2 5
Example – L’ internet (2/2)
• L'Internet comme il est familier aujourd'hui:– texte, photo, vidéo, .... – hyperliens
• URL en format: http://{domaine}/{chemin}
• Livraison lien hypertexte sur le protocole HTTP– Avec une immense infrastructure
(serveurs: DNS, proxy, gestion du cache, DHCP, ...)– Soutenir les paramètres HTTP et négociation de
contenu (type MIME/format, langue, ...)
2014-01-17
TenForce – project: LOD2 6
Catégories d'usagers de l'Internet (1/3)
• Catégories d'usagers – Humains– Applications (logiciel)
• La manipulation de l'information– Les consommateurs– Les fournisseurs
2014-01-17
TenForce – project: LOD2 7
Catégories d'usagers de l'Internet 2/3
• Exemples– Robots d'indexation et de recherche– Applications sur les appareils mobiles– Browsers– Fournisseurs d'information d'origine
agrégateur d'information• Portails – éditeurs scientifiques (et autres)• Prévisions météo• Circulation• Actualités • L'administration en ligne (le e-Gouvernement)• Réservation d'hôtel et de voyage• ...
2014-01-17
TenForce – project: LOD2 8
Catégories d'usagers de l'Internet 3/3
• Au service de l'intérêt humain– les activités économiques– la curiosité– le contrôle (des procès, de la sécurité, ...)– la mise en œuvre de la politique– la circulation– ...
2014-01-17
TenForce – project: LOD2 9
But de la technologie du web sémantique
• Fournir les outils (sémantique de la langue) pour rendre la communication entre les utilisateurs d'Internet (en particulier entre les applications) possible– Manipulation des données brutes pour produire des
informations de valeur ajoutée est un élément primordial de l'industrie des services de la connaissance
• établir– "Une compréhension commune"– "De l’interopérabilité"– "La collaboration"
2014-01-17
TenForce – project: LOD2 10
Les éléments clés pour la construction d'une "Compréhension commune"
• Publier des dictionnaires (par domaine spécialisé)– Taxonomie, classification, Thesaurus, référentiels, registres de sujet, ...– Les édition générale, le marché du travail, la législation, la géolocalisation, les sports, la
politique, ...• Publier des vocabulaires pour exprimer des relations, des dépendances, des
valeurs= Schéma des bases de connaissances (ontologie)
– Œuvres d'art, les droits, les licences, le commerce, ...– Établir le cadre de construire (mise à jour et de maintenir) les publications ci-dessus et
de les exploiter– Contribuer à faire de l'Internet une collection croissante de bases de données liées
• Utiliser des dictionnaires et des vocabulaires de référence• Publier en formats sémantique:
– contenu (HTML/humain) ET métadonnées (RDF/applicaition)
• Éditeurs fiables et de sources fiables de publication
2014-01-17
TenForce – project: LOD2 11
L'administration en ligne
2014-01-17
TenForce – project: LOD2 12
Application de démonstration: CELLAR - LOD2
• C' est quoi - le CELLAR– Propriétaire: Office des publications de l'Union européenne– En ligne de publications:
• Législation de l'UE - le contenu et les métadonnées• Prochainement: Jurisprudence de l’UE et jurisprudence national - le contenu et les
métadonnées
• C' est quoi - le LOD2– LOD: données public liées (« Linked Open Data »@en)
– liées: lien hypertexte (HTTP)
• Un projet de recherche du programme-cadre européen 7e
• Participants: Industrie, éditeurs, Université, entreprise TIC
• Application de démonstration– Utilisez CELLAR comme la source d'origine dans les produits d'une
entreprise privée • (par exemple, un éditeur: Wolters Kluwer – Allemagne [WKD])
2014-01-17
TenForce – project: LOD2 13
Cas d'utilisation de la démo (1/5)
• Législation des produits associés ou les outils utilisés par:– La rédaction des éditeurs commerciaux, – Leurs clients, – Les clients de leurs clients et – Le grand public
... obtiennent un accès direct à source primaire de l'UE en matière de contenu et métadonnées à:
– améliorer la qualité de l'information– réduire le travail éditorial– élargir les offre de produits en matière de contenu et des
métadonnées
2014-01-17
TenForce – project: LOD2 14
Produits - sans LOD 2/5
Produits internet1 Source
Révision éditoriale de liens et de métadonnées
source unique de contenu et des métadonnées pour le produit
2014-01-17
TenForce – project: LOD2 15
Produits - sans LOD 3/5
• Sans données public liées (LOD)– L'accès se fait par Eur-Lex, qui n'est pas la principale
source d'information, mais une publication sur son propre
• délai, la disponibilité, pas le contenu brut ou des métadonnées brut
– Informations raclée est examiné et stocké localement• tâche pour le personnel WKD de rédaction
– Produits de WKD doivent être complète et autonome• avec des capacités limitées de liaison à la source d'origine
(quand même) disponible en ligne
2014-01-17
TenForce – project: LOD2 16
Produits - avec LOD 4/5
Produits internet3 Source
1) source brut de contenu et de métadonnées – interface application
2) source de contenu et de métadonnées - interface humain
3) source de contenu enrichi et des métadonnées enrichi
2014-01-17
TenForce – project: LOD2 17
Produits - avec LOD 5/5
• Avec LOD il y a:– Accès direct à la source de l'information d'origine
• contenu et les métadonnées
– Aide de l'application de la liaison avec et la réutilisation du contenu et des métadonnées à partir de la source d'origine
• WKD gamme de produits est complétée par la source d'origine disponible en ligne et exposant les origines
2014-01-17
TenForce – project: LOD2
La Démo
• Recherche avancée– vocabulaire de catalogue des ensembles de données: DCAT
• Les informations de licence sur les données liées (= LD)• Récupérer le contenu et les métadonnées CELLAR en
utilisant LD• L'intégration du EUROVOC au moyen de LD• Réutiliser les publications de CELLAR et établir la
provenance et LD
• Aller à l'URL publique– http://212.71.25.157:8080/wp9IntAppEx-1.0/
182014-01-17
TenForce – project: LOD2
La Démo (1/.)
• Excuses: – La démo est limitée à l'allemand et l'anglais
• Combined search on CELLAR WP7 LOD DCAT– Full text = Agrarstruktur Griechenland– Title = Kommission– Issue date = [ 1986-07-05 , 2000-01-15 [– Theme = Besteuerung
192014-01-17
TenForce – project: LOD2
La Démo (1.1/.) • plein texte = Agrarstruktur Griechenland
– rang (en: score/rank)
202014-01-17
TenForce – project: LOD2
La Démo (1.2/.) • plein texte = Agrarstruktur Griechenland• titre = Kommission
212014-01-17
TenForce – project: LOD2
La Démo (1.3/.)
• plein texte = Agrarstruktur Griechenland• titre = Kommission• date de publicaiton [ 1986-07-05 , 2000-01-15 [
222014-01-17
TenForce – project: LOD2
La Démo (1.4/.)
• plein texte = Agrarstruktur Griechenland• titre = Kommission• date de publicaiton [ 1986-07-05 , 2000-01-15 [• thème = Besteuerung
232014-01-17
TenForce – project: LOD2
La Démo (2/.)
• Informations sur la licence– Devrait être disponible dans la source d'origine– Peut être fusionné dans la source par un service
de téléchargement, adressée par des informations sur la distribution DCAT
– Référence de licence fournit• Titre de l‘œuvre• Éditeur: Office des Publications de l’UE• Déclaration de la licence• La source primaire du contenu et des métadonnées
242014-01-17
La Démo (2.1/.)référ. de licence avec titre de la source primaire (du registre DCAT)
25
2014-01-17TenForce – project: LO
D2
La Démo (2.2/.)Editeur trouvé dans DCAT comme données liées à la référence de la licence
26
2014-01-17TenForce – project: LO
D2
TenForce – project: LOD2
La Démo (2.3/.)
• Déclaration de licence fourni comme une référence de données liées
272014-01-17
La Démo (2.4/.)Document source primaire fourni comme données liées dans la référence de la
licence
28
2014-01-17TenForce – project: LO
D2
TenForce – project: LOD2
La Démo (3/.)
• Récupérer un document d'CELLAR– n'importe quel format disponible
• La démo utilise: html, xhtml, pdf, pdfa1a, pdfa1b
• Récupérer les métadonnées de CELLAR– Le vocabulaire ELI des métadonnées (RDF/XML format)– Le vocabulaire CELLAR des métadonnées (RDF/XML format)– Le format "Notice" des métadonnées (Format XML propriétaire)
• ELI– identifiant européen de la législation
• “European Legislation Identifier”@en
– http://publications.europa.eu/resource/oj/JOC_2012_325_R_0003_01.FRA.xhtml 292014-01-17
La Démo (3.1/.)les options de récupération sur le document source primaire
30
2014-01-17TenForce – project: LO
D2
La Démo (3.2/.)le document source primaire
31
2014-01-17
TenForce – project: LOD2
TenForce – project: LOD2
La Démo (3.3/.)
• les options de récupération sur les métadonnées de la source primaire– ELI (RDF/XML)– raw RDF
(RDF/XML)– Format XML
propriétaire“notice”
322014-01-17
La Démo (3.4/.)Récupérer les métadonnées de CELLAR
33
Note: Requires proper browser XML and RDF viewing options 2014-01-17
TenForce – project: LOD2
La Démo (4/.)• Intégration EUROVOC
34
2014-01-17TenForce – project: LO
D2
La Démo (5/.)Établir réutilisation - Faites glisser et déposez l'élément de CELLAR sur l'élément de
WKD
35
2014-01-17TenForce – project: LO
D2
La Démo (5.1/.)Ajouter la référence de source primaire comme données liées
36
2014-01-17TenForce – project: LO
D2
La Démo (5.2/5)Accédez à la référence de source primaire a travers les données liées
37
2014-01-17TenForce – project: LO
D2
TenForce – project: LOD2 38
Exemples des cas d’usage connexes
2014-01-17
TenForce – project: LOD2
Scenario 1 – Le marché de l'emploicas d’usage: PME dans la région aixoise a une offre d'emploi pour un programmeur Javacadre: Il devient plus difficile de trouver de bons développeurs de logiciels, en particulier au-delà des centres urbains. Les candidats dans les zones proches des frontières nationales doivent relever le défi qu'ils ont besoin des informations très pratiques autour de la mobilité, qui est actuellement à peine disponibleSujets couverts EUROVOC: travail, le marché du travail, mobilité de l'emploi, les postes vacantssources impliqués: Législation européenne, Eurostat, de-stat (fr-stat?), ESCO, Open Street Map, le transport public de Aix, Agence européenne pour la sécurité et la santé au travailSolution: La CE contribue les ingrédients de base pour une plate-forme centrale pour problèmes de mobilité transnationale de l'emploi
392014-01-17
TenForce – project: LOD2
Scenario 2 – L’ environnement
cas d’usage: Une chaîne de supermarchés allemande veut lancer une campagne d'image sur fruits de mer qui n'est pas en danger vers la surpêche dans les années à venircadre: En Allemagne, le marché des aliments biologiques est en croissance rapide comme le soutien de la durabilité. Malheureusement, l'information sur le développement durable est ainsi dispersée, qu'il n'y a aucun moyen - par exemple pour l'industrie de la publicité - de réagir correctement et sérieusement sur cette tendance des consommateursSujets couverts EUROVOC : Réserve naturelle, la politique de l'environnement, gestion des ressources, Industrie de la pêche, le poisson frais, les quotas de capturesources impliqués : Législation européenne, Eurostat, destat, la FAO, la Banque mondiale, l'Agence européenne pour l'environnementSolution: La CE contribue les ingrédients de base pour une plate-forme centrale pour la protection de l'environnement
402014-01-17
TenForce – project: LOD2
Scenario 3 – L’ énergie
cas d’usage: Le propriétaire de la maison dans le Pays-Bas veulent construire des cellules solaires sur son toitcadre: En raison de la "transition énergétique" ("Energiewende") en Allemagne, beaucoup de connaissances sur l'énergie renouvelable, l'impact, les technologies et les fournisseurs a été créé au niveau national. Cette information est également pertinente pour les autres Etats membres de l'UE et leurs citoyensSujets couverts EUROVOC : L'industrie de l'énergie, l'énergie solaire, cellule photovoltaïquesources impliqués: Législation européenne, Eurostat, destat, Centre commun de recherche, l'Agence de coopération des régulateurs de l'énergie, de l'Agence internationale de l'énergie, Stiftung WarentestSolution: La CE contribue des ingrédients de base pour relever les défis énergétiques transnationaux
412014-01-17
TenForce – project: LOD2 42
Prochaines étapes pour CELLAR (2014)
• Publier la législation de l’UE selon les normes ELI
• Publier jurisprudence selon les normes de ECLI• Publier le catalogue de la législation et de la
jurisprudence (éventuellement en utilisant la recommandation DCAT)
• Publier toutes les taxonomies de l'UE selon des niveaux plus élevés de normes LOD
2014-01-17
TenForce – project: LOD2 43
ESCO
2014-01-17
TenForce – project: LOD2 44
Le projet ESCO
• ESCO– Projet du DG emploi de l’UE– ESCO
• https://ec.europa.eu/esco/home (version 0)• Classification européenne des Aptitudes, Compétences,
Certifications et Professions– European Skills, Competences, Qualifications and Occupations
• Une taxonomie de trois piliers [sous-taxonomies] (S/C, Q et O) et le relations entre eux.
• Réutilise plusieurs autres taxonomie
2014-01-17
ESCO Modèle de DonnéesPilier Profession
• correspondance avec– ISCO xx (Norme OIT/ONU)– ROME (Norme Française)– ...
2014-01-17 TenForce – project: LOD2 45
O [profession]
Taxonomy par secteur industrielle- Agriculture- Education- ...
NACEmarquage
ISCO08
broaderMatch
ISCO88
correspondanceexactMatch
broaderMatch
ROME
broaderMatchexactMatch
ESCO Modèle de DonnéesPilier Profession
• relation descriptif
2014-01-17TenForce – project: LO
D2
46
Profession journaliste: =========================================================================================================
Compétences: =======================================================================================================
Qualifications: ==========================================================================================
document texte - non structurées ou semi-structurées
Occupation
à propos de(about)
ESCO Modèle de DonnéesPilier Compétences [Skill]
• Les compétences peuvent être– transversal– spécifique au secteur
• Le genre de compétence– connaissances, les compétences, la
compétence, la capacité • Compétences et Groupe
– Compétence & Leaf Group• Compétence (membre d'un groupe)
2014-01-17
TenForce – project: LOD247
• relation profession - compétences
Description de la Profession: =======================================================================================================
Compétences: =======================================================================================================
Qualifications: ==========================================================================================
document texte - non structurées ou semi-structurées
Occupation
à propos de
skill
skill
essentiel
désirée
ESCO Modèle de Données
• Facette d'une compétence2014-01-17 TenForce – project: LOD2 48
Expertise en langues étrangères
Facette de langues
Facet sur l'utilisation de la
langue
facette principale facette sous
compréhension
parlant
écriture
english
german
dutch
oasisLoC
EU-POskos:exactMatch
membre
membre
écoute
lecture
interaction orale
proclamer
spécifique
spécifique
(1) (1)
(2)
(4) (4)
membre
sub facet
ESCO Modèle de DonnéesPilier Qualification
• EQF, FoET, Awarding Body
2014-01-17 TenForce – project: LOD2 49
Q-groups
ESCOQ-Pillar
Q-members
FoET
exactMatch
EQF
tagging
hasAwardingBodyDescription
AwardingBody
tagging
description
Profession journaliste: =========================================================================================================
Compétences: =======================================================================================================
Qualifications: ==========================================================================================
document texte - non structurées ou semi-structurées
Occupation
à propos de(about)
ESCO Modèle de DonnéesPilier Profession (Reprise)
• relation descriptif
2014-01-17TenForce – project: LO
D2
50
ESCO Modèle de DonnéesPilier Profession (Reprise)
• Association: Profession - Qualification
2014-01-17TenForce – project: LO
D2
51
Description de la Profession: =======================================================================================================
Compétences: =======================================================================================================
Qualifications: ==========================================================================================
Occupation
qualification
document texte - non structurées ou semi-structurées
à propos de(about)
ESCO Modèle de DonnéesPilier Qualification
• Qualification inclus de manière indirect ou direct
• Qualification directement inclus sont maintenues par DG-EMPL/ESCO sur une base «au besoin» ou sur la base de la pertinence– qualification internationale (hors UE)
• Etats-Unis, Chine, ...
– qualification d'entreprise• ORACLE, CISCO, Microsoft, ...
• Qualification indirectement inclus sont– Maintenu par des organisations nationales– Enregistré par la DG EAC– Transférée à la DG EMPL selon la structure XML du DG-EAC
(enseignement et culture)– Chargé dans ESCO par DG-EMPL/ESCO
2014-01-17 TenForce – project: LOD2 52
ESCO Modèle de DonnéesPilier Qualification
• relation descriptif
2014-01-17 TenForce – project: LOD2 53
Description de la Qualification: =======================================================================================================
Compétences: =======================================================================================================
skill
skill
qualification
awarding body
compétences
organisme certificateur
à propos de(about)
document texte - non structurées ou semi-structurées
ESCO Modèle de Données - résumé• ESCO a trois piliers (Un pilier est une classe de concepts)
– occupation– compétence– qualification
• ESCO supporte la correspondance complète ou partielle à des autre taxonomie [mappé] (la correspondance est exprimer avec les propriétés de correspondance SKOS)
– La correspondance entre ESCO et ISCO (profession ESCO et groupe de profession ISCO)– La correspondance entre ESCO ROME (professions)
... d'autres si on en a besoin (O * NET) • ESCO utilise des taxonomies de soutien
– à marquer les concepts pilier ESCO (Marquage utilise DCMI sujet de la propriété) – pour le organiser le modèle ESCO avec des facettes (Groupement de concepts)– Exemples
• Lieu (Eurostat: NUTS; ISO)• Secteur d'activité (Eurostat: NACE)• Cadre européen des certifications (EQF)• CEFR• Unesco - ISU: FoET, ISCED• Langues (PO de l'UE, Lib du Congrès, OASIS-psi, ISO 639)• ...
2014-01-17 TenForce – project: LOD2 54
TenForce – project: LOD2 55
Outils pour Données Public Liées
2014-01-17
TenForce – project: LOD2 56
Quelques outils pour Données Public Liées
• SPARQL end-point – Base de données type NoSQL (RDF graph, Colonne)– Virtuoso, Oracle, Allegrograph
• Cadre de développement– Jena, Sesame
• Analyser– Topbraid, Protégé
• Alignement des bases de connaissances– SILK:
• http://lod2.eu/Project/Silk.html• http://wifo5-03.informatik.uni-mannheim.de/bizer/silk/
• Les meilleures pratiques– https://dvcs.w3.org/hg/gld/raw-file/default/bp/index.html
2014-01-17
TenForce – project: LOD2 57
Références• Projets sur web sémantique
– Eurovoc– Cellar– ESCO– LOD2 (R&D)– Wolters Kluwer– ODP (Open Data Portal)– ODS (Open Data Support)
• ISO 25964 (normalisation thésaurus)
• TenForce.com• johan.de-smedt@tenforce.com
2014-01-17
Recommended