Upload
garlann-nizon
View
680
Download
1
Embed Size (px)
Citation preview
La révolution des données numériquesUne conférence de Simon Chignard et Charles Nepote,proposée par la Fing,
Propos liminairesDe quoi parle-t-on ?
Données ? De quoi parle-t-on ?Des atomes d’information structurés et factuels :mesures, statistiques, description, coordonnées, horaires, budgets, données en temps réel, etc.
Plus précisément, par exemple :hauteur, longueur, durée, délai, matière, quantité, consommation, prix, températures, vitesses, etc.
Données <> médiasDonnées <> documentsDonnées <> informations
Données numériques ?Atomes d’information manipulables sans transformation par des systèmes informatiques
Données numériques ou pas ?
Données numériques ?Atomes d’information manipulables sans transformation par des systèmes informatiques
Données numériquesou pas ?
La donnée: un objet difficile à saisirLa donnée c’est intangible (on ne peut pas la toucher).
La donnée c’est toujours construit, contrairement à ce que laisse croire l’étymologie du mot (latin datum: ce qui est donné, qui ne fait pas débat, ce qui est exogène).
Yann-Moulier Boutang: “se méfier du naturalisme des données”
Quantifier (au sens: mettre en nombre), c’est faire des choix, établir des priorités, … Même les unités de mesure sont des conventions construites (ex. 1 mètre)
Et si la donnée était une matière première… ce serait ?
Portrait-robot de la donnée comme matière premièreUne matière première de plus en plus disponibleque l’on produit en plus grande quantité, de manière consciente ou inconsciente (“traces numériques”)dont les coûts de production, de collecte et de stockage diminuent chaque année
Une matière qui ne s’épuise pas quand on la consommequi prend de la valeur quand elle circule, pas quand on la stocke (thésaurisation)
Une matière dont la valeur est souvent dans la réutilisation, pas uniquement dans l’usage initial
1. Un nouveau monde de données
Le paysage des données ?
1984
Réseau Sentinelles
2008 - Google Flu Trends
1984 - 2015 Sentinelles, Google Flu Trends: même ambition mais pourtant
source de données, intentionalité, méthodes différentescoeur de métier vs. sous-produit de l’activité principaleporté par l’acteur public vs. par une multinationale...
1984-2015
On passe d’une donnée rare à une donnée abondante
Ce qui change (1) : la productionModes de production et d'exploitation ont fortement évoluéPuissance de traitement, de stockage, de mise en réseauFinesse et multiplication des capteursInformatique personnelle (dont base de données)Capteurs « grand public » (météo, santé, GPS, etc.)
... et vont continuer d'évoluerCapteurs personnels toujours plus fins et touchant toujours plus de domaine (montre verte, capteurs ingérables)Internet des objets“Digital labour”Mesure de soi (quantified self)… vers un nouveau web : le web des données
Ce qui change (1) : la production
Bracelet de mesure corporellejawbone.com
Ce qui change (1) : la production
La montre verte
Des capteurs moins chers
tomorrow-lab.com : DIY Traffic viewer
Ce qui change (2) : les producteursLe crowdsourcing : la coproduction des données par les “foules”Des pratiques anciennes toujours plus poussées en botanique, astronomie, etc.Un champ du crowdsourcing qui paraît sans limiteOpenStreetMap dans la cartographieDonnées environnementales (montre verte)Cartographie des caméras de surveillanceCapteurs « do it yourself » en tous genres pour moins de 100€ : comptage d'automobiles, mesures de consommations énergétiques, etc.Multisourcing (privé-public / privé-privé / public-privé-public)
Ce qui change (2) : les producteurs
L'extraction des données des infobox de wikipédia
+pages de catégories listant les œuvres conservées dans tel
musée
=
reconstitution possible de véritables petits catalogues des
oeuvres
openstreetmap.org : de qualité fréquemment supérieure à la concurrence
Ce qui change (2)
OpenFoodFacts
nest : thermostat apprenant :collecte vos données d'usage pour anticiper vos besoins
Ce qui change (2)
asthmapolis : capteur connecté d'inhalation de ventoline et réseau communautaire au service des asthmatiques (alerte, cartographies...)
Ce qui change (1 et 2) : production/producteursDes producteurs toujours plus nombreuxIndividus de tous types : adultes, enfants, professionnels, amateurs, etc.Organisations de tous types : entreprises, acteurs publics, associations, communautés (parfois informelles)
Des producteurs militants aux motivations les plus diversesDes “malgré eux”, obligés de produire des données pour accéder à un serviceDes M. Jourdain, qui produisent des données sans même le savoir
Qui ne produit pas de données ? Qu’est-ce qui ne produit pas de données ?
Ce qui change (3) : la quantité, les big dataUne quantité de données accumulée chaque jour plus vertigineuse
Cette quantité autorise de nouvelles perspectivesconstruire des modèles ne sert plus à rien ...... les réponses sont dans ces très grands volumes de données
La “fin de la théorie” ? (Chris Anderson)
Ce qui change (4) : la pluralité des sourcesPlein de manières différentes de mesurer le même phénomène (les “proxies”)
Exemple: “Combien de touristes sur les Champs Elysées ?”Enquête quantitative sur le terrainAnalyse des transactions de cartes bancaires (commerces)Analyse des logs de connexion de téléphonie (Orange, SFR)Repérage des photos prises sur les lieux et publiés sur Flickr… mais aussi à partir des tweets (cf. Tourists vs. Locals page suivante)
Conséquence : les données-monopoles sont de plus en plus rares et bien souvent, si vous n’ouvrez pas vos données, d’autres le feront à votre place
Tourists vs. Locals
Ce qui change (5) :1 donnée => de multiples usagesUne donnée n’a plus un seul usage pré-déterminé (valeur de réutilisation)On parle d’autonomisation de la donnéeUne donnée génère également d’autres données qui auront d’autres usages (ombre portée)
Certaines données racontent beaucoup d’autres choses que leurs usages premiers :Analyse des logs de connexion de téléphonie (Orange, SFR)Contenus publiés sur les grandes plate-formes web 2.0 (Flickr, Twitter, Facebook, Foursquare, etc.)les requêtes passées aux moteurs de recherchele wifi de votre téléphoneetc.
Ce qui change (5) :1 donnée => de multiples usages
Projet BANO : base adresse nationale en open data, illustration de la pluralité des sources (cadastre + open data local + contributeurs OSM)
Ce qui change (6) : l’ouverture des données (open data)Une idée de départ : les données produites par les acteurs publics devraient être réutilisablesUne idée déjà à l’oeuvre dans les communautés “Open*” : Wikipédia, Wikidata, OpenStreetMap, OpenFoodFacts, etc.Une idée qui s’étend aux entreprises
Un champ qui booste l’innovation car les données sont rendues très accessibles
Ce qui change (2+4+6) : l’ouverture des données (open data)
pluralité des producteurs(dont extension des co-producteurs)
+pluralité des sources (proxies)
+sources en open data
=Si vous n’ouvrez pas vos données,
d’autres le feront à votre place
Ce qui change (7) : les données liéesdes données exprimées dans une même "langue" (RDF)des identifiants uniques réutilisables pour chaque donnée (URI). Ex. http://data.bnf.fr/11907966/victor_hugo/des requêtes multi-sources indépendantes des outils (SPARQL)des bases de données reliées entre ellesbien adapté aux grands volumes de données froides : données encyclopédiques, bibliothéconomie, muséographie, référentiels administratifs, etc.
Ce qui change (7) : les données liées
Ce qui change (8) : les données, éthique et privacyOn dépasse le cadre des données personnelles stricto sensu : des données qui deviennent réidentifiantesLa société face aux défis du big data : vers de nouvelles formes de régulationPar ailleurs, toutes les données sont-elles bonnes à partager
Ce qui change : nouveau paysage, nouveau vocabulaireLes data : les données. La data : le matériauLe crowdsourcing, une entrée par le mode de production : données collectées collaborativement, par les « foules »Big Data, une entrée par la quantité et la technique : « grosses données », volumes de données TRÈS importants Small Data : des données pertinentes adaptées à la compréhension humaine, une entrée par les usages et usagersOpen Data vs Closed Data (peu utilisé), une entrée par le droit : des données librement réutilisables (+ faciles d’accès)Self Data : des données relatives à soi, une entrée par la destinationLe quantified self : “quantification de soi”, une pratique de collecte de données par soi-même, sur soi-même
Que fait-on avec les données ?Plein de trucs !
On répond à des questionsQuel est le prénom masculin le plus donné à Nice au cours des 5 dernières années ?Combien de femmes ont une licence sportive de handball dans ma commune ?Quelle commune de France accueille le plus grand nombre de personnes redevables de l’ISF (impôt de solidarité sur la fortune) ?Qui sont les 200 premiers titres de presse aidés par l’Etat en 2013 ?Combien d’accidents corporels en 2012 sur la route que j’emprunte tous les matins ?...
On prend des décisionsDois-je ouvrir mon magasin dans cette rue du centre-ville ?Est-ce que cette formation me permettra de trouver un emploi rapidement ?Est-ce que c’est rentable d’investir dans des panneaux solaires dans ma commune ?Est-ce qu’il vaut mieux prendre les avions d’Air France ou ceux d’Easy Jet entre Nice et Paris ?
On représente des phénomènes complexesVisualisation de l’offre de transports de Rennes dans une vidéo
On représente des phénomènes complexes / on débatLa répartition des aides à la presse en France (Samuel Azoulay à partir de données data.gouv.fr)
On représente des phénomènes complexes / on influenceLes morts par arme à feux ont baissé après le vote de la loi “Stand Your Ground” ?
On représente des phénomènes complexes / on révèleLes noms de rues comme révélateurs des inégalités hommes-femmes ?
On vous fait des recommandations
On essaie de prédire l’avenir
FiveThirtyEight
pause 5’à suivre : les données ce n’est pas trivial
Les données, c’est pas trivial Les difficultés que l’on rencontre,les défis que cela nous pose
L’objet “donnée”On ne croise pas des données tous les matins en sortant dans la rueOn ne peut pas “toucher” des données (intangible)Un objet ingrat, aride
Des données de qualité variable (1)
Des données de qualité variable (2)
Les Mairies de France ? (par Christian Quest)
Des données peu standardiséesTouche la plupart des données hors quelques domaines comme :les transports (GTFS)les données géographiques (GPX, KML, etc.)les oeuvres (Dublin core, MARC, etc.)...Un des gros problèmes de “l’offre” actuelleDes conséquences lourdespas de capitalisation des savoirs techniquesdes données difficiles à croiser (ex. prénoms)un marché et des usages qui peinent à décoller
Des données pas faciles à trouverLes liens profonds sont souvent mal référencés sur les moteurs de recherche, il faut donc d’abord identifier la source qui peut héberger les données…
Exemple: quelle est la qualité des eaux de baignade des plages de Vallauris - Golfe Juan ?recherche sur Googlesite de la municipalité avec données datant de 2011 …un site dédié au niveau national, mais difficile à trouver
Des données avec lesquelles on raconte n’importe quoi ?
Source des données: OMS via Gapminder
Corrélation ne fait pas causalité !
Des données pas faciles à manipulerGros fichiers : exemple fichier des licenciés sportifs par commune de France : fichier .csv de 120 Mo
TRÈS GROS fichiers : exemple, le DAMIR (Dépenses d'assurance maladie hors prestations hospitalières)un fichier de 30 Go pour une année1 milliard 500 millions de lignes pour 6 ans
formats techniques (OSM)
L’open data a-t-il changé tout ça ?
Les transformations de l'open data
Ce que l’open data a effectivement produit (5 ans plus tard)Les acteurs publics, un des premiers réutilisateurs : un des succès indéniables et un vrai facteur de modernisation de l'action publiquePour les acteurs publics, également, un rôle “d’enabler” (capacitation) assumé et lisible : revalorisation de l’action publique, rapprochement avec les nouveaux acteurs économiques, etc.Quelques vrais services utiles aux populationsLes données comme objet de débatLa possibilité de jouer, d’explorer, de manipuler de vrais données pour acculturer et faire grandir tous les acteurs
Un paysage des usagers trèsmitigéEn deuxième lieu, un profil type : un individu, jeune, mâle, geekSouvent militantAssez souvent étudiant, en libéral ou en inter-contratRecherchant une visibilité ou du fun : méritocratie, montrer son savoir-faire pour se « vendre », s'amuser...D'autres publics présents mais très minoritairesDes start-ups, quelques PME « techno », des chercheurs, à peu près aucune PME traditionnellePeu de business « pure » open dataPeu ou pas de femmes, d'enfants, de personnes âgéesPeu d'association, de médias
… un paysage des usagers qui s’explique aisément Aridité des matériaux : de sèches colonnes de chiffres et de code
Une pertinence et une qualité des données aléatoires qui oblige à un gros travail de retraitement et/ou de croisement
Une importante barrière technique à l'usage
Un vrai manque de lisibilité du côté de l'offre :Des données pas assez présentes là où sont les gensUn manque d'éditorialisation qui ne facilite pas la compréhensionDes sachants plus portés sur le code que sur de la médiation
Une acculturation aux données encore faible
Capacitation du plus grand nombre
Écosystème riche et ouvert
Une appropriation large par l’ensemble
du tissu économique
Une réelle appropriation de
l'économie sociale et solidaire
Donner du pouvoir à ceux qui en ont déjà
Un sujet de spécialistes en vase clôt
La naissance de monopoles industriels
De meilleurs services pour des citoyens aisés et insérés
La médiation aux données, besoin criant mais peu adresséTrès peu d’acteursEPN à travers les cartopartiesles “cantines” numériques, espaces de co-working, etc.quelques très rares spécialistes (ANACT, Altercarto…)Quelles médiationsla mode des événements “en cloche” : hackathons, concours, camps, cartoparties, etc.une vraie stimulation de l’écosystème local ...... mais beaucoup de déchet, le soufflé retombe viteun vrai besoin de médiations continues
La médiation aux données :quelques principesRendre lisible, tangible, sensible, à l’échelle des individusManipuler, apprendre par le “faire” : tant qu’une personne n’a pas manipulée, elle ne se rend pas compte de ces problèmesProduire des données : un bon producteur/ouvreur de données est un bon réutilisateurUne démarche ouverte et collective, parce qu’avec des choses si neuves l’apprentissage collectif est tellement plus efficace
Le nouveau monde de données requiert de nouvelles médiations qui sont en cours d’invention, de test.
???
En 1973, 16000 habitants de Mazamet et la Prévention routière livrent une campagne qui marque
toute la France.
Développer des outils
Initier, expérimenter et déployer des méthodes de médiation autour de la donnée
Le 02 octobre 2015 HappyTIC 2015 – Grenoble
#Dataviz_rra : exemple d’outils
Le 02 octobre 2015 HappyTIC 2015 – Grenoble
Développer les ressources
Le 02 octobre 2015 HappyTIC 2015 – Grenoble
Favoriser l’émergence d’un réseau d’acteurs impliqués dans l’ouverture, la diffusion, la collecte, le traitement et la médiation de la donnée
Développer les usages
Le 02 octobre 2015 HappyTIC 2015 – Grenoble
Convaincre les acteurs publics de l'intérêt de l’ouverture et de la réutilisation des données.
L’infolab, un “lab” ouvert pour les donnéesDès l’origine pensé pour défendre 3 valeurs :ouvertaccessiblecontinu
3 grandes missions de médiation :initiation/formation“incubation”débat
Une très grande variété de formes : thématique, en réseau, de branche, spécialisé sur des publics, etc.
Parmi les résultats de la campagne Infolab
Parmi les résultats de la campagne InfolabUn travail sur les compétences relatives aux donnéesUne charte des infolabs en version betaUn portail de référence pour la communauté : http://infolabs.ioEn cours de finalisation ou publication :La conception/test/documentation d’un ensemble de méthodologies de base, clé en main, pour non-spécialistesUne base de données collaborative de plus de 170 ressources utiles à la médiation aux donnéesUn module de formation à la médiation aux donnéesPlus de 20 projets/réflexions d'infolabs en cours : Lyon, Grenoble, Brest, Poitou-Charentes, Marseille, Axa, GRdF, etc.Tous nos travaux sont réutilisables sous licence Creative Commons CC-BY
Parmi les résultats de la campagne Infolab