48
23 AUGUST 2016 THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION Reminders about Data Quality Sharon Grant & Sophie Pamerlon

Bid CE Workshop 1 session 06 - Data quality during digitization

Embed Size (px)

Citation preview

Page 1: Bid CE Workshop 1   session 06 - Data quality during digitization

23 AUGUST 2016THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION

Reminders about Data QualitySharon Grant & Sophie Pamerlon

Alberto González-Talaván
I would suggest to remove this one as well
Alberto González-Talaván
I would suggest to remove this one as well
Alberto González-Talaván
Suggest to summarize all this in a single slide
Alberto González-Talaván
Suggest to summarize all this in a single slide
Alberto González-Talaván
Suggest to summarize all this in a single slide
Alberto González-Talaván
Suggest to summarize all this in a single slide
Alberto González-Talaván
Suggest to summarize all this in a single slide
Alberto González-Talaván
Suggest to summarize all this in a single slide.
Sophie Pamerlon
Forget about my changes, I didn't see you already made a summary slide above
Alberto González-Talaván
I would suggest to remove this one as well
Alberto González-Talaván
I suggest to remove this one, as they had already seen it.
Sophie Pamerlon
Same question for this map/slide
Sophie Pamerlon
Should we keep this one even if it's the old map design? (it really helps people understanding spatial data issues in trainings)
Alberto González-Talaván
Same with this one.
Alberto González-Talaván
I would recommend not to include this one. These concepts they have seen in the past.
Sophie Pamerlon
I agree, we can delete it
Page 2: Bid CE Workshop 1   session 06 - Data quality during digitization

23 AOÛT 2016THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION

Rappels sur la qualité des données Sharon Grant et Sophie Pamerlon

Page 3: Bid CE Workshop 1   session 06 - Data quality during digitization

INDEX

BackgroundData WorkflowData Quality and Digitization

MetadataTaxonomic informationSpatial informationCollection informationDescriptive information

Inde

x

Page 4: Bid CE Workshop 1   session 06 - Data quality during digitization

INDEX

ContexteFlux des donnéesQualité des données et numérisation

MétadonnéesDonnées taxonomiquesDonnée spatialesDonnées de collecteDonnées descriptives

Inde

x

Page 5: Bid CE Workshop 1   session 06 - Data quality during digitization

From data to understanding…

Oceans of data…

Bac

kgro

und

Page 6: Bid CE Workshop 1   session 06 - Data quality during digitization

Des données à la compréhension…

Des océans de données…

Con

text

e

Page 7: Bid CE Workshop 1   session 06 - Data quality during digitization

…rivers of information…

Bac

kgro

und

Page 8: Bid CE Workshop 1   session 06 - Data quality during digitization

…des rivières d’informations…

Con

text

e

Page 9: Bid CE Workshop 1   session 06 - Data quality during digitization

… streams of knowledge…

Bac

kgro

und

Page 10: Bid CE Workshop 1   session 06 - Data quality during digitization

… des ruisseaux de connaissances …

Con

text

e

Page 11: Bid CE Workshop 1   session 06 - Data quality during digitization

…droplets of understanding

Bac

kgro

und

Page 12: Bid CE Workshop 1   session 06 - Data quality during digitization

…des gouttes de compréhension

Con

text

e

Page 13: Bid CE Workshop 1   session 06 - Data quality during digitization

Data quality is a relative concept that depends on the use of these data.

"The general intent of describing the quality of a particular dataset or record is to describe the fitness of that dataset or record for a particular use that one may have in mind for the data."

Chrisman, 1991

Fitness for use - DefinitionD

efin

ition

Page 14: Bid CE Workshop 1   session 06 - Data quality during digitization

La qualité des données est un concept relatif qui dépend de l’usage qui est fait de ces données…

« L’intention générale, lorsqu’on décrit la qualité d’un jeu de données ou d’un enregistrement, est de décrire l’adéquation de ce jeu de données ou enregistrement à l’usage que l’on souhaite que d’autres personnes en fassent.»

Chrisman, 1991

« Fitness-for-use »

Adéquation à l’usage - définitionD

éfin

ition

Page 15: Bid CE Workshop 1   session 06 - Data quality during digitization

Each institution should have:

1.A vision targeted on data quality

o Don’t « reinvent the wheel » and use standardso Seek efficiency (in collecting data and quality checks) and avoid

duplicating effortso Promote sharing (data, informations, tools, standards…)o Think at a large scaleo Cater to users and their needso Invest in documentation and metadata

2.A policy implementing this vision

3.An implementation strategy for this policy (precise goals at short, mean and long term)

Data Processing and QualityD

ata

wor

kflo

w

Page 16: Bid CE Workshop 1   session 06 - Data quality during digitization

Chaque institution devrait avoir :

1.Une vision ciblant la qualité des données

o Ne pas “réinventer la roue” et utiliser les standardso Chercher l’efficacité (dans la collecte et l’assurance qualité)

and éviter la duplication d’efforto Encourager le partage (données, informations et outils)o Réfléchir à long termeo Prendre soin des utilisateurs et de leurs besoinso Investir dans la documentation et les métadonnées

2.Une politique implémentant cette vision

3.Une stratégie d’implémentation pour cette politique (échéances précises à court, moyen et long terme)

Chaîne des Données et QualitéFl

ux d

e do

nnée

s

Page 17: Bid CE Workshop 1   session 06 - Data quality during digitization

Quality loss happens at every step.The responsibility in terms of data quality has to be assigned at the earlier possible step of the process.

Dat

a w

orkf

low

Data Processing and Quality

Page 18: Bid CE Workshop 1   session 06 - Data quality during digitization

La perte de qualité survient à chaque étape.La responsabilité en terme de qualité de données doit être assignée le plus tôt possible dans cette chaîne.

Flux

de

donn

ées

Chaîne des Données et Qualité

Page 19: Bid CE Workshop 1   session 06 - Data quality during digitization

CuratorRetranscription quality in the database 

Regular validation tests. 

Data regularly saved and archived

Keep precedent versions

Ensure respect of private life, intellectual rights, local traditions and sensibilities ...

Provide quality documentation (including known issues about the data)

Take feedback into account

Responsibility for maintenance but also moral responsibility to improve data quality (if possible) for future uses and users.

Sharing responsibilitiesUserInform data curators about Mistakes and et omissions in data and documentation.

Provide feedback to define future priorities

When using data, determine whether data are adequate for intended use and not use them if this is not the case.

CollectorLabels and logs are as correct, complete and readable as possible

Collection methods are vastly documented

Remarks are clear and non-ambiguous

Dat

a flo

w

Page 20: Bid CE Workshop 1   session 06 - Data quality during digitization

ConservateurQualité des retranscriptions dans la base de données 

Tests de validation réguliers et documentés. 

Les données sont sauvegardées et archivées

Les versions précédentes sont conservées

Assurer le respect (vie privées, propriété intellectuelle, traditions locales, ...)

Fournir une documentation de qualité (incluant les problèmes connus)

Les retours utilisateurs sont pris en compte

Responsabilité de maintenance et d’améliorer la qualité des données pour de futurs utilisateurs et usages.

Partage des ResponsabilitésUtilisateurInformer les conservateurs des erreurs et omissions dans les données et la documentation

Définir les priorités futures

A l’usage, déterminer si les donnés sont adaptées à l’usage prévu et ne pas les utiliser de façon non-adéquate.

CollecteurL’étiquetage et les journaux sont corrects, aussi complets que possible et lisibles

Les méthodes de collecte sont largement documentées

Les remarques sont claires et non-ambiguës

Flux

de

donn

ées

Page 21: Bid CE Workshop 1   session 06 - Data quality during digitization

What can the digitization team do?

1. Help document the data(set) through metadata and record-level annotations2. Ensure the maximum quality possible when digitizing:

1. Taxonomic data2. Geographical data3. Collection and collector data4. Descriptive data

Dat

a w

orkf

low

Page 22: Bid CE Workshop 1   session 06 - Data quality during digitization

Que peuvent faire les équipes de numérisation ?

1. Aider à documenter le(s) jeu(x) de données grâce aux métadonnées et annotations sur les occurrences2. S’assurer de la meilleure qualité possible lors de la numérisation :

1. Données taxonomiques2. Données géographiques3. Données sur la collection et le collecteur4. Données descriptives

Flux

de

donn

ées

Page 23: Bid CE Workshop 1   session 06 - Data quality during digitization

Metadata = « Data about the data »

• Describe content, accessibility, completeness...• About the dataset• Error documentation• Documentation of validation process, data cleaning

and data correcting

Metadata must be rich enough to allow data (re)use by a third party without them having to refer to the data source.

Met

adat

aDocumenting quality during digitization

Page 24: Bid CE Workshop 1   session 06 - Data quality during digitization

Métadonnées = « Données sur les données »

• Décrivent le contenu, l’accessibilité, la complétude, ...• A propos du dataset• Documentation de l’erreur• Documentation des procédures de validation, de

nettoyage et de correction appliquées

Les métadonnées doivent être suffisamment riches pour permettre l’usage des données par des tiers sans devoir se référer à la source de ces données.

Mét

adon

nées Documentation de la qualité pendant la numérisation

Page 25: Bid CE Workshop 1   session 06 - Data quality during digitization

• Names (scientific, vernacular, rank, hierarchy, …)

• Statuts (synonyms, valid names, …)

• References (author, date and location)

• Identification (by whom and when?)

• Quality terms (ID certainty, …)

Taxo

nom

ic d

ata

Taxonomic data: definition

Page 26: Bid CE Workshop 1   session 06 - Data quality during digitization

• Noms (scientifique, vernaculaire, rang, hiérarchie, …)

• Statuts (synonymes, nom valide, …)

• Références (auteur, date et lieu)

• Détermination (par qui et quand ?)

• Champs relatifs à la qualité (certitude, …)

Don

nées

taxo

nom

ique

sDonnées taxonomiques : définition

Page 27: Bid CE Workshop 1   session 06 - Data quality during digitization

Scientific/vernacular name = entry point

Risk of propagating errors during the whole data publishing process

Possible errors and solutions:

• Incorrect identifications (calls for help from a taxonomist)• Typos (data cleaning)• Wrong format (data cleaning)

Errors can affect scientific and vernacular names, from all taxonomic ranks

Taxo

nom

ic d

ata

Taxonomic data

Page 28: Bid CE Workshop 1   session 06 - Data quality during digitization

Souvent le nom = point d’entrée

Risque de propagation des erreurs tout au long du processus de publication des données

Erreurs possibles et solutions :

• Identification incorrectes (requiert l’aide d’un taxonomiste)• Erreurs orthographiques (nettoyage des données)• Mauvais format (nettoyage des données)

Les erreurs peuvent concerner noms scientifiques et noms communs, à tous les niveaux de taxonomie

Don

nées

taxo

nom

ique

sDonnées taxonomiques

Page 29: Bid CE Workshop 1   session 06 - Data quality during digitization

• Missing data (e.g.: subspecies written but not the species)

• Incorrect values (typos, wrong column, symbols « ?? », …)

• Non-atomic values (e.g.: « subsp. bicostasa » in a single term)

• Uncertainty on at least one name of the binominal nomenclature

• Duplicates (synonyms, several valid names…)

• Inconsistent data after to databases fusion using several checklists

Taxo

nom

ic d

ata

Taxonomic data: common MISTAKES to avoid

Page 30: Bid CE Workshop 1   session 06 - Data quality during digitization

• Données manquantes (ex : sous-espèce renseignée mais pas l’espèce)

• Valeurs incorrectes (fautes de frappe, mauvaise colonne, symboles « ?? », …)

• Valeurs non-atomiques (ex : « subsp. bicostasa » dans un seul champ

• Incertitude sur un des noms de la nomenclature binomiale

• Valeurs dupliquées (synonymes, plusieurs noms valides…)

• Données inconsistantes suite à la fusion de deux bases de données utilisant différents référentiels

Don

nées

taxo

nom

ique

sDonnées taxonomiques : ERREURS à éviter

Page 31: Bid CE Workshop 1   session 06 - Data quality during digitization

Spatial data (textual or geo-referenced) are one of the key information to determine the fitness-for-use of biodiversity primary data:

• Species distribution modelling• Selection of areas to protect• Resources and environment

management• ...

Spa

tial d

ata

Spatial data: definition

Page 32: Bid CE Workshop 1   session 06 - Data quality during digitization

Les données spatiales (textuelles ou géoréférencées) représentent un des aspects cruciaux pour déterminer l’adéquation à l’usage des données primaires de biodiversité:

• Modélisation de la distribution des espèces• Sélections des zones à protéger• Gestion de l’environnement et

des ressources• ...

Don

nées

spa

tiale

sDonnées spatiales : définition

Page 33: Bid CE Workshop 1   session 06 - Data quality during digitization

What are we talking about?• Latitude and longitude • Area• Point + radius• Bounding box = rectangle calculated from the coordinates of two points)• Polyline• Grid reference

Spa

tial d

ata

Spatial data: definition (2)

Page 34: Bid CE Workshop 1   session 06 - Data quality during digitization

De quoi s’agit-il ?• Latitude et longitude • Aire• Point + rayon• Boîte englobante (bounding box = rectangle calculé à partir des coordonnées de deux points)• Polyline• Référence de grille

Don

nées

spa

tiale

sDonnées spatiales : définition (2)

Page 35: Bid CE Workshop 1   session 06 - Data quality during digitization

Spa

tial d

ata

Data based on a grid

Page 36: Bid CE Workshop 1   session 06 - Data quality during digitization

Don

nées

spa

tiale

sDonnées basées sur une grille

Page 37: Bid CE Workshop 1   session 06 - Data quality during digitization

• Coordinates: a code documenting a position on Earth, expressed with a SRS (spatial reference system). Most of the time: latitude/longitude

• Georeferencing: the process of assigning a geographical reference to a given record.

• Datum: geodetic system

Spa

tial d

ata

Spatial data: a few more definitions

Page 38: Bid CE Workshop 1   session 06 - Data quality during digitization

• Coordonnées : un code documentant une position sur la surface de la terre, exprimé suivant un SRS (spatial reference system). En pratique; souvent latitude/longitude

• Géoréférencement : le procédé qui consiste à assigner une référence géographique à un enregistrement donné.

• Datum : système géodésique

Don

nées

spa

tiale

sDonnées spatiales : quelques définitions

Page 39: Bid CE Workshop 1   session 06 - Data quality during digitization

• Coordinates inversion

• Null values

• Unknown datum

• Inadapted SRS

• Conversion issues.

Spatial data: common MISTAKES to avoid

Early GBIF map showing USA data, making evident some common mistakes:

● 0,0 coordinates (Greenwich meridian and Equator)● Reverse coordinates (mirror effect on China and slight

mirror effect west of Chile)

Spa

tial d

ata

Page 40: Bid CE Workshop 1   session 06 - Data quality during digitization

• Inversion des coordonnées

• Valeur(s) zéro

• Système géodésique oudatum inconnu

• SRS inadapté

• Problèmes de conversion.Don

nées

spa

tiale

sDonnées spatiales : ERREURS à éviter

Ancienne carte GBIF que présentait les données des États Unis, montrant des exemples d’erreurs communes :

● Coordonnées 0, 0 (méridien de Greenwich et Equateur)

● Coordonnées inversées (miroir sur la Chine et léger miroir à l’ouest du Chili)

Page 41: Bid CE Workshop 1   session 06 - Data quality during digitization

• Collector name• Collect date• Additional information: habitat, soil, meteorological

conditions…

Relevance depends on dataset type:

• Static collection (museum) : collector name and ID, date, habitat, capture technique...

• Observations: observation length, area, time of day, activity, sex of the observed specimen…

• Sampling-event data: sampling methods, grid size, frequency, collection of reference specimens

Col

lect

ion

data

Collection data: definition

Page 42: Bid CE Workshop 1   session 06 - Data quality during digitization

• Nom du collecteur• Date de collecte

• Informations supplémentaires: habitat, sol, conditions météorologiques…

La pertinence dépend du type de jeu de données:

• Collection statique (musée) : nom et ID du collecteur, date, habitat, méthode de capture ...

• Observations: +durée d’observation, zone, période de la journée, activité, sexe du spécimen observé…

• Échantillonnage et inventaires exhaustifs : +méthode, taille de la grille, fréquence, si des spécimens de référence ont été collecté (+références)

Don

nées

de

colle

cte

Données de collecte et de collecteur : définition

Page 43: Bid CE Workshop 1   session 06 - Data quality during digitization

• Exactitude: names of the collector(s), date,…

• Consistency: use of a controlled vocabulary for soils, habitats…

• Completeness: some terms are very rarely completed (flowering period, associated species…) which can impede data (re)use

Col

lect

ion

data

Collection data: factors

Page 44: Bid CE Workshop 1   session 06 - Data quality during digitization

• Exactitude: nom du ou des collecteurs, date,…

• Cohérence: utilisation d’une terminologie (différente pour les sols, les habitats…)

• Complétude : certains champs sont très rarement renseignés (floraison, espèces associées…) ce qui peut limiter la réutilisation des données

Données de collecte et de collecteur : facteursD

onné

es d

e co

llect

e

Page 45: Bid CE Workshop 1   session 06 - Data quality during digitization

• Variable quality: historical data impossible to check, data description too expensive on time/money, subjectivity (colour or abundance estimation…)

• Often data relative to the whole taxonomic rank and not the specimen in particular

• Completeness: generally impossible to achieve on a given specimen

• Consistency: some traits can be non consistento FLOWER_COLOUR = Carmineo FLOWER_COLOUR = Crimson

Des

crip

tive

data

Descriptive data: factors

Page 46: Bid CE Workshop 1   session 06 - Data quality during digitization

• Qualité très variable : données historiques impossibles à vérifier, description trop coûteuse en temps/argent, subjectivité (estimation des couleurs, de l’abondance…)

• Souvent des données s’appliquant au niveau taxonomique et pas au niveau du spécimen

• Complétude : généralement impossible à atteindre sur un même spécimen

• Cohérence: attributs non consistantso FLOWER_COLOUR = MAUVEo FLOWER_COLOUR= violet clairD

onné

es d

escr

iptiv

es Données descriptives : facteurs

Page 47: Bid CE Workshop 1   session 06 - Data quality during digitization

23 AUGUST 2016THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION

Reminders about Data QualitySharon Grant & Sophie Pamerlon

Page 48: Bid CE Workshop 1   session 06 - Data quality during digitization

23 AOÛT 2016THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION

Rappels sur la qualité des données Sharon Grant et Sophie Pamerlon