Bid CE Workshop 1 session 06 - Data quality during digitization

Preview:

Citation preview

23 AUGUST 2016THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION

Reminders about Data QualitySharon Grant & Sophie Pamerlon

Alberto González-Talaván
I would suggest to remove this one as well
Alberto González-Talaván
I would suggest to remove this one as well
Alberto González-Talaván
Suggest to summarize all this in a single slide
Alberto González-Talaván
Suggest to summarize all this in a single slide
Alberto González-Talaván
Suggest to summarize all this in a single slide
Alberto González-Talaván
Suggest to summarize all this in a single slide
Alberto González-Talaván
Suggest to summarize all this in a single slide
Alberto González-Talaván
Suggest to summarize all this in a single slide.
Sophie Pamerlon
Forget about my changes, I didn't see you already made a summary slide above
Alberto González-Talaván
I would suggest to remove this one as well
Alberto González-Talaván
I suggest to remove this one, as they had already seen it.
Sophie Pamerlon
Same question for this map/slide
Sophie Pamerlon
Should we keep this one even if it's the old map design? (it really helps people understanding spatial data issues in trainings)
Alberto González-Talaván
Same with this one.
Alberto González-Talaván
I would recommend not to include this one. These concepts they have seen in the past.
Sophie Pamerlon
I agree, we can delete it

23 AOÛT 2016THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION

Rappels sur la qualité des données Sharon Grant et Sophie Pamerlon

INDEX

BackgroundData WorkflowData Quality and Digitization

MetadataTaxonomic informationSpatial informationCollection informationDescriptive information

Inde

x

INDEX

ContexteFlux des donnéesQualité des données et numérisation

MétadonnéesDonnées taxonomiquesDonnée spatialesDonnées de collecteDonnées descriptives

Inde

x

From data to understanding…

Oceans of data…

Bac

kgro

und

Des données à la compréhension…

Des océans de données…

Con

text

e

…rivers of information…

Bac

kgro

und

…des rivières d’informations…

Con

text

e

… streams of knowledge…

Bac

kgro

und

… des ruisseaux de connaissances …

Con

text

e

…droplets of understanding

Bac

kgro

und

…des gouttes de compréhension

Con

text

e

Data quality is a relative concept that depends on the use of these data.

"The general intent of describing the quality of a particular dataset or record is to describe the fitness of that dataset or record for a particular use that one may have in mind for the data."

Chrisman, 1991

Fitness for use - DefinitionD

efin

ition

La qualité des données est un concept relatif qui dépend de l’usage qui est fait de ces données…

« L’intention générale, lorsqu’on décrit la qualité d’un jeu de données ou d’un enregistrement, est de décrire l’adéquation de ce jeu de données ou enregistrement à l’usage que l’on souhaite que d’autres personnes en fassent.»

Chrisman, 1991

« Fitness-for-use »

Adéquation à l’usage - définitionD

éfin

ition

Each institution should have:

1.A vision targeted on data quality

o Don’t « reinvent the wheel » and use standardso Seek efficiency (in collecting data and quality checks) and avoid

duplicating effortso Promote sharing (data, informations, tools, standards…)o Think at a large scaleo Cater to users and their needso Invest in documentation and metadata

2.A policy implementing this vision

3.An implementation strategy for this policy (precise goals at short, mean and long term)

Data Processing and QualityD

ata

wor

kflo

w

Chaque institution devrait avoir :

1.Une vision ciblant la qualité des données

o Ne pas “réinventer la roue” et utiliser les standardso Chercher l’efficacité (dans la collecte et l’assurance qualité)

and éviter la duplication d’efforto Encourager le partage (données, informations et outils)o Réfléchir à long termeo Prendre soin des utilisateurs et de leurs besoinso Investir dans la documentation et les métadonnées

2.Une politique implémentant cette vision

3.Une stratégie d’implémentation pour cette politique (échéances précises à court, moyen et long terme)

Chaîne des Données et QualitéFl

ux d

e do

nnée

s

Quality loss happens at every step.The responsibility in terms of data quality has to be assigned at the earlier possible step of the process.

Dat

a w

orkf

low

Data Processing and Quality

La perte de qualité survient à chaque étape.La responsabilité en terme de qualité de données doit être assignée le plus tôt possible dans cette chaîne.

Flux

de

donn

ées

Chaîne des Données et Qualité

CuratorRetranscription quality in the database 

Regular validation tests. 

Data regularly saved and archived

Keep precedent versions

Ensure respect of private life, intellectual rights, local traditions and sensibilities ...

Provide quality documentation (including known issues about the data)

Take feedback into account

Responsibility for maintenance but also moral responsibility to improve data quality (if possible) for future uses and users.

Sharing responsibilitiesUserInform data curators about Mistakes and et omissions in data and documentation.

Provide feedback to define future priorities

When using data, determine whether data are adequate for intended use and not use them if this is not the case.

CollectorLabels and logs are as correct, complete and readable as possible

Collection methods are vastly documented

Remarks are clear and non-ambiguous

Dat

a flo

w

ConservateurQualité des retranscriptions dans la base de données 

Tests de validation réguliers et documentés. 

Les données sont sauvegardées et archivées

Les versions précédentes sont conservées

Assurer le respect (vie privées, propriété intellectuelle, traditions locales, ...)

Fournir une documentation de qualité (incluant les problèmes connus)

Les retours utilisateurs sont pris en compte

Responsabilité de maintenance et d’améliorer la qualité des données pour de futurs utilisateurs et usages.

Partage des ResponsabilitésUtilisateurInformer les conservateurs des erreurs et omissions dans les données et la documentation

Définir les priorités futures

A l’usage, déterminer si les donnés sont adaptées à l’usage prévu et ne pas les utiliser de façon non-adéquate.

CollecteurL’étiquetage et les journaux sont corrects, aussi complets que possible et lisibles

Les méthodes de collecte sont largement documentées

Les remarques sont claires et non-ambiguës

Flux

de

donn

ées

What can the digitization team do?

1. Help document the data(set) through metadata and record-level annotations2. Ensure the maximum quality possible when digitizing:

1. Taxonomic data2. Geographical data3. Collection and collector data4. Descriptive data

Dat

a w

orkf

low

Que peuvent faire les équipes de numérisation ?

1. Aider à documenter le(s) jeu(x) de données grâce aux métadonnées et annotations sur les occurrences2. S’assurer de la meilleure qualité possible lors de la numérisation :

1. Données taxonomiques2. Données géographiques3. Données sur la collection et le collecteur4. Données descriptives

Flux

de

donn

ées

Metadata = « Data about the data »

• Describe content, accessibility, completeness...• About the dataset• Error documentation• Documentation of validation process, data cleaning

and data correcting

Metadata must be rich enough to allow data (re)use by a third party without them having to refer to the data source.

Met

adat

aDocumenting quality during digitization

Métadonnées = « Données sur les données »

• Décrivent le contenu, l’accessibilité, la complétude, ...• A propos du dataset• Documentation de l’erreur• Documentation des procédures de validation, de

nettoyage et de correction appliquées

Les métadonnées doivent être suffisamment riches pour permettre l’usage des données par des tiers sans devoir se référer à la source de ces données.

Mét

adon

nées Documentation de la qualité pendant la numérisation

• Names (scientific, vernacular, rank, hierarchy, …)

• Statuts (synonyms, valid names, …)

• References (author, date and location)

• Identification (by whom and when?)

• Quality terms (ID certainty, …)

Taxo

nom

ic d

ata

Taxonomic data: definition

• Noms (scientifique, vernaculaire, rang, hiérarchie, …)

• Statuts (synonymes, nom valide, …)

• Références (auteur, date et lieu)

• Détermination (par qui et quand ?)

• Champs relatifs à la qualité (certitude, …)

Don

nées

taxo

nom

ique

sDonnées taxonomiques : définition

Scientific/vernacular name = entry point

Risk of propagating errors during the whole data publishing process

Possible errors and solutions:

• Incorrect identifications (calls for help from a taxonomist)• Typos (data cleaning)• Wrong format (data cleaning)

Errors can affect scientific and vernacular names, from all taxonomic ranks

Taxo

nom

ic d

ata

Taxonomic data

Souvent le nom = point d’entrée

Risque de propagation des erreurs tout au long du processus de publication des données

Erreurs possibles et solutions :

• Identification incorrectes (requiert l’aide d’un taxonomiste)• Erreurs orthographiques (nettoyage des données)• Mauvais format (nettoyage des données)

Les erreurs peuvent concerner noms scientifiques et noms communs, à tous les niveaux de taxonomie

Don

nées

taxo

nom

ique

sDonnées taxonomiques

• Missing data (e.g.: subspecies written but not the species)

• Incorrect values (typos, wrong column, symbols « ?? », …)

• Non-atomic values (e.g.: « subsp. bicostasa » in a single term)

• Uncertainty on at least one name of the binominal nomenclature

• Duplicates (synonyms, several valid names…)

• Inconsistent data after to databases fusion using several checklists

Taxo

nom

ic d

ata

Taxonomic data: common MISTAKES to avoid

• Données manquantes (ex : sous-espèce renseignée mais pas l’espèce)

• Valeurs incorrectes (fautes de frappe, mauvaise colonne, symboles « ?? », …)

• Valeurs non-atomiques (ex : « subsp. bicostasa » dans un seul champ

• Incertitude sur un des noms de la nomenclature binomiale

• Valeurs dupliquées (synonymes, plusieurs noms valides…)

• Données inconsistantes suite à la fusion de deux bases de données utilisant différents référentiels

Don

nées

taxo

nom

ique

sDonnées taxonomiques : ERREURS à éviter

Spatial data (textual or geo-referenced) are one of the key information to determine the fitness-for-use of biodiversity primary data:

• Species distribution modelling• Selection of areas to protect• Resources and environment

management• ...

Spa

tial d

ata

Spatial data: definition

Les données spatiales (textuelles ou géoréférencées) représentent un des aspects cruciaux pour déterminer l’adéquation à l’usage des données primaires de biodiversité:

• Modélisation de la distribution des espèces• Sélections des zones à protéger• Gestion de l’environnement et

des ressources• ...

Don

nées

spa

tiale

sDonnées spatiales : définition

What are we talking about?• Latitude and longitude • Area• Point + radius• Bounding box = rectangle calculated from the coordinates of two points)• Polyline• Grid reference

Spa

tial d

ata

Spatial data: definition (2)

De quoi s’agit-il ?• Latitude et longitude • Aire• Point + rayon• Boîte englobante (bounding box = rectangle calculé à partir des coordonnées de deux points)• Polyline• Référence de grille

Don

nées

spa

tiale

sDonnées spatiales : définition (2)

Spa

tial d

ata

Data based on a grid

Don

nées

spa

tiale

sDonnées basées sur une grille

• Coordinates: a code documenting a position on Earth, expressed with a SRS (spatial reference system). Most of the time: latitude/longitude

• Georeferencing: the process of assigning a geographical reference to a given record.

• Datum: geodetic system

Spa

tial d

ata

Spatial data: a few more definitions

• Coordonnées : un code documentant une position sur la surface de la terre, exprimé suivant un SRS (spatial reference system). En pratique; souvent latitude/longitude

• Géoréférencement : le procédé qui consiste à assigner une référence géographique à un enregistrement donné.

• Datum : système géodésique

Don

nées

spa

tiale

sDonnées spatiales : quelques définitions

• Coordinates inversion

• Null values

• Unknown datum

• Inadapted SRS

• Conversion issues.

Spatial data: common MISTAKES to avoid

Early GBIF map showing USA data, making evident some common mistakes:

● 0,0 coordinates (Greenwich meridian and Equator)● Reverse coordinates (mirror effect on China and slight

mirror effect west of Chile)

Spa

tial d

ata

• Inversion des coordonnées

• Valeur(s) zéro

• Système géodésique oudatum inconnu

• SRS inadapté

• Problèmes de conversion.Don

nées

spa

tiale

sDonnées spatiales : ERREURS à éviter

Ancienne carte GBIF que présentait les données des États Unis, montrant des exemples d’erreurs communes :

● Coordonnées 0, 0 (méridien de Greenwich et Equateur)

● Coordonnées inversées (miroir sur la Chine et léger miroir à l’ouest du Chili)

• Collector name• Collect date• Additional information: habitat, soil, meteorological

conditions…

Relevance depends on dataset type:

• Static collection (museum) : collector name and ID, date, habitat, capture technique...

• Observations: observation length, area, time of day, activity, sex of the observed specimen…

• Sampling-event data: sampling methods, grid size, frequency, collection of reference specimens

Col

lect

ion

data

Collection data: definition

• Nom du collecteur• Date de collecte

• Informations supplémentaires: habitat, sol, conditions météorologiques…

La pertinence dépend du type de jeu de données:

• Collection statique (musée) : nom et ID du collecteur, date, habitat, méthode de capture ...

• Observations: +durée d’observation, zone, période de la journée, activité, sexe du spécimen observé…

• Échantillonnage et inventaires exhaustifs : +méthode, taille de la grille, fréquence, si des spécimens de référence ont été collecté (+références)

Don

nées

de

colle

cte

Données de collecte et de collecteur : définition

• Exactitude: names of the collector(s), date,…

• Consistency: use of a controlled vocabulary for soils, habitats…

• Completeness: some terms are very rarely completed (flowering period, associated species…) which can impede data (re)use

Col

lect

ion

data

Collection data: factors

• Exactitude: nom du ou des collecteurs, date,…

• Cohérence: utilisation d’une terminologie (différente pour les sols, les habitats…)

• Complétude : certains champs sont très rarement renseignés (floraison, espèces associées…) ce qui peut limiter la réutilisation des données

Données de collecte et de collecteur : facteursD

onné

es d

e co

llect

e

• Variable quality: historical data impossible to check, data description too expensive on time/money, subjectivity (colour or abundance estimation…)

• Often data relative to the whole taxonomic rank and not the specimen in particular

• Completeness: generally impossible to achieve on a given specimen

• Consistency: some traits can be non consistento FLOWER_COLOUR = Carmineo FLOWER_COLOUR = Crimson

Des

crip

tive

data

Descriptive data: factors

• Qualité très variable : données historiques impossibles à vérifier, description trop coûteuse en temps/argent, subjectivité (estimation des couleurs, de l’abondance…)

• Souvent des données s’appliquant au niveau taxonomique et pas au niveau du spécimen

• Complétude : généralement impossible à atteindre sur un même spécimen

• Cohérence: attributs non consistantso FLOWER_COLOUR = MAUVEo FLOWER_COLOUR= violet clairD

onné

es d

escr

iptiv

es Données descriptives : facteurs

23 AUGUST 2016THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION

Reminders about Data QualitySharon Grant & Sophie Pamerlon

23 AOÛT 2016THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION

Rappels sur la qualité des données Sharon Grant et Sophie Pamerlon

Recommended