Upload
tristan-gervais
View
106
Download
1
Embed Size (px)
Citation preview
RISCD 2008RISCD 2008--
Sources de donSources de données et nées et méthodes de compilationméthodes de compilation
Thierno Aliou BALDEDivision de statistique des Nations unies
Atelier régional pour les pays africains sur la mise en oeuvre des Recommandations internationales sur les statistiques du commerce de
distribution 17-20 juin 2008, Bamako, Mali
Sommaire
Sources de données pour les SCD – enquêtes statistiques, sources de données administratives et bases de sondage
Méthodes de compilation de données
Stratégie de collecte de données
Sources de données pour la compilation des SCD
Processus de production des SCD – basé sur des données collectées à partir de plusieurs sources
Sources de données statistiques – les données sont collectées spécifiquement à des fins statistiques
Sources de données administratives – les données sont crées initialement, à des fins autres que la production de données statistiques
Sources de données statistiques Enquêtes statistiques
Recensements économiques – enumération de toutes les unités de la population; basé sur l’établissement d’un Registre d’entreprises; permet l’établissement de bases de sondage pour les enquêtes échantillon
Enquêtes-échantillon – collecte de l’information sur une partie de la population sélectionnée de manière scientifique
Avantages des enquêtes statistiques sur les sources de données administratives
Les procédures de planification, d’exécution, de collection de données et de traitement sont contrôlées par l’office statistique
Les répondants ont moins de raison de donner des réponses inadéquates car l’ONS garantit la confidentialité
Inconvénients Utilisent beaucoup de ressources (aussi bien financières
qu’humaines) Alourdissent fardeau de réponse Taux élevés de non réponse Erreurs d’échantillonnage
Recensement des unités du commerce (1)
Types Partie d’un recensement à l’échelle de toute l’économie Recensement au niveau des sous-secteurs/activités du
CD uniquement Avantages
Tend à fournir une énumération complète, à un point donné dans le temps, des unités engagées dans l’activité commerciale, incluant les unités du secteur informel
Permet la collecte de SCD à des niveaux de détail suffisants pour les longs intervalles de temps
Inconvénients Limité en terme de contenu des données La planification, l’organisation et la conversion
subséquente des données du recensement en données SCD
Utilise beaucoup de temps et de ressources Coûteux, impose un lourd fardeau de réponse aux
répondants Les taux de réponse peuvent être bas, ce qui peut affecter
la qualité de l’information collectée
Recensement des unités du commerce (2)
Recommandations La Conduite d’un recensement complet sur les
unités du commerce est recommandée lorsque:
Le pays ne possède pas un registre d’entreprises statistique à jour
Besoin d’avoir des données statistiques détaillées par région géographique
Les recensements doivent être suivis autant que possible par des enquêtes-échantillons périodiques (annuelles, trimestrielles et mensuelles)
Les recensements des unités du commerce ne devraient pas être conduits s’il existe d’autres moyens de collecter et produire des SCD de qualité suffisante
Enquêtes sur les unités du commerce (1)
Technique qui consiste à obtenir de l’information sur toute la population à partir d’une sous-population (échantillon) sélectionnée de manière scientifique
Les conclusions (inférence) sur la population sont faites à partir des estimés obtenus de l’échantillon
Les enquêtes échantillon sont généralement moins coûteuses que les recensements
Peuvent être utilisés en conjonction avec des seuils
Enquêtes sur les unités du commerce (2)
Enquêtes-échantillon sur le commerce de gros et de détail
Diverses Tendance à combiner plusieurs
formes, différenciées par la périodicité et les caractéristiques des unités
activité, taille, forme légale, type d’opération et types de variables
Parfois, d’autres caractéristiques telles l’emplacement géographique, peuvent aussi être prises en compte
Enquêtes sur les unités du commerce (3)
Seuils sur la taille La taille des unités joue un rôle important dans
la détermination de la population cible et, lorsque nécéssaire, l’échantillon lui-même
La plupart des enquêtes échantillons sont conduites pour les unités se trouvant au dessus d’un certain seuil
Raisons à l’utilisation des seuils Limiter la taille de l’enquête Réduire le fardeau de réponse Prise en compte des problèmes reliés à la mise
à jour des registres (pour les petites unités)
Enquêtes sur les unités du commerce (4)
Seuils appropriés Pas de recommandation internationale Laissés au jugement de chaque ONS Peut varier d’une enquête à une autre selon
les activités couvertes et la périodicité
Les pays sont encouragés à: Évaluer périodiquement la sous-couverture
dûe à l’introduction de seuils Inclure la description de tels seuils dans les
métadonnées
Types d’enquêtes sur les SCD (1)
Enquêtes-entreprises Les unités échantillonales sont les entreprises (ou des
unités statistques appartenant à ces entreprises) Présuppose la disponibilité d’une base de sondage
Base sous forme de liste – Registre d’entreprises ou liste provenant de recensement
Base aréolaire – un échantillon de zones est sélectionné et les entreprises y sont énumérées
Recommandations Pour les enquêtes-entreprises, la base-liste devrait
être préférée à la base aréolaire Plus éfficiente en termes de représentativité de
l’échantillon et aussi pour la maintenance de la base La base aréolaire est inappropriée pour les grandes et
moyennes entreprises opérant dans plusieurs régions géographiques
L’approche de la base aréolaire devrait être utilisée pour les petites entreprises opérant dans le segment informel (ou inorganisé) de l’économie
Types d’enquêtes sur les SCD (2)
Enquêtes-ménages (EM) les ménages sont les unités observées et
aussi les unités de reporting– assure la couverture de la production des entreprises des ménages qui sont très petites
Inconvénients L’échantillon ne reflète pas une couverture
représentative des activités du commerce mais plutôt une distribution des ménages
La distribution des ménages est différente de celle des activités du commerce (les activités du commerce ont tendance à se concentrer dans les zones commerciales)
Recommandations Les EM sont recommandées pour la
couverture des entreprises non incorporées des ménages qui ne sont pas reconnues en tant qu’entités légales séparées de leurs propriétaires
Types d’enquêtes sur les SCD (3)
Enquêtes mixtes ménages-entreprises Un échantillon de ménages est sélectionné et on
demande à chaque ménage si au moins un de ses membres possède et opère une entreprise non incorporée
La liste des entreprises ainsi compilée est utilsée comme base à partir de laquelle des entreprises sont sélectionnées pour fournir l’information désirée
Par opposition aux enquêtes ménages, ces enquêtes mixtes collectent l’information sur les entreprises et pas sur les personnes des ménages comme telles
Inconvénients Le design d’enquêtes n’est pas efficient Difficultés de traiter les entreprises ayant des unités de
production dans plus d’un emplacement Recommandations
Cette approche est préférée aux enquêtes ménages et aux enquêtes entreprises à bases aréolaires lorsqu’il s’agit de collecter des données pour estimer la production des petites unités du commerce qui sont exclues des enquêtes entreprises à bases de listes
Sources de données administratives (1)
Généralement mises en oeuvre en réponse à une législation et/ou règlement
Chaque législation résulte en un registre des unités
Les pays doivent utiliser ces sources de données avec prudence
Sources privées Données obtenues à partir de fournisseurs du secteur
privé Le transfert de données vers les NSO prend la forme
de contrat moyennant le paiement d’une prime Recommandations
Les producteurs de SCD doivent identifier et évaluer les SDA disponibles dans leurs pays et utiliser celles qui sont les plus appropriées à la compilation des SCD
Sources de données administratives (2)
Avantages Couverture complète des unités et taux de non-réponse faibles Evite le fardeau de réponse Coûte moins cher aux ONS comparativement aux enquêtes Adapté à la couverture du segment des petites unités de la
population dont la contribution est relativement faible mais qui représente un pourcentage substantiel du nombre d’unités de la population
Erreurs d’échantillonnage plus faibles que dans les enquêtes, meilleure précision
inconvénients Ecart entre les données administratives et les concepts
statistiques Mauvaise adéquation (intégration) avec les autres données du
système statistique Risque au niveau de la stabilité Les données peuvent être disponibles mais avec parfois des
délais inacceptables Contraintes légales sur l’accès et la confidentialité
Registre d’entreprises Registre d’entreprises (RE) – recommandé
comme étant la source la plus appropriée pour dériver les bases de sondage des enquêtes du CD
L’organisation et la conduite de toute enquête-entreprise sur les unités du CD suppose la disponibilité d’une base de sondage adéquate
Base de sondage – ensemble des unités susceptibles d’être échantillonnées, avec tous les détails à leur sujet qui pourront être utilisés à des fins de stratification, d’échantillonnage et de contact
Registre d’entreprises statistique Liste détaillée de toutes les entreprises et des autres
unités d’une économie nationale, avec leur caractéristiques
Utilisé pour la conduite des enquêtes, mais aussi utilisé comme source d’information statistique
Facilite la classification des unités selon des standards conceptuels établis et acceptés
Registre d’entreprises statistique (1)
Etablissement Registres administratifs disponibles – forment
le point de départ pour l’établissement du RES Lorsqu’un seul registre administratif est utilisé, le
RES résultant risque d’être déficient en termes de couverture et de contenu et par conséquent générera des bases de sondage inadéquates pour les enquêtes
Les pays sont encouragés à oeuvrer pour une amélioration de la couverture et du contenu de leurs RES en utilisant des données provenant de plusieurs sources de données administratives
Besoin d’un identicateur unique pour chaque entreprise
Maintenance Le RES doit être à jour Doit être mis à jour régulièrement pour
prendre en compte les changements dans la dynamique des entreprises
Registre d’entreprises statistique (2)
Sources pour l’établissement et la maintenance du RES
Recensement économique- fournit une liste détaillée des unités et de leurs caractéristiques
Sources de données administratives – TVA et autres systèmes de taxes, fichiers maintenus par les gouvernemnts pour la gestion de l’assurance-emploi, la sécurité (ou assurance) sociale et autres programmes
‘Feedback’ des enquêtes-entreprises – fournit de l’information nouvelle sur les changements d’adresse, la fermeture d’entreprises, les changements dans l’activité économique d’une unité, etc.
Enquêtes du RE – profil des entreprises Autres sources potentielles - information provenant
des associations commerciales, répertoires téléphoniques ou ‘listings’ spéciaux préparés par les compagnies téléphoniques, etc.
Profil des entreprises
Groupe d’Entreprises- ‘holding company’
Entreprise à un établissement
‘Holding enterprise’/ établissement servant principalement à gérer
(contrôler) l’investissement mainly as control investment
unit
Entreprise à établissements multiples
Unité locale 1 établissement
Unité locale 2 établissement
Unité locale 3 établissement
ancillaire
Unité locale établissement
Méthodes de compilation de données
Processus de compilation de données C’est plus qu’une simple agrégation des résultats
obtenus dans les cases des questionnaires remplis En fait, les ONS effectuent de nombreuses
opérations de contrôle, de validation et aussi des procédures statistiques, afin de rendre les données collectées aptes à répondre au but statistique final
Les répondants des enquêtes statistiques– sujets à des erreurs lors du ‘remplissage’ des questionnaires
Les données sur les SCD collectées à partir des enquêtes statistiques – affectées par des erreurs de toutes sortes (erreurs de réponse et non réponse )
Validation des données et vérification (1)
Fait partie intégrante des opérations de traitement dans tous les types d’enquêtes statistiques
Servent à résoudre les problèmes de données manquantes, invalides ou des réponses inconsistantes
Vérification Examen systématique selon des règles
prédéterminées, des données collectées afin d’identifier et éventuellement corriger les valeurs inadmissibles, douteuses ou improbables
Processus essentiel pour assurer la qualité de l’information collectée
Types vérification Micro-vérification (intrants) – se concentre sur la
vérification des enregistrements individuels Macro vérification (extrants) – vérifie les données
agrégées
Validation des données et vérification (2)
Vérification sélective Consiste à établir un ordre de prorité sur les
enregistrements à vérifier, de sorte à réduire les coûts de la vérification
Vise seulement les ‘champs’ des micro-données qui pourraient avoir un impact significatif sur les résultats de l’enquête sur les SCD
Recommandée pour la vérification des données du commerce de distribution
Observations influentes Réponses pour des variables particulières qui ont
un impact considérable sur les principaux estimés Les efforts de vérification doivent être centrés sur
elles
Validation des données et vérification (3)
Contrôles de détection des erreurs dans les données sur les SCD
Contrôles de routine – vérifie si toutes les questions ont été répondues
Contrôles de validation – vérifie si les réponses sont admissibles
Contrôles de rationalité – vérification basée sur une analyse statistique des données fournie par les répondants
Contrôles de plausibilité – utilisée pour capter les grandes erreurs (aléatoires)
Imputations (1) Données manquantes
Existent dans la plupart des enquêtes statistiques sur le CD
Posent problème pour la vérification Types de données manquantes
Non-réponse de ‘champ’ (ou partielle)– les données d’un champ (ou cellule) particulier for a particular data item of the questionnaire is missing
Non-réponse d’unité (ou totale)- L’unité sélectionnée n’a pas retourné de questionnaire rempli
Techniques de traitement des données manquantes
Imputations Repondération (mise à jour des poids
d’échantillonage)
Imputations (2) Remplacer une ou plusieurs réponses
manquantes ou erronées d’un enregistrement par des valeurs plausibles et consistantes
Processus de ‘remplissage’ des cellules vides Voies et moyens pour produire un
questionnaire complété à partir de valeurs imputées
Utilisée principalement dans le cas de non réponse partielle
Substitution - Utilisée dans le cas de non réponse totale lorsque:
Données disponibles sur l’unité dans les précédentes périodes
Données disponibles sur l’unité à partir de sources administratives
Imputations (3) Méthodes d’imputation usuelles
Imputation par la Moyenne/mode Post-stratification Substitution ‘Cold deck’ – utilse un ensemble de
valeurs fixes, qui couvrent l’ensemble des variables pertinentes
‘Hot deck’ – remplace chaque valeur manquante par celle d’un ‘donneur’ ', i.e. une unité de l’enquête ayant des caractéristiques similaires
Imputation ‘hot deck’ séquentielle Imputation par le plus proche voisin ou
‘distance minimum’ Imputation par la régression (basée sur
des modèles)
Non réponse de champ Stratégies
Ignorer les questionnaires incomplets et baser l’analyse sur les questionnaires complétés
Pas recommandée car on perd les données valides contenues dans les questionnaires incomplets
Les données manquantes doivent être imputées de manière à obtenir une matrice complète et cohérente
Non réponse d’unité Causes de la non-réponse d’unité:
Unité non existante ou hors champ (mais qui a été incluse dans l’enquête)
Le répondant ne connaît pas (ou ne réalise pas) l’importance de l’étude ou aussi l’importance de sa réponse sur l’enquête
Refus du répondant Le répondant ne sait pas comment répondre Manque de ressources L’information désirée est non disponible
Façons de minimiser la non réponse Sensibilisation du répondant sur l’importance des
enquêtes Travail de proximité auprès des respondents pour ‘les
mettre de son côté’ (partenariat) Rappels de suivi, et (dans les cas extrêmes) invocation de
la loi Stratégies pour traiter la non réponse
Repondération – les poids sont mis à jour de façon à ne tenir compte que des unités répondantes
Diverses formes d’imputation – similaires à celles déjà vues sur la non-response de champ
Stratégie de collecte de données (1)
Les enquêtes et/ou les sources de données administratives sur les SCD doivent couvrir toutes les unités engagées dans des activités économiques comprises dans le champ du commerce de distribution (Section G de CITI, Rev.4)
Les unités de toutes tailles et de tous types incluant les corporations et les unités non incorporées
Stratégie de collecte Les ONS doivent développer leur propre stratégie de
collecte de données S’assurant d’avoir une couverture complète des
activités du secteur du CD Basée sur une approche intégrée et couvrant toutes les
unités et toutes les classes de taille de ces entreprises
Adaptée à leurs circonstances spécifiques tant au niveau statistique qu’organisationnel
Stratégie de collecte de données (2)
Entreprises publiques incorporées Un repertoire de ces unités est généralement
disponible dans la plupart des cas Doivent être couvertes par énumération complète
Entreprises incorporées privées Grandes unités
Doivent être couvertes si possible, par énumération complète
Autres unités Significatives en nombre mais relativement
homogènes Doivent être couvertes par enquêtes-échantillon
Petites entreprises Enquêtes-échantillon – Si elles sont dans le RE ou
alors en utilisant des données administratives (données de taxe sur les entreprises)
Approche ‘FIRST’ (Fully Integrated Rational Survey Technique) – si pas de RE disponible pour les entreprises non incorporées
Stratégie de collecte de données (3)
Population totale des unités engagées dans les activités de
commerce
Incluses dans le Registre d’entreprises
(Segment de la base-liste)
Non incluses dans le Registre d’entreprises
Grandes unités Petites unités
Segment 1:Les grandes unités
doivent être couvertes par énumération
complète
Base aréolaire
Doivent être couvertes par énumeration
complèteSegment 2:
Les unités restantes doivent être couvertes par enquêtes échant.
Doivent être couvertes par enquêtes échantillon
Avec des locaux fixes
Sans locaux fixes
Secteur public Secteur privé Couvertes soit par enquêteséchantillon soit par des
données admin.
1
2
Méthode ‘FIRST’ (1) Programme d’enquêtes qui capture de manière
éfficiente et intégrée de l’information statistique détaillée sur toutes les entreprises du CD opérant dans une économie
Mise en oeuvre Requiert deux ensembles d’information statistique
Énumération complète, un recensement économique de préférence - pour pouvoir établir les bases de sondage nécéssaires aux enquêtes échantillon Recensement de la population – alternative en l’absence de
recensement économique Documentation de support sur les zones géographiques/blocs
d’énumération qui vont servir de support à l’énumération de base
Diviser les unités en deux segments Segment de base-liste – regroupe les ‘grandes unités’, qui
sont généralement en nombre relativement faible et clairement distinguables des autres unités par leur statut légal
Segment aréolaire – incluant aussi toutes unités restantes qui ne peuvent être couvertes que par l’approche de base aréolaire
Méthode ‘FIRST’ (2) Segment de la base-liste
Population peut être hétérogène en termes de taille et caractéristiques
Les enquêtes dans ce segment utilisent des bases de sondage tirés de RE ou de répertoires d’unités
Segment aréolaire Étape 1 – sélectionner un échantillon de zones Étape 2 – identification (liste) de tous les établissements
des zones sélectionnées dans l’étape 1 Les établissements qui appartiennent au champ des SCD
sont classés par type-d’activité Sélectionner un échantillon à partir de cette liste
d’établissements Unités mobiles
Tous les établissements de la zone sélectionnée, identifiables et situés en dehors de la maison des propriétaires et aussi les entreprises à l’int.rieur de l’habitation (listées par visites de maison à maison)
Les autres unités n’ayant pas de locaux fixes (vendeurs de rue, etc.) sont identifiées à partir de questions additionnelles posées lors des visites d’identification des ménages
Enquêtes sur le CD Enquêtes annuelles
Doivent fournir des estimés qui couvrent tous les établissements du commerce de gros et de détail
Les enquêtes détaillées ne sont pas souvent nécéssaires Les établissements au dessus d’un certain seuil pourront être
énumérés alors que pour les autres unités, on utilise l’échantillonnage
Toutes les unités de l’échantillin doivent recevoir le questionnaire, mais les petites unités doivent recevoir une version abrégée
Les estimés pour les petits établissements peuvent être faits à partir de données administratives ou à partir d’autres approches telles les enquêtes mixtes ménage-entreprise
Enquêtes infra-annuelles (mensuelles, trimestrielles) Couverture plus restreinte Petits établissements – couverture sujette à leur importance et
aussi à la disponibilité de données adminstratives Enquêtes non fréquentes (5-10 ans)
Utilisées pour collecter des données sur des sujets spécifiques ou à des niveaux de détail élevés
Pas appropriées pour collecter et compiler des statistiques structurelles sur les SCD
Période de référence Enquêtes annuelles
Les données se rapportent à une période de 12 mois
De préférence, l’année calendaire Autres options
Pour certains établissements, les données sont disponible sur une base fiscale (plutôt que calendaire) Quelques variables telles que les salaires et
émoluments doivent être collectées aussi bien sur base calendaire que fiscale pour faciliter la construction de données agrégées calendaires annuelles
Pour la plupart des établissements, les données sont disponibles sur la base fiscale (période comptable)
Enquêtes infra-annuelles Les mois et trimestres calendaires sont
recommandés à titre de période de référence
Merci