28
© Benoit Duguay, 2014 Plan la séance 7 Préparation des données Processus de préparation des données Vérification et édition des questionnaires Codage, transcription et nettoyage des données Ajustement statistique des données Stratégie d’analyse des données Logiciels d’analyse quantitative Atelier : Préparation du guide de codification

Plan la séance 7 Préparation des données

  • Upload
    luella

  • View
    26

  • Download
    0

Embed Size (px)

DESCRIPTION

Plan la séance 7 Préparation des données. Processus de préparation des données Vérification et édition des questionnaires Codage, transcription et nettoyage des données Ajustement statistique des données Stratégie d’analyse des données Logiciels d’analyse quantitative Atelier : - PowerPoint PPT Presentation

Citation preview

Page 1: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Plan la séance 7Préparation des données

Processus de préparation des données Vérification et édition des questionnaires Codage, transcription et nettoyage des

données Ajustement statistique des données Stratégie d’analyse des données Logiciels d’analyse quantitative Atelier :

Préparation du guide de codification

Page 2: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Processus de préparation des données

Vérification questionnaires

Édition questionnaires

Codage questions

Transcription données

Nettoyage données

Ajustement statistique données

Stratégie d’analyse données

Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Page 3: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Vérification et édition des questionnaires (1 de 3)

Ne pas attendre la fin de la collecte de données

Réponses très peu variées (choix des extrêmes p. ex.)

Réponses suspectes (incohérences)

Réponses difficiles à lire (questions ouvertes)

Réponses multiples à une question à choix unique

Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Page 4: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Vérification et édition des questionnaires (2 de 3)

Questionnaires incomplets

Respect des instructions

Pages manquantes Réception après date

limite Répondant non éligible

(âge p. ex.)

Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Page 5: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Vérification et édition des questionnaires (3 de 3)

Objectif : améliorer l’exactitude des réponses

Solutions si trop de manques sont constatés sur le questionnaire : Gros échantillons : éliminer le

répondant (possibilité de biais)

Petits échantillons : contacter le répondant pour effectuer des corrections OU en sélectionner un nouveau en respectant la méthode d’échantillonnage

Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Page 6: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Codage des questions

Transformer les réponses en données quantifiables

Identification des variables

Identification des valeurs pour chaque variable

Code plus élevé à valeur la plus positive : oui = 2, non = 1

Choix d’une ou plusieurs valeurs pour les données manquantes (p. ex. 99)

Voir exemple de guide de codage ci-contre

Hyperlien : http://eut4115.uqam.ca/projets/omhl/omhl_questionnaire_codifie.pdf

Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Page 7: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Codage des questionsnon structurées (ouvertes)

Créer des catégories : Mutuellement exclusives Collectivement exhaustives Lire toutes les réponses

Attribuer une catégorie distincte à tout élément critique même si personne n’en fait mention

Conserver un niveau de détail le plus élevé possible sans exagérer le nombre de catégories

Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Page 8: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Transcription des données

Saisie des données Construction d’une base de

données (feuille de calcul Excel)

Variables : À la verticale Numérotation Une colonne pour chaque

variable Questionnaires

(répondants) : À l’horizontal Numérotation Une ligne pour chaque

questionnaire (répondant) Voir fichier de saisie de

données ci-contre

Hyperlien : http://mdt8601.uqam.ca/spss/mdt8601_saisie_donnees.xls

Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Page 9: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Exemple de fichier de données après la saisie

Hyperlien : http://mdt8601.uqam.ca/spss/mdt8601_exemple_fichier_donnees.xls

Page 10: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Transcription automatisée

Hyperlien : http://www.sawtooth.com/Hyperlien : http://www.abbyy.com/

Page 11: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Nettoyage des données :Contrôle d’uniformité

Vérifier données hors norme (anormales), p. ex. « 6 » pour une variable codifiée 1 à 5 : Vérifier en triant chaque

colonne

Si non contrôlé à l’étape de la vérification des questionnaires : Réponses très peu variées

(choix des extrêmes p. ex.) Réponses suspectes

(incohérences)

Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Page 12: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Nettoyage des données :Réponses manquantes (1 de 2)

Retourner au questionnaire

Substitution par valeur manquante (p. ex. 99)

Substitution par valeur neutre (p. ex. moyenne) : Discutable Introduit biais

Substitution par valeur imputée (déduction par rapport autres réponses) : Travail considérable mais

procédure statistiques Introduit biais

Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Page 13: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Nettoyage des données :Réponses manquantes (2 de 2)

Suppression du répondant : Si nombreuses réponses

manquantes Possibilité de biais lié à

l’échantillon

Suppression appariée : Plutôt que de supprimer les

questionnaires qui présentent de nombreuses réponses manquantes, retenir seulement réponses valides pour chaque variable

Utiliser seulement avec échantillon de grande taille, réponses manquantes rares et relations entre variables faibles

Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Page 14: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Ajustement statistique des données

Pondération : Ajuster le rapport

d’importance entre les catégories de répondants

Utilisée pour augmenter la représentativité d’un échantillon

Voir exemple diapo suivante

Création et transformation de variables (voir autre diapo)

Changement d’échelle (voir autre diapo)

Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Source : http://www.cosmopolitan.fr/,regime-la-priorite-l-equilibre-alimentaire,2107,1075877.asp

Page 15: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Exemple de pondération

Âge (1)Proportion

échantillon (2)

Proportionpopulation

(3)

Poids(3/2)

16-25 22% 11% 0,50

26-35 7% 14% 2,00

36-45 20% 18% 0,90

46-55 17% 17% 1,00

56-65 22% 25% 1,14

Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Page 16: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Création et transformation de variables

Transformation des variables existantes : Transformer les catégories pour comparer les données

d’une étude avec celles d’une autre étude Équilibrer des données manifestement biaisées

(standardisation - COMPLEXE) Création d’une nouvelle variable :

Calcul d’un indice composé Synthèse de plusieurs variables Création de catégories (p. ex. âge)

Fonctions dans SPSS : Compute Recode

Voir exemples dans les diapos suivantes

Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Page 17: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

SEI personnel

5 2,9 2,9 2,9

13 7,4 7,4 10,3

21 12,0 12,0 22,3

15 8,6 8,6 30,9

27 15,4 15,4 46,3

34 19,4 19,4 65,7

34 19,4 19,4 85,1

26 14,9 14,9 100,0

175 100,0 100,0

Très faible

Faible

Faible

Moyen

Moyen

Fort

Fort

Très fort

Total

ValidFrequency Percent Valid Percent

CumulativePercent

Création et transformation de variables

Estime de soi personnelle (VAR202) Addition des réponses de 8 questions parmi les 40 du test CFSEI-

2

Page 18: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Création de variables muettes Variables utilisées pour

représenter différents groupes dans la population sans utiliser une échelle ordinale qui aurait peu de sens

Utilisées dans les analyses de régression

Valeurs les plus fréquentes sont 0 et 1 (binaire)

Re-spécification d’une variable avec K catégories nécessite l’utilisation de K-1 variables muettes

Voir exemple diapo suivante

Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Page 19: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Exemple de variables muettes

 AllégeanceCodification

originale 

Variables muettes

X1 X2 X3

 Conservateur 1  1 0 0 

 Libéral 2  0 1 0 

 Bloc 3  0 0 1 

 NPD 4  0 0 0 

Page 20: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Stratégie d’analyse des données

Schéma d’analyse préliminaire

Types d’échelle de mesure

Technique d’analyse VS objectif (différences ou

dépendance entre variables, prédiction, etc.)

Expérience et préférence du chargé d’étude

Stratégie finale d’analyse

Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Page 21: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Analyse des fréquences

Une variable à la fois Distribution des

réponses Mesures de position

centrale : Moyenne Mode Médiane

Mesures de dispersion : Étendue (écart) Variance et écart-type

Mesures de forme : Symétrie (skewness) Aplatissement (kurtosis)

Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Page 22: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Analyse des relations entre les variables

Deuxième variable

Nominaleou ordinale

Intervalles ou

proportion (ratio)

Première variable

Nominaleou ordinale

Tris croisésComparaison

moyennes

Intervalles ou

proportion (ratio)

Comparaisonmoyennes

Corrélationou

régression

Tiré de : d’Astous, Alain. 2000. Le projet de recherche en marketing, 2ième éd. Montréal (QC) : Chenelière/McGraw-Hill, p. 267

Page 23: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Analyses multivariées

Tris croisés : La plus utile et la plus fréquemment utilisée Analyse de la relation existant entre deux

variables (bivariée) ou trois variables (multivariée) P. ex., l’influence du sexe sur le choix de

destination

Comparaison moyennes : Analyse de la différence existant entre les

moyennes de deux catégories de personnes P. ex., la différence entre les 26-45 ans et les 46-

65 ans par rapport au pourcentage de personnes qui achètent une croisière

Page 24: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Analyses multivariées Corrélation :

Analyse de la relation existant entre deux variables métriques

Augmentation des valeurs de la première correspond-elle à une augmentation, ou à une diminution, des valeurs de la seconde?

P. ex., la relation entre l’investissement publicitaire et les ventes d’un restaurant

Régression : Analyse de la relation de dépendance entre deux

variables métriques Utilisation de variables muettes lorsque requis P. ex., la relation entre le niveau d’estime de soi

et le choix une résidence luxueuse

Page 25: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Tests de comparaison

Type données

Non métriques(nominal, ordinal)

Métriques(intervalles, proportion)

Khi deux Test t

Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Page 26: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Tests de comparaison

Khi deux (X2) : Test du niveau de

signification de la relation entre deux variables (tri croisé)

X2 ≥ valeur théorique Niveau de signification

usuel de 95% (19 fois sur 20),

Voir statistique P ≤ 0,05 (95%)

Test t : Permet d’énoncer des

conclusions sur l’existence de différences significatives entre les moyennes de deux échantillons

t ≥ 1,98 ou t ≤ -1,98 Niveau de signification

usuel de 0,05 (95%)

Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Page 27: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Logiciels d’analyse quantitative

Page 28: Plan la séance 7 Préparation des données

© Benoit Duguay, 2014

Atelier

Préparation du guide de codification