Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
TD1: 04/02/2012 2
Objectifs généraux du cours
● Analyser les données de TER● avec un logiciel statistique
– Choisir le test approprié pour tester une certaine problématique
– Appliquer– Décrire et interpreter les résultats
TD1: 04/02/2012 3
Arbre de décision
TD1: 04/02/2012 4
Fonctionnement UE
● Modalité d'évaluation :– Examen sur table = 50 %– Examen oral individuel = 50 %
● 15 minutes de présentation de votre TER
TD1: 04/02/2012 5
Emploi du temps
Séance Date Thème
1 04/02/2016 IntroductionLes statistiques descriptives
2 11/02/2016 Le test t: Comparer 2 moyennes
3 25/02/2016 L'ANOVA simple : Comparer >2 moyennes d'une seule VI
4 03/03/2016 L'ANOVA factorielle : Comparer >2 moyennes de plusiers VI
5 10/03/2016 Continuation ANOVAPreparer le fichier csv
6 17/03/2016 La régression simple et correlation1 prédicteur
7 24/03/2016 La régression multiplePlusiers prédicteurs
8 31/03/2016 (Les tests non-paramétriques)Révisions
9 ?? Examen sur table
TD1: 04/02/2012 6
Planning● Aujourd'hui :
TER
Pause
Partie 1 : Théorie
Partie 2 : Informatique
● La méthodologie expérimentale● Les statistiques descriptives
● Introduction logiciel● Exercices statistique descriptive
TD1: 04/02/2012 7
Méthodologie expérimentale
TD1: 04/02/2012 8
La méthodologie expérimentale
● Les variables● Le cycle de la recherche empirique
– Deux type de question de recherche– Deux types de relation entre les échantillons
TD1: 04/02/2012 9
Les variables
● Les variables dépendantes (VD)● Les variabiles indépendantes (VI)
TD1: 04/02/2012 10
Les VD
● Ce que l'on mesure les données→● 3 niveaux de mesures
– Nominal– Ordinal– Numérique
TD1: 04/02/2012 11
Les VD
● Ce que l'on mesure les données→● 3 niveaux de mesures
– Nominal : ● Les différentes valeurs de la VD sont de simples
étiquettes● Les valeurs ne sont pas "classables"● Pas de hiérarchie possible● Ex : Quelle est votre couleur préférée ?
– Pas de réponses plus justes que des autres– Bleu pas mieux que jaune
TD1: 04/02/2012 12
Les VD
● Ce que l'on mesure les données→● 3 niveaux de mesures
– Nominal – Ordinal :
● Les différentes valeurs de la VD sont "classables". On peut déterminer laquelle "vient avant" l'autre.
● Pas d'intervalles réguliers entre les différentes valeurs
● Ex : Aimez-vous les statistiques ?
TD1: 04/02/2012 13
Les VD
● Ce que l'on mesure les données→● 3 niveaux de mesures
– Nominal– Ordinal– Numérique :
● La différence entre deux valeurs est réguilière● Opérations arithmétiques possibles● Ex : Les TR, le nombre de réponses correctes, …
TD1: 04/02/2012 14
Les VD● Avant tout analyse statistiqe :
– Bien identifier la VD– Et son niveau de mesure
● Pourquoi ?– Constraint les analyses statistiques possibles et les conclusions qu'on
peut en tirer– Si on ne considère pas notre VD sur le bon niveau de mesure analyse →
et conclusions seront fausses● Ex : Les numéros des maillots des joueurs de foot
– Modalités sont des nombres– Mais : ce sont des simples étiquettes– Pas de hiérarchie– Donc : le numéro « moyenne » (ici : 10,25) n'a aucun sens
Lord (1953)
TD1: 04/02/2012 15
Les VI● Les manipulations● Ce que l’expérimentateur fait varier pour en étudier l’effet
sur la VD● Modalités : les valeurs que peut prendre une variable
– Ex : la variable « Sexe » a deux modalités : Féminin ou Masculin● Sous-division :
– Les VI invoquées● Existantes dans la nature● Elles sont simplement recuillies par l'expérimentateur● Ex: le sexe du participant, l'age, etc.
– Les VI controlées (ou provoquées / manipulées)● Crées par l'expérimentateur● Ex: groupe de contrôle versus groupe de traitement, etc.
TD1: 04/02/2012 16
Les VI
VI :- Café, avec deux modalités : Sans et Avec- Invoquée
Pour étudier l'effet du caféine sur le temps de réponse (TR), un
chercheur teste deux groupes de participants :
1) Un groupe de participants qui ont l'habitude de boire du café
2) Et un groupe de participants qui ne boivent jamais de café.
Les participants font une tache sur ordinateur. Ils doivent appuyer sur
un bouton le plus rapidement possible quand une cible apparaît sur
l'écran.
TD1: 04/02/2012 17
Les VI
Et si l'expérimentateur demande aux participants de venir au
labo sans avoir bu de café, et puis les divise en deux groupes :
1) Au groupe 1, il donne a boire une tasse de café jute avant la
tache.
2) A l'autre groupe, il donne a boire une tasse de l'eau.
VI :- Café, avec deux modalités : Sans et Avec- Provoquée (= manipulée)
TD1: 04/02/2012 18
Les VI
● Implications sur les conclusions qu'on peut tirer● Les VI invoquées disqualifient toute
interprétation causale
Ici, par ex :Pour la 1ere expérience, on ne peut pas exclure la possibilité que des gens qui sont plus vite boivent plus de café par rapport aux gens qui sont plus lents
TD1: 04/02/2012 19
Le cycle de la recherche empirique
Données
Analyse
Interpretation
Problématique
Méthode
TD1: 04/02/2012 20
Le cycle de la recherche empirique
Problématique
Méthode
Données
Analyse
Interpretation
● La probématique
TD1: 04/02/2012 21
La problématique● Deux types de questions de recherche :
– Différences :● Comparer deux ou plusieurs échantillons
entre eux● La VI a plusieurs modalités● L'hypothèse concerne une différence entre
deux moyennes
– Relations :● Etudier les liens entre les variables étudiées● La VI (ici : prédicteur) est une variable
continue● L'hypothèse concerne une relation entre
deux variables
Le groupe qui a bu une tasse de café, est-il plus vite sur une tâche de détection par rapport au groupe qui n'a pas bu de café ?
La quantité de caféine, est-elle correlée avec le temps de réponse dans le sens ou plus de caféine fait plus vite ?
TD1: 04/02/2012 22
Arbre de décision
Les derniers TD
Les premiers TD
TD1: 04/02/2012 23
Le cycle de la recherche empirique
Problématique
Méthode
Données
Analyse
Interpretation
● Un exemple
TD1: 04/02/2012 24
Le cycle de la recherche empirique
● La problématique :– L'alcool, influence-t-il la conduite de voiture ?
?
TD1: 04/02/2012 25
Le cycle de la recherche empirique● La méthodologie
Problématique
Méthode
Données
Analyse
Interpretation
TD1: 04/02/2012 26
La méthodologie● Les VI et VD● Plan expérimental à 1 VI à deux modalités
TD1: 04/02/2012 27
La méthodologie
● Comment distribuer les participants dans les modalités de la VI ?
● 2 possibilités :– Deux échantillons indépendants– Deux échantillons appariés (= plan à mesures
répétées)
TD1: 04/02/2012 28
La méthodologie
● Comment distribuer les participants dans les modalités de la VI ?– Deux échantillons indépendants
● Répartition aléatoire des participant dans chacun des groupes
● Si n = 8● 4 participants dans chaque groupe, au hasard
TD1: 04/02/2012 29
La méthodologie
● Comment distribuer les participants dans les modalités de la VI ?– Deux échantillons indépendants
TD1: 04/02/2012 30
La méthodologie
● Comment distribuer les participants dans les modalités de la VI ?– Deux échantillons appariés (= plan à
mesures répétées)● Si n = 8 les 8 participants passent dans toutes les →
conditions expérimentales● Les mêmes participants sont testés deux fois
TD1: 04/02/2012 31
La méthodologie
● Comment distribuer les participants dans les modalités de la VI ?– Deux échantillons appariés
TD1: 04/02/2012 32
Arbre de décision
TD1: 04/02/2012 33
Le cycle de la recherche empirique● Les données
Problématique
Méthode
Données
Analyse
Interpretation
TD1: 04/02/2012 34
Les résultats● Les données
TD1: 04/02/2012 35
Les données
● 2 échantillons indépendants– Les participants diffèrent
entre conditions. – Par conséquence, les m (les
cerles noirs) peuvent être liées
– Mais non les observations individuelles (les cercles non remplis)
TD1: 04/02/2012 36
Les données
● 2 échantillons appariés– Pour chaque participant nous
avons une observation dans les deux conditions.
– Par conséquence, on a le droit de lier à la fois les m
– Et les observations individuelles.
TD1: 04/02/2012 37
Les résultats● Que veut-on savoir pour déterminer si une différence est
(probablement) significative ?– L'effectif Effectif
A) petit B) grand
Dans la Figure B, les estimations des μ sont plus fiables parce que les m sont basées sur plus d'observations.
TD1: 04/02/2012 38
Les résultats● Que veut-on savoir pour déterminer si une différence est
(probablement) significative ?– L'effectif Effectif
A) petit B) grand
Dans la Figure A, la valeur aberrante influence plus les m que dans la Figure B
TD1: 04/02/2012 39
Le cycle de la recherche empirique● Que veut-on savoir pour déterminer si une différence est
(probablement) significative ?– L'effectif– La variabilité intra conditions
● La part de variabilité de la VD qui ne peut pas être attribuée aux traitements expérimentaux
● Ici: la variabilité en compétences de conduite, peu importe la quantitéd'alcool
Dans la Figure A, les estimations des μ sont plusfiables parce que la variabilité intra conditions est plus petite
Variabilité intra
A) peu B) beaucoup
TD1: 04/02/2012 40
Le cycle de la recherche empirique● Que veut-on savoir pour déterminer si une différence est
(probablement) significative ?– L'effectif– La variabilité intra– La relation entre les deux échantillons
Relation entre les échantillons
A) Indépendants B) Mesures répétées
TD1: 04/02/2012 41
Le cycle de la recherche empirique● Que veut-on savoir pour déterminer si une différence est
(probablement) significative ?– L'effectif– La variabilité intra– La relation entre les deux échantillons– Le niveau alpha ()
● Si plus libéral augmente les chances de trouver un effet significatif→● Mais aussi le risque de fausses alarmes● Défaut = 0,05
TD1: 04/02/2012 42
Le cycle de la recherche empirique● Analyse
Problématique
Méthode
Données
Analyse
Interpretation
TD1: 04/02/2012 43
Analyse● A partir de la semaine prochaine● Les plans a mesures répétées ont un avantage statistique par
rapport aux plans aux échantillons indépendants
TD1: 04/02/2012 44
Analyse● A partir de la semaine prochaine● Les plans a mesures répétées ont un avantage statistique par
rapport aux plans aux échantillons indépendants
TD1: 04/02/2012 45
Analyse● A partir de la semaine prochaine● Les plans a mesures répétées ont un avantage statistique par
rapport aux plans aux échantillons indépendants– Deux échantillons indépendantes
● Test t (ou ANOVA) spécifique pour groupes indépendants
– Deux échantillons appariés● Test t (ou ANOVA) spécifique pour groupes appariés
TD1: 04/02/2012 46
Le cycle de la recherche empirique● Interpretation
– Dans la partie « Discussion » des articles scientifiques
Problématique
Méthode
Données
Analyse
Interpretation
TD1: 04/02/2012 47
Les statistiques descriptives
TD1: 04/02/2012 48
Les statistiques descriptives
● Cherchent à résumer les données– Les indices de tendance centrale– Les indices de dispersion
TD1: 04/02/2012 49
Les indices de tendance centrale● Résumer l'attitude générale de la VD● Le mode
– Valeur de la VD dont la fréquence est maximale– L'effectif partiel le plus élevé– Ici : 17
● La médiane– Approche non-paramétrique, basé sur des rangs– La valeur de la VD qui partage l'effectif en 2– Ici : 17
● La moyenne (mean)– La valeur moyenne de la VD– Ici : 17
● Les 3 indices donnent souvent des résultats voisins– Dans une distribution normale : mode, médiane
et moyenne sont confondus● Mais pas toujours…
TD1: 04/02/2012 50
Les indices de dispersion● Mesurer la variabilité/ l'hétérogénéité
de la VD● La moyenne ne suffit pas
– Ex. 2 groupes d'étudiants– Cela signifie-t-il la même chose ?
● L'étendue (range)– Valeur maximale – valeur minimale
● La variance– Plus précise que l'étendue
● L'écart type (standard deviation)– Est une mesure de la variance
● L'écart interquartile– Comme la médiane a→ pproche non-
paramétrique, basé sur des rangs
TD1: 04/02/2012 51
Les indices de dispersion● Mesurer la variabilité/ l'hétérogénéité
de la VD● La moyenne ne suffit pas
– Ex. 2 groupes d'étudiants– Cela signifie-t-il la même chose ?
● L'étendue (range)– Valeur maximale – valeur minimale
● La variance– Plus précise que l'étendue
● L'écart type (standard deviation)– Est une mesure de la variance
● L'écart interquartile– Comme la médiane a→ pproche non-
paramétrique, basé sur des rangs
TD1: 04/02/2012 52
Tendance centrale
Dispersion
VD nominale Mode
VD ordinale Médiane Écart interquartile
VD numérique● Distribution symmétrique● Pas de valeurs aberrantes
Moyenne Varianceou écart type
VD numérique● Distribution asymmétrique● Valeurs aberrantes
Médiane Écart interquartile ????
VD numérique● Distribution bimodale● Valeurs aberrantes
Les modes (au moins 2)
????
Les statistiques descriptives● Le choix des indices dépend:
– Du niveau de mesure de la VD (nominal, ordinal, numérique)
TD1: 04/02/2012 53
Les statistiques descriptives
Le choix des indices dépend :– Du niveau de mesure de la VD (nominal, ordinal, numérique)– De la distribution des données (symétrique ou asymétrique)– De la présence des valeurs aberrantes
TD1: 04/02/2012 54
La distribution de fréquence de la VD
● Comment se distribuent les données ?● Ex : distribution des notes d'examen
– 500 étudiants– La moins bonne note = 2– La meilleure note = 16– Mais combiens d'étudiants ont eu 2, 3, 4, .. 11, .. 17 ?– La distribtion de fréquences répond à cette question
● Histogram des fréquences● Parfois avec une estimation
de la densité superposée
TD1: 04/02/2012 55
La distribution de fréquence de la VD
● La première étape de l'analyse !● La forme de la distribution a des conséquences pour tous les
étapes d'analyse qui suivent● Déjà au niveau de statistiques descriptives● Différentes formes possibles
Distribution normale Distribution asymétrique Distribution bimodale
Par ex:TTaille, poidsVariables psychologiques : QILoi du hasard : tirer à pile ou face 1000 fois...
Par ex : Temps de réponse
Par ex : Préférence manuelle
TD1: 04/02/2012 56
Tendance centrale
Dispersion
VD nominale Mode
VD ordinale Médiane Écart interquartile
VD numérique● Distribution symmétrique● Pas de valeurs aberrantes
Moyenne Varianceou écart type
VD numérique● Distribution asymmétrique● Valeurs aberrantes
Médiane Écart interquartile
VD numérique● Distribution bimodale● Valeurs aberrantes
Les modes …
Les statistiques descriptives● Le choix des indices dépend:
– De la distribution des données (symétrique ou asymétrique ou bimodale)
TD1: 04/02/2012 57
Partie 2 : Informatique
TD1: 04/02/2012 58
Logiciel statistique
● Logiciel avec interface ou langage de programmation ??
● Avantages et inconvéniants– Interface plus facile à apprendre– Mais moins flexible
● Si un test statistique que vous envisagez pour votre Mémoire n'est pas couvert par JASP, n'hésitez pas à me consulter
● JASP– Gratuit– Tous les plateforms (Windows, Mac OS, Linux)
https://jasp-stats.org/
TD1: 04/02/2012 59
Le logiciel JASP
TD1: 04/02/2012 60
Le logiciel JASP
● Ouvrir un fichier de données– Vidéo 1
TD1: 04/02/2012 61
Le logiciel JASP
● Faire des statistiques descriptives– Vidéo 2
TD1: 04/02/2012 62
Exercices