ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)

Preview:

Citation preview

ANOVAà 1

facteur Analyse de

variance

Université d’Oum El Bouaghi , AlgérieFaculté des sciences de la terre et de l’architecture

Prof. Adad Mohamed Cherif

Domaines d’intérêt : architecture, urbanisme, statistiques/SPSS, Visual Basic, électronique pratique.

2017

( One-way ANOVA)

Dans ce tutoriel, il s’agit de montrer comment peut-on procéder à l’analyse ANOVA à 1 facteur entre des échantillons indépendants par le biais du logiciel SPSS et quels sont les résultats à mettre sur le rapport final ?

Introduction

ANOVA est l’abréviation de ANalysis Of VAriance. L’ANOVA est une méthode d’analyse bivariée. C’est-à-dire le croisement de 2 variables de nature différente. L’analyse de variance, à un facteur (One way ANOVA), appelée ANOVA est une techniques permettant de savoir si une variable dépendante Y (variable à expliquer) est en relation avec une seule variable indépendante X (variable explicative). En d’autres termes, inférer une relation ente X et Y

variable  indépendante GROUPE 1 GROUPE 2 GROUPE 3 GROUPE…

 X(Qualitative, catégorielle)

variable dépendante Y

(Quantitative)

ANOVA

DÉFINITION

L’hypothèse nulle H0: µ1 = µ2 = µ3  =µ...     Les moyennes de la population sont égales.

L’hypothèse alternative H1: µ1 ≠ µ2 ≠ µ3  ≠ µ… Au moins une moyenne est différente . C’est-à-dire qu’au moins une moyenne n’est pas égale aux autres .

HYPOTHESES

La variable dépendante est une variable numérique ou quantitative. La variable indépendante est appelée aussi facteur. C’est une variable catégorielle ( discrète, qualitative or nominale). Exemple le sexe, statut professionnel. On utilise l’ANOVA quand notre test d’analyse comporte plus de 2 groupes (variable indépendante ) et que la variable dépendante est quantitative. En termes plus simples, ANOVA vise à comparer des moyennes sur plusieurs échantillons afin de déterminer s'il existe des preuves que les moyennes des échantillons associées sont significativement différentes. ANOVA est un test paramétrique ( la moyenne, l’écart-type)

• Les groupes sont indépendants et aléatoirement tirés de leur population respective (il n’y a ni relation entre les observations à l’intérieur d’un groupe, ni relation entre les observations entre les groupes).

• Il n'y a pas de relation entre les sujets ou mesures de chaque échantillon. Cela signifie que les sujets ou les mesures du 1er échantillon ne peuvent pas être aussi dans le 2ème échantillon ou le 3ème et ainsi de suite.

• Les échantillons doivent suivent une loi normale ( une normalité parfaite n’est exigée)

• Si les échantillons sont modérés ou de grande taille, une violation de la normalité peut donner des valeurs de signification assez précises.

• Les données de la variable dépendante présentent des variances  identiques (recours au test de Levene  surtout si le la taille des groupes n’est pas identique). Si le test est significatif sig. < 0,05 , on doit faire, donc, appel au test Brown-Forsythe ou le Welch Robust F..

• Lorsque la normalité, l’homogénéité des variances ne sont pas respectées, on peut utiliser le test non paramétrique de Kruskal-Wallis.

Conditions d’utilisation

Le rejet de H0 signifie qu’il y a une grande probabilité qu’au moins il y a une différence entre les groupes. L’analyse Post Hoc est nécessaire pour nous indiquer ou se situe la différence entre la ou les moyens. Exemple 1 Variable indépendante (qualitative): Niveau social (à 3 niveaux)

Classe supérieure Classe moyenne Classe inférieure

Variable dépendante ( quantitative) Satisfaction des services hôteliers

QU’EST CE QUE L’ANOVA PEUT NOUS DIRE

Exemple 2Variable indépendante (qualitative): le niveau de formation

BEM BAC Ingénieur

Variable dépendante ( quantitative) Le salaire

Identification le facteur (la variable indépendante ) et on

sélectionne les données Test de normalité Test d’homogénéité des variances (homoscédasticité)

On pose les hypothèses:

H0 : les moyennes sont égales.

H1 : au moins une moyenne est différente des autres ANOV

A

EXÉCUTONS

MAINTENANT LE

LOGICIEL SPSS

Existe-il de différence dans les salaires des métiers de menuisier, plombier et électricien dans l’exercice de leur fonction ? H0 L’hypothèse nulle les moyennes des salaires des différents métiers sont égales.

Ici, nous avons 3 niveaux (ou groupes)

Plombier ------ µ1Menuisier ------ µ1Electricien ---- µ3

µ1 = µ2 = µ3

H1 L’hypothèse alternative Au moins une moyenne des salaires des différents métiers n’est pas égale aux autres. µ1 ≠ µ2 ≠ µ3   Ou µ1 ≠ µ2

Ou µ2 ≠ µ3

Ou µ1 ≠ µ3

Voyons maintenant notre cas d’étude

Question de recherche

Affichage des données

Affichage des variables

Groupe est une variable nominale dont la colonne « Valeurs» nous indique le codage des métiers.

Remarque : dans la colonne « Nom » il ne faut jamais laisser de vide entre les caractères .

Analyse comparer les moyennes ANOVA 1 facteur

Analyse d’ANOVA

Il faut insérer les deux variables dans la fenêtre à gauche :Dans «  Liste variables dépendantes » , on place la variable dépendante ‘ Salaire perçu ‘.Dans « Critère » la variable indépendante ‘Type de métier’.

Appuyer sur « OPTION » Cocher:

Caractéristiques : statistiques descriptive Test d’homogénéité de variance : vérification

des variances si elles sont identiques ou non. Brown-Forsythe et Welch où cas où

l’homogénéité des variances n’est pas vérifiée.

Diagramme des moyennes Exclure les observations analyse par analyse:

Cliquer sur Post Hoc

Cocher Turkey pour les comparaisons

multiples Niveau de signification : 0.05

Puis « Poursuivre » et OK

TRAITEMENT ET INTERPRÉTATION

On obtient le résumé des actions et 6 tableaux

Fichier des données

Test d’homogénéité de variance

Test Post Hoc

1

Analyse descriptive et test d’homogénéité des variances 2

Dans le tableau descriptives,, il est indiqué les différents métiers et moyennes et les écart-types des différents métiers . On voit que la moyenne des salaires la plus élevée est celle du métier d’électricien , puis vient ensuite celle des salaires du métier de menuisier . • Le tableau Test d’homogénéité met en

évidence le test de Levene. Il nous montre la signification = 0.095 > 0.05. Nous pouvons conclure que l’hypothèse de l’homogénéité des variances est confirmée, comme on peut le voir sur le 1er tableau qu’au moins 2 écart-types (4136.55 et 4299.87) sont presque identiques. Donc , on est autorisé à continuer notre analyse en passant au tableau ANOVA. donc,

Plombier( M=5000, ET=4136.55, N=10)Menuisier (M=56000, ET=7102.42, N=10)Electricien (M=65400, ET=4299.87, N=10)• Si ce test n’est concluant, on fait

appel aux tests Brown-Forsythe ou le Welch Robust F..

Tests de Welch et Brown- Forsythe

Si l’hypothèse de l’homogénéité des variances est confirmée alors les tests de Welch et Brown-Forsythe deviennent inutiles, on passe donc directement au tableau ANOVA .

Tableau ANOVA 3

Ce qui nous intéresse dans ce tableau est la signification (SIG.), ici elle est de 0.000 < 0.05 , cela signifie que les moyennes des salaires des différents métiers sont différentes. Cependant, il n’est pas indiqué dans le tableau la signification statistique entre chaque paire de métiers .

Résultat: F(2,27)=21.00, p=0,000ddl (degré de liberté) 2 et 27 Mesure F = 21.008 Signification = 0.000 < 0.05

Tests Post Hoc 4

Pour voir la signification entre les salaires de chaque paire de métiers, on a recours au tableau «  Comparaisons multiples » à condition que dans le test ANOVA p< 0.05. Il nous permet de faire la comparaison entre les groupes . On remarque la présente d’astérix dans la colonne « Différence de moyenne » , qui signifie que la différence de salaires entre 2 métiers est statistiquement très significative. Dans notre cas, la différence des moyennes de chaque binôme , est statiquement significative .Par exemple: Menuisier et électricien , la différence des moyennes est très significative p = 0.002 < 0.05

DIAGRAMME DES MOYENNES

Un autre moyen pour comparer les moyennes est l’utilisation du diagramme des moyennes. Il nous donne une idée très claire sur la différence des moyennes des salaires. Cependant, il ne faut pas se fier à ce graphe avant de consulter d’abord, le tableau des statistiques descriptives, puis la comparaison des moyens, Ceci fait, nous pouvons dire que la salaire moyenne du métier d’électricien est le plus élevé alors que celui du plombier est le moins rémunérant.

5

TAILLE D’EFFET (EFFECT SIZE) Une taille d'effet est une mesure de la force de

l'effet observé d'une variable sur une autre  Dans le cadre de l'ANOVA, les conventions

de grandeurs de la taille de l'effet f sont  f=0,1, l'effet est faible.• f=0,25, l'effet est modéré.• f=0,4, l'effet est fort.• Dans notre cas, taille d’effet=0.6, donc

c’est un effet fort. Taille d’effet =Somme des carrés ( Inter-groupes) /

Total (voir tableau ANOVA)

6

RÉSULTATS FINAUX Il est important de présenter certains résultats dans le rapport scientifique à soumettre pour une éventuelle évaluation.

La véracité de l’hypothèse d’homogénéité des variances est confirmée et mise en évidence par le test de Levene . F=(2,27)=2.56, p=0,095

La variable indépendante est à trois niveaux:

Salaire bas, Plombier( M=5000, ET=4136.55, N=10)Salaire moyen, Menuisier (M=56000, ET=7102.42, N=10)Salaire élevé, Electricien (M=65400, ET=4299.87, N=10

A l’issue de cette analyse ANOVA à 1 facteur, nous pouvons dire que l’hypothèse nulle «les moyennes des salaires des différents métiers sont égales  » est rejetée. Donc, l’hypothèse alternative est retenue “la différence entre les moyennes des salaires est significative”: F(2,27)=21.00, p=0.000La différence entre les moyennes des salaire est forte selon la convention de Cohen (1988) au sujet de l’interprétation de la taille d’effet: taille d’effet=0.6.

Université d’Oum El BouaghiFaculté des sciences de la terre et de l’architecture

Merci pour votre

attention

ANOVA à 1 facteur

Prof. Adad Mohamed Chérif

2017

Recommended