Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Université Paris IX – DauphineEcole Doctorale de Gestion
B. Goldfarb [email protected]. Pardoux [email protected]
LES TESTS STATISTIQUES
16 décembre 2004
Objectif
Éprouver des hypothèses de recherche concernant :
la comparaison de certains paramètres à des valeurs données, l’égalité de plusieurs paramètres, l’existence de liaisons entre des variables,...
Tests d’hypothèseUn test d'hypothèse consiste à choisir entre deux hypothèses incompatibles en se fondant sur des résultats d'échantillonnage.
L'une des deux hypothèses à tester est généralement privilégiée par rapport à l'autre : on tient à limiter à priori la probabilitéde la rejeter à tort. Cette hypothèse désigne traditionnellement les situations d’absence de changement par rapport à un statu quo, ou encore l’absence de différence entre des paramètres.
Cette hypothèse, notée H0 , est appelée hypothèse nulle.
L'autre hypothèse, notée H1, est appelée hypothèse alternative.
Deux familles de tests
Tests paramétriques : tests d’hypothèses relatives àun ou plusieurs paramètres d’une ou plusieurs variables aléatoires de lois connues.
Tests non paramétriques : tests ne nécessitant pas d’hypothèses sur la distribution sous-jacente.
Pour de petits échantillons, on est utilise plutôt des testsnon paramétriques, sauf si la variable étudiée suit une loi normale.
ExemplesTests paramétriques
Test bilatéral (un seul échantillon)
H0 : m = m0 contre H1 : m ≠ m0
Test unilatéral (deux échantillons)
H0 : p1 ≤ p2 contre H1 : p1 > p2
Test non paramétriqueH0 : V1 et V2 indépendantes contre
H1 : V1 et V2 non indépendantes
Deux risques d’erreurα = probabilité de choisir H1 alors que H0 est vraie ou
Risque de 1ère espèce
β = probabilité de choisir H0 alors que H1 est vraie ou Risque de 2nde espèce
Décision correcteProbabilité = 1- β
Erreur de première espèce Probabilité = α
H0 rejetée
Erreur de seconde espèce Probabilité = β
Décision correcte Probabilité = 1- α
H0 non rejetée
H0 fausseH0 vraieRéalitéDécision
Puissance d’un testπ= probabilité de rejeter H0 alors que H0 est fausse
= 1 – β
La puissance d’un test est liée au type de test statistique, et à la taille de l’échantillon.
A taille d’échantillon égale, les tests non paramétriques sont moins puissants que les tests paramétriques.
Exemple
Prenons l'exemple d'un caractère distribué selon une loi normale de moyenne m inconnue et d'écart-type connu σ et supposons que m ne puisse prendre que l'une ou l'autre de deux valeurs fixées m0 et m1 avec m0 < m1. La statistique étant un « bon » estimateur de m, on va opter pour l'une des deux valeurs selon la réalisation de donnée par l'échantillon :si est inférieur ou égal à une valeur c, appelée valeur critique, on décide de retenir l'hypothèse m = m0 , et dans l'autre cas, on retient l'hypothèse m = m1.On commettra alors une erreur de choix pour m si on observe :
≤ c alors que m = m1 , ou si on observe > c alors que m = m0.
Xn
xn
Xnxn
xnxn
Deux approches pour établir la conclusion
H0 : m = m0 contre H1 : m = m1 avec m0 < m1
1. Pour un risque de 1ère espèce α, la valeur critique c est telle que :
Conclusion du test : non rejet de H0 si ≤ c
2. Calcul du niveau de signification du test, fonction de la valeurobservée , c’est-à-dire de la probabilité p (appelée aussi p-valeur) telle que :
Conclusion du test : non rejet de H0 si p ≥ α
( )α σα= > = ⇒ = + ⋅−P X c m m c m u
n0 0 1
xn
xn
( )0np P X x m m= > =
Mise en œuvre d’un test
Choix de H0 et H1, et du risque de 1ère espèce αRègle de décision :
soit, en se basant sur la région critiquesoit, au vu du niveau de signification du test
Conclusion du test : rejet ou non-rejet de H0
Pratique d’un test avec le logiciel SPSS
Onglet « Analyse » et choix de module :« Comparer les moyennes »
et ensuite « Test T pour échantillon unique », …« Tests non paramétriques »
et ensuite « Test du Khi-deux », test « binomial », …« Statistiques descriptives »
et ensuite « Tableaux croisés » pour un test d’indépendance de deux variables
...
« Comparer les moyennes » avec SPSS« Test T pour échantillon unique »
Le prix X d’un même article (exprimé en euros) relevé au hasard dans 9 magasins de Paris a donné les résultats suivants :
42,7 42,6 43,0 43,3 42,8 43,1 43,4 42,1 42,6On suppose que X suit une loi de normale de moyenne m inconnue et d’écart-type σ inconnu. Testez au risque de 1° espèce α = 2,5% :
H0 : m ≥ m0 = 43 contre H1 : m < m0
Statistiques sur échantillon unique
9 42,844 ,403 ,134PRIXN Moyenne Ecart-type Erreur standard moyenne
Test sur échantillon unique
-1,157 8 ,281 -,156 -,466 ,155PRIXt ddl
Sig.(bilatérale)
Différencemoyenne Inférieure Supérieure
Intervalle de confiance95% de la différence
Valeur du test = 43
« Comparer les moyennes » avec SPSSInterprétation des résultats
Test sur échantillon unique
-1,157 8 ,281 -,156 -,466 ,155PRIXt ddl
Sig.(bilatérale)
Différencemoyenne Inférieure Supérieure
Intervalle de confiance95% de la différence
Valeur du test = 43
SPSS indique un niveau de signification associé à un test bilatéral symétrique, c’est-à-dire au test :
H0 : m = m0 = 43 contre H1 : m ≠ m0
Un risque α pour un test bilatéral symétrique correspond à un risque α/2 pour un test unilatéral.
La p-valeur donnée pour un test bilatéral égale à 0,281 correspond à une p-valeur égale à 0,1405 pour un test unilatéral, valeur supérieure à 2,5%
⇒ Non rejet de l’hypothèse nulle.
Test non paramétrique avec SPSS« Test binomial »
Test de l’égalité de la proportion des lecteurs dernière période Télérama égale à 0,06.SPSS fait le test : proportion des « non LDP » égale à 0,94, car « non LDP » > « LDP »
Statistiques descriptives
3000 ,051 ,219 0 1LDPTélérama
N Moyenne Ecart-type Minimum Maximum
Test binomial
non LDP 2848 ,949 ,94 ,016a
LDP 152 ,0513000 1,000
Groupe 1Groupe 2Total
LDPModalité N
Proportionobservée.
Test deproportion
Significationasymptotique(unilatérale)
Basée sur l'approximation de Z.a.
Un risque α pour un test bilatéral symétrique correspond à un risque α/2 pour un test unilatéral. La p-value est égale à 3,2% si le test est le suivant :
H0 : p = p0 = 0,06 contre H1 : p ≠ p0
Test de comparaison de deux proportions« Comparer les moyennes », et ensuite « Test T pour échantillons indépendants »
Test de l’égalité des proportions de lecteurs dernière période Télérama Homme et Femme. La statistique de test est la différence entre les moyennes de deux variables de Bernoulli.
Statistiques de groupe
1429 ,0490 ,216 ,00571571 ,0522 ,222 ,0056
SEXEHommeFemme
LDPTélérama
N Moyenne Ecart-type
Erreurstandardmoyenne
αλ1
Test d'échantillons indépendants
,641 ,423 -,400 2998 ,689 -,003 ,008
-,401 2985,5 ,689 -,003 ,008
Hypothèse devariances égalesHypothèse devariances inégales
LDPTélérama
F Sig.
Test de Levene surl'égalité des variances
t ddlSig.
(bilatérale)Différencemoyenne
Différenceécart-type
Test-t pour égalité des moyennes
p-value = 68,9% ⇒ non – rejet de l’égalité des moyennes
BilanLa conclusion d’un test d’hypothèse se fait en terme de rejet ou de non-rejet de l’hypothèse nulle, et cette conclusion est fonction :
de l’échantillon observé,et du risque de 1ère espèce α choisi.
Ne pas oublier que les tests – paramétriques ou non paramétriques – s’effectuent nécessairement sur des échantillons aléatoires.
ConclusionLes logiciels statistiques ont rendu l’utilisation des tests statistiques extrêmement simples. La principale difficulté est de choisir le test adapté à ses données et à son problème.
Avant l’utilisation d’une procédure, il ne faut pas oublier d’utiliser les représentations graphiques pour une 1ère
approche :Box-plot en parallèle pour des comparaisons dedistributions, de tendances centrales,Diagramme quantile-quantile pour des ajustements,…
Vue générale pratique
1 échantillon
2 échantillons
k échantillons
A - MOYENNES
1 échantillon
2 échantillons
k échantillons
Abis - PROPORTIONS
1 échantillon
2 échantillons
k échantillons
B - VARIANCES
TESTS PARAMETRIQUES
2 échantillons
k échantillons
corrélation
C - TESTS DE RANG
Khi-deux
Kolmogorovet Kolmogorov-Smirnov
Normalité
D - TESTS D'ADEQUATION
TESTS NON PARAMETRIQUES
TESTS D'HYPOTHESE
Tests paramétriquesTester une ou plusieurs moyennes
Moyenne d'échantillonLoi de Gauss
Observations indépendantesNormalité
de variance connue
Moyenne d'échantillonLoi de Student
Observations indépendantesNormalité
de variance inconnue
1 échantillon
Différence des MoyennesLoi de Gauss
Observations indépendantesNormalité
de variances connues
Différence des moyennesCalcul de variance poolée
Loi de Student
Observations indépendantesNormalité
Homoscédasticité
de variances inconnuesmais égales
Problème de Behrens-Fishervoir plutot solution non paramétrique
de variances inconnueset inégales
2 échantillons
Bonferroni
Least Significant DifferenceLSD de Fisher
Procédure de Scheffé
Procédures de Tukey
Student-Newman-KeulsSNK
Waller-Duncan
Hochberg
Méthode des contrastes
etc ....
Tests post-hoc
Analyse de la variance à 1 facteur(ANOVA)
Rapport de variancesLoi de Fisher
Observations indépendantesNormalité
Homoscédasticité
k échantillons
Tests paramétriquesTester une ou plusieurs proportions
Moyenne d'échantillonLoi de Gauss
Observations indépendantesN > 50
Np(1-p) >18
Une proportion est une moyenne
Utlise la loi de Fisher
Autre Solution
1 échantillon
Différence des MoyennesLoi de Gauss
Observations indépendantesN > 50
Np(1-p) > 18dans chaque échantillon
Proportions = moyennes
Petits échantillonstest du Khi-deux
Test exact de Fisher :peu accessible
2 échantillons
test peu robuste
Observations indépendanteseffectif concerné > 5
dans chaque échantillon
Petits échantillonstest du Khi-deux
k échantillons
Tests paramétriquesTester une ou plusieurs variances
Variance d'échantillonLoi du Khi deux à N ddl
Observations indépendantesNormalité
moyenne connue
Variance corrigée d'échantillonLoi du Khi deux à N-1 ddl
Observations indépendantesNormalité
moyenne inconnue
1 échantillon
Rapport des variances d'échantillonLoi de Fisher
Observations indépendantesNormalité
moyennes connues
Rapport des variances corrigéesLoi de Fisher
Observations indépendantesNormalité
moyennes inconnues
2 échantillons
test peu robustepeu accessible
Observations indépendantesNormalité
solution 1 :test de Bartlett
test peu robustepeu accessible
Observations indépendantesNormalité
Echantillons de même taille
Solution 2 :test de Cochran
k échantillons
Tests non paramétriquesTests des rangs (Fishériens)
Petits échantillons (< 8) :calculs exacts
Grands échantillons :calculs approchés par Gauss
Observations indépendantesvariable étudiée quelconque
Test de Mann & Whitney :identité des 2 distributions
Petits échantillons (< 8) :calculs exacts
Grands échantillons :calculs approchés par Gauss
Observations indépendantesobservations appariées :
étudie les différencesvariable étudiée continue
Test de Wilcoxon :Identité des 2 distributions
2 échantillons
Tables exactes pour quelques casLoi approchée du Khi-deux (k-1 ddl)
Observations indépendantesvariable étudiée continue ou ordinale
échantillons d'au moins 5 observations
Test de Kruskall & WallisIdentité des k distributions
k échantillons
n < 15 : Tables exactessinon, approximation par Gauss
Observations indépendantesobservations appariées
variable étudiée continue ou ordinale
Test de corrélation des rangsde Kendall
indépendance
corrélation