Click here to load reader

Étude des dépendances - Variables qualitatives

  • View
    221

  • Download
    0

Embed Size (px)

Text of Étude des dépendances - Variables qualitatives

  • Ricco Rakotomalala

    tude des dpendances - Variables qualitativesTableau de contingence et mesures d'associationVersion 2.0

    Universit Lumire Lyon 2

    Page: 1 job: Dependance_Variables_Qualitatives macro: svmono.cls date/time: 26-Mar-2011/5:38

  • Page: 2 job: Dependance_Variables_Qualitatives macro: svmono.cls date/time: 26-Mar-2011/5:38

  • Avant-propos

    Ce support dcrit quelques mesures statistiques destines quantier et tester la liaison entre 2

    variables qualitatives. Elles exploitent le tableau de contingence form partir des variables. Le domaine

    tant trs vaste et les mesures innombrables, nous ne pourrons certainement pas prtendre l'exhaustivit.

    Nous mettrons l'accent sur l'interprtation, les formules associes et la lecture pratique des rsultats.

    Nous nous concentrerons essentiellement sur la dpendance entre variables nominales. Le traitement

    des variables ordinales fera l'objet d'une partie distincte (Partie IV).

    Un document ne vient jamais du nant. Pour laborer ce support, je me suis appuy sur direntes

    rfrences, des ouvrages disais-je plus tt, mais aussi des ressources en ligne qui sont de plus en plus

    prsents aujourd'hui dans la diusion de la connaissance.

    Les seuls bmols par rapport ces documents en ligne sont le doute que l'on pourrait mettre sur

    l'exactitude des informations prodigues, mais la plupart de leurs auteurs sont des enseignants-chercheurs

    qui font srieusement leur travail ; une disponibilit plus ou moins alatoire, au gr des migrations des

    serveurs et de la volont de leurs auteurs, auquel il est trs dicile de remdier ; les informations sont

    disparates, avec une absence d'organisation, la dirence des ouvrages qui suivent une ligne pdagogique

    trs structurante.

    Nanmoins, ces ressources en ligne renouvellent profondment le panorama des documents disponibles

    pour les enseignements. La gratuit n'est pas le moindre de leurs atouts.

    Concernant ce support de cours, je me suis largement appuy sur les documents exceptionnels, le mot

    est faible, de D. Garson ([9, 10] ; http://www2.chass.ncsu.edu/garson/PA765/index.htm) rfrencs

    en bibliographie. Tant le niveau du discours que la clart du propos sont remarquables. Ils m'ont person-

    nellement permis de bien comprendre l'essence des mesures d'association entre variables qualitatives.

    J'essayerais de m'en dmarquer en proposant un document en franais (tant qu' faire), en systma-

    tisant la prsentation des formules, et en illustrant chaque situation l'aide d'exemples.

    Page: 3 job: Dependance_Variables_Qualitatives macro: svmono.cls date/time: 26-Mar-2011/5:38

  • 4 Avant-propos

    De plus, si D. Garson fait rfrence un logiciel commercial pour la prsentation des rsultats (SPSS

    pour ne pas le citer), nous mettrons l'accent, pour notre part, sur le travail sur tableur 1 et l'utilisation

    des logiciels libres accessibles gratuitement sur le Web.

    Bien entendu, selon la formule consacre, ce document n'engage que son auteur. Toutes suggestions

    ou commentaires qui peuvent en amliorer le contenu sont le bienvenu.

    1. Je suis intimement convaincu des vertus pdagogiques du tableur dans l'enseignement des techniques de

    traitement des donnes, tant pour les techniques statistiques que pour les techniques de data mining (je vois dj

    s'agiter les ayatollahs du tera-octet dans le fond de la salle, mais si, si, je persiste et signe). Une trs bonne rfrence

    en France est la page Excel'ense de la revue MODULAD http://www-rocq.inria.fr/axis/modulad/excel.htm

    Page: 4 job: Dependance_Variables_Qualitatives macro: svmono.cls date/time: 26-Mar-2011/5:38

  • Table des matires

    Partie I Mesures d'association entre variables qualitatives nominales

    1 Liaison entre 2 variables qualitatives nominales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.1 Problme, donnes et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.2 Table de contingence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    1.3 Prols lignes et prols colonnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    2 2 d'cart l'indpendance et mesures drives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.1 Statistique du 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.2 Test d'indpendance du 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    2.3 Dcomposition du 2 - Contribution au 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    2.4 Mesures normalises drives du 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.5 Autres tests et mesures symtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

    3 Indicateurs asymtriques - Mesures PRE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    3.1 Les mesures PRE - Proportional Reduction in Error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    3.2 de Goodman et Kruskal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    3.3 de Goodman et Kruskal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    3.4 U de Theil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    3.5 Rcapitulatif sur les mesures PRE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    Partie II Cas particuliers

    4 Tables 2 2 - Cas des variables binaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.1 Coecient et coecient de corrlation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    4.2 2 et correction de continuit pour les petits eectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    4.3 Coecient Q de Yule bas sur les comparaisons par paires . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    5 Risque relatif, Odds et Odds-Ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    5.1 Association Facteur / Maladie - Tableau de contingence 2 2 . . . . . . . . . . . . . . . . . . . . . . . . 495.2 Probabilits conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    Page: 5 job: Dependance_Variables_Qualitatives macro: svmono.cls date/time: 26-Mar-2011/5:38

  • 6 Table des matires

    5.3 Risque relatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    5.4 Odds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

    5.5 Odds ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

    5.6 Rcapitulatif pour le croisement "CLASS vs. PURPOSE regroup" . . . . . . . . . . . . . . . . . . . 59

    5.7 Odds-ratio et coecient Q de Yule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 605.8 Odds-ratio dans les tableaux 2 C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

    6 Coecient de concordance pour les variables nominales . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

    6.1 Concordance de jugements - Le coecient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

    6.2 Cas de 2 juges - de Cohen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

    6.3 Cas de m juges - de Fleiss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

    6.4 Nombre de juges quelconque - Formule gnralise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

    Partie III Association partielle

    Partie IV Traitement des variables ordinales

    7 Caractriser les associations ordinales - Inadquation de la corrlation . . . . . . . . . . . . 83

    7.1 Caractrisation des associations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

    7.2 Variables ordinales et corrlation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

    7.3 Les comparaisons par paires pour caractriser les associations ordinales . . . . . . . . . . . . . . . . 86

    7.4 Exemple "Amount vs. Duration" sur le chier GERMAN-CREDIT . . . . . . . . . . . . . . . . . . . 88

    8 Les mesures symtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

    8.1 de Goodman et Kruskal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

    8.2 b de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

    8.3 c de Kendall . . . . . . . . . . . .

Search related