105
1 Pierre Pierre - - Louis Gonzalez Louis Gonzalez Michel Michel Tenenhaus Tenenhaus Les Méthodes PLS

Regression Pls 1 2 Disc Logist

  • Upload
    hubik38

  • View
    37

  • Download
    1

Embed Size (px)

DESCRIPTION

Regression Pls

Citation preview

  • 1

    PierrePierre--Louis Gonzalez Louis Gonzalez

    Michel Michel TenenhausTenenhaus

    Les Mthodes PLS

  • 2

    Les mthodes PLSinities par Herman et Svante Wold

    I. NIPALS (Nonlinear Iterative Partial Least Squares)II. Rgression PLS (Partial Least Squares Regression)

    II.1 PLS1II.2 PLS2

    III Analyse discriminante PLSIV. Rgression logistique PLS

  • 3

    Analyse en composantes principales Possibilit de donnes manquantes. Validation croise pour choisir le nombre

    de composantes. Identification des outliers avec

    - une carte de contrle des observations,- des tests sur les carts au modle de lACP.

    I. La mthode NIPALS

  • 4

    Utilisation de NIPALS :Exemple voitures

    Modle Cylindre Puissance Vitesse Poids Longueur LargeurHonda Civic . 90 174 850 369 166Renault 19 1721 . 180 965 415 169Fiat Tipo 1580 83 . 970 395 170

    Citron AX Sport 1294 95 184 730 350 .

    Il y a une observation manquante par vhicule !

    Le principe de NIPALS: Comment projeter un point avec donnes manquantes ?

  • 5

    **

    *

    *

    **

    **

    0

    xi

    ti

    xi

    u

    u

    usur xde constante sans carrs moindres des

    droite la de penteu'uu'xt

    i

    ii ==

    0

    oo

    o

    o o

    o

    Projection sur un axe

  • 6

    **

    *

    *

    **

    **

    0

    xi

    ti

    xi

    u

    u

    sdisponible

    donnes lessur calculest ''

    manquantes donnes des ay ilS'

    uuuxt ii =

    0

    oo

    o

    oo

    o

    Valeur manquante

    Projection dun point avec donnes manquantes sur un axe

  • 7

    L algorithme NIPALSRecherche des composantes principales

    Donnes :X = {xij} tableau nk , xj = variable j xi = observation i

    Modle de l ACP :X = t1p1 + + tkpk avec (1) p1, , pk orthonorms ( axes )et (2) t1, , tk orthogonaux

    ( composantes principales )

  • 8

    L algorithme NIPALSRecherche de la premire composante principale

    Modle : X = t1p1 + rsidu, avec p1 norm Algorithme : les quations de base

    (1) Si t1 connu, calcul de p1j par rgression :xj = p1jt1 + rsidu

    (2) Normalisation de p1 = (p11,,p1k)(3) Si p1 connu, calcul de t1i par rgression :

    xi = t1ip1 + rsidu

    Algorithme : fonctionnement- Prendre t1 = x1 , puis itrer sur (1), (2), (3).- Si donnes manquantes, faire les calculs sur toutes les donnes

    disponibles.

  • 9

    Commentaires:

    Les relations cycliques dcoulant des quations de base de lalgorithme montrent que 1 est la plus grande valeur propre vrifiant les quations suivantes:

    Nous avons divis par n-1 pour retrouver les rsultats de SIMCA.Ce calcul est une application de la mthode de la puissance itre pour le calcul du vecteur propre dune matrice associ la plus grande valeur propre ( Hotelling-1936; Anderson-1958)

    1 1 1

    1 1 1

    1 '1

    1 '1

    X X p pn

    X X t tn

    =

    =

  • 10

    **

    *

    *

    **

    **

    0

    xi

    t1i

    xip1

    11

    1 1

    i 1

    ' p p e n te d e la d ro i te p 'p

    d e s m o in d re s c a r r s s a n s c o n s ta n te d e x s u r p

    ii

    xt = =

    0

    oo

    o

    o o

    o

    Projection sur l axe 1

    p1

  • 11

    L algorithme NIPALSRecherche des autres composantes principales

    La premire tape donne :

    X = t1p1 + X1 On rpte les oprations prcdentes sur la matrice

    des rsidus X1 de la rgression de X sur t1.

    On obtient : X1 = t2p2 + X2et X = t1p1 + t2p2 + X2

    On obtient de mme les autres composantes.

  • 12

    RESSh et PRESSh

    Residual Sum of Squares : 2ijj,i

    ijh )xx(RESS =

    Les cases de X sont partages en G groupes, et on ralise G factorisationsen enlevant chaque fois un seul des groupes.

    Predicted Residual Sum of Squares :

    2)ij(

    j,iijh )xx(PRESS =

    o est calcul dans lanalyse ralise sans le groupecontenant la case (i,j).

    )ij (x

    A chaque tape on tudie la reconstitution du tableau X :

    'hh

    '22

    '11 pt...ptptX +++=

  • 13

    L algorithme NIPALSChoix du nombre de composantes

    On choisit le nombre de composantes principales par validation croise.

    La composante th est retenue si

    limiteRESSPRESS1Q

    1h

    h2 =

  • 14

    Q2(cum) et R2(validation croise)

    =

    =h

    a a

    ahcum RESS

    PRESSQ1 1

    2 1][

    peu diffrent de

    =

    j

    2j

    h2croise validation s

    1n/PRESS1R

    CONSEIL : Modle h composantes acceptable si [Q2cum]h > 0.5

    La composante h est retenue si :

    122 ][ suprieur nettement est ][ hcumhcum QQ

  • 15

    Utilisation de NIPALS :Exemple voitures

    La validation croise conduit deux composantes.

    0.00

    0.20

    0.40

    0.60

    0.80

    1.00

    Comp[1] Comp[2] Comp[3] Comp[4]

    R2X

    (cum

    ) & Q

    2(cu

    m)

    autobis.M1 (PC), Untitled, Work setModel Overview (cum)

    R2X(cum)Q2(cum)

    Simca-P 8.0 by Umetrics AB 2000-05-30 18:38

  • 16

    0.0 0.1 0.2 0.3 0.4

    -0.4

    -0.2

    0.0

    0.2

    0.4

    0.6

    CYLINDRE

    PUISSANCE

    VITESSE

    POIDSLONGUEUR

    LARGEUR

    Sim

    ca-P

    3.0

    1 by

    Um

    etri

    AB

    199

    8-11

    -21

    14:2

    6

    NIPALS : Exemple Voitures

    Carte des variables ("les vecteurs propres")p[

    2]

    p[1]

  • 17

    -4 -2 0 2 4

    -2

    -1

    0

    1

    2

    honda cirenault

    fiat tip peugeot renault citroen

    bmw 530irover 82renault

    opel ome

    peugeot

    ford sie

    bmw 325i

    audi 90

    ford sco

    renault

    nissan vvw carav

    ford fie

    fiat uno

    peugeot

    peugeot

    seat ibi

    citroen

    Ellipse: Hotelling T2 (0.05)

    Sim

    ca-P

    3.0

    1 by

    Um

    etri

    AB

    1998

    -11-

    21 1

    4:29

    NIPALS : Exemple VoituresCarte des voitures (les 2 premires "composantes principales")

    t[2]

    t[1]

  • 18

    NIPALS : Identification des outliersCarte de contrle des distances au modle normalises

    0.00

    0.20

    0.40

    0.60

    0.80

    1.00

    1.20

    1.40

    1.60

    1.80

    2.00

    0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

    DM

    odX

    [2]

    Dcrit [2] = 2.00746, Normalized distances, Non weighted residuals

    DCrit (0.05)

    honda civic

    renault 19fiat tipo

    peugeot 405renault 21

    citroen bxbmw 530i

    rover 827i

    renault 25

    opel omega

    peugeot 405bford sierra

    bmw 325ix

    audi 90 quat

    ford scorpio

    renault espa

    nissan vanet

    vw caravelle

    ford fiesta

    fiat uno

    peugeot 205

    peugeot 205r

    seat ibiza scitroen a

    Simca-P 8.0 by Umetrics AB 2000-05-30 19:00

  • 19

    Calcul de la limite de contrleProprit :

    Limite de contrle :

    **

    *

    *

    ** *

    *

    xi

    yi)k,k(F

    )y,x(dn1

    )y,x(d

    DModX

    21n

    1iii

    2

    ii2

    =

    =

    )k,k(F 2195.0

  • 20

    Probabilit dappartenir au modle

    Test : H0 : lobservation i appartient au modle de lACPH1 : lobservation i nappartient pas au modle

    Dcision : On rejette H0 au risque de se tromper si

    ),( DModX 211 kkF

    Niveau de signification ou probabilit dappartenir au

    modle : Plus petit conduisant au rejet de H0= Prob (F(k1,k2) DModX2)

    Lindividu i est exactement sur la limite de contrle DCrit(min)

  • 21PModX(Nissan Vanette) = 0.08

    0.10

    0.20

    0.30

    0.40

    0.50

    0.60

    0.70

    0.80

    0.90

    1.00

    0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

    M1.

    PM

    odX

    [2]

    M1.Num

    NIPALS : Exemple Voitures"Probabilit" d'appartenir au modle ACP (2 composantes)

    honda civic

    renault 19

    fiat tipopeugeot 405

    renault 21

    citroen bxbmw 530i

    rover 827i

    renault 25

    opel omega

    peugeot 405bford sierra

    bmw 325ix

    audi 90 quat

    ford scorpio

    renault espa

    nissan vanet

    vw caravelle

    ford fiesta

    fiat uno

    peugeot 205

    peugeot 205r

    seat ibiza scitroen a

    Simca-P 8.0 by Umetrics AB 2000-05-22 11:34

  • 22

    II. La rgression PLS Relier un bloc de variables expliquer Y un

    bloc de variables explicatives X. Possibilit de donnes manquantes. Il peut y avoir beaucoup plus de variables X que

    dobservations. Il peut y avoir beaucoup plus de variables Y que

    dobservations. Meilleure rponse au problme de la

    multicolinarit.

  • 23

    La rgression PLS : vocabulaire

    Rgression PLS1 : un seul Y

    Rgression PLS2 : plusieurs Y

    Analyse discriminante PLS : Y qualitatif transform en variables indicatrices des modalits

  • 24

    II.1. La rgression PLS1 :une ide de lalgorithme

    Etape 1 : Recherche de m composantes orthogonales th = Xah bien explicatives de leur propre groupe et bien corrles y. Le nombre m est obtenu par validation croise.

    Etape 2 : Rgression de Y sur les composantes PLS th .

    Etape 3 : Expression de la rgression en fonction de X.

  • 25

    Objectif de ltape 1 de la rgression PLS1

    ***

    ***

    X2

    X1

    CPX1t1

    *** **

    *

    *y

    CPX1

    t1

    y

    **

    *** *

  • 26

    La rgression PLS1 : une ide de ltape 1 lorsquil ny a pas de donnes manquantes

    Pour chaque h = 1 m, on recherche descomposantes th = Xah maximisantle critre

    Cov (Xah , y)

    sous des contraintes de norme ( ) etdorthogonalit entre th et les composantesprcdentes t1 ,, th-1.

    1=ha

  • 27

    Proprits de la rgression PLS1

    De Cov2(Xah , y) = Cor2(Xah , y)*Var(Xah)*Var(y)

    on dduit que la rgression PLS1 ralise un

    compromis entre la rgression multiple de y sur X et

    lanalyse en composantes principales de X.

  • 28

    Rgression PLS1: tape 11. Calcul de la premire composante PLS t1 :

    ==j

    jj xxycorXat ),(11

    2. Normalisation du vecteur a1= (a11,,a1k)

    3. Rgression de y sur t1=Xa1 exprime en fonction des x

    4. Calcul des rsidus y1 et X1 des rgressions de y et X sur t1 :- y = c1t1 + y1- X = t1p1 + X1

    Lors de cette tape les covariances sont gales aux corrlations, puisque toutes les donnes sont centres rduites

  • 29

    Rgression PLS1: tape 21. Calcul de la deuxime composante PLS t2 :

    ==j

    jj xxybXt 111212 ),cov(

    2. Normalisation du vecteur b2= (b21,,b2k)

    3. Calcul de a2 tel que : t2 = X1b2 = Xa24. Rgression de y1 sur t2 = Xa2 exprime en fonction des x

    5. Calcul des rsidus y2 et X2 des rgressions de y et X1sur t2 :

    - y1 = c2t2 + y2- X1 = t2p2 + X2

  • 30

    Rgression PLS1: tapes suivantes

    Do le modle de rgression PLS m composantes :y = c1t1 + c2t2 + + cmtm + Rsidu

    = c1Xa1 + c2Xa2 + + cmXam + Rsidu = X(c1a1 + c2a2 + + cmam) + Rsidu= b1x1 + b2x2 + + bkxk + Rsidu

    On procde de la mme manire pourles autres composantes.

    y

  • 31

    Calcul de RESSh et PRESSh ltape h

    Les observations sont partages en G groupes, et on ralise G fois ltapecourante de lalgorithme sur yh-1 et Xh-1 en enlevant chaque fois un groupe.

    Predicted Residual Sum of Squares :

    2i),1h(

    ii),1h(h )yy(PRESS =

    o est calcul dans lanalyse ralise sans le groupe

    contenant lobservation (i).i),1h(y

    Residual Sum of Squares : 2i),1h(i

    i),1h(h )yy(RESS = o hihi),1h( tcy = est la prvision de y(h-1),i

  • 32

    Choix du nombre de composantes

    On choisit le nombre de composantespar validation croise.

    La composante h est retenue si

    [PRESSh] 0.95[RESSh-1]

    Soit :05.0

    RESSPRESS1Q

    1h

    h2 =

  • 33

    Q2(cum) et R2(validation croise)

    =

    =h

    a a

    ahcum RESS

    PRESSQ1 1

    2 1][

    peu diffrent de

    =

    ii

    h

    yyPRESSR 2

    2croise validation )(

    1

    Modle h composantes acceptable si [Q2cum]h > 0.5

    La composante h est retenue si :

    122 ][ suprieur nettement est ][ hcumhcum QQ

  • 34

    Variable Importance in the Prediction(VIP)

    Importance de la variable xj (j=1,, p) pour la prdiction de y dans un modle m composantes :

    ==

    =m

    hhjhm

    hh

    mj btyRtyR

    pVIP1

    22

    1

    2),(

    ),(

    Composantes PLS : th = Xh-1bh, avec ||bh|| = 1

    Moyenne des carrs des VIP = 1 Variable importante pour la prdiction si VIP > 0.8

  • 35

    Rgression PLS1 : Exemple VoituresProblmes : multicolinarit, donnes manquantes

    Modle Prix Cylindre Puissance Vitesse Poids Longueur LargeurHonda Civic 83700 . 90 174 850 369 166Renault 19 83800 1721 . 180 965 415 169Fiat Tipo 70100 1580 83 . 970 395 170

    Citron AX Sport 66800 1294 95 184 730 350 .

    Modle Prix Cylindre Puissance Vitesse Poids Longueur LargeurHonda Civic 83700 1396 90 174 850 369 166Renault 19 83800 1721 92 180 965 415 169Fiat Tipo 70100 1580 83 170 970 395 170

    Citron AX Sport 66800 1294 95 184 730 350 160

    Donnes compltes

    Donnes incompltes

  • 36

    Rgression multiple sur les donnes compltes

    R2 = 0.847, F = 15.730 Sig. = 0.0001

    Coefficientsa

    12070.406 194786.6 .062 .951-1.936 33.616 -.018 -.058 .955

    1315.906 613.510 .888 2.145 .047-472.507 740.319 -.207 -.638 .532

    45.923 100.047 .184 .459 .652209.653 504.152 .151 .416 .683

    -505.429 1501.589 -.067 -.337 .741

    (Constant)CYLINDREPUISSANCVITESSEPOIDSLONGUEURLARGEUR

    Model B Std. Error

    UnstandardizedCoefficients

    Beta

    StandardizedCoefficients

    t Sig.

    Dependent Variable: PRIXa.

  • 37

    Corrlations entre les variablesCorrelation Matrix

    1.000 .852 .891 .720 .813 .747 .611.852 1.000 .861 .693 .905 .864 .709.891 .861 1.000 .894 .746 .689 .552.720 .693 .894 1.000 .491 .532 .363.813 .905 .746 .491 1.000 .917 .791.747 .864 .689 .532 .917 1.000 .864.611 .709 .552 .363 .791 .864 1.000

    PRIXCYLINDREPUISSANCVITESSEPOIDSLONGUEURLARGEUR

    PRIX CYLINDRE PUISSANC VITESSE POIDS LONGUEUR LARGEURCorrelation

  • 38

    Rgression PLS sur les donnes incompltesChoix du nombre de composantes

    0.00

    0.20

    0.40

    0.60

    0.80

    1.00

    Comp[1] Comp[2] Comp[3]

    R2Y

    (cum

    ) & Q

    2(cu

    m)

    autopbis.M1 (PLS), Untitled, Work setModel Overview (cum)

    R2Y(cum)Q2(cum)

    Simca-P 8.0 by Umetrics AB 2000-05-30 18:11

    On retient une composante PLS

  • 39

    Rgression PLS sur les donnes incompltesR2 = 0.761

    *ur0.129Large *eur0.153Longu *0.165Poids

    *se0.146Vites *ance0.206Puiss *dre0.183Cylin 2.18 )(Pr

    Pr

    +++

    +++=ix

    ix

    quation sur les donnes centres-rduites (CoeffCS)

    quation sur les donnes dorigine (Coeff)

    Prix = -316 462 + 23Cylindre + 328Puissance + 339Vitesse

    + 40Poids + 205Longueur + 1007Largeur

    quation sur les donnes dorigine pour Y et centres pour X (CoeffC)

    Prix = 125513 + 23(Cylindre - 1888) + 328(Puissance - 112) + 339(Vitesse - 182)

    + 40(Poids - 1113) + 205(Longueur - 422) + 1007(Largeur - 168)

  • 40

    Rsultats de la validation croisesur les coefficients de rgression PLS

    0.10

    0.12

    0.14

    0.16

    0.18

    0.20

    0.22

    0.24

    CYLIN

    DR

    E

    PU

    ISS

    AN

    C

    VITE

    SS

    E

    PO

    IDS

    LON

    GU

    EU

    R

    LAR

    GE

    UR

    PRIX

    Audi 90 Quattro

  • 41

    Rsultats de la validation croisesur les coefficients de rgression PLS

    B SE Student T p-valueCylindrePuissanceVitessePoidsLongueurLargeur

    0.18270.20600.14650.16530.15250.1286

    0.03710.05700.04300.01810.01750.0299

    4.9253.6143.4079.1338.7144.301

    0.00010.00050.00020.00010.00010.0001

  • 42

    Carte des variables

    -0.60

    -0.40

    -0.20

    0.00

    0.20

    0.40

    0.60

    -0.80 -0.70 -0.60 -0.50 -0.40 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80

    w*c

    [2]

    w*c[1]

    XY

    CYLINDRE

    PUISSANCE

    VITESSEPOIDS

    LONGUEUR

    LARGEUR

    PRIX

  • 43

    Validation globale

    - Abscisse : Corrlation entre Y et Y permut- Ordonne : R2 et Q2 de la rgression PLS de Y permut sur X- Les droites noire et rouge sont les droites des moindres carrs

    -0.20

    -0.10

    0.00

    0.10

    0.20

    0.30

    0.40

    0.50

    0.60

    0.70

    0.80

    0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

    Autoprib.M1 (PLS): Validate ModelPRIX Intercepts: R2=(0.0, -0.0144), Q2=(0.0, -0.192)

    200 permutations 1 components

    R2Q2

  • 44

    0.00

    0.10

    0.20

    0.30

    0.40

    0.50

    0.60

    0.70

    0.80

    0.90

    1.00

    1.10

    1.20P

    UIS

    SA

    NC

    CY

    LIN

    DR

    E

    PO

    IDS

    LON

    GU

    EU

    R

    VIT

    ES

    SE

    LAR

    GE

    UR

    VIP

    [1]

    Exemple VoituresVariable Importance in the Projection (1 composante)

    Simca-P 8.0 by Umetrics AB 2000-05-22 12:05

  • 45

    Rgression PLS sur les donnes incompltes

    50000

    100000

    150000

    200000

    250000

    40000 60000 80000 100000 120000 140000 160000 180000 200000 220000 240000

    Y

    Predicted

    AUTOPRIB.M1 (PLS), Modle 1, Work setPRIX, Comp 1(Cum)

    RMSEE=28979

    honda ci renault fiat tip

    peugeot renault citroen

    bmw 530i

    rover 82

    renault

    opel omepeugeot ford sie

    bmw 325i

    audi 90

    ford scorenault

    nissan v

    vw carav

    ford fiefiat unopeugeot peugeot seat ibicitroen

    Simca-P 7.01 by Umetri AB 1998-11-23 09:40

  • 46

    Intervalle de confiance 95% du prix moyen(fourni par SIMCA)

    prvision

    3000002000001000000

    PR

    IX300000

    200000

    100000

    0

  • 47

    Intervalle de prvision 95% du prix ( calculer)

    prvision

    3000002000001000000

    PR

    IX

    300000

    200000

    100000

    0

    audi 90 quattro

  • 48

    Prdiction du prix de la HONDA CIVIC(Problme : certains X sont manquants)

    Prix de vente : 83 700 FF

    Caractristiquesde la Honda Civic

    Caractristiquescentres-rduites

    CylindrePuissanceVitessePoidsLongueurLargeur

    ?90

    174850369166

    ?-.61009-.32011

    -1.10172-1.23196-.32679

  • 49

    Prdiction du Prix de la HONDA CIVIC

    Calcul de tPS1 pour la HONDA CIVIC :

    - Rgression : Xj = p1jt1 + erreur, j = 1,, p

    p1 = (p11, , p1p)

    - Rgression : xi = tPS1ip1 + erreur

    sur les donnes disponibles; d o le calcul de tPS1i tPS1(Honda Civic) = -1.84262 est lestimation de t1i

    Prdiction du prix de la HONDA CIVIC- On utilise tPS1 la place de t1

    Prdiction du Prix = 82 644.5 FF

    Rgression du Prix sur t1 :

    1 0.4045789 503 57512 125 -Prix t

  • 50

    Prdiction du Prix de la HONDA CIVIC : calcul de tPS1 (Honda Civic)

    =

    36.039.039.037.045.048.0

    )(

    33.23.110.1

    32.61.?

    1 HondatPSxHonda tPS1(Honda) = -1.84262

    P1CylindrePuissanceVitessePoidsLongueurLargeur

    0.480.450.370.390.390.36

  • 51

    Rgression PLS1 : Cas UOP Guided WaveProblme : 226 variables X et 26 observations

    Les donnes : Y = indice doctane X1, X2, , X226 :

    valeurs dabsorbance diffrentes longueurs donde

    Donnes de calibration :26 chantillons dessence (dont 2 avec alcool)

    Donnes de validation :13 chantillons dessence (dont 4 avec alcool)

  • 52

    Cas UOP Guided Wave Visualisation des X

    Octane - Matrix Plot, Sam.Set: All Samples, Var.Set: Selected Variables

    H17

    H36

    S.016

    11001200

    13001400

    1500

    a

    m

    p

    l

    e

    s X -V a r

    i ab l e

    s

    -4.469e-03 0.113 0.231 0.349 0.467 0.585

  • 53

    Cas UOP Guided Wave Visualisation des X : Donnes de calibration

    Sequence number

    217

    205

    193

    181

    169

    157

    145

    133

    121

    109

    97

    85

    73

    61

    49

    37

    25

    13

    1

    .7

    .6

    .5

    .4

    .3

    .2

    .1

    0.0

    -.1

    M52

    H59

    Les chantillons M52 et H59 contiennent de l alcool

  • 54

    Cas UOP Guided Wave Visualisation des X : Donnes de validation

    Les chantillons avec alcool sont en rouge

    Numro de la longueur d'onde

    217

    205

    193

    181

    169

    157

    145

    133

    121

    109

    97

    85

    73

    61

    49

    37

    25

    13

    1

    .7

    .6

    .5

    .4

    .3

    .2

    .1

    0.0

    -.1

  • 55

    Rgression PLS1 : les rsultats

    Donnes de spectroscopieLes donnes sont centres, mais non rduites

    Validation croise :3 composantes PLS

  • 56

    UOP Guided Wave : Les composantes PLS

    -0.40

    -0.20

    0.00

    0.20

    0.40

    -0.40 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 0.50 0.60

    t[2]

    t[1]

    OCTANE.M4 (PLS), Untitled, Work setScores: t[1]/t[2]

    Ellipse: Hotelling T2 (0.05)

    M01M02

    M05

    L06

    H11H12

    L13

    L14L15

    H17

    M18

    H20

    L21

    H24H27

    L29L31

    H32

    L35

    H36

    L37

    H38

    H39

    L40

    M52 H59

    Simca-P 7.01 by Umetri AB 1998-11-23 12:14

    - Indice d octane : L = Low, M = Medium, H = High- Les chantillons M52 et H59 contiennent de lalcool

  • 57

    UOP Guided Wave : les composantes PLS

    -0.100

    -0.050

    0.000

    0.050

    0.100

    -0.50 -0.40 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 0.50

    t[3]

    t[2]

    OCTANE.M4 (PLS), Untitled, Work setScores: t[2]/t[3]

    Ellipse: Hotelling T2 (0.05)

    M01M02 M05

    L06H11

    H12L13

    L14L15

    H17

    M18

    H20

    L21

    H24H27L29

    L31

    H32

    L35

    H36

    L37

    H38

    H39

    L40M52

    H59

    Simca-P 7.01 by Umetri AB 1998-11-23 12:41

    Indice d octane : L = Low, M = Medium, H = High

  • 58

    Cas UOP Guided Wave : PrvisionDonnes de calibration

    87

    88

    89

    90

    91

    92

    87 88 89 90 91 92

    Y

    Predicted

    OCTANE.M4 (PLS), Untitled, Work setOCTANE, Comp 3(Cum)

    RMSEE=0.290788

    M01M02M05

    L06

    H11H12

    L13L14L15

    H17

    M18

    H20

    L21

    H24 H27

    L29L31

    H32

    L35

    H36

    L37

    H38H39

    L40

    M52

    H59

    Simca-P 7.01 by Umetri AB 1998-11-23 12:53

  • 59

    Cas UOP Guided Wave : PrvisionDonnes de validation

    87

    88

    89

    90

    91

    92

    87 88 89 90 91 92

    Obs

    erve

    d

    Predicted

    OCTANE.M5 (PLS), Untitled, PS-OCTANEOCTANE, Comp 3 (Cum)

    RMSEP=0.256792

    S.003S.004

    S.010

    S.016

    S.019

    S.022

    S.025

    S.026

    S.034

    S.055

    S.056

    S.057S.058

    Simca-P 7.01 by Umetri AB 1998-11-23 13:11

    Prsence d alcool : OUI / NON

  • 60

    II.2 La rgression PLS2

    Relier un bloc de variables expliquer Y un bloc de variables explicatives X.

    Possibilit de donnes manquantes. Il peut y avoir beaucoup plus de variables X que

    dobservations. Il peut y avoir beaucoup plus de variables Y que

    dobservations.

  • 61

    La rgression PLS2 : une ide de lalgorithme

    Etape 3 : Expression de la rgression en fonction de X.

    Etape 1 : Recherche de m composantes orthogonalesth = Xah et m composantes uh= Ybh bien corrlesentre elles et explicatives de leur propre groupe.

    Le nombre m est obtenu par validation croise.

    Etape 2 : Rgression de Y sur les composantes th .

  • 62

    Objectif de ltape 1 de la rgression PLS2

    ***

    ***

    X2

    X1

    CPX1t1

    *** **

    *

    *CPY1u1

    Y2

    Y1

    t1

    u1

    **

    *** *

  • 63

    La rgression PLS2 : une ide de ltape 1 lorsquil ny a pas de donnes manquantes

    Pour chaque h = 1 m, on recherche descomposantes th = Xah et uh= Ybh maximisantle critre

    Cov (Xah , Ybh )sous des contraintes de norme et dorthogonalitentre th et les composantes prcdentes t1 ,, th-1.

  • 64

    Interprtation du critre de Tucker

    De Cov2(Xah , Ybh ) = Cor2(Xah , Ybh )* Var(Xah)*Var(Ybh)

    on dduit que la rgression PLS ralise uncompromis entre lanalyse canoniquede X et Y, une ACP de X, et une ACP oblique de Y.

  • 65

    Variable Importance in the Prediction (VIP)

    Importance de la variable xj (j=1, p) pour la prdiction des yk (k=1, q) dans un modle m composantes :

    = == =

    =m

    hhj

    q

    khkm

    h

    q

    khk

    mj btyRtyR

    pVIP1

    2

    1

    2

    1 1

    2]),([

    );(

    Composantes PLS : th = Xh-1bh , avec ||bh|| = 1

    Moyenne des carrs des VIP = 1 Variable importante pour la prvision si VIP > 0.8

  • 66

    Rgression PLS2Exemple 1: Dgustation de th

    Les donnesObs Temprature Sucr Force Citron Sujet 1 Sujet 61 1 1 1 1 4 52 1 2 2 1 2 83 1 3 3 2 6 6

    11 1 2 1 1 1 14

    18 3 3 1 2 12 15

    Temprature Sucr Force Citron1 = Chaud2 = Tide3 = Glac

    1 = Pas de sucre2 = 1 sucre3 = 2 sucres

    1 = Fort2 = Moyen3 = Faible

    1 = Avec2 = Sans

  • 67

    Cas Dgustation de th

    Bloc XVariables indicatrices des modalitsde Temprature, Sucr, Force et Citron

    Bloc YLes classements des sujets

  • 68

    Cas Dgustation de thRsultats de la rgression PLS

    Validation croise :

    3 composantes : th = Xwh* et uh = Ych

    quation de rgression de Yk sur t1, , th :

    Yk = c1kt1 + c2kt 2+ c3kt3 + c4kt4 + rsidu

    Les variables X et Y sont reprsentes laidedes vecteurs wh* et ch.

  • 69

    Cas Dgustation de thCarte des variables

    -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8-0.6

    -0.4

    -0.2

    0.0

    0.2

    0.4

    0.6

    CHAUD

    TIEDE

    GLACSUCRE0

    SUCRE1

    SUCRE2

    FORTMOYEN

    LEGER

    CITRON1

    CITRON0Y1

    Y2

    Y3

    Y4

    Y5

    Y6

    Sim

    ca-P

    3.0

    1 by

    Um

    etri

    AB

    199

    8-11

    -23

    18:1

    1

    THE.M1 (PLS), rgression PLS, WorksetLoadings: w*c[1]/w*c[2]

    w*c

    [2]

    w*c[1]

  • 70

    Cas dgustation de thVisualisation de la rgression PLS de Y1 sur X

    -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8-0.6

    -0.4

    -0.2

    0.0

    0.2

    0.4

    0.6

    CHAUD

    TIEDE

    FROIDSUCRE0

    SUCRE1

    SUCRE2

    FORTMOYEN

    LEGER

    CITRON1

    CITRON0Y1

    Y2

    Y3

    Y4

    Y5

    Y6

    Sim

    ca-P

    3.0

    1 by

    Um

    etri

    AB

    1998

    -11-

    23 1

    8:11

    THE.M1 (PLS), rgression PLS, WorksetLoadings: w*c[1]/w*c[2]

    w*c

    [2]

    w*c[1]

    CH

    AUD

    TIED

    E

    FRO

    ID

    SUC

    RE0

    SUC

    RE1

    SUC

    RE2

    FOR

    T

    MO

    YEN

    LEG

    ER

    CIT

    RO

    N1

    CIT

    RO

    N0

    -0.6

    -0.4

    -0.2

    0.0

    0.2

    0.4

    Coe

    ffCS5

    [4]

    Sim

    ca-P

    3.0

    1 by

    Um

    etri

    AB

    1998

    -11-

    23 1

    9:14

    THE rgression PLS M1.Y1 (CoeffCS) [4]

    Rgle dinterprtation:Les projections des variables X sur les variables Y refltent le signe et lordre de grandeur des coefficients de rgression PLS des Y sur X.Le juge 1 aime son th chaud et rejette le th tide

  • 71

    Validation du modle pour le juge 1

    -0.60

    -0.40

    -0.20

    0.00

    0.20

    0.40

    0.60

    CH

    AUD

    TIED

    E

    FRO

    ID

    SUC

    RE0

    SUC

    RE1

    SUC

    RE2

    FOR

    T

    MO

    YEN

    LEG

    ER

    CIT

    RO

    N1

    CIT

    RO

    N0

    Coe

    ffCS[

    4](Y

    1)

    Var ID (Primary)

  • 72

    Cas dgustation de thVisualisation de la rgression PLS de Y5 sur X

    -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8-0.6

    -0.4

    -0.2

    0.0

    0.2

    0.4

    0.6

    CHAUD

    TIEDE

    FROIDSUCRE0

    SUCRE1

    SUCRE2

    FORTMOYEN

    LEGER

    CITRON1

    CITRON0Y1

    Y2

    Y3

    Y4

    Y5

    Y6

    Sim

    ca-P

    3.0

    1 by

    Um

    etri

    AB

    1998

    -11-

    23 1

    8:11

    THE.M1 (PLS), rgression PLS, WorksetLoadings: w*c[1]/w*c[2]

    w*c

    [2]

    w*c[1]

    CH

    AU

    D

    TIED

    E

    FRO

    ID

    SU

    CR

    E0

    SU

    CR

    E1

    SU

    CR

    E2

    FOR

    T

    MO

    YEN

    LEG

    ER

    CIT

    RO

    N1

    CIT

    RO

    N0

    -0.4

    -0.2

    0.0

    0.2

    0.4

    Coe

    ffCS9

    [4]

    Sim

    ca-P

    3.0

    1 by

    Um

    etri

    AB

    1998

    -11-

    23 1

    9:26

    THE rgression PLS M1.Y5 (CoeffCS) [4]

    Le juge 5 prfre son th sans citron, fort;il est indiffrent au th tide; il rejette le th lger, avec du citron.

  • 73

    Validation du modle pour le juge 5

    -0.40

    -0.20

    0.00

    0.20

    0.40

    CH

    AUD

    TIED

    E

    FRO

    ID

    SUC

    RE0

    SUC

    RE1

    SUC

    RE2

    FOR

    T

    MO

    YEN

    LEG

    ER

    CIT

    RO

    N1

    CIT

    RO

    N0

    Coe

    ffCS[

    4](Y

    5)

    Var ID (Primary)

  • 74

    Carte des produits dans lespace des juges

    -2

    -1

    0

    1

    2

    -2 -1 0 1 2

    u[2]

    u[1]

    Dgustation de thsScores: u[1]/u[2]

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    15

    16

    17

    18

    Simca-P 8.0 by Umetrics AB 2000-11-27 10:19

  • 75

    Variable Importance in the Projection (VIP)

    0.00

    0.20

    0.40

    0.60

    0.80

    1.00

    1.20

    1.40

    1.60

    TIE

    DE

    CH

    AU

    D

    SU

    CR

    E0

    SU

    CR

    E2

    LEG

    ER

    CIT

    RO

    N1

    CIT

    RO

    N0

    FOR

    T

    FRO

    ID

    MO

    YE

    N

    SU

    CR

    E1

    VIP

    [4]

    THE.M1 (PLS), Untitled, Work setVIP, Comp 4(Cum)

    Simca-P 8.0 by Umetrics AB 2000-03-08 08:01

  • 76

    III. Analyse discriminante PLS

    Bloc YLa variable qualitative Y est remplace par lensemble des variables indicatrices de ses modalits.

    Bloc XVariables numriques ou indicatrices des modalits des variables qualitatives.

    Rgression PLS de Y sur X

  • 77

    Analyse discriminante PLS : exemple

    16 biopsies de tumeurs de cerveau humain. Chaque tumeur est classe par un mdecin anatomo-

    pathologiste comme bnigne ou maligne. Chaque biopsie est analyse par chromatographie en phase

    gazeuse : on obtient un profil mtabolique de la biopsie form de 156 pics.

    Quelques donnes manquantesArticle:

    Jellum E., Bjrnson I., Nesbakken R., Johanson E., Wold S. Classification of human cancer cells by means of capillary gas chromatography and pattern recognition analysis. ( Journal of Chromatography, 1981)

    Les donnes

  • 78

    Analyse discriminante PLSProfils mtaboliques des biopsies

    Sequence number

    153145

    137129

    121113

    10597

    8981

    7365

    5749

    4133

    2517

    91

    1400

    1200

    1000

    800

    600

    400

    200

    0

    N1

    N4

    N5

    N13

    N14

    N15

    Sequence number

    153145

    137129

    121113

    10597

    8981

    7365

    5749

    4133

    2517

    91

    1200

    1000

    800

    600

    400

    200

    0

    T2

    T3

    T6

    T7

    T8

    T9

    T10

    T11

    T12

    T16

    Tumeurs bnignes Tumeurs malignes

  • 79

    Analyse en composantes principales des 16 biopsiesComposantes principales 1 et 2

    -10

    -5

    0

    5

    10

    -10 0 10

    t[2]

    t[1]

    EGI1.M4 (PC), Untitled, Work setScores: t[1]/t[2]

    Ellipse: Hotelling T2 (0.05)

    N1

    T2

    T3 N4

    N5

    T6T7

    T8

    T9T10

    T11

    T12

    N13

    N14

    N15

    T16

    Simca-P 7.01 by Umetri AB 1998-11-24 15:17

  • 80

    Analyse en composantes principales des 16 biopsiesComposantes principales 1 et 3

    -10

    -5

    0

    5

    10

    -10 0 10

    t[3]

    t[1]

    EGI1.M4 (PC), Untitled, Work setScores: t[1]/t[3]

    Ellipse: Hotelling T2 (0.05)

    N1

    T2

    T3N4

    N5

    T6T7

    T8T9

    T10T11

    T12N13

    N14

    N15T16

    Simca-P 7.01 by Umetri AB 1998-11-24 15:19

  • 81

    Analyse discriminante PLSComposantes PLS 1 et 2

    -10

    -5

    0

    5

    10

    -10 0 10

    t[2]

    t[1]

    EGI1.M5 (PLS), Untitled, Work setScores: t[1]/t[2]

    Ellipse: Hotelling T2 (0.05)

    N1

    T2

    T3

    N4

    N5T6T7

    T8

    T9T10

    T11

    T12 N13

    N14

    N15T16

    Simca-P 7.01 by Umetri AB 1998-11-24 15:22

  • 82

    IV. Rgression logistique PLS

    Bonne solution au problme de la multicolinarit.

    Il peut y avoir beaucoup plus de variables que dobservations.

    Il peut y avoir des donnes manquantes. Prsentation de trois algorithmes

  • 83

    Qualit des vins de Bordeaux

    Variables observes sur 34 annes (1924 - 1957)

    TEMPERATURE : Somme des tempratures moyennes journalires

    SOLEIL : Dure dinsolation CHALEUR : Nombre de jours de grande chaleur PLUIE : Hauteur des pluies

    QUALITE DU VIN : Bon, Moyen, Mdiocre

  • 84

    Rgression logistique ordinale

    Pluie4Chaleur3Soleil2eTempratur1i

    Pluie4Chaleur3Soleil2eTempratur1i

    e1e

    ++++

    ++++

    +

    PROB(Y i) =

    Y = Qualit : Bon (1), Moyen (2), Mdiocre (3)

  • 85

    Rgression logistique ordinaleRsultats SAS

    Score Test for the Proportional Odds Assumption

    Chi-Square = 2.9159 with 4 DF (p=0.5720)

    Analysis of Maximum Likelihood Estimates

    Parameter Standard Wald Pr >Variable DF Estimate Error Chi-Square Chi-Square

    INTERCP1 1 -2.6638 0.9266 8.2641 0.0040INTERCP2 1 2.2941 0.9782 5.4998 0.0190TEMPERA 1 3.4268 1.8029 3.6125 0.0573SOLEIL 1 1.7462 1.0760 2.6335 0.1046CHALEUR 1 -0.8891 1.1949 0.5536 0.4568PLUIE 1 -2.3668 1.1292 4.3931 0.0361

  • 86

    Rgression logistique ordinaleQualit de prvision du modle

    QUALITE PREVISIONOBSERVEEEffectif 1 2 3 Total 1 8 3 0 11 2 2 8 1 11 3 0 1 11 12Total 10 12 12 34

    Rsultat : 7 annes mal classes

  • 87

    Rgression logistique ordinaleCommentaires

    Le modle pentes gales est acceptable(p = 0.572).

    La chaleur a une influence positive sur la qualit du vin de Bordeaux, alors quelle apparat comme non significative et avec un coefficient ngatif dans le modle.

    C est un problme de multicolinarit. Il y a 7 annes mal classes.

  • 88

    Algorithme 1 : La rgression logistique PLS

    Etape 3 : Expression de la rgression logistique en fonction de X.

    Etape 1 : Recherche de m composantes orthogonalesTh = Xah explicatives de leur propre groupeet bien prdictives de y.

    Le nombre m est obtenu par validation croise.

    Etape 2 : Rgression logistique de Y sur les composantes Th .

  • 89

    Rgression logistique PLStape 1

    1. Rgression logistique de y sur chaque xj :

    les coefficients de rgression a1j2. Normalisation du vecteur a1= (a11,,a1k)

    3. Rgression logistique de y sur T1=Xa1 exprime en fonction des X

    4. Calcul du rsidu X1 de la rgression de X sur T1

  • 90

    1. Rgression logistique de y sur T1 et chaquersidu x1j : les coefficients de rgression b2j

    2. Normalisation du vecteur b2= (b21,,b2k)3. Calcul de a2 tel que : T2 = X1b2 = Xa24. Rgression logistique de y sur T1= Xa1 et T2 = Xa2

    exprime en fonction des X5. Calcul du rsidu X2 de la rgression de X sur T1 , T2

    Rgression logistique PLStape 2

  • 91

    Rgression logistique PLSChoix du nombre de composantes

    0975.01 21-h tape on,substituti

    2h tape croise, validation2 =

    Q

    On choisit le nombre de composantes par validation croise : la composante h est retenue si

    0.95Soit :

    2/12 )]h tape croise, validation([ Pearson2/12 )]1-h tape on,substituti([ Pearson

    On procde de la mme manire pour les autres tapes.

  • 92

    Rgression logistique PLSRsultats de lalgorithme

    La temprature de 1924 est suppose inconnue. La rgression logistique PLS de Y sur X a conduit

    deux composantes PLS T1 et T2 :T1 = 0.57Temprature + 0.63Soleil + 0.41Chaleur

    - 0.34Pluie

    T2 = - 0.14Temprature + 0.45Soleil - 0.69Chaleur - 0.52Pluie

  • 93

    Rgression logistique ordinale sur T1, T2Rsultats SAS

    Analysis of Maximum Likelihood Estimates

    Parameter Standard Wald Pr >Variable DF Estimate Error Chi-Square Chi-Square

    INTERCP1 1 -2.5490 0.8768 8.4507 0.0036INTERCP2 1 2.1349 0.8955 5.6837 0.0171T1 1 3.0797 0.8350 13.6032 0.0002T2 1 1.4148 0.8849 2.5563 0.1099

    TABLEAU CROISANT QUALIT OBSERVE ET PRDITE

    QUALIT PRDICTION

    Effectif 1 2 3 Total 1 9 2 0 11 2 1 9 1 11 3 0 1 11 12Total 10 12 12 34

    Rsultat :5 annes mal classes

  • 94

    Rgression logistique PLSLe modle

    Prob (Y i)

    2T42.11T08.314.255.2

    2T42.11T08.314.255.2

    e1e

    +++

    +++

    += MoyenBon

    MoyenBon

    PluieChaleurSoleilTemp.MoyenBon

    PluieChaleurSoleilTemp.MoyenBon

    ++++

    ++++

    += 77.126.073.257.114.255.2

    77.126.073.257.114.255.2

    e1e

  • 95

    Algorithme 2 Rgression logistique sur composantes PLS

    (1) Rgression PLS des indicatrices de Y sur les X.

    (2) Rgression logistique de Y sur lescomposantes PLS des X.

  • 96

    Rgression logistique sur les composantes PLSRsultats

    La temprature de 1924 est suppose inconnue. La rgression PLS des indicatrices de Y sur X

    a conduit une seule composante PLS t1(rsultat de la validation croise).

    t1 = 0.55Temprature + 0.55Soleil +0.48Chaleur 0.40Pluie

    Pour lanne 1924 : t1 = (0.55Soleil +0.48Chaleur 0.40Pluie)/0.69

  • 97

    Utilisation de la rgression PLS pour la prvision de la qualit du vin de Bordeaux

    The PLS ProcedureCross Validation for the Number of Latent Variables

    Test for largerresiduals than

    minimumNumber of RootLatent Mean Prob >

    Variables PRESS PRESS

    0 1.0313 01 0.8304 1.00002 0.8313 0.49903 0.8375 0.44504 0.8472 0.3500

    Minimum Root Mean PRESS = 0.830422 for 1 latent variableSmallest model with p-value > 0.1: 1 latent

    TABLE OF QUALITE BY PREV

    QUALITE PREV

    Frequency 1 3 Total

    1 11 0 11

    2 4 7 11

    3 1 11 12Total 16 18 34

    Rsultat :12 annes mal classes

    Choix dune composante PLS

  • 98

    Rsultats de la rgression logistiquede Y sur la composante PLS t1

    Analysis of Maximum Likelihood Estimates

    Parameter Standard Wald Pr >Variable DF Estimate Error Chi-Square Chi-Square

    INTERCP1 1 -2.1492 0.8279 6.7391 0.0094INTERCP2 1 2.2845 0.8351 7.4841 0.0062t1 1 2.6592 0.7028 14.3182 0.0002

    TABLEAU CROISANT QUALIT OBSERVE ET PRDITE

    QUALIT PRDICTION

    Effectif 1 2 3 Total 1 9 2 0 11 2 2 8 1 11 3 0 1 11 12Total 11 11 12 34

    Rsultat :6 annes mal classes

  • 99

    Rgression logistique sur composantes PLSLe modle

    Prob (Y i)

    1t66.228.215.2

    1t66.228.215.2

    e1e

    ++

    ++

    += MoyenBon

    MoyenBon

    Pluie07.1Chaleur28.1Soleil46.1Temp.47.1Moyen28.2Bon15.2

    Pluie07.1Chaleur28.1Soleil46.1Temp.47.1Moyen28.2Bon15.2

    e1e

    ++++

    ++++

    +=

  • 100

    Conclusion 1: Rgression logistique PLSvs rgression logistique sur composantes PLS

    Les deux algorithmes prsents devraient avoir des qualits comparables.

    L algorithme 2 est beaucoup plus simple :Deux tapes :(1) Rgression PLS des indicatrices de Y sur X(2) Rgression logistique de Y sur les

    composantes PLS

  • 101

    Conclusion 2:Le modle linaire gnralis PLS

    Le modle linaire gnralis PLS peut tre construit selon les mmes procdures.

    Approche beaucoup plus simple que la mthode de Brian Marx : Iteratively Reweighted Partial Least Square Estimation for Generalized Linear Regression ,Technometrics, 1996.

  • 102

    Algorithme 3 (donnes groupes) Rgression PLS du logit de la variable de

    rponse sur les prdicteurs

    Exemple : Job satisfaction (Zelterman, 1999) 9949 employees in the craft job within a company Response : Satisfied/Dissatisfied Factors : Sex, Race (White/Nonwhite),

    Age (44)Region (Northeast, Mid-Atlantic, Southern, Midwest, Northwest, Southwest, Pacific)

    Explain Job satisfaction with all the main effects and the interactions.

  • 103

    Une approche exploratoire

    (1) Rgression PLS de Y1 = Logit(proportion of satisfied people)Y2 = Logit(proportion of non satisfied people)sur les 4 facteurs et toutes les interactions.

    (2) limination itrative des termes petits VIP, en vrifiant laugmentation du Q2(cum)

    (3) Carte des variables finalement retenues

  • 104

    Rsultat de la Rgression PLS sur les logits

    -0.50

    -0.40

    -0.30

    -0.20

    -0.10

    0.00

    0.10

    0.20

    0.30

    -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30

    w*c

    [2]

    w*c[1]

    MEN

    NORTHEAST

    MID-ATLANTIC

    YOUNG

    SOUTHERN

    WOMEN

    YOUNG WHITE

    OLD WHITE

    WHITE in MID-ATLANTIC

    YOUNG WOMEN

    YOUNG in NORTHEAST

    YOUNG in MIDWEST

    OLD in MID-ATLANTIC

    OLD in SOUTHERN

    WOMEN in NORTHEAST

    WOMEN in MIDWESTNONWHITE WOMEN

    NONWHITE MEN

    SATISFIED

    NON SATISFIED

    Y1 = Logit (Proportion of Satisfied)Y2 = Logit (Proportion of Non Satisfied)X = Explanatory variables kept after elimination of small VIP terms

  • 105

    Quelques rfrences sur les mthodes PLS

    - J.-B. Lohmller : Latent variable path modeling with partial least squares, Physica-Verlag, 1989

    - LVPLS 1.8 : Software for Latent variables path analysis with partial least-squares estimation, J.-B. Lohmller, 1989

    - M. Tenenhaus : Lapproche PLS, R.S.A., 47 (2), 5-40, 1999

    Rgression PLS - L. Eriksson, E. Johansson, N. Kettaneh-Wold & S. Wold : Multi- and

    Megavariate Data Analysis using Projection Methods (PCA & PLS),Umetrics, 1999.

    - H. Martens & M. Martens : Multivariate Analysis of Quality, Wiley, 2000- H. Martens & T. Ns : Multivariate calibration, Wiley, 1989- SIMCA 12.0 : PLS Software, S. WOLD, UMETRI (Sweden),

    distribu par SIGMA PLUS- M. Tenenhaus : La rgression PLS, Editions Technip, 1998

    Approche PLS (PLS Path modelling)