analiza-canonica

Embed Size (px)

Citation preview

Analiza canonic Curs 8 30 noiembrie 2010 Conf.univ.dr.Cristina BOBOCFUNDAMENTE TEORETICE Analiza canonica este o metod de descompunere a asocierilor ntre dou mulimi de variabile, un "predictor" (variabila independent), cunoscut, i un "dependent,variabil ObservatiaVariabila independenta 1 Variabila independenta 2 Variabila dependenta 1 Variabila dependenta 2 1X11X21Y11Y21 2X12X22Y12Y22 NX1nX2nY1nY2n EXEMPLU Un cercettor a colectat date privind trei variabile psihologice, patru variabile academice (scoruri standardizate de testare) i sexul pentru 600 de tineri studeni. El este interesat de modul n care mulimea variabilelor psihologice este corelat cu variabilele academice i de gen. n special, cercettorul este interesat de modul n care mai multe dimensiuni sunt necesare pentru a nelege asocierea dintre cele dou seturi de variabile. Variabilele psihologice sunt: autocontrolul, auto-cunoaterea imotivaia. Variabilele academice sunt teste standardizate despre nivelul n citire, scriere, matematic i tiin. n plus, sexul este o variabil binar. 1 sex feminin; 0 sex masculin Analiza canonic versus regresia multipl n cazul regresiei multiple ne intereseaz s estimm efectul uneia sau mai multor variabile independente asupra unei variabile dependent n analiza canonic, interesul este de a determina numrul i natura relaiilor independente dintre dou mulimi de variabile, una de variabile independente i una de variabile independente Acest lucru este realizat, prin utilizarea de perechi de combinaii liniare de variabile care sunt necorelate (factori canonici) Ce sunt factorii canonici? Factorii canonici sunt vectorii proprii ai matricei de corelaie corespunztoare, i reprezint segmente de linie ortogonale ce explic variabilitatea din interiorul fie al lui X fie al lui Y X1 Y1 Y2 X2 ( )2 2U = U( )1 1U = U( )2 2V = V( )1 1V = VX2 X YXYTA CC BEstimarea factorilor canonici Primul factor canonic este obinut prin estimarea coeficienilor combinaiilor liniare: 1 111 11,pj jjqj jjU a XV bY====1 1 1 1( , ) max{( , )} r UV r UV =ce maximizeaz corelaiadintre U1 i V1 Estimarea factorilor canonici Al doilea factor canonic este obinut prin estimarea coeficienilor combinaiilor liniare: 2 212 21,pj jjqj jjU a XV b Y====2 2 2 2( , ) max{( , )} r U V r U V =1 2 1 21 2 2 1( , ) ( , ) 0( , ) ( , ) 0r UU r VVr UV r U V= == =ce maximizeaz corelaia dintre U2 i V2: astfel nct: Calculul factorilor i al corelaiilor canonice Pornind de la matricile de corelaie din interior i dintre mulimile de variabile vom determina valorile proprii din ecuaia: care are r soluii: Valorile proprii j sunt ptratele corelaiilor ntrefactorii canonici, adic, corelaiile canonice: 1 1( )T = BCAC I b 01 2 r > > >2 2 ( ) ( )2( , ) ( , )U Vi i i i iir rC = =UVCalculul factorilor i al corelaiilor canonice Coeficienii factorilor canonici ai lui Y: V1, V2 etc., sunt intrrile corespunztoare n matricea corelaiilor din interiorul mulimii Y, B: Coeficienii factorului canonic i pentru variabilele X sunt date de elementele: 1 11qj jjV bY==X YXYTA CC B11( , , )Ti i i ipa a= = a ACbCalculul factorilor i al corelaiilor canonice Perechea i de factori canonici este dat de: Unde X i Y sunt vectori standardizai (0,1). n acest fel, putem genera scorurile factorilor canonici pentru fiecare observaie din multimea de date 1 111 11pTj j ijqTj j ijU a XV bY=== == =aXbYFactori canonici standardizai Variana lui U i V va fi influenat de scala adoptat pentru vectorii proprii a i b, dar corelaiile canonice r(U,V) nu vor fi afectate; Pentru a genera factorii canonici standardizai, se calculeaz abaterea medie ptratic a lui Ui (Vi ) i se mpart valorile aij (bij) la abaterea medie ptratic corespunztoare Rezultatul final O mulime de r = min(p,q) factori canonici, unul pentru mulimea de variabile dependente {V}, i altul pentru mulimea variabilelor independente {U} O mulime de r corelaii canonice C = r(U,V) fiecare reprezentnd corelaia dintre perechi de factori canonici. U1 U2 V2 X2 V1 Cele mai mariprime corelaiicanonice Corelaiilecanonice deordin 2 Teste de semnificaie ntrebare: care din corelaiile canonice sunt semnificative statistic? Pentru testarea semnificaiei tuturor celor r = min(p, q) corelaii canonice bazate pep + q variabile, se calculeaz statistica Bartlett (V ) i se compar cu valoarea tabelat a distribuiei _2 cu pq grade de libertate 111.5 ( )2ln(1 )miiV N p q= (= + ( +iValoarea proprie asociatfactorului canonic i Teste de semnificaie Testele de semnificaie presupun c observaiile au o distribuie normal multivariat Testele de simnificaie pot fi foarte neltoare, pentru c corelaia canonic j n populaie poate s nu apar ca i corelaia canonic j n eantion din cauza erorilor de eantionare ... Deci, atenie la eantioanele de volum reudus! Interpretarea factorilor canonici Procedur: Se analizeaz coeficienii standardizai ai factorilor canonici Inferen: variabilele cu coeficieni (n valoarea absolut) mari sunt cei mai importani 1 1 2 3 4.09 0.29 0.48 0.29 U X X X X = + +U1 este o variabil a contrastelor dintre X3 and X4 pe de o parte, i X2 pe de alt parte Interpretarea factorilor canonici Procedur: Se analizeaz corelaiile variabilelor originale cu factorii canonici (canonical factor loadings) Inferen: variabilele cu corelaii mari (n valoare absolut) sunt cele mai importante pentru formarea factorului canonic corespunztor X4 nu este asociat cu U2 Factor canonic VariablU1 U2 X1 -0.920.33 X2 -0.77-0.52 X3 0.90-0.20 X4 0.92-0.05