34
1 CURS 7 ANALIZA STATISTICĂ A SERIILOR DATE BIVARIATE STATISTICĂ

Curs 7 Corelatie

Embed Size (px)

Citation preview

1CURS 7ANALIZA STATISTIC A SERIILOR DE DATE BIVARIATESTATISTIC2Legturi statistice. Definiie, clasificareFenomenele i procesele social-economice nu sunt, n general, fenomene independente, ci ele se manifest ca rezultat al aciunii unor factori de influen i condiioneaz, la rndul lor, manifestarea altora. Legturile statistice (stochastice) sunt relaii prin care se realizeaz procesul de determinare, apariie i dezvoltare a fenomenelor de mas (X cauza, Y efectul).Dac dou variabile se modific (n acelai sens ori n sensuri contrare) se spune despre ele c sunt corelate. Cu toate acestea, descoperirea unei corelaii ntre dou variabile nu implic, n mod necesar, c schimbrile unei variabile cauzeaz schimbrile celeilalte variabile. Este posibil ca o relaie de cauzalitate s existe, dar este posibil ca ambele variabile s se modifice n pas cu o a treia variabil.3Legturi statistice. Definiie, clasificareLegturi l e stati sti ce se cl asi fi c n funcie de urmtoarele criterii:a) dup natura variabilelor:1. legturi ntre variabile numerice (numitecorel ai i )2. legturi ntre variabile nenumerice sau intre o variabil numeric i una nenumeric(numiteasoci eri )b) dup numrul variabilelor:1. legturi simple (ntre dou variabile, din care una este cauz /i ndependent (X) i alta efect /dependent (Y))2. legturi multiple (ntre trei sau mai multe variabile, din care una este efect i celelalte sunt variabile cauzale)4Legturi statistice. Definiie, clasificarec) dup direcia sau sensul legturii:1. legturi directe (modificarea ntr-un sens a unei variabile este nsoit de modificarea n acelai sens a celeilalte variabile X=> Y ) 2. legturi inverse (modificarea ntr-un sens a unei variabile este nsoit de modificarea n sens invers a celeilalte variabile X=> Y ) d) Dup forma legturii1. legturi liniare (care semnific o schimbare uniform a unei variabile sub influena schimbrii altei/altor variabile, legturi ce pot fi modelate cu ajutorul unei funcii liniare)2. legturi neliniare sau curbilinii (legturi ce pot fi modelate cu ajutorul unor funcii neliniare: parabol de gradul 2, exponenial, polinomial de ordin superior)5Legturi statistice. Definiie, clasificaree) Dup modulde mani festare n ti mp a l egturi i :1. l egturisi ncrone, concomitente (modificarea unei variabile are loc aproximativ o dat cu modificarea alteia/altora) 2. l egturiasi ncrone, cu decalaj (efectul se manifest dup un interval de timp de la producerea cauzei)6Legturi statistice. Metode de analizMetodele de analiz a legturilor statistice dintre variabile se mpart n dou mari categorii:A. Metode el ementare (si mpl e), care permit stabilirea existenei, a direciei i a formei legturiiB. Metode compl exe, clasificate n: 1. Metode parametri ce2. Metode neparametri ce 7Legturi statistice. Metode elementare de analizMetodel e el ementare de analiz a legturilor dintre variabile sunt:1. Metoda grafi c ( nor de puncte)2. Metoda seri i l or paral el e (sau interdependente)3. Metoda grupri i4. Metoda tabel ul uide corel ai e1. Metoda grafi cReprezentarea grafic a datelor bivariate se realizeaz prin intermediul corelogramei ( nor de puncte).Prin interpretarea modului de amplasare a punctelor n spaiul determinat de cele dou axe se pot stabili: existena, sensul i forma legturii.Este cea mai utilizat metod elementar de analiz a legturii dintre variabile i precede, de regul, analiza prin metode complexe.8Legturi statistice. Metode elementare de analiz Corelograma.Tipuri de legturi. a) legtur liniar direct; b) legtur liniar invers; c), d), e) absena legturii; f) legtur liniar determinist direct; g) legtur liniar determinist invers; h), i) legturi neliniare. a) b) c) d)e)f) g) h) i) 9Legturi statistice. Metode elementare de analizExemplu Un analist dorete s studieze legturadintrecheltuielile pentru promovarea produselor i nivelul vnzrilor realizate. n acest scop el sistematizeaz date pentru15mrfurialimentareprivindcheltuielileluna recupromovarea produsului (miilei) i ncasrile lunare realizate (miilei)Nr. crt. Cheltuieli promovare (mi i lei) ncasri lunare(mi i lei)120,02190214,81900320,51990412,51210518,01500614,31980724,93340816,51880924,331001020,221301122,028801219,031201312,318601414,017301516,71740 10Legturi statistice. Metode elementare de analizPentru a analiza existena, sensul i forma legturii vom construi corelograma:050010001500200025003000350040000 5 10 15 20 25 30cheltuieli de promovareincasari lunare Se observ c ntre cele dou variabile exist legtur liniar direct . 11Legturi statistice. Metode elementare de analiz2. Metoda seri i l or i nterdependente, const n ordonarea cresctoare sau descresctoare a valorilor variabilei cauzale i compararea modului de variaie a valorilor celor dou caracteristici, determinndu-se existena i sensul legturii3. Metoda grupri ipresupune gruparea unitilor statistice dup valorile variabilei cauz i determinarea unor indicatori derivai pentru variabila efect (ex. medii condiionate). Prin compararea variaiei celor dou variabile se identific existena i sensul legturii. Metoda se utilizeaz n cazul unui numr mare de uniti statistice.4. Metoda tabel ul uide corel ai e se aplic n cazul unor grupri combinate ale datelor statistice dup dou variabile. n funcie de modul de amplasare a frecvenelor n interiorul tabelului se identific existena i sensul legturii. 12Legturi statistice. Metode complexe de analizMetode compl exe de analiz1. Metode parametri cea) Metoda regresi eieste utilizat pentru a previziona nivelul unei variabile efect Y n funcie de valorile uneia sau mai multor variabile cauz folosind un model matematic numit funcie de regresie, de forma Y=f(X).b) Metoda corel ai eipermite msurarea intensitii legturii dintre dou variabile numerice. Acest lucru se realizeaz cu ajutorul indicatorilor:Covari anaCoefi ci entulde corel ai e l i ni ar si mpl PearsonCoefi ci entulde determi nai eRaportulde corel ai eMetoda regresiei13Elaborareacorectaunuimodelderegresiepresupune parcurgerea urmtoarelor etape: definireamodeluluiunifactorialderegresieseface printr-orelaiematematicncarevariabilaefect (dependent/rezultativ),y,depindededoucategoriide factori: un factor principal, determinant, notat cu x; ovariabilrezidual,u,careesteconstituitdintoi ceilali factori care se consider neeseniali; Metoda regresiei14 specificarea modelului unifactorial: ( ) u x f y + , unde: y = variabil endogen; x = variabil exogen. identificareamodeluluiunifactorialpresupunealegereaunei funcii matematice care red cel mai bine legtura dintre valorile variabileiendogene/efect(rezultative)ivalorilevariabilei exogene/cauz(factorial).Celmaiadeseaidentificareaformei legturii se realizeaz cu ajutorul metodei grafice (corelograma). n funcie de modul de grupare al punctelor pe grafic putem avea funcii liniare, exponeniale, polinomiale etc. Metoda regresiei15Forma modelului de regresie liniar unifactorial este: u bx a yi i+ + unde: xi = valorile variabilei exogene (cauz, factorial) x; yi = valorile variabilei endogene (efect, rezultative) y; a, b = parametrii ecuaiei de regresie. Metoda regresiei16Grafic, funcia liniar arat astfel: y x i ibx a y + Metoda regresiei17Parametrulareprezintvaloareafuncieideregresiepentru x=0,adicreprezintpunctuldeinterseciealdrepteide regresie cu axa OY. Parametrulbreprezintpantadrepteiinearatcucte unitidemsursemodificvariabilarezultativydac variabila factorial se modific cu o unitate de msur. Din semnul lui b putem deduce direcia legturii dintre cele douvariabile:dacb>0existlegturdirectntreyix, dac b < 0 exist legtur invers ntre y i x. u reprezint variabila rezidual (aleatoare). 18Legturi statistice. Metode parametri ceCovari ana Plecnd de la reprezentarea grafic prin intermediul diagramei de mprtiere, putem calcula un indicator care s msoare legtura dintre cele dou variabile. Pentru punctele de pe grafic, determinate de xi i yi, putem calcula devierile xi x i xi y, la fel ca i produsele acestor devieri (xi x)(yi y). Acest indicator, numit covari ana ntre X iY, ne arat ct de mult se modific mpreun cele dou variabile: n) y - )(yi x - (xi) y , x cov(n1 i Covariana este pozitiv dac legtura dintre variabile este direct i negativ, daclegturadintrevariabileesteinvers.Dacvaloareacovarianeiesteegal cuzero,acestlucruimpliclipsalegturiintrevariabile,sau,celpuin,lipsa legturii liniare. 19Legturi statistice. Metode parametri ce Covariana,fiindunindicatorabsolut,poateluavaloriorictdemarinvaloare absolut, ceea ce o face greu de interpretat i comparat. Covariana indic direcia legturii, dar nu i intensitatea ei (ct de puternic este legtura dintre variabile). Coeficientuldecorelaie ,indicatoralcorelaieifolositncazullegturii simple liniare , standardizeaz media produselor abaterilor:semnul coeficientului indic direcia legturii , iar valoarea lui indic intensitatea legturii .1]1

1]1

niiniinii iy xxy) y y ( ) x x () y y )( x x (s s) y , x cov(r12121 sau, prin transformri elementare:11]1

,_

11]1

,_

ninii ininii inininii i i ixyy y n x x ny x y x nr121212121 1 1. Coeficientul de corelaie20ncazuldistribuiilordefrecven,formula coeficientului de corelaie este: ( )( ) r1 iy x ir1 ii i ix / ynn y y x xr Coeficientul de corelaie21Coeficientul de corelaie ry/x este cuprins ntre [-1, 1]. Dac:ry/x 0nseamncntreceledouvariabileexist legtur direct; ry/x=0ntre cele dou variabile nu exist legtur; ry/xt1legturadintreceledouvariabileestefoarte puternic; ry/x =t1legturadintreceledouvariabileeste funcional. Coeficientul de determinaie22Pentru a stabili intensitatealegturii dintre dou variabileseutilizeazcoeficientulde determinaiecalculatcapondereavarianei factoriale n variana total: ( )( )[ ] 1 , 0112122/ niiniix yy yy yR Coeficientul de determinaie230 R2x / y dac y yi , adic dac b = 0. n acest caz nu exist legtur ntre y i x. 1 R2x / y dac toate punctele (x, y) se gsesc pe o dreapt, iar n acest caz erorile sunt nule. R2cu ct este mai apropiat de 1 cu att partea din varia ia lui y explicat de x este mai marei deci intensitatea legturii dintre cele dou variabile mai mare. Raportul de corelaie24Extrgndradicaldincoeficientuldedeterminaie se obine raportul de corelaie: ( )( ) niinii ix yy yy yR1212/1 Raportul de corelaie25Raportul de corelaie Ry/x ia valori cuprinse ntre 0 i 1. Dac:Ry/x=0atuncinuexistlegturntre variabile; Ry/x = 1 atunci ntre cele dou variabile exist o legtur funcional (n acest caz toate punctele se gsesc pe dreapta de regresie); Ry/x 1 legtura este mai puternic; 26Metode parametri ce. Exempl u ExempluPe baza datelor dinexemplul anterior i a prelucrrilor din tabelputem determina coefi cientul de corelaie:Nr. crt. Chelt. (X) ncas.(Y)2x2y xy 112,30 1860 151,29 3459600 22878212,50 1210 156,25 1464100 15125314,00 1730 196,00 2992900 24220414,30 1980 204,49 3920400 28314514,80 1900 219,04 3610000 28120616,50 1880 272,25 3534400 31020716,70 1740 278,89 3027600 29058818,00 1500 324,00 2250000 27000919,00 3120 361,00 9734400 592801020,00 2190 400,00 4796100 438001120,20 2130 408,04 4536900 430261220,50 1990 420,25 3960100 407951322,00 2880 484,00 8294400 633601424,30 3100 590,49 9610000 753301524,90 3340 620,01 11155600 83166T270,00 32550 5086,00 76346500 614492( )796 , 032550 76346500 15 )( 270 5086 1532550 270 614492 15r2 2 , ceea ce ne arat o legtur direct i de intensitate destul de puternic ntre cele dou variabile . 27Legturi statistice. Metode neparametri ce2. Metode neparametri ce Se utilizeaz pentru msurarea intensitii legturii dintre: variabile numerice care nu provin din populaie cu distribuie normal sau aproximativ normal; variabile numerice, ns datele provin din eantioane de volum redus (sunt informaii insuficiente pentru a putea presupune normalitatea distribuiei; variabile numerice, indiferent de forma legturii (liniar sau neliniar);variabile nenumerice sau o variabil numeric i una nenumeric;Aadar corelaia neparametric (sau l i ber de di stri bui e) se utilizeaz atunci cnd presupunerile sub care se folosesc metodele parametrice nu sunt ndeplinite.28Legturi statistice. Metode neparametri ce Asocierea variabilelor alternativen cazul variabilelor alternative, datele se sistematizeaz ntr -un tabelde forma:Clasele lui YClasele lui xY(y1)non Y(y2) Total0123 X(x1)n11 n12 n1.nonX(x2)n21 n22 n2.Total n.1n.2 n.. Oasociereput ernicntrevariabileseremarcncazulconcentrriifrec venelorpeuna dintre diagonalele tabelului. Dac toate unitile statis tice sunt dispuse doar pe diagonala principal (n11 i n22), vorbim de o aso ciere perfect pozitiv Dacunitilestatisticesuntdispusepediagonalasecundar(n21in12),vorbimdeo asociere perfect negativ CoeficientuldeasociereYule(Q)msoarintensitateaasocieriidintrevariabile alternativeiare formula:12 21 22 1112 21 22 11n n n nn n n nQ+. Acestindicator ia valori cuprinse ntre1 i +1;-el ia valoarea 0 cnd n11 n22 = n21 n12, deci exist o independen ntre variabile; -o valoare apropiat de +1 arat o asociere pozitiv;-o valoare apropiat de1 arato asociere negativ. 29Legturi statistice. Metode neparametri ceExemplu Despredistribuiaturitilornfunciedenaionalitate,ndouhoteluride categoriile 3 i 4 stele se cunosc datele: Categorie confort Naionalitate 3 stele4 stele TOTAL Romn802118920 Strin245497742 Total10476151662 865 , 0118 245 497 802118 245 497 802Q + , ceea ce demonstreazo asociere puternic ntre naionalitatea turitilor i categoria de confort aleas. 30Legturi statistice. Metode neparametri ceAsoci erea variabi l el or cal i tati ve ordinal e. Corel ai a ranguri lor Variabilele calitative ordinale sunt variabile pentru care pot fi ordonate variantele de rspuns. Variabilele social -economice msurate pe o scal ordinalpermit acor-dareaunornumeredeordine(ranguri)tuturorunitilor,astfelnct unitile s poat fi ordonate nfuncie de criteriile studiate. Rangurilesuntdela1(unitateaceamaipuinperformant,oricu valoareaceamaisczutavaria bilei),pnlan(unitateaceamai performant) Rangurile indic poziiile n serii ale uniti lor, dup variabilele studiate Dacmaimulteunitistatisticeauaceeaivariant/valoare aunei variabile, atunci se acordmedia rangurilor succesive . Metoda de studiu alcorelaiei rangurilor poate fi apli cat i atunci cnd nu sunt posibile msurtori numerice, dar sunt identi ficabile poziiimai bune ori mai puin bune 31Legturi statistice. Metode neparametri ceDin clasa metodelor de corelaiea rangurilor fac parte:a)Coeficientul de corelaie a rangurilorSpearman-sebazea zpeanalizaconcordaneiranguriloracordatepentrufiecaredin celen uniti statistice, dup variabila X i dup variabila Y. -dacexi st o asociere direct perfect, atunci fiecrui rang i, i = n , 1 dup variabilaX (ixr)ivacorespundeacelairangi,dupvariabilaY(iyr)i diferena din rangu rile acordate aceleiai unitistatistice va fi nul: di = rxi ryi = 0. Dac aso cierea nu este perfect, rangurile nu sunt identice i, atunci, di = rxi ryi 0. -Coeficientul de corelaie a rangurilor Spearman (rs) se determin:( ) 1 n nd 61 r22is unde di = rxi ryi reprezint diferena dintre rangurile perechi acordate aceleiai uniti statistice.-Coeficientul de corelaie a rangurilor Spearman ia valori cuprinse n intervalul [ -1, 1]. Valori (n modul) apropiate de unitate indic o asociere puternic ntre variabi le, iar valori apropiate de zero indic o asociere slab ntre variabile. 32Legturi statistice. Metode neparametri ceb)Coeficientul de corelaie a rangurilor Kendall ( rK), caresebazeaz,nfapt,totpestudiulconcordanei rangurilor, necesit ordonarea cresctor a uni tilor dup rangurile acordate variabilei X i nscrierea, n pa ralel, a rangu rilor acor date dup variabila Y. Atunci:rK( ) 12n nS, unde: S = P Q, P =pi, Q = qi pi = numrul rangurilor superioare fiecrui rang ryi, acordat dup varia bila Y, de la el n jos;qi = numrul rangurilor inferioar e fiecrui rang ryi, acordat dup variabila Y, de la el n jos.Acest indicator ia valori cuprinse n intervalul [ -1, 1], iar interpretareaestesimilarcuceaacoeficientuluide corelaie a rangurilor Spearman.33Legturi statistice. Metode neparametri ceExemplu : Sosirile vizitatorilor strini n Romnia i plecrile de vizitatori romni n strintate au fost n anul 2000, pentru cteva ri urmtoarele:araSosiri vizitatori (mii)Plecri vizitatori romni (mii)RxRyd2 Austria 56103 12725 Belgia 171415141 Danemarca 961817,5 0,25Frana 645011110 Germania 259 178 550 Grecia 715110100 Italia 151 63684 Olanda 482314131 Regatul Unit 543213121 Spania 101017161 Suedia 1461617,5 0,25Bulgaria 464 603 244 Iugoslavia 112 1525 8236 Polonia 105 61990 Federaia Rus 124 1171564 Turcia 263 630 431 Ucraina 424 111 369 Ungaria 829 3087 110 TOTAL ----147,5 8478 , 0323 185 , 147 61 rs 34Legturi statistice. Metode neparametri ceCalculCalculul coeficientuluide corelaie Kendallrxrypq 1234 11170 24142 36123 43131 55121 68102 71538 82100 9981 101071 111161 12760 131250 141340 151430 1617.5 01 171610 1817.5 00 TOTAL -131 21 7190 , 017 18110 2rk. Ceidoiindicatorinearatocorelaiedirectiputernicntreceledou variabile: sosirile vizitatorilor strini n Romnia i plecrile vizitatorilor romni n strintate.