4

Click here to load reader

Analiza Statistica a Seriilor Multidimensionale

Embed Size (px)

Citation preview

Page 1: Analiza Statistica a Seriilor Multidimensionale

ANALIZA STATISTIC Ă A SERIILOR MULTIDIMENSIONALE

5.3.1. Tipuri de legături dintre fenomenele social-economice

Statistica dispune de o serie de metode de studiere a dependenŃelor dintre două sau mai multe variabile. Printre acestea sunt şi cele cuprinse în „analiza de regresie şi corelaŃie”. În cadrul ei se studiază legătura dintre o variabilă „y”, numită efect, rezultativă, dependentă şi variabilă „x” numită factorială, cauză-independentă.

Regresia ne arată cum o variabilă este dependentă de altă variabilă (sau alte variabile). CorelaŃia ne arată gradul în care o variabilă este dependentă de altă variabilă. Legăturile dintre fenomenele şi procesele economice apar ca legături statistice (stochastice), a căror

particularitate este faptul că rezultatul este determinat ca urmare a influenŃei unui ansamblu de factori. Legăturile statistice se manifestă, ca tendinŃă valabilă numai la nivelul colectivităŃii.

Clasificarea legăturilor statistice Se poate face în funcŃie de următoarele criterii: • După numărul caracteristicilor independente (x) luate în studiu.

– Legături simple: Y=f(x), când se studiază dependenŃa dintre o variabilă rezultativă (y) şi o variabilă factorială (x).

– Legături multiple: Y =f(x1,x2,...,xn), când se studiază legătura dintre o caracteristică dependentă (y) şi două sau mai multe caracteristici independente (x).

• După direcŃia legăturii: – Legături directe, când caracteristica dependentă (y) se modifică în acelaşi sens cu caracteristica

independentă (x). – Legături inverse, când caracteristica dependentă (y) se modifică în sens invers, caracteristicii

dependente (x). • După expresia analitică a legăturilor – Legături liniare, acele dependenŃe care pot fi exprimate cu ajutorul funcŃiei liniare (y = a + bx). – Legături neliniare, acele dependenŃe care pot fi exprimate cu ajutorul funcŃiilor neliniare (parabole,

hiperbolă, funcŃie exponenŃială etc.). Pentru studiul legăturilor dintre fenomenele economice, se pot utiliza: • Metode simple. Se folosesc pentru sistematizarea datelor, verificarea existenŃei legăturii, stabilirea

direcŃiei legăturii, precum şi aprecierea funcŃiei analitice care exprimă legăturile studiate. Principalele metode sunt:

– metoda seriilor paralele independente; – metoda grupărilor; – metoda tabelului de corelaŃie; – metoda grafică. Dintre acestea vom trata doar metoda grafică sau graficul de corelaŃie (corelograma). Graficul

se construieşte pornind de la perechile de valori (x, y), care se reprezintă în cadranul I, al sistemului de axe rectangulare:

– Pe ox, se reprezintă valorile variabilei (x) – Pe oy, se reprezintă valorile variabilei (y) Forma grafică a legăturii în câmpul de corelaŃie are aspectul unui nor de puncte, de unde se mai

numeşte „Diagrama norului de puncte”. TendinŃa norului de puncte permite vizualizarea şi stabilirea formei analitice a funcŃiei de regresie. Corelograma dă posibilitatea stabilirii existenŃei, direcŃiei, a formei şi intensităŃii legăturilor dintre cele două variabile.

Page 2: Analiza Statistica a Seriilor Multidimensionale

5.3.2. Metode parametrice de măsurare şi analiză a legăturilor dintre fenomenele şi procesele economice

Dintre metodele parametrice amintim: – metoda regresiei; – metoda coeficientului de corelaŃie; – metoda raportului de corelaŃie; – metoda analizei dispersionale. • Metoda regresiei Se bazează pe utilizarea funcŃiei de regresie, care exprimă modificarea cantitativă a caracteristicii

rezultative „y”, ca urmare a influenŃei exercitate de caracteristica factorială „x”. Legătura dintre variabile se manifestă sub formă de tendinŃă, astfel, funcŃia de modelare este o ecuaŃie medie de tendinŃă, identificată prin grafic şi confirmată de TESTUL „F”.

În funcŃie de numărul factorilor care influenŃează caracteristica rezultativă „Y”, deosebim: Regresie simplă, sau unifactorială, dacă funcŃia include un factor; Regresie multiplă sau multifactorial ă dacă funcŃia include mai mulŃi factori. Modelul liniar de regresie. Are ca scop estimarea printr-un model sau funcŃie matematică a

legăturii dintre cele două variabile. EcuaŃia modelului liniar, va fi: y = a + bx Dreapta utilizată este o estimaŃie a funcŃiei de regresie unde: Y = variabila dependentă; X = variabila independentă a, b = parametri de regresie Estimarea parametrilor se realizează prin metoda celor mai mici pătrate (MCMMP), pe baza

valorilor (x,y) observate într-un eşantion de volum „n”. Studiul fenomenelor şi proceselor economico-sociale se face pe baza unui număr mare de date statistice, ce impune folosirea următorului sistem de ecuaŃii normale ale dreptei celor mai mici pătrate:

na + bΣxi = Σyi aΣxi + bΣx2

i = Σxiyi Astfel, cu ajutorul determinanŃilor sau cu orice altă metodă se calculează cei doi parametri.

∑ ∑−

∑ ∑∑ ∑ −=

∆∆=

2i

2i

iiii2i

)x(xn

yxxyx

p

aa

∑ ∑−

∑ ∑∑ −=

∆∆=

2i

2i

iiii

)x(xn

yxyxn

p

bb , unde: ∆a, b, p =determinantul lui a, b şi principal.

Cu valorile coeficienŃilor a şi b se calculează valoarea ecuaŃiei de regresie, pentru fiecare mărime

a lui x. Valorile ecuaŃiei de regresie se mai numesc şi valori teoretice ale caracteristicii y în funcŃie de x, iar operaŃia de înlocuire a termenilor reali (y) cu valorile ecuaŃiei de regresie, se numeşte ajustare ( bxayx += ).

• CorelaŃia liniar ă simplă Scopul analizei de corelaŃie este să măsoare gradul, intensitatea legăturii dintre cele două variabile

(x, y). Coeficientul de corelaŃie măsoară intensitatea legăturii dintre cele două variabile (x,y) şi se

calculează ca o medie aritmetică a produsului abaterilor normale normate a celor două variabile.

Page 3: Analiza Statistica a Seriilor Multidimensionale

( )( )yx

xy n

yyxxr

σσ∑ −−= , iar în practică se foloseşte următoarea relaŃie:

( )[ ] ( )[ ]∑ ∑−∑ ∑−

∑ ∑ ∑−=2222

xyyynxxn

yxxynr

Coeficientul xyr ia valori în intervalul (-1,1), arătând intensitatea şi direcŃia legăturii.

ObservaŃie: Coeficientul xyr se calculează doar pentru legăturile liniare.

• Raportul de corelaŃie Este un indicator al intensităŃii legăturii ce poate fi aplicat, atât în cazul regresiei liniare, cât şi în

cazul regresiei neliniare. Pentru un număr mic de date negrupate prezentate ca serii paralele

independente raportul de corelaŃie se determină: ( )( )∑ −

∑ −−=2

2x

xyyy

yy1R , unde:

xy = valorile ajustate ale lui y, în funcŃia de regresie y = media caracteristicii y. Raportul de corelaŃie ia valori în intervalul (0, 1), Rxy = 0 – variabilele sunt independente astfel: Rxy → 0 – legătură slabă Rxy → 1 – legătură puternică Deşi Rxy ia valori în intervalul (0,1) semnul pentru Rxy, se stabileşte în concordanŃă cu semnul

coeficientului „b” din funcŃia de regresie. ObservaŃie: Se calculează în cazul oricărui tip de legături. În cazul legăturii liniare Rxy = rxy. Dacă cei doi nu sunt

egali, înseamnă că legătura nu este liniară şi trebuie determinat raportul de corelaŃie.

5.3.3. Metode neparametrice de măsurare a intensităŃii legăturilor dintre fenomene

Metodele neparametrice se folosesc dacă variabilele se exprimă prin cuvinte, sau o variabilă este calitativă şi alta cantitativă, sau ambele sunt cantitative, dar nu există suficiente date pentru a se cunoaşte forma distribuŃiei.

Dintre metodele neparametrice amintim: Coeficientul de asociere. Presupune întocmirea unui tabel de asociere, care prezintă colectivitatea după două caracteristici

corelate logic, sau de forma carac-teristicilor alternative, cu două posibilităŃi.

Tabelul de asociere a variabilelor (x,y): x\y Y1 Y2 TOTAL X1 a b a+b X2 c d c+d

TOTAL a+c b+d n

Coeficientul de asociere măsoară intensitatea legăturii a două caracteristici liniare şi se deduce din tabelul de asociere pe criteriul dependenŃă/independenŃă, cu formula propusă de YULLE:

Page 4: Analiza Statistica a Seriilor Multidimensionale

[ ]1,1)bcad(

)bcad(Q −∈

+−=

• CoeficienŃii de corelaŃie ai rangurilor Presupun că valorile caracteristicilor sunt înlocuite cu numere de ordine (ranguri) ale acestor valori

după ce au fost ordonate într-o serie crescătoare sau descrescătoare. Măsurarea intensităŃii legăturii se realizează utilizând aceste ranguri. Dintre coeficienŃii utilizaŃi, amintim:

– Coeficientul de corelaŃie a lui SPEARMAN:

]1,1[)1n(n

d61r

2

2i

s −∈−

−= ∑,

unde: • di = Rx – Ry – diferenŃa dintre rangul lui x şi rangul lui y; • d2 – diferenŃa de rang se ridică la pătrat; • n – numărul de valori pe perechi (x, y).

Cu cât sr →+/- 1, cu atât legătura este mai puternică.

– Coeficientul de corelaŃie KENDALL Se calculează astfel:

– se ordonează crescător sau descrescător perechile de valori (x, y) după caracteristica x;

– se stabilesc rangurile celor două caracteristici (Rx şi Ry); – pentru fiecare rang a lui y, Ry se calculează:

• Pi – număr de ranguri superioare ale lui Ry şi • Qi – număr de ranguri inferioare ale lui Ry şi se calculează • scorul S = ΣPi – ΣQi.

Coeficientul KENDALL se determină: ]1,1[)1n(n

S2rk −∈

−=

Cu cât sr →+/- 1, cu atât legătura este mai puternică.