12
ANALIZA PRELIMINARĂ A DATELOR STATISTICE ANALIZA PRELIMINARĂ A DATELOR STATISTICE...........................................................................................1 Concepte fundamentale ale analizei datelor ..................................................................................................................1 Densitate de probabilitate și funcție de repartiție ..........................................................................................................2 Indicatori ai variabilelor aleatoare .................................................................................................................................2 Distribuții empirice ........................................................................................................................................................4 Teste de concordanță .....................................................................................................................................................4 Testul χ2 ....................................................................................................................................................................5 Testul Smirnov-Kolmogorov .....................................................................................................................................5 Relația dintre două variabile cantitative ........................................................................................................................5 Legătura liniară simplă ..............................................................................................................................................5 Interpretarea geometrică a coeficientului de corelație ...............................................................................................6 Descrierea unei variabile calitative ................................................................................................................................7 Legătura dintre două variabile calitative....................................................................................................................7 Testul de independență χ2 .........................................................................................................................................8 Descrierea indivizilor ....................................................................................................................................................8 Măsuri de asemănare .....................................................................................................................................................9 Tabele de date .............................................................................................................................................................. 10 Schimbarea de variabilă............................................................................................................................................... 12 Concepte fundamentale ale analizei datelor Populaţie şi eşantion. Populația sau colectivitatea generală este reprezentată de mulțimea tuturor măsurătorilor care reprezintă interes pentru cercetător sau experimentator. Atribut sau caracteristică. Reprezintă trăsăturile, proprietățile unităților din care este alcătuită populația. Variabila. Variabila este un concept abstract care permite atribuirea de valori, numerice sau nenumerice, unui atribut sau caracteristici. Ea trebuie să fie înzestrată cu o sintaxă univocă şi o semantică precisă. Variabilele pot fi de două tipuri: variabile calitative şi variabile cantitative. Variabilele calitative sunt variabile ce diferă prin tip, se referă la proprietăți nenumerice ale unităților elementare aparținând unei populații şi nu pot fi exprimate numeric. Valorile variabilelor calitative sunt numite modalități. Variabilele cantitative sunt variabile care diferă prin mărime, se referă la proprietăți numerice ale unităților elementare dintr-o populație și sunt exprimate în unități numerice. În funcție de natura valorilor pe care le iau, variabilele se împart în două categorii: variabile de tip discret şi variabile de tip continuu. Variabile Variabile calitative Variabile cantitative Nominale Ordinale Continue Discrete Asocierea valorilor la variabile se face în urma procesului de măsurare. Măsurarea se face prin intermediul unor repere și sisteme de referință cunoscute sub denumirea de scală. Scala nominală este asociată variabilelor calitative de tip nominal. Scala ordinală este asociată variabilelor calitative de tip ordinal. Scale metrice: scala interval , scala raport.

ANALIZA PRELIMINARĂ A DATELOR STATISTICEip.ase.ro/AnalizaPreliminara.pdfConcepte fundamentale ale analizei datelor Populaţie şi eşantion. Populația sau colectivitatea generală

  • Upload
    others

  • View
    17

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ANALIZA PRELIMINARĂ A DATELOR STATISTICEip.ase.ro/AnalizaPreliminara.pdfConcepte fundamentale ale analizei datelor Populaţie şi eşantion. Populația sau colectivitatea generală

ANALIZA PRELIMINARĂ A DATELOR STATISTICE

ANALIZA PRELIMINARĂ A DATELOR STATISTICE ........................................................................................... 1

Concepte fundamentale ale analizei datelor .................................................................................................................. 1

Densitate de probabilitate și funcție de repartiție .......................................................................................................... 2

Indicatori ai variabilelor aleatoare ................................................................................................................................. 2

Distribuții empirice ........................................................................................................................................................ 4

Teste de concordanță ..................................................................................................................................................... 4

Testul χ2 .................................................................................................................................................................... 5

Testul Smirnov-Kolmogorov ..................................................................................................................................... 5

Relația dintre două variabile cantitative ........................................................................................................................ 5

Legătura liniară simplă .............................................................................................................................................. 5

Interpretarea geometrică a coeficientului de corelație ............................................................................................... 6

Descrierea unei variabile calitative ................................................................................................................................ 7

Legătura dintre două variabile calitative.................................................................................................................... 7

Testul de independență χ2 ......................................................................................................................................... 8

Descrierea indivizilor .................................................................................................................................................... 8

Măsuri de asemănare ..................................................................................................................................................... 9

Tabele de date .............................................................................................................................................................. 10

Schimbarea de variabilă ............................................................................................................................................... 12

Concepte fundamentale ale analizei datelor

Populaţie şi eşantion. Populația sau colectivitatea generală este reprezentată de mulțimea tuturor

măsurătorilor care reprezintă interes pentru cercetător sau experimentator.

Atribut sau caracteristică. Reprezintă trăsăturile, proprietățile unităților din care este alcătuită populația.

Variabila. Variabila este un concept abstract care permite atribuirea de valori, numerice sau nenumerice,

unui atribut sau caracteristici. Ea trebuie să fie înzestrată cu o sintaxă univocă şi o semantică precisă.

Variabilele pot fi de două tipuri: variabile calitative şi variabile cantitative.

Variabilele calitative sunt variabile ce diferă prin tip, se referă la proprietăți nenumerice ale unităților

elementare aparținând unei populații şi nu pot fi exprimate numeric. Valorile variabilelor calitative sunt numite

modalități.

Variabilele cantitative sunt variabile care diferă prin mărime, se referă la proprietăți numerice ale unităților

elementare dintr-o populație și sunt exprimate în unități numerice. În funcție de natura valorilor pe care le iau,

variabilele se împart în două categorii: variabile de tip discret şi variabile de tip continuu. Variabile

Variabile calitative Variabile cantitative

Nominale Ordinale Continue Discrete

Asocierea valorilor la variabile se face în urma procesului de măsurare. Măsurarea se face prin intermediul

unor repere și sisteme de referință cunoscute sub denumirea de scală. Scala nominală este asociată variabilelor

calitative de tip nominal. Scala ordinală este asociată variabilelor calitative de tip ordinal. Scale metrice: scala

interval , scala raport.

Page 2: ANALIZA PRELIMINARĂ A DATELOR STATISTICEip.ase.ro/AnalizaPreliminara.pdfConcepte fundamentale ale analizei datelor Populaţie şi eşantion. Populația sau colectivitatea generală

Densitate de probabilitate și funcție de repartiție Densitatea de probabilitate măsoară posibilitatea ca o variabilă să ia o anumită valoare. Este deci o funcție

definită pe mulțimea de valori posibile ale variabilei cu valori în intervalul [0,1]:

f(x) = P(X=x),

unde X este variabila iar x este o valoare pe care o poate lua.

Exemplu. Să presupunem că avem o variabilă reprezentând talia (înălțimea) unor subiecți umani, exprimată

în centimetrii. Probabilitatea ca variabila să ia valoarea 175 este:

P(X = 175) = f(175)

și exprimă probabilitatea ca un individ să aibă 175 cm înălțime.

Densitatea de probabilitate ca funcție analitică, poate diferite forme particulare, specifice. Diferențele sunt

de natura domeniului de definiție și al valorilor parametrilor determinate de forma analitica a funcției. De exemplu,

chiar dacă avem un același domeniu de definiție, să zicem, subiecți umani (persoane), densitatea de probabilitatea a

unei variabile talia va avea formă diferită de variabila venit anual.

Exemple de densitate de probabilitate: Gaussiană (normală), uniformă, Poisson etc.

Funcția de repartiție reprezintă probabilitatea ca o variabilă aleatoare să ia valori dintr-un anumit interval:

F(x) = P(X ≤ x)=

x

dyyf )( .

Din punct de vedere geometric F(x) este aria de sub curba densității de probabilitate:

Indicatori ai variabilelor aleatoare

Există trei grupe de indicatori:

- indicatori de poziție: media, momentul simplu, mediana, percentilele, cuartilele și modulul;

- indicatori de împrăștiere: amplitudinea, varianța, abaterea medie absolută, abaterea standard și coeficientul de

variație, momentele centrate;

- indicatori de formă a repartiției: simetria și aplatizarea.

Media.

Cazul discret:

Rx

xfxXE )( ,

unde f(x) este probabilitatea ca variabila să ia valoarea x (densitatea de probabilitate).

Pentru o repartiție uniformă cu n subiecți:

n

i

ixn

xXE1

1)( .

Cazul continuu:

R

dxxfxXE )()( .

Momentul simplu de ordin k

Cazul discret:

Rx

kk

k xfxXEM .

Page 3: ANALIZA PRELIMINARĂ A DATELOR STATISTICEip.ase.ro/AnalizaPreliminara.pdfConcepte fundamentale ale analizei datelor Populaţie şi eşantion. Populația sau colectivitatea generală

Pentru o distribuție uniformă

Rx

k

k xn

M1

.

Cazul continuu: R

k

k dxxfxMXE )()( 2.

Se poate observa că momentul de ordin 1 este media.

Mediana este acea valoare care împarte setul de valori posibile in două: 50% valori mai mici și 50% valori mai mari.

Deci:

P(X≤xme)=0.5

unde xme este mediana.

Percentila de ordinul p este acea valoare care are proprietatea că cel mult p% dintre valorile seriei sunt mai mici decât

ea și cel mult (100-p)% dintre valori sunt mai mari.

Să presupunem că avem seria Yi, i=1,n. Notăm cu Y[k] elementul de rang k al seriei (cel care are k-1 elemente mai

mici). Dacă notăm cu y(p) percentila de ordin p, aceasta se calculează astfel:

y(p) = Y[k] + d ·(Y[k+1]-Y[k]),

unde:

k este parte întreagă din p·(n+1)/100 și reprezintă numărul valorilor din serie mai mici decât percentila de ordin p, iar

d reprezintă p·(n+1)/100-k (partea zecimală a numărului real p·(n+1)/100 ) și reflectă distanța procentuală la care se

află percentila de elementul Y[k]. Valoarea d locul unde se află percentila față de valorile din jurul ei.

Exemplu.

Y = (25,10,1,1200,1010).

Căutăm percentila de ordin 61.

Prin sortarea crescătoare a lui Y obținem:

Y = (1,10,25,1010,1200).

p·(n+1) = 61*6/100=3.66

Rezultă: k = 3, d = 0.66.

y(61) = Y3+d(Y4-Y3) = 25 + 0.66·(1010-25) = 675.1

Cuartila inferioară, notată cu Q1, este percentila de ordinul 25.

Cuartila de mijloc, notată cu Q2, este percentila de prdinul 50.

Cuartila superioară, notată cu Q3, este percentila de ordinul 75.

Indicatorul interquartile este diferența dintre cuartila superioară și cea inferioară.

Modulul este valoarea cea mai probabilă. În mod uzual modulul se determină ca valoarea cu frecvența cea mai mare.

Amplitudinea reprezintă diferența dintre valoarea cea mai mare și valoarea cea mai mică a unei variabile aleatoare:

A = Xmax - Xmin.

Abaterea medie absolută caracterizează împrăștierea valorilor unei variabile aleatoare:

d =

Rx

xfx )( , pentru cazul discret,

d = R

dxxfx )( , pentru cazul continuu.

Pentru o repartiție uniformă, cu f(x) = n

1, unde n reprezintă numărul valorilor posibile,

d =

n

i

ixn 1

1 .

Varianța caracterizează cel mai bine împrăștierea valorilor unei variabile aleatoare. Așa cum sugerează și numele,

este o măsură a variabilității valorilor posibile luate de variabilă:

Rx

xfx )(22 , dxxfx

R

)(22 ,

n

i

ixn 1

22 1

Pentru comparabilitate cu valorile variabilei aleatoare, din punct de vedere al unităților de măsură, se utilizează

abaterea medie pătratică sau abaterea standard: 2 .

Page 4: ANALIZA PRELIMINARĂ A DATELOR STATISTICEip.ase.ro/AnalizaPreliminara.pdfConcepte fundamentale ale analizei datelor Populaţie şi eşantion. Populația sau colectivitatea generală

Coeficientul de variație se calculează ca raport între abaterea standard și media variabilei:

vC . Prin natura

calculului, coeficientul de variație este standardizat, nedepinzând de unitățile de măsură ale variabilelor. O variabilă

este cu atât mai omogenă cu cât coeficientul de variație este mai apropiat de 0.

Momentele centrate de ordin k au în plus față de momentele simple, diferența față de medie, astfel:

Rx

k

kk xfxMCXMC )( - pentru cazul discret;

R

k

kk dxxfxMCXMC )()( - pentru cazul continuu.

Momentul centrat de ordin doi este varianța.

Asimetria măsoară gradul în care valorile sunt distribuite de o parte sau de alta a valorii centrale:

3

3

MCS

Cu cât valoarea lui S este mai apropiată de 0 cu atât distribuția este mai simetrică. Valorile negative indică asimetrie

stânga în timp ce valorile pozitive indică asimetrie dreapta.

Aplatizarea:

4

4

MCK sau 3

4

4

MCK

Cu cât valoarea lui K este mai apropiată de 0 cu atât distribuția va fi mai aplatizată. A doua formulă are ca punct de

referință repartiția normală. Astfel, repartițiile mai aplatizate au valori negative pentru K.

Distribuții empirice

Indicatorii prezentați se referă la nivelul întregii populații studiate. În majoritatea situațiilor, comportamentul

unei variabile aleatoare la nivelul întregii populații nu poate fi studiat din cauza problemelor de obținere completă a

informațiilor. Studiul efectiv al comportamentului unei variabile se face pe mulțimea observațiilor aparținând unor

eșantioane ale colectivității generale. Eșantionul este fomat din mulțimea observațiilor {x1, x2, ..., xT} unde T reprezintă

volumul eșantionului. Prin distribuție empirică se înțelege mulțimea valorilor observate aparținând eșantionului.

În cadrul unui eșantion densitatea de probabilitate are forma: T

XTf1

)( și se numește densitatea de probabilitate

empirică. Prin urmare, media și varianța acestei distribuții sunt:

T

i

ixT

x

1

1,

T

i

xixT

1

212 sau

T

i

xixT

1

2

1

12 pentru T-1 grade de libertate.

Teste de concordanță Un test de concordanță este o ipoteză statistică, o presupunere cu privire la caracteristicile unei repartiții,

existența unei legi de repartiție. Ca în orice test statistic sunt definite două alternative:

- ipoteza nulă sau H0 constând în afirmația făcută;

- ipoteza alternativă sau H1 care constă în non-afirmație.

Un test statistic este o procedură specifică în urma căreia se trage o concluzie logică privind afirmația din ipoteza nulă:

este adevărată sau falsă. Această procedură este una probabilistică. Testul are asociat un grad de încredere. În cazul

testelor de concordanță este verificată ipoteza că o distribuție empirică este distribuită după o lege de probabilitate

specificată, sau că două distribuții empirice urmăresc aceeași lege. Utilizarea clasică este cea legată de “concordanţa”

dintre modelul empiric şi modelul teoretic considerat adecvat pentru populația din care provin datele statistice. În orice

test sunt calculate două mărimi:

- valoarea calculată a testului sau valoarea critică,

- valoarea efectivă a testului sau statistica testului.

Valoarea critică depinde de gradul în care sunt acceptate valori marginale, caracterizate prin densități mici de

probabilitate. Acesta este pragul de semnificație și reflectă zona de respingere a ipotezei nule. Complementar, gradul

de încredere reflectă zona de acceptare. Dacă valoarea efectivă este mai mică sau egală decât valoarea critică, ipoteza

H0 este acceptată, altfel este respinsă.

Page 5: ANALIZA PRELIMINARĂ A DATELOR STATISTICEip.ase.ro/AnalizaPreliminara.pdfConcepte fundamentale ale analizei datelor Populaţie şi eşantion. Populația sau colectivitatea generală

Metodele de analiză a datelor adeseori fac presupuneri cu privire la distribuții, prepuneri care trebuie verificate. Din

multitudinea de teste de concordanță, două se detașează ca frecvență de utilizare: testul χ2 și testul Smirnov-

Kolmogorov.

Testul χ2

Testul χ2 este un test general, care poate fi aplicat oricărei distribuții empirice căreia putem sa îi calculăm

funcția de repartiție. Testul χ2 se aplică datelor grupate (sau datelor de frecvență). Algoritmic, testul se aplică astfel:

1. Fie distribuția empirică X = {x1, x2, ..., xT}. Vor fi împărțite observațiile în m grupe și se vor determina frecvențele

absolute ale grupelor:

fai, i = 1,m

2. Se calculează frecvențele medii estimate prin funcția de repartiție testată:

fei = T·(F(li+1)-F(li)), i = 1, m,

unde F este funcția de repartiție testată iar li, i =1,m+1 sunt limitele grupelor

3. Se calculează valoarea efectivă a testului sau statistica testului:

m

iife

ifeifa

Calculat1

22

4. Se determină valoarea critică a testului 2Critic

(α ;m − c +1)

unde:

- α este nivelul (pragul) de semnificație al testului;

- c este numărul de parametri ai distribuției F (distribuția normală-gaussiană are doi parametrii, media și abaterea

standard);

- m−c+1 numărul de grade de libertate ale distribuției χ2.

Această valoare se calculează aplicând funcția de repartiție a distribuției χ2 pentru parametrii specificați.

5. Sunt testate ipotezele:

H0 - distribuția X urmează legea de repartiție F

H1 - distribuția X nu urmează legea de repartiție F

Decizia asupra acceptării sau respingerii ipotezei H0 se ia astfel:

dacă 22CriticCalculat

atunci se acceptă ipoteza nulă, respectiv datele provin din distribuția testată

altfel se respinge ipoteza nulă, respectiv datele nu provin din distribuția testată.

Testul Smirnov-Kolmogorov

Este utilizat pentru testarea ipotezei de normalitate. Etapele algoritmului:

1. Fie distribuția empirică X = {x1, x2, ..., xT}. Se calculează media distribuției și abaterea standard, μ și σ.

2. Se ordonează crescător valorile eșantionului şi se obţine eşantionul ordonat:

x(1), x(2), ..., x(T)

3. Se calculează funcția de repartiție normală pentru valorile ordonate:

F(x(1)), F(x(2)), ... , F(x(T))

4. Se calculează funcția de repartiție empirică:

Fe(x(j)) = T

j, j=1,T, deoarece densitatea de probabilitate pentru repartiția empirică este

T

1

4. Se calculează valoarea efectivă a testului sau statistica testului:

D = )()( jxFjxFe

jMax

5. Se determină valoarea critică a testului, d1-α,T, unde 1-α este gradul de încredere

6. Se ia decizia astfel:

-dacă D≤ d1-α,T se acceptă ipoteza normalității cu un grad de încredere 1-α

- dacă D> d1-α,T se respinge ipoteza normalității cu un grad de încredere 1-α

Relația dintre două variabile cantitative

Legătura liniară simplă

Dacă se notează cu X şi cu Y două variabile cantitative şi cu xi şi y

i valorile luate de variabile pentru individul

i, legătura liniară simplă dintre cele două variabile este dată de relaţia:

yi = ax

i +b + e

i, i =1,n

Page 6: ANALIZA PRELIMINARĂ A DATELOR STATISTICEip.ase.ro/AnalizaPreliminara.pdfConcepte fundamentale ale analizei datelor Populaţie şi eşantion. Populația sau colectivitatea generală

unde ei este un termen rezidual.

Problema care se pune este de a măsura intensitatea legăturii dintre cele două variabile deoarece legătura nu

este de regulă absolută. De exemplu, dacă urmărim variabilele greutate şi talie la un grup de persoane vom observa

că ele variază în general împreună şi în același sens. Există însă situații în care indivizi cu talie mai mică pot avea

greutăți mai mari decât indivizi cu talie mai mare.

Relația dintre variabilele X şi Y va fi cu atât mai intensă cu cât valorile reziduale ei vor fi mai mici. Din punct

de vedere matematic vom determina parametrii a şi b astfel încât

n

i

ie

1

2să fie minimă.

Soluția acestei probleme obținută aplicând regula celor mai mici pătrate este:

)(

))((1

1

xayb

XVar

yyxxn

a

n

i

ii

Dacă se notează covarianța dintre cele două variabile cu Cov(X,Y) =

n

i

ii yyxxn

1

))((1

rezultă:

xayb

XVar

YXCova

)(

),(

.

Fluctuațiile variabilei Y măsurate prin variantă, Var(y) reprezintă varianța totală. Fluctuațiile valorilor

calculate pentru Y, care depind de X, sunt măsurate prin varianța Var(ax+b) și reprezintă varianța explicată.

Fluctuațiile valorilor reziduale , Var(e), reprezintă varianța reziduală. Relația dintre cele trei varianțe este următoarea:

Varianța totală = Varianța explicată + Varianța reziduală

Var(y) = Var(ax+b) + Var(e)

Var(y) =

n

i

i yyn

1

2)(1

Deoarece, yi = ax

i +b +e

i si b = xay , rezultă: iii exxayy )( . Înlocuind în relația varianței se

obține: Var(y) = 1

𝑛∑ (𝑎(𝑥𝑖 − 𝑥) + 𝑒𝑖)

2𝑛𝑖=1 =

1

𝑛∑ (𝑎2(𝑥𝑖 − 𝑥)2 − 2𝑎(𝑥𝑖 − 𝑥)𝑒𝑖 + 𝑒𝑖

2)𝑛𝑖=1 .

)()()()( 22

1

2

baxVaraxVarxVaraxxn

ai

n

i

)),(),((2

),(2),(2

1

)(2

baxxCovyxCova

baxyxaCovexaCov

n

i

iexixn

a

=2a(Cov(x,y) – a Cov(x,x)) = 2a ( Cov(x, y) - ))()(

),(xVar

xVar

yxCov= 0.

)(1

1

2 eVaren

n

i

i

Deci Var(y) = Var(ax+b) +Var(e)

Se măsoară intensitatea legăturii dintre X şi Y prin raportul dintre varianţa explicată şi varianţa totală. Acest

raport , numit raport de corelație (sau coeficient de determinare) este notat R2(x,y):

)()(

),(

)(

)(

)(

)(),(

222

yVarxVar

yxCov

yVar

xVara

yVar

baxVaryxR

.

Rădăcina din R2 este numit coeficient de corelație liniară și este:

R = yx

yxCov

),(.

Interpretarea geometrică a coeficientului de corelație

O variabilă X luând n valori poate fi reprezentată printr-un vector în spațiul Rn, numit și spațiul variabilelor.

În spaţiul Rn produsul scalar simplu dintre doi vectori X şi Y de coordonate (x

1,...,x

n) şi (y

1,...,y

n) este:

Page 7: ANALIZA PRELIMINARĂ A DATELOR STATISTICEip.ase.ro/AnalizaPreliminara.pdfConcepte fundamentale ale analizei datelor Populaţie şi eşantion. Populația sau colectivitatea generală

<x,y> =

n

i

ii yx

1

iar normele celor doi vectori sunt :

n

i

ixxxx1

2, .

n

i

iyy1

2 .

Cosinusul unghiului dintre cei doi vectori este :

yx

yxyxCos

,),( =

n

i

i

n

i

i

n

i

ii

yx

yx

1

2

1

2

1 =

n

i

i

n

i

i

n

i

ii

yn

xn

yxn

1

2

1

2

1

11

1

.

Dacă se consideră vectorii X şi Y două variabile centrate, din relaţia anterioară obţinem:

Cos(X,Y ) =

YX

YXCov

),(= R(X,Y )

Unghiul G

X

Y

Cos(G) = R(X,Y)

Când coeficientul de corelaţie este egal cu 1 cei doi vectori sunt coliniari. Absenţa corelaţiei se traduce printr-o valoare

nulă pentru R, deci între cei doi vectori este un unghi de 90 de grade.

Descrierea unei variabile calitative Principalii indicatori care sunt calculați pentru variabilele calitative sunt:

- frecvența absolută care reprezintă numărul de indivizi la care se înregistrează o anumită modalitate

- frecvența relativă care reprezintă frecvența absolută raportată la numărul de indivizi.

Legătura dintre două variabile calitative

Fie două distribuții X = {x1, x2, ... , xT} și Y = {y1, y2, ... , yT}. Variabila X are p modalități iar variabila Y, q modalități.

Frecvențele încrucișate sunt memorate în tabelul N:

pqpp

q

q

nnn

nnn

nnn

N

...

...

...

...

21

22221

11211

. Un element oarecare, nij, reprezintă numărul de instanțe la care variabila X are

modalitatea i iar variabila Y are modalitatea j. Frecvențele cumulate pe linii și coloană sunt definite astfel:

pinnq

j

iji ,1 ,1

- numărul de instanțe la care se întâlnește modalitatea i pentru variabila X;

qjnnp

i

ijj ,1 ,1

- numărul de instanțe la care se întâlnește modalitatea j pentru variabila Y.

Page 8: ANALIZA PRELIMINARĂ A DATELOR STATISTICEip.ase.ro/AnalizaPreliminara.pdfConcepte fundamentale ale analizei datelor Populaţie şi eşantion. Populația sau colectivitatea generală

Testul de independență χ2

Testul χ2 este utilizat pentru a stabili dacă există o legătură între cele două variabile calitative (nominale). Ipoteza nulă

specifică faptul că nu există o relație între cele două variabile, adică:

H0: Cele două variabile sunt independente

H1: Cele două variabile sunt dependente

Pașii aplicării testului sunt:

1. Se calculează frecvențele medii estimate:

neij = T

nn ji , i =1,p, j = 1,q

2. Se calculează statistica testului:

p

i

q

j ij

ijij

Calculatne

nen

1 1

2

2

3. Se calculează valoarea critică a testului: );(2 rCritic unde α este pragul de semnificație al testului iar r este numărul

gradelor de libertate, în acest caz r = (p-1)·(q-1).

4. Decizia asupra acceptării sau respingerii ipotezei H0 se ia astfel:

dacă 2Calculat );(2 rCritic atunci se respinge ipoteza nulă cu un nivel de încredere 1-α, deci cele două variabile se

influențează reciproc.

În cele mai multe situații se utilizează frecvențe relative. Acestea se determină prin raportarea frecvențelor absolute la

numărul de instanțe. Frecvențele relative se memorează într-un tabel

pqpp

q

q

fff

fff

fff

F

...

...

...

...

21

22221

11211

.

Statistica testului se va calcula astfel:

p

i

q

j ji

jiij

Calculatff

fffT

1 1

2

2 ,

unde T

nf

T

nf

T

nf

j

ji

i

ij

ij

, , .

Descrierea indivizilor

Un individ este descris prin mulțimea de valori luate de un grup de variabile pentru individul respectiv.

Se notează cu X matricea valorilor luate de n instanțe (indivizi) pentru m variabile:

nmnn

m

m

xxx

xxx

xxx

X

...

......

...

...

21

22221

11211

Fiecărui individ i se asociază o pondere, ip , i=1,n. Suma ponderilor este 1. Dacă indivizilor li se asociază aceeași

pondere atunci n

pi

1 .

Mulțimea punctelor date de cei n indivizi care formează colectivitatea studiată corespunde unui nor de puncte

m-dimensionale (m fiind numărul variabilelor).

Se poate defini baricentrul punctelor sau centrul de greutate al norului , vectorul mediilor aritmetice ale celor

m variabile care descriu colectivitatea:

Page 9: ANALIZA PRELIMINARĂ A DATELOR STATISTICEip.ase.ro/AnalizaPreliminara.pdfConcepte fundamentale ale analizei datelor Populaţie şi eşantion. Populația sau colectivitatea generală

n

i

imi

n

i

iin

i

im

i

i

n

i

ii

xp

xp

x

x

pwpg

1

1

1

1

1

1

...... ,

unde

im

i

i

x

x

w ...

1

este vectorul coloană reprezentând valorile luate de cele m variabile pentru individul i.

Vom numi inerţie totală a norului de puncte , media ponderată a pătratelor distanțelor punctelor față de

centrul de greutate:

)()(1

gwMgwpI i

tn

i

iig

, unde (wi-g)

t este un vector linie, transpusul vectorului coloană w

i-g, iar

M este metrica utilizată (tipul de distanță).

Inerția norului în raport cu un punct oarecare din spaţiu, h, este:

)()(1

hwMhwpI i

tn

i

iih

.

Relația dintre cele doua valori ale inerţiei este:

)()( hgMhgII tgh . (Relaţia lui Huygens)

Inerția în raport cu centrul de greutate este minimă.

Măsuri de asemănare Se numește măsură de asemănare (similaritate/disimilaritate) orice aplicație cu valori numerice care permite

să se exprime o legătură între indivizi, sau între variabile. Dacă se notează cu mulțimea indivizilor sau variabilelor,

un indice de similaritate pe mulțimea este o aplicație s care verifică următoarele trei proprietăți:

1. s este o aplicație a lui în R+;

2. s este simetrică: (w,w') : s(w,w') = s(w',w);

3. (w,w' ) cu w w' : s(w,w) = s(w',w') > s(w,w').

Un indice de disimilaritate este o aplicație s' care satisface primele două condiții din definiția indicelui de

similaritate, iar condiţia 3 este înlocuită prin cerinţa ca:

3'. w: s'(w,w) = 0.

O distanţă, notată cu d2, este un indice de disimilaritate care verifică în plus următoarele două proprietăți:

4. d 2(w,w') = 0 w = w';

5. d 2

(w,w') d 2(w,w'' ) + d

2(w'',w'), w,w',w'' - inegalitatea triunghiului.

Dacă luam în considerare doi indivizi din tabelul de observații

im

i

i

x

x

w ...

1

şi

km

k

k

x

x

w ...

1

, (m este numărul de

variabile) distanța dintre cei doi indivizi se poate defini sub forma:

d 2(w

i,wk) = ki

t

ki wwQww )(

unde Q este o matrice simetrică pozitiv definită numită metrică.

Mai des utilizate sunt următoarele tipuri de distanțe:

1. Distanţa euclidiană simplă. Q este matricea unitate.

2. Distanţa lui Mahalanobis, aplicată în analiza discriminantă, unde Q reprezintă matricea de covarianţă.

V =

),(),(),(

...

),(...),(),(

),(...),(),(

21

22212

12111

mmmm

m

m

XXCovXXCovXXCov

XXCovXXCovXXCov

XXCovXXCovXXCov

,

Page 10: ANALIZA PRELIMINARĂ A DATELOR STATISTICEip.ase.ro/AnalizaPreliminara.pdfConcepte fundamentale ale analizei datelor Populaţie şi eşantion. Populația sau colectivitatea generală

unde Xj =

nj

j

x

x

...

1

sunt înregistrările pentru variabila j la cei n indivizi.

3. Distanţa 2 este în mod particular bine adaptată tabelelor de frecvenţe. Se aplică în analiza factorială a

corespondenţelor iar Q este o matrice a indicatorilor 2 calculați pentru fiecare pereche de variabile.

Tabele de date Un tabel de date este o matrice care se construiește din ansamblul de indivizi şi variabile.

- Tabelul de observații. Un astfel de tabel se obține atunci când elementele matricei sunt valori numerice

oarecare. Pe linii sunt așezați indivizii iar pe coloane sunt așezate variabilele urmărite. Fie n numărul de instanțe şi m

numărul de variabile. Tabelul de observații este de obicei notat:

X =

nmnn

m

m

xxx

xxx

xxx

...

...

...

...

21

22221

11211

- Tabelul de contingenţă. Pentru date calitative. X şi Y două variabile calitative

Z =

pqpp

q

q

fff

fff

fff

...

...

...

...

21

22221

11211

, cu frecvenţe relative, unde p este numărul de modalități al variabilei X şi q este

numărul de modalităţi al variabilei Y.

O alta formă a tabelului de contingenţă este următoarea:

Z =

pq

p

fqp

f

fp

f

f

Y i variabilea aModalitateX i variabilea aModalitate

.........

Y i variabilea 2 aModalitateX i variabilea 1 aModalitate

Y i variabilea 1 aModalitateX i variabilea aModalitate

.........

Y i variabilea 1 aModalitateX i variabilea 2 aModalitate

Y i variabilea 1 aModalitateX i variabilea 1 aModalitate

12

1

21

11

.

Acest tabel are pq linii şi 3 coloane. Primele două coloane cuprind valori nominale pentru variabilele

calitative iar a treia coloană cuprinde frecvenţele.

- Tabelul disjunctiv complet. Este utilizat pentru variabile calitative.

D =

0...01

...

...100

0...10

. Are n linii şi p coloane.

n – numărul de instanțe

p – numărul de modalități pentru variabila calitativă, X.

DtD este matricea diagonală a frecvenţelor absolute.

Pentru v variabile calitative:

D =

vmmm

0...1...

0

...

0...1...00...1...0

21

Page 11: ANALIZA PRELIMINARĂ A DATELOR STATISTICEip.ase.ro/AnalizaPreliminara.pdfConcepte fundamentale ale analizei datelor Populaţie şi eşantion. Populația sau colectivitatea generală

- Tabelul de preferinţe. Este un tip de tabel pentru variabile calitative, şi exprimă preferinţele unui grup de indivizi

faţă de valorile unei caracteristici. Folosește o scală de tip ordinal. Tabelele de acest tip sunt frecvent utilizate în studii

de marketing. De exemplu, în tabelul următor sunt prezentate preferințele a patru persoane pentru cinci mărci de

parfum:

Persoane

interogate

Mărci de parfumuri

M1 M2 M3 M4 M5

w1 1 2 5 4 3

w2 4 2 3 1 5

w3 5 4 3 1 2

w4 1 2 3 5 4

Preferinţele sunt exprimate prin note de la 1 loa 5.

- Tabelul binar. Este tabelul care nu conţine decât valori 0 sau 1. Este folosit, ca şi tabelul de preferinţe, în

anchete statistice. În exemplul de mai jos se găsesc răspunsurile unor indivizi la întrebarea Citiţi ziarul Z ?.

Indivizi Ziare

Z1 Z2 Z3 Z4

w1 1 0 0 0

w2 1 1 0 0

w3 0 0 1 1

Răspunsurile pot fi Da sau Nu şi sunt codificate cu 1, respectiv 0.

- Tabelul de modalităţi. Atunci când fiecare întrebare a unei anchete statistice presupune mai multe

răspunsuri, ne găsim în faţa unui tabel de modalităţi. Astfel, dacă la întrebarea din exemplul anterior s-ar putea da trei

răspunsuri: Niciodată - răspuns codificat cu valoarea naturală 1, Câteodată - codificat cu 2, Deseori - codificat cu 3,

tabelul de modalităţi asociat ar putea fi următorul:

Indivizi Ziare

Z1 Z2 Z3 Z4

w1 3 2 2 1

w2 3 3 1 1

w3 1 2 3 3

- Tabelul de proximităţi. Atunci când se evaluează asemănările sau diferenţele între fiecare cuplu de indivizi,

se construieşte un tabel de proximităţi. De exemplu, putem considera patru mărci de autoturisme, pe care să le

comparăm unele cu altele. Apropierea dintre o marcă j şi o marcă i poate fi făcută printr-o notă de la 1 la 10, sau

media unor note de la 1 la 10, date, eventual, de un grup de specialişi în domeniu. Se poate observa în Tabelul următor

că se foloseşte o scală de tip raport.

Mărci

autoturisme

Mărci autoturisme

M1 M2 M3 M4

M1 10 4.3 9.3 2.3

M2 4.3 10 7.6 9.3

M3 9.3 7.6 10 3.6

M4 2.3 9.3 3.6 10

- Tabele eterogene. Sunt tabele în care variabilele sunt de diferite tipuri. Un exemplu de tabel eterogen este

următorul:

Produse Variabile

Preţ Punct de lucru Mod de transport

p1 3.5 1 3

p2 4 3 2

p3 10 2 1

Parametrului preţ i s-a asociat o variabilă cantitativă măsurabilă, parametrului Punct de lucru i s-a asociat o

variabilă calitativă ordinală, iar parametrului Mod de transport i s-a asociat tot o variabilă calitativă ordinală.

- Tabele tridimensionale. Pot fi oricare din tipurile de tabele deja prezentate, la care se adaugă o a

treia dimensiune, de exemplu, timpul. Astfel, pentru tabelul eterogen de mai sus, dacă evaluarea se face la unumite

intervale de timp, se obţine un tabel cu trei dimensiuni conform figurii:

Page 12: ANALIZA PRELIMINARĂ A DATELOR STATISTICEip.ase.ro/AnalizaPreliminara.pdfConcepte fundamentale ale analizei datelor Populaţie şi eşantion. Populația sau colectivitatea generală

Evoluţie în

t i m p

Indivizi

Variabile

Schimbarea de variabilă

Necesitate:

a) Când datele sunt grupate în tabele eterogene şi se doreşte exprimarea unei variabile descriptive cu ajutorul alteia,

astfel încât toate variabilele să devină de acelaşi tip.

b) Pentru a putea aplica o anumită metodă de analiză a datelor în situaţia în care aceasta este incompatibilă cu tipul

datelor. De exemplu, prin schimbare de variabilă se poate transforma un tabel de date calitative într-un tabel de

modalităţi, putând astfel aplica într-o manieră mai eficientă analiza factorială a corespondenţelor multiple.

c) Pentru a sintetiza informaţia conţinută într-un tabel de date, reducându-i astfel mărimea. Se poate, de exemplu,

înlocui mulţimea de variabile prin care se descrie o colectivitate printr-o combinaţie liniară de aceste variabile

Modalităţi de schimbare a variabilelor: Schimbarea de variabilă prin standardizare

Schimbarea de variabila prin normalizare

Schimbarea de variabilă prin codificare

Codificarea unei variabile cantitative prin grupare

Gruparea pe efective egale

Gruparea în intervale egale

Gruparea prin minimizarea inerției totale

Codificarea variabilelor calitative

Codificarea cu structură de ordine

Codificarea fără structură de ordine

Codificarea prin rangul mediu

Codificarea disjunctivă completă a variabilelor nominale