37
Verificarea ipotezelor statistice 1 deI.V˘aduva Notat ¸ii si not ¸iuni preliminare Variabila aleatoare: X,Y,U,V,etc., descris˘a de funct ¸ie de repartit ¸ie. Variabila aleatoare este asaociat˘a unei populat ¸ii statistice; valo- rile ei corespund indivizilor populat ¸iei. Funct ¸ie de repartit ¸ie: F (x)= P (X<x).P =Probabilitate. Repartit ¸ie continu˘ a,cˆandexist˘a F (x). Densitate de repartit ¸ie: f (x)= F (x) F (x)= x −∞ f (u)du 0 F (x) 1,F (−∞)=0,F (+)=1, Deci f (x) 0, +−∞ f (u)du =1 a, b R, a < b F (a) F (b) Variabila aleatoare discreta este dat˘a de repartit ¸ia sa X : a 1 , a 2 , ..., a n p 1 , p 2 , ..., p n ,p i = P (X = a i ), 1 i n, n i=1 p i =1. F (x)= a i <x p i ,p i = probabilitati. 1 Conferint ¸˘ a prezentat˘ a la deschiderea seminarului ¸ stiint ¸ific ”Nicolas Georgescu Roe- gen” al Societ˘at ¸ii Romˆane de Econometrie, 4 iulie 2012 1

Verificarea ipotezelor statistice de I.V˘aduva

  • Upload
    dangthu

  • View
    231

  • Download
    3

Embed Size (px)

Citation preview

Page 1: Verificarea ipotezelor statistice de I.V˘aduva

Verificarea ipotezelor statistice1

de I.Vaduva

Notatii si notiuni preliminare

Variabila aleatoare: X,Y,U,V,etc., descrisa de functie de repartitie.Variabila aleatoare este asaociata unei populatii statistice; valo-

rile ei corespund indivizilor populatiei.

Functie de repartitie: F (x) = P (X < x). P =Probabilitate.Repartitie continua, cand exista F ′(x).Densitate de repartitie: f(x) = F ′(x)

F (x) =x∫

−∞f(u)du

0 ≤ F (x) ≤ 1, F (−∞) = 0, F (+∞) = 1,

Deci f(x) ≥ 0,+∞∫−∞

f(u)du = 1

a, b ∈ R, a < b ⇒ F (a) ≤ F (b)

Variabila aleatoare discreta este data de repartitia sa

X :

a1, a2, ..., anp1, p2, ..., pn

, pi = P (X = ai), 1 ≤ i ≤ n,n∑

i=1

pi = 1.

F (x) =∑ai<x

pi, pi = probabilitati.

1Conferinta prezentata la deschiderea seminarului stiintific ”Nicolas Georgescu Roe-gen” al Societatii Romane de Econometrie, 4 iulie 2012

1

Page 2: Verificarea ipotezelor statistice de I.V˘aduva

Nota. n poate fi si ∞.

Definitie. Selectie (Bernoulliana) de volum n asupra vari-abilei aleatoare X este multimea de variabile aleatoare X1, X2, ..., Xnn ∈ N ,independente si identic repartizate ca si X.

Nota. Selectia este rezultatul unor observatii sau masuratoriindependente (stochastic) efectuate asupra a n indivizi din populatie.Daca variebilele aleatoareX, Y au respectiv functiile de repartitieF,G, iar functia lor comuna de repartitie este

H(x, y) = P (X < x, Y < y)

atunci ele sunt independente daca H(x, y) = F (x)G(y).

Valori medii. Momente. Daca consideram functia reala

φ(x) masurabila (!) atunci numim valoare medie a variabileialeatoare φ(X) marimea

E[φ(X)] =∞∫

−∞φ(u)f(u)du

cand integrala exista, iar in cazul discret, daca n = ∞,

E[φ(X)] =∞∑i=1

φ(ai)pi

cand seria este convergenta.

Cazuri particulare:

Momente de ordinul r, r ∈ N :

mr = E[Xr] =∞∫

−∞xrf(x)dx, in cazul continuu

2

Page 3: Verificarea ipotezelor statistice de I.V˘aduva

mr = E[Xr] =∞∑i=1

aripr, in cazul discret.

m1 = E[X] = (notat) = m se numeste medie sau valoare medie

a lui X.

Momente centrate de ordinul r, r ∈ N :

µr = E[(X −m)r]

Momentul centrat de ordinul al doilea se numeste dispersiesau varianta si se noteaza

σ2 = µ2 = V ar(X)

iar σ =√σ2 se numeste abatere medie patratica sau abatere

standard sau deviatie standard.

Inegalitatea lui Cebysheff. Daca esista momentele de or-dinul 1 si 2, atunci are loc inegalitatea

P (|X −m| ≤ tσ) ≥ 1− 1

t2, ∀t ∈ R+.

Nota. Aceasta inegalitate permite determinarea unui intervalde concentratie al valorilor variabilei aleatoare X. De ex. dacat = 4, atunci in intervalul (m− 4σ,m+4σ) se gasesc peste 94%din valorile variabilei aleatoare X.

Cazul multidimensional.

Vector aleator: X = (X1, X2, ..., Xk)′=vector coloana de

dimensiune k.

3

Page 4: Verificarea ipotezelor statistice de I.V˘aduva

Functie de repartitie:

F (x) = F (x1, x2, ..., Xk) = P (X1 < x1, ..., Xk < xk)

Densitate de repartitie (cazul continuu) cand ea exista:

f(x) = f(x1, x2, ..., xk) =∂kF (x1, ..., xk)

∂x1...∂xk

Proprietati:

F (−∞, ...,−∞) = 0, F ((∞....,∞) = 1, 0 ≤ F (x1, ..., xk) ≤ 1

∀i,−∞ < ai < bi < ∞ ⇒ F (x1, ..., ai, ..., xk) ≤ F (x1, ..., bi, ..., Xk)

(adica monotonia crescatoare pe componente).

Proprietati ale densitatii de repartitie:

f(x) ≥ 0,∫Rk

f(u)du = 1

F (x) =x∫

−∞f(u)du

Fie X = (X1,X2)′, DimX1 = r,DimX2 = s, r + s = k

X1,X2 subvectori ai lui X

Functia de repartitie marginala a lui X1 este

F1(x1) = F (X1,∞ = x2)

Densitatea marginala a lui X1 este

f1(x1) =∂rF1(x1)

∂x1, ..., ∂xr

4

Page 5: Verificarea ipotezelor statistice de I.V˘aduva

Momente:

∀i, E[Xi] = mi =∫Rk

xif(x)dx =∞∫

−∞xifi(xi)dxi

unde fi(xi) este densitatea marginala a componentei aleatoareXi cand integrela exista.

Momentul mixt

mij = E[XiXj] =+∞∫

−infty

+∞∫−∞

xixjfij(xi, xj)dxidxj

fij=densitate marginala a lui (Xi, Xj)′.

Covarianta. cand exista este:

cov(Xi, Xj) = E[(Xi −mi)(Xj −mj)] = mij −mimj = σij

Se observa ca V ar(Xi) = cov(Xi, Xi) = σ2i = σii.

Inegalitatea lui Schwarz

|σij| ≤ σiσj.

Coeficientul de corelatie al variabilelor aleatoare Xi

si Xj este

ρij = corr(Xi, Xj) =cov(Xi, Xj)√

V ar(Xi)V ar(Xj)=

σijσiσj

Nota. Ineg. Schwarz ⇒ ρij ∈ [−1, 1]

Interpretarea lui ρ : masoara gradul de dependenta stochas-tica al variabilelor aleatoare Xi si Xj.

5

Page 6: Verificarea ipotezelor statistice de I.V˘aduva

Notatii:Vectorul valoare medie al lui X este µ = (m1,m2, ...,mk)

′ =E(X).

Matricea de covarianta a vectorului X este

Σ =

σ11 σ12 , .... , σ1k. . ... .

σk1 σk2 , ... , σkk

= Cov(X,X′)

Este pozitiv definita Σ ≻ 0, adica x′Σx > 0, si deci inversabila.

Ipoteza statistica.F = multimea functiilor de repartitie.F0 ⊂ F .X= variabila aleatoare X ; F = functie de repartitie.

Definitie. Ipoteza statistica este o afirmatie asupra lui Fde forma H0 : F ∈ F0 ce trebuie verificata cu ajutorul uneiselectii de volum n , X1, X2, ..., Xn, data. (Se mai numesteipoteza nula!)

Ipoteza simpla cand CardF0 = 1; ipoteza compusa, candCardF0 > 1.

Ipoteza alternativa: H1 : F ∈ F1,F1 ⊂ F ,F1 = F0.Cea mai generala alternativa H1 : F ∈ F \ F1.

Ipoteza parametrica: H0 se refera la un parametru alfunctiei de repartitie. De ex. F0 este familia repartitiilor nor-male N(m,σ) si ipoteza este de forma H : m = m0 (ipotezasimpla); aici alternativa poate fi simpla de forma H1 : m =

6

Page 7: Verificarea ipotezelor statistice de I.V˘aduva

m1,m1 = m0, sau altternativa compusa de forma H1 : m = m0.In acest caz ipoteza simpla poate fi de forma H0 : |m−m0| < λ,iar alternativa va fi de forma H1 : |m−m0| ≥ λ. Aici m = E[X]este adevarata medie a variabilei aleatoare X, m0 este o valoaredata (de referinta), iar λ > 0 este eroarea cu care apreciem cam poate fi egal cu m0.

Ipoteza de concordanta: H0 : F ∈ F0, (adica se specificatipul functiei de repartitie (de ex normala exponentiala Cauchy,Poisson, binomoala etc.) Majoritatea functiilor de repartitiedepind de parametri θ, adica F (x) = F (x, θ) unde θ este unparametru uni sau multidimensional. Daca θ este cunoscut,atunci ipoteza de concordanta se numeste complet specifi-cata, iar in caz contrar, se numeste nespecificata.

Nota. Fiind data o selectie X′ = X1, X2, ..., Xn de volumn asupra variabilei aleatoare X, vectorul X′ are o repartitie deprobabilitate pe Rn, a carui densitate f , (cand F are densitate)este

L(x1, x2, ..., Xn) =n∏

i=1

f(xi)

Functia L(x1, ..., xn) se numeste functie de verosimilitate.Sa mai observam ca L(X1, ..., Xn), cu argumente Xi= valori

de selectie este o variabila aleatoare!.

Definitie. Un test de verificare a unei ipoteze statistice,este o regula prin care spatiul Rn al selectiilor se descompunein doua parti W = Rn

1 , si W = Rn2 = Rn \ Rn

1 (complemen-tarul lui Rn

1) astfel incat, daca vectoerul de selectie X′ ∈ Watunci se respinge ipoteza H0, (adica se accepta alternativaH1), iar in caz contrar (adica daca X′ ∈ W,) atunci se accepta

7

Page 8: Verificarea ipotezelor statistice de I.V˘aduva

ipoteza H0. Multimea W = Rn1 se numdeste domeniu critic al

ipotezei H0, iar W = Rn2 se numeste domeniu de acceptare

al ipotezei H0.

Observatie importanta. Deoarece o selectie de volum finitn nu asigura o informatie completa, decizia care se ia pe bazaacestei selectii asupra validitatii sau nu a ipotezei H0 ne poateconduce la urmatoarele rezultate: sa acceptam H0 cand ea esteadevarata (notata (H0|H0)), sa accepotam H0 cand ea nu esteadevarata (notata (H0|H1)), sa respingemH0 cand ea este adevarata(notata (H1|H0) sau sa respingem H0 cand ea nu este adevarata(notata (H1|H1)). Evident, deciziile bune sunt in primul si ul-timul caz, pe cand celelalte doua cazuri constituie erori ce secomit fiecare cu o probabilitate. Aceste probabilitati sunt

α = P (H1|H0) = P (X′ ∈ W |H0), β = P (H0|H1) = P (X′ ∈ W )

α este probabilitatea erorii de genul intai sau riscul , degenul intai, in timp ce β este probabilitatea erorii de genuldoi sau riscul de genul doi. α se mai numeste si prag desemnificatie.

Probabilitatea

π = P (H1|H1) = 1− β

se numeste puterea testului.

Un test bun este acela pentru care α si β sunt mici (de ex.0.05 sau mai mici, sau α este mic si puterea testului π estemare). Din pacate, pentru o selectie de volum n data, dacase impune un rtisc α dat, atunci nu exista un test pentru careβ sa fie de asemenea oricat mic. Testul pentru care la un

8

Page 9: Verificarea ipotezelor statistice de I.V˘aduva

prag de semnificatie dat α exista o limitare inferioaraa riscului de genul doi β (sau corespunzator exista olimitare superioara a lui π), se numeste test uniformcel mai puternic. Existenta acestui lucru a este stipulata deurmatoarea

Lema lui Neyman-Pearson. Fie X ; f(x, θ) si fie ipotezaparametrica simpla H0 : θ = θ0 si alternativa H1 : θ = θ1.Atunci pentru un prag α dat, exista un test uniform cel maiputernic a carui regiune critica este de forma

W = (X1, ..., Xn)′|L1

L0≥ c > o,

c este o constanta si unde

L1 = L(X1, ..., Xn, θ1) =n∏

i=1

f(Xi, θ1),

L0 = L(X1, ..., Xn, θ0) =n∏

i=1

f(Xi, θ0)

, adica L1, L0 sunt respectiv functiile de verosimilitate alelui X in ipotezele H1, H0.

Definitie. Numim statistica o functie t(X1, ..., Xn) (caredepinde de datele de selectie). Depinzand de repartitia de prob-abilitate a luiX, statistica t are o repartitie de probabilitate.Daca riscul α este dat atunci, pentru o statistica t convenabilaleasa se poate construi un test pentru ipotezaH0 a carui regiunecritica este de forma

Wα = (X1, X2, ..., Xn)′ : P (t(X1, ..., Xn) > cα|H0) = α,

unde repartitia statisticii t este considerata in ipotezaH0. Regiumeacritica a testului, Wα, se numeste regiune critica de nivel α.

9

Page 10: Verificarea ipotezelor statistice de I.V˘aduva

O statistica t cu ajutorul careia se construieste un test pentruo ipoteza nula H0 se numeste statistica test.

Din lema lui Neyman-Pearson rezulta ca pentru verificareaipotezei H0 cu alternativa H1 statistica test este raportul deverosimililitati

t(X1, X2, ..., Xn, θ0, θ1) =L(X1, ..., Xn; θ1)

L(X1, X2, ..., Xn; θ0)

Testul, se numeste testul raportului de verosimilitati.Exemplu. Fie X ; N(m.σ) variabila normala, cu abaterea

medie patratica σ, cunoscuta. Fie de verificat ipoteza parame-trica H0 : m +m0 cu alternativa H1 : m = m1 > m0. (Ambeleipoteze sunt simple). Testul raportului de verosimilitati con-duce,dupa calcule, la statistica

t =L1

L0= eX.n(

m1−m0σ2

−m21−m2

02σ2

),

unde X este media aritmetica a datelor de selectie, sau mediade selectie.

Regiunea critica de nivel α se obtine din relatia

P (L1

L0≥ c) = α = P (X(

m1 −m0

σ2

n

− m21 −m2

22σ2

n

) ≥ log c) = α,

adica regiunea critica a testului este in final de forma

Wα = (X1, ..., Xn)′ : P (X ≥

2σ2

n log c+ (m21 −m2

0)

2(m1 −m0)) = α. (1)

Regiunea critica Wα se poate deduce sub o forma echivalentaastfel. In ipoteza H0, statistica

U =X −m0

σ√n

; N(0, 1).

10

Page 11: Verificarea ipotezelor statistice de I.V˘aduva

Deci, pentru un α dat , alegem zα astfel incat

P (Z ≥ zα) =∞∫zα

e−t2

2 dt = α,

de unde domeniul critic este

Wα = (X1, X2, ..., Xn)′|X ≥ m0 +

zα√n. (2)

Marimea zα se numeste α-cuantila superioara a repartiriei nor-male N(0, 1).

Observam ca cele doua forme ale domeniului critic Wα datede (1) si (2) coincid, deoarece au acelas nivel α.

Puterea testului, este

π(m1) = P (X ≥ m0+zασ√n|H1) = P (

X −m1σ√n

≥ m0 −m1σ√n

+zα) =

= P (Z ≥ m0 −m1σ√n

+ zα)

Deoarece π(m1) = 1− β rezulta ca

1− ϕ(zα +σ√n) = 1− β

deci

zα +mo −m1

σ√n

= z1−β

Ultima formula conduce la faptul ca daca se dau riscurile α siβ atunci volumul minim de selectie necesar pentru realizareaacestor riscuri este

n = (z1−β − zα)2 σ2

(m1 −m0)2

11

Page 12: Verificarea ipotezelor statistice de I.V˘aduva

ceea ce conduce si la o alta consecinta a lemei Neyman-Pearson.

Nota. Din cele de mai sus, observam ca daca consideramparametrul λ = |m0 − m1| ca o distanta intre ipotezele H0 siH1 si consideram ca pentru o distanta λ0 data H1 ∼ H0 atunciputerea π se exprima in functie de λ si anume

π(λ) = 1− ϕ(zα +λ

σ√n).

Forma generala a testului raportului de verosimilitati.

Sa consideram ipoteza H : F ∈ ω ⊂ Ω, unde Ω este o clasade functii de repartitie si ω o submultime a sa.Alternativa esteNH : F ∈ Ω \ ω. Sa notam (L)Ω, (L)ω valorile maxime alefunctiei de verosimilitate in ip[otezele Ω, ω si sa cosnideram ra-portul de verosimilitate

Λ(X) =(L)ω(L)Ω

,X = vectorul de selectie.

Deoarece ω ⊂ Ω rezulta ca Λ(X) ≤ 1, iar cand ω este adevarata,Λ(X) = 1. (Caz ideal!).

Deci domeniul critic pentru testarea ipotezei H este de forma

W (c) = X|Λ(X) ≤ c < 1, P (Λ(X ≤ c) = α. (3)

Lema lui Neyman-Pearson este valabila si aici; regiuneacritica W (c) data de (3) corespunde testului uniform cel maiputernic.

12

Page 13: Verificarea ipotezelor statistice de I.V˘aduva

Pentru a construi testul raportului de verosimilitati pentruo ipoteza H va trebui mai intai sa calculam valorile maxime(L)Ω, (L)ω ale functiei de verosimilitate.

Exemplu. Fie X ; N(m,σ) cu σ-cunoscut si fie de verifi-cat ipoteza H : m = m0 cu alternativa NH : m = m0. Maximulfunctiei de verosimilitate in ipoteza Ω conduce la

(L)Ω =

(1

2πσ2

)n2

e− 1

2σ2

n∑i=1

(Xi−X)2

iar

(L)ω =

(1

2πσ2

)n2

e− 1

2σ2

n∑i=1

(Xi−m0)2

.

Raportul de verosimilitati este

Λ(X) = e−n

2σ2(X−m0)

2

iar domeniul critic este de forma (3) unde c = cα satisface relatia

α = P [− n

2σ2(X −m0)

2 ≤ log cα] = P [

∣∣∣∣∣∣∣X −m0

σ√n

∣∣∣∣∣∣∣ ≥√−2 log cα].

DeoareceX −m0

σ√n

= Z ; N(0, 1)

rezulta ca folosind zα2dat de relatia

zα2∫

−zα2

e−u2

2 du = 1− α,

domeniul c ritic este de forma

Wα = X′ :

∣∣∣∣∣∣∣X −m0

σ√n

∣∣∣∣∣∣∣ ≥ zα2. (3′)

13

Page 14: Verificarea ipotezelor statistice de I.V˘aduva

Puterea testului π(m) se calculeaza cu formula

P (

∣∣∣∣∣∣∣X −m0

σ√n

∣∣∣∣∣∣∣ ≥ zα2|NH) = π(m). (4)

Testul prezentat se numeste testul U .

Problema celor doua selectii.Fie X ; N(m1, σ1), Y ; N(m2, σ2) cu σ1, σ2 cunoascute.

Se da o selectie de volum n1 pentru X si o selectie de volum n2

pentru Y. Pentru verificarea ipotezei H : m1 = m2 cu alternativaNH : m1 = m2 se foloseste statistica

U =X − Y −m1 +m2

σ21

n1+ σ2

2

n2

. (5)

care in ipoteza H are repartitia normala N(0, 1).Domeniul critic se determina pe baza statisticii U data de (5)

si el este de forma

Wα = X′ : |U | ≥ zα2,

iar Puterea testului se calculeaza cu formula

π(m1 −m2) = P (|U | ≥ zα2|NH).

Cazul dispersiilor necunoscute. Repartitii inrudite curepartitiile normale.

Fie de testat H : m = m0,NH : m = m0, cu σ necunoscut.Determinarea raportului de verosimilitati, conduce mai intai laestimarea lui m cu X si a lui σ2 cu formula

s2 =1

n− 1

n∑i=1

(Xi −X)2 (6)

14

Page 15: Verificarea ipotezelor statistice de I.V˘aduva

dupa care se calculeaza (L)Ω si (L)ωIn final testul raportului de verosimilitati conduce la statis-

tica t a lui Student, adica

t =X −m0

s√n

(6′)

care in ipoteza H are repartitia Student cu f = n− 1 gradede libertate, ce are densitatea de repartitie

g(x) =1√π

Γ(f+12 )

Γ(f2 )

1

(1 + x2)f+12

. (7)

Variabila Student se defineste cu formula

tf =Zχf√f

, tf ∈ R, Z ; N(0, 1)

unde χ2f =

f∑i=1

Z2i , iar Zi sunt variabile N(0, 1) independete si Z

e independent de χ2f .

Densitatea de repartitie a lui χ2f este

h(x) =1

2f2Γ(f2 )

xf2−1e−

x2 , x > 0, h(x) = 0 daca x ≤ 0. (8)

Daca E[Zi] = mi = 0 macar pentru un i atunci

f∑i=1

Z2i = χ2

f,δ

cu δ2 =f∑

i=1m2

i se numeste variabila χ2 necentrata, cu f

grade de libertate si cu parametru de excentricitate δ.

15

Page 16: Verificarea ipotezelor statistice de I.V˘aduva

Nu precxizam densitatea de repartitie (complicata!) a acesteivariabile.

Definitie. Variabila aleatoare Ff1,f2 > 0 este definita astfel

Ff1,f2 =f2χ

2f1

f1χ2f2

, (9)

Variabila Ff1,f2 are o densitate de repartitie pe care nu o prezentamaici. Sunt utilizate si variabile F necentrate de forma

Ff1,f2;δ1,0, Ff1,f2;0,δ2, Ff1,f2;δ1,δ2.Cea mai utilizata dupa cum vom vedea, este prima forma de

F-necentrataa.

Intre variabila F si variabila t este valabila relatia

t2f = F1,f .

Forme ale testului t.

Pentru un risc α dat, sa cosideram cuantila superioara tf,α2 >0 care satisface relatia

P (|tf | ≤ tf,α2 ) =

tf,α2∫tf,α2

g(u)du = 1− α (10)

Ca si testul U, testul t, dedus din testul general al raportului deprobabilitati, capata forme asemanatoare, dupa cum urmeaza:

t1.Verificarea ipotezei H : m = m0, σ − necunoscut, cualternativa NH : m = m0. Domeniul critic este∣∣∣∣∣∣∣

X −m0s√n

∣∣∣∣∣∣∣ ≥ tf,α2 , f = n− 1, (11)

16

Page 17: Verificarea ipotezelor statistice de I.V˘aduva

Puterea testului se calculeaza cu formula

π(m) = P (

∣∣∣∣∣∣∣X −m0

s√n

≥ tf,α2

∣∣∣∣∣∣∣ : NH) (11′)

unde statistica din formula are repartitia t-necentrata adica

t2f,δ = F1,f :δ,0, δ2 =

m1 −m0s√n

2

. (11”)

t2.Verificarea ipotezei H : m1 = m2 pentru doua populatiiN(m1, σ), N(m2), σ), σ − cunoscut cu NH : m1 = m2. FieX ; N(m1, σ1), Y ; N)(m2, σ2) σ1 = σ2 = σ. si volumelede selectie n1, n2. Dispersia σ2 se estimeaza astfel

s2 =1

n1 + n2 − 2

n1∑i=1

(Xi−X)2+n2∑j=1

(Yj −Y )2, f = n1+n2− 2.

Statistica t este in acest caz

t =X − Y

s√

1n1

+ 1n2

domeniul critic de nivel α este de forma (11), iar puterea testuluiπ(m1 −m2) este de forma (11’) cu

δ2 =

m1 −m2

s√

1n1

+ 1n2

2

.

t3.Verificarea ipotezei H din cazul precedent, cu σ1, σ2necunoscute si ne egale. In acest caz testul t are o constructiespeciala si anume;

17

Page 18: Verificarea ipotezelor statistice de I.V˘aduva

- se estimeaza dsispersiile cu formulele obisnuite

s21 =1

f1

n1∑i=1

(Xi−X)2, f1 = n1−1; s22 =1

f2

n2∑j=1

(Yj−Y )2, f2 = n2−1;

(12)- se calculleaza gradele de libertate f cu formulele

c =

s21f1

s21f1+ s22

f2

f =1

c2

f1+ (1−c)2

f2

(f este rotunjit la intreg)-statistica t este

t =X − Y√s21n1

+ s22n2

In continuare testul t se dezvolta ca la t2.

Teste privind egalitatea dispersiilor populatiilor nor-male.

Se dau X ; N(m1, σ1), Y ; M(m2, σ2) si selectiile indepen-dente corespunzatoare de volume n1, n2. Ipoteza H : σ1 = σ2cu alternativa NH : σ1 = σ2 se verifica folosind testul F (al luiSnrdrcor) dupa cum urmeaza:

- se estimeaza σ21, σ

22 cu formulele (12);

se calculeaza statistica

F =s21s22

18

Page 19: Verificarea ipotezelor statistice de I.V˘aduva

Statistica F are repartitia F -centrata cu (f1, f2) grade de liber-tate. Deci domeniul critic de nivel α este

F ≥ Ff1,f2;α, unde P (Ff1,f2 ≥ Ff1,f2;α) = α,

adica Ff1,f2;α este α-cuantila superioara a repartitiei F.

Testul lui Bartlett pentru egalitatea a mai multe dis-persii. Se dau k populatii normale N(m1, σi), 1 ≤ i ≤ k siselecttii corespunzatoare Xi,j, .1 ≤ i ≤ k, 1 ≤ j ≤ ni de volumen1, n2, ..., nk, ni > 3 respectiv. Se cere sa se verifice ipoteza

K : σ21 = ... = σ2

k.

Testul lui Bartlett se realizeaza in urmatorii pasi:- se estimeaza dispersiile cu formulele

S2i =

1

ni − 1(ni∑j=1

X2ij − niXi

2), 1 ≤ i ≤ k

- se calculeaza s2 cu formula

s2 =1

f(

k∑i=1

fis2i ), fi = ni − 1, f =

k∑i=1

fi

se calculeaza statistica lui Bartlett

χ2 = − 1

B

k∑i=1

fi logs2is2, B =

k∑i=1

1ni−1 −

1n−k

3(k − 1)+ 1, n =

∑i

ni. (13)

Statistica χ2 are k−1 grade de libertate, deci domeniul critic altestului lui Bartlett este

χ2 ≥ χ2k−1,α, undeP (χ2

k−1 ≥ χ2k−1,α) = α.

19

Page 20: Verificarea ipotezelor statistice de I.V˘aduva

(aici α este riscul de genul intai).Puterea testului se calculeaza pe baza repatritiei necentrate

χ2k−1,δ, δ

2 =

k∑i=1

fiσ2i

f,

(σi diferite intre ele).

Teste de concordanta. Presupunem ca se da o selectiede volum n asupra lui X si se cere sa verificam ipoteza deconcordanta H : X ; F. Prezentam doua teste asimptotice(cand n → ∞).

Testul de concordanta χ2.Daca ipoteza H este complet specificata, atunci testul χ2

consta din urmatoarele etape:- se considera 0 diviziune a multimii ∆ pe care variabila

aleatoare X ia valori de probabilitati pozitive, adica

∆ =k∪

i=1

∆i, ∆i ∩∆j = ø, P (∆i) > 0.

- se calculeaza probabilitatile pi = P (∆i) > 0, 1 ≤ i ≤ k;- pentru selectia data X1, X1, ..., Xn, n = f.mare(n > 1000)

se determina fi = numarul valorilor de selectie ce apartinlui ∆i, adica frecventele absolute pe ∆i;

- se calculeaza statistica

χ2 =k∑

i=1

(fi − npi)2

npi(13− 1)

Deoarece statistica χ2 are repartitia χ2k−1, domeniul critic al tes-

tului esteχ2 ≥ χ2

k−1,α, P (χ2k−1 ≥ χ2

k−1,α = α.

20

Page 21: Verificarea ipotezelor statistice de I.V˘aduva

Puterea testului se determina ca deobicei cu χ2 necentrat (repartitiastatisticii (13-1) in ipoteza NH.)

Daca H este nespecificata, atunci etapele testului χ2 suferao modificare si anume daca functia de repartitie depinde de unparametru θ = (θ1, ..., θc)

′, c < k − 1, atunci pi = pi(θ) si statis-tica (13-1) devine

χ2(θ) =k∑

i=1

(fi − npi(θ)2

npi(θ)(13− 2)

iar parametrul θ trebuie estimat. Estimatia θ se obtine mini-mizand (13-2) in raport cu theta, dar cu conditia ca numitoriidin suma (13-2) sa fie asimptotic constanti.(Aceasta metodade estimare se numeste metoda minimului lui χ2 modifi-cat.) Dupa estimarea celor c parametri, probabilitatile din (13-1) devin pi = pi = pi(θ), iar statistica devine

χ2(θ) =k∑

i=1

(fi − npi)2

npi. (13− 3)

Se stie ca statistica (13-3) are o repartitie χ2k−c−1 si de aici se

continua pasii din cazul cand H este complet specificata. Put-erea testului se calculeaza tot cu χ2-necentrat unde paqrametrulde excentricitate este

δ2 =k∑

i=1

(pHi − pNHi )2

npHi,

unde pHi , pNHi sunt calculate in ipotezele respective.

Teste de concordanta de tip Kolmogorov-Smirnov.Aceste teste se aplica numai cand functia de repartitie

F este continua.

21

Page 22: Verificarea ipotezelor statistice de I.V˘aduva

Definim mai intai estimatia nedeplasaata a functiei derepartitie F (x). Aceasta este

Fn(x) =ν(x)

n, (13− 4)

unde ν(x) =numarul valorilor de selectie mai mici decatX. Ea se mai numeste si functia de repartitie empirica.

Sa notam

Dn = supx

|F (x)− Fn(x)| = max1≤i≤n

|F (Xi)− Fn(Xi)|

D+n = max

1≤i≤n[Fn(Xi)− F (Xi)], D

−n = max

1≤i≤n[F (Xi)− Fn(Xi)].

Testele de tip Kolmogorov-Smirnov se bazeaza pe urmatoareleteoreme limita:

Teorema lui Kolmogorov. Daca F este continua, atunci

limn→∞P (Dn <

λ√n) =

+∞∑k=−∞

(−1)ke−λ2k2 = K(λ). (13− 5)

Teorema lui Smirnov. Daca F este continua atunci

limn→∞P (D+

n <λ√n) = 1− e2λ

2

. (13− 6)

Testul lui Kolmogorov are domeniul critic de nivel α ≤ 0.05de forma

Dn >λα√n, undeK(λα) = 1− α. (13− 7)

In mod asemanator, domeniul critic pentru testul lui Smirnoveste

D+n >

θα√n, unde e−2θ2α = α. (13− 8)

22

Page 23: Verificarea ipotezelor statistice de I.V˘aduva

Puterea testului Kolmogorov se calculeaza pe baza repartitieiasimptotice a statisticii

D∗n = sup

x|Fn(x)−G(x)|, undeNH : X ; G(x).

Nu exista evaluari exacte privind puterea testului lui Kolmogorov.

Daca pentru doua variabile X avand functia de repartitie Fsi Y avand functia de repartitie G (F,G necunoscute!), se daudoua selectii asupra lor, de volume n si m respectiv, atunci sepoate pune problema testarii ipotezei H : F = G. Testareaacestei ipoteze se face pe baza urmatoarei teoreme

Teorema lui Smirnov. Daca F si G sunt continue si notam

Dn,m = supx

|Fn(x)−Gm(x)|,

atunci

limn,m→∞, nm=ρ=const.P (Dn,m < λ(

√√√√1

n+

1

m)) = K(λ). (13− 9)

Domeniul critic al testului este

Dn,m > λα

√√√√1

n+

1

m, K(λα) = 1− α. (13− 10)

Puterea testului se determina ca si in cazul testului Kolmogorov.

Teste pentru repartitii multidimensionale.Vom prezenta teste referitoare la mediile repartitiilor nor-

male multidimensionale. Vectorul X¯= (X1, X2, ..., Xk)

′ arerepartitia normala k-dimensionala N(µ,Σ) daca densitatea sade repartitie este

f(x, µ,Σ) =1

(2π)k2det(Σ)

12

e−12 (x−µ)′Σ−1(x−µ). (14)

23

Page 24: Verificarea ipotezelor statistice de I.V˘aduva

µ este vectorul medie al lui X, iar Σ este mateicea de covariantaa lui X notate respectiv

µ = E(X), Σ = Cov(X,X′),

vectorii, fiind vectori coloana, iar produsele matriceale sunt cal-culate conform regulii obisnuite ”linii prin coloane”. MatriceaΣ este pozitiv definita, (notata Σ ≻ 0), de unde rezulta caforma patratica de la exponent in formula (14) este pozitivdefinita. O selectie de volum N asupra vectorului aleator Xeste de forma X1,X2, ...,XN care de fapt este o matrice N × k,Xi fiind coloanele acestei matrici: Xi sunt deci valori de se-lectie efectuate asupra lui X.

Estimatiile nedeplasate ale parametrilor ν,Σ sunt respectiv

X =N∑i=1

Xi, S =1

N − 1

N∑i=1

(Xi −X)(Xi −X)′, (16)

adicaE [X] = µ, E [S] = Σ.

In cazul unidimensional testele asupra mediilor se bazau pestaistica U repatizata normal si pe statistica t a lui Student.Asemanator, testele privind mediile repartitiilor normale multidimensionale se vor baza pe o statistica χ2 si pe o statistica T 2

a lui Hoteling, cu n grade de libertate. Aceste statistici aratade forma

χ2k = Y′Σ−1Y, Y ; N(0,Σ), (17)

T 2n = Y′S−1Y, Y ; N(0,Σ), nS =

n∑i=1

ZαZα′, (18)

unde Zi ; N(0, σ),Zi indY. S este o matrice Wishart. Vari-abila T 2

n are repartitia Hoteling cu n grade de libertate.

24

Page 25: Verificarea ipotezelor statistice de I.V˘aduva

Se arata ca variabila T 2n este legata de variabila F prin relatia

n− k + 1

k

T 2n

n= Fk,n−k+1. (18)′

iar daca in (18) Y ; N(µ,Σ), atunci T 2n din (18) are repartitia

Hoteling necentrata cu parametrul de excentricitate

δ2 = µ′Σ−1µ,

relatia (18’) ramanand valabila si pentru variabile necentrate.Relatia (18’) se pastreaza si intre cuantilele variabilelor F si T 2

si anume

T 2n,α =

nk

n− k + 1Fk,n−k,α. (18′′)

Verificarea ipotezelor asupra mediilor cand matricilede covarianta sunt cunoscute.

H1. Ipoteza H : µ = µ0, cu alternativa NH;µ = µ0. Sefoloseste selectia de volum N. Deoarece in ipoteza, H X ;

N(µ0,ΣN ), rezulta ca statistica

χ2 = N(X− µ0)′Σ−1(X− µ0) (19)

are repartitia χ2k, deci domeniul critic de nivel α este conform

(19)χ2 ≥ χ2

k,α, unde P (χ2k ≥ χ2

k,α) = α. (19′)

Puterea testului este data de repartitia χ2-necentrata adica

π(m) = P (χk;δ ≥ χ2k,α), unde δ2 = N(µ−µ0)

′Σ−1(µ−µ0). (20)

Amintim faptul ca distanta lui Mahalanobis dintre repartitiilenormale N(µ1,Σ), N(µ2,Σ) este

D2 = (µ1 − µ2)′Σ−1(µ1 − µ2)

25

Page 26: Verificarea ipotezelor statistice de I.V˘aduva

deci δ2 este o distanta Mahalanobis.

H2. Problema celor doua saelectii, pentru doua populatiinormale X ; N(µ1,Σ),Y ; N(µ2,Σ) cu Σ cunoscut.

Presupunem ca volumele celor doua selectii sunt N1 respectivN2 si avem de testat ipoteza H : µ1 = µ2 cu alternativa NH :µ1 = µ2. Deoarece in ipoteza H avem

(X − Y ) ; N(0, ( 1N1

+ 1N2)Σ), rezulta

χ2 =N1N2

N1 +N2(X−Y)′Σ−1(X−Y) (21)

Domeniul critic de nivel α este deci de forma (19’) iar putereatestului se determina cu χ2-necentrat cu parametrul de excen-tricitate

δ2 =N1N2

N1 +N2(µ1 − µ2)

′Σ−1(µ1 − µ2). (21′)

H3. Problema celor r selectii. Fie vectorii normali X(i) ;

N(µ(i),Σ), Σ − cunoscut si selectiile de volume Ni asupra lor,1 ≤ i ≤ r. Se dau constantele βi, 1 ≤ i ≤ r (ce pot fi numitemasuri de ponderare).

Se cere sa se verifice ipoteza H : µ = µ0, µ =r∑

i=1βiµi, numita

problema celor r selectii. (In biologie µ este media caracteristiciiunei specii ce provine din r ascendenti; in economie, µ poate fisuma cheltuita de o familie pentru a-si asigura r resurse nece-sare).

Deoarece in ipotezaH vectorul aleatorr∑

i=1βiX(i) ; N(µ0, (

r∑i=1

β2i

Ni)Σ),

rezulta ca testul se bazeaza pe statistica

χ2 =

r∑i=1

β2i

Ni

−1

(r∑

i=1

βiX(i) − µ0)′Σ−1(

r∑i=1

βiX(i) − µ0). (22)

26

Page 27: Verificarea ipotezelor statistice de I.V˘aduva

Domeniul critic de nivel α este tot de forma (19’) cu χ2 datde (22). Puterea testului se calculeaza tot cu χ2 necentrat cuparametrul de excentricitate

δ2 =

r∑i=1

β2i

Ni

−1

(r∑

i=1

βiµ(i) − µ0)”Σ

−1(r∑

i=1

βiµi − µ0). (22′)

H4. Cazul matricilor de covarianta neegale. DacaX(i) ;

N(µi,Σi), nu implica dificultati. In acest caz vectorulr∑

i=1βiX(i) ;

N(µ,Σ∗) unde

µ =r∑

i=1

βiµi, Σ∗ = (r∑

i=1

β2i

Ni)Σ. (23)

Statistica testului este in acest caz

χ2 = (r∑

i=1

βiX(i) − µ0)′Σ−1

∗ (r∑

i=1

βiX(i) − µ0), (23′)

care are repartitia χ2k, deci domeniul critic este de forma (19’),

iar puterea testului se determina cu χ2 necentrat cu parametrulde excentricitate

δ2 = (µ− µ0)′Σ−1

∗ (µ− µ0). (23′′)

H5. Problema simetriei. FieX ; N(µ,Σ), µ = (µ1, ..., µk)′.

Problema simetriei consta in a verifica ipoteza H : µ1 = ... =µk.

Fie ϵ = (1, 1, ..., 1)′ vectorul k-dimensional cu toate compo-nentele 1. Sa consideram o matrice Ck×(k−1), astfel incat Cϵ = 0.O astfel de matrice exista deoarece cele k× (k− 1) elemente aleei satisfac numai k ecuatii. Cu aceste notatii ipoteza H se poate

27

Page 28: Verificarea ipotezelor statistice de I.V˘aduva

scrie H : Cµ = 0. Deoarece X este o estimatie a lui µ,, rezultaca statistica test

χ2 = N(CX)′(CΣC ′)−1(CX) (24)

are repartitia χ2k−1 si deci domeniul critic

χ2 ≥ χ2k−1,α,

iar puterea tesctului este

π = P (χ2k−1;δ ≥ χ2

k−1,α), unde δ2 = N(Cµ)′(CΣC ′)−1(Cµ).(24′)

Teste asupra mediilor repartitiilor normale k-dimensionale,cand matricile de covarianta sunt necunosacute.

T1. Verificarea ipotezei H : µ = µ0 cu alternativa NH :µ = µ0, cu Σ-necunoscut.

Cu ajutorul selectiei de volum N se estimeaza µ si Σ astfel

X =1

N

N∑i=1

Xi, S =1

N − 1

N∑i=1

(Xi −X)(Xi −X)′. (25)

Matricea S fiind o matrice Wishart, rezulta ca statistica

T 2 = N(X− µ0)′S−1(X− µ0) (26)

are, in ipoteza H, o repartitie Hoteling cu N − 1 grade delibertate. Deci domeniul critic de nivel α pentru verificareaipotezei H este

T 2 ≥ T 2N−1,α, unde P (T 2

N−1 ≥ T 2N−1,α) = α.

Puterea testului se calculeaza cu ajutorul repartitiei T 2 necen-trate cu parametrul de excentricitate

δ2 = N(µ− µ0)′Σ−1(µ− µ0) (26′)

28

Page 29: Verificarea ipotezelor statistice de I.V˘aduva

adicaπ(µ) = P (T 2

N−1;δ ≥ T 2N−1,α). (26′′)

T2. Problema celor doua selectii cand matricile decovarianta sunt necunoscute si egale. FieX(1) ; N(µ1,Σ),X

(2) ;

N(µ2,Σ si doua selectii de volume N1, N2 respectiv. Se ceretestarea ipotezei H : µ1 = µ2 cu alternativa NH : µ1 = µ2.

Matricea de covarianta comuna se estimeaza cu

S =

1

N1 +N2 − 2

N1∑i=1

(X(1)i −X(1))(X

(1)i −X(1))

′+

N2∑j=1

(X(2)j −X(2))(X

(2)j −X(2))

′ .

(27))Deoarece X(1) −X(2) ; N(0, N1+N2

N1N2Σ), rezulta ca statistica

T 2 =N1N2

N1 +N2(X(1) −X(2))′S−1(X(1) −X(2)), (28)

are repartitia T 2N1+N2−2. Atunci, domeniul critic al testului este

T 2 ≥ TN1+n2−2,α, unde T 2N1+N2−2,α =

N1 +N2 − 2)k

N1 + n2 − k − 1Fk,N1+N2−k−1<α,

(28′)iar puterea testului se calculeaza cu T 2 necentrat cu parametrulde excentricitate

δ2 =N1N2

N1 +N2(µ1 − µ2)

′Σ−1(µ1 − µ2). (28′′)

T3. Problema celor doua selectii cand matricile decovarianta sunt necunoscute si diferite. Presupunem decica se dau vectorii normaliX(1) ; N(µ1,Σ1), X(2) ; N(µ2,Σ2),

29

Page 30: Verificarea ipotezelor statistice de I.V˘aduva

selectiile corespunzatoare de volumeN1, N2 si se cere sa se testezeipoteza H : µ1 = µ2 < cu alternativa NH : µ1 = µ2.

Daca pana acum constructia testelor T 2 decurgea asemana-tor testelor t din statistica unidimensionala aici constructia pre-supune un atificiu ce va fi prezentat in continuare. Astfelsa presupunem ca N1 < N2. (In caz contrar schimbam no-

tarea vectorilor normali!). Din selectiile X(1)i , 1 ≤ i ≤ N1 si

X(2)j , 1 ≤ j ≤ N2, construim o noua selectie Yi, 1 ≤ i ≤ N1

astfel

Yi = X(1)i −

√√√√N1

N2+

1

N1N2

N1∑s=1

X(1)s − 1

N2

N1∑j=1

X(2)j , 1 ≤ i ≤ N1.

(29)Se arata ca valorile de selectie Yi, 1 ≤ i ≤ N1 sunt independentestochastic si repartizate normal

N(µ1 − µ2,Σ), unde Σ = Σ1 +N1

N2Σ2. (30)

Matricea Σ se estimeaza cu

S =1

N1 − 1

N1∑j=1

(Yj −Y)(Yj −Y)′ (30′)

iar in ipoteza H statistica

T 2 = N1Y′S−1Y (31)

are N1− 1 grade de libertate. Domeniul critic al testului este inacest caz

T 2 ≥ T 2N1−1,α, (31′)

iar puterea testului este

π(µ1−µ2) = P (T 2N1−1;δ ≥ T 2

N1−1,α); δ2 = N1(µ1−µ2)

′Σ−1(µ1−µ2).(31′′)

30

Page 31: Verificarea ipotezelor statistice de I.V˘aduva

T4. Problema celor r selectii cand matricile de covariantasunt necunoscute si egale.Problema se trateaza in paralelcu cazul H4. Fie X(i)

α , 1 ≤ i ≤ r, 1 ≤ α ≤ Ni cele r selectii,selectia X(i)

α fiind efectuata asupra populetiei normale N(µi,Σ).

Se cere testarea ipotezei H : µ =r∑

i=1βiµi = µ0, cu alternativa

NH : µ = µ0. Matricea Σ se estimeaza in mod obisnuit adica

S =1

r∑i=1

Ni − r

r∑i=1

ni∑α=1

(X(i)α −X(i))(X(i)

α −X(i))′, (32)

si deoarecer∑

i=1βiX(i) − µ0 ; N(0,Σ∗) unde

Σ∗ =

r∑i=1

β2i

Ni

Σ,

rezulta statistica test

T 2 =

r∑i=1

β2i

Ni

(r∑

i=1

βiX(i) − µ0)′S−1(

r∑i=1

βiX(i) − µ0) (32′)

care are f =r∑

i=1Ni − k grade de libertate. Domeniul critic este

deciT 2 ≥ T 2

f,α, T 2 dat de (32′), (33)

iar puterea testului se calculeaza cu T 2 necentrat adica

π(µ) = P (Tf ;δ ≥ T 2f,α), (33′)

cu

δ2 =

r∑i=1

β2i

Ni

−1

(r∑

i=1

βiµi − µ0)′Σ−1

r∑i=1

βiµi − µ0). (33′′)

31

Page 32: Verificarea ipotezelor statistice de I.V˘aduva

T5. Problema celor r selectii, cazul general.Presupunem ca se dau r selectii X(i)

α , 1 ≤ i ≤ r, 1 ≤ α ≤ Ni

din populatiile normale independente N(µi,Σi), 1 ≤ i ≤ r, cu Σi

necunoscute si ne egale. Se cere sa se verifice ipoteza H : µ =r∑

i=1βiµi = µ0 cu alternativa NH : µ = µ0, unde µ0 si coeficientii

βi, 1 ≤ i ≤ r sunt dati.Si aici se aplica un artificiu asemanator celui din cazul T3.

Presupunem ca N1 = min1≤i≤r Ni. (In caz contrar schimbam nu-merotarea astfel incat N1 sa fie cel mai mic). Construim selectia

Yα = β1X(1)α +

r∑i=1

√√√√N1

Ni

X(i)α − 1

Ni

N1∑ν=1

X(i)ν +

1√N1Ni

Ni∑γ=1

X(i)γ

.

(34)Se arata ca variabilele de selectie Yα sunt independente stochas-tic si repartizate normal

N(µ,Σ∗), Σ∗ =r∑

i=1

β2iN1

NiΣi. (35)

Fie estimatia lui Σ∗

S =1

N1 − 1

N1∑i=1

(Yα −Y)(Yα −Y)′. (35′)

Daca notam cu Si estimatia lui Σi, 1 ≤ i ≤ r se arata ca

S =r∑

i=1

β2iN1

NiSi. (35′′)

Statistica test pentru ipoteza H este

T 2 = N1(Y − µ0)′S−1(Y − µ0) (36)

32

Page 33: Verificarea ipotezelor statistice de I.V˘aduva

si ea are (in ipoteza H) repartitia Hoteling cu N1 − 1 grade delibertate. De aici rezulta ca domeniul critic al testului este

T 2 ≥ TN1−1,α, (36)

iar puterea testului este

π(µ) = P (T 2N1−1;δ ≥ TN1−1,α), δ

2 = N1(µ− µ0)′Σ−1

∗ (µ− µ0).(36′)

T6. Problema simetriei cand Σ este necunoscut. Seda deci selectia Xα, 1 ≤ α ≤ N asupra unei populatii normaleN(µ,Σ), µ = (µ1, ..., µk)

′ cu Σ necunoscut. Se cere sa se testezeipoteza H : µ1 = ... = µk cu alternativa NH care inseamnaca nu toate µi sunt egale. Ca si in cazul H5, se alege matriceaCk×(k−1) astfel incat

Cϵ = 0, ϵ = (1, 1, ..., 1)′

iar ipoteza H este echivalenta cu Cµ = 0. Daca consideramestimatia obisnuita S a lui Σ,si estimatia X a lui µ, atuncirezulta ca CX ; N(Cµ,CΣC ′) si deci statistica

T 2 = N(CX)′(CSC ′)−1(CX) (37)

are repartitia Hoteling cu N − 1 grade de libertate ( pe spatiulk − 1 dimensional!).Domeniul critic al testului este

T 2 ≥ T 2N−1,α, T

2N−1,α =

(N − 1)(k − 1)

(N − k)(k − 1)Fk−1,N−k,α. (37′)

Puterea testului se calculeaza cu variabila Hoteling necentrata(pe spatiul k − 1 dimensional) si anume

π(µ) = P (T 2N−1;δ ≥ T 2

N−1,α), δ2 = N(Cµ)′(CΣC ′)−1(Cµ).

(37′′)

33

Page 34: Verificarea ipotezelor statistice de I.V˘aduva

Consideratii finale.1. Aici s-au prezentat numai consideratii introductive privind

verificarea ipotezelor statistice. Probleme ca: verificarea ipotezelorfolosind selectiile cenzurate ce intervin in fiabilitate, etc;testele secventiale; analiza dispersionala;teste bazate pestatistici de ordine; teste pentru serii dinamice cu mul-tiple aplicatii in activitati bancare;etc am coniderat ca-siau locul in prezentari speciale separate.

2. Pentru aplicarea testelor prezentate, se impun unele pre-cizari legate de utilizarea tehnicilor moderne de calcul.

2.1. Toate functiile de repartitie pot fi calculate cu pachetelede programe statistice existente. Astfel se pot determina atatcuantilele cat si valorile acestor functii. Este o preoblema insa cuutilizarea functiilor de repartitie ne centrate. Deoarece expresiiledensitatilor de repartitie ale lui t-necentrat, χ2-necentrat si F -necentrat sunt date de serii de puteri, folosirea acestor expresiila calculul numeric al functiilor de repartitie sau al cuantilelor(cand trebuie rezolvata o ecuatie in x de forma F (x) = p), estecomplicata. O iesire din impas o poate reprezenta aproximarealui Pathnaik pentru repartitia χ2

k;δ si anume: se aproximeazarepartitia acestei variabile cu o variabila repartitie de forma cχ2

k∗,adica

χ2k;δ = cχ2

k∗. (38)

Egaland mediile si dispersiile celor doua variabile din (38) rezulta

k + δ2 = ck∗, k + 2δ2 = c2k∗, (38′)

de unde

c =k + 2δ2

k + δ2, k∗ =

(k + δ2)2

k + 2δ2. (38′′)

34

Page 35: Verificarea ipotezelor statistice de I.V˘aduva

Solutia k∗ din (38”) se rotunjeste la un intreg. Pentru uti-lizarea repartitiilor F si T 2 necentrate se poate utiliza in preala-bil aproximarea repartitiei χ2 necentrata ce intra in definitia luiF necentrata. Trebuie subliniat faptul ca aproximarea Pathnaikeste ne recomandata, fiind prea laxa.

2.2. Simularea Monte Carlo ofera o alternativa facilasi mai buna pentru determinarea puterii testului in cazul uneirepartitii necentrate (sau oricarei alte repartitii) si anume:

-in ipoteza NH, se simuleaza o selectie de volum mare n, astatisticii test g:

- cu aceasta selectie se determina estimatia puterii testului

πn = 1− Fn(xα) ≈ P (g > xα),

unde xα este valoarea critica a statisticii test.Daca nu se poate utiliza usor sau nu se cunoaste ex-

presia convenabila a repartitiei statisticii test g, atunci se pro-cedeaza in mod asemanator,adica:

- se simuleaza o selectie de volum mare n, a statisticii test gin ipoteza H;

- Se construiete histograma lui g pe baza acestei selectii;- cu ajutorul histogramei se rezova ecuatia

P (g > xα) = α,

unde α este riscul de genul intai, xα fiind valoarea critica astatisticii test.(Problema inversa celei precedente).

Cand selectiile de care dispunem au un volum mic, se poatefolosi metoda bootstrap de re-selectie, care produce multereplici ale selectiei initiale, ce pot permite o abordare asimp-totica a analizei statistice a datelor originale ale selectiei.

35

Page 36: Verificarea ipotezelor statistice de I.V˘aduva

3. Verificarea ipotezei de normalitate unidimensionala,nu ridica nicio problema. Nu s-a mentionat ceva semnificativprivind verificarea ipotezei de normalitate multidimen-sionala. In acest sens, recomandam lucrarile [3,4] de la bibli-ografie care prezinta adaptarea testului de concordanta χ2 inacest caz.

3.1. Cazul specificat. S-a vazut ca testul χ2 presupuneca spatiul Rp = ∆,care reprezinta multimea valorilor vectoru-lui p-dimensional X ; N(µ,Σ), sa fie divizat in k parti dis-juncte, fara a se impune cum se alege diviziunea. In lucrarilementionate se pleaca de la ideea ca forma patratica

Φ(x) = (x− µ)′Σ−1(x− µ)

permite divizarea spatiului Rp in coroane de elipsoizi, deter-minate de k − 1 constante 0 < θ0 < ... < θk−1. Astfel spatiul R

p

se divide in k multimi disjuncte de forma

∆1 = x|0 ≤ Φ(x) ≤ θ1,∆i = x|θi−1 < Φ(x) ≤ θi, 2 ≤ i ≤ k−1,

∆k = x|Φ(x) > θk−1. (39)

Deoarece(X− µ)′Σ−1(X− µ) = χ2

p, (40)

adica are o repartitie χ2p, rezulta ca

p1 = P (X ∈ ∆1) = P (χ2p ≤ θ1), pi = P (X ∈ ∆i) =

= P (θi−1 < χ2p ≤ θi), 2 ≤ i ≤ k−1), pk = P (X ∈ ∆k) = P (χ2

p > θk−1).(40′)

Frecventele fi care intervin in testul de concordanta χ2 se cal-culeaza simpu, numarand valorile de selectie ce cad in ∆i, 1 ≤i ≤ k.

36

Page 37: Verificarea ipotezelor statistice de I.V˘aduva

3.2. Cazul nespecificat. In acest caz, constructia statisticiitestului de concordanta χ2 se realizeata in urmatorii pasi (pentruselectia X1, ...,Xn de volum n mare):

-se separa o (sub)selectie de volum n1 < n;- cu acesta selectie se estimeaza parametri µ si Σ cu formulele

obisnuite (adica µ ≈ X,Σ ≈ S); se observa ca variabilele

(Xi −X)′S−1(Xi −Xi), n1 < i ≤ n

sunt repartizate T 2n1−1 pe spatiul Rp.

- constructia continua ca in cazul specificat, elipsoizii fiindde acelas tip, dar probabilitatile teoretice pi se calculeaza curepartitia T 2

n1−1 pe Rp in loc de χ2p.

References

[1] Gheorghe MIHOC, Virgil CRAIU.(1977).Tratat de statis-tica matematica, Vol.II. Verificarea ipotezelorstatistice, Editura Academiei.

[2] Ion VADUVA. (1970). Analiza dispersionala. EdituraTehnica.

[3] Ion VADUVA and Nicolae POPOVICIU.(1979).”χ2 testof goodness of fit for multivariate normal distribution.Specified case”. Econ.Comp.Econ.Cyb.St. and Res.,No. 2,1979,p.93-109.

[4] Ion VADUVA and Nicolae POPOVICIU.(1980).”χ2 testof goodness of fit for multivariate normal distribu-tion.Unspecified case”. Econ.Comp.Econ.Cyb.St. and res.,No 1, 1980,p.33-42.

37