Transcript

9. SONDAJUL STATISTIC

9.1. Consideraţii generale

Creşterea necesarului de informaţii ce trebuie obţinute cu maximă operativitate a condus la extinderea utilizării sondajului statistic. Această expansiune a sondajului statistic se explică prin operativitatea şi economicitatea obţinerii datelor statistice. Mai mult sondajul statistic este caracteristic dezvoltării libere, economiei de piaţă, aşa cum rapoartele statistice sunt caracteristice economiilor centralizate. De asemenea în unele situaţii practice din tehnică, economie, societate, sondajul statistic este singura metodă de obţinere a informaţiilor statistice.

Prin sondaj statistic înţelegem procedeul prin care se caracterizează o populaţie statistică, pe baza cercetării unei părţi a acesteia, numită eşantion, mostră sau uneori selecţie, prelevată din populaţia generală cercetată.

Trebuie subliniat că toate afirmaţiile, concluziile statistice stabilite pe baza datelor provenite dintr-un sondaj, nu pot fi considerate de tip determinist, ele având un caracter statistic, există un risc ca ele să fie eronate, fiind efectuate în condiţiile unei anumite probabilităţi, deci cu un anumit nivel de încredere.

Metodele sondajului statistic nu-şi propun să elimine acest risc de eroare, ci să-l preevalueze, să determine probabilităţile concluziilor exacte sau aproximative.

Sursa principală a erorilor de sondaj o constitue erorile de reprezentativitate a eşantionului în raport cu populaţia de ansamblu.

Prin reprezentativitate se înţelege că, într-un număr mic de unităţi care formează un eşantion, să se găsească aceleaşi trăsături esenţiale ca în întreaga populaţie supusă cercetării.

Un sondaj care conduce la erori de maximum ± 5% faţă de populaţia de bază se consideră suficient de reprezentativ.

Teoretic, eroarea de reprezentativitate poate fi redusă oricât de mult, odată cu creşterea volumului eşantionului până la a îngloba întreaga populaţie. În acest caz dispar avantajele cercetării prin sondaj (de cost, timp etc.).

Să considerăm o populaţie statistică P de volum finit N şi E ⊂ P un eşantion de volum n. Parametrii populaţiei corespunzători unei caracteristici X, ca valoarea medie m, dispersia σ2, pot lua o singură valoare, pe când parametrii corespunzători asociaţi unui eşantion, pe care-i notăm de obicei cu x , respectiv s2 pot lua valori diferite de la eşantion la eşantion (de acelaşi volum sau de volume diferite) ceea ce ne

Sondajul statistic - 9 194

dă posibilitatea să-i interpretăm ca pe nişte variabile aleatoare cu valori şi frecvenţe de apariţie diferite.

Caracteristica X poate fi asimilată cu o variabilă aleatoare pe populaţia cercetată statistic, ea nu este determinată probabilistic apriori şi se mai numeşte variabilă aleatoare teoretică. Dacă variabila aleatoare X ia valori discrete, atunci legea ei de repartiţie poate fi dată prin funcţia frecvenţelor relative cumulate. Dacă variabila teoretică este continuă, atunci legea ei de repartiţie poate fi dată prin funcţia de repartiţie sau prin densitatea de repartiţie.

Am văzut că cele mai întâlnite legi de repartiţie depind de anumiţi parametri, care au interpretări semnificative ca medie ,dispersie etc.

Când o populaţie statistică poate fi considerată din punct de vedere practic infinită, singura metodă de cercetare a populaţiei după caracteristica X este cea a sondajului. Dacă efectuăm măsurători asupra a n unităţi statistice alese întâmplător cu o aceiaşi probabilitate, atunci valorile înregistrate {x1 ,x 2 ,…,x n } formează o valoare de observaţie a variabilei n-dimensionale ( X1 ,X 2 ,…,X n ), unde variabilele componente sunt independente, identic repartizate cu variabila teoretică asociată caracteristicii X.

Variabilele X1 ,X 2 ,…,X n fiind identic repartizate cu variabila teoretică X ( caracteristica populaţiei ) au aceiaşi valoare medie şi momente cu aceasta , numite şi caracteristici numerice teoretice ale populaţiei.

Să considerăm sondajul ( selecţia ) aleator { X 1 ,X 2 ,…,X n }, atunci orice funcţii de aceste variabile aleatoare S(X1 ,X 2 ,…,X n ), numită funcţie de selecţie sau statistică, este la rândul ei o variabilă aleatoare a cărei funcţie de selecţie este unic determinată de funcţia de repartiţie a variabilei aleatoare X care a generat această selecţie aleatoare. Pentru o realizare a sondajului (x 1 ,x 2 ,…,x n ), S(x 1 ,x 2 ,…,x n ) este un număr ce reprezintă o realizare prin sondaj (selecţie) a statisticii S(X 1 ,X 2 ,…,X n ).

Cunoaşterea legii de repartiţie a statisticii S(X 1 ,X 2 ,…,X n ) este foarte importantă deoarece ea permite să se tragă concluzii referitoare la caracteristica X a populaţiei statistice din care a provenit selecţia. Se numeşte repartiţie exactă a statisticii S = S n repartiţia determinată pentru orice volum de sondaj n, iar prin repartiţie asimptotică ( limită ) se înţelege repartiţia către care tinde repartiţia exactă când volumul n tinde către infinit.

Repartiţia exactă a statisticii S este deosebit de utilă în cazurile în care se impune folosirea unor eşantioane de volum redus ( n < 30 ). Dacă volumul eşantionului n este mai mare decât 30, atunci folosirea repartiţiei asimptotice conduce de asemenea la rezultate suficient de precise. În general, este dificil de stabilit repartiţia exactă sau asimptotică a unei statistici. Aceasta este strâns legată şi unic

9.1. Consideraţii generale 195

determinată de legea de repartiţie teoretică a variabilei X cercetate prin sondaj X. Un caz important, prin faptul că este frecvent întâlnit in practica statistică, în care se pot determina repartiţiile exacte pentru diferite statistici de sondaj, este cel în care repartiţia teoretică a caracteristicii care a generat selecţia este normală. În practică se întâlnesc de asemenea destul de multe situaţii când populaţia statistică are pentru o caracteristică o repartiţie diferită de una normală şi în acest caz determinarea repartiţiilor exacte ale variabilelor de selecţie este sau imposibilă sau prezintă dificultăţi practice deosebite. Dacă volumul de selecţie este foarte mare repartiţiile limită ale variabilelor de selecţie oferă avantaje practice foarte mari. În continuare prezentăm repartiţiile unor statistici de sondaj foarte importante pentru aplicaţiile lor. Teorema 1. Dacă (x 1 ,x 2 ,…,x n ) este o selecţie de volum n din o populaţie statistică

a cărei caracteristică studiată este repartizată normal de parametrii m şi σ , atunci media de selecţie

n

x x… xx n21 +++=

are o repartiţie normală de valoare medie m şi dispersie n

2σ.

Teorema 2. Dacă (x 1 ,x 2 ,…,x k ) şi (y 1 ,y 2 ,…,y n ) sunt două selecţii independente de volum k şi respectiv n din două populaţii ale căror caracteristici studiate au repartiţii teoretice normale de parametrii m1 şi 1σ şi respectiv m 2 şi 2σ , atunci variabila aleatoare diferenţă a mediilor de selecţie x - y are o repartiţie normală de valoare

medie m1 - m 2 şi abatere medie pătratică nk

22

21 σ−

σ.

Teorema 3. Dacă (x 1 ,x 2 ,…,x k ) şi (y 1 ,y 2 ,…,y n ) sunt două selecţii independente de volum k şi respectiv n din două populaţii ale căror caracteristici studiate au repartiţii teoretice normale de parametrii m1 şi 1σ şi respectiv m 2 şi 2σ , iar x , y sunt mediile de selecţie corespunzătoare şi

1k1s2

1 −= ∑ −

k

1

2i )xx( , s 2

2 = ∑ −−

n

1

2i )yy(

1n1

sunt dispersiile de selecţie

corespunzătoare, atunci variabila aleatoare ( statistica) de sondaj

nkkn

2nks)1n(s)1k(

)mm(yxt

22

21

21+

−+−+−

−−−=

Sondajul statistic - 9 196

are o repartiţie Student cu k+n-2 grade de libertate. Ca o consecinţă a teoremelor referitoare la repartiţiile limită se obţin teoreme care stabilesc repartiţiile asimptotice ale unor variabile aleatoare de sondaj obţinute prin selecţii dintr-o populaţie oarecare. O astfel de teoremă cu o importanţă deosebită în statistică este următoarea. Teorema 4. Dacă (x 1 ,x 2 ,…,x n ) este o selecţie de volum n ce constă din n observaţii independente dintr-o populaţie statistică a cărei caracteristică studiată are o repartiţie teoretică oarecare cu valoarea medie m şi abaterea medie pătratică σ finite, atunci media de selecţie

n

x… xxx n21 +++=

are pentru n tinzând la ∞ , o repartiţie normală de valoare medie m şi dispersie n

2σ.

Dintre indicatorii care definesc statistic o anumită colectivitate, media are cel mai înalt grad de sintetizare a tuturor valorilor luate de o caracteristică. Din acest motiv se consideră, ca principal măsurător al erorii de sondaj, diferenţa dintre media de selecţie şi media generală a populaţiei. Astfel eroarea de reprezentativitate datorată sondajului se poate măsura în mod absolut prin :

(9.1.1) e mx −=

Astfel definită, eroarea absolută de sondaj măsoară deplasarea absolută a indicatorului de sondaj x , faţă de indicatorul real m al întregii populaţii.

Ponderea erorii absolute în raport cu valoarea reală a parametrului populaţiei este dată prin :

(9.1.2) ε% 100m

mx⋅

−=

Deci media eşantionului x este reprezentativă pentru media întregii populaţii m dacă :

(9.1.3) %5100m

mx≤⋅

Se disting prin conţinutul lor, două tipuri de erori de reprezentativitate şi anume : a) erori de reprezentativitate sistematice, care provin din încălcarea principiilor

corecte de alcătuire a eşantioanelor (fiecare unitate statistică trebuie să aibe aceeaşi şansă de a face parte din eşantion).

b) erori întâmplătoare, care nu pot fi evitate, ele reflectând natura procedeului de sondaj, ca cercetare parţială a unui întreg.

Să presupunem că dintr-o cercetare anterioară se cunoaşte media generală a populaţiei. Calculând media unui eşantion şi comparând cele două medii spunem că

9.1. Consideraţii generale 197

am calculat eroarea efectivă. Dacă aceasta se încadrează în intervalul de variaţie de ± 5% spunem că eşantionul este suficient de reprezentativ. În foarte multe cazuri nu se dispune de o observare totală, atunci se pot utiliza mai multe sondaje de probă prin care se verifică stabilitatea mediei şi dispersiei.

În cazul în care la formarea eşantionului se utilizează o schemă probabilistă sau un procedeu derivat din acesta este posibilă calcularea mărimii erorii şi stabilirea prealabilă a acestei mărimi. Numai sondajul probabilist permite calcularea erorilor de selecţie şi interpretarea lor pe baza proprietăţilor diferitelor funcţii de probabilitate.

În practica sondajului statistic s-au dezvoltat diferite tehnici şi procedee de prelevare a unităţilor ce formează eşantioanele astfel încât să se asigure caracterul aleator al selecţiei şi reprezentativitatea eşantionului. Astfel distingem următoarele tipuri de sondaj :

a) sondaj simplu aleator repetat sau nerepetat ; b) sondaj stratificat ; c) sondaj de serii ; d) sondaj în mai multe trepte ; e) sondaj secvenţial ; f) sondaj dirijat ; g) sondaj sistematic sau sondaj mecanic ;

Spunem că se efectuează un sondaj repetat, dacă fiecare unitate extrasă din populaţia cercetată statistic este introdusă din nou în colectivitatea de bază, deci fiecare din unităţile populaţiei poate fi extrasă de mai multe ori.

În acest caz variantele de sondaj sunt independente între ele şi variabila de sondaj urmează o repartiţie de probabilitate după modelul “Shemei bilei revenite “ a lui Bernoulli. Printr-un sondaj repetat dintr-o colectivitate P de volum card P=N se pot extrage o infinitate de eşantioane de volum n < N, dar numai un număr finit de eşantioane pot fi distincte.

Această abordare a metodei de selecţie permite stabilirea de relaţii verificabile între indicatorii de variaţie ai populaţiei de bază şi ai eşantioanelor posibile.

Sondajul nerepetat, ca model, corespunde “Schemei bilei nerevenite” ce se caracterizează prin faptul că bila extrasă nu mai este pusă la loc în urnă. În acest caz o unitate statistică nu poate să apară decât o singură dată în şirul extragerilor, variantele de sondaj sunt dependente între ele iar numărul eşantioanelor este finit şi depinde de volumul populaţiei şi al eşantionului.

Din cele de mai sus rezultă că în ambele tipuri de sondaj se pot obţine mai multe eşantioane de acelaşi volum. Mediile acestora pot estima media populaţiei generale, dar putând diferi între ele, pot fi considerate ca valori diferite ale unei variabile aleatoare.

Fie S1 şi S2 două sondaje de acelaşi volum n în baza cărora se estimează media m a populaţiei generale P, pentru o variabilă X, prin mediile

21 ss x,x .

Spunem că sondajul S1 este mai eficient decât sondajul S2 dacă au loc relaţiile :

Sondajul statistic - 9 198

M ( )1sx = m M ( )

2sx = m şi σ ( )1sx < σ ( )

2sx

Aplicând inegalitatea lui Cebîşev variabilelor 1sx şi

2sx , având aceeaşi

valoare medie m, rezultă că pentru aceeaşi probabilitate ⎟⎠

⎞⎜⎝

⎛λ

− 211 media m se găseşte în

intervalele ⎥⎦⎤

⎢⎣⎡

⎟⎠⎞⎜

⎝⎛+⎟

⎠⎞⎜

⎝⎛−

1111

,ssss

xxxx λσλσ , respectiv, ( ) ( )[ ]2222

, ssss xxxx λσλσ +−

dintre care primul este mai mic, deci, putem spune că sondajul 1S este mai eficient

decât 2S . Sondajul aleator simplu, constă în prelevarea din populaţie a unităţilor la

întâmplare, fiecare unitate a populaţiei având aceeaşi şansă de a face parte din eşantion. Sondajul simplu aleator poate fi cu revenire sau fără revenire şi cu aceste particularităţi este o realizare practică a schemei cu bile a lui Bernoulli şi a modelului teoretic descris de repartiţiile binomială şi hipergeometrică.

Alcătuirea eşantioanelor (sondajelor aleatoare) cunoaşte mai multe procedee. a) Procedeul bilei revenite şi nerevenite, constă în identificarea unităţilor statistice,

prin numerotarea, cu bileţele, care sunt introduse într-o urnă, amestecate, după care se procedează în conformitate cu schema bilei revenite, respectiv nerevenite în alcătuirea eşantionului.

b) Procedeul tabelelor cu numere aleatoare, se aplică în general, populaţiilor de dimensiuni mari. Procedeul constă în utilizarea tabelelor cu numere aleatoare, adică sunt prelevate unităţile populaţiei ale căror numere de ordine stabilite printr-o numărătoare anterioară au fost citite după o anumită ordine din tabelul numerelor aleatoare.

Tabelele de numere aleatoare oferă serii de numere, rezultate în urma aplicării unui procedeu de tip loterie sau prin aplicarea calculatorului electronic prin programe specifice pentru generarea de numere aleatoare. c) Procedeul loteriei este procedeul aleator în care unităţile sunt perfect identificabile

şi sunt prelevate după corespondentul înregistrat pe bileţele amestecate şi extrase aleator dintr-o urnă.

d) Procedeul mecanic, constă în prelevarea unităţilor la intervale de timp sau numerice precise, adică se utilizează un anumit pas de numărare, ca bază a desfăşurării sondajului. Procedeul de prelevare a unităţilor se va porni cu o unitate oarecare aleasă aleator. Dacă dintr-o populaţie de N unităţi se formează un eşantion E de n unităţi atunci se va utiliza un pas K N n= / .

9.2. Sondajul aleator simplu 199

9.2. Sondajul aleator simplu

Acest tip de sondaj reprezintă varianta aleatoare elementară de sondaj. Celelalte tipuri de sondaj pot fi considerate ca particularizări ale acestui tip de sondaj. În una din cele două variante repetat, respectiv nerepetat el este şi cel mai des utilizat. Având în vedere importanţa şi frecvenţa cu care apar în descrierea unei populaţii

statistice valoarea mediei m, dispersia σ2

şi abaterea medie pătratică σ , vom considera ca punct central al acestui paragraf estimarea mediei şi dispersiei unei populaţii statistice folosind sondajul statistic.

Amintim că prin estimator al unui parametru al populaţiei statistice înţelegem o regulă care ne spune cum să calculăm o valoare aproximativă a acestuia folosind informaţiile din eşantion. El este în general exprimat printr-o formulă care exprimă exact cum valoarea reală a estimaţiei poate fi obţinută atunci când se cunosc datele din eşantion. Un estimator de tip interval foloseşte datele din eşantion pentru a calcula două valori reale distincte α β, astfel ca intervalul [ , ]α β să conţină valoarea parametrului estimat pentru întreaga populaţie. Putem spune că un estimator de tip interval este, de fapt, o regulă de a calcula două numere.

9.2.1. Sondajul aleator simplu repetat

Caracteristic acestui sondaj este faptul că unitatea observată revine în populaţia cercetată, ceea ce asigură stabilitatea repartiţiei caracteristicii cantitative (măsurabile sau numerice) cercetate.

Faptul că un indicator statistic al populaţiei calculat prin sondaj diferă de la eşantion la eşantion face ca acesta să poată fi interpretat ca o variabilă aleatoare şi astfel putem aplica metodele elaborate de statistica matematică. Dacă extragerea eşantionului s-a făcut după o schemă probabilistă, atunci media de selecţie este o variabilă statistică ce urmează o lege de probabilitate. Funcţia de probabilitate asociată depinde de volumul eşantionului şi stă la baza calcului erorii de reprezentativitate.

Să considerăm o populaţie statistică P de volum N (card P=N) pentru care notăm m şi σ2 valoarea medie, respectiv dispersia pentru caracteristica cercetată X. Prelevând un eşantion E de volum n (n= card E) şi înregistrând valorile caracteristicii X cercetate notăm cu x şi s2 valoarea medie şi dispersia corespunzătoare populaţiei de selecţie (din eşantion).

Indicatorul de sondaj

Sondajul statistic - 9 200

(9.2.1) xx

n

ii

n

= =∑

1 ,

reprezintă un estimator al mediei populaţiei.

(9.2.2) ,N

xm

N

1ii∑

==

Am notat cu ( ) N,1ixi = valorile caracteristicii X pentru întreaga populaţie,

iar cu ( ) n,1ixi = valorile caracteristicii X, înregistrate pentru un eşantion E. Un indicator de sondaj ( )x pentru a fi bun estimator al valorii

corespunzătoare a populaţiei trebuie să îndeplinească anumite condiţii : a) Să fie nedeplasat, adică valoarea medie a indicatorului de sondaj pentru orice

volum n finit al selecţiei să fie egal cu parametrul respectiv al populaţiei (în cazul nostru pentru x interpretat ca variabilă aleatoare de sondaj trebuie să avem M ( )x m= ) ;

b) Să realizeze estimaţii consistente, adică indicatorul de sondaj să conveargă în probabilitate, când volumul eşantionului creşte, către parametrul populaţiei ;

c) Să realizeze estimaţii eficiente, adică estimatorul privit ca o variabilă aleatoare să fie de dispersie minimă.

Printr-un estimator se realizează estimaţii (valori aproximative) valorilor reale ale parametrilor generali (teoretici) ai populaţiei statistice.

Rezultatele obţinute printr-un sondaj sunt afectate de erori. Prin sondaj nu se poate obţine valoarea reală a unui parametru analizat pentru o caracteristică a unei populaţii statistice ci un interval numit de încredere, care cu o probabilitate acoperă valoarea necunoscută a parametrului din populaţia statistică.

Limitele intervalului de încredere, minimă θ şi maximă θ se calculează ca funcţii depinzând de datele de selecţie n21 x,...,x,x astfel încât să fie îndeplinită o relaţie de forma :

P ( )θ θ θ α< < = −1

unde θ este parametrul estimat. Intervalul de încredere ( , )θ θ defineşte precizia estimaţiei. Probabilitatea 1− α numită probabilitate de încredere caracterizează

siguranţa cu care se afirmă că intervalul de încredere cuprinde valoarea teoretică estimată. Probabilitatea )1( α− se mai numeşte nivel de încredere iar α se numeşte

9.2. Sondajul aleator simplu 201

prag (nivel) de semnificaţie. Cu cât θ θ− este mai mic şi 1− α este mai mare, cu atât estimaţia este mai precisă şi încrederea în ea este mai mare.

Observaţiile n21 X,...,X,X în urma cărora se formează eşantionul { }n21 x,...,x,x , înţelegând prin eşantion măsurătorile efectuate, pot fi considerate variabile aleatoare, fiind calculate pe baza acestor măsurători. Între lungimea intervalului de încredere θ θ− şi coeficientul de încredere există o relaţie bine determinată. În practică se folosesc drept coeficienţi de încredere ( )%1− α valorile

95%, 98%, 99%. Jumătatea intervalului de încredere 2)( θ−θ se numeşte eroare limită admisă sau admisibilă.

În cazul sondajului aleator simplu repetat probabilităţile ( )ii xXP = sunt egale şi anume avem :

(9.2.3) P ( )N1xX ii == pentru orice i n= 1,

Folosind independeţa variabilelor n,1i,Xi = şi valorile lor din eşantioane

n21 x,...,x,x , se arată că media de sondaj

(9.2.4) ∑=

=+++

=n

1ii

n21 xn1

nx...xx

x

este un estimator nedeplasat al mediei m a populaţiei cercetate, deoarece se îndeplineşte condiţia ca media mediilor de sondaj (selecţie) să fie egală cu media generală a populaţiei, adică să avem : (9.2.5) ( ) mxM =

Relaţia (9.2.5) exprimă faptul că media de sondaj x este un estimator nedeplasat (nedistorsionat) al mediei populaţiei m, în cazul selecţiei simple aleatoare repetate.

Într-adevăr variabilele n,1i,Xi = iau valorile . x,...,x,x n21 Fie

{ }n,1s ; x )k(s = , nN,1k = valorile înregistrate pentru un eşantion )(kE , şi )k(x

media valorilor înregistrate pentru eşantionul )k(E . Valorile )k(x pot fi considerate ca fiind valorile variabilei x , ce a fost considerată ca un estimator al mediei populaţiei m. Pentru acest estimator parametrii tendinţei centrale (media) şi ai împrăştierii (dispersia) se obţin prin :

( ) mmn

xMn

xn

MxMn

i

n

ss

n

ss ===⎟⎟⎠

⎞⎜⎜⎝

⎛= ∑∑∑

=== 111

111)(

Sondajul statistic - 9 202

( ) .)(111)(1

22

21

22

1

22 ∑∑∑===

===⎟⎟⎠

⎞⎜⎜⎝

⎛=

n

s

n

kk

n

kk n

xn

xDn

xn

DxD σσ

Deducem că abaterea medie pătratică a mediei de sondaj x este :

(9.2.6) ,ns

nx ≈σ

adică dispersia mediei de sondaj într-un sondaj aleator simplu repetat de volum n este de n ori mai mică decât dispersia 2σ a întregii colectivităţi.

Considerând şirul de variabile de sondaj { } 1nnx ≥ de dispersie n

x)(2σ, şi

aplicând inegalitatea lui Cebîşev variabilelor 1nn }x{ ≥ obţinem :

P ( ) 2

2

n nL1Lmx σ−>≤− , pentru orice n≥ 1 , ceea ce arată că media de sondaj x

pentru un volum mare al eşantionului converge în probabilitate către media m a populaţiei.

Aceasta arată că x este un estimator consistent al mediei m a populaţiei.

9.2.2. Sondajul aleator simplu nerepetat

Să presupunem că pentru o populaţie statistică P de volum card (P) = N studiem o caracteristică X. Sondajul simplu presupune că eşantionul se alege la întâmplare din întreaga colectivitate. Faptul că este nerepetat înseamnă că o unitate statistică odată ce a fost extrasă nu mai este restituită populaţiei cercetate, deci nu mai are şanse să reintre în eşantion. Eficienţa unui astfel de sondaj depinde atât de variaţia caracteristicii studiate cât şi de volumul n al eşantionului (card Nn E <= ). O variaţie mare a caracteristicii studiate impune un volum mare al eşantionului pentru a asigura un grad sporit de reprezentativitate al eşantionului.

( )N1xXP 11 == reprezintă probabilitatea ca la prima extragere să obţinem

valoarea x1 a caracteristicii X. Ţinând seama că unitatea statistică cercetată nu mai revine în populaţie, probabilitatea obţinerii măsurătorii x2 la a doua extragere este

1N1

xXxXP

1122

−=⎟

⎠⎞⎜

⎝⎛

== respectiv la a k+1 -a extragere vom avea :

( )kN

kixXxXPiikk −

====++

1,1,11

9.2. Sondajul aleator simplu 203

Să considerăm ca estimator al mediei populaţiei date m, media de sondaj x . În acest caz al sondajului aleator simplu nerepetat se poate arăta că dispersia mediei de selecţie (sondaj) este dată de relaţia :

(9.2.7) 1NnN

ns

1NnN

n)x(D

222

x2

−−

⋅≅−−

⋅σ

==σ

Din (9.2.7) obţinem că abaterea medie pătratică a mediei de selecţie este dată prin:

(9.2.8) .Nn1

ns

1NnN

ns

1NnN

nx −≅−−

≅−−σ

În cazul când 2,0Nn< , de regulă, factorul

1NnN

−− se aproximează prin 1 ,

ceea ce face ca erorile sondajelor ce cuprind o parte a populaţiei să depindă numai de numărul absolut de observaţii şi de mărimea abaterii medii pătratice a întregii populaţii cercetate.

Relaţiile (9.2.7.) arată că precizia estimaţiei lui m prin x depinde foarte puţin de volumul N al întregii populaţii cercetate şi depinde mult mai mult de volumul n al eşantionului.

Când n creşte, precizia estimaţiei creşte de aproximativ n ori, raport cu care se micşorează abaterea medie pătratică xσ .

O astfel de dependenţă a estimaţiei de volumul eşantionului de selecţie n justifică utilizarea în practică de sondaje de volum n, relativ mic, deoarece pentru a ridica precizia în mod simţitor trebuie mărit considerabil volumul eşantionului.

Dacă volumul eşantionului n este comparativ mic în raport cu volumul

populaţiei N, atunci raportul Nn este suficient de mic ca să considerăm factorul

subunitar,

(9.2.9) K ,

N11Nn1

1NnN

−=

−−

=

prin care diferă 2x

σ , în cazul sondajului nerepetat, de valoarea corespunzătoare în

cazul sondajului repetat, aproximativ egal cu 1, şi deci cele două valori pot fi considerate aproximativ egale.Cum K este subunitar, întotdeauna eroarea sondajului fără revenire este mai mică decât eroarea corespunzătoare sondajului repetat. Într-adevăr revenirea unităţilor eşantion în populaţie, micşorează reprezentativitatea acestuia, prin posibilitatea apariţiei repetate a aceleeaşi unităţi în eşantion. Având în vedere aspectul menţionat cât şi faptul că în mod practic mai uşor se realizează un sondaj fără revenire, obţinem o justificare a utilizării, de obicei, a sondajului fără revenire.

Sondajul statistic - 9

204

Cum în aplicaţiile practice N este mult mai mare decât n putem neglija

rapoartele Nn şi

N1 şi concluziona că eroarea medie (precizia de sondaj) în cazul

sondajului simplu aleator depinde de volumul n al eşantionului, 2σ fiind o constantă. În consideraţiile de mai sus, asupra estimării mediei m a populaţiei generale,

s-a presupus cunoscută dispersia acesteia 2σ . Când aceasta nu se cunoaşte se recurge la un estimator al acesteia, pe baza observaţiilor de sondaj : n21 x,...,x,x , şi anume se recurge la dispersia de sondaj :

(9.2.10) ( )∑=

−=n

1i

2i

2 xxn1s

Pentru un sondaj repetat, dispersia de sondaj 2s este un estimator deplasat al dispersiei populaţiei 2σ , adică M 22 )s( σ≠ . Mai exact, ţinând seama de identitatea :

(9.2.11) ( )∑=

−−−=n

1i

22i

2 )mx(mxn1s

vom avea:

( ) ( )

( ) .n

nn1)mx(MmxM

n1

)mx(mxn1MsM

n

1i

222

x222

i

n

1i

22i

2

=

=

σ−σ=σ−σ=−−−=

=⎥⎦

⎤⎢⎣

⎡−−−=

Un estimator nedeplasat al dispersiei 2σ a populaţiei generale, în cazul sondajului de volum redus, se obţine dacă adoptăm pentru dispersia de sondaj formula:

(9.2.12) ( )∑=

−−

=n

1i

2i

2 xx1n

1s = 1−n

ns 2 ,

unde 1−n

n se numeşte corecţia lui Bessel.

Într-adevăr avem :

( ) ( )

,n

1n1n

n

n1nns

1nnMxx

n1

1nnMsM

22

222

n

1i

2i

2

σ=σ−

⋅−

=

=⎟⎟⎠

⎞⎜⎜⎝

⎛ σ−σ

−=⎟

⎠⎞

⎜⎝⎛

−=⎥

⎤⎢⎣

⎡⎟⎟⎠

⎞⎜⎜⎝

⎛−

−= ∑

=

9.3. Precizia şi siguranţa estimaţiei. Interval de încredere. Determinarea volumului de sondaj.

205

ceea ce arată că 2s este un estimator nedeplasat al dispersiei populaţiei generale 2σ .

Pentru n luând valori relativ mici 1−n

n este diferit de 1, dar pentru n mai

mare decât 50 putem considera 1−n

n aproximativ egal cu 1 şi în această situaţie s 2

poate fi considerat un estimator nedeplasat al dispersiei populaţiei 2σ . Utilizând cei doi estimatori ai lui 22 s,σ şi 2s , rezultă că în cazul sondajului

repetat dispersia mediei de sondaj poate fi estimată prin ,ns2

2x ≈σ respectiv

ns2

2x ≈σ , iar abaterea medie pătratică a mediei de sondaj poate fi exprimată

prin ,ns

x ≈σ respectiv ns

x ≈σ .

9.3. Precizia şi siguranţa estimaţiei. Interval de încredere. Determinarea volumului de sondaj

Fie x estimatorul mediei m a unei populaţii statistice, calculat pe baza datelor { }n21 x,,x,x K ale unui eşantion de volum n şi 0>δ astfel încât

δ<−mx . Numărul pozitiv δ cu această proprietate caracterizează precizia estimaţiei obţinute pe baza eşantionului extras.

Metodele utilizate de statistică nu permit o afirmaţie categorică asupra erorii estimaţiei. Se poate stabili numai probabilitatea ca inegalitatea de mai sus să fie satisfăcută. Evident că, cu cât δ este mai mic, cu atât diferenţa absolută mx − este mai mică şi estimaţia este mai exactă, dar această precizie a estimaţiei trebuie corelată cu siguranţa sau mai exact cu probabilitatea de încredere în estimarea făcută, care este de fapt probabilitatea cu care este îndeplinită inegalitatea δ<−mx . Această probabilitate este dată dinainte şi este foarte apropiată de 1.

În cele mai multe cazuri se ia egală cu 0.95, 0.99, 0.999. Probabilitatea de încredere se poate exprima prin: (9.3.1) ( ) α−=δ<− 1mxP sau în formulare echivalentă prin: (9.3.2) ( ) α−=δ+<<δ− 1xmxP

Sondajul statistic - 9

206

Intervalul ( )δ+δ− x,x ,care acoperă media m cu o probabilitate α−=1P , se numeşte interval de încredere pentru media m.

În vederea stabilirii intervalului de încredere pentru media m a populaţiei generale ne bazăm pe următorul rezultat.

Dacă printr-un sondaj simplu aleator sunt efectuate n observaţii (măsurători asupra unei caracteristici a n unităţi, asupra unei populaţii statistice de medie m şi abatere medie pătratică σ finite, atunci când n este relativ mare, distribuţia mediei de

sondaj x este aproximativ normal distribuită, de medie ( ) mxM = şi dispersie

nx

22 σσ =&&&

.

Aproximarea prin repartiţia normală este cu atât mai bună cu cât n este mai mare. Rezultatul enunţat mai sus este o exprimare a cunoscutei Teoreme limită centrală. În vederea stabilirii expresiei intervalului de încredere vom utiliza faptul că

repartiţia variabilei

(9.3.3) x

mxyσ−

=

este aproximată prin una normală ( )1,0N şi eşantionul de volum n este extras dintr-o populaţie: a) normal distribuită de medie m şi dispersie 2σ ,

b) oarecare, dar volumul n al sondajului este mare, iar dispersia 2σ este fie cunoscută, fie necunoscută şi estimată prin dispersia de sondaj s 2 .

În aceste condiţii avem

(9.3.4) ( ) ( ) α−=⎟⎟⎠

⎞⎜⎜⎝

⎛σδ

<σ−

<σδ

−=δ<−<δ−=δ<− 1mxPmxPmxPxxx

Utilizând normalitatea variabilei y definită de (9.3.3) şi relaţia (9.3.4), obţinem că:

(9.3.5) ασδ

σδ

σσδ

−=−⎟⎟⎠

⎞⎜⎜⎝

⎛Φ=⎟⎟

⎞⎜⎜⎝

⎛<

−<− 112

xxxx

mxP ,

de unde rezultă că putem considera

9.3. Precizia şi siguranţa estimaţiei. Interval de încredere. Determinarea volumului de sondaj.

207

(9.3.6) x

yσδ

=α ,

şi astfel avem

(9.3.7) ασ=δ yx .

De aici rezultă că intervalul de încredere pentru medie este

(9.3.8) xx yxmyx σ+<<σ− αα ,

unde αy este valoarea reală pentru care este satisfăcută relaţia

(9.3.9) ( )2

1 αα

−=Φ y

şi care poate fi luată din tabelul cu valorile funcţiei lui Gauss-Laplace Φ . Lungimea intervalului de încredere corespunzător probabilităţii α−=1P şi

volumului n al eşantionului este

(9.3.10) δ=σ+−σ+ αα 2yxyx xx .

Dacă trebuie estimată, pornind de la datele sondajului, valoarea caracteristicii

agregată pe întreaga populaţie mNxN

1ii ⋅=∑

=, atunci din (9.3.8) obţinem următorul

interval de încredere:

(9.3.11) ( ) ( )x

N

iix

yxNxyxN σσαα

+≤≤− ∑=1

.

În practica sondajului se operează cu eşantioane de volum mare şi eşantioane de volum redus, în funcţie de gradul de omogenitate al colectivităţii statistice. În cele două situaţii, interpretarea erorii de reprezentativitate se face în mod diferit: pentru eşantioanele de volum mare se foloseşte distribuţia normală a lui Laplace, iar pentru cele de volum redus se foloseşte distribuţia student.

În virtutea legii numerelor mari, mărirea volumului eşantionului sporeşte precizia rezultatelor şi reduce eroarea medie probabilă, dar în acelaşi timp criteriile de economicitate cer ca acelaşi volum de sondaj să fie cât mai mic.

Aceste considerente impun în organizarea unei cercetări prin sondaj o dimensionare raţională a volumului de sondaj, ceea ce înseamnă determinarea numărului minim de unităţi ce urmează a fi observate astfel ca exigenţele de precizie şi siguranţă formulate în raport cu cercetarea respectivă să fie satisfăcute.

Considerăm mai întâi cazul sondajului repetat. Din (9.3.7) se obţine

Sondajul statistic - 9

208

(9.3.12) ασ

=δ yn

,

de unde rezultă

(9.3.13) 2

22yn

δ

σ= α ,

în care αy se citeşte în tabelele funcţiei Gauss-Laplace, astfel ca ( )2

1 αα

−=Φ y .

Dacă dispersia 2σ a caracteristicii X a populaţiei generale, presupusă normală, nu este cunoscută, atunci aceasta se estimează în urma unui sondaj cu ajutorul dispersiei de sondaj s2 .

În cazul sondajului nerepetat înlocuind în (9.3.7) abaterea medie pătratică de sondaj xσ cu expresia corespunzătoare cazului unei caracteristici binomiale obţinem

(9.3.14) 1NnN

ny

−−σ

=δ α .

Dacă înlocuim abaterea medie pătratică σ a populaţiei generale prin estimaţia de sondaj vom avea:

(9.3.15) 1NnN

1nsy

2

−−

⋅−

=δ α .

Pentru determinarea volumului n al eşantionului, din (4.3.14) obţinem succesiv relaţiile:

(9.3.16) ( ) 222222

22 nyNy1Nn ,1NnN

ny σ−σ=δ−

−−

⋅σ⋅=δ ααα ,

(9.3.17) ( ) 222

22

1 σδ

σ

α

α

yN

Nyn

+−= =

222

22

11 σδ

σ

α

α

yNN

Ny

+−

‚.

Să presupunem că volumul colectivităţii generale N este foarte mare, adică

putem considera ∞→N . Dacă avem în vedere că atunci 1N

1N→

− şi 0

Ny 22

→σα

deducem că (9.3.17) şi (9.3.13) furnizează practic acelaşi volum n de sondaj indiferent dacă unităţile sunt reintroduse sau nu în cadrul populaţiei după înregistrarea caracteristicilor.

Din cele de mai sus observăm că pentru a dimensiona raţional volumul n al eşantionului sunt necesare următoarele date stabilite anterior:

9.4. Proporţia şi precizia estimării în cazul caracteristicii binare (alternative) 209

a) eroarea limită admisibilă δ care se stabileşte în funcţie de cerinţele solicitate practic în rezolvarea problemei, de precizia ce trebuie asigurată;

b) probabilitatea de încredere α−1 suficient de apropiată de 1, ceea ce practic asigură apropierea de certitudine în estimarea făcută;

c) dispersia caracteristicii 2σ a populaţiei generale sau a estimaţiei acesteia 2s . Aceste informaţii se pot obţine: din cercetări anterioare, în cazul în care se

presupune că variabilitatea caracteristicii nu s-a schimbat semnificativ, dintr-o cercetare prealabilă organizată pentru estimarea dispersiei, pentru validarea legii de repartiţie sau pentru estimarea valorii maxime a dispersiei şi deci pentru luarea în consideraţie a cazului cel mai nefavorabil.

Exemplul 1: Pentru determinarea timpului mediu de ardere a unor lămpi cu incandescenţă se cercetează prin sondaj un lot de 7500 lămpi. Din cercetări anterioare se cunoaşte că abaterea medie pătratică a duratei de funcţionare este

150=σ ore, iar caracterul distructiv al controlului impune un sondaj nerepetat. Pentru o probabilitate de încredere 99,01P =α−= căreia îi corespunde 33,2y =α să se determine volumul eşantionului n, atunci când se admite o eroare pro-

babilă de %5± din durata medie de funcţionare prezentată în standard 1000x = ore. Vom aplica, pentru determinarea volumului de sondaj n formula (9.3.7), unde

5010010005

±=⋅

=δ ore.

Vom obţine:

( )4955,48

15033,250749915033,27500

y1NNyn 222

22

222

22≈=

⋅+⋅⋅⋅

=σ+δ−

σ=

α

α lămpi

9.4. Proporţia şi precizia estimării în cazul caracteristicii binare (alternative)

Dacă o anumită caracteristică X a unei populaţii statistice posedă doar două modalităţi de exprimare (o piesă poate fi bună sau defectă, un muncitor poate avea o calificare corespunzătoare sau nu etc.), spunem că este o caracteristică alternativă sau binară. Dacă caracteristica X arată o anumită însuşire pe care o posedă unele din elementele colectivităţii, atunci unităţile statistice ale colectivităţii se pot aşeza în două grupe, una având K elemente posedând caracteristica X şi una având N-k unităţi care nu posedă însuşirea (caracteristica) X.

Sondajul statistic - 9 210

Dacă în urma extragerii unui sondaj E de volum n s-au obţinut măsurătorile { }

nxxx ,,,

21K şi dacă k posedă caracteristica X, iar n-k nu, putem identifica

măsurătorile efectuate prin 0xxx ,1xxx n2k1kk21 ======== ++ LL .% Proporţia din eşantionul E a elementelor care posedă caracteristica X este dată

de media

(9.4.1) ( )[ ]nkkn0k1

n1x

n1x

n

1ii =−⋅+⋅== ∑

=

şi este tocmai frecvenţa relativă a caracteristicii cercetate X pentru eşantionul E, pe care o vom nota cu f sau nf .

Frecvenţa relativă f a caracteristicii X în eşantion este un estimator nedeplasat

al probabilităţii p =NK

, a caracteristicii X în populaţia generală, deoarece din relaţia

generală ( ) mxM = rezultă pe baza consideraţiilor de mai sus că ( ) pfM = . Într-adevăr,

( ) ( )∑ ∑∑∑= ===

===⎟⎟⎠

⎞⎜⎜⎝

⎛=

n

1i

N

1ki

n

1ii

n

1ii N

1xn1xM

n1x

n1MxM

( )[ ]∑ ∑= =

=⋅⋅==−+⋅=n

1i

n

1ippn

n1

NK

n1KN0K1

N1

n1

Aplicând teorema lui Bernoulli care exprimă convergenţa în probabilitate a frecvenţei relative nf către probabilitatea p obţinem că

(9.4.2) ( ) 1pfPlimn

→ε<−∞→

.

ceea ce stabileşte că f este un estimator consistent pentru probabilitatea p. Dispersia 2σ a caracteristicii alternative X, în colectivitatea generală, se

obţine astfel:

(9.4.3)

( )

( ) ( ).p1pNK1

NKKN

NK0K

NK1

N1

NKx

N1mx

N1

22

N

1i

2

i

N

1i

2i

2

−=⎟⎠⎞

⎜⎝⎛ −=

⎥⎥⎦

⎢⎢⎣

⎡−⎟

⎠⎞

⎜⎝⎛ −+⎟

⎠⎞

⎜⎝⎛ +=

=⎟⎠⎞

⎜⎝⎛ −=−=σ ∑∑

==

În cele de mai sus realizările măsurătorilor din eşantion au fost considerate, în acelaşi timp,valori ale variabilelor aleatoare de sondaj, identic repartizate cu caracteristica populaţiei X.

9.4. Proporţia şi precizia estimării în cazul caracteristicii biliniare (alternative) 211

Ţinând seama de expresia abaterii medii pătratice de sondaj, rezultă că precizia cu care se estimează probabilitatea p prin frecvenţa relativă, în cazul sondajului repetat, respectiv nerepetat, se obţine ţinând seama că:

(9.4.4) ( )

np1p

f−

=σ ,

respectiv

(9.4.5) ( )

1NnN

np1p

f −−

⋅−

=σ .

În cazul sondajului repetat, intervalul de încredere pentru probabilitatea p este

(9.4.6) ( ) ( )

np1pyfp

np1pyf −

+<<−

− αα .

Dacă numărul N al unităţilor populaţiei generale este mare iar volumul eşantionului n este relativ mic în raport cu N, dar suficient de mare ( )30n ≥ , atunci intervalul de încredere pentru probabilitatea p în cazul sondajului nerepetat este dat prin:

(9.4.7.) ( ) ( )

1NnN

np1pyfp

1NnN

np1pyf

−−

⋅−

+<<−−

⋅−

− αα .

În cazul sondajului repetat, volumul n al eşantionului de sondaj în funcţie de probabilitatea de încredere şi eroarea admisă este dat prin:

(9.4.8) ( )

np1pyy

n 2

22f2

2

δ

−=σ

δ= αα ,

unde p se înlocuieşte prin frecvenţa relativă nkf = .

În cazul sondajului nerepetat, în vederea obţinerii volumului n al eşantionului de sondaj, în aceleaşi condiţii date, se porneşte de la relaţia:

(9.4.9) ( )

1NnN

np1pyy f −

−−=σ=δ αα ,

de unde se obţine

(9.4.10) ( )

( ) ( )p1py1NNp1py

n 22

2

−+δ−

−=

α

α ,

Sondajul statistic - 9 212

unde p se estimează cu ajutorul frecvenţei relative nkf = de volum n.

Exemplul 1: Dintr-un lot de volum 3000N = de produse s-a prelevat aleator şi nerepetat un eşantion de 300 produse. În urma controlului acestora, 9 produse au fost găsite cu defecte de fabricaţie şi considerate rebuturi. Să se estimeze procentul de rebuturi pe întregul lot pentru o probabilitate de încredere P = 0,975 căreia îi corespunde prin tabelul funcţiei Laplace valoarea 96,1y =α .

Avem 33,09009pf === , cu această valoare se estimează o abatere

pătratică de sondaj ( ) 00935,0

1NnN

np1p

f =−−−

=σ .

Scriind inegalităţile (9.4.7) cu datele corespunzătoare problemei se obţine ( )00935,096,103,0;00935,096,103,0p ⋅+⋅−∈ sau ( )0,046;012,0∈p .

9.5. Sondajul tipic (stratificat)

Sondajul tipic (stratificat) se recomandă atunci când populaţia cercetată este separată în grupe distincte, bine delimitate, care nu au elemente comune.

În această situaţie din fiecare grupă se extrage un număr fixat de unităţi după schema sondajului aleator repetat sau nerepetat, cu ajutorul tabelelor cu numere aleatoare, mecanic etc. În funcţie de scopul urmărit se poate face o grupare corespunzătoare a populaţiei generale. De exemplu, în analizarea unui produs al mai multor ateliere de producţie, sondajul se desfăşoară pe grupe de produse venind de la atelierele corespunzătoare. Dacă se cercetează angajaţii unei întreprinderi, aceştia pot fi împărţiţi în grupe după profesie şi vechimea în producţie.

Sondajul stratificat trebuie să asigure reprezentativitatea fiecărei grupe în eşantion, ceea ce înseamnă că este necesar să se găsească astfel de criterii de grupare, care să conducă la un grad cât mai mare de omogenitate în fiecare grupă.

O stratificare bine făcută trebuie să conducă la erori mai mici decât dacă aceeaşi colectivitate ar fi fost studiată pe baza unui sondaj aleator simplu.

Să considerăm populaţia generală P având ( ) NPcard = împărţită în k subpopulaţii numite grupe sau straturi. Fie acestea k21 G,,G,G K cu

( ) k1,i ,NGcard ii == şi să presupunem că pentru caracteristica X, cercetată prin sondajul stratificat, modalităţile de exprimare împărţite pe grupe sunt:

9.5. Sondajul tipic (stratificat) 213

(9.5.1)

.x,,x,x:G

x,,x,x:G

x,,x,x:G

kNk2k1k

2N22122

1N21111

k

2

1

K

L

K

K

Se observă că trebuie să avem (9.5.2) NNNN k21 =+++ L .

Dacă volumul eşantionului E extras este n ( )( )nEcard = şi

( ) k1,i ,nEGcard ii ==∩ , atunci

(9.5.3) nnnn k21 =+++ L .

Putem considera că din fiecare grupă (strat) s-a efectuat câte un sondaj şi s-au obţinut k eşantioane kk GEE ∩= , pentru care, corespunzător caracteristicii X, s-au înregistrat valorile:

(9.5.4)

knk2k1k

2n22122

1n21111

k

2

1

x,,x,x:E

x,,x,x:E

x,,x,x:E

K

L

K

K

Variabilele de sondaj jj,i n1,i ,k1,j ,x == , pot fi considerate ca nişte variabile aleatoare (statistice).

Cu notaţiile de mai sus avem:

(9.5.5.)

∑∑

=

= =

=

=

j

j

N

1ij,i

jj

k

1j

N

1jj,i

,xN1m

,xN1m

unde m este media generală a populaţiei pentru caracteristica X, iar jm este media corespunzătoare grupei (stratului) j. Între acestea există relaţia:

(9.5.6) ∑=

=k

1jjjmN

N1m ,

Sondajul statistic - 9 214

adică media valorilor caracteristicii X pentru întreaga populaţie P este media

ponderată a mediilor de grup jG cu ponderile k1,j ,NN j = .

Corespunzător eşantionului de sondaj stratificat putem scrie relaţiile următoare:

(9.5.7)

.xnn1x

xn1x

xn1x

k

1jjj

n

1iij

jj

k

1j

n

1iij

j

j

∑∑

=

=

= =

=

=

=

Ultima relaţie din (9.5.7) arată că media valorilor caracteristicii X din

eşantionul de volum ∑=

=k

1jjnn este egală cu media ponderată a mediilor grupelor, ale

valorilor caracteristicii din fiecare sondaj din grupă, ponderile fiind egale cu nn j ,

j= k,1 . Pentru estimarea mediei generale corespunzătoare populaţiei cercetate P ,după caracteristica X se consideră

(9.5.8) ∑=

=k

1jjj xN

N1x ,

care este media ponderată a mediilor jx obţinute în grupe.

Se demonstrează că ( ) mxM = şi deci, x este un estimator nedeplasat al mediei generale m. Se arată de asemenea că x este un estimator consistent al mediei generale m. Mai exact avem

(9.5.9) ( ) ( )j

2j

j

k

1j2

2j2

f1NN

xDσ

−−= ∑=

,

unde ( )j

jj

N

1i

2ij

j

2j N

nf ,mx

1N1ˆ

j

=−−

=σ ∑=

.

Relaţia (9.5.9) arată că dispersia variabilei x este cu atât mai mică cu cât volumele jn sunt mai mari şi dispersiile 2

jσ sunt mai mici. Rezultă deci că sondajul

9.5. Sondajul tipic (stratificat) 215

tipic dă rezultate acceptabile, dacă numărul unităţilor extrase din fiecare grupă este mare.

Să considerăm cazul sondajului repetat, atunci eroarea limită δ în funcţie de dispersia din populaţia de bază şi volumul de sondaj n, va fi:

(9.5.10) nˆ

y2σ

=δ α ,

de unde rezultă că pentru δ fixat volumul de sondaj n se obţine prin:

(9.5.11) 2

22 ˆynδσ

= α .

Pentru sondajul nerepetat se obţine:

(9.5.12) Nn1

y2

−σ

=δ α ,

de unde rezultă

(9.5.13)

Nˆy

ˆyn 222

22

σ+δ

σ=

α

α .

În cazul când 2σ se înlocuieşte prin estimatorul 2s se procedează în mod analog.

Volumul eşantionului depinde însă, în cazul sondajului tipic, şi de felul sondajului tipic utilizat. Ne vom referi în continuare la două tipuri frecvent utilizate de sondaj tipic şi anume: sondajul tipic proporţional şi sondajul tipic optim.

Definiţia 1. Spunem despre un sondaj tipic că este proporţional dacă din fiecare grupă tipică în care a fost împărţită populaţia generală se extrage un număr de unităţi, astfel ca raportul dintre numărul lor şi volumul grupei din care s-au extras să fie egal cu raportul dintre volumul general al eşantionului şi volumul populaţiei generale, adică

(9.5.14) k1,j ,fNn

Nn

fj

jj ====

Deci, sondajul tipic proporţional este un sondaj simplu, grupat, pentru care are loc relaţia (9.5.14). Din această relaţie deducem:

(9.5.15) k1,j ,fNNNnn jjj === .

Sondajul statistic - 9 216

Introducând această valoare a lui jn în relaţia (9.5.9) şi ţinând seama că

ff j = , rezultă că dispersia funcţiei de estimaţie statistică x este dată prin

(9.5.16) ( ) ∑=

σ−

=k

1j

2j

j ˆNN

nf1xD .

Definiţia 2. Spunem despre un sondaj tipic că este optim, dacă volumul sondajului de grupă jn este astfel dimensionat încât eficienţa să fie maximă.

Acest fapt revine la determinarea numerelor nj care să satisfacă condiţia:

(9.5.17) nnnn k21 =+++ L

şi pentru care

(9.5.18) ( ) ( )∑=

σ−=

k

1j j

2j

j

2j

n

ˆf1

N

NxD

să fie minimă. Utilizând metoda multiplicatorilor lui Lagrange se obţine

(9.5.19) k,1,2,j ,ˆN

ˆnNn k

1jjj

jjj K=

σ

σ=

∑=

.

Numerele jn exprimă volumele eşantioanelor ( )( )jjj nEcardE = , pentru care

eficienţa sondajului este maximă. Relaţia (9.5.19) arată că numărul unităţilor dintr-o grupă oarecare este proporţional cu numărul unităţilor din această grupă şi cu abaterea medie pătratică a grupei respective.

Înlocuind numerele jn , cu valorile date de (9.5.19) din (9.5.9) se obţine

dispersia funcţiei de estimaţie statistică x , dată prin relaţia:

(9.5.20) ( )⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

σ−⎟⎟⎠

⎞⎜⎜⎝

⎛σ

= ∑∑

=

= k

1j

2jj

2k

1jjj

2ˆN

n

ˆN

N1xD ,

ce pune în evidenţă eficienţa sondajului tipic optim.

9.6. Testarea ipotezelor statistice. Fundamentarea deciziilor bazate pe date de sondaj

217

9.6. Testarea ipotezelor statistice. Fundamentarea deciziilor bazate pe date de sondaj

Cercetarea selectivă (prin sondaj) are ca scop extinderea (extrapolarea) rezultatelor obţinute pe baza eşantionului la întreaga populaţie supusă investigaţiei (cercetării statistice).

În urma prelevării unui eşantion dintr-o populaţie statistică, prin prelucrarea datelor înregistrate la unităţile eşantionului, se obţine un estimator al unui parametru urmărit în populaţia cercetată prin sondaj. Problema care se pune în legătură cu un estimator este în ce măsură el asigură, pe baza sondajului, credibilitatea estimaţiilor parametrilor referitoari la întreaga populaţie. Rezultatul obţinut pe baza sondajului, printr-un estimator, este o propunere a nivelului unui indicator al populaţiei generale, este o ipoteză statistică, pentru care, evident, se impune o testare a încrederii care poate să i se atribuie.

Putem spune că, prin ipoteză statistică înţelegem o supoziţie asupra valorii unui parametru sau asupra unei repartiţii, aleasă ca model de distribuţie a valorilor caracteristicii studiate pentru o populaţie statistică.

Valoarea reală, dar necunoscută a parametrului din întreaga populaţie statistică nu poate fi estimată decât probabilist, prin stabilirea unei zone probabile a parametrului studiat.. Pentru diferiţi parametri ai unei populaţii statistice, studiate prin sondaj (selecţie), statistica oferă diferite metode de plasare a parametrului real între anumite limite cu o anumită credibilitate.

Metoda intervalului de încredere pentru medie oferă posibilitatea calculării a două limite, una inferioară şi alta superioară, în interiorul cărora media populaţiei să fie cuprinsă cu o probabilitate P = 1 - α. Intervalul determinat de cele două limite constituie intervalul de încredere.

Din statistica matematică se cunoaşte că, dacă dintr-o populaţie normal repartizată cu media m şi dispersia σ2 se extrage un eşantion de mărime n {x1, x2,..., xn}, atunci media sondajului

(9.6.1) n

xxxx n31 +++=

K,

considerată ca variabilă aleatoare de sondaj, se repartizează normal cu media m şi

dispersia n

2σ . Aceasta conduce la faptul că variabila aleatoare

Sondajul statistic - 9

218

(9.6.2) z

n

mxσ−

=

se repartizează normal, cu media 0 şi dispersia 1. Fie dată o probabilitate de încredere P = 1-α. Atunci se poate determina o

valoare zα astfel ca :

(9.6.3) α−==−φ=π

=<<− α−

−αα ∫

α

α

1P1)z(2dze21)zzz(P

z

z

2z2

,

unde φ este funcţia lui Gauss-Laplace.Inegalitatea (9.6.4) -zα < z < zα

devine, ţinînd seama de repartiţia variabilei statistice z,

(9.6.5) αα <σ−

<− z

n

mxz ,

de unde se deduce că:

(9.6.6) n

zxmn

zx σ+<<

σ− αα ,

cu zα soluţie a ecuaţiei 2φ(zα) = 1-2α

.

Dacă se cunoaşte dispersia σ2 a populaţiei statistice cercetate, normal

distribuite, pe baza datelor de sondaj, aceasta poate fi estimată prin formula :

(5.6.7) ( )

1n

xxs

n

1i

2i

2

−=∑= .

Considerând estimatorul de mai sus ca o variabilă aleatoare de sondaj se poate construi variabila aleatoare ( mărimea ) de sondaj

(9.6.8)

ns

mxt −= ,

9.6. Testarea ipotezelor statistice. Fundamentarea deciziilor bazate pe date de sondaj

219

care se repartizează după legea student (legea t, cum se mai notează o variabilă aleatoare de repartiţie student) [13] cu n-1 grade de libertate.

Fie Sn-1(x) funcţia de repartiţie asociată unei variabile aleatoare de repartiţie student cu n-1 grade de libertate, şi tα soluţia ecuaţiei:

(9.6.9) ( )2

1tS α−=α ,

atunci se obţine pentru media m a populaţiei generale intervalul de încredere de forma:

(5.6.10) nstxm

nstx αα +<<− .

Exemplul 1. În procesul de recepţie ce urmăreşte caracteristica de calitate a unui produs finit se extrage un eşantion format din trei produse. S-au obţinut măsurătorile: x1=1,2 , x2=1,4 , x3=1,3.

Din cercetări anterioare se cunoaşte că dispersia caracteristicii de calitate la acest produs este σ2=0,0256.

Să se construiască intervalul de încredere pentru medie utilizând o probabilitate de încredere P = 1 - α = 0,95 (un nivel de semnificaţie α = 0,05) [16].

Rezolvare. Utilizând tabelele cu funcţia lui Laplace, obţinem pentru ecuaţia 2φ(z) = 0,95 soluţia z0,05 = 1,96. Prin relaţiile (9.6.3) - (9.6.6) obţinem că:

95,0316,096,1xm

316,096,1xP =⎟

⎞⎜⎝

⎛+≤≤−

Media de sondaj pentru eşantionul extras este 3,13

4,13,12,1x =++

= .

În general, intervalul

( )181,0,181,0316,096,1,

316,096,1 +−=⎟⎟

⎞⎜⎜⎝

⎛+− xxxx

este un interval aleator, deoarece media de sondaj este o variabilă aleatoare (variază de la un sondaj la altul). Ceea ce putem afirma, în urma datelor obţinute prin eşantionul extras, este că, în intervalul (1,119 , 1,481) se va găsi valoarea medie reală a parametrului m cu probabilitatea 0,95.

Pentru a controla anumite fenomene statistice este necesar să se verifice anumite ipoteze statistice referitoare la dispersia σ 2 a unei populaţii statistice. În construirea unui interval de încredere pentru dispersia σ 2 a unei populaţii normale se

Sondajul statistic - 9

220

utilizează repartiţia χ2 şi faptul că variabila aleatoare 2

22 nsX

σ= se repartizează după o

lege χ2 cu n-1 grade de libertate [14],[20]. O variabilă aleatoare continuă are o repartiţie χ2 de parametrii n şi σ dacă

densitatea sa de repartiţie este dată prin relaţia (9.6.11). O proprietate esenţială a acestei repartiţii de probabilitate, care o face utilă în

statistică este aceea că, fiind date n variabile aleatoare independente de repartiţie normală redusă, atunci suma pătratelor lor este o variabilă aleatoare de repartiţie χ2, de parametri n şi σ = 1.

Pentru x ≥ 0, σ > 0, n∈∠ (9.6.11)

⎪⎪

⎪⎪

⎧⋅⋅

⎟⎠⎞

⎜⎝⎛Γσ

−−

0

ex

2n2

1

)x(d

22x

12n

22n

Pentru x < 0

Fiind dată probabilitatea de încredere P = 1 - α se pot determina două valori χ1 şi χ2.astfel încât să avem:

(9.6.12) α−=⎟⎟

⎜⎜

⎛χ<

σ<χ 1nsP 2

22

221

sau, în mod echivalent,

(9.6.13) α−=⎟⎟⎟

⎜⎜⎜

χ<σ<

χ1nsnsP 2

1

22

22

2.

Se obţine intervalul de încredere pentru dispersia σ2, sub forma:

(9.6.14) 21

22

22

2 nsns

χ<σ<

χ,

unde 2

21

21 α

−χ=χ satisface ecuaţia

21P 2

21

2 α−=

⎟⎟⎟

⎜⎜⎜

⎛χ>χ α

−, iar 2

2

22 αχ=χ satisface

relaţia 2

P 2

2

2 α=

⎟⎟

⎜⎜

⎛χ>χ α .

În continuare ne vom referi la testarea ipotezelor statistice pentru unele caracteristici referitoare la calitatea produselor.

9.6. Testarea ipotezelor statistice. Fundamentarea deciziilor bazate pe date de sondaj

221

Efectuând o cercetare statistică asupra proceselor de fabricaţie, se formează o anumită ipoteză cu privire la legea de repartiţie pe care o urmează caracteristicile de calitate şi la parametrii legii de repartiţie formulate.

Problema care trebuie testată este aceea dacă, fiind presupusă o repartiţie (lege) teoretică, într-adevăr în urma unui experiment de sondaj valorile înregistrate respectă legea presupusă şi dacă valorile parametrilor de sondaj estimează parametrii populaţiei generale cercetate.

Prin ipoteză statistică înţelegem presupunerea care se face la legea de repartiţie pe care o urmează o variabilă statistică şi cu privire la parametrii unei legi de repartiţie. Pentru o ipoteză statistică ce urmează să fie verificată se foloseşte termenul de ipoteză nulă H0.

Verificarea ipotezei H înseamnă, de fapt, verificarea a cel puţin 2 ipoteze, H şi non H. Pot apare diverse situaţii dintre care menţionăm:

- Dacă ipoteza H constă în faptul că parametrul σ al unei repartiţii normale este σ = σ0 şi alternativa ei non H constă în faptul că σ = σ1 , atunci spunem că se verifică o ipoteză simplă cu alternativă simplă.

- Dacă însă ipoteza H constă în σ = σ0 şi ipoteza non H în σ ∈ {σ1, σ2, ..., σk} se spune că se verifică o ipoteză simplă cu alternativă compusă.

Verificarea ipotezelor statistice constă în stabilirea unor reguli care precizează condiţiile în care se consideră că ipoteza nu concordă cu realitatea şi trebuie respinsă. Procedeul prin care se verifică o ipoteză statistică se numeşte test sau criteriu.

Pentru a accepta sau respinge o ipoteză statistică H, se efectuează un experiment prin care s-au realizat, de exemplu, n observaţii, în urma cărora s-au înregistrat măsurătorile x1, x2,..., xn. Relativ la un sondaj de volum n fixat şi o ipoteză statistică H, corespunde o partiţie a spaţiului euclidian Rn ,de forma:

(9.6.15) Rn = W ∪ W* , W ∩ W* = φ,

astfel încît dacă x = (x1, x2,..., xn) ∈ W* ipoteza se acceptă, iar dacă x ∈ W ipoteza se respinge.

Să considerăm, ca exemplu, un lot de produse din care orice produs poate fi corespunzător calitativ sau rebut.

Lotul este admis de beneficiar dacă procentul produselor rebutate este mai mic decât un număr P0. Procentul de rebut cuprins în întregul lot, necunoscut de altfel, poate fi estimat pe baza unui sondaj extras din lot. Fiecărui sondaj îi asociem un punct x = (x1, x2,..., xn) ∈ Rn cu xi = 1 dacă produsul de rang i este rebut, şi xi = 0, dacă produsul de rang i este corespunzător, n,1i = . În acest caz mulţimea W, numită şi mulţime critică, este definită prin:

(9.6.16) ( )⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

>⋅== ∑=

n

1i0in21 P100x

n1:x,x,xxW K .

Sondajul statistic - 9

222

La admiterea sau respingerea unei ipoteze statistice se pot face două tipuri de erori, numite de genul întâi şi respectiv de genul doi.

Se comite o eroare de genul întâi, atunci când ipoteza H se respinge în timp ce ea este justă şi se comite o eroare de genul al doilea, atunci când se acceptă ipoteza H în timp ce ea este falsă.

În practică, determinarea regiunii critice W a unui test se face pe baza unei statistici S(x1, x2,..., xn). Dacă este fixată probabilitatea α a erorii de genul întâi şi regiunea critică este definită de mulţimea W, atunci avem : (9.6.17) P[{(x1, x2,..., xn) ∈ W| H adevărată}]=α.

Probabilitatea erorii de genul doi β se exprimă prin: (9.6.18) P[{(x1, x2,..., xn) ∈ W*| non H}] = β, unde non H este ipoteza alternativă a ipotezei H.

În practică, probabilităţile α şi β de a comite erori trebuie să fie cât mai mici, ceea ce înseamnă că putem să ne aşteptăm ca aceste erori să nu se producă. Important este de a găsi cea mai bună regiune critică W pentru care probabilităţile βα , iau cele mai mici valori.

În practica verificării ipotezelor statistice referitoare la controlul statistic al calităţii loturilor de produse, probabilitatea α de comitere a erorii de genul întâi se numeşte riscul furnizorului (sau producătorului), iar probabilitatea β de comitere a erorii de genul al doilea se numeşte riscul beneficiarului sau riscul cumpărătorului.

Probabilitatea Π de respingere a unei ipoteze statistice pe baza unui test de verificare se numeşte puterea testului. Aceasta se exprimă prin relaţia:

(9.6.20) [ ]∏ −=∈= β1),,( 21 nonHWxxxP nK .

Dacă ipoteza H este justă, atunci puterea testului trebuie să fie cât mai mică. Dacă ipoteza H este falsă, atunci puterea testului trebuie să fie cât mai mare.

Verificarea ipotezelor constă, de fapt, în stabilirea regulii după care ipoteza se respinge pe baza testului. Aceasta impune cunoaşterea repartiţiei statisticii alese drept test de verificare şi stabilirea probabilităţii α de comitere a unei erori de gradul întâi, numită prag de semnificaţie care, de obicei, are ca valori practice 0,05, 0,02, 0,01. Pentru gradul de semnificaţie ales se defineşte regiunea critică. Dacă valoarea statisticii cade în această regiune, ipoteza trebuie respinsă, însemnând că s-a produs un fenomen atât de puţin probabil încât poate fi considerat practic imposibil. Complementara regiunii critice este regiunea valorii admise. Dacă valoarea statisticii cade în această regiune ipoteza trebuie respinsă, însemnând că s-a produs un fenomen atât de puţin probabil încât poate fi considerat practic imposibil. Complementara regiunii critice este regiunea valorilor admise. Dacă valoarea statisticii cade în această regiune înseamnă că valoarea statisticii nu contrazice ipoteza şi aceasta poate fi

9.6. Testarea ipotezelor statistice. Fundamentarea deciziilor bazate pe date de sondaj

223

admisă, dacă alte cercetări nu duc la concluzia contrară, deci nu înseamnă că neapărat ipoteza verificată este justă.

În continuare, ca exemple de teste statistice, ne referim la testul “z” şi testul “t” referitoare la media caracteristicilor.

Testul “z” se foloseşte pentru verificarea ipotezelor statistice referitoare la media populaţiilor repartizate normal, când se cunosc dispersiile teoretice σ2. Există mai multe forme pentru testul “z”, prezentăm una dintre cele mai utilizate. Vom utiliza o statistică de repartiţie normală cu parametrii m = 0 şi σ2 = 1.

Mai exact, vom utiliza, pentru a verifica ipoteza H: m = m0, de conformitate a mediei m a unei populaţii statistice cu o valoare presupusă m 0 , statistica z de forma :

(9.6.20)

n

mxz 0σ−

= ,

care are o lege de repartiţie normală redusă N(0,1), unde m0 este media teoretică. Pentru σ2 dispersia teoretică a populaţiei presupusă cunoscută, n volumul

sondajului efectuat asupra populaţiei şi x estimaţia de sondaj a mediei m, valoarea statisticii z calculată prin relaţia (9.6.20) se compară cu valoarea teoretică corespunzătoare zα , citită din tabelul funcţiei lui Laplace, atunci când un nivel de semnificaţie α a fost stabilit.

Dacă valoarea zc (calculată) este inferioară valorii tabelare zα putem considera că între media de sondaj x şi media teoretică m 0 practic nu există deosebiri.

Pentru un nivel de semnificaţie α fixat, pornind de la relaţia (9.6.20) se pot construi două limite z1 şi z2 astfel ca:

(9.6.21) α−=

⎟⎟⎟⎟

⎜⎜⎜⎜

≤σ−

≤ 1z

n

mxzP 20

1 .

Dacă alegem z1 = -z2 = 2

1z α−

,unde z2

−este definit prin

21)(

21

αα −=Φ

−z ,

atunci relaţia (9.6.21) devine:

Sondajul statistic - 9

224

(9.6.22) α−=

⎟⎟⎟⎟

⎜⎜⎜⎜

≤σ−

≤− α−

α−

1z

n

mxzP2

10

21

.

Din relaţia (9.6.22) rezultă regiunea critică:

(9.6.23)

( )

( )⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧ σ

+>∪

∪⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧ σ

−<=

α−

α−

210n21

210n21

zn

mx:,x,x,x

zn

mx:,x,x,xW

K

K

.

Dacă în urma sondajului efectuat, media caracteristicii cercetate cade în afara regiunii critice, atunci ipoteza H0: m=m0 se acceptă, iar dacă x cade în zona critică W, ipoteza H0 se respinge.

Un astfel de test de forma “z”, prin care se determină două limite, una inferioară şi alta superioară, se numeşte test bilateral şi se utilizează în cazul caracteristicilor cărora li se acceptă toleranţă dublă.

În practică se întâlnesc frecvent şi cazurile când o caracteristică de calitate prezintă numai o singură toleranţă, adică interesează m > m0 sau m < m0.

În astfel de cazuri se obţin regiuni critice de forma:

(9.6.24) ( )⎭⎬⎫

⎩⎨⎧ σ

−<= α− nzmx:,x,x,xW 10n21 K .

când caracteristica studiată este limitată numai inferior, respectiv

(9.6.25) ( )⎭⎬⎫

⎩⎨⎧ σ

+>= α− nzmx:,x,x,xW 10n21 K .

când caracteristica studiată este limitată numai superior. Exemplul 1. La controlul unui transport destinat exportului, reprezentantul

beneficiarului a trimis la analiză 10 probe în vederea testării conformităţii cu prescripţiile standard. Se controlează un singur parametru calitativ, fiind considerat esenţial, şi care trebuie să fie de 18%. În urma efectuării analizelor de laborator s-au obţinut, în procente, rezultatele: 17,8; 17,6; 18,2; 18,0; 17,8; 18,7; 18,0; 18,6; 17,9; 18,2. Se cunoaşte din cercetări anterioare, că pentru un nivel de semnificaţie α = 0,05, abaterea medie pătratică este σ = 0,5. Să se stabilească dacă transportul poate fi acceptat sau nu.

9.6. Testarea ipotezelor statistice. Fundamentarea deciziilor bazate pe date de sondaj

225

Rezolvare. Deoarece abaterea medie pătratică este cunoscută şi nu se fac nici un fel de precizări cu privire la limitarea valorii caracteristicii urmărite, aplicăm testul

z bilateral şi testăm ipoteza H0: m = 18%. Media de sondaj %.08,1810

8,180x ==

Pentru α = 0,05 se obţine valoarea tabelară 96,1zzz 975,0205,01

21

===−

α−

. Calculăm

factorul .3098,0z105,0z

n 975,02

1=⋅=⋅

σα

Cele două limite, superioară respectiv inferioară, vor avea valorile:

31,183098,018zn

m2

10 =+=σ

+ α−

, respectiv 69,173098,018zn

m2

10 =−=σ

− α−

.

Cum media de sondaj x = 18,08 ∈ (17,69, 18,31) rezultă că transportul corespunde condiţiilor de calitate cerute, adică ipoteza H0: m = 18 % a fost acceptată [16].

Atunci când pentru o populaţie statistică normal repartizată nu se cunoaşte dispersia teoretică, pentru verificarea ipotezelor referitoare la media populaţiei se utilizează testul “t” (student).

Testul “t” se bazează pe statistica “t” care are o repartiţie student. Testele “t” cu aplicabilitate mai frecventă sunt de următoarele forme:

t1) Când se verifică o ipoteză de forma H: m = m0, se utilizează statistica :

(9.6.26) ,

nsmxt 0−

=

unde x este estimaţia mediei teoretice m 0 , s este estimaţia abaterii mediei pătratice necunoscute, iar n este volumul sondajului efectuat asupra populaţiei, care are o repartiţie student cu g = n-1 grade de libertate.

t2) Când se verifică ipoteza egalităţii a două medii H0: m1 = m2 corespunzătoare la două colectivităţi normal distribuite, care au aceeaşi dispersie teoretică necunoscută, statistica “t” utilizată este :

(9.6.27) ( ) ( )

( )21

2121222

211

21

nn2nnnn

s1ns1n

xxt+

−+

−+−

−= .

În acest caz, statistica “t” are o repartiţie student cu g = n1 + n2 – 2 grade de libertate, 2

1s şi 22s fiind estimaţii ale dispersiei teoretice necunoscute.

Sondajul statistic - 9

226

t3) Când se verifică ipoteza egalităţii a două medii m1 şi m2, ce corespund la două populaţii normal distribuite, care au dispersiile teoretice inegale şi necunoscute, statistica “t” utilizată este:

(9.6.28)

2

22

1

21

21

ns

ns

xxt

+

−= .

şi ea are ( )

11

1

1

2

2

1

2

−−

+−

=

nc

nc

g grade de libertate, unde c se calculează prin:

2

22

1

211

1

ns

ns

1nsc

+

+= .

În toate cazurile de mai sus ale testului “t” regiunea critică este definită prin:

}:),...,{( ,2,1 αgn ttxxxW >= ,

unde tf,α se citeşte în tabelul valorilor repartiţiei student. Pentru a putea aplica testul “t” în cazurile t2) sau t3) trebuie mai întâi aplicat

criteriul “F” pentru a stabili care din cele două cazuri este potrivit a fi aplicat. Cu acest test “F” se verifică ipoteza egalităţii dispersiilor teoretice 2

1σ şi 22σ pentru două

populaţii normal distribuite. Fie 2

1σ şi 22σ dispersiile teoretice ale celor două populaţii normal distribuite.

Dacă 21s şi 2

2s sunt estimaţiile dispersiilor teoretice 21σ respectiv 2

2σ obţinute prin două sondaje, de volum n1, respectiv n2, atunci testul F se construieşte pe baza statisticii:

22

21

ssF = ,

care are o repartiţie Fisher cu (n1 – 1, n2 – 1) grade de libertate. Regiunea critică pentru testul “F” este definită de inegalitatea F > α−− ,1n,1n 21

F , unde α−− ,1n,1n 21

F se citeşte din tabelul distribuţiei Fisher, pentru nivelul de semnificaţie

α ales, şi cu 21s , 2

2s astfel numerotate ca F ≥ 1 [14], [16], [20].


Recommended