Upload
capuccino122
View
4
Download
0
Embed Size (px)
DESCRIPTION
statistica
Citation preview
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
121
Lp 9 Rezumat 6.7. Clasificri ale testelor statistice
6.7.1. Clasificare ca teste binare Se respinge H0 dac statistica testului, x, este "mai excen-
tric" dect -cuantila sau -cuantilele corespunztoare: teste unilaterale dreapta
x > x /2 (conform obs.2 din 6. 4., Lp 8)
teste unilaterale stnga
x < x 1 - /2 (conform obs.2 din 6. 4., Lp 8)
teste bilaterale x < x 1 - / 2 sau x > x / 2. n cazul distribuiilor de
eantionaj simetrice fa de origine (normala standard i t - urile), deoarece x 1 - / 2 = - x / 2, condiia se poate scrie sintetic | x | > x
/ 2.
6.7.2. Clasificare dup modul de tratare a variabilelor tip msurtoare Teste parametrice. Se aplic doar variabilelor tip msurtoare (parametri n sens larg) utilizndu-se ntreaga informaie. Sunt mai puternice, dar cer ca variabilele s ndeplineasc anumite condiii n populaie (gaussianitate a distribuiei, etc.) Teste neparametrice. Se aplic variabilelor calitative, rangurilor, precum i celor tip msurtoare tratate doar ca ranguri sau ca variabile calitative. Testele neparametrice sunt "libere" de forma distribuiei variabilelor n populaie, dar sunt mai puin puternice.
6.7.3. Clasificare dup tipul ipotezelor de verificat [14] 1 Teste de conformitate (sau de semnificaie n sens restrns) Compar un eantion cu o populaie n cel mai restrns mod. Verific dac un eantion dat poate fi considerat a fi extras dintr-o anumit populaie considernd doar un indicator particular. De exemplu,
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
122
compar "o medie empiric cu una teoretic". Sn i teste de semnificaie n sens restrns.
2 Teste de concordan (sau de ajustare) Compar un eantion cu o populaie n cel mai complet mod. Verific dac un eantion dat poate fi considerat a fi extras dintr-o anumit populaie (teoretic) considernd distribuiile acestora.
concordana toate conformitile posibile (concordana este o condiie mai tare dect conformitatea)
cel puin o nonconformitate nonconcordan. Testele de concordan resping mai uor (des) H0 dect testele de conformitate, dar cer volume mari de date. Testele de conformitate resping mai greu (rar) H0 dect testele de concordan, dar pot lucra cu volume mai mici de date. La acelai volum de date, NU este posibil ca un test de concordan s accepte H0 iar un test de conformitate s resping H0.
3 Teste de egalitate (sau de omogenitate sau de comparaie) Compar dou sau mai multe populaii prin tot attea eantioane considernd doar un indicator particular. De exemplu, compar dou medii empirice ori k medii empirice. Observaie: Cele 3 categorii de teste se ntlnesc n ntreaga statistic (uni, bi i multivariat). n statistica bivariat a variabilelor calitative se adaug "testele de independen versus asociere".
Teste de conformitate [3] Problem biologic Un anumit microorganism are un diametru mediu de 50 microni (valoare din literatura de specialitate). Un biolog studiaz o cultur i determin pe 10 microorganisme, diametrul mediu m1 = 56 microni i dispersia necorectat s1
2
= 49 microni. Poate fi microorganismul din literatur sau este altul? Ipoteza tiinific: Este altul pentru c 56 difer cam mult de 50, intuitiv, pe eantion de 10 uniti. Testul de conformitate (Testul Student pentru compararea unei medii empirice cu o medie teoretic): Cuplul de ipoteze statistice:
=
5050
10
10
:H:H
sau, mai corect, :H
)(:H
==
011
0010 50
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
123
Adic "Media populaiei din care a fost extras eantionul cu media m1
= 56 poate fi 50 sau nu?"
Etapele aplicrii testului statistic
Exemplu
1. Formularea clar a proble-mei pentru care se dorete o decizie.
Provine sau nu eantionul de medie m1 = 56 dintr-o populaie cu media =50 ?
2. Identificarea: a. variabilei ca tip i scal tip msurtoare, scal raport b. eantionului ca mod de extragere ca volum
eantion aleator simplu (cu revenire) n = 10 < 30, volum mic
c. informaiilor despre distri-buia variabilei n populaie (gaussianitate, simetrizabilita-te printr-o anumit transfor-mare etc.).
Distribuia diametrului unui microorganism ntr-o populaie omogen este considerat distribuit gaussian.
3. a. Stabilirea distribuiei de eantionaj care impune
b. statistica testului.
11
=
n/sm
t
tn-1 cu n=10 (Spunem
c statistica t urmeaz o lege Student cu n-1 grade de libertate.)
111
1
=
n/sm
t
4. Bazat pe 1-3 a. formularea cuplului ipote-za nul - ipoteza alternativ, care determin b. tipul de test (bilateral, unilateral stnga, unilateral dreapta)
H0: = 50 (=0) H1: 50 test bilateral
5. Stabilirea nivelului de semnificaie sub care vom respinge ipoteza nul (etap denumit impropriu regula de decizie).
= 0,05
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
124
6. a. Efectuarea calculelor
tm
s n1
1 0
1 156 507 9
67 3
62 33
2 58=
=
=
/ / / ,,
b. obinerea deciziei statistice prin: I) calcul manual: dac statistica testului este mai excentric dect -cuantila corespunztoare (din tabela Student) se respinge H0.
t1= 2,58 > 2,262* se respinge H0
II) calcul automat dac riscul de respingere a lui H0 corespunztor statisticii testului (notat c) < fixat la pct. 5 se respinge H0.
c 0,0287 0,03 < 0,05 se respinge H0
Observaie: Deoarece 0,01
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
125
1 Numrul de grade de libertate, (1) = c 1, n cazul testrii concordanei cu o distribuie uniform, (2) = c 2, n cazul testrii concordanei cu o distribuie produs de o lege Hardy-Weinberg, (3) = c 3, n cazul testrii normalitii (gaussianitii), adic a concordanei cu o distribuie normal (gaussian). (Vezi explicaiile n Exerciiile sau problemele rezolvate .) n general, = numrul de clase, c, minus numrul de legturi, adic de valori obinute din datele observate care sunt utilizate n calcularea frecvenelor teoretice.
2 Consultarea tabelei 2 Tabela conine n interior -cuantile, iar pe coloane ariile aflate sub curb la dreapta acestora (probabilitile de a se obine, din ntmplare, valori 2 mai mari dect valoarea -cuantilei respective). Pe linia sunt -cuantilele distribuiilor 2 cu grade de libertate.
3 Testul 2 de concordan Cuplul de ipoteze statistice: H0: distribuiile concord
HA: distribuiile nu concord.
Statistica testului este nt
oc
j j
j=
=1
22 , n care oj sunt frecvenele observate
(empirice), iar tj sunt frecvenele distribuiei teoretice de acelai volum n. Se fixeaz = 0,05. Dac 2 (calculat) > 2; 0,05
(tabelat) distribuia empiric nu concord cu distribuia teoretic respectiv, neconcordana fiind semnificativ (* sau p < 0,05). n caz contrar distribuia empiric concord cu distribuia teoretic respectiv (p 0,05).
4 Condiii de validitate ale testului 1. Se aplic numai frecvenelor (observate) absolute (n mod necesar valori ntregi pozitive), nu celor relative. 2. Frecvenele teoretice (care pot fi i valori fracionare pozitive) tj 5.
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
126
6.9. Teste de comparaie
6.9.1. Compararea a dou eantioane
1 Testul t de comparaie a dou medii empirice de observaii perechi
Fie seriile de cte n observaii perechi x1, x2,..., xn
i x'1, x'2,..., x'n extrase prin randomizare dintr-una sau dou populaii distribuite gaussian. Se verific dac mediile lor m, respectiv m' difer sau nu semnificativ, adic, notnd cu i ' mediile populaiilor de origine, testm cuplul de ipoteze:
H0: = ' HA: .
Se calculeaz diferenele di = xi - x'i, media lor, md i abaterea standard a diferenelor, sd.
Statistica testului: dt unde .n/s
mt
d
dd 1
=
Fixm . Numrul de grade de libertate este n 1, deoarece s-a pierdut un grad de libertate estimnd dispersia diferenelor n populaie, prin dispersia corectat a irului de diferene provenite din eantioanele de observaii perechi. Decizia statistic: Dac dt (calculat) > tn-1; /2 (tabelat) respingem ipoteza nul cu risc p < .
2 Testul t de comparaie a dou medii empirice de observaii independente
Fie x1, x2,..., xnA i y1, y2,..., ynB dou eantioane de volume mici (nA, nB < 30) prelevate independent din una sau dou populaii statistice n care variabila respectiv este distribuit gaussian. Se presupune i c abaterile standard n cele dou populaii sunt egale, ceea ce se consider ndeplinit dac cea mai mare abatere standard a unui eantion nu depete dou abateri standard ale celuilalt eantion [16]. Dorim s verificm dac mediile lor mA i mB difer semnificativ sau nu, adic, notnd cu A
i B mediile populaiilor de origine, testm cuplul de ipoteze:
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
127
H0: A = B HA: A B.
Statistica testului: ABt unde
BAe
BAAB
nns
mmt
11+
= , n care
2
222
+
+=
BA
BBAAe
nn
snsns este dispersia comun (corectat) a celor dou
eantioane considerate mpreun, iar sA2 i sB2 sunt dispersiile eantioanelor (se2 estimeaz dispersia fiecrei populaii).
Fixm . Decizia statistic: Dac ABt calculat > t; /2 (tabelat) respingem ipoteza nul cu risc p < unde numrul de grade de libertate =nA + nB 2. Observaie: Acest test necesit volume mai mari dect cel pentru observaii perechi, deoarece la variabilitatea cercetat s-a adugat zgomotul variabilitii aduse de folosirea a dou mulimi de uniti statistice, n locul uneia singure.
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
128
Lp 9 Teste, exerciii i probleme
TG9. Durata 100'' pe calculator. Alegeti propozitia corecta: Testele statistice sunt de urmatoarele categorii in functie de tipul ipotezelor de verificat: 1. teste bilaterale, unilaterale dreapta si unilaterale stanga; 2. teste parametrice si neparametrice: 3. teste de ajustare (concordanta), de independenta, de conformitate, de egalitate (omogenitate);
Compararea unei medii cu o medie teoretica se poate face prin: 1. testul chi2 2. testul F 3. interval de confidenta sau testul z sau Student
Dispunem de concentratiile de azotati in N lacuri din Delta, in anul 1980 si respectiv in anul 1995, din aceleasi N lacuri. Pentru a stabili daca, in acest interval de timp, s-a modificat concentratia calculam mediile acestora in cei doi ani si folosim:
1. analiza variantei 2. testul Student pentru observatii perechi 3. testul Student de comparare a doua medii empirice din esantioane independente
Ni se reclama cresterea poluarii cu azotati intr-o zona peste o anumita limita precizata. Pentru testarea afirmatiei se culeg n ( > 30) probe si se aplica: 1. testul Student unilateral 2. testul Student bilateral 3. analiza variantei
TC9. Durata 5'. 1. Testele statistice ca teste binare sunt fie teste ______________, fie teste _____________.
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
129
2. Testele statistice se construiesc pe baza unor populaii statistice ______________, iar testele biomedicale pe baza unor populaii statistice ___________.
3. Testele statistice aplicate msurtorilor (parametrilor n sens larg) care folosesc doar informaia referitoare la ranguri sau numai cea corespunztoare unor variabile calitative, se numesc teste ______________. 4. Utilizarea metodelor parametrice necesit ndeplinirea condiiei de _______________ a distribuiei caracterului n populaie. 5. Testele neparametrice necesit volume mai _______ de date dect testele parametrice pentru acceptarea _______. 6. Cu acelai volum de date, testele parametrice pot considera ca semnificative diferene ____________. 7. Se numesc teste de semnificaie n sens larg testele _____________, iar n sens restrns testele de _______________. 8. Compararea unei medii empirice cu o valoare teoretic este un test de __________________.
9. Testele de ________________ compar o populaie cu un eantion pe baza maximului de informaie, adic prin compararea ______________ acestora. 10. Testarea normalitii se realizeaz prin intermediul statisticii _________ cu _______ grade de libertate. 11. Testul t pentru observaii perechi este un test de ________________. 12. Testul t pentru observaii perechi este mai ________________ dect testul t de comparaie a 2 medii independente.
Exerciii sau probleme rezolvate
1 Teste de conformitate
1. S se verifice dac notarea studenilor din anul II Biochimie, n anul universitar 1998-99 la susinerea pentru prima oar a colocviului la disciplina Teoria probabilitilor i statistic matematic a fost normal ori indulgent sau exigent (vezi problema 1 din Lp 4) tiind c media general a celor 48 de studeni prezeni a fost m1 = 5,75, iar abaterea standard a fost s1 = 1,59.
Rezolvare: Trebuie s verificm conformitatea mediei empirice m1 = 5,75 cu media teoretic 0 = 5,5, valoare care rezult din problema 1 din Lp 4. Deoarece ne intereseaz normalitatea versus anormalitatea (indulgen sau exigen
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
130
semnificative) testul va fi bilateral, cuplul de ipoteze statistice de verificat fiind H0: 1 = 0; HA: 1 0, n care 1 este media populaiei statistice din care provine eantionul cu media m1. Statistica testului este:
1101
1
=
n/sm
t
=
.,,
1,591,7125
,
,,
,/,,
/,,, 081081
591856250
856591250
14859155755
==
=
.
Deoarece n = 48 (> 30) este un volum mare i este estimat suntem n cazul 2.1. (conform 5. 6. 2. din Lp 7) i deci statistica testului se distribuie normal standard. Ca atare respingem ipoteza nul dac t calculat este mai mare n modul dect 0,05-cuantila bilateral superioar a distribuiei normale standard (1,96 vezi Anexa 2). n cazul de aici deoarece 1,08 < 1,96 acceptm ipoteza nul. n concluzie, testul a fost calibrat normal, altfel spus, media 5,75 nu este semnificativ diferit de 5,5.
2 Teste de concordan
2. Dintr-o biocenoz s-a extras aleator un eantion format din 4 specii care au urmtoarea distribuie de abundene:
16 27 27 30s s s s 4321
S se verifice cu risc = 0,2 dac putem considera c speciile din biocenoz au o distribuie echitabil.
Rezolvare: O distribuie echitabil sau regulat (termeni din ecologie) se numete n statistic distribuie uniform. Deci trebuie testat concordana acestei distribuii empirice cu distribuia uniform de acelai volum n. Ipoteza nul se poate enuna n acest caz sub forma distribuia concord cu o distribuie uniform sau, mai precis distribuia concord cu distribuia uniform cu acelai volum. Analog se reformuleaz i HA. Numrul de grade de libertate = c 1 deoarece din c, numrul de frecvene (de valori distincte), se scade o doar o unitate pentru c exist o singur condiie de legtur: volumul
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
131
distribuiei teoretice trebuie s fie egal cu cel al distribuiei empirice (al eantionului). I. Calculm volumul total
=
=
c
jjon
1= 30 + 27 + 27 + 16 = 100.
II. Calculm frecvenele teoretice n ipoteza de uniformitate: .254
100==jt
III. Verificm condiia tj 5 pentru orice j. ntr-adevr, 25 5. IV. Pregtim calculul lui 2 pentru testarea concordanei, n tabelul urmtor:
Nr. frecven
oj oj2 tj oj
2 / tj Diagrame n batoane pentru cele dou
distribuii (empiric - batoane albe i teoretic uniform - batoane negre):
1 2 3 4
30 27 27 16
900 729 729 256
25 25 25 25
36,00 29,16 19,16 10,24
Totaluri: n = 100
n =
100 104,56
0
10
20
30
V. Calculm nt
o
j j
j=
=
4
1
22 = 104,56 100 = 4,56
VI. Numrul de grade de libertate = 4 1 = 3. Consultnd tabela 2 din Anexa 4 pe linia 3 i coloana lui = 0,2 obinem valoarea 4,642, notat 23; 0,2. Deoarece valoarea calculat (4,56) este mai mic dect cea tabelat pentru nivelul de semnificaie = 0,2 (adic 4,642), acceptm ipoteza nul, deci acceptm concordana cu distribuia uniform respectiv.
VII. n concluzie, putem considera c biocenoza are o distribuie echitabil sau c nu avem suficiente date pentru a considera, eventual, contrariul (p 0,2).
3. Dintr-o biocenoz s-a extras aleator un eantion format din 5 specii care au urmtoarea distribuie de abundene:
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
132
8 20 40 60 100 54321 s s s ss
S se verifice dac putem considera c speciile din biocenoz au o distribuie echitabil.
Rezolvare: (I) n = 228. (II) tj = 45,6. (III) 45,6 5. (IV-V) n
t
o
j j
j=
=
5
1
22 =
343,51 228 = 115,51. (VI) = 5 1 = 4. Deoarece valoarea 115,51 este foarte mare consultm tabela 2 din Anexa 4 la cel mai nalt nivel de semni-ficaie i anume = 0,001. 24; 0,001 = 18,467.
0
20
40
60
80
100
Deoarece valoarea calculat (115,51) este mai mare dect cea tabelat (24; 0,001 = 18,467), respingem ipoteza nul cu risc sub 1. Deci putem afirma cu risc sub 1 c distribuia empiric nu concord cu distribuia uniform cu acelai volum sau putem afirma c ntre distribuia empiric i cea uniform cu acelai volum exist o discordan nalt semnificativ (*** p < 0,001). (VII) n concluzie, putem considera cu risc sub 1 c biocenoza nu are o distribuie echitabil (*** p < 0,001).
4. ntr-un eantion extras aleator dintr-o populaie biologic, frecvenele absolute ale genotipurilor AA, Aa i aa sunt
30 120 100 aaAA Aa
. S se verifice dac
mperecherea n cadrul populaiei se face la ntmplare.
Rezolvare de principiu:
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
133
n genetica populaiilor [7] arat c dac mperecherea se face la ntmplare, frecvenele relative genotipice trebuie s aib, conform legii Hardy-Weinberg,
distribuia
22 2 pq q p
aaAA Aa , n care p, respectiv q sunt frecvenele relative
n populaie ale alelelor A, respectiv a. Din punct de vedere statistic, verificarea cerut pentru genotipuri presupune testarea concordanei distribuiei de frecvene absolute observate (oj) cu distribuia de frecvene absolute teoretice n ipoteza aplicrii legii Hardy-Weinberg (tj), distribuie cu acelai volum n. Cuplul de ipoteze de verificat este: H0: distribuiile concord; HA: distribuiile nu concord, ceea ce, n acest caz, nseamn pentru H0 c distribuia concord cu distribuia produs de legea Hardy-Weinberg, distribuie cu aceleai proporii de alele i acelai volum.
Statistica testului este nt
o
j j
j=
=
3
1
22 . Dac 2 calculat este mai mare dect
cel tabelat la = 3 2 = 1 grad de libertate, se respinge ipoteza nul. (n caz contrar, se accept.) Din 3, numrul de frecvene (de valori distincte), se scad dou uniti deoarece exist dou condiii de legtur: prima este dat de faptul c volumul distribuiei teoretice trebuie s fie egal cu cel al distribuiei empirice (al eantionului) n, iar a doua provine din faptul c frecvenele teoretice au fost calculate pe baza frecvenei p estimat prin datele eantionului. (Deoarece q deriv din p fiind egal cu 1 p, calculul lui q nu aduce o nou legtur). Revenind n cadrul geneticii populaiilor, vom accepta mperecherea ntmpltoare atunci cnd se accept ipoteza nul i o vom respinge n caz contrar. Rezolvare efectiv (Etape de calcul): I. Estimm p i q n populaie prin valorile lor din eantion:
Indivizi Alele A Alele a Calculm frecvenele relative ale alelelor:
100 120 30
AA Aa aa
2 100 = 200 120
120 2 30 = 60
Total alele:
p = 320 / 500 = 0,64 q = 180 / 500 = 0,36
Totaluri: 320 180 500 (Verificare: p + q = 0,64 + 0,36 = 1.)
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
134
II. Calculm volumul total de indivizi =
=
3
1jjon = 100 + 120 + 30 = 250.
III. Calculm pentru genotipuri:
a. frecvenele relative teoretice n ipoteza aplicrii legii Hardy-Weinberg:
p2 = 0,642 = 0,4096
2pq = 2 0,64 0,36
= 0,4608
q2 = 0,362 = 0,1296
(Verificare: p2+2pq+ q2 = 1)
b. frecvenele absolute teoretice n ipoteza aplicrii legii Hardy-Weinberg, prin multiplicarea cu n (= 250) a frecvenelor relative:
t1 = p2n = 0,4096 250
= 102,4
t2 = 2pqn = 0,4608 250
= 115,2
t3 = q2n = 0,1296 250
= 32,4
(Verificare: t1+ t2+ t3 = n)
IV. Verificm condiia tj 5 pentru orice j. ntr-adevr, 102,4 5 115,2 5; 32,4 5.
V. Pregtim calculul lui 2 pentru testarea concordanei, n tabelul urmtor: Genotip oj oj2 tj oj2 / tj
AA Aa aa
100 120
30
10000 14400
900
102,4 115,2
32,4
97,6563 125,0000 27,7778
Totaluri: 250 250 250,4341
0
20
40
60
80
100
120
VI. Calculm nt
o
j j
j=
=
3
1
22 250,434 250 = 0,434.
VII. Numrul de grade de libertate = 1. Consultnd tabela 2 din Anexa 4 pe linia 1 i coloana lui = 0,05 obinem valoarea 3,841 notat 21;0,05. Deoarece valoarea calculat (0,434) este mai mic dect cea tabelat pentru nivelul de semnificaie standard = 0,05 (adic 3,841), acceptm ipoteza nul, deci acceptm concordana cu distribuia dat de legea Hardy-Weinberg.
Observaia 1: n acest caz 0,434 < 21;0,2 = 1,642, deci respingerea s-ar face cu un risc i mai mare, p 0,2. (Observaia 2: A nu se confunda aceast probabilitate p, cu proporia p din distribuia dat de legea Hardy-Weinberg, ambele notaii tradiionale.)
VIII. n concluzie, putem considera c mperecherea se produce la ntmplare n populaia respectiv (p 0,05, de fapt, innd cont de observaia 1, p 0,2) sau c nu avem suficiente date pentru a considera, eventual, contrariul.
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
135
Observaie: Referitor la legea Hardy-Weinberg pentru dou alele pe acelai locus putem formula urmtoarea regul simpl: Dac 2 < 3,841 considerm c mperecherea se produce la ntmplare n populaia respectiv sau c nu avem date suficiente pentru a considera, eventual, contrariul. Dac 2 3,841 afirmm cu un risc sub 5% c mperecherea nu se produce la ntmplare n populaia respectiv.
5. ntr-o populaie biologic frecvenele absolute ale genotipurilor MM, MN i NN sunt
200 300 200 NNMM MN
. S se verifice dac mperecherea n cadrul
populaiei se face la ntmplare. Rezolvare: Considerm populaia biologic drept un eantion extras aleator de ctre natur dintr-o populaie statistic pentru care vrem s verificm existena legii Hardy-Weinberg i aplicm metodologia din problema anterioar. (I) p = 0,5; q = 0,5 (II) n = 700. (IIIa) p2 = 0,25; 2pq = 0,5; q2 = 0,25. (IIIb) t1 = 175; t2 = 350; t3 = 175. (IV) 175 5; 350 5; 175 5. (V-VI) 2 = 14,286. (VII) Deoarece valoarea calculat (14,286) este mai mare dect cea tabelat n Anexa 4 linia 1 (21; 0,001 = 10,827) respingem ipoteza nul cu risc sub 1. Deci putem afirma cu risc sub 1 c distribuia empiric nu concord cu distribuia cu aceeai proporie i acelai volum dat de legea Hardy-Weinberg sau, mai precis, c ntre acestea exist o discordan nalt semnificativ (*** p < 0,001).. (VIII) Afirmm cu risc sub 1 c mperecherea nu se produce la ntmplare n populaia respectiv (*** p < 0,001).
6. S se testeze normalitatea (vezi problema 1 din Lp 4) distribuiei notelor finale obinute de anul II Biochimie, n anul universitar 1998-99, la susinerea pentru prima oar a colocviului la disciplina Teoria probabilitilor i statistic matematic:
1 0 5 10 13 5 12 1 110 9 8 7 6 5 4 3 2
.
Rezolvare: Cuplul de ipoteze de verificat este: H0: distribuiile concord; HA: distribuiile nu concord. Pentru H0 putem spune i c distribuia concord cu o distribuie normal ceea ce nseamn c distribuia concord cu distribuia
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
136
normal cu aceeai medie, aceeai abatere standard i acelai volum.
Statistica testului este nt
oc
j j
j=
=1
22 , n care oj sunt frecvenele observate
(aici cele de mai sus), tj sunt frecvenele teoretice ale distribuiei normale de aceeai medie i abatere standard, iar n reprezint volumul fiecrei distribuii. Dac 2 calculat este mai mare dect cel tabelat pentru = c 3 (c fiind numrul de frecvene de clase) se respinge ipoteza nul. n caz contrar, se accept. Observm c se pierd 3 grade de libertate prin utilizarea (1) mediei, (2) abaterii standard corectate ale eantionului pentru estimarea mediei i abaterii standard ale distribuiei normale, precum i (3) volumului eantionului n calculul frecvenelor teoretice ale distribuiei normale. I. Calculm media i dispersia distribuiei empirice, prin formulele de calcul
rapid i exact pentru o distribuie de frecvene absolute (vezi observaia din EGA 1, Lp 3), precum i abaterea standard: oj xj xj
2 oj xj oj xj
2
1 1
12 5
13 10 5 1
2 3 4 5 6 7 8
10
4 9
16 25 36 49 64
100
2 3
48 25 78 70 40 10
4 9
192 125 468 490 320 100
n
Tm 1= = 75,5
48276
=
222 Mn
Ts = = 2755
481708
, =
062533583335 ,, =2,5208
n =
48 Sume: T1 =
276 T2 =
1708 6152082 ,,s =
II. Determinm frecvenele distribuiei normale de medie 5,75 i abatere standard 1,6 corespunztoare intervalelor notelor. Pentru aceasta:
a. stabilim limitele claselor (intervalelor), yj, care reprezint notele (de exemplu, nota 2 nseamn scor < 2,5; nota 3 nseamn scor n intervalul [2,5; 3,5), , nota 10 nseamn scor 9,5.
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
137
b. calculm scorurile zj pentru fiecare limit de intervale, conform
formulei s
myz
jj
= (vezi Lp 3) i pentru fiecare scor zj consultm Anexa 2, determinnd astfel ariile relative aflate la dreapta limitelor de intervale:
c.
yj zj arii relative (i) la
dreapta pct. zi
arii relative ntre limite consecutive
di=(i-1-i)
arii (frecvene) absolute ntre limite
consecutive ( tj = ndi=48di )
- - 1 0,0212 1,02
2,5 -2,03 0,9788 0,0581 2,79
3,5 -1,41 0,9207 0,1384 6,64
4,5 -0,78 0,7823 0,2187 10,50
5,5 -0,16 0,5636 0,2444 11,73
6,5 0,47 0,3192 0,1813 8,70
7,5 1,09 0,1379 0,0952 4,57
8,5 1,72 0,0427 0,0331 1,59
9,5 2,34 0,0096 0,0096 0,46
Totaluri de control: 1 48 n penultima coloan am calculat ariile relative cuprinse ntre dou limite consecutive (de exemplu aria gri, haurat de mai sus care este 2,79), arii ce se determin scznd aria mai mic din cea mai mare, iar n ultima coloan am scris ariile absolute sub distribuia normal de medie 5,75, abatere standard 1,6 i volum 48, adic frecvenele distribuiei normale care ne intereseaz. Acestea se determin prin amplificarea cu volumul n (= 48) a datelor din penultima coloan.
III. n vederea calculrii lui 2:
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
138
a. centralizm rezultatele n tabelul urmtor, dup modelul din [3] pagina 157:
Note Intervale Frecvene observate
oj
Frecvene teoretice
(n ipoteza de normalitate) tj
Diagrame n batoane pentru cele dou distribuii (empiric - batoane
albe i normal - batoane negre):
2 3 4 5 6 7 8 9
10
( -, 2,5) [2,5; 3,5) [3,5; 4,5) [4,5; 5,5) [5,5; 6,5) [6,5; 7,5) [7,5; 8,5) [8,5; 9,5) [9,5; +)
6105
1013
5
1412
11
65646059160470873115010
4510646792021
,
,
,
,
,
,
,
,
,
,
,
02468
101214
2 3 4 5 6 7 8 9 10
b. dar deoarece exist frecvene teoretice mai mici dect 5 (cele marcate cu semnul ), pentru ca testul 2 s fie valid, comasm intervalele cu frecvenele marcate prin acolad, obinnd urmtorul tabel la care am adugat coloanele necesare calculului lui 2 (vezi, de asemenea, modelul din [3] pagina 157):
Notele Intervalele oj oj2 tj oj2 / tj 2, 3, 4
5 6 7
8, 9, 10
( -; 4,5) [4,5; 5,5) [5,5; 6,5) [6,5; 7,5) [7,5; +)
14 5
13 10
6
196 25
169 100
36
10,45 10,50 11,73
8,70 6,65
18,76 2,38
14,41 11,49
5,41 Totaluri: 48 48,03 52,45
0
5
10
15
2,3,4 5 6 7 8,9,10
IV. Calculm nt
o
j j
j=
=
5
1
22 = 52,45 48 = 4,45.
V. Numrul de grade de libertate = 5 3 = 2. Consultnd tabela 2 din Anexa 4 pe linia 2 i coloana lui = 0,05 obinem valoarea 22; 0,05 = 5,991. Deoarece 4,45 < 22; 0,05 = 5,991, acceptm ipoteza nul, deci acceptm concordana cu distribuia normal respectiv (p 0,05). Deoarece 4,45 < 22; 0,1 = 4,605, concordana este chiar mai bun (p 0,1).
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
139
VI. n concluzie, notele obinute se distribuie normal, ceea ce trebuie s se ntmple atunci cnd un lot este pregtit omogen, iar modul de notare este bine calibrat. (Acest lucru s-a produs deoarece nota fiecrui student este o medie ponderat a cte 3 note primite la fiecare lucrare practic i a trei note din colocviu. Astfel, notele finale nu au un caracter conjunctural, ci descriu comportamentul pe ntregul semestru. Prin combinarea a foarte multe teste aplicate continuu s-a redus la minimum falsul pozitiv i cel negativ al notrii finale, care astfel poate fi normal n condiiile de mai sus: omogenitatea pregtirii i buna calibrare.)
3 Teste de comparaie
7. n vederea evalurii rezistenei la un agent poluant a dou specii de peti, dou loturi extrase aleator din cele dou specii au fost supuse unui tratament cu aceeai concentraie de agent poluant. S-au notat timpii de supravieuire ai fiecrui individ (exprimai n ore) i au rezultat seriile urmtoare:
Specia A: 12 10 14 11 12 15; Specia B: 17 15 14 20 18 17.
Cele dou specii rezist la fel la concentraia dat a agentului poluant sau nu?
Rezolvare cu tabele: Tratare parametric, deoarece distribuia caracterului n populaie este gaussian (legea toleranei). Notnd cu A, respectiv B mediile celor dou populaii, cuplul de ipoteze statistice de verificat este: H0: A = B; HA: A B (adic trebuie s aplicm un test bilateral). Volumele sunt mici (< 30) i dac max {sA, sB) 2 min {sA, sB) vom aplica testul t de comparaie a dou medii empirice de observaii independente.
Calcul: Pentru calculul simultan al mediilor mA i mB i al dispersiilor sA2 i sB2 alctuim tabela urmtoare:
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
140
Nr. crt. Ai (Ai)2 Bi (Bi)2 1 2 3 4 5 6
12 10 14 11 12 15
144 100 196 121 144 225
17 15 14 20 18 17
289 225 196 400 324 289
Totaluri T1A = 74 T2A = 930 T1B = 101 T2B = 1723
Notnd cu nA, respectiv cu nB volumele celor dou eantioane avem:
nA = 6; A
AA
n
Tm 1= 33,12
674
== ;
222A
A
AA m
n
Ts = = 23312
6930
, = 0289152155 , =2,9711;
721971122 ,,ss AA == ;
nB
= 6; B
BB
n
Tm 1= 83,16
6101
== ;
222B
B
BB m
n
Ts = = 28316
61723
, = 24892831667287 ,, =3,9178;
981917832 ,,ss BB == ; Observm c 1,98 2 1,72 = 3,14. Deci putem aplica testul t. Calculm dispersia comun
2
222
+
+=
BA
BABAe
nn
snsns =
266917836791126
+
+ ,,=
10506823746616 ,, +
= 4,2534.
Deci: 062253442 ,,ss ee ==
i
BAe
BAAB
nns
mmt
11+
==
61
61062
83163312
+
,
,,
3333006254,,
,
58006254,,
,
1948154
,
,
= - 3,766. Deci 7663,t AB = . Numrul de grade de
libertate = nA + nB 2 = 6 + 6 - 2 = 10.
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
141
Consultm tabela Student (vezi Anexa 3) pe linia corespunztoare numrului de grade de libertate (10 aici) i determinm cele dou valori critice ntre care se plaseaz ca mrime valoarea calculat ABt (3,766 aici). Vom gsi valorile 3,169 i 4,144. Citim nivelurile de semnificaie corespunztoare testului bilateral (vezi linia de jos a tabelei). Acestea sunt 0,01 respectiv 0,002. n concluzie putem respinge ipoteza nul (egalitatea mediilor aici) cu un risc < 0,01 (dar nu mai mic i dect 0,002). Altfel spus, putem afirma o diferen semnificativ cu un risc sub 1%. Dac lum n consideraie pragurile standard (0,05; 0,01; 0,001) putem afirma existena unei diferene foarte semnificative (p < 0,01) sau (**). Decizie statistic final: Deoarece ABt = 3,766 > 3,169, se respinge ipoteza nul cu risc p < 0,01. Decizie de specialitate: Putem afirma cu un risc p sub 1% c rezistena celor dou specii la agentul poluant testat difer, sau c rezistena celor dou specii la agentul poluant testat difer foarte semnificativ (**). Not: Dac valoarea calculat ar fi fost mai mare dect cel mai mare prag tabelat (4,587 n acest caz), atunci am fi afirmat c exist diferen nalt semnificativ (p < 0,001) sau (***). Dac valoarea calculat ar fi fost mai mic dect cel mai mic prag tabelat (0,879 aici) spuneam c diferena nu este semnificativ ori nu avem date suficiente pentru a demonstra, eventual, contrariul. Rezolvare prin programul EpiInfo: Se utilizeaz comanda MEANS din modulul ANALYSIS. Programul execut ANOVA (test pentru compararea simultan a mai multor medii) care este echivalent, n cazul a dou eantioane, cu testul t de comparaie a dou medii empirice de observaii independente. Rezultatul final este c indicat de program sub denumirea p-value. n aceast problem aceasta are valoarea 0,003278. Astfel, vom putea formula mai precis deciziile finale: Decizie statistic final: Se respinge ipoteza nul cu riscul p < 0,003278 < 0,01. Decizie de specialitate: Putem afirma cu un risc p < 0,003278, sub 1%, c rezistena celor dou specii la agentul poluant testat difer, sau c rezistena celor dou specii la agentul poluant testat difer foarte semnificativ (**, p < 0,003278). 8 (Enun din [1] modificat). Un lot de 10 hipertensivi au primit un tratament destinat diminurii tensiunii arteriale. S-au observat urmtoarele valori ale tensiunii arteriale sistolice, msurate n cm Hg:
Numr subiect 1 2 3 4 5 6 7 8 9 10 Tensiune sistolic nainte de tratament 15 18 17 20 21 18 17 15 19 16 Tensiune sistolic dup tratament 12 16 17 18 17 15 18 14 16 18
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
142
Fixnd = 0,025 (conform observaiei 2 din 6. 4., Lp 8), este eficace acest tratament ? Rezolvare: Cele dou eantioane sunt eantioane de observaii perechi extrase din populaii care pot fi considerate distribuite gaussian: populaia dinaintea tratamentului pentru c marea majoritate a parametrilor fiziologici sunt astfel distribuii, iar cea de dup tratament, pentru c este vorba de reacia unei populaii biologice la un anumit factor de mediu - tratamentul (legea toleranei). Notnd cu , respectiv mediile celor dou populaii (nainte, respectiv dup tratament) cuplul de ipoteze statistice de verificat este: H0: = ; HA: > (adic trebuie s aplicm un test unilateral dreapta). Populaiile fiind gaussiene putem aplica testul Student pentru observaii perechi. Statistica testului este:
1=
n/sm
td
dd
,
md fiind media diferenelor valorilor perechi, sd abaterea standard corectat, a acelorai diferene, iar n numrul perechilor. Pentru calculul celor dou statistici vom utiliza tabelul:
Nr.pereche xi xi di = xi xi di md (di
md)2 1 2 3 4 5 6 7 8 9
10
15 18 17 20 21 18 17 15 19 16
12 16 17 18 17 15 18 14 16 18
3 2 0 2 4 3
-1 1 3
-2
1,5 0,5
-1,5 0,5 2,5 1,5
-2,5 -,5 1,5
-3,5
2,25 0,25 2,25
,25 6,25 2,25 6,25
,25 2,25
12,25 Totaluri: 176 161 15 Verificare: 0 34,5
n = 10, deci
n
dm
id
= = 5,1
1015
= ;n
xm
i= = 6,17
10176
= ;n
xm
i=
'
' = 1,1610161
= ;
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
143
n
)md(s
did
=
22
= 45310
534,
,
= 861453 ,,sd ==
1=
n/sm
td
dd = 4223861
51,
/,,
= .
Din tabela Student (vezi Anexa 3 din acest volum) se citete 0,025 cuantila unilateral superioar pentru distribuia t cu grade de libertate, unde (= n 1) = 9. Adic se citete tabela pe linia 9 i coloana corespunztoare lui = 0,025 citit de sus n jos. Se obine t9;0,025 =2,262. Decizie statistic final: Deoarece t = 2,42 > 2,262, se respinge ipoteza nul cu risc p < 0,025. Decizie de specialitate: Putem afirma cu un risc p sub 2,5% c tratamentul este eficace.
Exerciii sau probleme propuse
1 Teste de conformitate 9. Deoarece media general a notelor studenilor din anul II Biochimie (n anul universitar 1998-99 la susinerea pentru prima oar a colocviului la disciplina Teoria probabilitilor i statistic matematic) a fost 5,75, s se verifice dac notarea a fost prea indulgent, media general pentru un test bine calibrat fiind 5,5 (conform problemei 1 din Lp 4). Abaterea standard a notelor a fost s1 = 1,59.
2 Teste de concordan 10. Dintr-o biocenoz s-a extras aleator un eantion care are urmtoarea distribuie de abundene:
4 10 20 304321 s s ss
S se verifice dac putem considera c biocenoza are o distribuie echitabil.
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
144
11. Dintr-o biocenoz s-a extras aleator un eantion care are urmtoarea distribuie de abundene:
24 19 18 17 22 20654321 s s s s ss
S se verifice dac putem considera c biocenoza are o distribuie echitabil.
12. Un zar a fost aruncat de 120 de ori obinndu-se distribuia din problema anterioar. S se decid dac zarul este msluit.
13.
Un ban a fost aruncat de 30 de ori obinndu-se distribuia
16 14 anulStema B
.
S se decid dac banul este msluit.
14. Un ban a fost aruncat de 3000 de ori obinndu-se acelai raport ntre numrul de apariii ale stemei i cel de apariii ale banului ca la problema anterioar, adic 14 / 16. S se decid dac banul este msluit.
15. ntr-un eantion extras aleator dintr-o populaie biologic, frecvenele absolute ale genotipurilor AA, Aa i aa sunt
200 300 500 aaAA Aa
. S se verifice dac
mperecherea n cadrul populaiei se face la ntmplare.
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.
145
16. ntr-un eantion extras aleator dintr-o populaie biologic, frecvenele absolute ale genotipurilor AA, Aa i aa sunt
150 500 350 aaAA Aa
. S se verifice dac
mperecherea n cadrul populaiei se face la ntmplare.
17. S se testeze normalitatea distribuiei notelor urmtoare:
30 35 20 1510 9 8 7
.
3 Teste de egalitate
18. n vederea evalurii rezistenei la un agent poluant a dou specii de peti, dou loturi extrase prin randomizare din cele dou specii au fost supuse unui tratament cu aceeai concentraie de agent poluant. S-au notat timpii de supravieuire ai fiecrui individ (exprimai n ore) i au rezultat seriile urmtoare: Specia A: 2 4 7 10 12 14 11 15 15 21 4 9 12 12 18 28; Specia B: 13 4 7 12 11 17 25 16 17 21 11 31 23 23 35. Cele dou specii rezist la fel la concentraia dat a agentului poluant sau nu ?
19. Pentru testarea eficacitii unei culegeri de probleme s-au selecionat prin randomizare 10 studeni. S-au notat mediile obinute de acetia naintea accesului la culegere, precum i mediile notelor obinute dup ce studenii au nceput s utilizeze culegerea. Mediile au fost urmtoarele: Numr subiect 1 2 3 4 5 6 7 8 9 10 Media naintea utilizrii culegerii de probleme 5 6 7 7 8 9 8 6 5 8 Media dup utilizarea culegerii de probleme 7 7 5 7 9 8 10 9 8 10
Este eficace culegerea de probleme ?