25
Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura “Agronomica”, Bucuresti, 2003. 121 Lp 9 Rezumat 6.7. Clasific ă ri ale testelor statistice 6.7.1. Clasificare ca teste binare Se respinge H 0 dacă statistica testului, x, este "mai excen- trică" decât α-cuantila sau α-cuantilele corespunzătoare: teste unilaterale dreapta x > x α/2 (conform obs.2 din 6. 4., Lp 8) teste unilaterale stânga x < x 1 - α/2 (conform obs.2 din 6. 4., Lp 8) teste bilaterale x < x 1 - α / 2 sau x > x α / 2 . În cazul distribuţiilor de eşantionaj simetrice faţă de origine (normala standard şi t ν - urile), deoarece x 1 - α / 2 = - x α / 2 , condiţia se poate scrie sintetic | x | > x α / 2. 6.7.2. Clasificare după modul de tratare a variabilelor tip măsurătoare Teste parametrice. Se aplică doar variabilelor tip măsurătoare (parametri în sens larg) utilizându-se întreaga informaţie. Sunt mai puternice, dar cer ca variabilele să îndeplinească anumite condiţii în populaţie (gaussianitate a distribuţiei, etc.) Teste neparametrice. Se aplică variabilelor calitative, rangurilor, precum şi celor tip măsurătoare tratate doar ca ranguri sau ca variabile calitative. Testele neparametrice sunt "libere" de forma distribuţiei variabilelor în populaţie, dar sunt mai puţin puternice. 6.7.3. Clasificare după tipul ipotezelor de verificat [14] 1° Teste de conformitate (sau de semnificaţie în sens restrâns) Compară un eşantion cu o populaţie în cel mai restrâns mod. Verifică dacă un eşantion dat poate fi considerat a fi extras dintr-o anumită populaţie considerând doar un indicator particular. De exemplu,

09_lp9

Embed Size (px)

DESCRIPTION

statistica

Citation preview

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    121

    Lp 9 Rezumat 6.7. Clasificri ale testelor statistice

    6.7.1. Clasificare ca teste binare Se respinge H0 dac statistica testului, x, este "mai excen-

    tric" dect -cuantila sau -cuantilele corespunztoare: teste unilaterale dreapta

    x > x /2 (conform obs.2 din 6. 4., Lp 8)

    teste unilaterale stnga

    x < x 1 - /2 (conform obs.2 din 6. 4., Lp 8)

    teste bilaterale x < x 1 - / 2 sau x > x / 2. n cazul distribuiilor de

    eantionaj simetrice fa de origine (normala standard i t - urile), deoarece x 1 - / 2 = - x / 2, condiia se poate scrie sintetic | x | > x

    / 2.

    6.7.2. Clasificare dup modul de tratare a variabilelor tip msurtoare Teste parametrice. Se aplic doar variabilelor tip msurtoare (parametri n sens larg) utilizndu-se ntreaga informaie. Sunt mai puternice, dar cer ca variabilele s ndeplineasc anumite condiii n populaie (gaussianitate a distribuiei, etc.) Teste neparametrice. Se aplic variabilelor calitative, rangurilor, precum i celor tip msurtoare tratate doar ca ranguri sau ca variabile calitative. Testele neparametrice sunt "libere" de forma distribuiei variabilelor n populaie, dar sunt mai puin puternice.

    6.7.3. Clasificare dup tipul ipotezelor de verificat [14] 1 Teste de conformitate (sau de semnificaie n sens restrns) Compar un eantion cu o populaie n cel mai restrns mod. Verific dac un eantion dat poate fi considerat a fi extras dintr-o anumit populaie considernd doar un indicator particular. De exemplu,

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    122

    compar "o medie empiric cu una teoretic". Sn i teste de semnificaie n sens restrns.

    2 Teste de concordan (sau de ajustare) Compar un eantion cu o populaie n cel mai complet mod. Verific dac un eantion dat poate fi considerat a fi extras dintr-o anumit populaie (teoretic) considernd distribuiile acestora.

    concordana toate conformitile posibile (concordana este o condiie mai tare dect conformitatea)

    cel puin o nonconformitate nonconcordan. Testele de concordan resping mai uor (des) H0 dect testele de conformitate, dar cer volume mari de date. Testele de conformitate resping mai greu (rar) H0 dect testele de concordan, dar pot lucra cu volume mai mici de date. La acelai volum de date, NU este posibil ca un test de concordan s accepte H0 iar un test de conformitate s resping H0.

    3 Teste de egalitate (sau de omogenitate sau de comparaie) Compar dou sau mai multe populaii prin tot attea eantioane considernd doar un indicator particular. De exemplu, compar dou medii empirice ori k medii empirice. Observaie: Cele 3 categorii de teste se ntlnesc n ntreaga statistic (uni, bi i multivariat). n statistica bivariat a variabilelor calitative se adaug "testele de independen versus asociere".

    Teste de conformitate [3] Problem biologic Un anumit microorganism are un diametru mediu de 50 microni (valoare din literatura de specialitate). Un biolog studiaz o cultur i determin pe 10 microorganisme, diametrul mediu m1 = 56 microni i dispersia necorectat s1

    2

    = 49 microni. Poate fi microorganismul din literatur sau este altul? Ipoteza tiinific: Este altul pentru c 56 difer cam mult de 50, intuitiv, pe eantion de 10 uniti. Testul de conformitate (Testul Student pentru compararea unei medii empirice cu o medie teoretic): Cuplul de ipoteze statistice:

    =

    5050

    10

    10

    :H:H

    sau, mai corect, :H

    )(:H

    ==

    011

    0010 50

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    123

    Adic "Media populaiei din care a fost extras eantionul cu media m1

    = 56 poate fi 50 sau nu?"

    Etapele aplicrii testului statistic

    Exemplu

    1. Formularea clar a proble-mei pentru care se dorete o decizie.

    Provine sau nu eantionul de medie m1 = 56 dintr-o populaie cu media =50 ?

    2. Identificarea: a. variabilei ca tip i scal tip msurtoare, scal raport b. eantionului ca mod de extragere ca volum

    eantion aleator simplu (cu revenire) n = 10 < 30, volum mic

    c. informaiilor despre distri-buia variabilei n populaie (gaussianitate, simetrizabilita-te printr-o anumit transfor-mare etc.).

    Distribuia diametrului unui microorganism ntr-o populaie omogen este considerat distribuit gaussian.

    3. a. Stabilirea distribuiei de eantionaj care impune

    b. statistica testului.

    11

    =

    n/sm

    t

    tn-1 cu n=10 (Spunem

    c statistica t urmeaz o lege Student cu n-1 grade de libertate.)

    111

    1

    =

    n/sm

    t

    4. Bazat pe 1-3 a. formularea cuplului ipote-za nul - ipoteza alternativ, care determin b. tipul de test (bilateral, unilateral stnga, unilateral dreapta)

    H0: = 50 (=0) H1: 50 test bilateral

    5. Stabilirea nivelului de semnificaie sub care vom respinge ipoteza nul (etap denumit impropriu regula de decizie).

    = 0,05

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    124

    6. a. Efectuarea calculelor

    tm

    s n1

    1 0

    1 156 507 9

    67 3

    62 33

    2 58=

    =

    =

    / / / ,,

    b. obinerea deciziei statistice prin: I) calcul manual: dac statistica testului este mai excentric dect -cuantila corespunztoare (din tabela Student) se respinge H0.

    t1= 2,58 > 2,262* se respinge H0

    II) calcul automat dac riscul de respingere a lui H0 corespunztor statisticii testului (notat c) < fixat la pct. 5 se respinge H0.

    c 0,0287 0,03 < 0,05 se respinge H0

    Observaie: Deoarece 0,01

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    125

    1 Numrul de grade de libertate, (1) = c 1, n cazul testrii concordanei cu o distribuie uniform, (2) = c 2, n cazul testrii concordanei cu o distribuie produs de o lege Hardy-Weinberg, (3) = c 3, n cazul testrii normalitii (gaussianitii), adic a concordanei cu o distribuie normal (gaussian). (Vezi explicaiile n Exerciiile sau problemele rezolvate .) n general, = numrul de clase, c, minus numrul de legturi, adic de valori obinute din datele observate care sunt utilizate n calcularea frecvenelor teoretice.

    2 Consultarea tabelei 2 Tabela conine n interior -cuantile, iar pe coloane ariile aflate sub curb la dreapta acestora (probabilitile de a se obine, din ntmplare, valori 2 mai mari dect valoarea -cuantilei respective). Pe linia sunt -cuantilele distribuiilor 2 cu grade de libertate.

    3 Testul 2 de concordan Cuplul de ipoteze statistice: H0: distribuiile concord

    HA: distribuiile nu concord.

    Statistica testului este nt

    oc

    j j

    j=

    =1

    22 , n care oj sunt frecvenele observate

    (empirice), iar tj sunt frecvenele distribuiei teoretice de acelai volum n. Se fixeaz = 0,05. Dac 2 (calculat) > 2; 0,05

    (tabelat) distribuia empiric nu concord cu distribuia teoretic respectiv, neconcordana fiind semnificativ (* sau p < 0,05). n caz contrar distribuia empiric concord cu distribuia teoretic respectiv (p 0,05).

    4 Condiii de validitate ale testului 1. Se aplic numai frecvenelor (observate) absolute (n mod necesar valori ntregi pozitive), nu celor relative. 2. Frecvenele teoretice (care pot fi i valori fracionare pozitive) tj 5.

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    126

    6.9. Teste de comparaie

    6.9.1. Compararea a dou eantioane

    1 Testul t de comparaie a dou medii empirice de observaii perechi

    Fie seriile de cte n observaii perechi x1, x2,..., xn

    i x'1, x'2,..., x'n extrase prin randomizare dintr-una sau dou populaii distribuite gaussian. Se verific dac mediile lor m, respectiv m' difer sau nu semnificativ, adic, notnd cu i ' mediile populaiilor de origine, testm cuplul de ipoteze:

    H0: = ' HA: .

    Se calculeaz diferenele di = xi - x'i, media lor, md i abaterea standard a diferenelor, sd.

    Statistica testului: dt unde .n/s

    mt

    d

    dd 1

    =

    Fixm . Numrul de grade de libertate este n 1, deoarece s-a pierdut un grad de libertate estimnd dispersia diferenelor n populaie, prin dispersia corectat a irului de diferene provenite din eantioanele de observaii perechi. Decizia statistic: Dac dt (calculat) > tn-1; /2 (tabelat) respingem ipoteza nul cu risc p < .

    2 Testul t de comparaie a dou medii empirice de observaii independente

    Fie x1, x2,..., xnA i y1, y2,..., ynB dou eantioane de volume mici (nA, nB < 30) prelevate independent din una sau dou populaii statistice n care variabila respectiv este distribuit gaussian. Se presupune i c abaterile standard n cele dou populaii sunt egale, ceea ce se consider ndeplinit dac cea mai mare abatere standard a unui eantion nu depete dou abateri standard ale celuilalt eantion [16]. Dorim s verificm dac mediile lor mA i mB difer semnificativ sau nu, adic, notnd cu A

    i B mediile populaiilor de origine, testm cuplul de ipoteze:

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    127

    H0: A = B HA: A B.

    Statistica testului: ABt unde

    BAe

    BAAB

    nns

    mmt

    11+

    = , n care

    2

    222

    +

    +=

    BA

    BBAAe

    nn

    snsns este dispersia comun (corectat) a celor dou

    eantioane considerate mpreun, iar sA2 i sB2 sunt dispersiile eantioanelor (se2 estimeaz dispersia fiecrei populaii).

    Fixm . Decizia statistic: Dac ABt calculat > t; /2 (tabelat) respingem ipoteza nul cu risc p < unde numrul de grade de libertate =nA + nB 2. Observaie: Acest test necesit volume mai mari dect cel pentru observaii perechi, deoarece la variabilitatea cercetat s-a adugat zgomotul variabilitii aduse de folosirea a dou mulimi de uniti statistice, n locul uneia singure.

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    128

    Lp 9 Teste, exerciii i probleme

    TG9. Durata 100'' pe calculator. Alegeti propozitia corecta: Testele statistice sunt de urmatoarele categorii in functie de tipul ipotezelor de verificat: 1. teste bilaterale, unilaterale dreapta si unilaterale stanga; 2. teste parametrice si neparametrice: 3. teste de ajustare (concordanta), de independenta, de conformitate, de egalitate (omogenitate);

    Compararea unei medii cu o medie teoretica se poate face prin: 1. testul chi2 2. testul F 3. interval de confidenta sau testul z sau Student

    Dispunem de concentratiile de azotati in N lacuri din Delta, in anul 1980 si respectiv in anul 1995, din aceleasi N lacuri. Pentru a stabili daca, in acest interval de timp, s-a modificat concentratia calculam mediile acestora in cei doi ani si folosim:

    1. analiza variantei 2. testul Student pentru observatii perechi 3. testul Student de comparare a doua medii empirice din esantioane independente

    Ni se reclama cresterea poluarii cu azotati intr-o zona peste o anumita limita precizata. Pentru testarea afirmatiei se culeg n ( > 30) probe si se aplica: 1. testul Student unilateral 2. testul Student bilateral 3. analiza variantei

    TC9. Durata 5'. 1. Testele statistice ca teste binare sunt fie teste ______________, fie teste _____________.

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    129

    2. Testele statistice se construiesc pe baza unor populaii statistice ______________, iar testele biomedicale pe baza unor populaii statistice ___________.

    3. Testele statistice aplicate msurtorilor (parametrilor n sens larg) care folosesc doar informaia referitoare la ranguri sau numai cea corespunztoare unor variabile calitative, se numesc teste ______________. 4. Utilizarea metodelor parametrice necesit ndeplinirea condiiei de _______________ a distribuiei caracterului n populaie. 5. Testele neparametrice necesit volume mai _______ de date dect testele parametrice pentru acceptarea _______. 6. Cu acelai volum de date, testele parametrice pot considera ca semnificative diferene ____________. 7. Se numesc teste de semnificaie n sens larg testele _____________, iar n sens restrns testele de _______________. 8. Compararea unei medii empirice cu o valoare teoretic este un test de __________________.

    9. Testele de ________________ compar o populaie cu un eantion pe baza maximului de informaie, adic prin compararea ______________ acestora. 10. Testarea normalitii se realizeaz prin intermediul statisticii _________ cu _______ grade de libertate. 11. Testul t pentru observaii perechi este un test de ________________. 12. Testul t pentru observaii perechi este mai ________________ dect testul t de comparaie a 2 medii independente.

    Exerciii sau probleme rezolvate

    1 Teste de conformitate

    1. S se verifice dac notarea studenilor din anul II Biochimie, n anul universitar 1998-99 la susinerea pentru prima oar a colocviului la disciplina Teoria probabilitilor i statistic matematic a fost normal ori indulgent sau exigent (vezi problema 1 din Lp 4) tiind c media general a celor 48 de studeni prezeni a fost m1 = 5,75, iar abaterea standard a fost s1 = 1,59.

    Rezolvare: Trebuie s verificm conformitatea mediei empirice m1 = 5,75 cu media teoretic 0 = 5,5, valoare care rezult din problema 1 din Lp 4. Deoarece ne intereseaz normalitatea versus anormalitatea (indulgen sau exigen

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    130

    semnificative) testul va fi bilateral, cuplul de ipoteze statistice de verificat fiind H0: 1 = 0; HA: 1 0, n care 1 este media populaiei statistice din care provine eantionul cu media m1. Statistica testului este:

    1101

    1

    =

    n/sm

    t

    =

    .,,

    1,591,7125

    ,

    ,,

    ,/,,

    /,,, 081081

    591856250

    856591250

    14859155755

    ==

    =

    .

    Deoarece n = 48 (> 30) este un volum mare i este estimat suntem n cazul 2.1. (conform 5. 6. 2. din Lp 7) i deci statistica testului se distribuie normal standard. Ca atare respingem ipoteza nul dac t calculat este mai mare n modul dect 0,05-cuantila bilateral superioar a distribuiei normale standard (1,96 vezi Anexa 2). n cazul de aici deoarece 1,08 < 1,96 acceptm ipoteza nul. n concluzie, testul a fost calibrat normal, altfel spus, media 5,75 nu este semnificativ diferit de 5,5.

    2 Teste de concordan

    2. Dintr-o biocenoz s-a extras aleator un eantion format din 4 specii care au urmtoarea distribuie de abundene:

    16 27 27 30s s s s 4321

    S se verifice cu risc = 0,2 dac putem considera c speciile din biocenoz au o distribuie echitabil.

    Rezolvare: O distribuie echitabil sau regulat (termeni din ecologie) se numete n statistic distribuie uniform. Deci trebuie testat concordana acestei distribuii empirice cu distribuia uniform de acelai volum n. Ipoteza nul se poate enuna n acest caz sub forma distribuia concord cu o distribuie uniform sau, mai precis distribuia concord cu distribuia uniform cu acelai volum. Analog se reformuleaz i HA. Numrul de grade de libertate = c 1 deoarece din c, numrul de frecvene (de valori distincte), se scade o doar o unitate pentru c exist o singur condiie de legtur: volumul

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    131

    distribuiei teoretice trebuie s fie egal cu cel al distribuiei empirice (al eantionului). I. Calculm volumul total

    =

    =

    c

    jjon

    1= 30 + 27 + 27 + 16 = 100.

    II. Calculm frecvenele teoretice n ipoteza de uniformitate: .254

    100==jt

    III. Verificm condiia tj 5 pentru orice j. ntr-adevr, 25 5. IV. Pregtim calculul lui 2 pentru testarea concordanei, n tabelul urmtor:

    Nr. frecven

    oj oj2 tj oj

    2 / tj Diagrame n batoane pentru cele dou

    distribuii (empiric - batoane albe i teoretic uniform - batoane negre):

    1 2 3 4

    30 27 27 16

    900 729 729 256

    25 25 25 25

    36,00 29,16 19,16 10,24

    Totaluri: n = 100

    n =

    100 104,56

    0

    10

    20

    30

    V. Calculm nt

    o

    j j

    j=

    =

    4

    1

    22 = 104,56 100 = 4,56

    VI. Numrul de grade de libertate = 4 1 = 3. Consultnd tabela 2 din Anexa 4 pe linia 3 i coloana lui = 0,2 obinem valoarea 4,642, notat 23; 0,2. Deoarece valoarea calculat (4,56) este mai mic dect cea tabelat pentru nivelul de semnificaie = 0,2 (adic 4,642), acceptm ipoteza nul, deci acceptm concordana cu distribuia uniform respectiv.

    VII. n concluzie, putem considera c biocenoza are o distribuie echitabil sau c nu avem suficiente date pentru a considera, eventual, contrariul (p 0,2).

    3. Dintr-o biocenoz s-a extras aleator un eantion format din 5 specii care au urmtoarea distribuie de abundene:

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    132

    8 20 40 60 100 54321 s s s ss

    S se verifice dac putem considera c speciile din biocenoz au o distribuie echitabil.

    Rezolvare: (I) n = 228. (II) tj = 45,6. (III) 45,6 5. (IV-V) n

    t

    o

    j j

    j=

    =

    5

    1

    22 =

    343,51 228 = 115,51. (VI) = 5 1 = 4. Deoarece valoarea 115,51 este foarte mare consultm tabela 2 din Anexa 4 la cel mai nalt nivel de semni-ficaie i anume = 0,001. 24; 0,001 = 18,467.

    0

    20

    40

    60

    80

    100

    Deoarece valoarea calculat (115,51) este mai mare dect cea tabelat (24; 0,001 = 18,467), respingem ipoteza nul cu risc sub 1. Deci putem afirma cu risc sub 1 c distribuia empiric nu concord cu distribuia uniform cu acelai volum sau putem afirma c ntre distribuia empiric i cea uniform cu acelai volum exist o discordan nalt semnificativ (*** p < 0,001). (VII) n concluzie, putem considera cu risc sub 1 c biocenoza nu are o distribuie echitabil (*** p < 0,001).

    4. ntr-un eantion extras aleator dintr-o populaie biologic, frecvenele absolute ale genotipurilor AA, Aa i aa sunt

    30 120 100 aaAA Aa

    . S se verifice dac

    mperecherea n cadrul populaiei se face la ntmplare.

    Rezolvare de principiu:

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    133

    n genetica populaiilor [7] arat c dac mperecherea se face la ntmplare, frecvenele relative genotipice trebuie s aib, conform legii Hardy-Weinberg,

    distribuia

    22 2 pq q p

    aaAA Aa , n care p, respectiv q sunt frecvenele relative

    n populaie ale alelelor A, respectiv a. Din punct de vedere statistic, verificarea cerut pentru genotipuri presupune testarea concordanei distribuiei de frecvene absolute observate (oj) cu distribuia de frecvene absolute teoretice n ipoteza aplicrii legii Hardy-Weinberg (tj), distribuie cu acelai volum n. Cuplul de ipoteze de verificat este: H0: distribuiile concord; HA: distribuiile nu concord, ceea ce, n acest caz, nseamn pentru H0 c distribuia concord cu distribuia produs de legea Hardy-Weinberg, distribuie cu aceleai proporii de alele i acelai volum.

    Statistica testului este nt

    o

    j j

    j=

    =

    3

    1

    22 . Dac 2 calculat este mai mare dect

    cel tabelat la = 3 2 = 1 grad de libertate, se respinge ipoteza nul. (n caz contrar, se accept.) Din 3, numrul de frecvene (de valori distincte), se scad dou uniti deoarece exist dou condiii de legtur: prima este dat de faptul c volumul distribuiei teoretice trebuie s fie egal cu cel al distribuiei empirice (al eantionului) n, iar a doua provine din faptul c frecvenele teoretice au fost calculate pe baza frecvenei p estimat prin datele eantionului. (Deoarece q deriv din p fiind egal cu 1 p, calculul lui q nu aduce o nou legtur). Revenind n cadrul geneticii populaiilor, vom accepta mperecherea ntmpltoare atunci cnd se accept ipoteza nul i o vom respinge n caz contrar. Rezolvare efectiv (Etape de calcul): I. Estimm p i q n populaie prin valorile lor din eantion:

    Indivizi Alele A Alele a Calculm frecvenele relative ale alelelor:

    100 120 30

    AA Aa aa

    2 100 = 200 120

    120 2 30 = 60

    Total alele:

    p = 320 / 500 = 0,64 q = 180 / 500 = 0,36

    Totaluri: 320 180 500 (Verificare: p + q = 0,64 + 0,36 = 1.)

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    134

    II. Calculm volumul total de indivizi =

    =

    3

    1jjon = 100 + 120 + 30 = 250.

    III. Calculm pentru genotipuri:

    a. frecvenele relative teoretice n ipoteza aplicrii legii Hardy-Weinberg:

    p2 = 0,642 = 0,4096

    2pq = 2 0,64 0,36

    = 0,4608

    q2 = 0,362 = 0,1296

    (Verificare: p2+2pq+ q2 = 1)

    b. frecvenele absolute teoretice n ipoteza aplicrii legii Hardy-Weinberg, prin multiplicarea cu n (= 250) a frecvenelor relative:

    t1 = p2n = 0,4096 250

    = 102,4

    t2 = 2pqn = 0,4608 250

    = 115,2

    t3 = q2n = 0,1296 250

    = 32,4

    (Verificare: t1+ t2+ t3 = n)

    IV. Verificm condiia tj 5 pentru orice j. ntr-adevr, 102,4 5 115,2 5; 32,4 5.

    V. Pregtim calculul lui 2 pentru testarea concordanei, n tabelul urmtor: Genotip oj oj2 tj oj2 / tj

    AA Aa aa

    100 120

    30

    10000 14400

    900

    102,4 115,2

    32,4

    97,6563 125,0000 27,7778

    Totaluri: 250 250 250,4341

    0

    20

    40

    60

    80

    100

    120

    VI. Calculm nt

    o

    j j

    j=

    =

    3

    1

    22 250,434 250 = 0,434.

    VII. Numrul de grade de libertate = 1. Consultnd tabela 2 din Anexa 4 pe linia 1 i coloana lui = 0,05 obinem valoarea 3,841 notat 21;0,05. Deoarece valoarea calculat (0,434) este mai mic dect cea tabelat pentru nivelul de semnificaie standard = 0,05 (adic 3,841), acceptm ipoteza nul, deci acceptm concordana cu distribuia dat de legea Hardy-Weinberg.

    Observaia 1: n acest caz 0,434 < 21;0,2 = 1,642, deci respingerea s-ar face cu un risc i mai mare, p 0,2. (Observaia 2: A nu se confunda aceast probabilitate p, cu proporia p din distribuia dat de legea Hardy-Weinberg, ambele notaii tradiionale.)

    VIII. n concluzie, putem considera c mperecherea se produce la ntmplare n populaia respectiv (p 0,05, de fapt, innd cont de observaia 1, p 0,2) sau c nu avem suficiente date pentru a considera, eventual, contrariul.

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    135

    Observaie: Referitor la legea Hardy-Weinberg pentru dou alele pe acelai locus putem formula urmtoarea regul simpl: Dac 2 < 3,841 considerm c mperecherea se produce la ntmplare n populaia respectiv sau c nu avem date suficiente pentru a considera, eventual, contrariul. Dac 2 3,841 afirmm cu un risc sub 5% c mperecherea nu se produce la ntmplare n populaia respectiv.

    5. ntr-o populaie biologic frecvenele absolute ale genotipurilor MM, MN i NN sunt

    200 300 200 NNMM MN

    . S se verifice dac mperecherea n cadrul

    populaiei se face la ntmplare. Rezolvare: Considerm populaia biologic drept un eantion extras aleator de ctre natur dintr-o populaie statistic pentru care vrem s verificm existena legii Hardy-Weinberg i aplicm metodologia din problema anterioar. (I) p = 0,5; q = 0,5 (II) n = 700. (IIIa) p2 = 0,25; 2pq = 0,5; q2 = 0,25. (IIIb) t1 = 175; t2 = 350; t3 = 175. (IV) 175 5; 350 5; 175 5. (V-VI) 2 = 14,286. (VII) Deoarece valoarea calculat (14,286) este mai mare dect cea tabelat n Anexa 4 linia 1 (21; 0,001 = 10,827) respingem ipoteza nul cu risc sub 1. Deci putem afirma cu risc sub 1 c distribuia empiric nu concord cu distribuia cu aceeai proporie i acelai volum dat de legea Hardy-Weinberg sau, mai precis, c ntre acestea exist o discordan nalt semnificativ (*** p < 0,001).. (VIII) Afirmm cu risc sub 1 c mperecherea nu se produce la ntmplare n populaia respectiv (*** p < 0,001).

    6. S se testeze normalitatea (vezi problema 1 din Lp 4) distribuiei notelor finale obinute de anul II Biochimie, n anul universitar 1998-99, la susinerea pentru prima oar a colocviului la disciplina Teoria probabilitilor i statistic matematic:

    1 0 5 10 13 5 12 1 110 9 8 7 6 5 4 3 2

    .

    Rezolvare: Cuplul de ipoteze de verificat este: H0: distribuiile concord; HA: distribuiile nu concord. Pentru H0 putem spune i c distribuia concord cu o distribuie normal ceea ce nseamn c distribuia concord cu distribuia

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    136

    normal cu aceeai medie, aceeai abatere standard i acelai volum.

    Statistica testului este nt

    oc

    j j

    j=

    =1

    22 , n care oj sunt frecvenele observate

    (aici cele de mai sus), tj sunt frecvenele teoretice ale distribuiei normale de aceeai medie i abatere standard, iar n reprezint volumul fiecrei distribuii. Dac 2 calculat este mai mare dect cel tabelat pentru = c 3 (c fiind numrul de frecvene de clase) se respinge ipoteza nul. n caz contrar, se accept. Observm c se pierd 3 grade de libertate prin utilizarea (1) mediei, (2) abaterii standard corectate ale eantionului pentru estimarea mediei i abaterii standard ale distribuiei normale, precum i (3) volumului eantionului n calculul frecvenelor teoretice ale distribuiei normale. I. Calculm media i dispersia distribuiei empirice, prin formulele de calcul

    rapid i exact pentru o distribuie de frecvene absolute (vezi observaia din EGA 1, Lp 3), precum i abaterea standard: oj xj xj

    2 oj xj oj xj

    2

    1 1

    12 5

    13 10 5 1

    2 3 4 5 6 7 8

    10

    4 9

    16 25 36 49 64

    100

    2 3

    48 25 78 70 40 10

    4 9

    192 125 468 490 320 100

    n

    Tm 1= = 75,5

    48276

    =

    222 Mn

    Ts = = 2755

    481708

    , =

    062533583335 ,, =2,5208

    n =

    48 Sume: T1 =

    276 T2 =

    1708 6152082 ,,s =

    II. Determinm frecvenele distribuiei normale de medie 5,75 i abatere standard 1,6 corespunztoare intervalelor notelor. Pentru aceasta:

    a. stabilim limitele claselor (intervalelor), yj, care reprezint notele (de exemplu, nota 2 nseamn scor < 2,5; nota 3 nseamn scor n intervalul [2,5; 3,5), , nota 10 nseamn scor 9,5.

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    137

    b. calculm scorurile zj pentru fiecare limit de intervale, conform

    formulei s

    myz

    jj

    = (vezi Lp 3) i pentru fiecare scor zj consultm Anexa 2, determinnd astfel ariile relative aflate la dreapta limitelor de intervale:

    c.

    yj zj arii relative (i) la

    dreapta pct. zi

    arii relative ntre limite consecutive

    di=(i-1-i)

    arii (frecvene) absolute ntre limite

    consecutive ( tj = ndi=48di )

    - - 1 0,0212 1,02

    2,5 -2,03 0,9788 0,0581 2,79

    3,5 -1,41 0,9207 0,1384 6,64

    4,5 -0,78 0,7823 0,2187 10,50

    5,5 -0,16 0,5636 0,2444 11,73

    6,5 0,47 0,3192 0,1813 8,70

    7,5 1,09 0,1379 0,0952 4,57

    8,5 1,72 0,0427 0,0331 1,59

    9,5 2,34 0,0096 0,0096 0,46

    Totaluri de control: 1 48 n penultima coloan am calculat ariile relative cuprinse ntre dou limite consecutive (de exemplu aria gri, haurat de mai sus care este 2,79), arii ce se determin scznd aria mai mic din cea mai mare, iar n ultima coloan am scris ariile absolute sub distribuia normal de medie 5,75, abatere standard 1,6 i volum 48, adic frecvenele distribuiei normale care ne intereseaz. Acestea se determin prin amplificarea cu volumul n (= 48) a datelor din penultima coloan.

    III. n vederea calculrii lui 2:

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    138

    a. centralizm rezultatele n tabelul urmtor, dup modelul din [3] pagina 157:

    Note Intervale Frecvene observate

    oj

    Frecvene teoretice

    (n ipoteza de normalitate) tj

    Diagrame n batoane pentru cele dou distribuii (empiric - batoane

    albe i normal - batoane negre):

    2 3 4 5 6 7 8 9

    10

    ( -, 2,5) [2,5; 3,5) [3,5; 4,5) [4,5; 5,5) [5,5; 6,5) [6,5; 7,5) [7,5; 8,5) [8,5; 9,5) [9,5; +)

    6105

    1013

    5

    1412

    11

    65646059160470873115010

    4510646792021

    ,

    ,

    ,

    ,

    ,

    ,

    ,

    ,

    ,

    ,

    ,

    02468

    101214

    2 3 4 5 6 7 8 9 10

    b. dar deoarece exist frecvene teoretice mai mici dect 5 (cele marcate cu semnul ), pentru ca testul 2 s fie valid, comasm intervalele cu frecvenele marcate prin acolad, obinnd urmtorul tabel la care am adugat coloanele necesare calculului lui 2 (vezi, de asemenea, modelul din [3] pagina 157):

    Notele Intervalele oj oj2 tj oj2 / tj 2, 3, 4

    5 6 7

    8, 9, 10

    ( -; 4,5) [4,5; 5,5) [5,5; 6,5) [6,5; 7,5) [7,5; +)

    14 5

    13 10

    6

    196 25

    169 100

    36

    10,45 10,50 11,73

    8,70 6,65

    18,76 2,38

    14,41 11,49

    5,41 Totaluri: 48 48,03 52,45

    0

    5

    10

    15

    2,3,4 5 6 7 8,9,10

    IV. Calculm nt

    o

    j j

    j=

    =

    5

    1

    22 = 52,45 48 = 4,45.

    V. Numrul de grade de libertate = 5 3 = 2. Consultnd tabela 2 din Anexa 4 pe linia 2 i coloana lui = 0,05 obinem valoarea 22; 0,05 = 5,991. Deoarece 4,45 < 22; 0,05 = 5,991, acceptm ipoteza nul, deci acceptm concordana cu distribuia normal respectiv (p 0,05). Deoarece 4,45 < 22; 0,1 = 4,605, concordana este chiar mai bun (p 0,1).

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    139

    VI. n concluzie, notele obinute se distribuie normal, ceea ce trebuie s se ntmple atunci cnd un lot este pregtit omogen, iar modul de notare este bine calibrat. (Acest lucru s-a produs deoarece nota fiecrui student este o medie ponderat a cte 3 note primite la fiecare lucrare practic i a trei note din colocviu. Astfel, notele finale nu au un caracter conjunctural, ci descriu comportamentul pe ntregul semestru. Prin combinarea a foarte multe teste aplicate continuu s-a redus la minimum falsul pozitiv i cel negativ al notrii finale, care astfel poate fi normal n condiiile de mai sus: omogenitatea pregtirii i buna calibrare.)

    3 Teste de comparaie

    7. n vederea evalurii rezistenei la un agent poluant a dou specii de peti, dou loturi extrase aleator din cele dou specii au fost supuse unui tratament cu aceeai concentraie de agent poluant. S-au notat timpii de supravieuire ai fiecrui individ (exprimai n ore) i au rezultat seriile urmtoare:

    Specia A: 12 10 14 11 12 15; Specia B: 17 15 14 20 18 17.

    Cele dou specii rezist la fel la concentraia dat a agentului poluant sau nu?

    Rezolvare cu tabele: Tratare parametric, deoarece distribuia caracterului n populaie este gaussian (legea toleranei). Notnd cu A, respectiv B mediile celor dou populaii, cuplul de ipoteze statistice de verificat este: H0: A = B; HA: A B (adic trebuie s aplicm un test bilateral). Volumele sunt mici (< 30) i dac max {sA, sB) 2 min {sA, sB) vom aplica testul t de comparaie a dou medii empirice de observaii independente.

    Calcul: Pentru calculul simultan al mediilor mA i mB i al dispersiilor sA2 i sB2 alctuim tabela urmtoare:

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    140

    Nr. crt. Ai (Ai)2 Bi (Bi)2 1 2 3 4 5 6

    12 10 14 11 12 15

    144 100 196 121 144 225

    17 15 14 20 18 17

    289 225 196 400 324 289

    Totaluri T1A = 74 T2A = 930 T1B = 101 T2B = 1723

    Notnd cu nA, respectiv cu nB volumele celor dou eantioane avem:

    nA = 6; A

    AA

    n

    Tm 1= 33,12

    674

    == ;

    222A

    A

    AA m

    n

    Ts = = 23312

    6930

    , = 0289152155 , =2,9711;

    721971122 ,,ss AA == ;

    nB

    = 6; B

    BB

    n

    Tm 1= 83,16

    6101

    == ;

    222B

    B

    BB m

    n

    Ts = = 28316

    61723

    , = 24892831667287 ,, =3,9178;

    981917832 ,,ss BB == ; Observm c 1,98 2 1,72 = 3,14. Deci putem aplica testul t. Calculm dispersia comun

    2

    222

    +

    +=

    BA

    BABAe

    nn

    snsns =

    266917836791126

    +

    + ,,=

    10506823746616 ,, +

    = 4,2534.

    Deci: 062253442 ,,ss ee ==

    i

    BAe

    BAAB

    nns

    mmt

    11+

    ==

    61

    61062

    83163312

    +

    ,

    ,,

    3333006254,,

    ,

    58006254,,

    ,

    1948154

    ,

    ,

    = - 3,766. Deci 7663,t AB = . Numrul de grade de

    libertate = nA + nB 2 = 6 + 6 - 2 = 10.

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    141

    Consultm tabela Student (vezi Anexa 3) pe linia corespunztoare numrului de grade de libertate (10 aici) i determinm cele dou valori critice ntre care se plaseaz ca mrime valoarea calculat ABt (3,766 aici). Vom gsi valorile 3,169 i 4,144. Citim nivelurile de semnificaie corespunztoare testului bilateral (vezi linia de jos a tabelei). Acestea sunt 0,01 respectiv 0,002. n concluzie putem respinge ipoteza nul (egalitatea mediilor aici) cu un risc < 0,01 (dar nu mai mic i dect 0,002). Altfel spus, putem afirma o diferen semnificativ cu un risc sub 1%. Dac lum n consideraie pragurile standard (0,05; 0,01; 0,001) putem afirma existena unei diferene foarte semnificative (p < 0,01) sau (**). Decizie statistic final: Deoarece ABt = 3,766 > 3,169, se respinge ipoteza nul cu risc p < 0,01. Decizie de specialitate: Putem afirma cu un risc p sub 1% c rezistena celor dou specii la agentul poluant testat difer, sau c rezistena celor dou specii la agentul poluant testat difer foarte semnificativ (**). Not: Dac valoarea calculat ar fi fost mai mare dect cel mai mare prag tabelat (4,587 n acest caz), atunci am fi afirmat c exist diferen nalt semnificativ (p < 0,001) sau (***). Dac valoarea calculat ar fi fost mai mic dect cel mai mic prag tabelat (0,879 aici) spuneam c diferena nu este semnificativ ori nu avem date suficiente pentru a demonstra, eventual, contrariul. Rezolvare prin programul EpiInfo: Se utilizeaz comanda MEANS din modulul ANALYSIS. Programul execut ANOVA (test pentru compararea simultan a mai multor medii) care este echivalent, n cazul a dou eantioane, cu testul t de comparaie a dou medii empirice de observaii independente. Rezultatul final este c indicat de program sub denumirea p-value. n aceast problem aceasta are valoarea 0,003278. Astfel, vom putea formula mai precis deciziile finale: Decizie statistic final: Se respinge ipoteza nul cu riscul p < 0,003278 < 0,01. Decizie de specialitate: Putem afirma cu un risc p < 0,003278, sub 1%, c rezistena celor dou specii la agentul poluant testat difer, sau c rezistena celor dou specii la agentul poluant testat difer foarte semnificativ (**, p < 0,003278). 8 (Enun din [1] modificat). Un lot de 10 hipertensivi au primit un tratament destinat diminurii tensiunii arteriale. S-au observat urmtoarele valori ale tensiunii arteriale sistolice, msurate n cm Hg:

    Numr subiect 1 2 3 4 5 6 7 8 9 10 Tensiune sistolic nainte de tratament 15 18 17 20 21 18 17 15 19 16 Tensiune sistolic dup tratament 12 16 17 18 17 15 18 14 16 18

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    142

    Fixnd = 0,025 (conform observaiei 2 din 6. 4., Lp 8), este eficace acest tratament ? Rezolvare: Cele dou eantioane sunt eantioane de observaii perechi extrase din populaii care pot fi considerate distribuite gaussian: populaia dinaintea tratamentului pentru c marea majoritate a parametrilor fiziologici sunt astfel distribuii, iar cea de dup tratament, pentru c este vorba de reacia unei populaii biologice la un anumit factor de mediu - tratamentul (legea toleranei). Notnd cu , respectiv mediile celor dou populaii (nainte, respectiv dup tratament) cuplul de ipoteze statistice de verificat este: H0: = ; HA: > (adic trebuie s aplicm un test unilateral dreapta). Populaiile fiind gaussiene putem aplica testul Student pentru observaii perechi. Statistica testului este:

    1=

    n/sm

    td

    dd

    ,

    md fiind media diferenelor valorilor perechi, sd abaterea standard corectat, a acelorai diferene, iar n numrul perechilor. Pentru calculul celor dou statistici vom utiliza tabelul:

    Nr.pereche xi xi di = xi xi di md (di

    md)2 1 2 3 4 5 6 7 8 9

    10

    15 18 17 20 21 18 17 15 19 16

    12 16 17 18 17 15 18 14 16 18

    3 2 0 2 4 3

    -1 1 3

    -2

    1,5 0,5

    -1,5 0,5 2,5 1,5

    -2,5 -,5 1,5

    -3,5

    2,25 0,25 2,25

    ,25 6,25 2,25 6,25

    ,25 2,25

    12,25 Totaluri: 176 161 15 Verificare: 0 34,5

    n = 10, deci

    n

    dm

    id

    = = 5,1

    1015

    = ;n

    xm

    i= = 6,17

    10176

    = ;n

    xm

    i=

    '

    ' = 1,1610161

    = ;

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    143

    n

    )md(s

    did

    =

    22

    = 45310

    534,

    ,

    = 861453 ,,sd ==

    1=

    n/sm

    td

    dd = 4223861

    51,

    /,,

    = .

    Din tabela Student (vezi Anexa 3 din acest volum) se citete 0,025 cuantila unilateral superioar pentru distribuia t cu grade de libertate, unde (= n 1) = 9. Adic se citete tabela pe linia 9 i coloana corespunztoare lui = 0,025 citit de sus n jos. Se obine t9;0,025 =2,262. Decizie statistic final: Deoarece t = 2,42 > 2,262, se respinge ipoteza nul cu risc p < 0,025. Decizie de specialitate: Putem afirma cu un risc p sub 2,5% c tratamentul este eficace.

    Exerciii sau probleme propuse

    1 Teste de conformitate 9. Deoarece media general a notelor studenilor din anul II Biochimie (n anul universitar 1998-99 la susinerea pentru prima oar a colocviului la disciplina Teoria probabilitilor i statistic matematic) a fost 5,75, s se verifice dac notarea a fost prea indulgent, media general pentru un test bine calibrat fiind 5,5 (conform problemei 1 din Lp 4). Abaterea standard a notelor a fost s1 = 1,59.

    2 Teste de concordan 10. Dintr-o biocenoz s-a extras aleator un eantion care are urmtoarea distribuie de abundene:

    4 10 20 304321 s s ss

    S se verifice dac putem considera c biocenoza are o distribuie echitabil.

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    144

    11. Dintr-o biocenoz s-a extras aleator un eantion care are urmtoarea distribuie de abundene:

    24 19 18 17 22 20654321 s s s s ss

    S se verifice dac putem considera c biocenoza are o distribuie echitabil.

    12. Un zar a fost aruncat de 120 de ori obinndu-se distribuia din problema anterioar. S se decid dac zarul este msluit.

    13.

    Un ban a fost aruncat de 30 de ori obinndu-se distribuia

    16 14 anulStema B

    .

    S se decid dac banul este msluit.

    14. Un ban a fost aruncat de 3000 de ori obinndu-se acelai raport ntre numrul de apariii ale stemei i cel de apariii ale banului ca la problema anterioar, adic 14 / 16. S se decid dac banul este msluit.

    15. ntr-un eantion extras aleator dintr-o populaie biologic, frecvenele absolute ale genotipurilor AA, Aa i aa sunt

    200 300 500 aaAA Aa

    . S se verifice dac

    mperecherea n cadrul populaiei se face la ntmplare.

  • Dragomirescu L. Lucrari practice de biostatistica. Editia a III-a revazuta si adaugita, 263 pp. Editura Agronomica, Bucuresti, 2003.

    145

    16. ntr-un eantion extras aleator dintr-o populaie biologic, frecvenele absolute ale genotipurilor AA, Aa i aa sunt

    150 500 350 aaAA Aa

    . S se verifice dac

    mperecherea n cadrul populaiei se face la ntmplare.

    17. S se testeze normalitatea distribuiei notelor urmtoare:

    30 35 20 1510 9 8 7

    .

    3 Teste de egalitate

    18. n vederea evalurii rezistenei la un agent poluant a dou specii de peti, dou loturi extrase prin randomizare din cele dou specii au fost supuse unui tratament cu aceeai concentraie de agent poluant. S-au notat timpii de supravieuire ai fiecrui individ (exprimai n ore) i au rezultat seriile urmtoare: Specia A: 2 4 7 10 12 14 11 15 15 21 4 9 12 12 18 28; Specia B: 13 4 7 12 11 17 25 16 17 21 11 31 23 23 35. Cele dou specii rezist la fel la concentraia dat a agentului poluant sau nu ?

    19. Pentru testarea eficacitii unei culegeri de probleme s-au selecionat prin randomizare 10 studeni. S-au notat mediile obinute de acetia naintea accesului la culegere, precum i mediile notelor obinute dup ce studenii au nceput s utilizeze culegerea. Mediile au fost urmtoarele: Numr subiect 1 2 3 4 5 6 7 8 9 10 Media naintea utilizrii culegerii de probleme 5 6 7 7 8 9 8 6 5 8 Media dup utilizarea culegerii de probleme 7 7 5 7 9 8 10 9 8 10

    Este eficace culegerea de probleme ?