curs_lp_G.Georgescu

Embed Size (px)

Citation preview

Universitatea de Medicina si Farmacie Gr. T. Popa Iasi Facultatea de Medicina Disciplina de Informatica medicala si biostatistica Prof. Univ. Gabriela Georgescu 1.Biostatistica curs & lucrari practicean I / III / IV MG / AMG 2.Baze de datecurs & lucrari practicean I MG / AMG 3.MS Power Point curs & lucrari practicean I MG 4.MS Excelcurs & lucrari practicean I MG Biostatistica.curs & lucrari practice 3 Elemente de Biostatistic 8.1. Noiuni de baz Statisticaestetiinacareseocupcudescriereaianalizareanumericafenomenelordemas.Ea studiaz latura cantitativ a fenomenelor, legile statistice manifestndu-se sub form de tendine. Biostatisticaintereseazaplicareastatisticiifenomenelorbiologice,incluzndbiologiauman, medicinaisntateapublic.Statisticaesteoramuramatematiciiaplicatedezvoltatdinteoria probabilitiloriestefundamentatpetoatetiineleexperimentale:fizica,biologia,sociologia, chimia, etc. Prelucrarea datelor statistice cu ajutorul unor formule matematice este necesar pentru a ne ajuta s nelegem fenomenele mai puin evidente.Observaiile sunt transformate n nregistrri numerice. Statistica este instrumentul matematic ideal pentru analiza lor. Detalii interesnd inferena statistic 1.Studiulreprezintoorganizaretiinificasarcinilorcudefinireauneimulimide obiective.2.Rezumatul este un studiu al crui scop este s evalueze condiiile care exist n natur i modificrile orict de nensemnate (mici). 3.Experimentulesteunstudiucaremodificcondiiileexistententr-omanierdefinit pentru a evalua efectele unuia sau mai multor tratamente. 4.Unitatea este cel mai mic obiect sau individ care poate fi investigat, sursa informaiei de baz. 5.Populaiaesteunfoartemaregrupdeuniticuprivirelacaresuntfcuteinferene tiinifice. 6.Parametrul este o caracteristic a populaiei. 7.Descrierea este o descriere detaliat a prelucrrilor prin care vom obine informaia. 8.Analizaesteactivitateaprivindcolectareaiextragereainformaiilornumericedin unitile selectate pentru studiu. 9.Eantionul reprezint un subset de uniti din populaie. 10.Statistica este o caracteristic a irului, utilizat pentru realizarea inferenelor.11.Variabila este o caracteristic observabil pe uniti. O populaie de uniti este un grup de entiti avnd aceleai caracteristici cuantificabile. O unitate poate fi: popor, maini, animale, bacterii, familii sau orice alte entiti. Opopulaiedeobservaiiesteungrupcareconstnvalorinumericealeuneicaracteristici cuantificabile determinate pentru fiecare membru al populaiei de uniti. Un eantion de uniti este o submulime finit de uniti din populaia de uniti. Un eantion de observaii este o submulime finit din populaia de observaii. Ex: Analiza parametrilor de tipul vrst, sex, nlime, greutate pentru un grup de pacieni. 8.2. Variabile aleatoare. Distribuii Ovariabilaleatoareesteocantitatecareiavaloridiferitesaumulimidevaloricuprobabiliti variabile. Un tabel, grafic sau expresie matematic dnd probabiliticu care o variabil aleatoare ia diferite valori sau mulimi de valori se numete distribuia variabilei aleatoare. Odistribuieindicpentruopopulaiedeobservaiifrecvenelerelativecucarediferitevalorisau mulimi de valori aleatoare apar. Cnd vorbim despre medie, varian, deviaie standard, mod sau orice alt statistic descriptiv a distribuiei, ne referim la ntreaga populaie de observaii. 8 Biostatistica.curs & lucrari practice 4Media populaiei Variana populaiei 2 Deviaia standard a populaiei Media eantionului xVariana eantionuluiS2 Deviaia standard a eantionuluiS Mrimea eantionuluin

Modulul reprezint valoarea a crei frecven este cea mai mare. Mediana reprezint valoarea de la mijlocul eantionului. Pentru un grup de valori numerice experimentale, prima operaie este ordonarea lor. Pentru fiecare valoare a datelor numerice numrul se reine numrul de apariii. Acesta reprezint frecvena. Mulimeavalorilorefectivealefrecvenelorconstituiedistribuiafrecvenelor,pecareoputem reprezenta ntr-un tabel sau pe un grafic. Observareastatisticadiverselorbolisaufenomenes-afcutdinantichitate;primelestatistici adevrate s-au fcut n sec. XVII, de ctre John Grownt, care a fcut primele recensminte de bolnavi ntimpulunorepidemiideciumdinLondra,construindtabeledenatalitateimortalitate.Termenul debiostatisticafostintrodusn1772,dectreAchenwald,matematiciangerman.Pearson, matematicianistatisticianenglez,acondusrevistadebiostatisticBiometrika;n1900aintrodus testul 2. Un alt nume important este cel al lui Francisc Gatton, expert n probleme de ereditate. 8.3. Statistic descriptiv 8.3.1. Descrierea unei serii statistice Oseriestatisticesteconstituitdintr-unansamblu(mulime)devalorinumericerezultatalunei observaii.Oseriestatisticpoatefi:numruldebieintr-ungrupdefamilii,nlimea,greutatea,procentul urinar sau sanguin al metabolismului ntr-un grup de bolnavi.Primaetapaactivitiinanalizastatisticadatelorconstnordonarearezultatelorobinute, prezentarea sub o form facil i accesibil, care s ne ofere o descriere ct mai fidel a fenomenului studiat. 8.3.2. Ordonarea datelor. Distribuie de frecven Considerndungrupdevalorinumericeexperimentalealetipuluipecarelcitm,rezultatelesunt obinute ntr-o ordine oarecare. Etapa de ordonare cresctoare sau descresctoare poart numele de punerea n ordine a datelor. Se nscrie pentru fiecare valoare observat x, numrul F de apariii, care se va numi frecvena (efectivul) valorii.Mulimea valorilor efective ale frecvenelor respective constituie distribuia frecvenei, care se poate prezenta printr-un tabel. Ex 1: Se studiaz numrul de biei n 1877 familii de 7 copii. Rezultatele sunt prezentate n funcie de numrul x de biei, cuprins ntre 0 i 7. Se observ fiecare dintre aceste valori, care indic efectivul F = numrul de apariii ntlnite, adic numrul de familii avnd acest numr de copii.Numr de biei X Numr de familii FFrecvena f=F/n Procentajul 100*f 0220.011 11120.066 22850.1515 34700.2525 45130.2727 53200.1717 61320.077 7230.011 Total18771100 Tabelul 8.1: Distribuia numrului de biei n 1877 familii cu cte 7 copii Biostatistica.curs & lucrari practice 58.3.3. Gruparea datelor n clase Cndvalorilestudiatevariazcontinuu,cumestecazulgreutiiialnlimii,alprocentuluide substan umoral etc., adic atunci cnd variabila poate lua toate valorile posibile ntr-un interval dat, diferitele valori observate potfi foarte numeroase. Distribuia de frecven este foarte dispersat. Deaceeaestenecesarreducereanumruluidevaloriposibile.Sempartedomeniuldevariaii posibile ntr-un numr de intervale sau clase n interiorul crora se grupeaz toate valorile care cad n intervalul corespunztor.Ex2:Sestudiazdistribuiagreutiintr-ungrupde100adulinormalidesexfeminin.Greutatea variaz ntre 41 74 kg. Se mparte domeniul de variaie n intervale de 5 kg (40 44, 45 49, 50 54,),careconstituieclaseninteriorulcrorasegrupeaztoisubieciiacrorgreutateeste cuprins ntre limitele intervalului; mulimea acestor subieci constituie efectivul clasei. Clase x Efectiv F Frecvena f=F/n Procentaj 100*f 40-4450.055 45-49120.1212 50-54310.3131 55-59310.3131 60-64160.1616 65-6930.033 70-7420.022 TotalN=1001100 Tabelul 8.2: Distribuia greutii a 100 aduli de sex feminin Intervalul de clas Areimportanprecizareadomeniuluiclaseloralese,numitintervaldeclas,caretrebuiesfien principiuacelaipentrutoateclasele;intervaleledeclastrebuiedeasemenisfiealturateifr suprapuneri.Intervalele de clas se pot preciza n trei moduri (Figura 8.1, tabel 8.3): Figura 8.1:Alegerea intervalelor de clas Indicnd,canexemplulprecedent,msurilelimitalefiecreiclase,adicceamaimicicea mai mare msur naintea apartenenei la clas, innd cont de precizia msurtorii. Indicndceeacesenumetelimitelerealealefiecreiclase,adicceamaimiciceamai maredintrevalorileteoreticealevariabileinaceastclas;dealtfel,limitasuperioaraunei clase i limita inferioar a clasei urmtoare coincid, ca de exemplu valoarea 44.5 pentru clasele (39.5 .. 44.5) i (44.5 .. 49.5). Indicnd valoarea care se gsete exact n centrul clasei, numit punct median al clasei, i care este dat de semisuma limitelor unei clase, ca de exemplu 42, 47, 52 etc. Msurilimit Limitelereale Puncte mediane Efective 40-4439.5 44.5425 45-4944.5 49.54712 50-5449.5 54.55231 55-5954.5 59.55731 60-6459.5 64.56216 65-6964.5 69.5673 70-7469.5 74.5722 100 Tabelul8.3:Distribuia greutii a 100 aduli de sex feminin Msuri limit Puncte mediane: 42 47 5257 Limite reale 39.544.5 49.5 54.559.5 4044 454950 5455 59 Biostatistica.curs & lucrari practice 6Grupnd datele n clase, se remarc asimilarea tuturor valorilor unei clase la o valoare unic, aceea a punctului median (n acest mod, se face reducerea la cazul unei variabile discontinue). Observaie:Experienaaratcnpracticnumrulintervalelordeclasestebinesfiecuprins ntre 10 i 20. 8.3.4. Frecvene relative Efectivul F al unei valori (sau al unei clase) reprezint frecvena sa absolut, adic numrul de apariii ale acestei valori (sau al acestei clase) n ansamblul distribuit. Dac dorim s comparm serii statistice comportnd un numr diferit de cazuri, este interesant s raportmaceastfrecvenabsolutlanumrulndecazuri,numitefectivultotal,careconineseria studiat. Se definete la fel frecvena relativ, sau frecvena propriu-zis a valorilor considerate, nFfr=Sepoateatuncicompletatablouldistribuieidefrecveneprintr-ocoloansuplimentarindicnd dintr-o privire valoarea frecvenei relative, care poate fi de asemeni exprimat sub form de procente (coloana 4 din tabelele 8.1, 8.2). Numrul total n de cazuri se definete ca fiind suma efectivelor fiecrei valori, ==pin Fi1 Suma frecvenelor relativeva fiegal cu 1, ceea ce reprezintmulimea,adic 100procente, sau 100 cazuri ale distribuiei. ==pifi11 8.3.5. Diagrama frecvenelor Este interesant s nlocuim tabloul cifrelor unei distribuii de frecvene cu o reprezentare grafic, care ddistribuieidefrecvenoimaginemaigritoare,permindafacesaparcuuurinalura general a caracteristicilor eseniale, adic diagrama frecvenelor. Moduldereprezentarecelmaidesutilizatestehistograma:fiecarevaloare(clas)estefigurat printr-undreptunghiacruibazcorespundevalorii(sauintervaluluideclas)reprezentatpeaxa absciseloriacruinlimeesteproporionalcuefectivul(numrul,procentajul)acesteivalori (clase), fiind reprezentat pe ordonat. Figura 8.2:Histograma numrului de biei n familii cu 7 copii 11228547051332013223221.00%6.00%15.00%25.00%27.00%17.00%7.00%1.00%01002003004005006000 1 2 3 4 5 6 7Numar de baietiFrecventa absoluta00.050.10.150.20.250.3Frecventa procentualaBiostatistica.curs & lucrari practice 7 Seobineastfelomulimededreptunghiuricuaceeailimeiacrornlimeisuprafasunt respectiv proporionale cu efectivele fiecrei valori (sau clase) (Figura 8.2, 8.3). Figura 8.3:Histograma claselor de greutate Sepoateconstruiidenticdiagramafrecvenelor,notndpeordonatenufrecveneleabsolute,cipe celerelative, nFf = .nacestcazsuprafaahistogrameivafiegalcusumafrecvenelorrelative, decivafiegalcu1.Acestmoddelucrunumodificaspectulhistogramei,cucondiiadeaalege pentruscara frecvenelor relative uniti mai mari. Axa ordonatelor este atunci gradat n procente n raport cu numrul total de cazuri (figurile 8.2, 8.3, scala din dreapta). 8.3.6. Principalele tipuri de diagram de frecvene Diagramele de frecvene folosite pentru observaiile din biologie i medicin pot acoperi pe ct posibil aspectefoartevariate.Totodat,sepotreduceadesealatipuribine-definite,evocndcucertitudine distribuiile teoretice ale calculului probabilitilor. 1.Diagramesimetrice:frecvenelediferitelorclasesegrupeazsimetricdescresctordeopartei de alta a unei frecvene centrale maximale (Figura 8.4). Figura 8.4:Distribuia a 8879 proteine marcate cu iod Acesttipdedistribuieaparecaodistribuieteoreticacalcululuiprobabilitilor,numitdistribuie normal(gaussian),carejoacunrolfundamentalnstatistic.Easentlneteefectiv,foarte adesea n biologie, cnd eantionul studiat aparine unei populaii normal distribuite. 51231 3116325.00%12.00%31.00% 31.00%16.00%3.00% 2.00%0510152025303540-44 45-49 50-54 55-59 60-64 65-69 70-74Clase de greutateFrecventa absoluta00.050.10.150.20.250.30.35Frecventa procentuala Diagrama simetrica027101423272213117320510152025300 1 2 3 4 5 6 7 8 9 10 11 12Frecvente absolute Biostatistica.curs & lucrari practice 82.Diagrameasimetrice:corespundcazuluiuneifrecvenemaximalenjurulcreiasegrupeazi frecvenelediferitelorclase.Frecveneledescrescmairapidfadeceamaximntr-opartea diagramei, comparativ cu cealalt parte (Figura 8.5). Figura 8.5:Distribuia diametrelor a 100 cochilii de cepaea memoralis 3. Diagrame hiperbolice: sunt un caz particular al distribuiei asimetrice, unde frecvena maximal se situeaz la una dintre extremitile distribuiei (Figura 8.6). Figura 8.6: Distribuia deceselor prin scarlatin (Anglia 1933) Uneori,distribuiaasimetricestemascatprinadoptareaunuiintervaldeclasmaimare(Figura 8.7). Diagrama hiperbolica mascata01002003004005006001 3 5 7 91113151719212325VarstaFrecventa absoluta Figura 8.7: Detaliu la Figura 8.6, cu schimbarea intervalelor de clas Diagrama asimetrica4622263411531051015202530354019 20 21 22 23 24 25 26 27Valorile diametruluiFrecventa absolutaDiagrama hiperbolica33030228619540 39 4223 22 24 23 21 2035 36 34 37320501001502002503003505 10 15 20 25 30 35 40 45 50 55 60 65 70 65 70 75 80VrstaFrecventa absolutaBiostatistica.curs & lucrari practice 94.Distribuiabimodal:prezintdoufrecvenemaximalecorespunztoarediferitelorvaloriale variabilei(Figura8.8).Acestaspectsugereazexistena,ntr-uneantionstudiat,adoupopulaii distincte. Figura 8.8: Vrsta de apariie a gimcomastiei la 98 subieci 8.3.7. Poligoane de frecven Se unesc mijloacele marginilor superioare ale fiecrui dreptunghi al histogramei reprezentative a unei serii de frecvene. Se obine o linie frnt, numit poligon de frecvene al seriei corespunztoare, care indiccumvariazfrecvenade-alungulmulimiivalorilorseriei(Figura8.9).Dupconstruirea poligonuluidefrecvene,sevedecfiecaredintrecolurileamputatesuntcompensatecutriunghiuri adiacente, astfel nct suprafaa nglobat n poligonul de frecven rmne aceeai (fiind echivalent cu suprafaa histogramei). Observaie: Poligonul de frecven are aceeai semnificaie cu marginea superioar a histogramei. Figura 8.9:Poligon de frecvene

8.3.8. Frecvene cumulatePlecnddelavaloareaceamaimic(primadinordineatabelului)seadunsuccesivfrecvenele fiecreivalori(sauclase);prinurmare,pentrufiecarevaloareseconsidernunumaifrecvenasa proprie, ci suma acestei frecvene cu a tuturor valorilor inferioare. n acest mod se obine o distribuie de frecvene numite cumulate (tabelul 8.4). Diagrama bimodala05101520253010 20 30 40 50 60 70 80VarstaFrecventa absoluta05101520251 2 3 4 5 6 7 8 9Frecventa Biostatistica.curs & lucrari practice 10Numr de biei x Numr de familii F Numr cumulat de biei xc Numr cumulatde familii Fc. 021021 11110 1 132 22870 2 419 34800 3 899 45290 41428 53040 51732 61260 61858 197 Total: 1877 0 71877 Tabelul 8.4:Frecvene cumulate pentru numrul de biei n familii cu 7 copii Reprezentareagraficaacestuitipdefrecveneducelaobinereauneidiagramenumitdiagrama cumulat a datelor (Figura 8.10). Figura 8.10:Exemplu de diagram cumulat Figura 8.10. Diagrama cumulat a datelor 8.4. Clasificarea datelor Datelefolositencalculelestatisticesuntdedoutipuri:calitative(categoriale)icantitative (numerice). 1. Date calitative: sunt date care pot fi clasificate dup categorii, i nu dup numr (valori).Exemple:Brbai / Femei Fumtori / Nefumtori Grupa sanguin A /B /AB /0 Cstorii / Necstorii / Divorai Uneoriutilizmnumerepentruareprezentadiferitecategorii.Acestetipuridedatecalitativese numesc nominale.Alteori,cndvariabilapoateluadoardouvalori,easevanumivariabilbinar(ex.Diabetic/ Nediabetic).Adesea exist o ordine natural n organizarea variaiilor unuisistem (organizare n clase). Aceste tipuri de date se numesc ordinale.Exemplu: Consum de igarete: Nefumtori / Fumeaz sub 5 igri pe zi / Fumeaz 5 10 igri pe zi / Fumeaz 10 20 igri pe zi / Fumeaz peste 20 igri pe zi Clase sociale: jos / mijloc / sus 2. Date cantitative: sunt caracterizate de valori numerice. Pot fi, la rndul lor: continue: pot lua orice valoare ntr-un interval dat;0 29193356831051181291361391410204060801001201401600 1 2 3 4 5 6 7 8 9 10 11 12Diagrama cumulataBiostatistica.curs & lucrari practice 11discrete: pot lua numai anumite valori numerice.Exemplu: Date de tip continuu: greutatea ntr-un grup de pacieni, nlimea ntr-un lot de copii; Date de tip discret: numrul de copii ntr-o familie, numrul de internri ntr-un spital. 8.4.1. Reprezentarea datelor Datele calitative se reprezint folosindu-se urmtoarele metode: Tabele de frecven; Bar chart (un tip de reprezentare grafic asemntoare histogramei); Pie chart. Datele numerice se reprezint folosindu-se urmtoarele metode:Histograma (din exemplele anterioare); Graficul linie (Figura 8.11); Figura 8.11: Exemplu de grafic linie Diagrama datelor (se figureaz norul de puncte Figura 8.12). Figura 8.12: Exemplu de diagram a datelor 8.5. Msurile valorilor centrale Parametrii urmrii n analiza unei serii statistice sunt: a)Media aritmetic: Seaplicdatelorcareauvalorinumerice;seobinefcndraportuldintresumatuturorvalorilori numrul acestora. Exemplu: Vom calcula media aritmetic a urmtoarei serii de valori: 39, 42, 73, 67, 24 , 55. Aceasta va fi: 506300655 24 73 42 39= =+ + + += x . ncazulgeneral:avemobservaiilex1,x2,,xn;sumaabsolutaacestoravafi== + + +nii nx x x x12 1... ; n acest caz, media aritmetic se va calcula cu formula:nxxnii ==1. 051015202530 012345670 1 2 3 4 5 6 7 Biostatistica.curs & lucrari practice 12b)Mediana:Cnd observaiile sunt aezate n ordine (descendent sau ascendent), mediana va fi valoarea care mparte grupul de valori n dou pri egale. Exemplul 1: Avem seria de valori: C, E, B, D, A, A, B, F, C, C, D.Le vom aranja n ordine ascendent: A, A, B, B, C, C, C, D, D, E, F. Mediana va fi elementul ncercuit.Exemplul 2:Avem seria de valori: 61 , 49 , 53 , 61 , 74 , 82.Aranjm elementele n ordine ascendent: 35 , 49 , 53 , 61 , 74 , 82. Mediana se calculeaz fcnd media aritmetic a celor dou valori din mijlocul irului:57261 53=+= mediana . c)Modulul: Este valoarea care are frecvena cea mai mare din setul de observaii. Exemplu: Avem mulimea de valori: A, O, O, B, B, AB, AB, A, A, O, O, O, AB, B, O, B, A, O, AB, O, O, B, O, A. Valoarea A are 5 apariii. Valoarea B are 5 apariii. Valoarea AB are 4 apariii. Valoarea O are 10 apariii. Aceasta va fi modulul seriei de valori. 8.6. Msuri ale mprtierii sau variabilitii Msurile valorii centrale nu ne dau nici o indicaie privind mprtierea sau variabilitatea ntr-un set de observaii. Exemplu:SconsidermcavemdoucomunitiAiB;medialocuitorilorcelor2comunitieste aceeai, ns distribuiile valorilor (mprtierea acestora) este diferit (conform tabelului 8.5). Comunitatea AComunitatea B 4008000 60008000 80009000 1000010000 1200011000 1400012000 1600012000 10000 =AX 10000 =BXTabelul 8.5: Locuitorii din 2 comuniti A i B Pentruaseputeacaracterizagraduldemprtierealvaloriloruneiseriidevalori,sedefineteo mrime special, numit deviaie standard.Oaltmsurutildecaracterizareamprtieriiesterangul,definitcadiferenantreceamai mic i cea mai mare valoare a seriei. Variana (dispersia) i deviaia standard: Varianaestemediaptratelordeviaiilor(abaterilor)delamedie.Cndcalculmvarianauneiserii statistice,sumaptratelordeviaiilordelamediesempartela(n1),deoareceaceastadomai bun estimare a varianei populaiei totale. Numitorul (n 1) este numit numrul gradelor de libertate ale varianei. Formula de calcul a varianei pentru o serie de valori x1 , x2 , , xn va fi: Biostatistica.curs & lucrari practice 131) () (122 2==nx xSniiExemplu: Valorile variaiei ntr-un set de rezultate sunt prezentate n tabelul 8.6. Vrsta (rezultate) Deviaia absolut de la medie Ptratul deviaiei 16813.8190.44 26510.8116.64 3594.823.04 4594.823.04 5572.87.84 6522.24.84 7495.227.04 8486.238.44 9486.238.44 10486.238.44 114711.2125.44 Total59674.2633.64 Tabelul 8.6:Variana ntr-un set de rezultate 2 . 5411596= = X . Numrul de grade de libertate: 11-1=10. Mediana: 52. Modulul: 48. 36 . 631064 . 6332= = . Definiie: Rdcina ptrat a varianei se numete deviaie standard. 1) (21==nx xini . Eroarea standard (e.s.) este dat de formula: nns e2. . = = . Pentru exemplul nostru (tabelul 8.6): 510 . 2316 . 396 . 71096 . 7. . = = = s e Biostatistica.curs & lucrari practice 148.7. Principalele tipuri de distribuii statistice 8.7.1. Distribuia binomial Experiena dublei extrageri Avem un sac care conine o bil alb i dou negre i vedem ce se ntmpl probabilistic atunci cnd procedm la dou extrageri succesive. Presupunem c bila tras prima dat este repus n urn n aa fel nctcomponena acesteia s nu se schimbe n timpul celei de-a doua extrageri. n aceste condiii, la a doua extragere, la fel ca i la prima, exist probabilitatea p=1/3 de a extrage obilalb,iprobabilitateaq=2/3deaextrageobilneagr.Ceeaceneintereseazeste probabilitatea combinaiilor care pot rezulta din a doua tragere.ntimpulacesteiexperiene,fiecaredincele3bilesusceptibiledeafiextraselaprimaextragere, poate fi asociat cu fiecare dintrecele 3 bile susceptibile de a fiextrase a doua oar. Existun total de 3 3 = 9 combinaii posibile de cte dou bile: -o combinaie A+A -2 combinaii A+N -2 combinaii N+A -4 combinaii N+N Probabilitile acestor combinaii diferite sunt: -1/9 (adic p2) pentru combinaiile A+A; -2/9 (adic pq) pentru combinaiile A+N; -2/9 (adic pq) pentru combinaiile N+A; -4/9 (adic q2 ) pentru combinaiile N+N. Dacnuseinecontdeordineancareseprezintbilele(ceeacepoatefirealizatefectundo tragere de 2 bile odat dintr-un sac cu aceeai compoziie, adic avnd aceeai proporie de bile albe i negre, dar coninnd un numr mare de bile) vedem c avem 3 posibiliti: -combinaia A+A, cu probabilitatea p2 -combinaia A+N (sau N+A), cu probabilitatea pq + pq = 2pq -combinaia N+N, cu probabilitatea q2

Acestediversecombinaiidebilecarecomportrespectivnotaiile0,1i2bilenegre,audeci probabilitileegalerespectivcup2,2pq,q2,adictermeniisuccesividindezvoltareabine- cunoscut: 2 2 22 ) ( q pq p q p + + = + . Extrageri multiple; distribuia binomial Judecndnaceeaimanieriplecnddeladateleprecedente,sevagsicncazultragerilor triple,adica3biledeodat,exist3+1=4combinaiiposibilede3bilealbeinegre,comportnd respectiv 0, 1, 2, i 3 bile negre, deci probabilitile sunt reprezentate respectiv de termenii succesivi ai dezvoltrii:( )3 2 2 3 33 3 q pq q p p q p + + + = + , aa cum reiese i din tabelul 8.7.Pentrup=1/3iq=2/3,seobinpentruacetitermenivalorile1/27,6/27,12/27,8/27,caresunt reprezentate n Figura 8.13. n general, se arat c dac se realizeaz n trageri succesive (sau, ceea ce este acelai lucru, dac plecmdelaournbinarcuaceeaistructur,adicaceeaiproporiedebilealbeinegre,dar coninndunnumrmaredebile,iextragemdefiecaredatuneantiondenbile)seobin(n+1) combinaii de bile albe i negre, coninnd respectiv 0, 1, 2, 3, , n bile negre. Probabilitatea acestor combinaiidiferiteestedatrespectivdetermeniisuccesividindezvoltarea(p+q)n,piqfiind probabilitile elementare de a extrage o bil alb i respectiv de a extrage o bil neagr. Prima extragere A doua extragere Biostatistica.curs & lucrari practice 15Comb. dublei extrageri A 3-a extragere Comb. celei de a 3-a extrageri Probabilit.coresp. Probabilit.finale Nr. bilenegre A(p)AAA p p 2 p30AA (p2) N(q)AAN q p 2 A(p)ANA (NAA)2pqp=2p2q q p )`23 1 AN(NA) (pq) N(q)ANN (NAN)2pqq=2pq2 A(p)NNA p q 2 23 q p )` 2 NN (q2) N(q)NNN q q 2 q33 Tabelul 8.7:Probabilitile triplei extrageri 00.10.20.30.40.5Probabilitatea P 0 12 3 Numarul de bile negre Lund ca variabil aleatoare numrul r de bile negre coninute n eantionul de n bile, r poate lua toate valorilediscrete(ntregi)dela0lan;seobineodistribuieundeprobabilitilediferitelorvaloriale variabileloraleatoaresuntdate de termenii succesividin dezvoltareabinomului (p+q)n,de unde numele binomial, dat acestei distribuii particulare a probabilitilor. Expresia termenului de rang r Dezvoltarea (p+q)n comport n+1 termeni calculai de la 0 la n, de la stnga la dreapta.Termenul de rang 0 (cel maidinstnga) vafi ntotdeauna pn ,iar termenul derang n (cel mai din dreapta) va fi qn. Termenul de rang r (r variind de la 0 la n) este dat de expresia r r nprnq p C) ( . innd cont de formula decalculalcombinrilor, ( )! !!r n rnCrn = ,expresiageneralatermenuluiderangrdin descompunerea (p+q)n , notat cu Pr, va fi: ( )r r nq pr n rn = ) (! !!Pr . Semnificaia distribuiei binomiale Rezultdinconsideraiileprecedentecntr-odistribuiebinomial,termenulderangr,adicacela care corespunde unui eantion de r bile negre, are o probabilitate dat de valoarea termenului de rang r n dezvoltarea (p+q)n , adic de Pr. Prindicdeciprobabilitateadeaexistaotragere,plecnddelaournbinariuneantion comportnd r bile negre din cele n bile ale eantionului. Sedefineteevenimentulfavorabil(succes),cafiindextragereauneibilenegre;prinurmare, extragereauneibile albe esteun eec non-realizare a evenimentului favorabil. Putemspunec Pr reprezintprobabilitateadeaavearsuccesedinnexperienesuccesive.Termeniirespectiviai Figura 8.13.Probabilitile triplei extrageri Biostatistica.curs & lucrari practice 16distribuiei binomiale, vor reprezenta deci n ordine probabilitile de a avea 0, 1, 2, 3, , r, succese din n experiene repetate (Figura 8.14). 00.10.20.30.40.50.60.70.80 1 2 3 4 5 . . . . . r . . nNumar de succese Distribuia binomial simetric Spresupunemcp=q.Expresiageneralatermenuluiderangr,fcndabstraciedecoeficientul corespunztor combinrilor, devine: n r r np p p = .Toitermeniidezvoltriisuntatuncideformapn,iareidiferunuldealtulnumaiprinvaloarea coeficientuluicorespunztorcombinrilor,C.DinexpresiacoeficientuluiCrezultdeasemenic2 termeni situai la egal distan de extremiti sunt identici. ntr-adevr,dacuntermenarerangulr,simetriculsuvaavearangul(nr).Coeficientul termenului de rang (n r) va fi obinut nlocuind r cu (n r) n expresia rnC , deci termenii sunt identici. Rezultaadarc,dacp=q,termeniisituailaegaldistandeextremitilebinomului sunt egali ntre ei; distribuia binomial obinut se numete simetric (Figura 8.15). 00.20.40.60.811.21 3 5 7 9 11 13 15 17 19 21rP Distribuia binomial asimetric Dac pq, distribuia binomial este numit asimetric, iar aspectul ei va fi diferit dup cum p < q sau q < p (distribuia fiind deplasat oblic stnga sau dreapta, Figurile 8.16, 8.17). 00.20.40.60.811.2rP Figura 8.14.Distribuie binomial Figura 8.15.Distribuie binomial simetric Figura 8.16.Distribuie binomial asimetric deplasat dreapta (p < q) Biostatistica.curs & lucrari practice 17n aceast situaie, p q, iar asimetria distribuiei tinde s se estompeze dac n crete; pentru valori suficientdemarialeluin,distribuiapoateficonsideratpracticsimetric,chiardacpq(Figura 8.18). 00.20.40.60.811.2rP xP 0.1 0.2 0.3 0.4 0.50n = 10n =20n = 50n = 100 Rangul termenului cel mai probabil Diagramelearatc,indiferentdeformasimetricsauasimetricadistribuiei,diferiiitermeniai acesteiavorcretepnlaovaloaremaxim,pentruadescreteapoi.Existdecitotdeaunaun termen alcrui probabilitate este cea mai mare. Este interesant de cercetat rangul termenului care corespunde probabilitii maxime. Aceasta revine laadeterminacomponenaceamaiprobabilaeantionuluidenbileextraseplecnddelaourn binar de componen dat. Fie o urn coninnd, de exemplu, 100 bile, dintre care 30 albe i 70 negre. Extragen din mai multe extrageriuneantionde10bile.timcexist10+1=11combinaiiposibilealeacestorbilebile albe i negre, comportnd respectiv 0, 1, 2, 10 bile negre. Nu are importan ce combinaie din cele 11 posibile a ieit.Intuitiv, tim c avem anse mai mari de a extrage un eantion coninnd 3 bile albe i 7 bile negre, deciavndaceeaiproporie(pstrndcompoziia)cuurnansi.Searatefectivcestede asemenibinestimnparticularcnestesuficientdemareicpiqnutrebuiesfieprea apropiate de 0 sau de 1. n aceste condiii devine facil s calculm rangul termenului corespunztor probabilitii maxime: va fi rangul r corespunztor numrului de bile negre coninut n combinaia respectiv. Dac q este proporia de bile negre, numrul r de bile negre n eantionul de n bile va fi: n q rnrq = = sau . n aceste condiii precizate (n mare, p i q nu prea apropiate de 0 sau 1), rangul termenului cel mai probabil este dat de expresia:q n r = , care corespunde unui eantion avnd aceeai compoziie ca urna binar din care s-a fcut extragerea. Figura 8.17.Distribuie binomial asimetric deplasat stnga (q < p) Figura 8.18.Distribuia binomial asimetric(p = 0.9, q = 0.1) pentru diferite valori ale lui n Biostatistica.curs & lucrari practice 18Media distribuiei binomiale Searatctermenulcelmaiprobabil,q n r = ,reprezintnacelaitimpimediadistribuiei binomiale, care va fi prin urmareq n m =i, atta timp ct condiiile precizate sunt realizate, aceast medie corespunde termenului de rang cel mai probabil. Aceasta vreasspunc ntr-oserie den experiene, a cror probabilitateconstnddinsuccese este q, numrul de succese la care trebuie s ne ateptm esteq n . Variana; abaterea tip Dac media esteq n , abaterea de la medie pentru o valoare oarecare xi va fi (xi nq). Variana va fi:( )= =niiq n xn12 21 .Se arat c aceast expresie este egal cup q n .Variana unei distribuii binomiale este deci dat de formula: q p n =2 . Prin urmare, deviaia standard a distribuiei binomiale va deveni: q p n = Exemplu de distribuie binomial Repartiia sexelor la natere ofer un exemplu clasic de distribuie binomial. Se poate considera ntr-adevr c exist pentru fiecare natere o probabilitate constant egal cu 1/2 de a avea o fiic, egal cuceade aavea un biat. Determinareasexului poate fisimulat printr-unexperiment de extragere dintr-ournbinarconinndunnumregaldebilealbeinegre.Prinurmare,probabilitateadea extrage o bil alb este egal cu 1/2, fiind identic cu probabilitatea de a extrage o bil neagr.nrealitate,probabilitateadeasenateunbiatestepuinsuperioarceleideasenateofat, prinurmareurnabinarreprezentativartrebuisconin105bilecorespunztoarenumruluide biei(negre)i100bilecorespunztoarenumruluidefete(albe).Pentru6nateri,deexemplu, avem 6+1=7 combinaii posibile, corespunztoare unui numr de 0, 1, 2, 3, 4, 5, 6 nou-nscui biei; probabilitile vor fi date de termenii corespunztori dezvoltrii (p+q)6, unde p=1/2 i q=1/2. Prin urmare, probabilitile vor fi (Figura 8.19): p6=1/64=0.016=1.6% pentru situaia 0 biei, 6 fete; 6p6=6/64=0.094=9.4% pentru situaia 1 biat, 5 fete; 15p6=15/64=0.234=23.4% pentru situaia 2 biei, 4 fete; 20p6=20/64=0.312=31.2% pentru situaia 3 biei, 3 fete; 15p6=15/64=0.234=23.4% pentru situaia 4 biei, 2 fete; 6p6=6/64=0.094=9.4% pentru situaia 5 biei, 1 fat; p6=1/64=0.016=1.6% pentru situaia 6 biei, 0 fete. 0.0160.0940.2340.3120.2340.0940.01600.050.10.150.20.250.30.350 1 2 3 4 5 6Numarul de baietiP Media distribuiei este m = nq = 6 1/2 = 3 i corespunde eventualitii de a se nate 3 biei i 3 fete (eventualitatea cea mai probabil Figura 8.20). Figura 8.19.Diagrama corespunztoare distribuiei binomiale pentru diferite valori ale lui n Biostatistica.curs & lucrari practice 1901002003004005006007000 1 2 3 4 5 6Numar de baietiNumar de familii Vom vedea n cele ce urmeaz cum poate fi exploatat distribuia binomial pentru unele probleme statistice, n particular pentru comparaia procentual a dou evenimente care se exclud mutual. Una dintreutilitileesenialealedistribuieibinomialeesteaceeaceastlabazaunoraltedistribuii teoretice, i n particular a distribuiei normale. Distribuia procentual Dac se consider n locul numrului r, proporia r/n (numit procentual) de bile negre coninute n eantion,distribuia acestor valori pentru diferite combinaii posibile aleeantionului este de asemeni odistribuiebinomial,darncareavemprocentaje0/n,1/n,,r/ncareiauvalorintre0i100 (Figura 8.21). Mediamqaacesteidistribuiiprocentualeseobinedinmediadistribuieibinomialecorespunztoare prin divizare la n:qnq nnmmq== =Media distribuiei procentuale este deci mq = q. Semnificaia acestui fapt este aceea c proporia cea mai probabil este n mod precis, cea care corespunde urnei binare. qp 0/n1/n2/n3/n...r/n...n/n Figura 8.20.Exemplu de distribuie binomial pentru diferite valori ale lui n Figura 8.21.Distribuia procentual Biostatistica.curs & lucrari practice 208.7.2. Distribuia normal Definiie: Distribuia normal este o distribuie binomial simetric n care p = q =1/2. S studien ceea ce se ntmpl cnd n +. n aceste condiii, distribuia valorilor fiind de la 0 la +, numrultermenilordistribuiei,adicnumruldreptunghiurilordiagrameidevineinfinit.Bazafiecrui dreptunghisemicoreazprinurmarefoartemult,iarlalimit,margineasuperioaradiagrameise transformntr-oliniecontinucurb,careestecurbadedensitatedeprobabilitatecorespunztoare (Figura 8.22).CurbaastfelobinutesteperfectdefinitpeplanmatematiccurbaGauss-Laplace,carepermite caracterizareauneiformededistribuieteoreticdeimportanfundamental:distribuianormal (gaussian). Aceastdistribuiecorespundeuneidistribuiibinomialesimetrice,reprezentatlalimit;prinurmare estenmodforatsimetric,caodistribuiebinomialdeorigine,mprejurulmedieisale(termenulcu probabilitateaceamaimare).Pedealtparte,termeniiextremi,situailaegaldistandeaxade simetrie a distribuiei, sunt de forma pn, unde p este o fracie a unitii deci devine rapid foarte mic, pe msur ce n crete. Curba se va nla astfel rapid i de o manier simetric de o parte i de alta a mediei pe axa absciselor, ceea ce i confer un aspect n clopot foarte caracteristic.rPr Importana legii normale: -spoatservimodelelematematicepentrureprezentareaunuimarenumrdedistribuii experimentale; -s poat fi exploatat, pentru a rezolva un mare numr de probleme de interpretare statistic. Ecuaia curbei Gauss n condiiile de mai sus, n i p, q sunt egale (nefiind apropiate de 0 sau 1). se arat, folosind formula luiStirling(pentrunsuficientdemare,putemaproximan e n nn n 2 ! )cexpresia ( )r r nq pr n rn =! !!Pr ,caredvaloareatermenuluiderangrndistribuiabinomial,tindectre expresia: ( )q p nq n req p n =2221Pr(1) Cum, n plus, ntr-o distribuie binomial media este m=nq, iar variana esteq p n =2 , expresia precedent poate fi scris sub forma:( )22221Pr =m re (2) La limit, dreptunghiul de rang r, a crui nlime este dat de probabilitatea acestui termen, Pr, se reduce la oordonat liniar y a crei abscis x este chiar r (Figura 8.23).Valoarea lui y se obine nlocuind r cu x n expresia lui Pr; prin urmare se obine: +0 Figura 8.22.Curba Gauss-Laplace i distribuia normal Biostatistica.curs & lucrari practice 21( )22221 =m xe y (3) ecuaie cunoscut sub numele de ecuaia curbei Gauss. 00.20.40.60.811.2xPr yPr(y)r(x) Curba Centrat Expresia (3) corespundeunei curbe n careorigineacoordonateloreste plasat, ca pentru distribuia binomial, la una dintre extremitile distribuiei (Figura 8.24). 00.20.40.60.811.2xyyx m Exist ns interesul de a exprima ecuaia curbei n raport cu axa de simetrie a acesteia, care este de fapt abscisa mediei m. Aceasta revine la a lua noi valori pentru abscisele punctelor de pe curb, i anume abaterile de la medie ale acestora, X = x m Ecuaia curbei devine atunci: 22221 =xe y (4), unde X = abaterea de la medie. ObinemastfelecuaiacurbeiGaussraportatlaaxasadesimetrie,numitecuaiacurbei centrate, care are pentru medie valoarea 0 (Figura 8.25). xyyx0x=x-m Figura 8.23.Dreptunghiul de rang r n curba Gauss-Laplace Figura 8.24.Curba Gauss, cu originea plasat la una dintre extremiti Figura 8.25.Curba centrat Biostatistica.curs & lucrari practice 22Abaterea redus Exist interesulde aopera transformrii asupra abaterii . ntr-adevr, abaterea dela medieX i abaterea tipfiind exprimate n aceeai ecuaie dimensional, raportul m x Xt= == abatere redus, esteunnumrindependentdeunitateademsur,ceeacepermitescomparmntreelecurbe diferite. Expresia lui y devine atunci 2221te y = (5) unde m x Xt= = . Curba redus Pentru a da o portabilitate mai general a ecuaiei curbei Gauss, i a obine un aspect unic al curbei reprezentative, se ia ca unitate de msur a abaterilor, ceea ce revine la a face = 1 n ecuaia (5). Se obine atunci: 2221te y=(6) relaie cunoscut sub numele de ecuaia redus a curbei (Figura 8.26). Se observ c factorul 21 aproximeaz de fapt ecuaia 22xe y=, a unei curbe n clopot clasice (pe care am studiat-o). Morfologia curbei Gauss Datele anterioare ne vor permite s precizm morfologia curbei Gauss, a crei form n clopot este deja cunoscut. Dinecuaiacurbei, 2 /2xe,sededucecaceastaprezintdoupunctedeinflexiunesimetrice, pentru x = 1 i x = 1. Curba redus va prezenta prin urmare deasemeni dou puncte de inflexiune simetrice,pentrut=1it=1,carecorespundluiX=,respectivX=pecurbacentrat(dar neredus) i lui x = m pe curba necentrat (Figura 8.27). 00.20.40.60.811.2XYy=f(x)+ Figura 8.26.Curba redus Biostatistica.curs & lucrari practice 2300.20.40.60.811.2XYy=f(x)t -1 +1 +x00mm+ m ntoatecazurile curba descretedeo parteidealta amaximului,la nceput mai ncet,apoimai rapid,pnlapunctuldeinflexiune,iapoiiarimaincetdelaacestpunctnjos,pndevine asimptotic la axa absciselor. Este clar c forma curbei va fi determinat de valorile lui : cu ct este maimic,cuattpuncteledeinflexiunesuntmaiapropiatedeaxaordonatelor,iarcurbavafimai strns n jurul valorii medii, i invers. De altfel, ordonata n origine (unde avem valoarea medie) se obine fcnd x = m n ecuaia (3), X = 0 n ecuaia (4) sau t = 0 n ecuaia (5). Termenul n e devine e0 = 1, i prin urmare obinem: =21y . Aceastvaloareesteinversproporionalcu;deci,cuctestemaimic,cuattcurbaestemai strmtimainalt,icuctestemaimare,cuattcurbaestemaijoasimaintins(Figura 8.28).-1 -0.6 -0.2 0.2 0.6 1=0.5=0.25=1 Sepoatevedeaimportanacovritoarealui,caredmorfologiacurbeiGauss;asociatcu media, care d poziia axei de simetrie a curbei, aceast mrime este suficient pentru a caracteriza curba Gauss.Prinurmare, curba Gauss nu depindedect dedoiparametri:mediai. Acesta este unul dintre motivele care justific interesul acordat studiului acestor doi parametri n statistic. Semnificaia probabilistic a curbei Gauss Cnd se tinde lainfinit, fiecare dreptunghi al diagramei distribuiei binomiale se reduce la o ordonat liniar y a curbei Gauss, care msoar densitatea de probabilitate a valorii x corespunztoare. Curba Gaussaredecisemnificaiauneifunciidedensitatedeprobabilitate,ieaindicpentrufiecare valoare a variabilei aleatoare x, probabilitatea y care i corespunde (Figura 8.23).n timp ce n distribuia binomial variabila aleatoare nu poate lua dect un anumit numr de valori discrete(intregi),ncazuldistribuieinormalevariabilaaleatoareestecontinuipoateluatoate valorile ntre 0 i + (Figura 8.24). Cnd se trece la curba centrat, se nlocuiete variabila x cu abaterea de la medie X = x m, care poate fi pozitiv sau negativ. Noua variabil aleatoare X acoper deci tot domeniul de valori ntre i 0 pe de o parte, i 0 i + pe de alt parte (Figura 8.29). Curba indic atunci probabilitatea de a ntlni o anumit abatere de la medie a unei valori date. Se vede c media, a crei abatere este nul, este valoarea a crei probabilitate este cea mai mare. Mai Figura 8.27.Punctele de inflexiune pe cele trei curbe Figura 8.28.Morfologia curbei Gauss funcie de diferite valori ale lui Biostatistica.curs & lucrari practice 24mult, dac este advrat c valoarea poate fi observat, toate valorile nu sunt egal probabile. Din forma n clopot a curbei rezult c probabilitatea de a observa o valoare dat este cu att mai mic, cu ct ea se abate mai mult de la medie, de o parte i de alta a acesteia. Probabilitatea se diminueaz foarte clar atunci cnd abaterea depete 1, dup cum indic aria marcat a curbei de la punctele sale de inflexiune(Figura8.27).Aceastnoiunefoarteimportant,carearatcaracterulreprezentatival medieindistribuianormal,esteunadinnoiuniledebaz,utilnexploatareastatisticacurbei Gauss. 00.511.5Pyx m0 X=x-m+ Probabilitile cumulate ale distribuiei normale Cnd n , distribuia binomial tinde ctre curba Gauss, iar diagrama probabilitilor cumulate care icorespundetindectrefunciaderepartiiecorespunztoare,adicintegralacurbeiGauss,care este, curba integral n S studiat anterior, multiplicat prin factorul 21 (Figura 8.30). x Probabilitateacumulatadistribuieigaussienevafideciobinutdinintegralacorespunztoare curbeiGauss.Astfel,probabilitateacumulatatuturorvalorilorcuprinsentreiovaloare particular x1 , adic probabilitatea tuturor valorilor inferioare lui x1, care corespund suprafeei cuprinse subcurbaGauss,dinextremitateastngipnlaordonatacorespunztoareluix1vafidatde integrala curbei Gauss, cuprins ntre i x1 : dx exx2 /1221 Aceasta msoar ordonata Y1 = F(x1), corespunztoare curbei integrale (Figura 8.31). x1+xY=F(x)Y1x1Y Figura 8.29.Domeniul de valori pentru x i X Figura 8.30.Diagrama cumulat a distribuiei normale Figura 8.31.Probabilitatea cumulat a valorilor ntre i x1 Biostatistica.curs & lucrari practice 25 Aceeai probabilitate cumulat a tuturor valorilor lui x cuprinse ntre dou valori particulare x1 i x2, carecorespundesuprafeeidesubcurbaGauss,cuprinsntreordonatelecorespunztoarecelor2 valorix1ix2vafidatdeintegralacurbeiGauss,cuprinsntrelimitelex1ix2icalculatcu formula:dx ex xx221221, care msoar diferena Y2-Y1 ntre ordonatele corespunztoare curbei integrale (Figura 8.32). xyy=f(x)x1x2xYY=F(x)Y1x1 Y2x2 Cndsecalculeazprobabilitateacumulatatuturorvalorilordistribuiei,careesteprindefiniie egalcu1,aceastavacorespundentregiisuprafeedesubcurbaluiGauss,fiindintegralacurbei Gauss, cuprins ntre i +, i calculndu-se cu formula:+ dx ex2221 (Figura 8.33). xyy=f(x)+xYT Tabelele curbei normale n practic, nu este necesar s calculm de fiecare dat aceste integrale. Plecnd de la caracterizarea numeric a curbei Gauss, s-au stabilit tabelele curbei normale (n anex), care ne permit s rezolvm cuuurinacesteprobleme.Tabelelesuntcompletatepentrucurbaredus,carearecaabscis m xt=i ca ordonatY y = . Aceste tabele indic pentru fiecare valoare t1 a lui t: 1.Valoarea ordonatei y1 a curbei reduse care i corespunde (Figura 8.34). Figura 8.32.Probabilitatea cumulat a valorilor ntre x1 i x2 Figura 8.33.Probabilitatea cumulat a valorilor ntre i + Biostatistica.curs & lucrari practice 260 t1 +(t1)YY1 2.Valoarea suprafeeidt e tt t= 1202121) (, cuprins ntre ordonata de origine i ordonata lui t1,subcurbaredus(Figura8.34),icaremsoarprobabilitateacumulatatuturorvalorilor cuprinse ntre 0 i t1. 3.Suprafaa) ( 21t cuprinssubcurbaredus,ntreordonatelepunctelort1i+t1(Figura8.35), caremsoarprobabilitateacumulatatuturorvalorilorcuprinsentret1i+t1.nacestecondiii, suprafaa)] ( 2 1 [1t vamsuraprobabilitilecumulatealetuturorvalorilorexterioareacestui interval.4.Suprafaa =1 22121) (ttdt e t (Figura8.36)cuprinssubcurbaredusntreit1i complementul su fa de 1,)] ( 1 [1t , care msoar probabilitatea cumulat a valorilor inferioare i respectiv, a valorilor superioare lui t1. t1t - t12(t1)Y t(t1)(t1)1( 1( 1( 1(t1 11 1) )) )t1 Exemplu:Pentru t1 = 1/2 se gsete n tabel: y1 = 0.3521(t1) = 0.1915 2(t1) = 0.38301 2(t1) = 0.6170 (t1) = 0.69151 (t1) = 0.3085 Figura 8.34.Ordonata y1i suprafaa (t1) pe curba redus Figura 8.35.Suprafaa ) ( 21t pe curba redus Figura 8.36.Suprafeele ) (1t i)] ( 1 [1t pe curba redus Biostatistica.curs & lucrari practice 27Sepoarecalculaastfel,plecnddelaacestedate,probabilitateatuturorvalorilorcuprinsentre douvalorit1it2,careesteegalcu) ( ) (1 2t t ,saucu) ( ) (1 2t t dact1it2suntde acelai semn (Figura 8.37), i cu) ( ) (2 1t t dac t1 i t2 sunt de semne contrare (Figura 8.38). Exemplu: Pentru t1 = 1/2 i t2 = 7/10 se obine: (t1) = 0.1915; (t2) = 0.2580 (t2) (t1) = 0.0665 Acest tabel permite s se obin pentru toate valorile lui x ale unei distribuii normale probabilitile corespunztoare. t2ytt1 t1yt t2 Observaie: Tabelele sunt calculate pentru curba redus; prin urmare, trebuie calculat mai nti t, plecnd de la valorileconsideratex,folosindformula m xt= .ntabelestedeasemeniprecizatordonata redus y; pentru a reveni la ordonata neredus, notat Y, folosim relaia yY= .Pentru valoarea x = 6 a unei distribuii normale de medie m = 5 i2 = se obine c:2125 6===m xt .Pentru t = 1/2 se gsete n tabel y = 0.3521 1760 . 023521 . 0= = =yY . Prin urmare, probabilitatea valorii x este deci 0.1760, sau17.6%. Determinarea probabilitilor este considerabil mai uoar dect n cazul distribuiei binomiale, unde estenecesarssecalculezeseparatdiferiiitermeniaidistribuiei.Distribuianormaloferindvalori continue, areo portabilitate maigeneral dect distribuia binomial, pe care am studiat-o i care nu ofer dect valori discrete. Figura 8.37.Suprafaa ) ( ) (1 2t t pe curba redus Figura 8.38.Suprafaa ) ( ) (2 1t t pe curba redus Biostatistica.curs & lucrari practice 28Suprafeele importante ale curbei Gauss Dateleanterioarenepermitsnelegemvaloareaabateriitcorespunztoarevaloriideterminatede aria2(t),deciariadesubcurbaneredus.Acestevalorialeariei2(t)suntcelecarecorespund valorilor abaterii n raport cu . Se arat n Figura 8.39 c: 1.Aria2(t)carecorespundeuneiabaterit=1,adicx=1,deciariacuprinssubcurba neredus ntre abscisele x = (m) i x = (m+), reprezint 68.3% (mai exact 63.28% - din tablul curbei Gauss) din suprafaa total de sub curb. 2.Aria 2(t) care corespunde abaterii t = 2, adic x = 2, deci aria cuprins sub curba neredus ntre abscisele x = (m2) i x = (m+2), reprezint 95.5% din suprafaa total de sub curb. 3.Aria2(t)carecorespundeabateriit=2.6,adicx=2.6,deciariacuprinssubcurba neredus ntre abscisele x = (m2.6) i x = (m+2.6), reprezint 99% din suprafaa total de sub curb. X+tx-2.6 -2-101 22.6m-2.6m -2m-1mm-1 m-2m-2.668.30%95.50%99% SuprafaatotalnglobatsubcurbaGausscorespundeprobabilitiicumulateatuturorvalorilor, adic 100% din cazurile distribuiei. Suprafaa2(t)menionatmaisuscorespundedeciprobabilitilotcumulatede68.3%,95.5%, 99% ale cazurilor distribuiei. Dac se consider probabilitile valorilor lui x exterioare intervalelor de mai sus, se poate deduce: 1.Intervalulexteriorlui[m,m+],carevangloba10068.3=31.7%dincazuriledistribuiei (Figura 8.40); + + + + t m 2.Intervalulexteriorlui[m2,m+2],carevangloba10095.5%=4.5%dincazuriledistribuiei (Figura 8.41); Figura 8.39.Suprafeele importante ale curbei Gauss Figura 8.40.Intervalul exterior lui [m, m+]pe curba redus Biostatistica.curs & lucrari practice 29t2 2 2 2 +2 +2 +2 +2 3.Intervalulexteriorlui[m2.6,m+2.6],carevangloba10099%=1%dincazuriledistribuiei (Figura 8.42); t2.6 2.6 2.6 2.6 +2.6 +2.6 +2.6 +2.6 Prin urmare, ntr-o distribuie normal exist numai: -31.7 anse din 100 de a observa o abatere a mediei superioar lui ; -4.5 anse din 100 de a observa o abatere a mediei superioar lui 2; -1 ans din 100 de a observa o abatere a mediei superioar lui 2.6. Ariile curbei Gauss permit s determinm probabilitatea de a observa ntr-o distribuie gaussian o abatere redus superioar unei valori date.Aceast proprietate fundamental este exploatat pentru a reyolva un mare numr de probleme de interpretare statistic. 8.7.4.Distribuia mediilor Fie o populaie statistic N (N foarte mare), pe care o considerm ca avnd o distribuie normal. Vom extrage un eantion de efectiv n. Fie m1, m2, m3 mediile gsite pentru diverse eantioane.Se studiaz fluctuaia statistic a mediilor eantioanelor extrase ntre ele, i egal repartizate fa de mediaMapopulaieideorigine.SeconstatcmediilesuntmaipuindispersatefadeM,media global a populaiei, dect valorile individuale din populaie (Figura 8.45). Distribuia nou-obinut n acest mod se numete distribuia mediilor. Abatereatipaacesteidistribuiidemediisenumeteabatereastandardamediei,isenoteazSm. Mm(a) Distributia mediilor esantioanelor de cate n observatii(b) Distributia a N valori individuale SmS Distribuiamediilorfiindmaipuindispersat,abatereatipSmestetotdeaunamaimicdect abaterea tip S a populaiei de origine; ntre cele dou mrimi exist relaia: Figura 8.41.Intervalul exterior lui [m2, m+2]pe curba redus Figura 8.42.Intervalul exterior lui[m2.6, m+2.6]pe curba redus Figura 8.45. Distribuia mediilor n jurul mediei globale a populaiei,n comparaie cu distribuia valorilor individuale Biostatistica.curs & lucrari practice 30nSSm=Mulimeamediilorcaresepotgsipentrudiverseeantioaneavndacelainumrdeobservaii, extraselantmplaredintr-opopulaiedemedieMiabaterestandardS,formeazaadaro distribuie gaussian de valoare medie M, i avnd abaterea tip Sm. Intervalul de ncredere al mediei Intervalulcorespunztordistribuieimediilor,(M2Sm,M+2Sm),cuprinznd95.5%dinvalorilepe care le poate lua media m a eantionului din mulimea fluctuaiilor ntmpltoare, se numete interval de confiden al mediei cu un coeficient de securitate de 95.5% (Figura 8.46). t2 2 2 2Sm+2 +2 +2 +2SmM Analog se definete intervalul de confiden al mediei cu un coeficient de securitate de 99% (Figura 8.47), ca fiind intervalul (M 2.6Sm, M + 2.6Sm) ne spune c avem 99 anse din 100 ca media unui eantion ales s cad n acel interval.t2.6 2.6 2.6 2.6Sm +2.6 +2.6 +2.6 +2.6SmM Determinarea intervalului de confiden al mediei Dorimsstudiemlauneantionintervaluldencrederealmedieiobservate,m0.Nucunoatemnici media M, nici Sm , dar presupunem c tim abaterea tip S a populaiei de origine.Cteodat,experienanearatcnpractic,orictdemicarfieantionul,darsuficientde important,distribuiiledeeantionajsuntdistribuiisensibilnormale.nacestecondiii,valoaream0 gsit pentru m reprezint valoarea a crei probabilitate este cea mai mare. n consecin, este logic s considerm c cea mai bun estimare pe care o lum va fi media M, i s o substituim n intervalul de confiden. De altfel, abaterea a eantionului reprezint o estimare a abaterii tip S a populaiei de origine i se considersubstituialuiScuSmrezultatdincalcul.Abatereaaeantionuluivafioestimarepuin maimicdectS.PentruaestimacorectStrebuieslumovaloarepuinmaimaredectal eantionului. Calculul arat efectiv c cea mai bun estimare a lui S, pe care o vom nota cu S, este puin mai mare dect , fiind definit de formula: Figura 8.46. Intervalul de confiden al medieicu un coeficient de securitate de 95.5% Figura 8.47. Intervalul de confiden al medieicu un coeficient de securitate de 99% Biostatistica.curs & lucrari practice 311 =nnS Se poate deci utiliza aceast valoare pentru a calcula Sm , care va fi: 1111= = = =nSnnnn nSSmm Plecnd de la valorile estimate ale lui M i Sm, se va putea exprima intervalul de confiden al mediei, care va fi n final: -m0 2Sm , cu un coeficient de securitate de 95%; -m0 2.6Sm , cu un coeficient de securitate de 99%. cu 1 =nSm.

Exemplu:Sedozeazcorticoiziiurinarintr-ungrupde253femeicugreutatenormal.Segsete media m = 4.50 mg/24h i abaterea tip =1.50. S se gseasc intervalul de ncredere. Avem:1 . 02525 . 11= ==nSm Intervalul de ncredere al mediei este deci: m0 2Sm = 4.50 2 0.1 = 4.50 0.2 (4.30 , 4.70) cu un coeficient de securitate de 95%; m0 2.6Sm = 4.50 2.6 0.1 = 4.50 0.26 (4.24 , 4.76) cu un coeficient de securitate de 99%. 8.7.5. Cazul eantioanelor mici. Distribuia Student Raionamemtele anterioare sunt valabile pentru eantioane coninnd minim 30 observaii. Dacnuesteaa,distribuiamediilornuestenormaliarestimrileprecedentealemedieii abaterea tip nu sunt acceptate. Problema a fost rezolvat de matematicianul englez Gosset.Pentruanelegeprincipiulacesteisoluii,trebuiesnotmdelanceputcdistribuiamediilor poate fi considerat ca o distribuie a abaterilor (m M) ntre mediile gsite m i media M a populaiei de origine, distribuie caren cazul unui eantion suficient de important, este o distribuie normal de medie 0 i abatere tip Sm (Figura 8.48). 0 M - mSm Gosset astudiat aceast distribuiecao distribuie a abaterilor (mM), ncazul eantioanelor cu efectiv mic. Mai precis, Gosset a studiat distribuia raportului: mSM mt== parametrul t a lui Student = abaterea redus a mediei, adic raportat la abaterea tip Sm a mediei. Figura 8.48. Distribuia normal de medie 0 i abatere tip Sm Biostatistica.curs & lucrari practice 32n cazul eantioanelor de efectiv important, distribuia abaterilor medii (din populaie) fiind normal, este chiar cea a abaterilor reduse. Prin urmare abaterea2Sm , egal cu de dou ori abaterea tip, i care corespunde valorii t = 2 a abaterii reduse, nglobeaz 95% din valorile mediei (Figura 8.49). 0- 2Sm+ 2Sm0m - M- 2 + 2 t=(m-M)/sm ncazuleantioanelorcuefectivmicapardiferene.Gossetaartatc,nacestcaz,valorile parametruluitobinutepentrudiferiteeantioanecuacelainumrdeobservaiin2. Nuexistosingurdistribuiet,ciofamiliededistribuiitcorespunztoarediferitelorvaloriposibile pentru cele n observaii, cu n= 30 - Curba normala Parametrul t variaz deci n funcie de n, i este cu att mai mic cu ct mrimea eantionului se apropie deefectivullimitn=30.Plecnddelaaceastvaloarealuin,distribuiaparametruluitseconfund practic cu o curb Gauss, i t0.05 devine n consecin t0.05 = 2 (Figura 8.51). Figura 8.49. Abaterea 2Sm Figura 8.50. Legea normal i legea Student Figura 8.51. Curbele pentru diferite valori ale parametrului t Biostatistica.curs & lucrari practice 330- t0.01-t0.05+ t0.05 +t0.01 Existtabelespecialecaredau,nfunciedemrimeaeantionuluistudiat(maiprecis,nfunciede numrul gradelor de libertate, care va fi aici n 1), valorile limit ale parametrilor t care au numai 5 anse din 100 (t0.05 n Figura 8.52), i respectiv numai o ans din 100 (t0.01 n Figura 8.52), de a fi depite sub influena fluctuaiilor aleatoare. Se va deduce astfel intervalul de confiden corespunztor, i anume: -m0 t0.05 Sm , cu un coeficient de securitate de 95%; -m0 t0.01 Sm , cu un coeficient de securitate de 99%. Exemple: Presupunem c media m = 4.50 din exemplul precedent a fost obinut pe un eantion de 6 observaii. Care este intervalul de ncredere?67 . 055 . 11= ==nSm Tabelele lui t arat c pentru un eantion de 6 observaii avem: -v = n 1 = 5; -valoarea limit a parametrului t care are numai 5 anse din 100 de a fi depit este t0.05 = 2.57; -valoarea limit a parametrului t care are numai o ans din 100 de a fi depit este t0.01 = 4.03. Intervalul de confiden cutat va fi deci: -m0 t0.05 Sm = 4.50 2.57 0.67 = 4.50 1.72 (2.78, 6.22) , cu un coeficient de securitate de 95%; -m0 t0.01 Sm = 4.50 4.03 0.67 = 4.50 2.70 (1.80, 7.20), cu un coeficient de securitate de 99%. Dupcumsepoatevedeadincomparareavalorilorobinute,mrimeamicaeantionuluiducelaun interval de ncredere al mediei mai mare. 8.7.6. Normalitatea biologic Dupcumsetie,nuexistpentruoconstantbiologicdat(deexemplu,glicemiasautensiunea arterial)ovaloarenormalunic,cioseriedevaloripecareleputemconsideracanormale;aceast mulime de valori constituie ceea ce se numete zona de variaie normal. O problem important pentru biologie este de a determina limitele acestei zone de normalitate, i de unde ncepe patologicul. Trebuie stabilit din ce moment putem considera c o valoare nu este normal, ci patologic. Exemplu: Dac valoarea glicemiei medii este 1g/l, nu vom ezita s considerm valoarea 1.05 g/l ca fiind normal. O valoare de 2 g/l va fi cu siguran patologic. Ce putem spune ns despre valori ca 1.15 g/l, sau 1.20g/l ? Problema const n a cuta care este abaterea maxim (abaterea limit). Zona de variaie normal va fi prin urmare intervalul de confiden al mediei. Valorile sczute ale glicemiei ducla hipoglicemie, cele crescute ducla diabet. Se observ c valorile observateconfruntatecucelealesubiecilornormali,sedistribuiesubformauneicurbegaussiene. Aceasta este n definitiv corelaia dintre o abaterestatistic semnificativ i ostarepatologic dat,care confersimptomului(cifrabil)valoareasadeosebit(semiologic):ceeacesenumetecriteriul psihopatologic,indispensabilalturidenoiunilestatisticepentrudefinireadomeniuluidevariaie patologic n biologie. Figura 8.52. Intervalele de ncredere corespunztoare lui t0.05 i t0.01 Biostatistica.curs & lucrari practice 348.7.7. Distribuia procentajelor Estimarea unui procentaj n urma unui tratament aplicat unui grup de n bolnavi, n = 120, se observ 36 cazuri mai grave (r = 36). Se obine proporia: % 30 30 . 00 = =nrqCa i n cazul mediei, rmne de cercetat pn la ce limit variaiile procentajului pot fi puse pe seama fluctuaiilor fortuite, adic s se determine intervalul de ncredere al procentajului observat. Distribuia procentajelor Pentru a rezolva problema enunat mai sus, se va face o analogie cu intervalul de ncredere al mediei, cutndcumsedistribuiediferite procente q1, q2,qn, corespunztoare numerelorr1, r2, rn decazuri grave observate ntr-un mare numr de experiene pe diferite eantioane cu acelai efectiv n, plecnd de laopopulaieteoreticinfinit,avndaceeaicompoziie(structur),adiccomportndoproporie identic q de cazuri grave i p = 1 q de cazuri non-grave. Considermournbinarcomportndaceeaiproporieqdebilenegrecorespunztoareuneiboli grave i aceeai proporie p = 1 q de bile albe corespunztoare bolilor uoare. Problema revine la a cuta cum se distribuie diferite proporii 0/n, 1/n, 2/n,n/n de bile negre n toate combinaiile posibile ale eantioanelor identice de efectiv n care pot fi extrase din aceast urn. Aceast distribuie, dup cum tim, este o distribuie binomial: distribuia binomial a procentajelor, ai crei termeni corespund dezvoltrii binomului (p + q)n . Eantionul cel mai probabil al acestei distribuii are aceeai proporie de bile albe (p) i de bile negre (q) ca i urna binar. Media va fi: qnnqm = =Abaterea standard va fi: npqnnpqnS = = = nq qSq) 1 ( =Diferitele procentaje posibile pentru eantioane de acelai efectiv n formeaz o distribuie binomial de medie q i abatere tip Sq. Intervalul de confiden al procentajului va fi prin urmare: -q 2Sq pentru un coeficient de securitate de 95%; -q 2.6Sq pentru un coeficient de securitate de 99%,unde: nq qSq) 1 ( =n cazul eantioanelor mici, estimarea proporiei devine foarte imprecis. 8.7.8. Distribuia diferenelor dintre medii Compararea a dou medii Se pune adesea problema de a confrunta rezultatele obinute pe o serie cu cele obinute pe alte serii. Problema este de a ti dac diferenele constatate ntre seriile comparate se explic prin fluctuaia de eantionaj, legat de caracterul limitat al efectivului studiat, caz n care diferenele observate nu trebuiesc luatenconsiderare.Dac,dimpotriv,difereneleobservatesuntpreaimportantepentruafipusepe seama fluctuaiei de eantionaj, ele sunt semnificative i ne conduc la necesitatea de a admite c seriile statistice studiate aparin unor populaii de origine diferite. Metodele statistice nu pot rezolva cu certitudine acest fel de probleme. Ele pot doar s ne indice dac, pebazadiferenelorobservate,putemadmiteicucegraddesecuritateipotezaconformcreia seriile studiate provin din populaii diferite. Biostatistica.curs & lucrari practice 35Punerea problemei: ntr-ungrupde253femeidegreutatenormalsegsetevaloareamedieacorticoizilornurin4.5mg/24h. Aceeai cercetare, fcut ntr-un alt grup de 100 femei prezentnd obezitate, a dat o valoare medie de 6.3mg/24h. Se pune ntrebarea dac se poate afirma c valoarea mediei corticoizilor urinari la femeile obeze este superioarceleidingrupuldefemeinormale,aacumparelaprimavedere.Diferenaconstatatntre cele 2 medii traduce o diferen real n natura populaiei studiate, sau este legat doar de fluctuaia de eantionaj? n general, se lucreaz cu eantioane de volume diferite, n1, n2; se gsesc dou medii corespunztoare m1, m2. Trebuie determinat dac diferena observat ntre cele dou medii este datorat unei fluctuaii sau corespunde unei diferene reale, n natura celor dou eantioane, fiind semnificativ. Ipoteza nul Pentruaputearezolvaaceastproblem,sepoatestudiaintervaluldeconfidenalmedieinfiecare eantion. Dac intervalele de confiden se suprapun mult, toate valorile care cad n zona de suprapunere potaparineattuneidistribuii,cticeleilelte,iardiferenaobservatpoatefidatoratvariaieide eantionaj (hazardului) - Figura 8.53. m1 m2

Dimpotriv, dac intervalele de confiden ale celor dou distribuii sunt distincte (Figura 8.54), putem deduce c eantioanele aparin la dou populaii diferite, iar diferena observat este semnificativ. m1 m2 Dar nu putem spune nimic n cazul n care intervalele de confiden se suprapun puin (Figura 8.55). m1m2 Scutm rezolvareadirect pentru o astfel de problem. Pentru aceasta, vomface ipoteza (numit ipoteza nul, cci ea presupune c parametrul studiat nu variaz de la un eantion la altul) c cele dou Figura 8.53. Intervalele de confiden se suprapun mult(diferena datorat hazardului) Figura 8.54. Intervalele de confiden sunt distincte(diferena semnificativ) Figura 8.55. Intervalele de confiden se suprapun puin Biostatistica.curs & lucrari practice 36eantioane aparin aceleiai populaii de origine i vom cuta care va fi n acest caz abaterea maxim i abaterea limit care pot fi observate ntre cele dou medii considerate, sub influena fluctuaiilor statistice. Ne rmne s studiem cum se distribuie diferenele ntre mediile celor dou eantioane de efective n1, n2 prelevate de un numr mare de ori, plecnd de la aceeai populaie de origine. Distribuia diferenelor dintre medii PlecmdelaaceeaipopulaiecuunefectivNfoarte mare,teoreticinfinit,iextragemuneantionde efectivn1;valoareaceamaiprobabilpentrumediam1aacestuieantionvafiM,mediapopulaiei originale(globale).Dacseextrageunalteantiondeefectivn2,valoareaceamaiprobabilpentru media m2 va fi tot M, aceast probabilitate fiind cu att mai mare cu ct efectivul eantionului n discuie estemaimare.Prinurmare,dacstudiemdiferena(m1m2)vatrebuisneateptm,intuitiv,ca valoarea sa s fie cel mai probabil zero. Se arat efectiv c dac dintr-o populaie de efectiv N foarte mare se extrag la ntmplare eantioane de efective diferite n1, n2, avnd respectiv pentru medie valorile m1, m2 i c s-au fcut un numr mare de astfel de experiene, diferenele (m1 m2) se repartizeaz urmnd o distribuie normal n jurul valorii zero (reprezentat n eventualitatea m1=m2=M). Distribuiadiferenelormediilorestedecinacestcazodistribuienormalcarearepentrumedie valoarea 0 (Figura 8.56). 0Sd(m1 - m2) Searatcvariana(dispersia)acesteidistribuii,notatcuSd2,esteegalcusumavarianelor distribuiilor mediilor din fiecare eantion. 1 1222121 22 2 22 1+= + =n nSS S Sdm m d Dac n1 i n2 sunt suficient de mari, relaia devine: 222121 2n nSd + =Prin urmare, abaterea standard Sd a distribuiei diferenelor va fi: 222121n nSd + = Diferena semnificativ ntre dou medii Dacfacemreferirelaproprietiledistribuieinormale,putemspunecpentrueantioanediferite plecnddelaoaceeaipopulaiedeorigine,odiferend=(m1m2)superioarlui2Sdnuseva observa dect n puine situaii cel mult 5 cazuri din 100 (Figura 8.57).Figura 8.56. Distribuia mediilor Biostatistica.curs & lucrari practice 370 - 2Sd + 2Sdd Dac am determinat c aceast diferen este superioar lui 2Sd, mai curnd dect s acceptm o eventualitate care nu are dect 5 anse din 100 de a se realiza, vom admite (cu 5 anse din 100 de a nenela)cipotezainiialfusesefalsicceledoueantioaneaparinnrealitatelapopulaii diferite; vom spune atunci c diferena observat este semnificativ cu un prag de probabilitate de 5%. Odiferenvafideciconsideratcasemnificativcuunpragdesemnificaiede5%daceste superioar lui 2Sd: d > 2Sd

nacelaimod,vomspunecodiferenntredoumediiestesemnificativcuunpragde semnificaie de 1% dac este superioar lui 2.6Sd: d > 2.6Sd

Pentru a putea ti dac o diferen ntre dou medii este sau nu semnificativ, este deci suficient s calculm, plecnd de la abaterile tip1 i 2 ale fiecrui eantion, abaterea standard a diferenei, Sd, i s vedem dac diferena constatat d este sau nu superioar lui 2Sd sau 2.6Sd, urmtorul grad de securitate gsit. Exemplu: Relum problema valorii mediilor pentru corticoizii urinari. m2 = 6.3 mg/24h : eantionul de 100 femei obeze; m1 = 4.5 mg/24h : eantionul de 253 femei cu greutate normal. Abaterile tip sunt: 2 = 1.7 : eantionul de 100 femei obeze;1 = 1.5 : eantionul de 253 femei cu greutate normal. Avem: n1 = 100 : eantionul de 100 femei obeze; n2 = 253 : eantionul de 253 femei cu greutate normal. d = m1 m2 = 1.8 Se calculeaz: 2Sd = 0.39; 2.6Sd = 0.47. Diferena d ntre medii, 1.8, este deci superioar lui 2Sd i chiar lui 2.6Sd. Probabilitatea ca o astfel de diferen s fie pur fortuit (datorat ntmplrii) este deci inferioar lui 1%. Prin urmare, diferena este semnificativ, i putem concluziona c corticoizii urinari sunt mult mai ridicai la obeze n condiiile studiate. Cazul eantioanelor mici Pentru a putea fi considerat semnificativ cu un prag de probabilitate de 95%, diferena va trebui deci s fie superioar nu numai lui2Sd, ci lui t0.05Sd, unde t0.05 > 2. Dealtfel,expresiadispersieistandardestediferit.ntr-adevr,estimriledispersieifurnizate separat pentru fiecare eantion devin imprecise, astfel nct formula de estimare a dispersiei devine: 22 122 221 1 2 ++=n nn nl , unde variaiile estimate ale fiecrui eantion sunt: Figura 8.57. Intervalul de confiden [2Sd , +2Sd ] 194 . 0100) 7 . 1 (253) 5 . 1 (2 2222121= + = + =n nSd Biostatistica.curs & lucrari practice 381;1222 2 2121 1 22 1==nnnnl l . Expresia dispersiei standard a diferenei devine atunci: |||

\|+ = + =2 12222121 21 1n n n nSl d , de unde: 2,1 12 122 221 12 1 ++= + =n nn nn nSl l d cu. ntabelespecialesuntdate,nfunciedeefectivelen1in2alefiecruieantion,imaiprecisn funcie de numrul de grade de libertate, = n1 + n2 2 (se pierde un grad de libertate pentru fiecare eantion),valorilelimitt0.05it0.01aleparametruluitcareaurespectiv5ioansdin100deafi depite de o fluctuaie fortuit. Se pot calcula atunci produsele t0.05Sd i t0.01Sd, care permit s verificm dac diferena constatat este sau nu semnificativ cu pragul de probabilitate corespunztor. Exemplu: Relumexemplulprecedent;presupunemcnprimulgrupavem6observaii,iarnaldoilea8 observaii. Se calculeaz la nceput dispersia estimat: Pentru 12 grade de libertate, din tabelele valorilor t se obine: t0.05 = 2.18; t0.01 = 3.06. t0.05 Sd = 2.18 0.94 = 2.05 i t0.01 Sd = 3.06 0.94 = 2.87. Diferena dintre cele dou medii fiind 1.8, este inferioar lui t0.05Sd. Deci aceast diferen nu poate fi considerat semnificativ, chiar la pragul de probabilitate de 0.05. 8.8. Teste statistice pentru analiza dispersiei i a mediei 8.8.1. Compararea a dou dispersii Notm raportul F1,2 al dispersiilor 12 i 22, 22212 , 1= F . Acestraport,ncareseconvinessepunlanumrtordispersiaceamaimare,traduce divergena ntre dou dispersii i va fi folosit pentru a testa semnificaia. Dac, ntr-adevr, eantioanelesuntextrase din aceeai populaie de origine,dispersiile 12 i 22 reprezint o estimare a dispersiei S2 a acestei populaii. Teoretic, ar trebui s fie verificat relaia: 12 = 22 , i prin urmare F1,2 = 1. Uneorifluctuaiilefortuitenusuntrspunztoaredemrirearaportuluidectpnlaovaloare limit, valoare pe care o putem calcula, i care variaz evident cu mrimea eantionului. Atunci cnd raportulFdepeteaceastvaloarelimit,divergenaestepreaimportantpentruafiatribuit numaifluctuaieideeantionajpecarehazardulopoatedeterminaninterioruluneipopulaiiunice. Aceast ipotez trebuie deci eliminat i divergena trebuie considerat semnificativ. Sndcor a stabilit tabelele raportului F care ne permit s rezolvm problema din punct de vedere practic. Aceste tabele dau direct, pentru coeficienii de securitate obinuii, 95% i 99% i n funcie de mrimile eantioanelor n1 i n2 (mai precis, n funcie de numrul gradelor de libertate 1 = n1 1 i 2 =n21alefiecruieantion)valorilelimitaleluiFsubcaresepoateconsideracdispersiile 12 2 8 6 294 . 0816175 . 11 175 . 1 05 . 322 12 12 122 221 1 2= + = + == + = + == = ++=n nn nSn nn nl dl l Biostatistica.curs & lucrari practice 39studiatedifersemnificativ.Estesuficientsformmraportulcelordoudispersii, 22212 , 1= F ,is cercetm dac este superior valorii limit dat de tabel. Exemplu: Dup administrarea unui somnifer ntr-ungrup de11 subieci,se observun timp mediu desomn de10.6h,cuoabaterestandardde2.3h.Launaltgrupde13subieci,s-aobservatoduratde somn de 8.1 h, cu o abatere de 1.9 h. Ne propunem s studiem dispersia n aceste dou grupe. Avem: 1 = 2.3 2 = 2.3 n1= 11 n2 = 11Formm raportul dispersiilor: Raportndu-llatabeleleSndcor,pentru1=n11=10i2=n21=12,segsetevaloarea limit pentru F, cu o probabilitate de 0.05 (adic 5 anse din 100 de a fi depit datorit fluctuaiilor fortuite),cafiindF0.05=2.76.ValoareagsitpentruF,egalcu1.46,estenetinferioar.Nuexist deci diferen semnificativ ntre cele dou dispersii observate. 8.8.2. Analiza dispersiei Analiza dispersiei i propune s studieze n ce msur diferenele observate ntre valorile mediilor din fiecare grup traduc real o diferen a aciunii ntre diferitele clase testate, factor n funcie decare se deosebescdiferitelegrupuri,inusuntlegatedoardefluctuaiiledeeantionaj.Sepuneproblema comparrii mediilor. Frndoial,pentruarezolvaaceastproblem,nepropunemscomparmmediiledinaceste grupuri,douctedou.Darexistunprocedeucarenepermitestestmomogenitateamulimii grupurilor studiate, adic de a face compararea simultan a acestor medii diferite i de a ti dac se poatesaunusleconsidermcaaparinnduneiaceleiaipopulaii:estemetodanumitanaliza dispersiilor, datorat statisticianului englez R. A. Fisher, i care are astzi o importan deosebit, n particular pentru a exploata datele experimentale. Principiulgeneralalacestorproblemedecomparareestetestulipotezeinule,urmrindlatoate eantioanele studiate aparinnd aceleiai populaii, n ce caz dispersia mulimii este condiionat unic de fluctuaia de eantionaj.Se vor analiza fluctuaiile individuale care se produc n interiorul unui grup, i ntre dou grupuri. A. Dispersia intra-grup n interiorul fiecrui grup, fluctuaiile de eantionaj sunt reprezentate de abaterile (x m) ntre fiecare valoareindividualximediamagrupului.Rmnesconsidermabaterileptratice(xm)2 (pentrucarenuintervinesemnul).Fcndsumaacestorabateriptraticepentrucelenvalori individuale ale grupului, fie = =niim x S12 2) ( , se obine un indice de fluctuaie care se produce n interiorul grupului. Se face apoi suma acestor ptrate pentruk grupede eantion, obinnd unindice notatcu S12,al dispersiei globale, introdus n mulime pentru dispersia care exist n interiorul fiecrui grup. Pentru a da acestei sume de ptrate semnificaia general a unei dispersii, trebuie s o raportm la numrul de grade de libertate,1 = (n1 1) + (n2 1) + + (nk 1)= n1 + n2 + +nk k= N k 46 . 1) 9 . 1 () 3 . 2 (2222212 , 1= = =F = == = = = + + + =+ + + + =kjnij inik iniiniikjjjkkkm xm x m x m xs s s s S1 12121221212 23222121) () ( ... ) ( ) (...222111Biostatistica.curs & lucrari practice 40Se obine astfel dispersia numit n grup, care se noteaz cu VA i exprim dispersia introdus n ansamblul de dispersii existente n interiorul fiecrui grup: = ==kjnij i Ajjjm xk NV1 12) (1. B. Dispersia inter-grupe Dac se asimileaz toate valorile dintr-un grup la media m a grupului, se va anula efectul dispersiei n interiorul acestui grup, care va putea fi reprezentat prin media sa m. nacestecondiii,abatereafiecreivaloriagrupuluitratatnraportcumediageneralamulimii eantionului studiat este (m M), iar abaterea ptratic este (m M)2. Abaterea ptratic global a grupului, unificat pentru cele n valori, este Sq2 = n(m M)2 . Fcnd suma abaterilor ptratice ale celor k grupuri ale populaiei, se obine un alt indice, notat cu S22, i care reflect dispersia introdus n populaie de fiecare grup, considerat ca un tot: = = + + + =+ + + =kii ik kq q qM m nM m n M m n M m nS S S Sk122 22 221 12 2 2 22) () ( ... ) ( ) (...2 1

Pentru a da acestei sume de ptrate semnificaia general a unei dispersii, trebuie s o raportm la numrul de grade de libertate, 2 = k 1. Se obine astfel dispersia inter-grup, notat cu VB, care exprim dispersii ale grupului la grup: ==kii i BM m nkV12) (11. C. Compararea dispersiilor Dispersia intra-grup i cea inter-grup sunt dou elemente care condiioneaz fluctuaia mulimii. Dac toate grupurile aparin unei aceleiai populaii de origine, cele dou dispersii nu vor putea s se abat una de la alta dect ntr-o anumit msur, permis de fluctuaia de eantionaj. De la aceast limit, posibildecalculat,vafinormalsconsidermcabatereantreceledoudispersiiesteprea important pentru a putea fi atribuit numai fluctuaiei fortuite. Problema rmne de a testa divergena ntre dou dispersii, ceea ce se face prin studiul raportului dispersiilordecomparat.SevaformaraportulVA/VB(sauVB/VA,dacVB>VA)isecomparacest raportcuvaloriledatentabeleleSndcorpentrupraguldesemnificaiecuuncoeficientde securitatede95%(sau99%).Dacacestraportestesuperiorpraguluidesemnificaie,serespinge ipoteza populaiei unice i se admite c diferenele constatate sunt semnificative. Exemplu:Sedozeazcorticoiziiurinarila40subiecidesexfeminin,careaufostrepartizain funcie de greutate n 4 grupe, comportnd fiecare cte 10 subieci: I: 50 59 kg; II: 60 69 kg; III : 70 79 kg; IV : 80 89 kg. Tabelul 8.8 d rezultatele obinute (n mg/24 h). IIIIIIIV 3.34.36.43.3 2.54.87.65.4 3.06.36.65.7 3.46.54.56.5 3.78.78.011.5 3.54.56.37.5 5.25.26.89.3 5.22.55.78.0 4.04.04.66.0 4.05.83.24.7 xi = 37.8 m1 = 3.78 xi = 52.6 m2 = 5.26 xi = 59.7 m3 = 5.97 xi = 67.9 m4 = 6.79 Tabelul 8.8:Corticoizii urinari la 40 subieci de sex feminin Biostatistica.curs & lucrari practice 41Seceresdeterminmdacdifereneleobservatentremediisuntsemnificativeidecifactorul greutatenfunciedecares-audifereniatacestegrupeareoinfluenasupramrimiicorticoizilor urinari. Sepotcomparamediiledouctedou,aplicndTestult(Student)pentrueantioanemici,dar acest procedeu este lung (trebuiesc fcute 6 comparaii); n plus, se neglijeaz informaia coninut n ansambluldatelor,pentrucnuintervindefiecaredatdect10+10=20dintreele.Procedeulde analiz a dispersiei ne permite n schimb s testm ipoteza unic ntr-o singur operaie. 1)Calculm dispersia intra-grup, VA : Se calculeaz mai nti abaterea ptratic n fiecare grup. Se gsete: 94 . 14 4087 . 69 187 . 6983 . 20 ) (94 . 19 ) (26 . 22 ) (84 . 6 ) (2124232221212424232322222121=== = + + + = = == == == =Sk NVs s s s Sm x sm x sm x sm x sA 2)Calculm dispersia inter-grup, VB : Mai nti calculm media general, M: 45 . 5409 . 67 7 . 59 6 . 52 8 . 374 3 2 1=+ + +=+ + += Nx x x xMApoi determinm abaterile ptratice din grup: 30 . 161 491 . 481191 . 4896 . 17 ) 45 . 5 79 . 6 ( 10 ) (70 . 2 ) 45 . 5 97 . 5 ( 10 ) (36 . 0 ) 45 . 5 26 . 5 ( 10 ) (89 . 27 ) 45 . 5 78 . 3 ( 10 ) (2224232221222 24 4242 23 3232 22 2222 21 121=== = + + + = = = == = == = == = =SkVs s s s SM m n sM m n sM m n sM m n sBq q q qqqqq 3)Se formeaz raportul dispersiilor (inem cont c VB > VA) : 4 . 894 . 130 . 16= = =ABVVFTabelele Sndcor arat pentru 1 = B = k 1= 3 i 2 = A = N k = 40 4 =36, valoarea limit a lui F cu un prag de probabilitate de 0.05 ca fiind F0.05 = 2.9, i cu un prag de probabilitate de 0.01 ca fiind F0.01 = 4.6. Se observ c valoarea calculat a lui F este net superioar lui F0.05 i lui F0.01. Oastfeldedivergenaredecimaipuindeoansdin100deaseproducecaurmarea fluctuaiilor fortuite ntr-o populaie unic. Deci, ipoteza de mai sus trebuie nlturat, i vom admite c grupurileaparinunorpopulaiidiferite;difereneleconstatatesuntnaltsemnificative,iarfactorul greutate are o influen real asupra mrimii corticoizilor urinari. 8.8.3. Compararea valorilor medii (testul t Student) Pentrualmuriproblemadacdivergenavalorilorunuianumitparametruxestentmpltoaresau nu, se efectueaz dou serii de experimente i pentru fiecare serie de rezultate se calculeaz media aritmeticaparametrului,adic 1x i 2x .Problemacaresepuneeste,deci,deadecidecnd socotim c diferena ntre aceste medii este suficient de mare pentru ca practic s se poat afirma c deosebirile constatate n calitatea parametrilor nu sunt ntmpltoare. Msurtorilesepresupunindependentei,celpuinncadrulfiecreiserii,deegalprecizie,iar funcia de repartiie a erorilor de msurare se presupune a fi normal.Biostatistica.curs & lucrari practice 42Presupunemcs-auefectuatn1msurriindependentedeegalprecizientr-oprimseriede msurri i n2 n cea de a doua serie de msurri (cu dispersiile 12 i, respectiv, 22). Notm cu 1xi 2xmediile aritmetice ale rezultatelor din prima i din cea de a doua serie. Pentru a rspunde la problema dac diferena dintre aceste medii aritmetice este ntmpltoare sau nu, vom calcula raportul: 2221212 1n nx xt +=Fixm un interval de ncredere P i corespunztor determinm din tabelele pentru testul t, valoarea t = t(P). Exemplu: Pentru P = 0.99 t = 2.576 Dac valoarea absolut a lui t calculat, tcalculat > t(P)tabel, urmeaz c diferena mediilor aritmetice se poate considera ca nefiind ntmpltoare. n caz contrar, nu avem motive s considerm c diferena este semnificativ (adic ea poate fi considerat ca o abatere ntmpltoare). Exemplu: S considerm dou serii, de cte 25 i 30 de msurtori. 59 . 280125120 . 180 . 22 56 . 231 180 . 22 , 56 . 2320 . 12 12 12 12 1=+ =+ == == = =n nx xtx x t(0.99)tabel =2.576, deci t(0.99)tabel< tcalculati rezult cu ocertitudine de0.99 cdiferenantremedii este semnificativ. 8.8.4. Compararea dispersiilor (testul Fisher) Cndseefectueazmsurrincondiiidiferite,apareproblemacomparriiprecizieimsurrilor.n particularapareproblemacomparriiprecizieidemsurareadiferitoraparate.Importanaacestei probleme este subliniat ndeosebi de faptul c intervalele de ncredereale abaterilor medii ptratice se dovedesc a fi mari. Presupunem c n dou serii de msurri s-au obinut dispersiile empirice ale datelor: -S12 : pentru k1 grade de liertate; -S22 : pentru k2 grade de libertate. (n general, primul coeficient se refer la dispersia empiric cu valoarea cea mai mare). Se va calcula raportul: 12221> =SSFSealegeunintervaldesiguranP=0.95sauP=0.99,isedeterminvaloareacriticF, corespunztoarenumerelorgradelordelibertatek1ik2.ValoareacalculataluiF,Fcalculatpentru seriileobservatevaficomparatcuvalorileextrasedintabel,corespunztoareintervalelorde ncredere alese, F(P)tabel ; apar dou situaii posibile: -Fcalculat> F(P)tabel diferena ntre medii nu este aleatoare; -Fcalculat < F(P)tabel diferena ntre medii este aleatoare, i nu are o semnificaie special. Biostatistica.curs & lucrari practice 438.8.5. Testul Z (pentru procente) Testul furnizeaz o estimare numeric a probabilitii ca diferena observat s survin sau nu datorit hazardului. Secalculeazurmtorulcoeficient,Z,pentrucomparareaadouprocentajeP1iP2,cuerorile standard SE1, SE2. 22212 1) ( ) ( SE SEP PZ+=DacZ1.96,atuncisepoateafirmacuunpragdesemnificaiede5%cceledouprocentaje difer nu datorit hazardului, ci datorit unei cauze care trebuie determinat. Dac Z 2.56, atunci se poate afirmacu un prag de semnificaie de1 % c cele dou procentaje difer nu datorit hazardului, ci datorit unei cauze care trebuie determinat. 8.9. Corelaia statistic Noiuniledezvoltatencapitoleleprecedentene-aupermissstudiemuncaractercantitativdat: greutatea,nlimea,tensiuneaarterial,ntr-opopulaiestatisticdeterminat,definindparametrii numerici care permit s caracterizm variaiile acestor mrimi, s precizm gradul de confiden pe care l putemataarezultatelorisconfruntmrezultatelecuceleobinutepentruacelaicaractercantitativ ntr-o populaie statistic. ntiineleexperimentalei,nparticular,nmedicinibiologie,intereseaznunumaivariaiaunei singure mrimi, ci a dou valori, adic a dou caractere cantitative, ntr-o populaie statistic. De exemplu, dorimstimdacexistntr-ogrupdesubieciorelaientregreutateinlime,ntretensiunea arterial i mrimea umoral a unei substane, etc. Pe plan matematic problema este rezolvat prin noiunea de funcie, care traduce relaia ntre variaia celor dou mrimi. relaie materializat prin curba sa reprezentativ: y = f(x). n acest caz, unei valori date a variabilei independente x i corespunde o valoare i numai una a variabilei dependente y, relaia y = f(x) permindcalculareacuexactitateaacesteivalori.Oastfelderelaiefiindstabilit,cunoatereaunei valorineestesuficientpentrudeterminareavaloriicorespondente.Acesttipderelaie,numitrelaie funcional,esteceacaresentlnetenaa-ziseletiineexacte.Darproblemasecomplicatunci cnd valorile care se studiaz (cea dependent i cea independent) sunt supuse fluctuaiilor. Fluctuaiile se manifest nu numai pentru o singur valoare dat, ci pentru toate variabilele distribuiei. Exemplu: ntr-un grup de subieci crora li s-a studiat nlimea i greutatea, pentru o valoare dat a nlimii (de exemplu1.70m)sevagsiseriatuturorsubieciloravndaceeainlimeidiferindntreeiprin greutate. Invers, pentru o valoare dat a greutii se va gsi seria subiecilor cu aceeai greutate, dar cu nlimi diferite. Nu se tie, i se pune problema dac greutatea este funcie de nlime, sau invers. Seconstatclaonlimemiccorespundeogreutatemaimic,iinvers.Prinurmare,existo relaie sigur ntre aceste dou mrimi, dar mai puin rigid dect relaia funcional propriu-zis. Aceastrelaie,deonaturparticular,constituiecorelaiastatistic,carejoacunrolimportantn tiinele vieii, i n particular n tiina medical, care este esenialmente o tiin a corelaiei. Procedee speciale ne permit s studiem corelaia statistic, s punem n eviden legea general care stabileteolegturreciprocntrevariaiilemrimilorluatenstudiuisapreciemcantitativgradul, adic caracterul mai mult sau mai puin slab al acestei legturi. Ne vom limita la corelaia liniar, unde una dintre mrimi variaz proporional cu alta. 8.9.1. Diagrama de dispersie Un prim model de a aborda problema const n a merge la reprezentarea grafic. Ca pentru a studia o funcie, se merge la un sistem de axe rectangulare Ox i Oy, pe care se vor reprezenta valorile a dou mrimi: x (nlimea) i y (greutatea). Fiecare individ este reprezentat printr-o pereche (x, y). Ansamblulpopulaieistudiatevafireprezentatprintr-unnordepuncte,carevaconstituidispersia populaiei studiate (Figura 8.58). Biostatistica.curs & lucrari practice 4401234560 2 4 6 8xy(x,y) Oastfeldediagram,numitdiagramdedispersie,permitedejaoaproximareanoiuniide corelaie:ntr-adevr,dacexistocorelaieastfelnct,deexemplu,greutilemaimarisfie asociatenlimilormaimari,noruldepunctevaaveaoformalungitoblicnsusiladreapta (Figura 8.59). Dac, dimpotriv, se coreleaz valori mai mari ale uneia dintre mrimi cu valori mai mici ale celeilalte, norul de puncte va avea un aspect analog, dar dirijat n jos i la dreapta (Figura 8.60). 00,511,522,533,544,50 0,5 1 1,5 2 2,5xy Atunci cnd valorile nuseinflueneazreciproc, decinu existcorelaie,norul de punctevaavea un aspectuniformdispersat(deexemplu,nlimeaiglicemiantr-unlotdepersoane)Figura8.61. Absena corelaiei indic independena caracterelor studiate. 00,511,522,533,50 0,5 1 1,5 2 2,5xy 01234560 2 4 6 8xy 8.9.2. Noiunea de covarian Putem considera o sub-populaie a unei populaii date, creia i vom calcula: -mediax ; Figura 8.58.Dispersia unei populaii (norul de puncte) Figura 8.59.Corelaie pozitiv Figura 8.60.Corelaie negativ (invers) Figura 8.61: Corelaie zero Biostatistica.curs & lucrari practice 45-abaterea de la mediex x ; -mediay ; -abaterea de la mediey y . Fie) , ( y x M = punctul central al diagramei (centrul de greutate al norului de puncte) Figura 8.62.Trasm prin) , ( y x Mdou noi axe de coordonate, Mx i My, paralelecu axele iniiale Ox i Oy. Aceste axe mpart planul n 4 zone: -nzonadindreapta-sus(cadranulI),abateriledelamediealeambelorvariabilesuntpozitive: 0 , 0 > > y y x x . Prin urmare, i produsul lor va fi pozitiv:0 ) ( ) ( > y y x x . -nzonadinstnga-jos(cadranulIII),abateriledelamediealeambelorvariabilesuntnegative: 0 , 0 < < y y x x . Prin urmare, produsul lor va fi tot pozitiv:0 ) ( ) ( > y y x x . -n zona din dreapta-jos (cadranul II), abaterea de la medie pentru x va fi pozitiv,0 > x x , iar abaterea de la medie pentru y va fi negativ,0 < y y . Prin urmare, produsul lor va fi negativ: 0 ) ( ) ( < y y x x . -n zona din stnga-sus (cadranul IV), abaterea de la medie pentru y va fi pozitiv,0 > y y , iar abaterea de la medie pentru x va fi negativ,0 < x x . Prin urmare, produsul lor va fi negativ: 0 ) ( ) ( < y y x x . 0510152025303540450 20 40 60XYMII IIIIIV Dacexistocorelaiepozitivntrexiy,majoritateapunctelortrebuiessegseascn cadraneleIiIII.nconsecin,daccalculmpentrufiecareperechedevalori(x,y)produsul 0 ) ( ) ( > y y x xi facem suma algebric a tuturor acestor produse, obinem c: > 0 ) )( ( y y x x. ncazulcorelaieinegative,majoritateapunctelornoruluisevorsituancadraneleIIiIV;analog, pentru fiecare pereche de valori (x, y) produsul0 ) ( ) ( < y y x xi fcnd suma algebric a acestor produse, obinem c:0 ) ( ) ( < y y x x . Dacnuexistcorelaie,punctelevorfiegalrepartizatencelepatrucadraneideci,urmndun raionament analog: 0 ) )( ( y y x x . Pentruadaosemnificaiemaigeneralacesteisume,oraportmlanumruldecazuriN.Definim astfel noiunea de covarian, P: Ny y x xP =) )( (. Deoarece Nx x x xNx x = =) )( ( ) (222 :deviaiastandardtraducedispersiastatistic n cazul unei singure serii statistice. Figura 8.62. Centrul de greutate al norului de punctei mprirea planului n cadrane Biostatistica.curs & lucrari practice 468.9.3. Linia de regresie Regresiaesteometoddeestimarearelaieinumericedintrevariabile.Numelederegresiese datoreaz lui Galton (1886), care a dezvoltat tehnicile de investigare a relaiei dintre nlimea copiilor iaprinilorlor.nproblemelederegresie,scopulestesvedemctdebinepoatefifolosito variabil pentru a o prediciona pe cealalt. Cndstudiemoseriestatisticimportant,aveminteresulsgrupmvalorilenclase.Putem proceda la fel pentru distribuia tuturor valorilor lui x. Prin urmare, vom decupa norul de puncte n bezi verticale (Figura 8.63).00,10,20,30,40,50,60,70 0,2 0,4 0,6 0,8 1xyxiyxi Vom nota toate valorile lui y care corespund valorilor lui x din aceeai clas, i vom calcula valorile medii pentru acest y. Pentrufiecarebandverticalanoruluidepuncteseobineastfelunnumrsigurdevalorimedii pentruy,numite punctelemediane ale fiecrei clase. Unind aceste puncte obinem liniade regresie, sau linia de estimare a lui y n x. Bineneles,putem,invers,slestimmpexnfunciedey.Pentruaceasta,estesuficients plecmdelayispartajmnoruldepunctenbenziorizontale,corespunztoarefiecreiadintre clasele individualizate pe axa Oy (Figura 8.64). Valorile medii ale lui x obinute n fiecare dintre aceste benzi orizontale permit s definim o linie de regresie a lui x n y, evident diferit de cea precedent. Liniile de regresie dau imaginea variaiilor mediilor unei mrimi n funcie de alta. Ele exprim legea general, care stabilete variaiile acestor dou mrimi, fiind echivalentul curbei reprezentative a unei funcii.Elepermitca,plecnddelaomrimevariabilnumitvariabildecontrol,sauexplicativ (care joac rolul variabilei independente), s obineminformaii despre alt variabil, numit variabil controlat, sau explicat (care joac rolul variabilei dependente, sau al funciei). 00,10,20,30,40,50,60,70,80,90 0,2 0,4 0,6 0,8 1xyyjxy j Exemplu: Dacyestegreutateaixestenlimea,liniadeexprimarealuiyfunciedexvaindicagreutatea mediey corespunztoare unie nlimi date x,exact lafel ca icum aceast greutate medie ar fi fosto funcie de nlime. 8.9.4. Dreapta de regresie Unul dintre cazurile cele mai interesante n practic este acela unde legea variaiilor mediilor, reprezentat prin linia de regresie, este o lege liniar, adic o mrime variaz proporional cu cealalt. n acest caz, linia de regresie este o dreapt a crei liniaritate este mai puin mascat de fluctuaiile de eantionaj.Decivomncercasajustmliniafrntderegresieobinutexperimentallaodreapt teoretic, numit dreapt de regresie, sau dreapt de estimare, ceea ce revine la a verifica legitimitatea acestei asimilri. Se poate trasa aceast dreapt din ochi, dar numai n cazul n care forma norului este deja bine definit, i cnd avem mai puine puncte; procedeul, ns, este puin precis. Metoda general adoptat este metoda celor mai mici ptrate. Figura 8.63:Linia de regresie a lui y n x Figura 8.64:Linia de regresie a lui x n yBiostatistica.curs & lucrari practice 47Dreaptaobinuttrebuiesdeaceamaibunestimareauneivariabilefunciedealta.Deexemplu, pentru dreapta de estimare a lui y, trebuie s gsim dreapta care, pentru o valoare dat a lui x, furnizeaz ceamaibunestimarepentruy,adicaceeapentrucarevalorileluiyvorficelmaipuindispersate posibil. Fie d distanele verticale (numite reziduuri) ale diferitelor puncte ale diagramei dreptei D (Figura 8.65). Aceste reziduuri formeaz o distribuie cu media d i dispersia Sd2.Dintoatedrepteleposibile,ceamaibunvaficeapentrucaredispersiaSd2,adicsumaptratelor distanelorpunctelordiagrameiladreapt,esteminim(deundenumelemetodei).Aceastcondiie implicfaptulcdreaptavatreceprinpunctulcentralaldiagramei,iarsumareziduurilordeopartea dreptei este egal cu suma reziduurilor de cealalt parte a dreptei. Se arat c dreapta care corespunde acestor condiii are ecuaia: ) ( x x a y yx = , unde =2) () )( (x xy y x xax. 00,511,522,533,540 0,5 1 1,5 2 2,5xyxmymx'y'MDdddddddddd Fie P (Figura 8.66) un punct al diagramei i urmtoarele elemente: -x, y coordonatele sale n raport cu axele Ox, Oy; -x x x = ' ,y y y = 'coordonatele n raport cu axele Mx, My; -A, punctul de pe D situat pe verticala trecnd prin P; -X, Y coordonatele lui A n raport cu axele Ox, Oy; -a = tg(), panta dreptei D. n triunghiul MAB avem: ) ( ' ) ( ) ( x x a ax tg MB ABMBABtg = = = = . Din figur se vede cy y BC AC AB = =) ( x x a y y = . Aceasta reprezint ecuaia unei drepte trecnd prin dou puncte (A i M), adic dreapta D. Din figur se vede i c: d = PA = PB AB = y ax x y y xM ) , ( y xx x x yy y 0 P(x, y)d A B C D Figura 8.65. Dreapta de regresie i reziduurile Figura 8.66. Calculul coeficienilor dreptei D Biostatistica.curs & lucrari practice 48 + = =2 2 2 2 2' ' ' 2 ' ) ' ' ( x a y x a y ax y d . Acest trinom n a trece printr-un minim cnd derivata sa se anuleaz: = = = 2 22) () )( ('' '0 ' ' 2 ' 2x xy y x xaxy xay x x a

Se definesc astfel coeficienii liniari de regresie: -ax : coeficientul liniar de regresie al lui y n x, care msoar panta dreptei D pe orizontala Ox. Indic decteorinmedieyestemaimaresaumaimicdectx.Estepozitivsaunegativdupcum dreapta este ascendent sau descendent de la stnga la dreapta.nmodsimetric(schimbndxcuyiycux)sedefinetedreaptaderegresiealuixny,care corespunde ecuaiei: ) ( y y a x xy = , cu coeficientul de regresie corespunztor ay. Prin urmare, avem i: - ay : coeficientul liniar de regresie al lui x n y, care msoar panta dreptei D pe verticala Oy. Indic de cte ori x este mai mare sau mai mic dect y. =2) () )( (y yx x y yay Formulelecoeficienilorliniarideregresiearatceisepotexprimalafeldebineinfunciede covariana P: 2 2 2) () )( () () )( (xPNx xNy y x xx xy y x x= = 2 2,yyxxPaPa = = 8.9.5. Dreapta de regresie i corelaia liniar Dreptele de regresie permit de a preciza mai mult noiunea de corelaie liniar. Exist o corelaie perfect, cazul relaiei funcionale unde unei valori date x i corespunde o valoare i numai una y i invers, unei valori date y i corespunde o unic valoare a lui x. Dreapta de regresie a lui y funcie de x, Dy este identic cu dreapta de regresie a lui x funcie de y, Dx; cele dou drepte Dx i Dy se suprapunntr-ouniclini