Matematici Aplicate in Biologie

Embed Size (px)

Citation preview

Elemente de matematic aplicate n biologieMotto Matematica se bucur de o poziie special n raport cu celelalte tiine pentru c legile ei sunt absolut certe i indiscutabile (A. Einstein, Geometry and experience, Sidelight on Relativity, Dover Publication, New York, 1983)

Conf. Univ.Dr. Dana Constantinescu

1. IntroducereArgument Matematica a ctigat i i-a meninut o poziie excepional ntre tiine pentru c rezultatele sale sunt obinute dintr-un numr mic de axiome (mai mult sau mai puin evidente) printr -un lan de raionamente. Deoarece e bazat pe o logic impecabil, matematica furnizeaz tiinelor naturale un grad nalt de securitate (i claritate) care altfel nu poate fi atins. Din acest motiv, tratarea riguros matematic a acestora este de dorit i se realizeaz ori de cte ori e posibil. Mai mult dect att, matematica este un mijloc de comunicare ntre oameni de tiin i ingineri de diverse specialiti, Ca rezultat, dac o anumit ramur a tiinei este prezentat n form riguros matematic, accesibilitatea i audiena ei sporete. (I. D. Mayergoyz, Mathematical Models of hysteresis and their applications, Elsevier Science Inc. New York, 2003) Dei dezvoltarea biologiei nu a fost influenat n mod esenial de dezvoltarea matematicii, n ultimele decenii este recunoscut importana completrii studiului descriptiv al unor fenomene sau mecanisme biologice cu aspecte legate de prelucrearea i interpretarea datelor obinute. Cea mai avansat form a folosirii matematicii n biologie este biologia matematic. Ea i propune modelarea matematic a proceselor biologice i studiul modelelor folosind metode specifice matematicii. Pentru construirea i validarea modelelor matematice se pot folosi cercetri statistice. Statistica dezvolt tehnici i proceduri de nregistrare, descriere, analiz i interpretare a datelor experimentale sau a rezultatelor obinute din observarea unui proces social, economic, biologic etc., precum i vizualizarea datelor folosind softuri dedicate acestui scop. Cunoaterea unor elemente i principii de baz ale statisticii este important n momentul actual, permind realizarea unor analize corecte a datelor i evitarea erorilor de interpretare a acestora. Strns legat de statistica inferenial este teoria probabilitilor, care furnizeaz metode i tehnici pentru stabilirea unor previziuni (inferene statistice) referitoare la caracteristicile unei populaii pornind de la rezultatele obinute din observarea unui eantion al acesteia. Biostatistica (combinaie de cuvinte ntre biologie i statistic) este aplicarea statisticii ntr-un numr mare de domenii ale biologiei. Biostatistica are drept obiectiv i fundamentarea teoretic a proiectrii i controlului experimentelor biologice, mai ales n medicin i agricultur, deoarece ea analizeaz i interpreteaz date concrete i realizeaz inferene asupra acestora. Se consider c principalii beneficiari ai biostatisticii sunt - Snatatea public (studiul aspectelor epidemiologe, legate de nutriie, corelarea strii de sntate i proprietile mediului nconjurtor, organizarea serviciilor de studiu al sntii populaiei) - Ecologia i previziunile ecologice (studiul inflenei diverilor factori asupra dinamicii populaiilor) - Statistica genetic (studiaz legtura ntre variaiile genotipului i ale fenotipului). Studiul genetic al populaiilor este folosit n agricultur pentru mbuntirea soiurilor de plante i animale, iar n genetica uman studiul statistic ajut la identificarea cauzelor care influeneaz predispoziia la anumite afeciuni) - Analiza secvenelor biologice (secvene AND, secvene de peptide) In cele ce urmeaz prezentm unele aplicaii directe ale statisticii matematice i ale teoriei probabilitilor n descrierea unor fenomene simple ce apar n biologie i agricultur. Asocierea celor dou domenii beneficiare ale matematicii nu este ntmpltoare, agricultura fiind n bun msur biologie aplicat.

2. Aplicaii ale statisticii descriptive n biologie i n agricultur

Statistica matematic se ocup cu descrierea i analiza numeric a fenomenelor (sociale, economice, tiinifice etc). Statistica opereaz cu date care se pot colecta din surse existente sau se pot obine prin observaii i studii experimentale. Datele statistice sunt n fapt observaii codificate realizate asupra unei mulimi de elemente de aceeai natur, mulime care se numete populaie statistic. O populaie poate fi finit sau infinit. Numrul de elemente al unei populaii finite se numete volumul populaiei. Elementele populaiei (indivizii) sunt purttoare de informaii. Indivizii pot fi persoane (de exemplu formnd populaia unei localiti), ageni economici, obiecte (de exemplu mijloacele fixe ale unui agent economic, piese produse sau comercializate), evenimente (de exemplu operatiuni bancare), opinii (relative la servicii, calitatea unui produs), etc. Caracteristica populaiei este trstura comun a elementelor sale care este supus studiului statistic. In statistica matematic ea este cuantificat prin valori numerice. Deoarece o caracteristic variaz de la individ la individ, ea poate fi considerat ca o funcie X : P R , unde P este populaia statistic. O caracteristic poate fi discret (dac valorile sale formeaz o mulime finit) sau continu (n cazul cnd caracteristica poate lua orice valoare real). De exemplu, caracteristica ce indic numrul de piese defecte din fiecare lot este o discret, n timp ce profitul unei firme sau volumul ncasrilor pot fi interpretate ca i caracteristici continue. Un fenomen deosebit de important este cuantificarea fenomenelor sociale, adic transpunerea n limbaj numeric a caracteristiclor acestor fenomene pentru a nlesni compararea, analiza i sinteza lor, precum i pentru a face prognoze asupra lor. Problema cuantificrii fenomenelor sociale este o problem de baz a tiinelor sociale, n condiiile creterii exigenelor fa de determinrile tinifice ale acestora. Exist fenomene sociale msurabile prin natura lor, de exemplu fenomenele demografice, fenomenele economice, diverse fenomene politice sau culturale Fenomenele sociale msurabile cu aproximaie se refer n special la opiniile i comportamentele colectivitilor umane. n acest caz msurarea nu poate fi efectuat dect prin compararea intensitilor cu care se manifest acestea la diverse persoane, adic prin realizarea unei scri de mrimi numit scalogram. Un exemplu de scalogram care reprezint intensitatea opiniilor este cea care conine trei niveluri: cu totul de acord, de acord, nu sunt de acord. Statistica matematic opereaz cu fenome cuantificabile numeric, deci fiecrui element al unei scalograme i se asociaz un numr. Demersul statistic are dou niveluri: descrierea statistic (statistica descriptiv) i inferena statistic (statistica inferenial). Statistica descriptiv se ocup cu nregistrarea, gruparea, prelucrarea i prezentarea datelor obinute prin investigaie i pe aceast baz descrie fenomenul studiat. n studiul statistic descriptiv toate elementele populaiei sunt luate n consideraie. Scopul statisticii descriptive este ndeprtarea detaliilor neimportante i focalizarea ateniei asupra unor aspecte de interes i anume: - precizarea valorii n jurul creia sunt centrate datele - descrierea mprtierea acestora n jurul valorii centrale - vizualizarea datelor cu ajutorul histogramelor - analiza corelaiei ntre fenomene Statistica inferenial are ca obiect de studiu investigarea prin sondaj: din ntreaga populaie se selecteaz un eantion reprezentativ asupra cruia se fac msurtori sau observaii legate de o anumit caracteristic a populaiei. Pe baza rezultatelor obinute se fac inferene statistice (adic se formuleaz concluzii) asupra parametrilor populaiei. Statistica inferenial folosete deci informaia rezultat din studierea unui eantion pentru a obine concluzii referitoare la ntraga populaie din care a fost selectat eantionul. Aceste concluzii nu sunt de tip determinist ci se obin folosind metode i tehnici ale teoriei probabilitilor, teorie ce conine mecanisme de msurare i analiz a incertitudinii

legate de evenimentele viitoare. Aceast incertitudine este exprimat cu ajutorul nivelelor de ncredere. In realizarea unei cercetri statistice se parcurg de obicei urmatoarele etape: - colectarea datelor care se realizeaz prin metode specifice obiectivului i condiiilor cercetrii. In funcie de tipul de analiz folosit (descriptiv sau inferenial) se folosete ntreaga populaiei sau doar un eantion. - procesarea datelor nseamn cuantificarea lor numeric i obinerea seriilor de date. - analiza datelor se realizeaz prin metode i tehnici specifice statisticii matematice. Aceast etap necesit o cunotere profund a filosofiei ce st n spatele fiecrei metode deoarece este posibil s se obin rezultate nesemnificative statistic atunci cnd ipotezele de lucru sau condiiile de aplicare a metodelor nu sunt ndeplinite. -interpretarea rezultatelor este diferit n statistica descriptiv i n cea inferenial. In primul caz se obin informaii concrete i clare despre populaia studiat, n al doilea caz validarea rezultatelor obinute este realizat prin compararea cu ce se tia sau se bnuia n domeniul respective. In unele situaii analiza statistic dezvluie corelaii ntre fenomene, legturi care ar fi fost greu sau chiar imposibil de observat fr eficientul mecanism statistico-matematic. In momentul de fat exist o vast informaie statistic la nivel global, datorat n principal dezvoltrii continue a tehnologiei calculatoarelor. Realizarea i folosirea corect a bazelor de date reprezint o preocupare important n mediul economic si nu numai. Soft-urile statistice joac un rol important n analiza datelor. Ele mbin proceduri statistice clasice i moderne cu tehnici de grafic interactiv. Multe soft-uri au dou versiuni: una profesional i una academic. Literatura de specialitate califica drept foarte performante, printer altele, urmtoarele pachete de programe: - S-PLUS (http://www.insightful.com/products/splus/) - XploRe (http://www.xploretech.com/index.pl ) - Statistica (http://www.statsoft.com/ ) - SPSS (http://www.spss.com/ ) 2.1. Serii de date i distribuii de frecvene Considerm o populaie statistic P finit de volum N pentru care o caracteristic C este codificat de valorile numerice x1 , x2 ,..., xN , nu neaprat diferite. Sirul finit de numere se noteazX : x1 , x2 ,...., xN

i se numete serie de date. Exemplu: X : 0,1,0,0,2 este o serie de date care poate fi interpretat o funcie X : {a, b, c, d , e} {0,1,2} , unde X (a ) = 0 , X (b ) = 1 , X (c ) = 0 , X (d ) = 0 , X (e ) = 2 . In acest caz populaia este P = {a, b, c, d , e} . Deoarece identitatea indivizilor din populaie nu este interesant din punct de vedere statistic, aceasta este neglijat n etapele urmtoare. Definiie: Distribuia de frecvene (sau variabila statistic) asociat caracteristicii C a populaiei P de volum N este x1 x2 x3 X = n n n 1 2 3 xk nk

unde

x j , j {1,2,..., k}

sunt

valorile

diferite

nregistrate

pentru

caracteristica

C

iar

n j , j {1,2,...k} reprezint numrul indivizilor populaiei caracterizai de valoarea x j .

Numrul n j se numete frecvena absolut de apariie a valorii x j . Observaii: 1. Din definiia frecvenelor relative rezult c

nj =1

k

j

= n1 + n2 + ... + nk = N . xk , fk

2. Unei caracteristici i se poate asocia i distribuia frecvenelor relative x1 x2 x3 Xr = f f f 1 2 3 fj = nj N

.

n acest caz

fj =1

k

j

= 1 . Frecvena relativ f j poate fi interpretat ca fiind probabilitatea ca valoarea

x j s fie luat de caracteristica C, iar distribuia frecvenelor relative este n fapt o variabil aleatoare.

Exemplu: Pentru seria de date X : 0,1,2 ,5, 2, 3, 3, 2 distribuia de frecvene este 0 1 2 3 5 X = 1 1 3 2 1

iar

cea

a

frecvenelor

relative

este

1 2 0 Xr = 1 / 8 1 / 8 3 / 8

3 5 2 / 8 1/ 8

2.2. Reprezentri grafice Graficul corespunztor unei serii statistice se numete diagram. Cazul seriilor pentru care caracteristica este msurat cantitativ (i exprimat prin numere reale) se ntlnesc n mod currenturmtoarele reprezentri grafice: - reprezentarea cu segmente vericale: - histograma cu bare - poligonul frecvenelor - reprezentarea cu sectoare circulare a) Reprezentarea cu segmente verticale (histograma cu segmente) se folosete pentru serii cu un numr redus de date, de obicei numere ntregi. x1 x2 x3 xk , histograma cu segmente, sau reprezentarea cu Pentru distribuia de frecvene X r = n n n 1 2 3 nk segmente, este familia de segmente verticale ce unesc punctele de coordonate (xi ,0 ) i (xi , ni ) unde i {1,2,..., k}

Exemplu: Pentru X = 3 2 4 2.1.

1 3 2

3

4 5 reprezentarea cu segmente verticale este prezentat n figura 1

Figura 2.1. Histograma cu segmente

b) Histograma cu bare se folosete pentru seriile cu un numr mare de date ce nu sunt neaprat numere ntregi. Ea se realizeaz astfel: - se determina valoarea minim, xmin i valoarea maxim xmax a seriei de date

-

se divide segmentul [ xmin , xmax ] prin puncte echidistante cu pasul h =j {0,1,2,..., n}

xmax xmin , unde n este n numrul de intervale ales de analistul seriei. Punctele de diviziune sunt x j = xmin + j h , unde

-

se calculeaz cte valori ale seriei aparin fiecrui interval I j = [ x j , x j +1 ) . Acest numr, notat n j , se numete frecvena clasei I j . Deasupra fiecrui interval I j se traseaz un dreptunghi cu baza I j i nlimea proporional cun j . Pentru determinarea nltimii dreptunghiului se poate folosi formula H j = nj h N

.

Obiecul grafic rezultat din alturarea acestor dreptunghiuri se numete histograma cu bare a seriei de date sau histograma distribuiei de frecvene, pentru c ilustreaz modul n care sunt distribuite datele. Un exemplu de histogram cu bare este dat in Figura 2.2.

Figura 1.2. Histograma cu bare

O problem legat de generarea histogramelor este legat de precizarea numrului de intervale de diviziune. In perioada de nceput a statisticii computaionale numrul de intervale era proporional cu N . In unele programme statistice el este ales proporional cu log 2 N . Cea mai bun ide este s generm histograme corespunztoare mai multor numere de intervale i s le comparm. c) Poligonul frecventelor se obine unind vrfurile segmentelor verticale n cazul reprezentrii cu segmente. In cazul reprezentrii din Figura 2.1, poligonul de frecvene, A, B, C , D, E este dat n figura 2.3.

Figura 2.3. Poligon de frecvene

d) Reprezentarea cu sectoare circulare este folosit pentru obinerea rapid a unei viziuni globale asupra importanei relative a diverselor clase ale statisticii, interpretarea lor fiind uurat de colorarea diferit a diverselor clase. In general aceast reprezentare este folosit pentru seriile cu un numr mic de clase. Reprezentarea se realizeaz astfel: - se determin clasele seriei i numrul de valori ale seriei din fiecare clas (frecvenele absolute ale claselor) - pe un cerc se consider sectoare circulare proporionale cu frecvenele fiecrei clase. Unghiul la centru corespunztor clasei cu frecvena absolut n j este j =nj 360 N

.

e) Reprezentarea polar se folosete atunci cnd caracteristica statistic prezint o anumit periodicitate. De exemplu date inregistrate calendaristic (numarul de nasteri inregistrate n fiecare lun) sau date referitoare la aspecte geografice (intensitatea vntului ce bate din anumite direcii). Ea se construiete astfel: pe semidrepte cu aceeai origine i care impart planul ntr-un numr de sectoare egale (acest numr se stabilete n funcie de caracterul seriei statistice) se consider segmente ce pornesc din origine, proporionale cu frecvenele absolute ale claselor i se unesc extremitile acestoe segmente. Se obine un poligon nchis n care clasele cu frecven mai mare sunt reprezentate prin vrfuri aflate la distan mai mare fa de origine. 2.3. Indicatori statistici 2.3.1. Indicatori de poziie (de nivel, de localizare) a) media aritmetic x =x1n1 + x2 n2 + ... + xk nk N

Media aritmetic este sensibil fa de valorile extreme ale seriei, ea devenind nereprezentativ dac termenii seriei sunt foarte mprstiai. Omogenitatea colectivitii este o condiie a reprezentativitii, pentru orice tip de mrime medie. b) media armonic xarm =N n1 n2 n + + ... + k x1 x2 xk

Media armonic este influenat de prezena valorilor individuale mici i de frecvena acestora. Media armonic se utilizeaz pentru exprimarea tendinei centrale n funcie de scopul cercetrii i mai ales n funcie de natura obiectiv dintre valorile variabilei numerice observate. In economie este folosit la calculul productivitii, pentru calculul indicelui (sintetic) al preurilor mrfurilor i tarifelor serviciilor (care sintetizeaz indicii individuali ai acestor preuri i tarife). c) media geometricx g = N x1 1 x2 2 .... xkn n nk

Media geometric este folosit mai rar ca indicator statistic, ndeosebi cnd termenii prezint o evident concentrare ctre valorile cele mai mici sau cnd se urmrete s se acorde o importan deosebit valorilor individuale reduse. Dac cel puin o valoare individual este nul sau negativ, calculul mediei geometrice este lipsit de sens. Ea nu poate fi folosit dac n cadrul seriei exist cel puin un termen negativ, deoarece expresia devine imaginar. Media geometric mai este denumit i medie de ritm, fiind folosit pentru calculul ritmului mediu de crestere. Un exemplu de folosire a mediei geometrice ca indicator statistic este dat n exemplul urmtor: Exemplu O colonie de microorganisme a fost studiat pe parcursul a dou zile. S-a constatat ca masa sa iniial era 10 g, dup o zi era 20 g iagr a treia zi era 160 . S se calculeze ritmul mediu de cretere al coloniei. Masa coloniei s-a dublat n prima zi i s-a multiplicat de 8 ori n a doua zi. Dac se calculeaz rapid media aritmetic se constat c, n medie, ritmul de cretere este2+8 = 5. 2

Acest rezultat n mod evident este incorect deoarece, n acest caz dup o zi colonia ar avea ,10 5 = 50 g , iar dup dou zile ar avea 50 5 = 250 g , ceea ce nu este adevrat

Dimpotriv, dac indicele mediu de dinamic se determin ca media geometric a dinamicilor individuale se obine urmtoarea valoare: xg = 2 8 = 4 . Acesta este un rezultat mult mai corect dect cel anterior deoarece pornind de la 10 g colonia ar avea 10 4 = 40 g dup prima zi (ceea ce nu e adevrat) i 40 4 = 160 g dup a doua zi. Acest rezultat verific datele problemei, deci ritmul mediu de cretere este egal cu media geometric a ritmurilor intermediare de cretere, adic este 4. d) mediana seriei de date X : x1 , x2 ,...., xN cu termenii ordonai cresctor este numrul

daca N este impar x N +1 2 me = . x N / 2 + x1+ N / 2 daca N este par 2

Mediana este o valoare ce caracterizeaz centrul seriei de date. n cazul cnd N este par mediana nu este obligatoriu valoare a seriei de date. Are proprietatea c suma frecvenelor valorilor mai mici ca me este egal cu suma frecvenelor mai mari ca me. Este utilizat n studiul fertilitii, mortalitii, determinarea duratei de via. e) modul (moda su dominanta) este valoarea cu cea mai mare frecven de apariie (care este la mod). Exist repartiii unimodale (cu un singur mod), bimodale (cu dou moduri) etc. Valoare modal este influenat de mrimea valorilor din centrul seriei (la distribuiile unimodale) sau din centrul ngrmdirii de observaii (la distribuiile plurimodale). Celelalte valori nu au nici o influen asupra ei. Distribuiile bimodale (cu dou frecvene maxime) reprezint o situaie rar ntlnit, care impune separarea unitilor colectivitii n dou distribuii de frecvene. 2.3.2. Indicatorii variaiei (mprtierii)Indicatorii tendinei centrale nu dau nici o explicaie asupra mprstierii, respectiv a modului n care termenii seriei se abat ntre ei sau de la medie. Astfel, apare necesitatea calculrii unor noi indicatori care rezolv: - verificarea reprezentativitii mediei ca valoare tipic a seriei de distribuie; - verificarea gradului de omogenitate al seriei; - verificarea sistematizrii informaiilor prin gruparea statistic; - caracterizarea gradului si formei de variaie a unei variabile statistice. Aceti indicatori care dau o caracterizare precis a unei serii statistice prin care se poate cunoate variaia valorilor individuale (cum se grupeaz aceste valori n jurul valorii medii, dac sunt apropiate sau ndeprtate de aceast valoare), se numesc indicatorii variaiei. Ei sunt:

a) amplitudinea este diferena dintre cea mai mare i cea mai mic valoare a seriei de date ( sau a distribuiei de frecvene) b) abaterea medie absolut e X = c) variana (dispersia)s2 = 1 N

1 NN

n x xi i i =1i 2

k

(x x )i =1

d) abaterea medie ptratic (standard) s = Propoziie Dispersia i abaterea x1 x2 x3 ...xk X = n1 n2 n3 ...nk , unde

1 N

(x x )N i i =1

2

medie ptratic ale unei distribuii de frecvene

n = Ni i =12

k

se calculeaz folosind formulele

s2 =

i =1

k

xi ni N

2

i =1

k

xi ni , respectiv s = N

i =1

k

xi ni N

2

i =1

k

xi ni . N

2

Dispersia este un indice de variaie ce d indicaii privind mprtierea valorilor seriei n jurul valorii medii. Cu ct este mai mic dispersia, cu att valorile seriei statistice se grupeaz mai mult n jurul valorii medii. In acest caz media este un indicator statistic relevant pentru studiul seriei. O dispersie mare arat c elementele eantionului au o mprtiere mare i valoarea medie nu d informaii relevante despre serie.

Dispersia este influenat de mrimea valorilor din seria de date. Dac valorile sunt mari, dispersia poate fi si ea mare, dar cazul seriilor de date cu valori mici dispersia poate avea valori mici chiar dac datele nu sunt grupate n jurul mediei. De aceea, pentru studiul mprtierii se folosete coeficientul de variaie care nu este influenat n mod esenial de mrimea termenilor seriei de date. e) coeficientul de variaie CV =s x

Coeficientul de variaie are valori cuprinse n intervalul [0,1] . El este cel mai sintetic indicator al mprtierii. Cu ct coeficientul de variaie e mai aproape de 0, cu att seria este mai omogen i media este mai reprezentativ. Dac este mai apropiat de 1, mprtierea valorilor este mare i media nu este un indicator reprezentativ. Practica utilizrii coeficientului de variaie a stabilit pragul de trecere de la starea de omogenitate la cea de eterogenitate: n literatura de specialitate se avanseaz nivelul de 35 - 40 % ca limit maxim admisibil pentru coeficientul de variaie. Dac CV 0.35 , populaia este omogen i media este un indicator relevant. Dac CV > 0.35 , populaia este eterogen i media nu este un indicator relevant

In analizele financiare coeficientul de variaie este o msur a riscului relativ.

Exemple1 Cantitatea de deeuri organice produse la o ferma n decursul a 100 zile consecutive a fost nregistrat n tabelul de mai jos Cantitatea de deeuri Numarul de zile n care s-a Frecvena relativ ni / 100 produse zilnic produs cantitatea de deeuri xi ni 0 5 1 15 2 23 3 22 4 16 5 9 6 5 7 5 a) S se completeze coloana frecvenelor relative; b) S se deseneze histograma cu segmente verticale asociat datelor din table. c) S se calculeze indicatorii de pozitie (media, mediana, modul) i indicatorii de mprtiere (dispersia, abaterea standard i coeficientul de variaie) d) S se interpreteze datele obinute Rezolvare: a) X = 50 7 15 23 22 16 9 5 5 100 100 100 100 100 100 100 100 1 2 3 4 5 6

b) Histograma cu segmente este

Figura 2.4 Histograma cu segmente a seriei de date din exerciiul 1

c)Indicatorii de poziie sunt: - media x =0 5 + 1 15 + 2 23 + 3 22 + 4 16 + 5 9 + 6 5 + 7 5 = 3.01 100

- mediana se calculeaz tinnd cont ca sunt 100 termeni n serie. Dac scriem termenii seriei n ordine cresctoare, repetndu-i de attea ori ct indic frecvena absolut obinem x50 = x51 = 3 Decix50 + x51 3 + 3 = =3. 2 2 -modul este mo( X ) = 2 pentru c aceast valoare are cel mai mare numr de apariii. me( X ) =

Indicatorii de poziie sunt -dispersia: s 2 =1 2.852 [5 0 2 + 15 12 + 23 2 2 + 22 32 + 16 4 2 + 9 52 + 5 6 2 + 5 7 2 ] = 3.0499 100 100

- abaterea standard -coeficientul de variaie

s = s 2 = 3.0499 = 1.7463 s CV = = 0.58 . x

2.Vrsta persoanelor dintr-o comunitate a fost nregistrat i datele au fost grupate n tabelul de mai jos. Vrsta (n ani) Numr persoane[0,5) [5,10) [10,15) [15,20) [20,25) [25,30) [30,35) [35,40) [40,45) [45,50) [50,55) [55,60) >=60 Total 5 12 33 71 119 175 185 158 122 69 35 11 5 1000

a) S se deseneze histograma cu bare a acestei serii de date (vrstele mai mari de 60 ani se identific cu intervalul [60,65) . b) Identificnd fiecare interval cu mijlocul su, s se constituie seria statistic a vrstelor celor 1000 de persoane din comunitate. S se determine media, mediana i dispersia acestei serii. Rezolvare: a) histograma este

Figura 2.5 Histograma cu bare a seriei de date din exerciiul 2

b) Seria de date este 2.25 7.25 12.25 17.25 22.25 27.25 32.25 37.25 42.25 47.25 52.25 57.25 62.25 X = 5 12 33 71 119 175 185 158 122 69 35 11 5 x = (2.25 5 + 7.25 12 + 12.25 33 + 17.25 71 + 22.25 119 + 27.25 175 + 32.25 185 + 37.25 158 +

+ 42.25 122 + 47.25 69 + 52.25 35 + 57.25 11 + 62.25 5) / 1000 = 32.18 x +x 32.25 + 32.25 = 32.25 Mediana este me = 500 501 = 2 2 Dispersia este s 2 = 114.4950 .

Media este

Abaterea standard este s = s 2 = 10.7002 3. Statistica naterilor nregistrate lunar ntr-o localitate este prezentat n tabelul urmtor Luna 01 02 03 04 05 06 07 08 09 10 11 12 Nr. Nateri 8 9 13 18 15 20 24 19 12 11 6 5 a) S se reprezinte seria de date cu ajutorul histogramei b) S se calculeze indicatorii seriei de date i s se interpreteze rezultatele a) Histograma este

Figura 2.6 Histograma cu bare a seriei de date din exerciiul 3

b) Media este n = 13, (3) . Dispersia este s 2 = 32.7222 . Abaterea standard este s = 5.7203 . Coeficientul de variaie este CV =s = 0.4290 n

Deoarece coeficientul de variaie este mare rezult c media nu este un indicator reprezentativ pentru seria de date. 4. Frecvena medie a vntului pe direciile principale i secundare ale punctelor cardinale nregistrate la Staia meteorologic Craiova n perioada 1950-2000 este dat n tabelul urmtor Direcia N NE E SE S SV V NV Frecvena (%) 5 10 24 7 5 13 27 9

a) S se reprezinte seria de date cu ajutorul histogramei b) S se calculeze indicatorii seriei de date i s se interpreteze rezultatele a) Histograma este

Figura 2.7 Histograma cu segmente a seriei de date din exerciiul 4

b) Media este n = 12.5 Interpretarea sa este: in medie vntul a btut din fiecare direcie 12,5% din timp Dispersia este s 2 = 63 Abaterea standard este s = 7.9362 Coeficientul de variaie este CV = 0.6349 Deoarece coeficientul de variaie este mare rezult c media nu este un indicator statistic relevant.

5. Msurtorile efectuate prin sondaj aleator asupra nlimii a 50 de spice dintr-un lot de orzindic urmtoarele valori (n cm.) date n tabelul de mai jos: Nr. nlime Nr. nlime Nr. nlime Nr. nlime Nr. nlime crt crt crt crt crt 49,9 41 49,8 31 50.0 21 50,1 11 50,7 1 50,2 42 50,5 32 50,0 22 50,0 12 51,0 2 49,8 43 49,6 33 49,9 23 50,1 13 51,0 3 49,9 44 50,4 34 50,2 24 50,0 14 49,6 4 50,1 45 50,2 35 50,0 25 49,9 15 49,8 5 50,0 46 50,6 36 49,7 26 50,3 16 49,2 6 49,9 47 49,6 37 50,3 27 50,0 17 50,0 7 49,8 48 49,3 38 49,2 28 50,2 18 49,8 8 50,1 49 49,5 39 50,0 29 49,4 19 49,8 9 50,2 50 50,0 40 50,1 30 49,8 20 49,9 10 a). S se fac gruparea datelor i s se determine frecvenele absolute i relative. S se fac reprezentarea n batoane. b). S se reprezinte histograma. c). S se determine clase de valori de lungime 0.3, s se determine frecvenele absolute ale intervalelor i s se reprezinte histograma cu bare. d). S se determine valorile centrale ale claselor, media, valoarea modal, mediana, dispersia i abaterea medie ptratic. a) Distributia de frecvene a seriei de date este 49.2 49.3 49.4 49.5 49.6 49.7 49.8 49.9 50 50.1 50.2 50.3 50.4 50.5 50.6 50.7 50.8 51 X = 1 1 1 1 2 1 6 6 10 5 6 2 1 1 2 1 1 2

Frecvenele relative sunt date deX rel 49.2 49.3 49.4 49.5 49.6 49.7 49.8 49.9 50.0 50.1 50.2 50.3 50.4 50.5 50.6 50.7 50.8 51 = 1 1 1 1 2 1 6 6 10 5 6 2 1 1 2 1 1 2 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 b)

Histograma este

Figura 2.2 Histograma cu segmente a seriei de date din exercitiul 5

c) Clasele sunt date n tabelul urmtor Clasa Frecvena Valoarea central a clasei [49.2 49.5) 3 49.35 [49.5 49.8) 4 49.65 [49.8 50.1) 22 49.95 [50.1 50.4) 13 50.25 [50.4 50.7) 4 50.55 [50.7 51] 4 50.85 Histograma cu bare este

Figure 2.3 Histograma cu bare a gruprii de date din exerciiul 5

Distribuia de frecvene pentru care se calculeaz indicatorii este 49.35 49.65 49.95 50.25 50.55 50.85 X = 3 4 22 13 4 4 Media este X = 50.0880 . Modul este mo = 49.95 . X (25) + X (26) 49.95 + 49.95 = = 49.95 . Mediana este me = 2 2 Dispersia este s 2 = 0.1264 .

Abaterea medie ptratic este s = s 2 = 0.1264 = 0.3560 Coeficientul de variaie este CV = 0.0071 0 , deci datele sunt grupate n jurul valorii medii si media este un indicator relevant. 1. Producia de boabe a 100 de parcele de 6 m2 cultivate cu un anumit soi de gru ntr-un cmp experimental este dat n tabelul: Nr. Prod. Nr. Prod. Nr. Prod. Nr. Prod. Nr. Prod crt crt crt crt crt 2,72 21 2,97 41 3,05 61 3,11 81 3,22 1 2,76 22 2,98 42 3,05 62 3,11 82 3,23 2 2,84 23 2,98 43 3,06 63 3,13 83 3,24 3 2,85 24 2,99 44 3,06 64 3,13 84 3,24 4 2,87 25 2,99 45 3,07 65 3,13 85 3,25 5 2,87 26 3,00 46 3,07 66 3,13 86 3,25 6

Exerciii propuse

7 2,88 27 3,01 47 3,07 67 3,14 87 3,25 8 2,90 28 3,01 48 3,07 68 3,14 88 3,25 9 2,91 29 3,01 49 3,08 69 3,14 89 3,27 10 2,93 30 3,02 50 3,08 70 3,15 90 3,28 11 2,93 31 3,02 51 3,08 71 3,15 91 3,29 12 2,93 32 3,02 52 3,09 72 3,15 92 3,29 13 2,94 33 3,03 53 3,09 73 3,16 93 3,31 14 2,94 34 3,03 54 3,09 74 3,17 94 3,31 15 2,95 35 3,04 55 3,09 75 3,17 95 3,33 16 2,95 36 3,04 56 3,10 76 3,17 96 3,34 17 2,96 37 3,04 57 3,10 77 3,19 97 3,36 18 2,96 38 3,04 58 3,10 78 3,19 98 3,37 19 2,96 39 3,04 59 3,11 79 3,21 99 3,39 20 2,97 40 3,05 60 3,11 80 3,21 100 3,41 Se cere: a). S se fac gruparea datelor pe clase de lungime 0,05, s se ntocmeasc histograma i s se desenze poligonul frecvenelor. b). S se determine valorile centrale ale claselor, media, valoarea modal, mediana, dispersia i abaterea medie ptratic. 2. Temperaturile medii nregistrate la Craiova n lunile mai ale anilor 1930-1979 sunt date n tabelul de mai jos: Anul 0 1 2 3 4 5 6 7 8 9 1930 8,1 4,0 -0,9 3,2 8,2 6,7 8,8 5,6 7,8 4,1 1940 3,5 6,3 +0,4 4,3 3,8 6,4 6,4 8,2 5,9 0,3 1950 5,5 6,9 -1,9 5,1 2,1 3,6 0,0 6,2 2,9 6,0 1960 4,6 8,0 2,3 2,9 3,2 3,7 6,1 6,6 5,5 -0,1 1970 5,2 3,6 5,5 3,0 4,9 7,7 3,1 7,2 5,8 6,3 a). S se fac gruparea n clase, de mrime 2oC cu convenia ca extremitatea dreapt a fiecrei clase s nu aparin clasei (ex. [-2,0;0), [0;2,0), [2,0;4,0), ); b). S se completeze tabela obinut la punctul a) cu frecvenele absolute, cu frecvenele relative i cu valoarea central a clasei; c). S se reprezinte histograma gruprii n clase; d) S se calculeze indicatorii distribuiei de frecvene a gruprii datelor n clase i s se interpreteze rezultatele. 3. Cantitile lunare de precipitaii czute la Craiova n lunile aprilie ale anilor 1930-1979 sunt date (n litri/m.p.) n tabelul urmtor 1930 1940 1950 1960 1970 0 55,5 92,0 24,8 39,4 64,4 1 19,6 36,5 40,0 49,4 42,5 2 17,8 33,7 40,8 75,6 16,4 3 7,8 26,9 23,5 33,7 42,6 4 89,0 42,3 52,2 62,6 74,0 5 32,7 35,4 94,3 57,9 43,8 6 22,6 16,3 31,6 65,8 47,1 7 45,3 22,8 65,3 49,5 50,2 8 57,1 37,6 51,4 8,7 31,6 9 28,1 3,9 19,3 31,9 42,7 a). S se fac gruparea n clase, de mrime 10 litri/mp. b). S se completeze tabela obinut la punctul a) cu frecvenele absolute, cu frecvenele relative i cu valoarea central a clasei; c). S se reprezinte histograma gruprii n clase i s se calculeze indicatorii statistici ai gruprii n clase i s se interpreteze rezultatele.

3. Studiul statistic al legturii dintre fenomene. Aplicaii.Elementele unei populaii pot avea diverse caracteristici, fiecare determinnd anumite variabile aleatoare X,Y,,acestea avnd fie un caracter determinist, fie un caracter ntmpltor (stochastic) iar ntre ele putnd exista anumite legturi. Legturile dintre caracteristicile unei populaii pot fi foarte strnse, exprimate prin funcii y=f(x), numite funcionale. Exist ns i legturi n care intervin numeroi factori sistematici i accidentali care fac ca dou sau mai multe nsuiri (caracteristici) s varieze n strns concordan (nu ns n sens funcional). ntre acestea sunt legturile dintre fenomenele si procesele economice care apar ca legturi statistice (stochastice), a cror particularitate este faptul c rezultatul este determinat ca urmare a influenei unui ansamblu de factori. Legturile statistice se manifest, ca tendin valabil numai la nivelul populaiei. Dependena de acest tip are caracter ntmpltor i se numete dependen stochastic sau corelaie. In cele ce urmeaz vom considera fenomene descrise cu ajutorul seriilor de date (exprimate prin numere reale) sistematizate cu ajutorul distribuiilor de frecvene (numite i variabile statistice). Exist dou aspecte ale studiului dependenei stochastice ntre fenomene: analiza de corelaie i analiza de regresie. Analiza de corelaie studiaz comportarea fiecrei variabile n funcie de valorile celorlalte variabile, precum i msura dependenei dintre variabilele considerate. Se analizeaz dac tendina ascendent a unei variabile implic o tendin ascendent sau descendent la cealalt, sau nici o tendin. Rezultatele se exprim prin coeficientul de corelaie sau prin raportul de corelaie. Analiza regresiilor const n determinarea funciei de regresie ntre dou variabile. In ipoteza existenei unei legturi ntre variabile se pot prognoza valorile uneia n raport cu valorile celeilalte folosind funcia de regresie. In paragrafele urmtoare va fi studiat legatura direct ntre serii de date (care genereaz variabilele statistice) care descriu anumite caracteristici ale unei populaii. Pentru simplificare le vom nota X : x1, x 2 , ..., x n , respectiv Y : y1 , y 2 , ..., y n . 3.1. Analiza corelaiilor Prin corelaie simpl se nelege legtura reciproc dintre dou variabile X i Y ale unei populaii. Corelaiile dintre variabile prezint mare importan, deoarece cunoscnd variaia unei nsuiri putem trage concluzii asupra nsuirii sau nsuirilor de care aceasta este legat, fr a recurge la determinri directe. Corelaia poate fi pozitiv, atunci cnd valorile celor dou variabile cresc sau descresc n acelai timp, sau negativ, atunci cnd valorile unei variabile cresc, iar cele ale celeilalte variabile descresc. Metodele cele mai simple de constatare a unei corelaii sunt metoda grafic sau graficul de corelaie (corelograma) i tabela de corelaie. 1.1. Metoda grafic (diagrama de mprtiere) Perechile de observaii (xi, yi), i { ,2,..., n}se reprezint n planul Oxy prin punctele Mi(xi, yi) , 1 i { ,2,..., n}. Se obine un nor de puncte , numit corelogram. Tendina norului de puncte permite 1 vizualizarea si stabilirea formei analitice a funciei de regresie. Corelograma arat dac ntre cele dou variabile exist o relaie i poate indica i forma legturii prin observarea unei densiti de puncte care se concentreaz n jurul unei anumite curbe, care poate fi liniar sau de alt form. Dac norul de puncte are forma unei elipse alungite exist o legtur puternic ntre variabilele X i Y . Dac norul e rspndit n interiorul unui cerc, ptrat variabilele sunt independente. Exemplul 1: Pentru seriile de dateX = {1.2, 0.8, 1, 1.3, 0.7, 0.8,1.0, 0.6, 0.9,1.1, 0.65, 0.75, 0.85, 0.95, 1.05,1.1, 1.25} Y = {10.1, 9.2, 11.0, 12.0, 9.0, 8.2, 9.35, 9.1, 10.5, 8, 8.5, 9, 8.5, 9.5, 9.5, 10,11}

norul de date este reprezentat in Figura 3.1.

Figura 3.4 Norul de puncte al seriilor de date din Exemplul 1 i dreapta de corelaie

Deoarece forma norului de puncte este apropiat de o elips se poate considera c seriile de date sunt puternic corelate. Exemplul 2 Pentru seriile de dateX = {1.2, 0.8, 1, 1.3, 0.7, 0.8,1.0, 0.6, 0.9,1.1, 0.65, 0.75, 0.85, 0.95, 1.05,1.1, 1.25} Y = {8.1, 10.2, 7.0, 10.0, 9.0, 7.2, 9.3, 8.5, 8.1, 9.5, 9.5, 8, 9.5, 7.5, 8.5, 10, 8}

norul de date este reprezentat in Figura 3.2.

Figura 3.5 Norul de puncte al seriilor de date din Exemplul 2

Faptul c norul de puncte e rspndit n interiorul unui dreptunghi poate fi interpretat ca lipsa unei corelaii ntre cele dou variabile. In cazul probelor cu volum mare de valori observate, pentru cercetarea legturii dintre variabile se folosete tabelul de corelaie care const n gruparea pe clase a datelor de observaie. In tabelul de corelaie termenul xi , j reprezint numrul de membrii ai populaiei pentru care variabila X are valoareaxi iar variabila Y are valoarea y j

Cu ct valorile individuale din tabelul de corelaie sunt mai strns concentrate n jurul diagonalei cu att corelaia este mai puternic. Cu ct corelaia este mai puternic, cu att valorile din tabelul de corelaie sunt mai strns concentrate n jurul unei diagonale. Exemplul 3: ([1], pag 284) n tabelul de mai jos sunt trecute datele privind diametrul tulpinii unei plante i procentul de fibre n funcie de diametru: y=coninut de fibre %) 26 24 22 20 18 16 14 Suma x 2 2 4 3 x= diametrul tulpinii(mm) 3 4 5 6 7 8 3 5 6 1 3 13 18 8 1 43 2 7 25 17 9 2 62 4 10 18 8 3 43 10 33 64 47 28 15 3 200

9

15

2 3 8 4 1 18

2 6 2 10

Se observ c ntre cele dou caracteristici exist corelaie pentru c valorile din tabel sunt concentrate n jurul diagonalei secundare. Corelaia este negativ deoarece valorilor mai mari ale variabilei X le corespund valori mai mici ale variabilei Y , adic tendina ascendent a lui X conduce la o tendin descendent a lui Y . Aceste observaii intuitive reprezint o informaie primar despre corelaie, descrierea ei corect fiind realizat cu ajutorul coeficientului de corelaie i al raportului de corelaie. Pentru seriile de date X : x1, x 2 , ..., x n i Y : y1 , y 2 , ..., y n considerm x =1 n

xi =1

n

i

i y =

1 n yi . n i =1

Coeficientul de corelaie (numit i coeficientul Pearson) se definete prinr=

(xn i =1 n i

i

x yi y

)(2

)

(xi =1

x yi y

) (

)

.

2

Pentru calcule directe se poate folosi formula

r=

i =1

n

n n xi yi i =1 i =1 xi y i n

2 n xi n xi 2 i =1 n i =1

2 n yi n i =1 2 yi n i =1

Urmtoarele observaii reprezint elemente de baz pentru interpretarea coeficientului de corelaie Coeficientul de corelaie r este o mrime adimensional a crui valoare absolut este subunitar, adic r < 1 . Dac seriile de date X i Y sunt independente atunci r = 0 . Dac coeficientul de corelaie este nul, seriile statistice nu sunt n mod necesar independente, dar dependena lor nu este liniar, ea putnd fi de alt natur. Dac r 1 corelaia este puternic i negativ (creterea valorilor lui X eate asociat cu descreterea valorilor lui Y ) Dac r +1 corelaia este puternic i pozitiv (creterea valorilor lui X eate asociat cu creterea valorilor lui Y )

Folosirea coeficientului de corelaie este recomandabil ndeosebi atunci cnd legtura dintre variabile nu se abate mult de la liniaritate, iar populaia studiat este de tipul distribuiilor normale bidimensionale, adic, n cazul cnd datele studiate aparin unei distribuii bidimensionale normale i relaia dintre variabile este liniar coeficientul de corelaie are un neles statistic bine definit. Dimpotriv, dac populaia pe care o reprezint datele nu este normal sau dac din graficul de corelaie este evident c relaia dintre variabile se abate mult de la liniaritate, coeficientul de corelaie r i pierde nelesul su statistic, iar examinarea semnificaiei sale statistice devine lipsit de sens. Coeficientul empiric de corelaie r rmne astfel numai o mrime de calcul i nu o valoare estimativ. Pragul de ncredere pentru interpretarea coeficientului de corelaie este definit prin PI = r n 1 . Se consider c legtura dintre variabile este sufficient de probabil dac PI 3 . Pentru prezentarea corelaiei ntre dou fenomene se procedeaz astfel - se realizeaz diagrama de mprtiere a norului de puncte i se observ n mod empiric dac datele sunt corelate.

-

Dac variabilele sunt corelate i corelaia e aproape liniar (norul de puncte se afl n interiorul unei elipse alungite) se calculeaz coeficientul de corelaie i pragul de ncredere i se interpreteaz rezultatele.

Exemplul 4 ([1], pag 288) n urma efecturii a 8 msurtori asupra dou caracteristici X i Y ale unei populaii, s-au gsit valorile date n tabelul de mai jos: Proba 1 2 3 4 5 6 7 8 26,9 26,3 23,6 24,8 29,1 19,6 17,9 19,5 X: xi 54,0 52,2 55,5 57,1 54,3 63,2 70,1 70,2 Y: yi S se determine coeficientul de corelaie al variabilelor X i Y. Norul de puncte corespunztor seriilor de date X i Y este reprezentat in Figura 3.3.

Figura 3.6 Norul de puncte di Exemplul 4 i dreapta de corelaie

Configuraia norului de puncte indic o corelaie liniar negativ. Pentru calculul coeficientului de corelaie aezm datele n tabelul de mai jos, pe primele dou coloane. Celelalte coloane se completeaz folosind datele problemei. xi (cm) 26,9 26,3 23,6 24,8 29,1 19,6 17,9 19,5 xi =187,7x =23,46

yi (%) 54,0 52,2 55,5 57,1 54,3 63,2 70,1 70,2 yi =476,6y =59,57

xi2

y i2

x i yi

723,61 691,69 556,96 615,04 846,81 384,16 320,41 380,25x 2 =564,86

2916,00 2724,84 3080,25 3260,41 2948,48 3994,24 4914,01 4928,04y 2 =3595,78

xi2 =4518,93 yi2 =28766,28

1452,60 1372,86 1309,80 1416,08 1580,13 1238,72 1254,79 1368,90 xi yi =10993,88x y =1374,23

Efectund calculele necesare obinem: x y =139751,22 , x 2 = 550,3716, y 2 =3548,5849;2 sx =

n 2 2 8 (x ) (x ) = 7 (564,86 550,37 ) = 16,56; n 1 n 2 8 2 sy = (y ) (y )2 = (3595,78 3548,58) = 53,94; n 1 7s xy =

8 n x y x y = (1374,23 1397,51) = -26,61; 7 n 1 s xy Rezult r = =- 0,89, ceea ce indic o corelaie negativ puternic s x sy

(

)

Pragul de incredere este PI = 0.89 * 7 = 2.3547 < 3 , deci coe ficientul de corelaie nu este relevant.

Exemplul 5 (Exemplul 3 continuat) n tabelul de mai jos sunt trecute datele privind diametrul tulpinii unei plante i procentul de fibre n funcie de diametru:y=coninut de fibre %) 26 24 22 20 18 16 14 Suma x

2 2 4 3

x= diametrul tulpinii(mm) 3 4 5 6 7 8

3 5 6 1

3 13 18 8 1 43

2 7 25 17 9 2 62

4 10 18 8 3 43

9

15

2 3 8 4 1 18

2 6 2 10

10 33 64 47 28 15 3 200

Cele dou variabile statistice pentru care se cere coeficientul de corelaie sunt2 3 4 5 6 7 8 26 24 22 20 18 16 14 X = 9 15 43 62 43 18 10 i Y = 10 33 64 47 28 15 3 xi = 2 9 + 3 15 + 4 43 + 5 62 + 6 43 + 7 18 + 8 10 =1009i

y = 26 10 + 24 33 + 22 64 + 20 47 + 18 28 + 16 15 + 14 3 =4186 x = 2 9 + 3 15 + 4 43 + 5 62 + 6 43 + 7 18 + 8 10 =5479 y = 26 10 + 24 33 + 22 64 + 20 47 + 18 28 + 16 15 + 14 3 =89044 x y = 2 26 2 + 3 26 3 + 4 26 3 + 5 26 2 + 2 24 4 + 3 24 5 + 4 24 13 + 5 24 7 + 6 24 42 2 2 2 2 2 2 2i

2

i

2

2

2

2

2

2

2

i

i

+ 2 22 3 + 3 22 6 + 4 22 18 + 5 22 25 + 6 22 10 + 7 22 2 + 3 20 1 + 4 20 8 + 5 20 17 + + 6 20 18 + 7 20 3 + 4 18 1 + 5 18 9 + 6 18 8 + 7 18 8 + 18 2 + 5 16 2 + 6 16 3 + + 7 16 4 + 8 16 6 + 7 14 1 + 8 14 2 = 20624 1009 4186 20624 200 Coeficientul de corelaie este r = = 0.6630 2 1009 4186 2 5479 89044 200 200

Coeficientul indic o corelaie negativ (confirmnd observaia intuitiv asupra norului de puncte) puternic (deoarece r > 0.5 ). Pragul de ncredere este PI = 0.6630 199 = 9,3527 > 3 , deci coeficientul de corelaie este un indicator relevant. 3.2. Analiza regresiilor In general punctele din norul de puncte asociat seriilor de date nu se gsesc toate pe graficul unei funcii y = f (x ) , ci sunt mai mult sau mai puin mprtiate. Folosind metoda celor mai mici ptrate se poate determina totusi o funcie fa de graficul creia suma abaterilor valorilor individuale s fie minime. Aceasta este funcia de regresie. Scopul construirii funciei de regresie este prognoza valorilor unei variabile folosind valorile celeilalte variabile.Regresia liniar

Vom considera cazul cnd punctele corespunztoare unei serii statistice sunt dispuse aproximativ dup o dreapt, adic variabilele sunt liniar correlate ( r 1 sau r 1 ). n acest caz legtura cea mai simpl este

cea liniar n care unei creteri a lui x (care este considerat variabila predictor) i corespunde o cretere sau o scdere proporional a lui y (care este considerat variabila rspuns). Aceast relaie se numete regresia liniar i este dat de ecuaia y = x + numit ecuaia dreptei de regresie. Coeficienii dreptei de regresie se calculeaz folosind relaiile n n xi yi i =1 i =1 xi y i n

=

(xn i =1

i

x yi yi

)(

) n

2

(xn i =1

x

)

2

=

i =1

i =1

n

n xi i =1 2 xi n

= y x = yi xi . n i =1i =1

1

n

n

Regresia liniar se poate folosi dac sunt ndeplinite urmtoarele ipoteze: - valorile variabilei dependente Y trebuie s aib o repartiie normal - Y i X trebuie s aib dispersia (sau abaterea standard) asemntoare - Legtura dintre variabile trebuie s fie liniar (verificare empiric, pe baza norului de puncte care trebuie s aib o form alungit) Din ecuaie de regresie se pot determina valorile lui Y dac se tiu valorile lui X . Estimatorul dispersiei lui Y n jurul dreptei de regresie este 2 n yi 1 n 2 i =1 s2 = yi n 2 i =1 n

i =1

n

n n xi yi i =1 i =1 xi y i n 2 n xi n i =1 2 xi n i =1

Exemplul 6 Producia de struguri obinut ntr-o ferm n mai muli ani i numrul de zile nsorite observate de-a lungul anilor sunt nregistrate n tabelul urmtor. Pe baza datelor din table s se precizeze dac cele dou serii de date sunt corelate. Producia de Numrul de zile nsorite struguri/haxi2 2

yi

xi

yi

xi yi

1.2 0.8 1 1.3 0.7 0.8 1.0 0.6 0.9 1.1

101 92 110 120 90 82 93 75 91 105

1.44 0.64 1.0 1.69 0.49 0.64 1.0 0.36 0.81 1.21

10201 8464 12100 14400 8100 6724 8649 5625 8281 11025

1.2120 0.7360 1.1000 1.5600 0.6300 0.6560 0.9300 0.4500 0.8190 1.1550

x

i

= 9.4

y

i

= 959

x

2

i

= 9.28

y

2

i

= 93569

x yi

i

= 924.80

Norul de puncte corespunztor seriilor de date este prezentat n figura 3.4.

Figura 3.7 Norul de puncte i dreapta de regresie a serieiilor de date din Exemplul 6

Coeficientul de corelaie este

9.4 959 23.34 10 r= = = 0.8754 . 2 2 0.444 1600.9 9.4 959 9.28 93569 10 10 924.80

Coeficienii dreptei de regresie sunt dai de924.80

9.4 959 10 = 118.39 i = 959 118.39 9.4 = 153.86 . = 9.4 959 924.80 10

Dreapta de regresie (desenat n figura 4) are ecuaiaY = 118.39 X 153.86 .

Indicatorul dispersiei lui Y n jurul dreptei de regresie estes 2 = 1548.3224 .

Interpretarea rezultatului: - coeficientul de corelaie este pozitiv, deci o tendin ascendent a variabilei x antreneaz o tendin ascendemt a variabilei y - coeficientul de corelaie este apropiat de 1, deci corelaia este puternic. - Pragul de ncredere este PI = r 10 1 = 2.6262 < 3 , deci numrul de date nu este sufficient de mare pentru a asigura faptul ca e semnificativ coeficientul de corelaie. Aceasta observaie este confirmat de faptul c este mare coeficientul de dispersie al lui Y n jurul dreptei de regresie. - Dreapta de regresie se va folosi cu precauie pentru prognoze, deoarece nu reprezint o estimare precis a dependenei dintre seriile de date. Exemplul 7 Cantitatea de nutre folosit i numrul de animale crescute n 14 ferme sunt prezentate n tabelul urmtor. Pr baza datelor din table s se precizeze dac exist corelaii ntre cele dou aspecte ale activitii fermei. Cantitatea de nutrexi

Numrul de animaleyi

xi

2

yi

2

xi yi

1 2 3 4 5 6 7 8

6.4 5.2 0.4 1.7 1.9 2.4 3.2 4.7

380 200 15 50 40 40 41 18

42.25 27.04 0.16 2.89 3.61 5.76 10.24 22.09

144400 40000 225 2500 1600 1600 1681 324

2470.0 1040.0 6.0 85.0 76.0 96.0 131.2 84.6

9 10 11 12 13 14

x

10.1 12.5 13.1 5.5 2.5 1.5i

= 71.2

y

210 190 200 55 38 20i

= 1497

x

102.01 156.25 171.61 30.25 6.25 2.252

i

= 582.66

y

44100 36100 40000 3025 1444 4002

i

= 317399

x yi

2121.0 2375.0 2620.0 302.5 95.0 30.0i

= 11532.3

In Figura 3.5 este prezentat norul de puncte asociat seriilor de date i dreapta de regresie.

Figura 3. 8 Norul de puncte i dreapta de regresie asocate seriilor de date din Exemplul 7

Coeficientul de corelaie este

71.2 1497 14 = 0.6653 r= 2 1497 2 71.2 585,66 317339 14 14 11532.3

Dreapta de regresie (desenat n figura 5) are ecuaiaY = 17.7685 X + 16.5626 .

Interpretarea rezultatelor - coeficientul de corelaie este pozitiv, deci o tendin ascendent a variabilei X antreneaz o tendin ascendemt a variabilei Y - coeficientul de corelaie nu este apropiat de 0, deci deci cele dou variabile ar putea fi corelate. - pragul de ncredere este PI = r 14 1 = 2.3984 < 3 , deci numrul de date nu este sufficient de mare pentru a asigura faptul ca e semnificativ coeficientul de corelaie. - Dreapta de regresie se va folosi cu precauie pentru prognoze, deoarece nu reprezint o estimare precis a dependenei dintre seriile de date. Exemplul 8 LE reprezint limita de elasticitate a tulpinei unei plante iar LR reprezint limita sa de ruptur. Stiind c raportul X =LE este strns legat de con este strns legat de coninutul n fibre al LR

tulpinii, notat Y , s se analizeze corelaia obinut ntre cei doi parametrii pe un eantion de 79 plante, date prezentate n tabelul de mai jos. Numerele ntregi din interiorul tabelului reprezint frecvena de apariie n cele 79 probe a perechilor ( X , Y ) corespunztoare. X\Y 0.5 0.6 0.7 0.8 0.9 Distribuie marginal pentru X 0.5 0 2 0 0 8 10 0.6 0 4 2 9 0 15 0.7 2 12 3 1 0 18 0.8 21 14 0 0 0 35 0.9 1 0 0 0 0 1 Distribuie 24 32 5 10 8 79 marginal pentru Y Variabilele statistice pentru care se studiaz corelaia sunt

0.5 0.6 0.7 0.8 0.9 0.5 0.6 0.7 0.8 0.9 X = 10 15 18 35 1 i Y = 24 32 5 10 8 , pentru care tabelul interdependenelor este

prezentat anterior. Pentru calculul coeficientului de corelaie sunt necesare urmtoarele rezultate:i i

x = 10 0.5 + 15 0.6 + 18 0.7 + 35 0.8 + 1 0.9 = 49.9 y = 24 0.5 + 32 0.6 + 5 0.7 + 10 0.8 + 8 0.9 = 55.5 y = 24 0.5 + 32 0.6 + 5 0.7 + 10 0.8 + 8 0.9 = 39.93 x y = 0.5 0.6 2 + 0.5 0.9 8 + 0.6 0.6 4 + 0.6 0.7 2 + 0.6 0.8 9 + 0.7 0.5 2 + 0.7 0.6 12 + 0.7 0.7 32

i

2

2

2

2

2

i

i

+ 0.7 0.8 1 + 0.8 0.5 21 + 0.8 0.6 14 + 0.9 0.5 1 = 34.1400

Coeficientul de corelaie este r = 0.8194 Interpretarea rezultatelor: - coeficientul de corelaie nu este apropiat de 0, deci variabilele sunt corelate. - coeficientul de corelaie este negativ, deci valorilor mari ale lui X le corespund multe valori mici ale lui Y (se confirm prinpoziionarea datelor n table) - pragul de ncredere este PI = 0.8194 77 = 7.1902 > 3 , desi indicatorul de corelaie este semnificativ i poate fi folosit n studiul corelaiei dintre variabilele X i Y - n acest caz dreapta de regresie d informaii semnificative asupra valorilor lui Y, dac se cunosc valorile lui X. Dreapta de corelaie are ecuaia Y = 0.6885 X + 17.9713 . Folosind aceast ecuaie de regresie putem determina (aproximativ) valorile lui Y. De exemplu, dac X = 0.75 rezult c Y = 0.6885 0.75 + 17.9713 = 17.4549 . Exerciii propuse 1. Pentru a stabili n ce msur depinde producia de tulpini de perioada de vegetaie a diferitelor soiuri de cnep de fibre, s-au realizat observaii asupra cinci soiuri de cnep foarte diferite ca perioad de vegetaie. Datele sunt prezentate n tabelul urmtor (pe orizontal este prezentat perioada de vegetaie n zile- i pe verical este prezentat producia de tulpini n q/ha) pentru cinci ani de producie. 55 zile 70 zile 85 zile 100 zile 115 zile 130 zile An 1 12 18 25 39 48 64 An 2 10 20 27 36 46 57 An 3 14 24 30 34 44 66 An 4 15 22 29 40 54 59 An 5 13 19 26 37 52 62 S se precizeze dac cele dou caracteristici ale produciei (perioada de vegetaie i producia obinut) sunt corelate. X = 90 zile Pe baza ecuaiei de regresie s se precizez valoarea aproximativ a produciei Y (per ha) dac perioada de vegetaie ar fi X = 90 zile. Pentru stabilirea aciunii azotului asupra coninutului de fibre din tulpinile plantelor de cnep au fost efectuate msurtori n patru ani consecutiv la patru ferme asupra plantelor produse. Rezultatele sunt prezentate n tabelul urmtor. Pe orizontal este prezent cantitatea de sulfat de amoniu folosit ca ngrmnt n cele sinci ferme (n kg/ha) iar pe vertical este prezentat coninutul de fibre din tulpini (n procente). Pe baza datelor prezentate n tabel s se precizeze dac ntre cantitatea de ngrmnt folosit i coninutul de fibre ale tulpinelor exist corelaie. Ferma1: 0 Ferma 2: 150 Ferma 3: 300 Ferma 4: 450 An 1 19.0 21.8 22.1 21.8 An 2 18.1 22.5 23.0 22.7 An3 18.9 20.6 22.6 22.4 An 4 19.8 22.0 23.1 20.8

4. Elemente de teoria probabilitailor aplicate n biologie i agricultur4.1. Elemente de analiz combinatoric Analiza combinatoric se ocup cu numrarea anumitor grupri ce se pot realiza cu elementele unei mulimi finite. Prin cardinalul unei mulimi finite A = {a1 , a 2 , ..., a n } se nelege numrul n al elementelor sale. Se noteaz card ( A) = n . O grupare care permut elementele mulimii A este format din toate elementele muimii. Dou permutri difer prin ordinea n care sunt scrise elementele. Din punct de vedere matematic, o permutare a mulimii A este o bijecie de la A la A . Numrul permutrilor lui A estePn = 1 2 3 .... n = n! . O submulime ordonat de k elemente ale lui A se numete aranjament de ordin k . Numrul de aranjamente de ordin k ale unei mulimi cu n elemente este n! k . An = n (n 1) ... (n k + 1) = (n k )! El reprezint numrul aplicaiilor injective ale mulimii { , 2, ..., k } n A . 1 Submulimile de cte k elemente ale lui A care nu sunt ordonate se numesc combinri de ordin k .notatie

Numrul acestor combinri estek Cn k An n! = = Pk k !(n k )! .

Principalele proprieti ale combinrilor sunt: 1.

Ck =0

n

k n

= 2n

k n 2. C n = C n k k k k 1 3. C n = C n 1 + C n 1 pentru orice 1 k n 1

(formula lui Pascal) (binomul lui Newton)

4.

(a + b )n = C nk a k b n kk =0

n

k Observaie Cn se mai numete i coeficient binomial, datorit formulei de dezvoltare a binomului lui Newton . Dac n1 , n 2 , ...n k sunt numere naturale i n1 + n 2 + ... + n k = n se defineste coeficientul multinomial prin

n C n 1 , n2 ,..., nk =

n! . n1 !n 2 !... n k !

n El are urmtoarea interpretare: Dac mulimea A conine n elemente, atunci exist Cn 1 ,n2 ,...,nk partiii ordonate diferite {A1 , A2 , ..., Ak } ale lui A astfel nct fiecare Ai s conin ni elemente, i = 1, 2, ..., k .n Cn 1 ,n2 ,..., nk se numete coefficient multinomial pentru c are loc relaia

(x1 + x 2 + ... + x k )n =

n1 +...nk = n

C

n1 , n2 ,..., nk n

x1 1 x 2

n

n2

... x k k .

n

In ncheiere amintim principiul (regula) produsului: Dac o operaiune O1 poate fi efectuat n n1 moduri diferite, operaiunea O2 poate fi executat n n 2 moduri diferite, etc., operaiunea Ok poate fi executat n n k moduri diferite, atunci cele k operaiuni pot fi executate una dup alta n n1 n 2 ... n k moduri diferite.

4.2. Introducere euristic n teoria probabilitilorIn cele ce urmeaz prezentm ntr-o form simpl noiuni de baz ale teoriei probabilitilor, pornind de la definiia euristic a probabilitii de realizare a unui eveniment. Datele cu care opereaz teoria probabilitilor sunt obinute prin observaii asupra evenimentelor necontrolate din natur, societate, fie ca rezultat al experimentelor controlate. Noiunile primare n teoria probabilitilor sunt cele de eveniment ntr-un experiment aleator i de probabilitate a evenimentului. Definim un experiment ca fiind procesul prin care efectum o observaie sau o msurtoare. Experienele care pot avea rezultate diferite n funcie de o serie de circumstane ntmpltoare i rezultatele nu pot fi cunoscute nainea realizrii experimentului se numesc experiene aleatoare. Rezultatul unui experiment aleator se numete realizare. Colecia tuturor realizrilor acoper orice posibilitate (adic este exhaustiv) i nici o realizare nu se suprapune peste alta (realizrile sunt exclusive). O colecie de realizri se numete eveniment, iar mulimea tuturor realizrilor formeaz evenimentul sigur. Evenimentul sigur se produce cu certitudine la orice efectuare a experimentului. Evenimentul care nu se produce ori de cte ori repetm experiena se numete eveniment imposibil. Evenimentul sigur va fi notat cu X, evenimentul imposibil cu , iar evenimentele particulare cuA, B, C ,...

Evenimentele compuse se obin folosind operaii cu evenimentele simple: - evenimentul A B se realizeaz dac se realizeaz A sau se realizeaz B . - evenimentul A B se realizeaz dac se realizeaz i A i B . - evenimentul A B se realizeaz dac se realizeaz A i nu se realizeaz B . Unui eveniment A n corespunde evenimentul contrar, notat C X ( A) , a crui producere nseamn nerealizarea lui A . Analogia ntre evenimentele compuse i teoria mulimilor este evident, un eveniment fiind asociat unei submulimi a lui X . Probabilitatea unui eveniment A , notat P( A) [0,1] reprezint ansa pe care o are evenimentul de a se produce. Dac experimentul aleator are un numr finit de realizri i acestea sunt egal probabile (adic nu exist un motiv ca o realizare s se produc mai frecvent dect alta) atunci se definete probabilitatea unui eveniment ca raportul dintre numarul cazurilor favorabile i numrul cazurilor posibile, adicP ( A) = numar cazuri favorabile lui A . numar cazuri posibile

Observaie:Dac experimental aleator are un numr finit de realizri ce nu sunt egal probabile, nu exist o modalitate teoretic ce permite calculul probabilitii cu acuratee absolut. Exemplu: Experimentul aleator clasic este aruncarea unui zar cubic, realizat din material omogen . Realizrile posibile ale experimentului sunt apariia feei cu numrul 1, 2, 3, 4, 5, 6. Evenimentele de apariie al fei cu nr k se numesc evenimente elementare. Evenimentul sigur este apariia unei fee i este asociat mulimii X = {1,2,3,4,5,6} . Alte evenimente sunt reprezentate simbolic prin mulimi. Spre exemplu apariia unei fee pare este reprezentat de mulimea A = {2,4,6} .

Probabilitatea de realizarea a lui A este P( A) = . Dac zarul nu e cubic sau nu este bine centrat, atunci probabilitatea de apariie a unei fee nu este 1/6. In unele situaii realizarea unui eveniment este condiionat de realizarea prealabil a altui eveniment. Ideea care conduce la definiia probabilitii condiionate este urmtoarea: tim c evenimentul B s-a produs, deci cazurile posibile pentru A B sunt cazurile favorabile pentru B , adicnr cazuri favorabile si pentru A si pentru B = PB ( A) = nr cazuri favorabile pentru B nr cazuri favorabile si pentru A si pentru B nr cazuri posibile nr cazuri favorabile pentru B nr cazuri posibile

3 6

P( A B ) P (B ) Dou evenimente se numesc independente dac P( A B ) = P( A) P(B ) . PB ( A) =

Probabilitatea unui eveniment A , condiionat de evenimentul B , cu P(B ) 0 , se definete prin

Dac dou evenimente sunt independente atunci realizarea unuia nu influeneaz realizarea celuilalt eveniment, adic PB ( A) = P( A) Pornind de la definiia probabilitii, se pot demonstra urmtoarele proprieti: Propoziia 1. 1. 0 P( A) 1 , P( X ) = 1 i P( ) = 0 2. P(C X ( A)) = 1 P( A) 3. Dac A B atunci P( A) P(B ) 4. Dac A i B sunt dou evenimente i A B = , atunci P( A B ) = P( A) + P(B ) 5. Dac A i B sunt dou evenimente, atunci P( A B ) = P( A) + P(B ) P( A B ) 6. Dac A1 A2 ... An = X i Ai A j = pentru i j atunci

P (B ) =

P ( A ) P (B )i i =1 Ai

n

(formula probabilitii totale) (formula lui Bayes)

PB ( Ak ) =

P( Ak ) PAk (B )

i =1

n

P ( Ai ) PAi (B )

4.3 Aplicaii n biologie 4.3.1 Intr-un organism exist genotipurile AA, Aa, aa. Prinii transmit ctre urmai fiecare cte o singur gen. Se presupune c populaia parental este suficient de mare nct ncruciarea s se fac la ntmplare i c proporiile genotipurilor sunt respectiv , 2 , respectiv , cu > 0 , > 0 , > 0 i + 2 + = 1 . De asemenea se presupune c probabilitatea ca un printe s transmit o gen este 1/2. S se precizeze proporiile genotipurilor dup prima generaie i dup a doua generaie. S se interpreteze rezultatele. In prima generaie pot s apar tipurile AA, Aa, aa. Pentru fiecare tip tabelul de calcul al probabilitilor este prezentat mai jos. a) pentru tipul AA Pentru transmiterea genotipului AA este obligatoriu ca cel puin o gen A s apar n genotipul fiecrui printe.

Tipul Tipul Probabilitatea Probabilitatea Probabilitatea existenei mascul femel formrii cuplului transmiterii genotipului AA la urmai genotipuluiAA AA AA 11 = 1 2 2 2 1 1 AA Aa1

aA aa

AA Aa

22 2

= 2 2 1 1 1 = 2 2 1 1 1 = 2 2 4

2

2

Deci probabilitatea existenei unor urmai de tipul AA la prima generaie este 2 P1 ( AA) = 2 + + + 2 = ( + ) (1) b) Raionnd la fel se obine probabilitatea existenei unor urmai de tip aa la prima generaie este 2 P1 (aa ) = ( + ) (2) c) pentru tipul generic Aa (sau aA) tabelul probabilitilor este Tipul Tipul Probabilitatea Probabilitatea Probabilitatea existenei genotipului Aa la urmai mascul femel formrii cuplului transmiterii genotipului Aa 2 1 1 AA Aa Aa AA aa Aa aa Aa AA aa AA aa Aa Aa2 2 1 1 1 = 2 2 11 = 1 11 = 1 1 1 1 = 2 2 1 1 1 = 2 2 1 1 1 2 = 2 2 2 1 2 =

2 22 2

2 2

Probabilitatea existenei unor urmai de tip Aa la prima generaie este P1 ( Aa ) = 2 + 2 + 2 + 2 2 = 2 ( + ) ( + )

(3)

Faptul c rezultatele sunt corecte este reflectat si de relaia 2 2 P1 ( AA) + P1 ( Aa ) + P1 (aa ) = ( + ) + 2( + ) ( + ) + ( + 2 ) = ( + 2 + ) = 1 La a doua generaie probabilitile vor fi:

P2 ( AA) = ( + ) + ( + )( + ) = ( + ) ( + 2 + ) = ( + ) = P ( AA) 12 2 2 2 2

P2 (aa ) = ( + ) + ( + )( + ) = ( + ) ( + 2 + ) = ( + ) = P1 (aa ) P2 ( Aa ) = 2( + ) ( + ) = P1 ( Aa )2 2 2 2 2

[

[

]

]

Prin urmare, de la prima generaie ncolo probabilitile de meninere a genotipurilor sunt aceleai. Se spune c procesul evolutiv este stochastic stabil.

Bibliografie 1. 2. 3. 4. Blan V., Matematici Superioare Aplicate, Editura Universitaria, Craiova, 2007 Petrior E., Probabiliti i statistic, Editura Politehnica, Timioara 2005 Cristea M., Genetica ecologic i evoluia, Editura Ceres, Bucureti, 1991 tefnescu D.T.,Clin G., Genetica i cancerul : (Elemente de genetic i patologie molecular), Editura Didactic i Pedagogic Bucureti, 1996 5. Raicu P. (coordonator), Biologie : Genetic i evoluionism : Manual pentru clasa a XII-a, Editura Didactic i Pedagogic Bucureti, 1998 6. Biji E. M. (coordonator), Statistica managerial a agentului economic din agricultur, Editura Ceres, Bucureti, 1998 7. Howitt D. Cramer D. Introducere n SPSS, Editura Polirom, 2006