28
Iulian Stoleriu Statistic ˘ a Aplicat ˘ a

Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

[Iulian Stoleriu]

Statistica Aplicata

Page 2: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

Statistica Aplicata (C1)

1 Elemente introductive în Statistic

Populaµie statistic

O populaµie (colectivitate) statistic este o mulµime de elemente ce posed o trasatur comun ce urmeaz a studiat . Aceasta poate nit sau innit , real sau imaginar . In acest material vom nota populatiastatistica cu Ω. Din punct de vedere matematic, Ω este o multime nevida. Elementele ce constituie ocolectivitate statistic se vor numi unit µi statistice sau indivizi. Vom nota cu ω o unitate statistic . Dac populaµia este nit , atunci num rul N al unit µilor statistice ce o compun (i.e., |Ω|) îl vom numi volumulcolectivit µii (sau volumul populaµiei).

Caracteristica (variabila) unei populaµii statistice este o anumit proprietate urm rit la indivizii ei înprocesul prelucr rii statistice ³i care constituie obiectul m sur rii. Spre exemplu, inaltimea barbatilordintr-o anumita tara, rata inltrarii apei in solul urban, media la Bacalaureat, altitudinea, culoareafrunzelor, nationalitatea participantilor la un congres international etc. Din punct de vedere matematic,caracteristica este reprezentata printr-o variabila aleatoare denita pe Ω. Spre exemplu, daca populatiastatistica este mulµimea tuturor studenµilor dintr-o universitate înrolaµi în anul întâi de master, atuncio caracteristica a sa ar media la licenµ obµinut de ecare dintre ace³ti studenµi. Teoretic, mulµimeavalorilor acestei caracteristici este intervalul [6, 10], iar aceasta variabila poate lua orice valoare din acestinterval. Caracteristicile pot : cantitative (sau m surabile sau numerice) (e.g., 2, 3, 5.75, 1/3, . . . ) saucalitative (categoriale sau atribute) (e.g., albastru, foarte bine, german etc). La rândul lor, variabilelecantitative pot discrete (num rul de sosiri ale unui tramvai în staµie) sau continue (timpul de a³teptareîntre dou sosiri ale tramvaiului în staµie). Caracteristicile pot depinde de unul sau mai multi parametri,parametrii ind astfel caracteristici numerice ale colectivit µii.

Vom numi date (sau date statistice) informaµiile obµinute în urma observaµiei valorilor unei caracteristicia unei populatii statistice. In cazul mentionat mai sus, datele sunt mediile la licenµ observate. Îngeneral, datele pot calitative (se mai numesc ³i categoriale) sau cantitative, dup cum caracteristica (sauvariabila) observat este calitativ (exprima o calitate sau o categorie) sau, respectiv, cantitativ (are ovaloare numerica). Totodata, aceste date pot date de tip discret, dac sunt obµinute în urma observ riiunei caracteristici discrete (o variabila aleatoare discret , sau o variabila ale carei posibile valori suntin numar nit sau cel mult numarabil), sau date continue, dac aceast caracteristic este continu (ovariabil aleatoare de tip continuu, sau o variabila ce poate lua orice valoare dintr-un interval sau chiarde pe axa reala). În cazul din exemplul de mai sus, datele vor cantitative ³i continue. Datele calitativemai pot nominale sau ordinale. Variabilele nominale au nivele distincte, fara a avea o anumita ordine.De exemplu, culoarea parului, sau genul unei persoane. Pe de alta parte, valorile ordinale fac referintala ordinea lor. De exemplu: schimbarea starii unui pacient dupa un anumit tratamen (aceasta poate: imbunatatire semnicativa, imbunatatire moderata, nicio schimbare, inrautatire moderata, inrautatiresemnicativa).

În Statistic , se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X, Y, X, . . ., si valorilelor cu litere mici, x, y, x, . . ..

In general, volumul colectivitatii poate foarte mare sau chiar innit, astfel ca efectuarea unui recensamant(i.e., observarea caracteristicii de interes pentru toate elementele ce compun colectivitatea) este e foartecostisitoare sau imposibila. Pentru a efectua o analiza a caracteristicii de interes sau chiar a repartitieidatelor observate, este sucienta analiza unei selectii de volum sucient de mare formata din observatii ale

Page 3: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

SA 1 [Dr. Iulian Stoleriu] 2

caracteristicii, urmand ca aceasta analiza sa e extrapolata (folosind metode statistice specice) pentruintreaga populatie.

O selecµie (sau e³antion) este o colectivitate parµial de elemente extrase (la întâmplare sau nu) din colec-tivitatea general , în scopul cercet rii lor din punctul de vedere al unei caracteristici. Dac extragerea seface la întâmplare, atunci spunem c am facut o selecµie întâmpl toare. Num rul indivizilor din selecµiaaleas se va numi volumul selecµiei. Dac se face o enumerare sau o listare a ec rui element component alunei a populaµii statistice, atunci spunem c am facut un recens mânt. Selecµia ar trebui s e reprezen-tativ pentru populaµia din care face parte. Numim o selecµie repetat (sau cu repetiµie) o selecµie în urmac reia individul ales a fost reintrodus din nou în colectivitate. Altfel, avem o selecµie nerepetat . Selecµianerepetat nu prezint interes dac volumul colectivit µii este nit, deoarece în acest caz probabilitateaca un alt individ s e ales într-o extragere nu este aceea³i pentru toµi indivizii colectivit µii. Pe de alt parte, dac volumul întregii populaµii statistice este mult mai mare decât cel al e³antionului extras, atunciputem presupune c selecµia efectuat este repetat , chiar dac în mod practic ea este nerepetat .

Selecµiile aleatoare se pot realiza prin diverse metode, în funcµie de urm torii factori: disponibilitateainformaµiilor necesare, costul operaµiunii, nivelul de precizie al informaµiilor etc. Câteva metode de selec-µie: selecµie simpl , selecµie sistematic , selecµie straticat , selecµie ciorchine, selecµia de tip experienµ ,selecµie de convenienµ , selecµie de cot etc.

Parametrii sunt masuri descriptive numerice ce reprezinta populatia. Deoarece nu avem acces la intreagapopulatie, parametrii sunt niste constante necunoscute, ce urmeaza a explicate sau estimate pe bazadatelor. Spre exemplu, pentru variabilele cantitative ale populatiei, putem avea: parametri care sa descrietendinta centrala a populatiei (e.g., media, mediana, momente), parametri care sa descrie dispersia datelor(e.g., dispersia, deviatia standard, coecient de variatie), parametri de pozitie (e.g., cuantile), parametri cedescriu forma (e.g., skewness, kurtosis). Pentru date bidimensionale, datele pot descrise de parametrii cedescriu legatura intre variabile: corelatia sau coecientul de corelatie. Pentru date calitative (categoriale),cei mai des utilizati parametri sunt: π− proportia din populatie ce are caracteristica de interes (e.g.,numarul de fumatori din tara), cote (sanse teoretica pentru observarea caracteristicii de interes la intreagapopulatie) (e.g., exista 70% sanse sa ploua maine).

Pe baza unei selectii, putem construi diversi indicatori statistici care sa estimeze parametrii necunoscuti,obtinand descrieri numerice pentru populatie. Astfel de indicatori se numesc statistici. Prin intermediulstatisticilor putem trage concluzii despre populaµia Ω, din care a provenit e³antionul observat. Teoriaprobabilit µilor ne ofer procedee de determinare a repartiµiei asimptotice a unei statistici, sau chiar, inanumite cazuri, a statisticii exacte. Repartiµia exact este acea repartiµie ce poate determinat pentruorice volum al selecµiei. În general, dac se lucreaz cu selecµii de volum redus (n < 30), atunci repartiµiaexact ar trebui s e cunoscut a priori, dac se dore³te luarea de decizii prin inferenµ . Repartiµiaasimptotic este repartiµia limit a statisticii când n → ∞, iar utilizarea acesteia conduce la rezultatebune doar pentru n ≥ 30.

In concluzie, plecand de la o multime de date, Statistica isi propune sa extraga informatii din acestea.Mai concret, detine metodele necesare de a realiza urmatoarele cerinte: sa descrie cat mai del si sugestivacele date (prin grace sau indicatori statistici), sa estimeze anumiti parametri de interes (e.g., mediateoretica, deviatia standard, asimetria ale caracteristicii), sa verice prin inferenta ipotezele ce se pot facereferitoare la anumiti parametri ai caracteristicii sau chiar la forma acesteia.

Page 4: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

SA 1 [Dr. Iulian Stoleriu] 3

Variabile aleatoare

În general, rezultatul posibil al unui experiment aleator poate asociat unei valori reale, precizândregula de asociere. O astfel de regul de asociere se nume³te variabil aleatoare (prescurtat, v.a.). Senume³te variabil deoarece poate lua valori diferite, se nume³te aleatoare deoarece valorile observatedepind de rezultatele experimentului aleator, ³i este "real " deoarece valoarea numeric este un num rreal. A³adar, din punct de vedere euristic, o variabil aleatoare este o cantitate ce poate avea oricevaloare dintr-o multime data, ecarei valori atribuindu-se o anumita pondere (frecventa relativa). Înviaµ de zi cu zi întâlnim numeroase astfel de funcµii, e.g., numerele ce apar la extragerea loto, rezultatulmasurarii fertilitatii solului in diverse locatii, num rul clienµilor deserviµi la un anumit ghi³eu într-oanumit perioad , timpul de a³teptare a unei persoane într-o staµie de autobuz pân la sosirea acestuia,calicativele obµinute de elevii de clasa a IV-a la un test de matematic etc.De regula, variabilele aleatoare sunt notate cu litere de la sfâr³itul alfabetului, X, Y, Z sau ξ, η, ζ etc.

Exemplu 1.1. Un exemplu simplu de variabila aleatoare este urm torul. Consider m experimentulaleator al arunc rii unei monede. Acest experiment poate avea doar dou rezultate posibile, notate S(stema) ³i B (banul). A³adar, spaµiul selecµiilor este Ω = S, B. Acestui experiment aleator îi putemata³a variabila aleatoare real X, care asociaz feµei S valoarea 1 ³i feµei B valoarea 0. Matematic, scriemastfel: X : Ω → R, X(S) = 1, X(B) = 0. Astfel, valorile 1 ³i 0 pentru X vor indica faµa ap rut laaruncarea monedei. O astfel de variabil aleatoare se nume³te variabil aleatoare Bernoulli ³i poate ata³at oric rui eveniment aleator ce are doar dou rezultate posibile, numite generic succes ³i e³ec.

Variabilele aleatoare (prescurtat v.a.) pot discrete sau continue. Variabilele aleatoare discrete sunt celecare pot lua o mulµime nit sau cel mult num rabil (adica, o multime care poate numarata) de valori.O variabil aleatoare se nume³te variabil aleatoare continu (sau de tip continuu) dac mulµimea tuturorvalorilor sale este totalitatea numerelor dintr-un interval real (posibil innit) sau toate numerele dintr-oreuniune disjunct de astfel de intervale, cu precizarea c pentru orice posibil valoare c, P (X = c) = 0.

Exemple de v.a. discrete: num rul feµei ap rute la aruncarea unui zar, num rul de apariµii ale unuitramvai într-o staµie într-un anumit interval, num rul de insuccese ap rute pân la primul succes etc. Dinclasa v.a. de tip continuu amintim: timpul de a³teptare la un ghi³eu pân la servire, preµul unui activnanciar într-o perioad bine determinat .

Pentru a specica o v.a. discret , va trebui s enumer m toate valorile posibile pe care aceasta le poatelua, împreun cu probabilit µile corespunzatoare. Suma tuturor acestor probabilit µi va întotdeaunaegal cu 1, care este probabilitatea realizarii evenimentului sigur. Când se face referire la repartiµia uneiv.a. discrete, se înµelege modul în care probabilitatea total 1 este distribuit între toate posibilele valoriale variabilei aleatoare. Pentru o scriere compact , adeseori unei v.a. discrete i se atribuie urm toareareprezentare schematica:

tabelul de repartiµie

X x1 x2 x3 . . . xnpk p1 p2 p3 . . . xn

(1.1)

unde pk este probabilitatea cu care variabila X ia valoarea xk (matematic, scriem pk = P (X = xk)) ³i

suma tuturor probabilit µilor corespunz toare variabilei discrete este egal cu 1 (scriem can∑i=1

pi = 1).

Page 5: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

SA 1 [Dr. Iulian Stoleriu] 4

Exemplu 1.2.

Presupunem c X este v.a. ce reprezint nu-m rul de puncte ce apare la aruncarea unuizar ideal. Aceast variabila o putem reprezentaschematic ca in tabelul alaturat.

tabelul de repartiµie

X 1 2 3 4 5 6

pk 1/6 1/6 1/6 1/6 1/6 1/6

Dac X este o v.a. discret de forma (1.1), atunci denim funcµia de probabilitate (de frecvenµ ) (en.,probability mass function) ata³at variabilei aleatoare discrete X ca ind o funcµie ce ataseaza ecareirealizari ale unei variabile probabilitatea cu care aceasta realizare este observata. Matematic, scriem ca

f(xi) = pi, i ∈ 1, 2, . . . , n.

În cuvinte, pentru ecare posibil valoare a unei v.a. discrete, funcµia de probabilitate ata³eaz probabili-tatea cu care X ia aceast valoare. Funcµia de probabilitate este pentru o v.a. discreta ceea ce o densitatede repartiµie este pentru o variabil aleatoare continu .

Dupa cum am mentionat anterior, o variabila aleatoare continua poate lua orice valoare intr-un intervala chiar din R. Deoarece in aceste multimi exista o innitate de valori, nu mai putem deni o variabilaaleatoare continua la fel ca in cazul discret, precizandu-i ecare valoare pe care o ia si ponderea cores-punzatoare. In schimb, pentru o variabila aleatoare continua, putem preciza multimea in care aceasta iavalori si o functie care sa descrie repartizarea acestor valori. O astfel de functie se numeste functie dedensitate a repartitiei, sau simplu, densitate de repartiµie (en., probability density function).

Exemplu 1.3. Vom spune c o variabila aleatoare X are o repartitie (sau distributie) normala de medieµ ³i deviatie standard σ (notam aceasta prin X ∼ N (µ, σ)) dac X poate lua orice valoare reala si aredensitatea de repartitie data de:

f(x; µ, σ) =1

σ√

2πe−

(x−µ)2

2σ2 , pentro orice x ∈ R.

Aceasta repartitie se mai nume³te ³i repartiµia gaussian sau distribuµia gaussian .

Funcµia de probabilitate sau densitatea de repartiµie poate depinde de unul sau mai mulµi parametri reali.Spre exemplu, repartitia normala are doi parametri, µ si σ.

Funcµia de repartiµie (sau funcµia de repartiµie cumulat )

Numim funcµie de repartiµie ata³at v.a reale X o funcµie F : R→ [0, 1], denit prin

F (x) = P (X ≤ x), pentru orice x ∈ R.

Termenul din englez pentru funcµia de repartiµie este cumulative distribution function (cdf). Functia derepartitie asociaza ecarei valori reale x probabilitatea cu care variabila X ia valori mai mici sau egale cux. Ea este o functie crescatoare, care ia valori intre 0 si 1.

În cazul unei variabile aleatoare discrete, cu tabelul de repartiµie dat de (1.1), funcµia de repartiµie este:

F (x) =∑

i;xi≤x

pi, (1.2)

adic suma tuturor probabilit µilor corespunz toare valorilor lui X care nu-l dep ³esc pe x.

Page 6: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

SA 1 [Dr. Iulian Stoleriu] 5

Dac X este o variabil aleatoare continu ³i f este densitatea sa de repartiµie, atunci funcµia de repartiµieeste dat de formula:

F (x) =

x∫−∞

f(t) dt, x ∈ R. (1.3)

Mai mult, F ′(x) = f(x), pentru orice x ∈ R.

Parametrii populaµiei

O colectivitate statistica poate descrisa folosind una sau mai multe variabile. Pentru ecare dintreaceste variabile se pot determina anumite cantitati sau calitati specice, numite parametri. Astfel, acestiparametri sunt niste trasaturi caracteristice colectivitatii, ce pot determinate sau estimate pe baza unormasuratori (observatii) ale variabilelor. In continuare vom prezenta cativa parametri numerici importantipentru o variabila aleatoare, folositi in analiza statistica. Vom denumi acesti parametri caracteristicinumerice ale unei variabile aleatoare.

Media (sau valoarea a³teptat ) (en., expected value; fr., espérance; ger., Erwartungswert)

Pentru o variabila, media este o masura a tendintei centrale a valorilor sale. De remarcat faptul ca existavariabile (atat discrete cat si continue) care nu admit o valoare medie.

Dac X este o v.a. discret având tabelul de repartiµie (1.1), atunci media acestei v.a. (dac exist !)se dene³te prin:

µ =

n∑i=1

xipi. (1.4)

Daca U(x) este o functie, atunci media pentru variabila aleatoare U(X) se deneste prin

E(U(X)) =n∑i=1

U(xi)pi.

Dac X este o v.a. de tip continuu, cu densitatea de repartiµie f(x), atunci media (teoretic ) acesteiv.a., dac exist (!), se dene³te astfel:

µ =

∫ ∞−∞

xf(x)dz. (1.5)

Daca U(x) este o functie, atunci media pentru variabila aleatoare U(X) (dac exist !) se denesteprin

E(U(X)) =

∫ ∞−∞

U(x)f(x)dz.

Notaµii: În cazul în care poate pericol de confuzie (spre exemplu, atunci când lucr m cu mai multevariabile în acela³i timp), vom folosi notaµia µX . Pentru media teoretic a unei variabile aleatoare se maifolosesc ³i notaµiile: m, M(X) sau E(X).

Dispersia (sau varianµa) (en., variance) ³i abaterea standard (en., standard deviation)

Consideram X o variabil aleatoare care admite medie nita µ. Dorim sa stim in ce masura valorile acestevariabile sunt imprastiate in jurul valorii medii. Variabila aleatoare X0 = X − µ (numit abaterea lui X

Page 7: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

SA 1 [Dr. Iulian Stoleriu] 6

de la media sa), atunci E(X0) = 0. A³adar, nu putem m sur gradul de împr ³tiere a valorilor lui X înjurul mediei sale doar calculând X − µ. Avem nevoie de o alt m sur . Aceasta este dispersia variabileialeatoare, notat prin σ2 sau V ar(X). În cazul în care poate pericol de confuzie (spre exemplu, atuncicând lucr m cu mai multe variabile în acela³i timp), vom folosi notaµia σ2X .

σ2 =n∑i=1

(xi − µ)2pi

(in cazul unei v.a. discrete).

σ2 =

∫ ∞−∞

(x− µ)2f(x) dz

(in cazul unei v.a. continue).

Alte formule pentru dispersie:

σ2 = E[X2]− µ2 =

n∑i=1

x2i pi − µ2 , în cazul discret∫ ∞−∞

x2f(x) dz − µ2 , în cazul continuu

Numim abatere standard (sau deviaµie standard) cantitatea σ =√σ2. Are avantajul ca unitatea sa de

masura este aceeasi cu a variabilei X.

În conformitate cu teorema lui Cebâ³ev1, pentru orice variabila aleatoare X ce admite medie si oricea > 0, are loc inegalitatea:

P (|X − µ| ≥ kσ) ≤ 1

k2. (1.6)

În cuvinte, probabilitatea ca valorile variabilei X sa devieze de la medie cu mai mult de k deviatii standardeste mai mica decat 1

k2. În cazul particular k = 3, obµinem regula celor 3σ:

P (|X − µ| ≥ 3σ) ≤ 1

9≈ 0.1.

sauP (µ− 3σ < X < µ+ 3σ) ≥ 8

9, (1.7)

semnicând c o mare parte din valorile posibile pentru X se a în intervalul [µ− 3σ, µ+ 3σ].

Coecientul de variaµie

Este denit prin CV =σ

µsau, sub forma de procente, CV = 100

σ

µ%. Este util in compararea variatiilor

a doua sau mai multe seturi de date ce tin de aceeasi variabila. Daca variatiile sunt egale, atunci vomspune ca setul de observatii ce are media mai mica este mai variabil decat cel cu media mai mare.

Standardizarea unei variabile aleatoare

Pentru o variabila aleatoare X de medie µ ³i dispersie σ2, variabila aleatoare Y =X − µσ

se nume³te

variabila aleatoare standardizat (sau normat ). Astfel, prin standardizarea unei variabile, vom obtineurmatoarele proprietati ale sale: E(Y ) = 0, V ar(Y ) = 1.Daca X este o variabila normala (scriem asta prin X ∼ N (µ, σ)), atunci standardizarea sa este o variabilanormala standard, adica X−µ

σ ∼ N (0, 1).

1Pafnuty Lvovich Chebyshev (1821− 1894), matematician rus

Page 8: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

SA 1 [Dr. Iulian Stoleriu] 7

Momente centrate

Pentru o v.a. X (discret sau continu ), ce admite medie, momentele centrate sunt valorile a³teptate aleputerilor lui X − µ. Denim astfel µk(X) = E((X − µ)k). In particular,

µk(X) =

n∑i=1

(xi − µ)kpi;

(in cazul unei v.a. discrete).

µk(X) =

∫ ∞−∞

(x− µ)kf(x) dx;

(in cazul unei v.a. continue).

Momente speciale:

µ2(X) = σ2. Se observa ca al doilea moment centrat este chiar dispersia.

γ1 =µ3(X)

σ3este coecientul de asimetrie (en., skewness);

Coecientul γ1 este al treilea moment centrat standardizat. O repartiµie este simetric dac γ1 = 0.Vom spune c asimetria este pozitiv (sau la dreapta) dac γ1 > 0 ³i negativ (sau la stânga) dac γ1 < 0.

K =µ4(X)

σ4− 3 este excesul (coecientul de aplatizare sau boltire) (en., kurtosis).

Este o m sur a boltirii distribuµiei (al patrulea moment standardizat). Termenul (−3) apare pentruc indicele kurtosis al distribuµiei normale s e egal cu 0. Vom avea o repartiµie mezocurtic pentruK = 0, leptocurtic pentru K > 0 sau platocurtic pentru K < 0. Un indice K > 0 semnic faptulc , în vecin tatea modului, curba densit µii de repartiµie are o boltire (ascuµire) mai mare decâtclopotul lui Gauss. Pentru K < 0, în acea vecin tate curba densit µii de repartiµie este mai plat decât curba lui Gauss.

Cuantile

Fie o v.a. X ce are funcµia de repartiµie F (x). Pentru un α ∈ (0, 1), denim cuantila de ordin α aceavaloare reala xα ∈ R pentru care

F (xα) = P (X ≤ xα) = α. (1.8)

(1) Cuantilele sunt m suri de poziµie, ce m soar locaµia uneianumite observaµii faµ de restul datelor. A³a cum se poateobserva din Figura 1.1, valoarea xα este acel num r real pentrucare aria ha³urat este chiar α.(2) În cazul în care X este o variabil aleatoare discret ,atunci (1.8) nu are soluµie pentru orice α. Îns , dac exist o soluµie a acestei ecuaµiei F (x) = α, atunci exist o innitatede soluµii, ³i anume intervalul ce separ dou valori posibile.

Figura 1.1: Cuantila de ordin α.

(3) Cazuri particulare de cuantile:

Page 9: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

SA 1 [Dr. Iulian Stoleriu] 8

pentru α = 1/2, obtinem mediana. Astfel, F (Me) = 0.5. Mediana (notata Me) este valoarea careimparte repartitia in doua parti in care variabila X ia valori cu probabilitati egale. Scriem astaastfel:

P (X ≤Me) = P (X > Me) = 0.5.

Pentru o variabila care nu este simetrica, mediana este un indicator mai bun decat media pentrutendinta centrala a valorilor variabilei.

pentru α = i/4, i ∈ 1, 2, 3, obtinem cuartilele. Prima cuartila, Q1, este acea valoare pentru careprobabilitatea ca X sa ia o valoare la stanga ei este 0.25. Scriem asta astfel: P (X ≤ Q1) = 0.25.Cuartila a doua este chiar mediana, deci Q2 = Me. Cuartila a treia, Q3, este acea valoare pentrucare probabilitatea ca X sa ia o valoare la stanga ei este 0.75. Scriem asta astfel: P (X ≤ Q3) = 0.75.

pentru α = j/10, j ∈ 1, 2, . . . , 9, obtinem decilele. Prima decila este acea valoare pentru careprobabilitatea ca X sa ia o valoare la stanga ei este 0.1. S.a.m.d.

pentru α = j/100, j ∈ 1, 2, . . . , 99, obtinem centilele. Prima centila este acea valoare pentrucare probabilitatea ca X sa ia o valoare la stanga ei este 0.01. S.a.m.d.

(4) Dac X ∼ N (0, 1), atunci cuantilele de ordin α le vom nota prin zα.

Modul (valoarea cea mai probabil )

Este valoarea cea mai probabila pe care o lua variabila aleatoare X. Cu alte cuvinte, este acea valoare x∗

pentru care f(x∗) (densitatea de repartiµie sau funcµia de probabilitate) este maxim . O repartiµie poates nu aib niciun mod, sau poate avea mai multe module.

Covarianµa ³i coecientul de corelaµie

Conceptul de corelaµie (sau covarianµ ) este legat de modul în care dou variabile aleatoare tind s semodice una faµ de cealalt ; ele se pot modica e în aceea³i direcµie (caz în care vom spune c X1 ³iX2 sunt direct <sau pozitiv> corelate) sau în direcµii opuse (X1 ³i X2 sunt invers <sau negativ> corelate).Consideram variabilele X1, X2 ce admit mediile, respectiv, µ1, µ2.

Denim corelaµia (sau covarianµa) variabilelor X1 ³i X2, notat prin cov(X1, X2), cantitatea

cov(X1, X2) = E[(X1 − µ1)(X2 − µ2)].

Daca X1 si X2 coincid, sa spunem ca X1 = X2 = X, atunci cov(X, X) = σ2X .O relaµie liniar între dou variabile este acea relaµie ce poate reprezentat cel mai bine printr-o li-nie. Corelaµia detecteaz doar dependenµe liniare între dou variabile aleatoare. Putem avea o corelaµiepozitiv , însemnând c X1 ³i X2 cresc sau descresc împreun (vezi cazurile in care ρ = 0.85 sau ρ = 1in Figura 1.2), sau o corelaµie negativ , însemnând c X1 ³i X2 se modic în direcµii opuse (vezi cazulρ = −0.98 in Figura 1.2). In cazul ρ = −0.16 din Figura 1.2, nu se observa nicio tendinta, caz in carputem banui ca variabilele nu sunt corelate.

Page 10: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

SA 1 [Dr. Iulian Stoleriu] 9

O m sur a corelaµiei dintre dou variabile este coecientulde corelaµie. Acesta este foarte utilizat în ³tiinµe ca ind om sur a dependenµei liniare între dou variabile. Se nume³tecoecient de corelaµie al v.a. X1 ³i X2 cantitatea

ρ =cov(X1, X2)

σ1σ2,

unde σ1 si σ2 sunt deviatiile standard pentru X1, respec-tiv, X2. Uneori se mai noteaza prin ρ(X1, X2) sau ρX1, X2 .Coecientul de corelatie ia valori intre −1 (perfect negativcorelate) si 1 (perfect pozitiv corelate) si masoara gradul decorelatie liniara dintre doua variabile.

Figura 1.2: Reprezentare de datebidimensionale.

Legi limita in Teoria Probabilitatilor

Legea (tare) a numerelor mari:

Teoremele limit clasice descriu comportarea asimptotic a sumei Sn, potrivit normalizat . Legea nume-relor mari descrie comportamentul asimptotic al unui sir de variabile aleatoare. În cazul cel mai simplu (sicel mai utilizat in Statistica), in care variabilele aleatoare Xkk≥1 sunt independente stochastic ³i identicrepartizate, cu E(Xn) = µ < ∞, ∀n ∈ N, atunci legea tare a numerelor mari spune ca sirul Snn≥1, cu

Sn =n∑k=1

Xk satisface convergenta:Snn

a.s.−→ µ.

Astfel, de³i variabilele aleatoare independente Xkk≥1 pot lua valori dep rtate de mediile lor, mediaaritmetic a unui num r sucient de mare de astfel de variabile aleatoare ia valori în vecin tatea lui m,cu o probabilitate foarte mare.

In Statistica, acest ³ir de v.a. poate privit ca ind un model pentru repetiµii independente ale unuiexperiment aleator, efectuate în aceleasi condiµii. De³i avem de-a face cu un ³ir de funcµii ce iau valoriîntâmpl toare, suma unui num r sucient de mare de variabile aleatoare î³i pierde caracterul aleator.

Legea tare a numerelor mari e foarte util în metode de simulare tip Monte Carlo.

Teorema limita centrala

Teorema limita centrala este un rezultat foarte important in Statistica. Ea ne permite s aproxim m sumede variabile aleatoare identic repartizate, avînd orice tip de repartiµii (atât timp cât variaµia lor e nit ),cu o variabila aleatoare normal .Presupunem ca in urma unor masuratori am obtinut datele x1, x2, . . . , xn si ca aceste date sunt realizarile

unor variabile X1, X2, . . . , Xn. Daca aceste variabile sunt normale, atunci suma acestora (Sn =n∑i=1

Xi)

cat si media lor (X =1

n

n∑i=1

Xi) sunt tot variabile normale, pentru orice volum al selectiei, n.

Page 11: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

SA 1 [Dr. Iulian Stoleriu] 10

Matematic, teorema TLC ne spune c , dac avem un ³ir de v.a. independente stochastic ³i identic repar-tizate, atunci, pentru n sucient de mare, repartiµia asimptotic a sumei Sn este o variabil N (µ, σ

√n).

Acest fapt este echivalent cu a spune c variabila aleatoare sum standardizat

Sn =Sn − nµσ√n

=Sn − E(Sn)

D2(Sn)(1.9)

este o v.a. de repartiµie N (0, 1).

Totodat , mai avem c distribuµia variabilei aleatoare medie de selecµie X =Snn

=1

n

n∑k=1

Xk este aproxi-

mativ normal N (µ,σ√n

).

A³adar, Teorema limita centrala spune ca, dac variabilele X1, X2, . . . , Xn nu sunt neap rat normalrepartizate, atunci, pentru un volum n este sucient de mare, repartitiile pentru Sn si X tind sa etot normale. Spunem astfel ca repartitiile asimptotice (la limita) pentru Sn si X sunt normale. Cu catvolumul observatiilor este mai mare, cu atat suma sau media lor sunt mai aproape de repartitia normala.

Mai mult, daca variabilele Xi au aceeasi medie (µ) si aceeasi deviatie standard σ, atunci media X este

o variabila normala de medie µX = µ si deviatie standard σX =σ√n. Se observa ca, daca n este foarte

mare, atunci deviatia standard a lui X scade, astfel ca valorile sale vor deveni foarte apropiate de µ.

Se pune problema: Cât de mare ar trebui s e n, în practic , pentru c teorema limit central s eaplicabil ? Se pare ca un num r n astfel încât n ≥ 30 ar sucicient pentru aproximarea cu repartiµianormal de³i, dac variabilele sunt simetrice, aproximarea ar putea bun ³i pentru un num r n mai micde 30.

Statistici

Consider m o caracteristic de interes X a unei populaµii statistice ³i e x1, x2, . . . , xn un set de dateobservate pentru aceast caracteristic . Fiec rei date observate xi i se poate asocia o variabil aleatoareXi, astfel încât xi devine o posibil valoarea a variabilei Xi. Variabilele aleatoare X1, X2, . . . , Xn senumesc variabile aleatoare de selecµie ³i pot interpretate ca ind un set de observaµii independente asupravariabilei X. Toate aceste variabile de selectie sunt identic repartizate, repartiµia comun ind repartiµiavariabilei X. A³adar, Xi este o observaµie a variabilei X ³i xi este valoarea corespunz toare observat .

Se nume³te statistic (sau funcµie de selecµie) o funcµie de aceste variabile aleatoare de selecµie, i.e., ovariabil aleatoare de forma

Sn(X) = g(X1, X2, . . . , Xn),

unde g este o funcµie g : Rn → R m surabil .Ca o observaµie, numele de statistic este folosit în literatura de specialitate atât pentru variabila aleatoarede mai sus, cât ³i pentru valoarea ei, înµelesul exact desprinzându-se din context. Repartiµia unei statisticise mai nume³te ³i repartiµia (distribuµia) de selecµie.

În literatur , statistica este notat cu una dintre urm toarele:

Sn(X), S(X, n), S(X1, X2, . . . , Xn).

Valoarea numeric Sn(x) = g(x1, x2, . . . , xn)

Page 12: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

SA 1 [Dr. Iulian Stoleriu] 11

se nume³te valoarea funcµiei de selecµie pentru un set dat de observaµii x1, x2, . . . , xn.

Prin intermeniul statisticilor putem trage concluzii despre populaµia din care a provenit e³antionul obser-vat. Teoria probabilit µilor ne ofer procedee de determinare atât a repartiµiei exacte a lui Sn(X), cât ³ia repartiµiei asimptotice a lui Sn(X). Repartiµia exact este acea repartiµie ce poate determinat pentruorice volum al selecµiei. În general, dac se lucreaz cu selecµii de volum redus (n < 30), atunci repartiµiaexact ar trebui s e cunoscut a priori, dac se dore³te luarea de decizii prin inferenµ . Repartiµiaasimptotic este repartiµia limit a Sn(X) când n→∞, iar utilizarea acesteia conduce la rezultate bunedoar pentru n ≥ 30.

De cele mai multe ori, o statistic este utilizat în urm toarele cazuri:

în probleme de estimare punctual a parametrilor populaµiei;

în obµinerea intervalelor de încredere pentru un parametru necunoscut;

ca o statistic test pentru vericarea ipotezelor statistice.

Exemple de statistici:

Media de selecµie: Numim medie de selecµie (de volum n), statistica X =1

n

n∑i=1

Xi.

Valoarea mediei de selecµie pentru valori ale acestor variabile aleatoare este media empiric : x =1

n

n∑i=1

xi.

Dispersie de selecµie (sau varianµa selecµiei): Numim dispersie de selecµie (de volum n), statistica S2 (sau

S2X , dac avem mai multe variabile) denit prin: S2 =

1

n− 1

n∑i=1

[Xi −X]2.

Valoarea dispersiei de selecµie pentru valori ale acestor variabile aleatoare este dispersia (sau variaµia)empiric : simplitate, o vom nota cu s2 (sau s2X , dac avem mai multe variabile), iar valoarea acesteiapentru o selecµie xat este:

s2 =1

n− 1

n∑i=1

[xi − x]2.

în anumite situaµii, în locul lui S2 se mai utilizeaz statistica S2∗(X), denit prin:

S2∗(X) =

1

n

n∑i=1

[Xi −X]2.

Motivaµia pentru considerarea statisticii S2 în detrimentul lui S2∗ este dat de faptul c prima statis-

tic estimeaz variaµia teoretic σ2 mai bine decât cea de-a doua. Aceste statistici satisfac urm toarelepropriet µi:

Funcµia de repartiµie de selecµie Fie X1, X2, . . . , Xn variabile aleatoare de selecµie repetat de volum n.

Numim funcµie de repartiµie de selecµie (de volum n), funcµia F ∗n(x) =n(x)

n, ∀x ∈ R,

unde n(x) = card i, Xi ≤ x reprezint num rul de elemente din selecµie mai mici sau egale cu x.Relaµia din deniµie poate scris ³i sub forma:

F ∗n(x) =1

n

n∑i=1

χ(−∞, x](Xi), ∀x ∈ R, (1.10)

Page 13: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

SA 1 [Dr. Iulian Stoleriu] 12

unde χA este funcµia indicatoare a mulµimii A.Pentru un x ∈ R xat, F ∗n este o variabil aleatoare repartizat binomial B(n, F (x)).Pentru o selecµie xat , F ∗n(x) ia valorile:

F ∗n(x) =card i, xi ≤ x

n,

(i.e., este funcµia de repartiµie empiric ).

Page 14: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

LSA 1 [Dr. Iulian Stoleriu] 13

Statistica Aplicata (L1)

2 Generarea în Matlab a datelor statistice

Numerele generate de Matlab sunt rezultatul compil rii unui program deja existent în Matlab, a³adarel vor pseudo-aleatoare. Putem face abstracµie de modul programat de generare ale acestor numere ³is consider m c acestea sunt numere aleatoare.

2.1 Generarea de numere uniform repartizate într-un interval, U(a, b)

Funcµia rand

Funcµia rand genereaz un num r aleator repartizat uniform în [0, 1].De exemplu, comanda

X = (rand < 0.5)

simuleaz aruncarea unei monede ideale. Mai putem spune ca num rul X astfel generat este unnum r aleator repartizat B(1, 0.5).

De asemenea, num rul

Y = sum(rand(10,1) < 0.5)

urmeaz repartiµia B(10, 0.5) (simularea a 10 arunc ri ale unei monede ideale).

rand(m, n) genereaz o matrice aleatoare cu m× n componente repartizate U(0, 1).

Comanda a+ (b− a) ∗ rand genereaz un num r pseudo-aleator repartizat uniform în [a, b].

Folosind comanda s = rand('state'), i se atribuie variabilei s un vector de 35 de elemente, repre-zentând starea actual a generatorului de numere aleatoare uniform (distribuite). Pentru a schimbastarea curent a generatorului sau iniµializarea lui, putem folosi comanda

rand(method, s)

unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate 'state','seed' sau 'twister'), iar s este un num r natural între 0 ³i 232 − 1, reprezentând starea iniµiali-zatorului. De exemplu,

rand('state', 125)

xeaz generatorul la starea 125.

Observaµia 2.1. Printr-o generare de numere aleatoare uniform distribuite în intervalul (a, b) înµelegemnumere aleatoare care au aceea³i ³ans de a oriunde în (a, b), ³i nu numere la intervale egale.

Page 15: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

LSA 1 [Dr. Iulian Stoleriu] 14

Figura 2.1 reprezint cu histograme date uniform distribuite în intervalul [−2, 3], produse de comandaMatlab:

hist(5*rand(1e4,1)-2,100)

Figura 2.1: Reprezentarea cu histograme a datelor uniforme.

2.2 Generarea de numere repartizate normal, N (µ, σ)

Funcµia randn

Funcµia randn genereaz un num r aleator repartizat normal N (0, 1).

randn(m, n) genereaz o matrice aleatoare cu m× n componente repartizate N (0, 1).

Pentru a schimba metoda prin care sunt generate numerele aleatoare normale sau starea generato-rului, folosim comanda:

randn(method, s)

unde unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate 'state'

sau 'seed'), iar s este un num r natural între 0 ³i 232 − 1, reprezentând starea iniµializatorului.

Comanda m+σ∗randn genereaz un num r aleator repartizat normal N (m, σ). De exemplu, codulurm tor produce Figura 2.2:

x = 0:0.05:10;

y = 5 + 1.1*randn(1e5,1); % date distribuite N (5, 1.1)

hist(y,x)

Page 16: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

LSA 1 [Dr. Iulian Stoleriu] 15

0 2 4 6 8 100

50

100

150

200

250

Figura 2.2: Reprezentarea cu histograme a datelor normale.

2.3 Generarea de numere aleatoare de o repartiµie dat

Comenzile Matlab

legernd(<param>, m, n)

³i

random('lege', <param>, m, n).

Oricare dintre cele dou comenzi genereaz o matrice aleatoare, cu m linii ³i n coloane, având componentenumere aleatoare ce urmeaz repartiµia lege. În loc de lege putem scrie oricare dintre expresiile din Tabelul2.1. De exemplu,

normrnd (5, 0.2, 100, 10);

genereaz o matrice aleatoare cu 100× 10 componente repartizate N (5, 0.2).

random ('poiss',0.01, 200, 50);

genereaz o matrice aleatoare cu 200× 50 componente repartizate P(0.01).

Utilizând comanda

randtool

putem reprezenta interactiv selecµii aleatoare pentru diverse repartiµii. Comanda deschide o interfaµ grac ce reprezint prin histograme selecµiile dorite, pentru parametrii doriµi (vezi Figura 2.3). Datelegenerate deMatlab pot exportate în ³ierulWorkspace cu numele dorit. De exemplu, folosind dateledin Figura 2.3, am generat o selecµie aleatoare de 10000 de numere ce urmeaz repartiµia lognormal deparametri µ = 2 ³i σ = 0.5 ³i am salvat-o (folosind butonul Export) într-un vector L.

Page 17: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

LSA 1 [Dr. Iulian Stoleriu] 16

Figura 2.3: Interfaµ pentru generarea de numere aleatoare de o repartiµie dat .

Tabelul 2.1 conµine câteva repartiµii uzuale ³i funcµiile corespunz toare în Matlab.

repartiµii probabilistice discrete repartiµii probabilistice continue

norm: repartiµia normal N (µ, σ)bino: repartiµia binomial B(n, p) unif: repartiµia uniform continu U(a, b)nbin: repartiµia binomial negativ BN(n, p) exp: repartiµia exponenµial exp(λ)poiss: repartiµia Poisson P(λ) gam: repartiµia Gamma Γ(a, λ)unid: repartiµia uniform discret U(n) beta: repartiµia Beta β(m,n)geo: repartiµia geometric Geo(p) logn: repartiµia lognormal logN (µ, σ)hyge: repartiµia hipergeometric H(n, a, b) chi2: repartiµia χ2(n)

t: repartiµia student t(n)f: repartiµia Fisher F(m, n)

wbl: repartiµia Weibull Wbl(k, λ)

Tabela 2.1: Repartiµii uzuale în Matlab

Page 18: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

LSA 1 [Dr. Iulian Stoleriu] 17

2.4 Simularea unui experiment aleator

Simularea arunc rii unei monede

Comanda

X = (rand < 0.5);

simuleaz aruncarea unei monede ideale. Vom mai spunem c num rul X astfel generat este unnum r aleator repartizat B(1, 0.5) (similar cu schema bilei revenite, în cazul în care o urn are bilealbe ³i negre în num r egal ³i extragem o bil la întâmplare)

Num rul

Y = sum (rand(30,1)<0.5)

urmeaz repartiµia B(30, 0.5) (simularea a 30 arunc ri ale unei monede ideale).

Acela³i experiment poate modelat ³i prin comanda

round(rand(30,1))

Pentru a num ra câte feµe de un anumit tip au ap rut, folosim

sum(round(rand(30,1)))

Simularea în Matlab a unei v.a. de tip discret

S consider m o variabil aleatoare ce poate avea doar 3 rezultate posibile, a, b ³i c, cu probabilit µile derealizare 0.5, 0.2 ³i, respectiv, 0.3. Tabloul de repartiµie asociat este:

X :

(a b c

0.5 0.2 0.3

),

Pentru a modela aceast variabil aleatoare în Matlab, proced m astfel: alegem uniform la întâmplareun num r x din intervalul [0, 1]. Dac x < 0.5, atunci convenim c rezultatul a s-a realizat, dac 0.5 < x < 0.7, atunci rezultatul b s-a realizat. Altfel, rezultatul v.a. X este c. Dac acest experiment serepet de multe ori, atunci rezultatele pot folosite în estimarea probabilit µilor de realizare a variabileialeatoare. Cu cât vom face mai multe experimente, cu atât vom aproxima mai bine valorile teoretice aleprobabilit µilor, deci putem spune c am aproximat variabila aleatoare X.În Matlab, scriem:

syms a b c % declaram a, b si c ca variabile simbolice

r = rand;

X = a*(r<0.5) + b*(0.5<r & r<0.7) + c*(r>0.7)

Page 19: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

LSA 1 [Dr. Iulian Stoleriu] 18

Folosind aceast metod , putem simula aruncarea unui zar ideal. Avem 6 rezultate posibile, ³i anume,apariµia unei feµe cu 1, 2, 3, 4, 5 sau 6 puncte. Pentru a simula acest experiment, modic m în modconvenabil problema. Vom considera c punctele din intervalul [0, 1] formeaz mulµimea tuturor cazurilorposibile ³i împ rµim intervalul [0, 1] în 6 subintervale de lungimi egale:

(0,1

6), (

1

6,

2

6), (

2

6,

3

6), (

3

6,

4

6), (

4

6,

5

6), (

5

6, 1)

.

corespunz toare, respectiv, celor ³ase feµe, s zicem în ordinea cresc toare a punctelor de pe ele. Vomvedea mai târziu (vezi metoda Monte Carlo) ca alegerea acestor intervale cu capete închise, deschisesau mixte nu are efect practic asupra calculului probabilit µii dorite. Acum, dac dorim s simul m înMatlab apariµia feµei cu 3 puncte la aruncarea unui zar ideal, vom alege (comanda rand) un num r "laîntâmplare" din intervalul [0, 1] ³i veric m dac acesta se a în intervalul (26 ,

36). A³adar, comanda

Matlab

u = rand; (u < 3/6 & u > 2/6)

simuleaz aruncarea unui zar ideal. Ca o observaµie, deoarece cele 6 feµe sunt identice, putem simplicaaceast comanda ³i scrie

(rand < 1/6).

2.5 Repartiµii probabilistice în Matlab

Funcµia de probabilitate (pentru v.a. discrete) ³i densitatea de repartiµie (pentru v.a. continue) (ambelenotate anterior prin f(x)) se introduc în Matlab cu ajutorul comenzii pdf, astfel:

pdf('LEGE', x, <param>) sau LEGEpdf(x, <param>).

Funcµia de repartiµie F (x) a unei variabile aleatoare se poate introduce în Matlab cu ajutorul comenziicdf, astfel:

cdf('LEGE', x, <param>) sau LEGEcdf(x, <param>).

Inversa funcµiei de repartiµie pentru repartiµii continue, F−1(y), se introduce cu comanda icdf, astfel:

icdf('LEGE', y, <param>) sau LEGEinv(y, <param>).

În comenzile de mai sus, LEGE poate oricare dintre legile de repartiµie din Tabelul 2.1, x este un scalar sauvector pentru care se calculeaz f(x) sau F (x), y este un scalar sau vector pentru care se calculeaz F−1(y),iar <param> este un scalar sau un vector ce reprezint parametrul (parametrii) repartiµiei considerate.

Observaµia 2.2. Fie X o variabil aleatoare ³i F (x, θ) funcµia sa de repartiµie, θ ind parametrul repar-tiµiei. Pentru un x ∈ R, relaµia matematic

P (X ≤ x) = F (x)

o putem scrie astfel în Matlab:

cdf('numele repartiµiei lui X',x,θ). (2.1)

Page 20: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

LSA 1 [Dr. Iulian Stoleriu] 19

Problema poate aparea la evaluarea în Matlab a probabilit µii P (X < x). Dac repartiµia considerat este una continu , atunci corespondentul în Matlab este tot (2.1), deoarece în acest caz

P (X ≤ x) = P (X < x) + P (X = x) = P (X < x).

De exemplu, dac X ∼ N (5, 2), atunci

P (X < 4) = cdf('norm', 4, 5, 2).

Dac X este de tip discret, atunci

P (X < x) =

P (X ≤ [x]) , x nu e întreg

P (X ≤ m− 1) , x = m ∈ Z,

unde [x] este partea întreag a lui x.De exemplu, dac X ∼ B(10, 0.3), atunci

P (X < 5) = P (X ≤ 4)

= cdf('bino', 4, 10, 0.3) = 0.8497.

2.6 Exerciµii rezolvate

Exerciµiu 2.1. Un sondaj preliminar a determinat c 42% dintre persoanele cu drept de vot dintr-oanumit µar ar vota candidatul C pentru pre³edinµie. Alegem la întâmplare 200 de votanµi. Care esteprobabilitatea ca un procent dintre ace³tia, situat între 40% ³i 50%, îl vor vota pe C la pre³edinµie?

- S not m cu p = 0.42 ³i cu X variabila aleatoare ce reprezint num rul de votanµi ce au alescandidatul C, din selecµia aleatoare de volum n = 200 considerat . Este clar c X ∼ B(n, p). Se cereprobabilitatea P (80 ≤ X ≤ 100) (deoarece 40% din 200 înseamn 80 etc). Deoarece X este o variabil aleatoare discret , avem c :

P = P (80 ≤ X ≤ 100) = P (X ≤ 100)− P (X < 80) = FX(100)− FX(79),

unde FX este funcµia de repartiµie a lui X.În Matlab:

P = binocdf(100, 200, 0.42) - binocdf(79, 200, 0.42) = 0.7303. √

Exerciµiu 2.2. Dintre spectatorii prezenµi pe un anumit stadion la un meci de fotbal, un procent de 20%sunt femei. La o tombola organizat pentru spectatori, un computer alege la întâmplare numerele a 7bilete de intrare ³i se premiaz posesorii.(i) Care este probabilitatea ca m car 3 dintre spectatorii premiaµi s e femei?(ii) Care este probabilitatea ca nicio femeie s nu câ³tige la tombol ?(iii) Dac selecµia biletelor câ³tig toare ar fost realizat prin alegerea a 7 spectatori ce erau a³ezaµiîn ³ir, pe un acela³i rând ales la întâmplare, argumentaµi dac probabilit µile g site la (i) si (ii) r mânacelea³i.

Soluµie: Experimentul aleator considerat este alegerea unui bilet de intrare. Acest experiment se repetain aceleasi conditii, in mod independent, de 7 ori. Desi extragerile se fac fara ca biletul ales sa e reintrodusin urna, putem considera ca extragerile se fac cu repetitie, datorita faptului ca numarul de extrageri (7)

Page 21: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

LSA 1 [Dr. Iulian Stoleriu] 20

este mult mai mic decat numarul de spectatori de pe stadion (necunoscut in problema, dar cu sigurantaeste mult mai mare decat 7).[[ Aceasta conventie este des intalnita in Statistica, atunci cand volumul esantionului considerat (n) estemult mai mic decat volumul populatiei din care se extrage esantionul, N . Scriem in acest caz ca n N .In practica, aceasta are loc atunci cand n < 0.05N . ]]Asadar, convenind ca extragerile se fac cu repetitie, putem considera ca suntem in cazul schemei bileirevenite. Evenimentul aleator de interes (legat de experimentul aleator) este ca biletul ales la intamplaresa e in posesia unei femei. Din ipoteza, probabilitatea ca intr-o proba evenimentul sa se realizeze intr-osingura proba este p = 0.2. Notam cu X variabila ce reprezint num rul de femei ce apar la alegerea laîntâmplare a 7 spectatori.

(i) In limbajul cu bile si urna, evenimentul compus m car 3 dintre spectatorii premiaµi s e femei esteechivalent cu aparitia a cel putin 3 bile albe din 7 extrageri cu repetitie, stiind ca probabilitatea de aaparitie a unei bile albe la o singura extragere este p = 0.2. Astfel, probabilitatea exenimentului este:

P (X ≥ 3) = 1−P (X < 3) = 1−P (X ≤ 2) = 0.1480. (in Matlab, binocdf(3,7,0.2) )

(ii) Evenimentul cerut este scris simbolic X = 0 si are probabilitatea

P (X = 0) = C07 p

0 (1− p)7 = 0.2097. (in Matlab, binopdf(0,7,0.2) )

(iii) În acest caz, probabil ca probabilitatile de mai sus nu mai sunt aceleasi, deoarece alegerea specta-torilor nu mai este aleatorie (spectatorii a³ezaµi al turi pot cuno³tinte, prieteni etc.). √

2.7 Exerciµii propuse

Exerciµiu 2.3. Temperatura T (0C) dintr-un anumit proces chimic are repartiµia U(−5, 5).Calculaµi P (T < 0); P (−2.5 < T < 2.5); P (−2 ≤ T ≤ 3).

Exerciµiu 2.4. Temperatura de topire a unui anumit material este o v.a. cu media de 120 oC ³i deviaµiastandard de 2 oC. Determinaµi temperatura medie ³i deviaµia standard în oF , ³tiind c oF = 1.8 oC + 32.

Exerciµiu 2.5. Dac Z ∼ N (0, 1), calculaµi:P (Z ≤ 1.35); P (0 ≤ Z ≤ 1); P (1 ≤ Z); P (|Z| > 1.5).

Exerciµiu 2.6. Calculaµi cuartilele repartiµiei N (0, 1). De asemenea, calculaµi z0.95 ³i z0.975.

Exerciµiu 2.7. O pereche de zaruri ideale este aruncat de 200 de ori. Care este probabilitatea s obµinemo sum de 7 în cel puµin 20% dintre cazuri?

Exerciµiu 2.8. Simulaµi în Matlab variabila aleatoare discret X ce are tabloul de distribuµie:

X :

(−2 0 214

12

14

).

G siµi ³i reprezentaµi grac funcµia de repartiµie F (x) a variabilei aleatoare X. Calculaµi F (12).

Exerciµiu 2.9. O companie de asigur ri ofer angajaµilor s i diverse poliµe de asigurare. Pentru unasigurat ales aleator, not m cu X num rul de luni scurs între dou pl µi succesive. Funcµia de repartiµie

Page 22: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

LSA 1 [Dr. Iulian Stoleriu] 21

a lui X este:

F (x) =

0 , x < 1;

0.3 , 1 ≤ x < 3;

0.4 , 3 ≤ x < 4;

0.45 , 4 ≤ x < 6;

0.65 , 6 ≤ x < 12;

1 , 12 ≤ x.

(a) Determinaµi funcµia de probabilitate a lui X.(b) Calculaµi P (3 ≤ X ≤ 6) ³i P (4 ≤ X).

Exerciµiu 2.10. Pentru evaluarea rezultatelor obtinute la teza de Matematica de catre elevii unei anumitescoli, se face un sondaj de volum 35 printre elevii scolii, iar notele lor sunt sumarizate in Tabelul 2.2.

note 4 5 6 7 8 9 10

frecventa 3 6 7 8 5 4 2

Tabela 2.2: Medii generale si frecvente

(i) Sa se scrie si sa se reprezinte grac functia de repartitie pentru aceasta selectie;(ii) Notam cu X variabila aleatoare care guverneaza populatia. Utilizand selectia de mai sus, sa seaproximeze probabilitatea P (6 ≤ X ≤ 8).

Exerciµiu 2.11. Datele din tabelul de mai jos reprezint procentul de ³omeri dintr-o anumit regiune aµ rii, pentru anumite categorii de vârst .

Vârsta [18, 25) [25, 35) [35, 45) [45, 55) [55, 65)

Procent 8 12 22 23 35

Folosind Matlab, generaµi o selecµie aleatoare de volum 275, µinând cont de repartiµia datelor.

Page 23: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

Anexa 1 [Dr. Iulian Stoleriu] 22

3 Anexa 1

Scurt introducere în Matlab

Matlab este un pachet comercial de programe de înalt performanµ produs de The MathWorks, Inc.,dedicat calculului numeric ³i reprezent rilor grace în domeniul ³tiinµelor ³i ingineriei. Elementul de baz cu care opereaz Matlab-ul este matricea (Matlab este acronim de laMATrix LABoratory). Matlabeste un software standard în mediile universitare, precum ³i în domeniul cercet rii ³i rezolv rii practiceaproblemelor legate de procesarea semnalelor, identicarea sistemelor, calculul statistic, prelucrarea date-lor experimentale, matematici nanciare, matematici aplicate în diverse domenii etc. Cea mai important caracteristic a Matlab-ului este u³urinµa cu care poate extins. La programele deja existente în Ma-tlab, utilizatorul poate ad uga propriile sale coduri, dezvoltând aplicaµii specice domeniului în carelucreaz . Matlab-ul include aplicaµii specice, numite Toolbox-uri. Acestea sunt colecµii extinse defuncµii Matlab (³iere M) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolvaprobleme din domenii variate. Structural, Matlab-ul este realizat sub forma unui nucleu de baz , cuinterpretor propriu, în jurul c ruia sunt construite toolbox-urile.

Prezent m mai jos o scurt introducere în Matlab a principalelor funcµii ³i comenzi folosite în aceast lucrare. Pentru o tratare mai detaliat , puteµi consulta un manual de utilizare sau [9]. Mai menµion maici ³i lucrarea [1], unde puteµi g si diverse modalit µi de implementare în Matlab ale unor noµiuni deTeoria Probabilit µilor ³i Statistic matematic .Folosind comanda demo din Matlab, puteµi urm ri o demonstraµie a principalelor facilit µi din Matlab,cât ³i a pachetelor de funcµii (toolbox) de care aµi putea interesaµi. Dintre acestea, amintim StatisticsToolbox, care este o colecµie de funcµii folosite pentru analiza, modelarea ³i simularea datelor. Conµine:analiza gracelor (GUI), diverse repartiµii probabilistice (beta, binomial , Poisson, χ2), generarea nume-relor aleatoare, analiza regresional , descrieri statistice.

ComenzileMatlab pot scrise în ³iere cu extensia .m, ce urmeaz apoi a compilate. Un ³ier-mconst dintr-o succesiune de instrucµiuni, cu posibilitatea apel rii altor ³iere-M precum ³i a apel riirecursive. De asemenea, Matlab poate folosit ca pe un mediu computaµional interactiv, caz încare ecare linie este prelucrat imediat. Odat introduse expresiile, acestea pot vizualizate sauevaluate imediat. De exemplu, introducând la linia de comand

>> a = sqrt((sqrt(5)+1)/2)

Matlab dene³te o variabil de memorie a, c reia îi atribuie valoareaa =

1.2720

Variabilele sunt denite cu ajutorul operatorului de atribuire, =, ³i pot utilizate f r a declarade ce tip sunt. Valoarea unei variabile poate : o constant , un ³ir de caractere, poate reie³i dincalculul unei expresii sau al unei funcµii.

Pentru a g si informaµii imediate despre vreo funcµie predenit , comanda help va vine în ajutor.De exemplu,

Page 24: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

Anexa 1 [Dr. Iulian Stoleriu] 23

>> help length

a³eaz urm toarele:

LENGTH Length of vector.

LENGTH(X) returns the length of vector X. It is equivalent

to MAX(SIZE(X)) for non-empty arrays and 0 for empty ones.

See also numel.

Comanda help poate utilizat doar dac se cunoa³te exact numele funcµiei. Altfel, folosirea co-menzii lookfor este recomandat . De exemplu, comanda

>> lookfor length

produce:

NAMELENGTHMAX Maximum length of MATLAB function or variable name.

VARARGIN Variable length input argument list.

VARARGOUT Variable length output argument list.

LENGTH Length of vector.

Matlab este un mediu computaµional orientat pe lucru cu vectori ³i matrice. O linie de cod de forma

>> v = [1,3,5,7,9] % sau v = [1 3 5 7 9]

dene³te un vector linie ce are componentele 1, 3, 5, 7, 9. Aceasta poate realizat ³i folosind co-manda v = 1:2:9 adic a³eaz numerele de la 1 la 9, cu pasul 2. Pentru un vector coloan , folosimpunct-virgul între elemente, adic

>> v = [1;3;5;7;9] % vector coloana

O alt variant de a deni un vector este

>> v = linspace(x1,x2,n)

adic v este un vector linie cu n componente, la intervale egale între x1 ³i x2.

Denirea matricelor se poate face prin introducerea explicit a elementelor sale sau prin instrucµiuni³i funcµii. La denirea explicit , trebuie µinut cont de urm toarele: elementele matricei sunt cuprinseîntre paranteze drepte ([ ]), elementele unei linii trebuie separate prin spaµii libere sau virgule, liniilese separ prin semnul punct-virgul . De exemplu, comanda

>> A = [1 2 3; 4, 5, 6]

Page 25: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

Anexa 1 [Dr. Iulian Stoleriu] 24

dene³te matriceaA =

1 2 3

4 5 6

Apelul elementelor unei matrice se poate face prin comenzile A(i,j) sau A(:,j) (elementele decoloan j) sau A(i,:) (elementele de linia i);

FuncµiaMatlab ones(m,n) dene³te o matricem×n, având toate componentele egale cu 1. Funcµiazeros(m,n) dene³te o matrice zero m× n. Funcµia eye(n) dene³te matricea unitate de ordin n.

Dup cum vom vedea mai jos,Matlab permite denirea unor funcµii foarte complicate prin scriereaunui cod. Dac funcµia ce o avem de denit este una simpl , atunci avem varianta utiliz rii comenziiinline. Spre exemplu, denim funcµia f(x, y) = e5x sin 3y:

>> f = inline('exp(5*x).*sin(3*y)')

f =

Inline function:

f(x,y) = exp(5*x).*sin(3*y)

Putem apoi calcula f(7, π) prin

>> f(7,pi)

0.5827

Un program Matlab poate scris sub forma ³ierelor script sau a ³ierelor de tip funcµie. Ambeletipuri de ³iere sunt scrise în format ASCII. Aceste tipuri de ³iere permit crearea unor noi funcµii,care le pot completa pe cele deja existente. Un ³ier script este un ³ier extern care conµine o secvenµ de comenzi Matlab. Prin apelarea numelui ³ierului, se execut secvenµa Matlab conµinut înacesta. Dup execuµia complet a unui ³ier script, variabilele cu care acesta a operat r mân înzona de memorie a aplicaµiei. Fi³ierele script sunt folosite pentru rezolvarea unor probleme care cercomenzi succesive atât de lungi, încât ar putea deveni greoaie pentru lucrul în mod interactiv, adic în modul linie de comand .

Pentru a introduce date în Matlab, putem copia datele direct într-un ³ier Matlab, prin denirea unuivector sau a unei matrice de date. De exemplu, urm toarele date au fost introduse prin "copy-paste" înmatricea data:

>> data = [ % atribuirea valorilor matricei data

21.3 24.1 19.9 21.0 % prima linie a datelor copiate

18.4 20.5 17.5 23.2

22.1 16.6 23.5 19.7 % ultima linie a datelor copiate

]; % inchidem paranteza ce defineste matricea de date

Datele din Matlab pot salvate astfel:

Page 26: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

Anexa 1 [Dr. Iulian Stoleriu] 25

>> cd('c:\fisierul_de_lucru'); % alegem fisierul unde salvam datele

>> save Timpi_de_reactie data; % salveaza in fisierul Timpi_de_reactie.mat

Datele pot reînc rcate folosind comanda

load Timpi_de_reactie % incarca datele din fisier

Timpi_de_reactie % afiseaza datele incarcate

Fi³ierele funcµie

Matlab creaz cadrul propice extinderii funcµiilor sale, prin posibilitatea cre rii de noi ³iere. Astfel,dac prima linie a ³ierului .m conµine cuvântul function, atunci ³ierul respectiv este declarat ca ind³ier funcµie. Variabilele denite ³i manipulate în interiorul ³ierului funcµie sunt localizate la nivelulacesteia. Prin urmare, la terminarea execuµiei unei funcµii, în memoria calculatorului nu r mân decâtvariabilele de ie³ire ale acesteia. Forma general a primei linii a unui ³ier este:

function[param_iesire] = nume_functie(param_intrare)

unde:

function este este cuvântul care declar ³ierul ca ³ier funcµie;

nume_functie este numele funcµiei, care este totuna cu numele sub care se salveaz ³ierul;

param_iesire sunt parametrii de ie³ire;

param_intrare sunt parametrii de intrare.

Comenzile ³i funcµiile care sunt utilizate de nou funcµie sunt înregistrate într-un ³ier cu extensia .m.

Exemplu 3.1. Fisierul medie.m calculeaz media aritmetic a sumei p tratelor componentelor unui vec-tor X (alternativ, aceast lucru poate realizat prin comanda mean(X.^2)):

function m2 = medie(X)

n = length(X); m2 = sum(X.^2)/n;

Matlab-ul include aplicaµii specice, numite Toolbox-uri. Acestea sunt colecµii extinse de funcµiiMatlab(³iere-m) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva probleme dindomenii variate. Statistics Toolbox reprezint o colecµie de funcµii folosite pentru analiza, modelarea ³isimularea datelor ³i conµine: generarea de numere aleatoare; distribuµii, analiza grac interactiv (GUI),analiza regresional , descrieri statistice, teste statistice.

În Tabelul 3.1 am adunat câteva comenzi utile în Matlab.

Page 27: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

Anexa 1 [Dr. Iulian Stoleriu] 26

% % permite adaugarea de comentarii in codhelp rand % help specic pentru funcµia randlookfor normal % cauta intrarile în Matlab pentru normalX=[2 4 6 5 2 7 10] % vector linie cu 7 elementeX=[3; 1; 6.5 ;0 ;77] % vector coloan cu 5 elementeX = -10:2:10 % vector cu numerele intregi de la −10 la 10, din 2 în 2length(X) % lungimea vectorului Xt=0:0.01:3*pi % dene³te o diviziune a [0, 3π] cu diviziunea 0.01X.^2 % ridic toate componentele vectorului X la puterea a douaX.*Y % produsul a doi vectoricumsum(X) % suma cumulat a elementelor vectorului Xcumprod(X) % produsul cumulativ al elementelor vectorului Xmin(X) % realizeaz minimum dintre componentele lui Xmax(X) % realizeaz maximum dintre componentele lu Xsort(X) % ordoneaz componentele lui X în ordine crescatoaresort(X, 'descend') % ordoneaz componentele lui X în ordine descrescatoareerf(X) % funcµia eroareexp(x) % calculeaz exponenµial ex

log(x) % calculeaz logaritmul natural ln(x)sqrt(x) % calculeaz radicalul ordinului doi dintr-un num rnum2str(x) % furnizeaz valoarea numeric a lui xfactorial(n) % n!A = ones(m,n) % A e matrice m× n, cu toate elementele 1B = zeros(m,n) % matrice m× n zeroI = eye(n) % matrice unitate, n× nA = [3/2 1 3 7; 6 5 8 8; 3 6 9 12] % matrice 3× 3size(A) % dimensiunea matricei Adet(A) % determinantul matricei Ainv(A) % inversa matricei AA' % transpusa matricei AA(:,7) % coloana a 7-a a matricei AA(1:20,1) % scoate primele 20 de linii ale lui Anchoosek(n,k) % combin ri de n luate câte k1e5 % numarul 105

exp(1) % numarul ebar(X) sau barh(X) % reprezentarea prin barehist(X) % reprezentarea prin histogramehist3(x,y,z) % reprezentarea prin histograme 3-Dplot(X(1:5),'*m') % deseneaz primele 5 componente ale lui X, cu * magenta

plot(t,X,'-') % deseneaz gracul lui X versus t, cu linie continuaplot3(X,Y,Z) % deseneaz un grac în 3-Dstairs(X) % deseneaz o funcµie scarasubplot(m,n,z) % împarte gracul în m× n zone & deseneaz în zona zsemilogx ³i semilogy % logaritmeaz valorile de pe absci , resp., ordonatahold on % reµine gracul pentru a realiza o nou guraclf % ³terge guraclear all % ³terge toate variabilele denitetitle('Graficul functiei') % adaug titlu guriifind % g se³te indicii elementelor nenule ale unui vectorlegend % ata³eaz o legend la un grac

Tabela 3.1: Funcµii Matlab utile

Page 28: Statistica Aplicat a - math.uaic.rostoleriu/ApplStatslast2017.pdf · datelor observate, este su cienta analiza unei selectii de volum su cient de mare formata din observatii ale SA

Bibliografie [Dr. Iulian Stoleriu] 27

Bibliograe

[1] Petru Blaga, Statistic . . . prin Matlab, Presa universitar clujean , Cluj-Napoca, 2002.

[2] David Brink, Statistics compendium, David Brink & Ventus Publishing ApS, 2008.

[3] David Brink, Statistics exercises, David Brink & Ventus Publishing ApS, 2008.

[4] Gheorghe Ciucu, Virgil Craiu, Teoria estimaµiei ³i vericarea ipotezelor statistice, Editura Didactic ³i Pedagogic , Bucure³ti, 1968.

[5] Steve Dobbs, Jane Miller, Statistics 1, Cambridge University Press, Cambridge 2000.

[6] Jay L. DeVore, Kenneth N. Berk, Modern Mathematical Statistics with Applications (with CD-ROM),Duxbury Press, 2006.

[7] Robert V. Hogg, Allen Craig, Joseph W. McKean, Introduction to Mathematical Statistics, PrenticeHall, 6th edition, 2004.

[8] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu, Mic enciclopedie de sta-tistic , Editura ³tiinµic ³i enciclopedic , Bucure³ti, 1985.

[9] http://www.mathworks.com

[10] Gheorghe Mihoc, N. Micu, Teoria probabilit µilor ³i statistica matematic , Bucuresti, 1980.

[11] Octavian Petru³, Probabilit µi ³i Statistica matematic - Computer Applications, Ia³i, 2000.

[12] Sanford Weisberg, Applied Linear Regression, Wiley series in Probability and Statistics, 3rd ed.,2005.

[13] Larry J. Stephens, Theory and problems of Beginning Statistics, Schaum's Outline Series, 2nd ed.,The McGraw-Hill Companies, Inc., 1998.

[14] Dominick Salvatore, Derrick Reagle, Theory and problems of Statistics and Econometrics, Schaum'sOutline Series, 2nd ed., The McGraw-Hill Companies, Inc., 2002.

[15] Iulian Stoleriu, Statistic prin Matlab. MatrixRom, Bucure³ti, 2010.

[16] Gábor Székely, Paradoxes in Probability Theory and Mathematical Statistics, (Mathematics and itsApplications), Springer Verlag, 1987.

[17] David Williams, Weighing the Odds: A Course in Probability and Statistics, Cambridge UniversityPress, 2001.