35
CURSUL – II – STATISTICA INTERVALE DE INCREDERE VERIFICAREA IPOTEZELOR

CURSUL – II - justmed.eu fileCurs 2 2 STATISTIC Ă MATEMATIC Ă ŞI BIOSTATISTIC Ă Statistica matematic ă este principala aplica ţie a teoriei probabilit ăţilor

  • Upload
    others

  • View
    20

  • Download
    0

Embed Size (px)

Citation preview

CURSUL – II –

STATISTICA

INTERVALE DE INCREDERE

VERIFICAREA IPOTEZELOR

Curs 2 2

STATISTICĂ MATEMATICĂ ŞI BIOSTATISTICĂ

Statistica matematică este principala aplicaţie a teoriei probabilităţilor. Procedeele statistice

constau, în esenţă, în elaborarea unor concluzii plauzibile privitoare la colectivităţi mari de fenomene,

pe baza cunoaşterii unui număr restrâns dintre acestea şi extrapolării rezultatelor.

Legile care stau la baza statisticii şi care permit aceste generalizări sunt teorema limită centrală

şi legea numerelor mari.

Într-o exprimare intuitivă, avem rezultatul că, dacă o variabilă aleatoare ξ este suma unui

număr mare de variabile aleatoare independente, fiecare variabilă aleatoare având o pondere mică în

sumă, atunci funcţia de repartiţie a variabilei aleatoare ξ este foarte apropiată de o funcţie de repartiţie

normală.

Exprimat mai riguros şi mai general, avem următoarea teoremă:

Teorema limită centrală (A.M.Leapunov)

Fie nξξξ ,...,, 21 variabile aleatoare independente.

Fie ( ) ( ) 2,k k k kM a Dξ ξ σ= = şi ( )33kkk mM −= ξρ când nk ,1=

Notăm ( ) ∑=n

in 1

22 σσ , ( ) ∑=n

in 1

33 ρρ

Dacă ( )

( )

0lim =∞→

n

n

ρ , atunci funcţia de repartiţie a variabilei

( )

( )n

nn aaa

σ

ξξξ +++−+++ ...... 2121

tinde, când ∞→n , către funcţia ( )xΦ a lui Laplace.

( )2

21

2

z t

x e dtπ

−∞

Φ = ∫

Teorema limită centrală este teorema fundamentală a teoriei erorilor. Laplace, Gauss şi alţi

matematicieni, studiind repartiţia erorilor, au ajuns la concluzia că funcţia de repartiţie normală poate fi

luată drept model teoretic pentru cercetarea probabilistică a aproape tuturor fenomenelor naturii.

Teorema lui Cebâşev

Dacă nζζζ ,...,, 21 sunt variabile aleatoare (discrete sau continue) independente ale căror

dispersii sunt mai mici decât o constantă C, atunci oricare ar fi numărul pozitiv ε, probabilitatea

inegalităţii

Curs 2 3

( ) ( ) ( )1 21 2

...... nnM M M

n n

ζ ζ ζζ ζ ζε

+ + ++ + +− ⟨

tinde către 1, atunci când numărul variabilelor aleatoare tinde către infinit.

Demonstraţie:

Să considerăm variabila aleatoare n

nζζζζ

+++=

...21 . Având în vedere liniaritatea

operatorului de calcul a mediei avem ( ) ( ) ( ) ( )1 2 ...n

M M MM

n

ζ ζ ζζ

+ + += .

Aplicând inegalitatea lui Cebâşev variabilei aleatoare ζ se obţine:

( ) ( ) ( )1 2

1 21 22

.........

1

n

nn

DM M M n

Pn n

ζ ζ ζζ ζ ζζ ζ ζ

εε

+ + + + + ++ + + − ⟨ ≥ −

Mai departe, din proprietăţile operatorului D

( ) ( ) ( )n

C

n

nC

n

CCC

n

DDD

nD nn ==

+++≤

+++=

+++222

2121 ......... ζζζζζζ

Deci

( ) ( ) ( )1 21 2

2

......1nn

M M M CP

n n n

ζ ζ ζζ ζ ζε

ε

+ + ++ + +− ⟨ ≥ −

Trecând la limita pentru ∞→n obţinem

( ) ( ) ( )1 21 2......

lim 1nnn

M M MP

n n

ζ ζ ζζ ζ ζε→∞

+ + ++ + +− ⟨ ≥

şi cum probabilitatea nu poate depăşi 1,

( ) ( ) ( )1 21 2......

lim 1nnn

M M MP

n n

ζ ζ ζζ ζ ζε→∞

+ + ++ + +− ⟨ =

Cel mai frecvent, în practică, variabilele aleatoare iζ au aceiaşi medie µ şi concluzia teoremei devine

1...

lim 21 =

⟨−

+++∞→ εµ

ζζζ

nP n

n

În esenţă, teorema lui Cebâşev stabileşte că, deşi variabilele aleatoare independente pot lua

valori îndepărtate faţă de mediile lor, media aritmetică a unui număr suficient de mare de astfel de

Curs 2 4

variabile aleatoare ia cel mai probabil valori apropiate de un număr constant

( ) ( ) ( )1 2 ...n

M M M

n

ζ ζ ζ+ + + (sau µ atunci când mediile variabilelor sunt egale între ele).

Ca urmare, între comportarea fiecărei variabile aleatoare şi comportarea mediilor lor există

diferenţă esenţială. Putem spune foarte precis ce valoare va lua media aritmetică a acestor variabile

aleatoare. Explicaţia acestui fapt constă în aceea că abaterile diverselor variabile aleatoare sunt de

semne diferite şi, ca urmare, se compensează între ele.

TEORIA SELECŢIEI

Populaţii şi selecţii. Inferenţa statistică

În practică avem adesea nevoie să facem judecăţi asupra unor mari colecţii de rezultate posibile

experimental ori a altor cantităţi, dar nu putem sau este extrem de scump, să examinăm toate aceste

date. În astfel de cazuri, în loc să examinăm întregul set de date pe care îl numim în cele ce urmează

populaţie, tragem concluziile după examinarea a o parte din ele, alese la întâmplare, parte pe care o

numim selecţie.

Procedeul de obţinere a probelor este numit tot selecţie, iar procedeul de extrapolare a

concluziilor la întreaga populaţie este cunoscut ca inferenţa statistică.

Vom considera că o caracteristică dată a populaţiei este o variabilă aleatoare pe un câmp de

probabilitate ( )PK ,,Ω în care elementele lui Ω sunt chiar elementele populaţiei, iar P este o

probabilitate cunoscută sau nu.

Enumerarea valorilor observate ale caracteristicii urmărite şi a frecvenţelor lor relative defineşte

repartiţia statistică a selecţiei.

Teorema lui Leapunov, numită şi teorema fundamentală a statisticii matematice, care justifică

utilizarea metodei selecţiei stabileşte că funcţia de repartiţie statistică a caracteristicilor selecţiilor tinde

la funcţia teoretică de repartiţie a caracteristicii studiate când volmul selecţiei tinde la ∞.

Exemplu 1

Putem dori să tragem concluzii despre evoluţia rezistentei unei tulpini de germeni patologeni la

un medicament dat şi, în acest scop, examinăm rezultatele antibiogramelor făcute într-un eşantion de

spitale într-o perioadă recentă (luniile de iarnă), comparată cu aceeaşi perioadă a anului precedent. Deşi

rezultatele obţinute se referă la spitale şi mai precis numai la o parte din ele, concluziile le extindem la

scara întregii populaţii.

Curs 2 5

Exemplu 2

Rezultatele privind absorbţia unui medicament după administrarea orală prin determinarea

nivelurilor din plasma ale medicamentului la un lot de voluntari sănătoşi le considerăm ca rezultate

probabile pentru întreaga populaţie ce include şi potenţiali pacienţi.

Populaţia poate fi infinită sau finită, în ultimul caz, numărul indivizilor populaţiei – N- se mai

numeşte şi volumul populaţiei. În mod similar, numărul de indivizi sau valori din cadrul unei probe este

denumit volumul probei sau volumul eşantionului.

Valabilitatea concluziilor despre populaţie depinde de “reprezentativitatea” probei. Pentru

populaţii finite aceasta înseamnă că fiecare membru al populaţiei are aceeaşi şansă să fie selectat, când

spunem că selecţia este o selecţie la întâmplare sau “selecţie aleatoare”. Desigur că selecţia unor

voluntari sănătoşi pentru determinarea parametrilor farmacocinetici ai unui medicament nu este din

acest punct de vedere o selecţie reprezentativă. În cazurile în care avem motive să credem că patologia

căreia se adresează medicamentul nu afectează funcţiile metabolice şi de excreţie, această aproximare

este acceptată pentru motivul că o selecţie corectă ar implica loturi mult mai mari cu cheltuieli şi timp

de lucru mult crescute.

În practică, în studiile de bioechivalenţă, pentru reducerea volumului loturilor pe care se fac

testările, se administrează amândouă medicamentele la toţi membri lotului, în două perioade diferite.

Fiecare component al lotului primeşte unul din medicamente în prima perioadă şi celălalt în a doua

perioadă.

Deoarece perioada de administrare poate influenţa şi ea rezultatul experimentului, alegerea

indivizilor care vor primi în prima perioadă primul medicament se face în mod aleator. În cazul când

sunt mai multe perioade, de exemplu I-IV, şi mai multe medicamente A, B, C, D se alcătuieşte un tabel

de felul

I II III IV

A B D C

B C A D

C D B A

D A C B

Curs 2 6

aşa zisul pătrat “latin”, unde observăm că fiecare literă apare o singură dată în fiecare linie şi în fiecare

coloană. Se numeşte pătrat latin deoarece, cum se va arata mai departe, în cazul în care mai intervine şi

o altă variabilă, de exemplu doza din fiecare medicament, se folosesc şi litere grecesti, alcătuindu-se

pătrate “greco-latine”.

Deasemenea, studiile de bioechivalenţă se fac tot pe voluntari sănătoşi, pornind de la ipoteza că

modificările de biodisponibilitate asociate stărilor patologice sunt aceleaşi pentru cele două

medicamente testate, ceea ce, evident, este numai în parte adevărat.

În toate experimentele biologice, planificarea experimentului trebuie făcută în aşa fel încât

diferenţele în tratament să nu coincidă cu diferenţe în vârstă, sex, sau alţi parametri. Dacă, de exemplu,

femeile din lot primesc primul medicament şi bărbaţii al doilea, se spune ca diferenţele de sex sunt

“confundate” cu diferenţele de tratament. În acest caz nu se poate spune dacă diferenţele obţinute se

datorează tratamentului sau diferenţei de sex.

Parametrii de selecţie ai unei variabile aleatoare :

Dacă printr-un procedeu oarecare cuantificăm răspunsul culturilor microbiene la antibioticele

din exemplul 1, sau dacă luăm în consideraţie concentraţiile de medicament în sânge, din al doilea

exemplu, şi probabilităţile ca valorile să aparţină unor intervale diferite, obţinem o variabilă aleatoare X

asociată cu rezultatul experimentului corespunzător.

Parametrii acestei variabile aletoare sunt denumiţi, prin abuz de limbaj, “parametri ai

populaţiei”.

Dacă în exemplul al doilea Xi este concentraţia de medicament în sângele bolnavului i, la o oră

de la administrare, la primul voluntar putem obţine o valoare x1, pentru al doilea voluntar o valoare x2,

etc. În acest fel găsim valorile nxxx ,...,, 21 ale varibilelor aleatoare independente nXXX ,...,, 21 .

Media de selecţie este o variabilă aleatoare: n

XXXX n+++

=...21

Dacă distribuţia lui X este normală - ( )σµ,N , aceiaşi pentru fiecare i, datorită linearităţii

operatorului E care defineşte media, obţinem ( ) XM X µ µ= = adică valoarea pentru media mediei de

selecţie este media populaţiei.

Dacă la datele experimentale se adaugă o constantă, axx ii +=′ , media de selecţie creşte cu

aceeaşi constantă: ( )

aXn

aXW

n

i+=

+=∑1

Curs 2 7

Similar, dacă fiecare valoare se înmulţeşte cu o constanta ii kXZ = , media de selecţie Z se

înmulţeşte cu aceeaşi contantă: Xkn

kXZ

n

i==

∑1

Dispersia de selecţie

Ca o măsură a abaterii datelor faţă de media de selecţie, se introduce noţiunea de dispersie de

selecţie ( )2

1

2

1

1∑ −

−=

n

iX Xxn

S .

În aplicaţiile practice, pentru reducerea numărului de calcule, formula se aduce la o altă formă

şi anume:

( )

( )

−=

=

+−

−=

+−

−=−

−=

∑ ∑∑

∑∑ ∑∑

n

n

i

i

n

i

n

i

n n

ii

n

iX

n

xx

nXnx

n

XnXnxn

XnxXxn

Xxn

s

1

2

122

1

2

1

222

1

2

1

2

1

22

1

1

1

1

21

12

1

1

1

1

Dacă

222xzii sksakxz =⇒+= . Într-adevăr

( ) ( ) 222

11

22

1

1

1

1x

n

i

n

iZ skaXkakxn

Zzn

s =−−+−

=−−

= ∑∑

xs se numeşte abaterea standard de selecţie sau deviaţie standard, când nu este pericol de confutie

privind variabila aleatoare la care se referă folosindu-se şi notaţia d

s .

Se mai utilizează în practică şi noţiunile:

• Dispersia”populaţiei” = ( )2

11

1∑ −

n

i Xxn

şi respectiv

• Deviaţia standard a “populaţiei”, precum şi “abaterea standard a mediei” (prescurtarea SEM –

standard error of mean) definită prin raportul n

sSEM x=

• precum şi coeficientul de variatie *100xs

vX

= .

Covarianta de selecţie

Covarianta de selecţie se defineşte prin formula ( )( )YyXxn

s i

n

iXY −−−

= ∑11

1

Curs 2 8

Se observă că aceasta se mai poate scrie şi sub altă formă, mai utilă în sensul simplificărilor de

calcul în anumite aplicaţii.

( ) ( )

( )

−=−

=+−−−

=+−−−

=

∑ ∑ ∑∑

∑∑ ∑ ∑

n

n n

ii

ii

n

ii

n

ii

n n n

iiiiXY

n

yxyx

nYXnyx

n

YXnYXnYXnyxn

YXnxYyXyxn

s

1

1 1

1

11 1 1

1

1

1

1

1

1

1

1

Coeficientul de corelaţie de selecţie

Coeficientul de corelaţie de selecţie se defineşte prin formula

( )( )( )

( ) ( )

( ) ( )

( ) ( )

1 1

2 22 2

1 11 1

11,

1 11 1

n ni i i i

XY

n nn nX Yi ii i

x X y Y x X y Ys nx ys s

x X y Yx X y Yn n

ρ− − − −

−= = =

− −− −− −

∑ ∑

∑ ∑∑ ∑

Proprietăţi ale caracteristicilor de selecţie

Considerăm în continuare o selecţie de volum n dintr-o populaţie cu media µ si dispersia 2σ

Propoziţie

Media mediei de selecţie este egală cu media populaţiei. ( )M X µ=

Demonstraţie:

( ) ( ) ( )i iM x M x n

M Xn n n

µµ= = = =

∑ ∑

Propoziţie

Media dispersiei de selecţie este egală cu dispersia populaţiei ( )2 2X

M s σ=

Demonstraţie:

( ) ( ) ( )

( ) ( ) ( )

222 2

1 1 1 1

2

22 2 12 2 2

1 1 1

1 12

1 1

1 1 12

1 1 1

n n n n

X i i i

n

in n n

i i i

M s M x X M x X x xn n

xM x nX nX M x nX M x

n n n n

= − = − + =

− −

− + = − − = − − − −

∑ ∑ ∑ ∑

∑∑ ∑ ∑

Dar, mai departe

( ) ( )2 2 2

1

n

iM x n σ µ= +∑

Curs 2 9

( ) ( ) ( )

( ) ( )

( ) ( )

22 2

11 1 1

2 2 2 2 2 2

12 2

2

1

n n n n

i i i j i i ji j

n nM x M x x x M x M x M x

n n n n nσ µ µ σ µ

− = + = + =

= + + − = +

∑ ∑ ∑ ∑

şi înlocuind în expresia lui ( )2X

M s obţinem ( )( )2 2 2 2

2 2

1X

n nM s

n

σ µ σ µσ

+ − −= =

Propoziţie

Variabila aleatoare

n

xZ

σµ−

= tinde , când ∞→n către o variabilă ( )1,0N

Aceasta este o consecinţă a teoremei limită centrală şi este aplicabilă atât variabilelor continue cât şi

celor discrete.

Într-adevăr aplicând teorema lui Leapunov pentru variabilele aleatoare nxxx ,...,, 2, obţinem că:

( )

n

X

n

nXnxxx nn

σµ

σ

µ

σσσ

µµµ −=

−=

+++

+++−+++2222

2121

...

......

tinde către o variabilă aleatoare ( )1,0N .

Propoziţie

Dacă variabila aleatoare X este normal distribuită, atunci variabila aleatoare ( )2

2

XsnV −=

este repartizată ( )12 −nχ

Demonstraţie:

( )( ) ( ) ( )[ ]

( ) ( )( ) ( ) ( ) ( )( ) ( )

( ) ( )2

2

121

21

22

21 1 1

22

21

2

21

2

2

22

1

−=

−−−

=−+−−−−

=−+−−−−

=−−−

=−

=−=

∑∑

∑∑ ∑ ∑

∑∑

n

XxXnx

XnXnXnxXXxx

XxXxsnV

n i

n

i

n

i

n n n

ii

n

i

n

iX

σµ

σ

µ

σ

µµ

σ

µµµµ

σ

µµµµ

σ

µµ

σσ

Curs 2 10

Dar variabila aleatoare σ

µ−ix este repartizată ( )1,0N deoarece

( )iiM xx

Mµµ

σ σ

−− =

şi

( )1

2==

σσ

µ ii xDxD , iar

( )

n

X

σµ−

este repatizată tot ( )1,0N în conformitate cu teorema limită

centrală.

Deci, V este o sumă de n-1 pătrate de variabile de tip ( )1,0N .

Propoziţie

Dacă nxxx ,...,, 21 este o selecţie dintr-o populaţie normal distribuită, atunci variabila aleatoare

n

s

XT

µ−= este repartizată Student cu n grade de libertate.

Demonstraţie:

( )( ) 1

1 21

2

=

=

=−

∑n

V

Z

n

Xx

n

X

s

n

X

n

s

X

n

i

σ

σµ

σ

σµ

µ

unde

n

XZ

σµ−

= este repartizată ( )1,0N , iar ( )

21

2

σ

∑ −=

n

i XxV este repartizată ( )12 −nχ .

Deci, T este repartizată Student cu n-1 grade de libertate.

Propoziţie

Date fiind două selecţii aleatoare independente 111211 ,...,, nxxx si

2,...,, 2221 nxxx din populaţii

normal distribuite ( )11 ,σµN şi ( )22 ,σµN , variabila aleatoare

22

22

21

21

σ

σ

S

S

F = este repartizată Fisher –

Snedecor ( )1,1 21 −− nnF

Demonstraţie:

Curs 2 11

Avem într-adevar

( )( )

( )( ) 2

22

1

2

22

211

1

2

11

22

22

21

21

1

12

1

σ

σ

σ

σ

==

n

Xx

n

Xx

S

S

Fn

i

n

i

iar număratorul şi numitorul sunt repartizate, conform

propozitiei 2.3.5.4., respectiv ( )

1

1

1

12

n

nχşi

( )1

1

2

22

n

nχ.

Estimaţii

Teoria estimaţiei urmăreşte evaluarea parametrilor unei repartiţii în general cunoscute. Valorile

numerice obţinute se numesc estimaţii sau estimatori. Se obţin estimaţii punctuale în cazul în care se

folosesc datele selecţiei pentru a obţine valorile parametrilor şi estimaţii ale intervalelor de încredere în

cazul în care se determină un interval în care se află, cu o anumită probabilitate valoarea estimată.

Un estimator al parametrului θ se va nota cu θ . O estimaţie este nedeplasată dacă ( )ˆM θ θ= ,

adică media estimaţiei este egală chiar cu valoarea teoretică a parametrului estimat.

Conform proprietăţii 2.3.5.1, ( )M X µ= adică media de selecţie este un estimator nedeplasat al

mediei, iar conform proprietăţii 2.3.5.2., ( )2 2M s σ= adică dispersia de selecţie este un estimator

nedeplasat al dispersiei.

Problema estimării intervalelor se reduce la găsirea unui interval de încredere ( )UL θθ , cu un

coeficient de încredere α−1 astfel încât ( ) αθθθ −=⟨⟨ 1ULP .

Este de dorit ca α−1 să fie cât mai mare (de obicei este cuprins între 0,9 şi 0,99) iar intervalul

( )UL θθ , să fie cât mai mic. În stabilirea intervalelor se utilizează caracteristicile numerice cuantile. Se

numesc cuantile de ordin β valoarea βx a variabilei aleatoare x pentru care ( ) ( ) βββ =⟨= xxPxF

adică valoarea variabilei aleatoare care are la stânga ei aria β sub curba densităţii de probabilitate.

Evident:

22

αα =

⟨ xxP

21

21

αα −=

⟨ −xxP

ααα

αα −=−−=

⟨⟨ − 1

221

21

2

xxxP

Curs 2 12

Pentru a estima un interval se alege α−1 , se citesc din tabelele cuantilele, de exemplu 2

−x şi

2

αx şi se precizează intervalul. În prealabil, în funcţie de mărimea pentru care se caută intervalul se

precizează cu care din repartiţiile cunoscute trebuie lucrat.

Estimarea intervalelor de încredere pentru medii

Cazul când se cunoaste dispersia.

Se consideră o populaţie repartizată normal ( )2,σµN . Dacă se cunoaşte dispersia se poate folosi

faptul că

n

Xz

σµ−

= este repartizată ( )1,0N . Se notează cu αz cuantila de ordinul α pentru repartiţia

( )1,0N . Evident

ααα

αααα −=−−=

=

⟨⟨

−−1

221

221

21

2

zFzFzzzP

Aşadar intervalul

21

2

, αα zz este un interval de estimare cu coeficientul de încredere α−1 . Din

anumite puncte de vedere este recomandabil să se utilizeze acele intervale care lasă atât la dreapta cât şi

la stânga lor aceeaşi arie, egală cu 2

α.

Deoarece repartiţia ( )1,0N este simetrică faţă de axa Oy avem relaţia 2

12

αα−

−= zz

Din relaţiile

1 1 1 1 1 12 2 2 2 2 2

1 12 2

* *

* *

xz z z z z z x z

n n

n

x z x zn n

α α α α α α

α α

µ σ σµ

σ

σ σµ

− − − − − −

− −

−− ⟨ ⟨ ⇒ − ⟨ ⟨ ⇒ − ⟨ − ⟨ ⇒

− − ⟨ − ⟨ − +

rezultă

1 12 2

X z X zn n

α α

σ σµ

− −− ⟨ ⟨ +

Aşadar intervalul căutat este

Curs 2 13

( )

+−=

−− nzX

nzXUL

σσθθ αα

21

21

,,

Mărimea n

zEσ

α

21−

= poartă numele de eroare şi serveşte la calculul numărului de experienţe

2

21

=−

E

z

n

α

atunci când este impusă eroarea şi se alege un coeficient α−1

Metoda descrisă mai poate fi aplicată şi în cazul în care x nu este repartizată normal deoarece z este

repartizată ( )1,0N indiferent de repartiţia variabilelor nxxx ,...,, 21 (teorema limită centrală).

Cazul când dispersia este necunoscută

Dacă nu se cunoaste dispersia în estimarea intervalelor se utilizează dispersia de selecţie care este

un estimator nedeplasat al dispersiei deoarece ( ) 22 σ=sE

Se consideră nxxx ,...,, 21 o selecţie dintr-o populaţie de tipul ( )2,σµN .

Conform celor arătate anterior mărimea

n

s

XT

µ−= este repartizată ( )1−nT şi, ca urmare

1, 1,1 1,1 1,2 2 2 2

1 12 2n n n n

P t T t F t F tε ε α α

α αα

− − − − − −

⟨ ⟨ = − = − − = −

Deoarece repartitia Student este simetrică faţă de origine2

1,12

1,1αα

−−−−−=

nntt şi înlocuindu-l pe T în

relaţia anterioară, se obţine

1, 1,1 1, 1,12 2 2 2

1n n n n

XP t T t P t t

s

n

α α α α

µα

− − − − − −

⟨ ⟨ = ⟨ ⟨ = −

şi 1,1 1,1

2 2n n

s sX t X t

n nα αµ

− − − −− ⟨ ⟨ +

Ca urmare intervalul căutat este

( )

+−=

−−−− n

stX

n

stX

nnUL

21,1

21,1

,, ααθθ

În acest caz eroarea este

Curs 2 14

n

stE

n2

1,1α

−−=

Dacă numărul de experienţe este 30⟩n , se poate folosi aproximaţia

2

12

1,1αα

−−−= zt

n

Estimarea intervalului de încredere α−1 pentru diferenţei a două medii

Se consideră două selecţii din populaţii normal repartizate ( )211 ,σµN şi ( )2

22 ,σµN .

Cazul dispersiilor 22

21 ,σσ cunoscute.

Considerăm o selecţie aleatoare 111211 ,...,, nxxx din populaţia ( )2

11 ,σµN şi o selecţie

222221 ,...,, nxxx dintr-o populaţie ( )222 ,σµN . Estimatorii nedeplasaţi ai mediilor 1µ şi 2µ sunt:

1

1 11

1

n

xX

n

i∑= si

2

1 22

2

n

xX

n

i∑=

Considerând variabila aleatoare 21 XX − , ea este normal repartizată iar estimaţia şi dispersia ei vor fi

( ) ( ) ( )1 2 1 2 1 2M X X M X M X µ µ− = − = − şi ( ) ( ) ( )2

22

1

21

2121nn

XDXDXXDσσ

+=+=− unde am ţinut

cont că ix1 şi ix2 sunt independente.

Mai departe, variabila aleatoare ( ) ( )

( )( ) ( )

2

22

1

21

2121

21

2121

nn

XX

XXD

XXz

σσ

µµµµ

+

−−−=

−−−= este repartizată

N(0,1).

Deoarece, ααα −=

⟨⟨

−1

21

2

zzzP şi 2

12

αα−

−= zz rezult

( ) ( )2 2 2 21 2 1 2

1 2 1 2 1 21 1

1 2 1 22 2

X X z X X zn n n n

α α

σ σ σ σµ µ

− −− − + ⟨ − ⟨ − + +

Aşadar, intervalul de estimaţie pentru diferenţa mediilor este

( ) ( ) ( )

++−+−−=ΘΘ

−−2

22

1

21

21

212

22

1

21

21

2121 ,,nn

zXXnn

zXXσσσσ

αα

Curs 2 15

În acest caz, eroarea este 2

22

1

21

21 nn

zEσσ

α +=−

.

Dispersii necunoscute dar presupuse egale

În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale 222

21 σσσ == utilizăm dispersia

ponderată de selecţie

( ) ( ) ( ) ( )1 22 2

2 21 1 2 21 11 1 2 22

1 2 1 2

1 1

2 2

n n

i i

p

x X x Xn s n ss

n n n n

− + −− + −= =

+ − + −

∑ ∑

ca un estimator nedeplasat pentru 2σ .

Avem într-adevăr,

( )( ) ( ) ( ) ( ) ( ) ( )

2 2 2 21 1 2 2 1 1 2 22 2

1 2 1 2

1 1 1 1

2 2p

n M s n M s n nM s

n n n n

σ σσ

− + − − + −= = =

+ − + −

În continuare vom arăta că mărimea ( ) ( )

21

2121

11

nns

XXT

p +

−−−=

µµ este repartizată ( )221 −+ nnT

Se observă că

( ) ( )

21

2121

11

21

21

nn

s

XX

T

XX

p

XX

+

−−−

=

σ

σ

µµ

este raportul între o variabila aleatoare repartizată N(0,1) şi

deoarece

( ) ( )( ) 22

11

11

11

21

1 1

2

22

2

11

221

1 1

2

22

2

11

2

2

21

21

21

1 2

1 2

21

−+

−+

=−+

−+−

===+

+

=+

∑ ∑∑ ∑

nn

XxXx

nn

XxXx

ss

nn

nn

s

nn

s

n n iin n

ii

ppp

XX

p

σσ

σ

σσσ

σ

variabila 21

11

21nn

s

XX

p+

−σ

este de tipul ( )

2

2

21

212

−+

−+

nn

nnχ

Curs 2 16

Dar

2

1

111∑

−n i Xx

σeste repartizat ( )11

2 −nχ iar ∑

−2

1

2

22n i Xx

σeste repartizat ( )12

2 −nχ , deci T

este repartizat ( )221 −+ nnT şi

ααα

αα −=−−=

⟨⟨

−−+−+1

221

21,2

2,2 2121 nnnn

tTtP

Deoarece repartiţia Student este simetrică 2

1,22

,2 2121αα

−−+−+−=

nnnntt rezultă că

2121,2

2121212

1,221

1111

2121 nnstXX

nnstXX p

nnp

nn+−−⟨−⟨+−−

−−+−−+αα µµ

Deci, ( )

++−+−−=ΘΘ

−−+−−+212

1,221

2121,2

2121

11,

11,

1221 nn

stXXnn

stXX pnn

pnn

αα cu eroarea

2121,2

11

21 nnstE p

nn+=

−−+α .

Estimarea intervalelor de încredere pentru dispersie

Considerăm o selecţie de volum n dintr-o populaţie normală ( )2,σµN . Conform celor arătate

anterior variabila aleatoare ( )

2

21

σ

snv

−= este repartizată ( )12 −nχ şi ca urmare

ααα

χχ αα −=−−=

⟨⟨

−−−1

2212

21,1

2

2,1 nn

vP

Deci, ( ) 2

21,12

22

2,1

1 αα χσ

χ−−−

⟨−⟨nn

sn si

( ) ( )2

2,1

22

2

21,1

2 11

αα χσ

χ−−−

−⟨⟨

nn

snsn.

Estimarea intervalului de încredere raportul a două dispersii

Se consideră selecţia aleatoare 111211 ,...,, nxxx dintr-o populaţie ( )2

1, ,σµN şi o selecţie

222221 ,...,, nxxx dintr-o populaţie ( )222 ,σµN .

Curs 2 17

Conform cu cele arătate anterior, raportul

22

22

21

21

σ

σ

s

s

F = este repartizat ( )1,1 21 −− nnF şi deci

ααα

αα −=−−=

⟨⟨

−−−−−1

221

21,1,1

2,1,1 2121 nnnn

fFfP

Rezultă că 2

1,1,121

22

21

22

2,1,12

1

22

2121αα

σ

σ−−−−−

⟨⟨nnnn

fs

sf

s

s , iar intervalul de estimaţie pentru raportul

dispersiilor este:

( )

=ΘΘ

−−−−−2

1,1,121

22

2,1,12

1

22

2121

,, ααnnnn

UL fs

sf

s

s

Aplicaţie: Utilizarea intervalelor de încredere în studiile de comparare a biodisponibilităţii

medicamentelor1

La introducerea în terapie de către un producător a unui medicament ce reprezintă o reproducere

a altui medicament deja în uz, se pune problema comparării biodisponibilităţii acestora. În practică se

cere ca raportul ariilor de sub curbele concentraţiilor plasmatice ale celor două medicamente să se afle

in intervalul 0,8 - 1,25.

0,8 1, 25T

AUC

R

AUC

µ

µ⟨ ⟨

unde indicele T se referă la medicamentul testat şi R desemnează medicamentul referinţă.

Atunci însă când ariile de sub curbă prezintă variabilităţi intra şi interindividuale considerabile

(determinările de biodisponiblitate se fac pe loturi de circa 10 – 20 de voluntari sănătoşi) este de

preferat a se determina un interval de încredere pentru media ariei realizată de medicamentul nou.

Pornind de la faptul ca ( ) ( )

1 1

R T R T

p

R T

X XT

sn n

µ µ− − −=

+

este repartizată ( )2R TT n n+ − se deduce un

interval de încredere cu probabilitatea α−1 pentru T R

µ µ−

1 12 2

T R T RT RX X t X X tα αµ µ

− −− − ⟨ − ⟨ − +

Curs 2 18

unde am notat 1 1

p

R T

s sn n

= + .

După cum se va arăta mai departe, această estimare este puţin utilă în caz că p

s reprezintă

practic intervariabilitatea, iar interschimbabilitatea care necesită bioechivalenţă trebuie să se bazeze pe

intravariabilitatea.

Curs 2 19

STATISTICĂ MATEMATICĂ ŞI BIOSTATISTICĂ

Statistica matematică este principala aplicaţie a teoriei probabilităţilor. Procedeele statistice

constau, în esenţă, în elaborarea unor concluzii plauzibile privitoare la colectivităţi mari de fenomene,

pe baza cunoaşterii unui număr restrâns dintre acestea şi extrapolării rezultatelor.

Legile care stau la baza statisticii şi care permit aceste generalizări sunt teorema limită centrală

şi legea numerelor mari.

Într-o exprimare intuitivă, avem rezultatul că, dacă o variabilă aleatoare ξ este suma unui

număr mare de variabile aleatoare independente, fiecare variabilă aleatoare având o pondere mică în

sumă, atunci funcţia de repartiţie a variabilei aleatoare ξ este foarte apropiată de o funcţie de repartiţie

normală.

Exprimat mai riguros şi mai general, avem următoarea teoremă:

Teorema limită centrală (A.M.Leapunov)

Fie nξξξ ,...,, 21 variabile aleatoare independente.

Fie ( ) ( ) 2,k k k kM a Dξ ξ σ= = şi ( )33kkk mM −= ξρ când nk ,1=

Notăm ( ) ∑=n

in 1

22 σσ , ( ) ∑=n

in 1

33 ρρ

Dacă ( )

( )

0lim =∞→

n

n

ρ , atunci funcţia de repartiţie a variabilei

( )

( )n

nn aaa

σ

ξξξ +++−+++ ...... 2121

tinde, când ∞→n , către funcţia ( )xΦ a lui Laplace.

( )2

21

2

z t

x e dtπ

−∞

Φ = ∫

Teorema limită centrală este teorema fundamentală a teoriei erorilor. Laplace, Gauss şi alţi

matematicieni, studiind repartiţia erorilor, au ajuns la concluzia că funcţia de repartiţie normală poate fi

luată drept model teoretic pentru cercetarea probabilistică a aproape tuturor fenomenelor naturii.

Teorema lui Cebâşev

Dacă nζζζ ,...,, 21 sunt variabile aleatoare (discrete sau continue) independente ale căror

dispersii sunt mai mici decât o constantă C, atunci oricare ar fi numărul pozitiv ε, probabilitatea

inegalităţii

Curs 2 20

( ) ( ) ( )1 21 2

...... nnM M M

n n

ζ ζ ζζ ζ ζε

+ + ++ + +− ⟨

tinde către 1, atunci când numărul variabilelor aleatoare tinde către infinit.

Demonstraţie:

Să considerăm variabila aleatoare n

nζζζζ

+++=

...21 . Având în vedere liniaritatea

operatorului de calcul a mediei avem ( ) ( ) ( ) ( )1 2 ...n

M M MM

n

ζ ζ ζζ

+ + += .

Aplicând inegalitatea lui Cebâşev variabilei aleatoare ζ se obţine:

( ) ( ) ( )1 2

1 21 22

.........

1

n

nn

DM M M n

Pn n

ζ ζ ζζ ζ ζζ ζ ζ

εε

+ + + + + ++ + + − ⟨ ≥ −

Mai departe, din proprietăţile operatorului D

( ) ( ) ( )n

C

n

nC

n

CCC

n

DDD

nD nn ==

+++≤

+++=

+++222

2121 ......... ζζζζζζ

Deci

( ) ( ) ( )1 21 2

2

......1nn

M M M CP

n n n

ζ ζ ζζ ζ ζε

ε

+ + ++ + +− ⟨ ≥ −

Trecând la limita pentru ∞→n obţinem

( ) ( ) ( )1 21 2......

lim 1nnn

M M MP

n n

ζ ζ ζζ ζ ζε→∞

+ + ++ + +− ⟨ ≥

şi cum probabilitatea nu poate depăşi 1,

( ) ( ) ( )1 21 2......

lim 1nnn

M M MP

n n

ζ ζ ζζ ζ ζε→∞

+ + ++ + +− ⟨ =

Cel mai frecvent, în practică, variabilele aleatoare iζ au aceiaşi medie µ şi concluzia teoremei devine

1...

lim 21 =

⟨−

+++∞→ εµ

ζζζ

nP n

n

În esenţă, teorema lui Cebâşev stabileşte că, deşi variabilele aleatoare independente pot lua

valori îndepărtate faţă de mediile lor, media aritmetică a unui număr suficient de mare de astfel de

Curs 2 21

variabile aleatoare ia cel mai probabil valori apropiate de un număr constant

( ) ( ) ( )1 2 ...n

M M M

n

ζ ζ ζ+ + + (sau µ atunci când mediile variabilelor sunt egale între ele).

Ca urmare, între comportarea fiecărei variabile aleatoare şi comportarea mediilor lor există

diferenţă esenţială. Putem spune foarte precis ce valoare va lua media aritmetică a acestor variabile

aleatoare. Explicaţia acestui fapt constă în aceea că abaterile diverselor variabile aleatoare sunt de

semne diferite şi, ca urmare, se compensează între ele.

TEORIA SELECŢIEI

Populaţii şi selecţii. Inferenţa statistică

În practică avem adesea nevoie să facem judecăţi asupra unor mari colecţii de rezultate posibile

experimental ori a altor cantităţi, dar nu putem sau este extrem de scump, să examinăm toate aceste

date. În astfel de cazuri, în loc să examinăm întregul set de date pe care îl numim în cele ce urmează

populaţie, tragem concluziile după examinarea a o parte din ele, alese la întâmplare, parte pe care o

numim selecţie.

Procedeul de obţinere a probelor este numit tot selecţie, iar procedeul de extrapolare a

concluziilor la întreaga populaţie este cunoscut ca inferenţa statistică.

Vom considera că o caracteristică dată a populaţiei este o variabilă aleatoare pe un câmp de

probabilitate ( )PK ,,Ω în care elementele lui Ω sunt chiar elementele populaţiei, iar P este o

probabilitate cunoscută sau nu.

Enumerarea valorilor observate ale caracteristicii urmărite şi a frecvenţelor lor relative defineşte

repartiţia statistică a selecţiei.

Teorema lui Leapunov, numită şi teorema fundamentală a statisticii matematice, care justifică

utilizarea metodei selecţiei stabileşte că funcţia de repartiţie statistică a caracteristicilor selecţiilor tinde

la funcţia teoretică de repartiţie a caracteristicii studiate când volmul selecţiei tinde la ∞.

Exemplu 1

Putem dori să tragem concluzii despre evoluţia rezistentei unei tulpini de germeni patologeni la

un medicament dat şi, în acest scop, examinăm rezultatele antibiogramelor făcute într-un eşantion de

spitale într-o perioadă recentă (luniile de iarnă), comparată cu aceeaşi perioadă a anului precedent. Deşi

rezultatele obţinute se referă la spitale şi mai precis numai la o parte din ele, concluziile le extindem la

scara întregii populaţii.

Curs 2 22

Exemplu 2

Rezultatele privind absorbţia unui medicament după administrarea orală prin determinarea

nivelurilor din plasma ale medicamentului la un lot de voluntari sănătoşi le considerăm ca rezultate

probabile pentru întreaga populaţie ce include şi potenţiali pacienţi.

Populaţia poate fi infinită sau finită, în ultimul caz, numărul indivizilor populaţiei – N- se mai

numeşte şi volumul populaţiei. În mod similar, numărul de indivizi sau valori din cadrul unei probe este

denumit volumul probei sau volumul eşantionului.

Valabilitatea concluziilor despre populaţie depinde de “reprezentativitatea” probei. Pentru

populaţii finite aceasta înseamnă că fiecare membru al populaţiei are aceeaşi şansă să fie selectat, când

spunem că selecţia este o selecţie la întâmplare sau “selecţie aleatoare”. Desigur că selecţia unor

voluntari sănătoşi pentru determinarea parametrilor farmacocinetici ai unui medicament nu este din

acest punct de vedere o selecţie reprezentativă. În cazurile în care avem motive să credem că patologia

căreia se adresează medicamentul nu afectează funcţiile metabolice şi de excreţie, această aproximare

este acceptată pentru motivul că o selecţie corectă ar implica loturi mult mai mari cu cheltuieli şi timp

de lucru mult crescute.

În practică, în studiile de bioechivalenţă, pentru reducerea volumului loturilor pe care se fac

testările, se administrează amândouă medicamentele la toţi membri lotului, în două perioade diferite.

Fiecare component al lotului primeşte unul din medicamente în prima perioadă şi celălalt în a doua

perioadă.

Deoarece perioada de administrare poate influenţa şi ea rezultatul experimentului, alegerea

indivizilor care vor primi în prima perioadă primul medicament se face în mod aleator. În cazul când

sunt mai multe perioade, de exemplu I-IV, şi mai multe medicamente A, B, C, D se alcătuieşte un tabel

de felul

I II III IV

A B D C

B C A D

C D B A

D A C B

Curs 2 23

aşa zisul pătrat “latin”, unde observăm că fiecare literă apare o singură dată în fiecare linie şi în fiecare

coloană. Se numeşte pătrat latin deoarece, cum se va arata mai departe, în cazul în care mai intervine şi

o altă variabilă, de exemplu doza din fiecare medicament, se folosesc şi litere grecesti, alcătuindu-se

pătrate “greco-latine”.

Deasemenea, studiile de bioechivalenţă se fac tot pe voluntari sănătoşi, pornind de la ipoteza că

modificările de biodisponibilitate asociate stărilor patologice sunt aceleaşi pentru cele două

medicamente testate, ceea ce, evident, este numai în parte adevărat.

În toate experimentele biologice, planificarea experimentului trebuie făcută în aşa fel încât

diferenţele în tratament să nu coincidă cu diferenţe în vârstă, sex, sau alţi parametri. Dacă, de exemplu,

femeile din lot primesc primul medicament şi bărbaţii al doilea, se spune ca diferenţele de sex sunt

“confundate” cu diferenţele de tratament. În acest caz nu se poate spune dacă diferenţele obţinute se

datorează tratamentului sau diferenţei de sex.

Parametrii de selecţie ai unei variabile aleatoare :

Dacă printr-un procedeu oarecare cuantificăm răspunsul culturilor microbiene la antibioticele

din exemplul 1, sau dacă luăm în consideraţie concentraţiile de medicament în sânge, din al doilea

exemplu, şi probabilităţile ca valorile să aparţină unor intervale diferite, obţinem o variabilă aleatoare X

asociată cu rezultatul experimentului corespunzător.

Parametrii acestei variabile aletoare sunt denumiţi, prin abuz de limbaj, “parametri ai

populaţiei”.

Dacă în exemplul al doilea Xi este concentraţia de medicament în sângele bolnavului i, la o oră

de la administrare, la primul voluntar putem obţine o valoare x1, pentru al doilea voluntar o valoare x2,

etc. În acest fel găsim valorile nxxx ,...,, 21 ale varibilelor aleatoare independente nXXX ,...,, 21 .

Media de selecţie este o variabilă aleatoare: n

XXXX n+++

=...21

Dacă distribuţia lui X este normală - ( )σµ,N , aceiaşi pentru fiecare i, datorită linearităţii

operatorului E care defineşte media, obţinem ( ) XM X µ µ= = adică valoarea pentru media mediei de

selecţie este media populaţiei.

Dacă la datele experimentale se adaugă o constantă, axx ii +=′ , media de selecţie creşte cu

aceeaşi constantă: ( )

aXn

aXW

n

i+=

+=∑1

Curs 2 24

Similar, dacă fiecare valoare se înmulţeşte cu o constanta ii kXZ = , media de selecţie Z se

înmulţeşte cu aceeaşi contantă: Xkn

kXZ

n

i==

∑1

Dispersia de selecţie

Ca o măsură a abaterii datelor faţă de media de selecţie, se introduce noţiunea de dispersie de

selecţie ( )2

1

2

1

1∑ −

−=

n

iX Xxn

S .

În aplicaţiile practice, pentru reducerea numărului de calcule, formula se aduce la o altă formă

şi anume:

( )

( )

−=

=

+−

−=

+−

−=−

−=

∑ ∑∑

∑∑ ∑∑

n

n

i

i

n

i

n

i

n n

ii

n

iX

n

xx

nXnx

n

XnXnxn

XnxXxn

Xxn

s

1

2

122

1

2

1

222

1

2

1

2

1

22

1

1

1

1

21

12

1

1

1

1

Dacă

222xzii sksakxz =⇒+= . Într-adevăr

( ) ( ) 222

11

22

1

1

1

1x

n

i

n

iZ skaXkakxn

Zzn

s =−−+−

=−−

= ∑∑

xs se numeşte abaterea standard de selecţie sau deviaţie standard, când nu este pericol de confutie

privind variabila aleatoare la care se referă folosindu-se şi notaţia d

s .

Se mai utilizează în practică şi noţiunile:

• Dispersia”populaţiei” = ( )2

11

1∑ −

n

i Xxn

şi respectiv

• Deviaţia standard a “populaţiei”, precum şi “abaterea standard a mediei” (prescurtarea SEM –

standard error of mean) definită prin raportul n

sSEM x=

• precum şi coeficientul de variatie *100xs

vX

= .

Covarianta de selecţie

Covarianta de selecţie se defineşte prin formula ( )( )YyXxn

s i

n

iXY −−−

= ∑11

1

Curs 2 25

Se observă că aceasta se mai poate scrie şi sub altă formă, mai utilă în sensul simplificărilor de

calcul în anumite aplicaţii.

( ) ( )

( )

−=−

=+−−−

=+−−−

=

∑ ∑ ∑∑

∑∑ ∑ ∑

n

n n

ii

ii

n

ii

n

ii

n n n

iiiiXY

n

yxyx

nYXnyx

n

YXnYXnYXnyxn

YXnxYyXyxn

s

1

1 1

1

11 1 1

1

1

1

1

1

1

1

1

Coeficientul de corelaţie de selecţie

Coeficientul de corelaţie de selecţie se defineşte prin formula

( )( )( )

( ) ( )

( ) ( )

( ) ( )

1 1

2 22 2

1 11 1

11,

1 11 1

n ni i i i

XY

n nn nX Yi ii i

x X y Y x X y Ys nx ys s

x X y Yx X y Yn n

ρ− − − −

−= = =

− −− −− −

∑ ∑

∑ ∑∑ ∑

Proprietăţi ale caracteristicilor de selecţie

Considerăm în continuare o selecţie de volum n dintr-o populaţie cu media µ si dispersia 2σ

Propoziţie

Media mediei de selecţie este egală cu media populaţiei. ( )M X µ=

Demonstraţie:

( ) ( ) ( )i iM x M x n

M Xn n n

µµ= = = =

∑ ∑

Propoziţie

Media dispersiei de selecţie este egală cu dispersia populaţiei ( )2 2X

M s σ=

Demonstraţie:

( ) ( ) ( )

( ) ( ) ( )

222 2

1 1 1 1

2

22 2 12 2 2

1 1 1

1 12

1 1

1 1 12

1 1 1

n n n n

X i i i

n

in n n

i i i

M s M x X M x X x xn n

xM x nX nX M x nX M x

n n n n

= − = − + =

− −

− + = − − = − − − −

∑ ∑ ∑ ∑

∑∑ ∑ ∑

Dar, mai departe

( ) ( )2 2 2

1

n

iM x n σ µ= +∑

Curs 2 26

( ) ( ) ( )

( ) ( )

( ) ( )

22 2

11 1 1

2 2 2 2 2 2

12 2

2

1

n n n n

i i i j i i ji j

n nM x M x x x M x M x M x

n n n n nσ µ µ σ µ

− = + = + =

= + + − = +

∑ ∑ ∑ ∑

şi înlocuind în expresia lui ( )2X

M s obţinem ( )( )2 2 2 2

2 2

1X

n nM s

n

σ µ σ µσ

+ − −= =

Propoziţie

Variabila aleatoare

n

xZ

σµ−

= tinde , când ∞→n către o variabilă ( )1,0N

Aceasta este o consecinţă a teoremei limită centrală şi este aplicabilă atât variabilelor continue cât şi

celor discrete.

Într-adevăr aplicând teorema lui Leapunov pentru variabilele aleatoare nxxx ,...,, 2, obţinem că:

( )

n

X

n

nXnxxx nn

σµ

σ

µ

σσσ

µµµ −=

−=

+++

+++−+++2222

2121

...

......

tinde către o variabilă aleatoare ( )1,0N .

Propoziţie

Dacă variabila aleatoare X este normal distribuită, atunci variabila aleatoare ( )2

2

XsnV −=

este repartizată ( )12 −nχ

Demonstraţie:

( )( ) ( ) ( )[ ]

( ) ( )( ) ( ) ( ) ( )( ) ( )

( ) ( )2

2

121

21

22

21 1 1

22

21

2

21

2

2

22

1

−=

−−−

=−+−−−−

=−+−−−−

=−−−

=−

=−=

∑∑

∑∑ ∑ ∑

∑∑

n

XxXnx

XnXnXnxXXxx

XxXxsnV

n i

n

i

n

i

n n n

ii

n

i

n

iX

σµ

σ

µ

σ

µµ

σ

µµµµ

σ

µµµµ

σ

µµ

σσ

Curs 2 27

Dar variabila aleatoare σ

µ−ix este repartizată ( )1,0N deoarece

( )iiM xx

Mµµ

σ σ

−− =

şi

( )1

2==

σσ

µ ii xDxD , iar

( )

n

X

σµ−

este repatizată tot ( )1,0N în conformitate cu teorema limită

centrală.

Deci, V este o sumă de n-1 pătrate de variabile de tip ( )1,0N .

Propoziţie

Dacă nxxx ,...,, 21 este o selecţie dintr-o populaţie normal distribuită, atunci variabila aleatoare

n

s

XT

µ−= este repartizată Student cu n grade de libertate.

Demonstraţie:

( )( ) 1

1 21

2

=

=

=−

∑n

V

Z

n

Xx

n

X

s

n

X

n

s

X

n

i

σ

σµ

σ

σµ

µ

unde

n

XZ

σµ−

= este repartizată ( )1,0N , iar ( )

21

2

σ

∑ −=

n

i XxV este repartizată ( )12 −nχ .

Deci, T este repartizată Student cu n-1 grade de libertate.

Propoziţie

Date fiind două selecţii aleatoare independente 111211 ,...,, nxxx si

2,...,, 2221 nxxx din populaţii

normal distribuite ( )11 ,σµN şi ( )22 ,σµN , variabila aleatoare

22

22

21

21

σ

σ

S

S

F = este repartizată Fisher –

Snedecor ( )1,1 21 −− nnF

Demonstraţie:

Curs 2 28

Avem într-adevar

( )( )

( )( ) 2

22

1

2

22

211

1

2

11

22

22

21

21

1

12

1

σ

σ

σ

σ

==

n

Xx

n

Xx

S

S

Fn

i

n

i

iar număratorul şi numitorul sunt repartizate, conform

propozitiei 2.3.5.4., respectiv ( )

1

1

1

12

n

nχşi

( )1

1

2

22

n

nχ.

Estimaţii

Teoria estimaţiei urmăreşte evaluarea parametrilor unei repartiţii în general cunoscute. Valorile

numerice obţinute se numesc estimaţii sau estimatori. Se obţin estimaţii punctuale în cazul în care se

folosesc datele selecţiei pentru a obţine valorile parametrilor şi estimaţii ale intervalelor de încredere în

cazul în care se determină un interval în care se află, cu o anumită probabilitate valoarea estimată.

Un estimator al parametrului θ se va nota cu θ . O estimaţie este nedeplasată dacă ( )ˆM θ θ= ,

adică media estimaţiei este egală chiar cu valoarea teoretică a parametrului estimat.

Conform proprietăţii 2.3.5.1, ( )M X µ= adică media de selecţie este un estimator nedeplasat al

mediei, iar conform proprietăţii 2.3.5.2., ( )2 2M s σ= adică dispersia de selecţie este un estimator

nedeplasat al dispersiei.

Problema estimării intervalelor se reduce la găsirea unui interval de încredere ( )UL θθ , cu un

coeficient de încredere α−1 astfel încât ( ) αθθθ −=⟨⟨ 1ULP .

Este de dorit ca α−1 să fie cât mai mare (de obicei este cuprins între 0,9 şi 0,99) iar intervalul

( )UL θθ , să fie cât mai mic. În stabilirea intervalelor se utilizează caracteristicile numerice cuantile. Se

numesc cuantile de ordin β valoarea βx a variabilei aleatoare x pentru care ( ) ( ) βββ =⟨= xxPxF

adică valoarea variabilei aleatoare care are la stânga ei aria β sub curba densităţii de probabilitate.

Evident:

22

αα =

⟨ xxP

21

21

αα −=

⟨ −xxP

Curs 2 29

ααα

αα −=−−=

⟨⟨ − 1

221

21

2

xxxP

Pentru a estima un interval se alege α−1 , se citesc din tabelele cuantilele, de exemplu 2

−x şi

2

αx şi se precizează intervalul. În prealabil, în funcţie de mărimea pentru care se caută intervalul se

precizează cu care din repartiţiile cunoscute trebuie lucrat.

Estimarea intervalelor de încredere pentru medii

2.4.1.1.Cazul când se cunoaste dispersia.

Se consideră o populaţie repartizată normal ( )2,σµN . Dacă se cunoaşte dispersia se poate folosi

faptul că

n

Xz

σµ−

= este repartizată ( )1,0N . Se notează cu αz cuantila de ordinul α pentru repartiţia

( )1,0N . Evident

ααα

αααα −=−−=

=

⟨⟨

−−1

221

221

21

2

zFzFzzzP

Aşadar intervalul

21

2

, αα zz este un interval de estimare cu coeficientul de încredere α−1 . Din

anumite puncte de vedere este recomandabil să se utilizeze acele intervale care lasă atât la dreapta cât şi

la stânga lor aceeaşi arie, egală cu 2

α.

Deoarece repartiţia ( )1,0N este simetrică faţă de axa Oy avem relaţia 2

12

αα−

−= zz

Din relaţiile

1 1 1 1 1 12 2 2 2 2 2

1 12 2

* *

* *

xz z z z z z x z

n n

n

x z x zn n

α α α α α α

α α

µ σ σµ

σ

σ σµ

− − − − − −

− −

−− ⟨ ⟨ ⇒ − ⟨ ⟨ ⇒ − ⟨ − ⟨ ⇒

− − ⟨ − ⟨ − +

rezultă

1 12 2

X z X zn n

α α

σ σµ

− −− ⟨ ⟨ +

Curs 2 30

Aşadar intervalul căutat este

( )

+−=

−− nzX

nzXUL

σσθθ αα

21

21

,,

Mărimea n

zEσ

α

21−

= poartă numele de eroare şi serveşte la calculul numărului de experienţe

2

21

=−

E

z

n

α

atunci când este impusă eroarea şi se alege un coeficient α−1

Metoda descrisă mai poate fi aplicată şi în cazul în care x nu este repartizată normal deoarece z este

repartizată ( )1,0N indiferent de repartiţia variabilelor nxxx ,...,, 21 (teorema limită centrală).

Cazul când dispersia este necunoscută

Dacă nu se cunoaste dispersia în estimarea intervalelor se utilizează dispersia de selecţie care este

un estimator nedeplasat al dispersiei deoarece ( ) 22 σ=sE

Se consideră nxxx ,...,, 21 o selecţie dintr-o populaţie de tipul ( )2,σµN .

Conform celor arătate anterior mărimea

n

s

XT

µ−= este repartizată ( )1−nT şi, ca urmare

1, 1,1 1,1 1,2 2 2 2

1 12 2n n n n

P t T t F t F tε ε α α

α αα

− − − − − −

⟨ ⟨ = − = − − = −

Deoarece repartitia Student este simetrică faţă de origine2

1,12

1,1αα

−−−−−=

nntt şi înlocuindu-l pe T în

relaţia anterioară, se obţine

1, 1,1 1, 1,12 2 2 2

1n n n n

XP t T t P t t

s

n

α α α α

µα

− − − − − −

⟨ ⟨ = ⟨ ⟨ = −

şi 1,1 1,1

2 2n n

s sX t X t

n nα αµ

− − − −− ⟨ ⟨ +

Ca urmare intervalul căutat este

( )

+−=

−−−− n

stX

n

stX

nnUL

21,1

21,1

,, ααθθ

Curs 2 31

În acest caz eroarea este

n

stE

n2

1,1α

−−=

Dacă numărul de experienţe este 30⟩n , se poate folosi aproximaţia

2

12

1,1αα

−−−= zt

n

Estimarea intervalului de încredere α−1 pentru diferenţei a două medii

Se consideră două selecţii din populaţii normal repartizate ( )211 ,σµN şi ( )2

22 ,σµN .

Cazul dispersiilor 22

21 ,σσ cunoscute.

Considerăm o selecţie aleatoare 111211 ,...,, nxxx din populaţia ( )2

11 ,σµN şi o selecţie

222221 ,...,, nxxx dintr-o populaţie ( )222 ,σµN . Estimatorii nedeplasaţi ai mediilor 1µ şi 2µ sunt:

1

1 11

1

n

xX

n

i∑= si

2

1 22

2

n

xX

n

i∑=

Considerând variabila aleatoare 21 XX − , ea este normal repartizată iar estimaţia şi dispersia ei vor fi

( ) ( ) ( )1 2 1 2 1 2M X X M X M X µ µ− = − = − şi ( ) ( ) ( )2

22

1

21

2121nn

XDXDXXDσσ

+=+=− unde am ţinut

cont că ix1 şi ix2 sunt independente.

Mai departe, variabila aleatoare ( ) ( )

( )( ) ( )

2

22

1

21

2121

21

2121

nn

XX

XXD

XXz

σσ

µµµµ

+

−−−=

−−−= este repartizată

N(0,1).

Deoarece, ααα −=

⟨⟨

−1

21

2

zzzP şi 2

12

αα−

−= zz rezult

( ) ( )2 2 2 21 2 1 2

1 2 1 2 1 21 1

1 2 1 22 2

X X z X X zn n n n

α α

σ σ σ σµ µ

− −− − + ⟨ − ⟨ − + +

Aşadar, intervalul de estimaţie pentru diferenţa mediilor este

( ) ( ) ( )

++−+−−=ΘΘ

−−2

22

1

21

21

212

22

1

21

21

2121 ,,nn

zXXnn

zXXσσσσ

αα

Curs 2 32

În acest caz, eroarea este 2

22

1

21

21 nn

zEσσ

α +=−

.

Dispersii necunoscute dar presupuse egale

În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale 222

21 σσσ == utilizăm dispersia

ponderată de selecţie

( ) ( ) ( ) ( )1 22 2

2 21 1 2 21 11 1 2 22

1 2 1 2

1 1

2 2

n n

i i

p

x X x Xn s n ss

n n n n

− + −− + −= =

+ − + −

∑ ∑

ca un estimator nedeplasat pentru 2σ .

Avem într-adevăr,

( )( ) ( ) ( ) ( ) ( ) ( )

2 2 2 21 1 2 2 1 1 2 22 2

1 2 1 2

1 1 1 1

2 2p

n M s n M s n nM s

n n n n

σ σσ

− + − − + −= = =

+ − + −

În continuare vom arăta că mărimea ( ) ( )

21

2121

11

nns

XXT

p +

−−−=

µµ este repartizată ( )221 −+ nnT

Se observă că

( ) ( )

21

2121

11

21

21

nn

s

XX

T

XX

p

XX

+

−−−

=

σ

σ

µµ

este raportul între o variabila aleatoare repartizată N(0,1) şi

deoarece

( ) ( )( ) 22

11

11

11

21

1 1

2

22

2

11

221

1 1

2

22

2

11

2

2

21

21

21

1 2

1 2

21

−+

−+

=−+

−+−

===+

+

=+

∑ ∑∑ ∑

nn

XxXx

nn

XxXx

ss

nn

nn

s

nn

s

n n iin n

ii

ppp

XX

p

σσ

σ

σσσ

σ

variabila 21

11

21nn

s

XX

p+

−σ

este de tipul ( )

2

2

21

212

−+

−+

nn

nnχ

Curs 2 33

Dar

2

1

111∑

−n i Xx

σeste repartizat ( )11

2 −nχ iar ∑

−2

1

2

22n i Xx

σeste repartizat ( )12

2 −nχ , deci T

este repartizat ( )221 −+ nnT şi

ααα

αα −=−−=

⟨⟨

−−+−+1

221

21,2

2,2 2121 nnnn

tTtP

Deoarece repartiţia Student este simetrică 2

1,22

,2 2121αα

−−+−+−=

nnnntt rezultă că

2121,2

2121212

1,221

1111

2121 nnstXX

nnstXX p

nnp

nn+−−⟨−⟨+−−

−−+−−+αα µµ

Deci, ( )

++−+−−=ΘΘ

−−+−−+212

1,221

2121,2

2121

11,

11,

1221 nn

stXXnn

stXX pnn

pnn

αα cu eroarea

2121,2

11

21 nnstE p

nn+=

−−+α .

Estimarea intervalelor de încredere pentru dispersie

Considerăm o selecţie de volum n dintr-o populaţie normală ( )2,σµN . Conform celor arătate

anterior variabila aleatoare ( )

2

21

σ

snv

−= este repartizată ( )12 −nχ şi ca urmare

ααα

χχ αα −=−−=

⟨⟨

−−−1

2212

21,1

2

2,1 nn

vP

Deci, ( ) 2

21,12

22

2,1

1 αα χσ

χ−−−

⟨−⟨nn

sn si

( ) ( )2

2,1

22

2

21,1

2 11

αα χσ

χ−−−

−⟨⟨

nn

snsn.

Estimarea intervalului de încredere raportul a două dispersii

Se consideră selecţia aleatoare 111211 ,...,, nxxx dintr-o populaţie ( )2

1, ,σµN şi o selecţie

222221 ,...,, nxxx dintr-o populaţie ( )222 ,σµN .

Curs 2 34

Conform cu cele arătate anterior, raportul

22

22

21

21

σ

σ

s

s

F = este repartizat ( )1,1 21 −− nnF şi deci

ααα

αα −=−−=

⟨⟨

−−−−−1

221

21,1,1

2,1,1 2121 nnnn

fFfP

Rezultă că 2

1,1,121

22

21

22

2,1,12

1

22

2121αα

σ

σ−−−−−

⟨⟨nnnn

fs

sf

s

s , iar intervalul de estimaţie pentru raportul

dispersiilor este:

( )

=ΘΘ

−−−−−2

1,1,121

22

2,1,12

1

22

2121

,, ααnnnn

UL fs

sf

s

s

Aplicaţie: Utilizarea intervalelor de încredere în studiile de comparare a biodisponibilităţii

medicamentelor1

La introducerea în terapie de către un producător a unui medicament ce reprezintă o reproducere

a altui medicament deja în uz, se pune problema comparării biodisponibilităţii acestora. În practică se

cere ca raportul ariilor de sub curbele concentraţiilor plasmatice ale celor două medicamente să se afle

in intervalul 0,8 - 1,25.

0,8 1, 25T

AUC

R

AUC

µ

µ⟨ ⟨

unde indicele T se referă la medicamentul testat şi R desemnează medicamentul referinţă.

Atunci însă când ariile de sub curbă prezintă variabilităţi intra şi interindividuale considerabile

(determinările de biodisponiblitate se fac pe loturi de circa 10 – 20 de voluntari sănătoşi) este de

preferat a se determina un interval de încredere pentru media ariei realizată de medicamentul nou.

Pornind de la faptul ca ( ) ( )

1 1

R T R T

p

R T

X XT

sn n

µ µ− − −=

+

este repartizată ( )2R TT n n+ − se deduce un

interval de încredere cu probabilitatea α−1 pentru T R

µ µ−

1 12 2

T R T RT RX X t X X tα αµ µ

− −− − ⟨ − ⟨ − +

Curs 2 35

unde am notat 1 1

p

R T

s sn n

= + .

După cum se va arăta mai departe, această estimare este puţin utilă în caz că p

s reprezintă

practic intervariabilitatea, iar interschimbabilitatea care necesită bioechivalenţă trebuie să se bazeze pe

intravariabilitatea.

1.

W.J.Westlake: Use of confidence intervals in analysis of comparative biovalability trials, J. Pharm.

Sci. , 61 (8), 1340 – 1, 1972.