Lucrarea nr. 2 — Inferen£a statisticƒ. Testarea ipotezelor statistice

  • View
    220

  • Download
    2

Embed Size (px)

Text of Lucrarea nr. 2 — Inferen£a statisticƒ. Testarea ipotezelor statistice

  • Statistic multivariat

    Lucrarea nr. 2 Inferena statistic. Testarea ipotezelor statistice (Excel)

    A. Noiuni teoretice Fie un spaiu de probabilitate (,A, P). Se numete variabil aleatoare o

    funcie real X: , care satisface condiia: { } . fiar oricare ,)X(| xAx

    Numim funcie de repartiie a v.a. X, funcia real de variabil real, F:, definit prin x),P(X)F( =x unde prin (X x) s-a notat evenimentul { }x)X(| , adic reuniunea acelor evenimente elementare pentru care v.a. ia valori mai mici sau egale cu x.

    Funcia de repartiie se zice absolut continu dac exist o funcie real, f:, astfel nct

    ,d)f()F(

    =x

    uux

    Interpretarea geometric este cea uzual de mrime a ariei de sub graficul funciei f.

    Funcia f, dac exist, se numete densitate de probabilitate a v.a. X. Observaie. Funcia de repartiie conine toat informaia necesar pentru

    calcularea probabilitilor cu care o variabil aleatoare ia valori n anumite intervale i pentru acest lucru va fi utilizat n ceea ce ne intereseaz.

    Repartiii teoretice remarcabile

    Repartiia normal Aceast repartiie are un rol central, att din considerente teoretice, ct i

    practice (nu n ultimul rnd, uurina aplicrii). Teoretic, repartiia normal reprezint o repartiie limit ctre care tind, n anumite condiii, celelalte repartiii.

    Prin definiie, o variabil continu X are o repartiie normal, sau repartiie GaussLaplace, dac funcia de repartiie este dat de:

    ,0,, , de2

    1x)P(XF(x) 22

    2 >=

  • Funcia de repartiie normal se va nota prin N(; 2) iar faptul c v.a. X este repartizat normal cu parametrii i se noteaz X ~ N(; 2).

    Parametrii repartiiei au semnificaia unor valori tipice i anume M(X) = Me(X) = Mo(X) = D2(X) = 2

    motiv pentru care se poate vorbi de repartiia normal cu media i dispersia 2, ceea ce determin complet repartiia.

    Repartiia normal N(0,1) se numete repartiia normal redus, repartiia normal normat sau repartiia normal standard. O v.a. repartizat N(0;1) este notat, n mod uzual, cu Z i este referit drept variabil Z, variabil normal redus etc. Orice variabil repartizat normal poate fi transformat ntr-o v.a. repartizat N(0;1) prin transformarea (de normare, de standardizare)

    =XZ .

    Inferena statistic Prin inferen statistic se nelege, n sensul precizat anterior, obinerea de

    concluzii bazate pe o eviden statistic, adic pe informaii derivate dintr-un eantion. Concluziile sunt asupra caracteristicilor populaiei din care provine eantionul. Observaie. Dac este investigat ntreaga populaie, atunci rezultatele care se obin constituie finalul prelucrrii i nu sunt necesare (i nici posibile) prelucrrile introduse n aceast seciune.

    Prin eantion (sau selecie) vom nelege o submulime a populaiei statistice considerate. Operatiunea de formare a unui eantion se numete sondaj. Sondajele care au anse mai mari de a produce eantioane reprezentative sunt cele bazate pe proceduri de selecie aleatoare.

    In eantioane diferite, statisticile calculate au valori diferite. n acest fel se poate vorbi despre o distribuie a valorilor statisticii n mulimea eantioanelor de un acelai volum; apare astfel distribuia de sondaj a statisticii respective.

    Inferena statistic implic trei distribuii asociate cu caracteristica studiat: distribuia populaiei; distribuia de sondaj; distribuia eantionului.

    Prin distribuia populaiei se nelege distribuia pe care o are caracteristica studiat (sau v.a. asociat ei) n populaie. Aceast distribuie nu este, n general, cunoscut. Interesul unei cercetri este tocmai acela de a studia aceast distribuie.

    Prin distribuia eantionului se nelege distribuia pe care o are caracteristica studiat n eantionul disponibil n studiu. Aceast distribuie este cunoscut complet, ntruct toate datele necesare sunt msurate.

    Prin distribuia de sondaj a unei statistici se nelege distribuia pe care o are statistica n mulimea tuturor eantioanelor de volum dat. Este ns remarcabil faptul c, din considerente teoretice, ntre distribuia populaiei i distribuia de sondaj exist legturi bine precizate sau, datorit unor teoreme de limit central, se cunoate forma acestei distribuii atunci cnd volumul eantionului crete (tinde spre infinit).

    Inferena statistic urmeaz, n general, urmtorul algoritm: se obine, printr-un procedeu valid, un eantion; se calculeaz o valoare tipic a eantionului (o statistic de sondaj); din considerente teoretice, se cunoate repartiia din care provine aceast valoare

    tipic i relaia repartiiei de sondaj a statisticii cu valoarea tipic din populaie;

  • utiliznd repartiia de sondaj a statisticii se pot face evaluri ale erorilor de estimaie.

    Repartiia de sondaj a mediei este caracterizat de

    .)D( ,)(D ,)M(2

    2

    nx

    nxx ===

    Practic, se poate accepta o repartiie N(;2/n) pentru n > 10 dac repartiia lui X este aproape simetric, sau pentru n > 30 pentru repartiii cu asimetrie pronunat sau necunoscut.

    Estimaii Se numete estimator orice entitate a crei valoare poate fi utilizat drept

    valoare (de regul aproximativ) pentru o alt entitate. Valoarea estimatorului se zice c este o estimaie.

    Valoarea care aproximeaz, pe baza datelor de sondaj, valoarea necunoscut a unui parametru al populaiei poart denumirea de estimaie statistic. Astfel, media aritmetic este estimator pentru media populaiei , abaterea standard s este estimator pentru abaterea standard a populaiei etc.

    Dup natura lor, n statistic se utilizeaz dou tipuri de estimaii: punctuale sub form de interval.

    Printr-o estimaie punctual se nelege valoarea unui estimator calculat ntr-un eantion. Numim eroare de estimare valoarea absolut a diferenei dintre estimaia punctual i valoarea parametrului estimat.

    Fie o populaie statistic, caracterizat de o v.a. continu X a crei repartiie depinde de un parametru , necunoscut. Prin definiie, dac se pot determina 1 i 2 astfel nct pentru o valoare prestabilit (0 < < 1) s aib loc

    =

  • Intervale de ncredere pentru dispersie Fie o populaie normal, sau aproximativ normal, cu parametrii i 2

    necunoscui. Se demonstreaz c intervalul de ncredere bilateral pentru dispersia populaiei, cu ncrederea statistic de 1, este dat de

    ,)1()1( 2 ;2/

    22

    2 ;2/1

    2

    snsn

    , atunci nu se respinge ipoteza nul H0.

    Se numete regiune de respingere, pentru un nivel de semnificaie fixat, mulimea rezultatelor (valorilor statisticii testului) care conduc la respingerea ipotezei H0. Dac se pot defini limitele numerice ale regiunii de respingere, acestea se vor numi, uneori, valori critice ale testului.

  • Testele pot fi parametrice = ipoteza H0 este strict legat de un parametru al

    populaiei, iar statistica testului are o repartiie cunoscut tocmai din aceast ipotez.

    neparametrice = repartiia statisticii testului se calculeaz i nu rezult din presupuneri apriorice asupra acestei distribuii i a probabilitilor ataate.

    Testele parametrice pot fi ( noteaz un parametru al populaiei): bilaterale (nedirecionale)

    H0: = 0 H1: 0

    unilaterale (direcionale) H0: = 0 H1: < (sau >) 0 Un test statistic are, de multe ori, o denumire dat de repartiia statisticii

    testului: teste normale (sau Z), teste Student (sau t), teste F etc. Astfel, un test 2 reprezint un test a crui statistic are o repartiie de sondaj din clasa 2..

    Categorii de teste Testele sunt clasificate n teste pentru variabile continue i teste pentru

    variabile discrete (nominale sau ordinale). Primele sunt, de regul, teste parametrice, celelalte sunt neparametrice.

    Teste de concordan Aceste teste se refer la potrivirea, concordana dintre valorile calculate n

    eantion (statisticile de sondaj) i valorile parametrilor respectivi din populaia statistic (valori cunoscute sau presupuse). Cu alte cuvinte, problema poate fi formulat: ct de mult poate s se abat o valoare calculat (dintr-un eantion) de la valoarea presupus pentru ntreaga populaie pentru a putea considera c are loc o nepotrivire ntre cele dou valori?

    Dei formulat astfel problema pare c se refer la eantion i la populaia de baz, punctul de vedere corect este:

    1. exist o populaie statistic de interes, fie ea P1; 2. pentru orice eantion se poate considera o populaie de baz din care este

    extras eantionul (reprezentativ pentru acea populaie); fie P2 aceast populaie;

    3. problema este dac se poate considera c P2 este n concordan cu P1, adic parametrii de interes ai celor dou populaii nu difer semnificativ.

    Se observ c testarea se va efectua pentru ipoteze privind populaii, se va utiliza informaia dintr-un eantion, deci rmnem n domeniul inferenei statistice.

    Ipoteza nul va afirma, n general, c populaiile P1 i P2 concord. Respingerea ipotezei nule poate avea, n practic, dou consecine:

    se va considera c eantionul nu este reprezentativ pentru populaia de interes, populaie care se consider stabil; se va cuta un alt eantion; sau

    se va considera c populaia P1 i-a modficat ntre timp parametrii; noua populaie de referin este P2. Alegerea ntre cele dou afirmaii aparine practicianului din domeniul studiat,

    fiind, de cele mai multe ori, o alegere ghidat de intuiie, de experien etc.

  • Testul erorii standard a mediei Fie P1 populaia statistic de interes, caracterizat de media 0 (cunoscut sau

    presupus) i de abaterea standard (cunoscut). ntrebarea este dac valorile tipice de sondaj susin ipoteza c eantionul este din populaia P1, accentul fiind pus pe media populaiei.

    n testul erorii standard a mediei se presupune c sunt ndeplinite condiiile care asigur mediei de sondaj o repartiie normal sau aproape normal:

    caracteristica studiat este repartizat norm