Transcript
  • Statistic multivariat

    Lucrarea nr. 2 Inferena statistic. Testarea ipotezelor statistice (Excel)

    A. Noiuni teoretice Fie un spaiu de probabilitate (,A, P). Se numete variabil aleatoare o

    funcie real X: , care satisface condiia: { } . fiar oricare ,)X(| xAx

    Numim funcie de repartiie a v.a. X, funcia real de variabil real, F:, definit prin x),P(X)F( =x unde prin (X x) s-a notat evenimentul { }x)X(| , adic reuniunea acelor evenimente elementare pentru care v.a. ia valori mai mici sau egale cu x.

    Funcia de repartiie se zice absolut continu dac exist o funcie real, f:, astfel nct

    ,d)f()F(

    =x

    uux

    Interpretarea geometric este cea uzual de mrime a ariei de sub graficul funciei f.

    Funcia f, dac exist, se numete densitate de probabilitate a v.a. X. Observaie. Funcia de repartiie conine toat informaia necesar pentru

    calcularea probabilitilor cu care o variabil aleatoare ia valori n anumite intervale i pentru acest lucru va fi utilizat n ceea ce ne intereseaz.

    Repartiii teoretice remarcabile

    Repartiia normal Aceast repartiie are un rol central, att din considerente teoretice, ct i

    practice (nu n ultimul rnd, uurina aplicrii). Teoretic, repartiia normal reprezint o repartiie limit ctre care tind, n anumite condiii, celelalte repartiii.

    Prin definiie, o variabil continu X are o repartiie normal, sau repartiie GaussLaplace, dac funcia de repartiie este dat de:

    ,0,, , de2

    1x)P(XF(x) 22

    2 >=

  • Funcia de repartiie normal se va nota prin N(; 2) iar faptul c v.a. X este repartizat normal cu parametrii i se noteaz X ~ N(; 2).

    Parametrii repartiiei au semnificaia unor valori tipice i anume M(X) = Me(X) = Mo(X) = D2(X) = 2

    motiv pentru care se poate vorbi de repartiia normal cu media i dispersia 2, ceea ce determin complet repartiia.

    Repartiia normal N(0,1) se numete repartiia normal redus, repartiia normal normat sau repartiia normal standard. O v.a. repartizat N(0;1) este notat, n mod uzual, cu Z i este referit drept variabil Z, variabil normal redus etc. Orice variabil repartizat normal poate fi transformat ntr-o v.a. repartizat N(0;1) prin transformarea (de normare, de standardizare)

    =XZ .

    Inferena statistic Prin inferen statistic se nelege, n sensul precizat anterior, obinerea de

    concluzii bazate pe o eviden statistic, adic pe informaii derivate dintr-un eantion. Concluziile sunt asupra caracteristicilor populaiei din care provine eantionul. Observaie. Dac este investigat ntreaga populaie, atunci rezultatele care se obin constituie finalul prelucrrii i nu sunt necesare (i nici posibile) prelucrrile introduse n aceast seciune.

    Prin eantion (sau selecie) vom nelege o submulime a populaiei statistice considerate. Operatiunea de formare a unui eantion se numete sondaj. Sondajele care au anse mai mari de a produce eantioane reprezentative sunt cele bazate pe proceduri de selecie aleatoare.

    In eantioane diferite, statisticile calculate au valori diferite. n acest fel se poate vorbi despre o distribuie a valorilor statisticii n mulimea eantioanelor de un acelai volum; apare astfel distribuia de sondaj a statisticii respective.

    Inferena statistic implic trei distribuii asociate cu caracteristica studiat: distribuia populaiei; distribuia de sondaj; distribuia eantionului.

    Prin distribuia populaiei se nelege distribuia pe care o are caracteristica studiat (sau v.a. asociat ei) n populaie. Aceast distribuie nu este, n general, cunoscut. Interesul unei cercetri este tocmai acela de a studia aceast distribuie.

    Prin distribuia eantionului se nelege distribuia pe care o are caracteristica studiat n eantionul disponibil n studiu. Aceast distribuie este cunoscut complet, ntruct toate datele necesare sunt msurate.

    Prin distribuia de sondaj a unei statistici se nelege distribuia pe care o are statistica n mulimea tuturor eantioanelor de volum dat. Este ns remarcabil faptul c, din considerente teoretice, ntre distribuia populaiei i distribuia de sondaj exist legturi bine precizate sau, datorit unor teoreme de limit central, se cunoate forma acestei distribuii atunci cnd volumul eantionului crete (tinde spre infinit).

    Inferena statistic urmeaz, n general, urmtorul algoritm: se obine, printr-un procedeu valid, un eantion; se calculeaz o valoare tipic a eantionului (o statistic de sondaj); din considerente teoretice, se cunoate repartiia din care provine aceast valoare

    tipic i relaia repartiiei de sondaj a statisticii cu valoarea tipic din populaie;

  • utiliznd repartiia de sondaj a statisticii se pot face evaluri ale erorilor de estimaie.

    Repartiia de sondaj a mediei este caracterizat de

    .)D( ,)(D ,)M(2

    2

    nx

    nxx ===

    Practic, se poate accepta o repartiie N(;2/n) pentru n > 10 dac repartiia lui X este aproape simetric, sau pentru n > 30 pentru repartiii cu asimetrie pronunat sau necunoscut.

    Estimaii Se numete estimator orice entitate a crei valoare poate fi utilizat drept

    valoare (de regul aproximativ) pentru o alt entitate. Valoarea estimatorului se zice c este o estimaie.

    Valoarea care aproximeaz, pe baza datelor de sondaj, valoarea necunoscut a unui parametru al populaiei poart denumirea de estimaie statistic. Astfel, media aritmetic este estimator pentru media populaiei , abaterea standard s este estimator pentru abaterea standard a populaiei etc.

    Dup natura lor, n statistic se utilizeaz dou tipuri de estimaii: punctuale sub form de interval.

    Printr-o estimaie punctual se nelege valoarea unui estimator calculat ntr-un eantion. Numim eroare de estimare valoarea absolut a diferenei dintre estimaia punctual i valoarea parametrului estimat.

    Fie o populaie statistic, caracterizat de o v.a. continu X a crei repartiie depinde de un parametru , necunoscut. Prin definiie, dac se pot determina 1 i 2 astfel nct pentru o valoare prestabilit (0 < < 1) s aib loc

    =

  • Intervale de ncredere pentru dispersie Fie o populaie normal, sau aproximativ normal, cu parametrii i 2

    necunoscui. Se demonstreaz c intervalul de ncredere bilateral pentru dispersia populaiei, cu ncrederea statistic de 1, este dat de

    ,)1()1( 2 ;2/

    22

    2 ;2/1

    2

    snsn

    , atunci nu se respinge ipoteza nul H0.

    Se numete regiune de respingere, pentru un nivel de semnificaie fixat, mulimea rezultatelor (valorilor statisticii testului) care conduc la respingerea ipotezei H0. Dac se pot defini limitele numerice ale regiunii de respingere, acestea se vor numi, uneori, valori critice ale testului.

  • Testele pot fi parametrice = ipoteza H0 este strict legat de un parametru al

    populaiei, iar statistica testului are o repartiie cunoscut tocmai din aceast ipotez.

    neparametrice = repartiia statisticii testului se calculeaz i nu rezult din presupuneri apriorice asupra acestei distribuii i a probabilitilor ataate.

    Testele parametrice pot fi ( noteaz un parametru al populaiei): bilaterale (nedirecionale)

    H0: = 0 H1: 0

    unilaterale (direcionale) H0: = 0 H1: < (sau >) 0 Un test statistic are, de multe ori, o denumire dat de repartiia statisticii

    testului: teste normale (sau Z), teste Student (sau t), teste F etc. Astfel, un test 2 reprezint un test a crui statistic are o repartiie de sondaj din clasa 2..

    Categorii de teste Testele sunt clasificate n teste pentru variabile continue i teste pentru

    variabile discrete (nominale sau ordinale). Primele sunt, de regul, teste parametrice, celelalte sunt neparametrice.

    Teste de concordan Aceste teste se refer la potrivirea, concordana dintre valorile calculate n

    eantion (statisticile de sondaj) i valorile parametrilor respectivi din populaia statistic (valori cunoscute sau presupuse). Cu alte cuvinte, problema poate fi formulat: ct de mult poate s se abat o valoare calculat (dintr-un eantion) de la valoarea presupus pentru ntreaga populaie pentru a putea considera c are loc o nepotrivire ntre cele dou valori?

    Dei formulat astfel problema pare c se refer la eantion i la populaia de baz, punctul de vedere corect este:

    1. exist o populaie statistic de interes, fie ea P1; 2. pentru orice eantion se poate considera o populaie de baz din care este

    extras eantionul (reprezentativ pentru acea populaie); fie P2 aceast populaie;

    3. problema este dac se poate considera c P2 este n concordan cu P1, adic parametrii de interes ai celor dou populaii nu difer semnificativ.

    Se observ c testarea se va efectua pentru ipoteze privind populaii, se va utiliza informaia dintr-un eantion, deci rmnem n domeniul inferenei statistice.

    Ipoteza nul va afirma, n general, c populaiile P1 i P2 concord. Respingerea ipotezei nule poate avea, n practic, dou consecine:

    se va considera c eantionul nu este reprezentativ pentru populaia de interes, populaie care se consider stabil; se va cuta un alt eantion; sau

    se va considera c populaia P1 i-a modficat ntre timp parametrii; noua populaie de referin este P2. Alegerea ntre cele dou afirmaii aparine practicianului din domeniul studiat,

    fiind, de cele mai multe ori, o alegere ghidat de intuiie, de experien etc.

  • Testul erorii standard a mediei Fie P1 populaia statistic de interes, caracterizat de media 0 (cunoscut sau

    presupus) i de abaterea standard (cunoscut). ntrebarea este dac valorile tipice de sondaj susin ipoteza c eantionul este din populaia P1, accentul fiind pus pe media populaiei.

    n testul erorii standard a mediei se presupune c sunt ndeplinite condiiile care asigur mediei de sondaj o repartiie normal sau aproape normal:

    caracteristica studiat este repartizat normal sau eantionul este mare (n30).

    In aceste condiii, media de sondaj urmeaz o repartiie normal N(,2/n), unde este media populaiei (notat n introducerea seciunii cu P2) din care provine eantionul. Pentru P2 se presupune aceeai abatere standard (se studiaz modificarea mediei unei populaii). Rezult c variabila transformat

    nxx

    x

    =

    =Z

    este repartizat normal standard i poate fi utilizat pentru calcularea probabilitilor necesare. Ipotezele testului erorii standard a mediei sunt

    pentru testul bilateral:

    =

    01

    00

    :H:H

    (A)

    pentru testele unilaterale:

    >=

    =

    22

    21

    "

    22

    210

    :H:H

    (C)1

    Cnd ipoteza nul este adevrat, atunci statistica

    22

    21* sF

    s=

    este repartizat F cu 111 = n i 122 = n grade de libertate, nct se pot utiliza valorile tabelate pentru F(1;2) pentru determinarea probabilitilor critice.

    Pentru simplificarea deciziei n test, n practic se utilizeaz o statistic uor modificat prin considerarea ca prim populaie, P1, a populaiei pentru care dispersia de sondaj este mai mare:

  • ),( min),( max

    F22

    21

    22

    21

    ssss

    =

    n aa fel nct sunt utilizabile doar testele (A) i (C). n acest caz se noteaz cu max numrul gradelor de libertate pentru numrtor i cu min numrul gradelor de libertate pentru numitor.

    Decizia, la nivelul de semnificaie , pentru testul bilateral (A): se respinge ipoteza nul H0 n favoarea ipotezei alternative H1 dac

    minmaxminmax ; ;2/ ; ;2/1 Fsau F FF

    Decizia, la nivelul de semnificaie , pentru testul unilateral (C): se respinge ipoteza nul H0 n favoarea ipotezei alternative '1H dac

    minmax ; ;1F > F

    Teste t de comparare Compararea mediilor a dou populaii se realizeaz prin teste de comparare t.

    Sunt utilizate frecvent trei asemenea teste, difereniate de situaia existent ntre dispersiile populaiilor i independena eantioanelor:

    eantioane independente, dispersii egale, eantioane independente, dispersii neegale, eantioane dependente (perechi, corelate).

    B. Instrumente Excel Procedurile prezentate sunt disponibile prin dialogul Tools - Data Analysis.

    RANDOM NUMBER GENERATION Utiliznd aceast procedur se pot genera serii de numere aleatoare distribuite

    dup 7 tipuri diferite de funcii de repartiie. Rezultatul const n una sau mai multe coloane de numere, fiecare coloan reprezentnd valori ale unei variabile repartizate dup o funcie de repartiie precizat.

    Pentru fiecare generare se va da numrul de coloane (variabile) generate, numrul de valori (acelai pentru toate variabilele), tipul funciei de repartiie, parametrii funciei i locul unde se vor nscrie rezultatele.

    Deoarece parametrii unei funcii de repartiie depind de tipul funciei, prezen-tarea procedurii va fi particularizat pentru cteva clase de funcii. Dialogul principal al procedurii Random Number Generation este prezentat n figura care urmeaz.

    Se observ cele patru componente principale ale dialogului: zona care precizeaz tipul de generare (numr de variabile, numr de valori, tipul distribuiei), zona cu parametrii funciei de repartiie specific funciei selectate , zona parametrului de iniializare a generrii aleatoare i zona de precizare a domeniului rezultat.

  • Tipul de generare

    Number of Variables se precizeaz numrul de variabile generate, adic numrul de coloane;

    Number of Random Numbers se precizeaz numrul de valori generate, acelai pentru toate variabilele;

    Distribution se alege funcia de repartiie a variabilelor generate. Ini ial izarea generri i

    Random Seed Procesele de generare aleatoare sunt caracterizate i prin fixarea unei valori iniiale funcie de care se ncepe procesul de generare. Aceast valoare, care nu nseamn prima valoare generat, este un numr ntreg ntre 1 i 32000. Dac nu se precizeaz aceast valoare, atunci se va considera n mod automat un numr aleator (obinut din data curent i timpul curent).

    Diferena ntre cele dou situaii este: la alegerea automat se genereaz de fiecare dat serii diferite; la alegerea de ctre utilizator se va genera aceeai serie de fiecare dat cnd se indic acelai numr. Prin urmare, se va completa aceast zon doar dac, pentru a simula o anumit comportare sau prelucrare, este nevoie de generarea aceleeai serii de numere aleatoare n utilizri succesive.

    Output options Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive

    Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele. Parameters Structura acestei zone depinde de funcia de distribuie selectat.

    Repartiie discret (Discrete) Structura zonei Parameters

    este prezentat n figur. O distribuie discret este distribuia unei variabile care ia un numr finit de valori cu probabiliti fixate. Deoarece valorile trebuie s fie numerice, acest tip de repartiie poate fi utilizat pentru probleme care implic variabile nominale atunci cnd categoriile nominale sunt codificate numeric.

  • Precizarea distribuiei se face enumernd, ntr-o zon continu, valorile posibile i probabilitile asociate acestora, de genul

    1 0,40 2 0,15 3 0,20 4 0,25

    pentru o variabil care ia valoare 1 cu probabilitatea 0,4, valoarea 2 cu probabilitatea 0,15 etc. Acest exemplu poate s corespund repartiiei unei variabile nominale pentru care categoriile au fost codificate cu 1, 2, 3, sau 4. Value and Probability Input Range se precizeaz domeniul care conine definirea repartiiei

    discrete: un domeniu dreptunghiular care d probabilitile valorilor numerice posibile. Domeniul poate fi selectat dinamic.

    Repartiie normal (Normal) Structura zonei Parameters este prezentat n figura alturat. Pentru determinarea

    distribuiei este necesar s se precizeze valorile pentru media i abaterea standard a populaiei. Mean se precizeaz valoarea pentru

    media populaiei. Standard Deviation se precizeaz

    valoarea pentru abaterea standard a populaiei.

    Valorile implicite sunt cele ale repartiiei normale standard, media 0 i abaterea standard 1.

    SAMPLING Procedura de sondaj permite obinerea unei submulimi dintr-o mulime de

    valori existent. Parametrii prezeni n dialogul procedurii sunt explicai n continuare.

    Input

    Input Range se specific domeniul, sau denumirea domeniului, care conine datele din care se va face selecia. Domeniul poate fi selectat i n mod dinamic. Datele care joac rolul populaiei statistice trebuie s fie de tip numeric i organizate, de preferin, sub forma unei coloane sau a unei linii. Prima celul poate conine denumirea setului de date. n cazul n care selecia se face dintre nregistrrile unei baze de date (fiecare nregistrare avnd, uzual, mai multe cmpuri) se va indica drept domeniu doar coloana unui cmp cum ar fi numrul nregistrrii, sau codul (numeric) de identificare etc.

  • Labels boxa de control va fi marcat dac domeniul indicat conine pe prima poziie denumirea setului de date.

    Sampling Method n acest grup se precizeaz metoda de selecie. Periodic selectarea acestui buton radio permite indicarea n cmpul Period a cotei fixe de

    formare a eantionului. Dac, de exemplu, se completeaz 5, atunci eantionul este format din al 5-lea element i toate cele care urmeaz din 5 n 5 (al 10-lea element, al 15-lea, al 20-lea etc.)

    Random selectarea acestui buton radio indic o formare aleatoare a eantionului. Fiecare element are aceeai probabilitate de a fi ales. Din acest motiv, dac mulimea de baz este relativ restrns, atunci unele elemente pot s apar de mai multe ori n eantionul constituit. Volumul eantionului se specific n cmpul Number of Samples.

    Output options Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive

    Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele. Rezultatul este o coloan cu valorile selectate.

    Verificarea ipotezelor statistice Sunt disponibile proceduri pentru efectuarea a trei tipuri de teste statistice:

    test F pentru compararea dispersiilor; test t pentru compararea mediilor, n toate variantele principale (eantioane corelate,

    dispersii egale, dispersii neegale); test z pentru compararea mediilor.

    Fiecare procedur are ca rezultat att probabilitatea critic a testului respectiv, ct i valoarea critic pentru un nivel de semnificaie fixat de utilizator. Ipoteza nul este, pentru fiecare test, aceea a egalitii, deci respingerea ei se va face dac probabilitatea critic este mai mic dect , sau dac valoarea calculat este mai mare dect valoarea critic.

    Compararea mediilor unor (sub)populaii se realizeaz prin proceduri apelate din dialogul deschis prin Tools Data Analysis.

    Atunci cnd se compar mediile a dou populaii pe baza unor eantioane necorelate este necesar parcurgerea etapelor:

    1. Testarea egalitii dispersiilor prin procedura F-Test Two-Sample for Variances.

    2. n funcie de decizia n test se va aplica t-Test: Two-Sample Assuming Equal Variances n cazul nerespingerii

    ipotezei nule din testul F t-Test: Two-Sample Assuming Unequal Variances n cazul respingerii

    ipotezei nule n testul F. Dac eantioanele sunt corelate, situaie caracteristic comparrii rezultatelor

    unui grup nainte i dup efectuarea unui experiment, se aplic procedura t-Test: Paired Two Sample For Means.

    FTEST TWOSAMPLE FOR VARIANCES Dialogul iniiat de alegerea opiunii F-Test Two-Sample for Variances este prezentat

    n figura III.25. n zona Input se vor indica domeniile ocupate de cele dou eantioane i pragul de semnificatie ales. Zona Output va preciza domeniul unde se nscriu rezultatele prelucrrii.

  • Input Variable 1 Range se va preciza domeniul primului eantion. Este obligatoriu ca acesta s fie

    o coloan sau o linie. Domeniul poate fi ales dinamic sau dat prin denumirea sa. Variable 2 Range se va preciza domeniul celui de al doilea eantion. Este obligatoriu ca

    acesta s fie o coloan sau o linie i s nu se intersecteze cu domeniul primului eantion. Domeniul poate fi ales dinamic sau dat prin denumirea sa.

    Labels se va marca boxa de control dac domeniile eantioanelor conin n prima celul denumirea (eticheta) variabilei.

    Alpha se precizeaz valoarea nivelului de semnificaie. Implicit se va considera = 0,05.

    Output options Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive

    Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele. Rezultatele sunt formatate ca un tabel pentru care se va preciza poziia colului din stnga sus. Semnificaia rubricilor din tabel este explicat n exemplul prezentat.

    Exemplu Un exemplu de aplicare a procedurii F-Test este artat n figura urmtoare (numrul

    zecimalelor afiate a fost redus). Mean mediile eantioanelor; Variance dispersiile eantioanelor; Obsevations volumele eantioanelor; df gradele de libertate; F statistica testului F (ctul dispersiilor); P(F

  • Concluzia testului este aceea c ipoteza nul nu poate fi respins. Se va tolera prin urmare ipoteza c dispersiile sunt egale sau, cu alte cuvinte, c n populaiile din care provin eantioanele variabila urmrit prezint acelai grad de mprtiere.

    TESTE STUDENT (t) Sunt disponibile trei teste bazate pe distribuia Student. n toate cazurile se verific

    ipoteza nul privind mediile att ntr-un test unilateral, ct i bilateral. Ipoteza nul privete o diferen fixat a mediilor: H0: 1 2 = d,

    unde 1, 2 sunt mediile populaiilor din care provin eantioanele disponibile, iar d este diferena presupus sau cunoscut a mediilor.

    Pentru a testa egalitatea mediilor celor dou populaii se va aplica procedura n cazul particular d = 0.

    Cele trei teste t sunt cazurile principale din punct de vedere practic: testul t pentru eantioane corelate; testul t pentru populaii cu dispersii egale; testul t pentru populaii cu dispersii neegale.

    tTEST: PAIRED TWO SAMPLE FOR MEANS Sunt considerate dou eantioane cu date perechi (corelate), provenite eventual

    dintr-o cercetare pretest-posttest pe un acelai eantion, din care un eantion este lotul experimental, cellat fiind lotul martor. Compararea mediilor este efectuat pentru a decide dac experimentul la care este supus lotul experimental produce o abatere suficient de mare n media variabilei de control.

    n figur se prezint dialogul de fixare a parametrilor procedurii.

    Input

    Variable 1 Range, Variable 2 Range conin referinele la zonele celor dou eantioane, respectiv. Deoarece testul este pentru eantioane cu date perechi, este necesar ca zonele indicate s aib acelai numr de celule completate cu date numerice, valorile de pe aceleai poziii n cele dou serii fiind perechi. Domeniile pot fi selectate dinamic.

    Hypothesized Mean Difference conine valoarea testat pentru diferena mediilor. Dac se indic valoarea 0 (zero), atunci se verific ipoteza egalitii mediilor.

    Labels boxa de control se marcheaz dac zonele de date indicate conin pe primele locuri denumirile zonelor.

  • Alpha conine valoarea pragului de semnificaie utilizat de procedur pentru a calcula valorile critice ale statisticii (utilizate ca limite ale domeniului de respingere a ipotezei nule).

    Output options Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive

    Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele. Rezultatele sunt formatate ca un tabel pentru care se va preciza poziia colului din stnga sus. Semnificaia rubricilor din tabel este explicat n exemplul prezentat.

    Exemplu Un grup de 20 de persoane au fost evaluate nainte i dup efectuarea unui

    experiment, care avea scopul de a micora valoarea unei caracteristici msurate. Deoarece efectul experimentului trebuie evaluat la nivelul populaiei de unde s-a selectat eantionul, un indicator statistic adecvat este media rezultatelor nainte i dup. Cum datele sunt perechi, situaia descris fiind tipic, compararea mediilor s-a efectuat printr-un test t pentru date perechi (corelate). Seriile de date sunt numite Date1 (datele pretest), Date2 (datele posttest) i s-a indicat n dialogul procedurii, un prag de semnificaie = 0,05.

    Rezultatele produse de procedura t Test: Paired Two Sample for Means sunt descrise n figura alturat: Mean mediile celor dou eantioane. Se observ

    c media primului eantion este mai mare (10,6 fa de 9,9), diferena fiind relativ important, 0,7 reprezint o diminuare a mediei cu 6,6%. Compararea mediilor vrea s arate dac aceast diferen poate fi acceptat pentru ntreaga populaie, sau este efectul sondajului (ntmpltor n primul eantion sunt mai multe valori mari).

    Variance dispersiile celor dou eantioane. Se poate emite ipoteza c dispersiile se modific semnificativ: se pare c experimentul are efectul unei concentrri a rezultatelor n jurul mediei.

    Observations numrul de observaii (= volumul eantionului). Pearson Correlation coeficientul de corelaie Pearson. Valoarea obinu este relativ mare,

    apropiat de 0,5. Dei nu este nsoit de testul de semnificaie, arat o bun corelaie ntre seriile de rezultate, cu interpretarea c scderea valorilor dup experiment are loc oarecum uniform: observaiile cu valori mari nainte rmn, n general, cu valori mari i dup experiment (evident c observaiile cu valori mici nainte rmn, n general, cu valori mici i dup experiment).

    Hypothesized Mean Difference valoarea cu care se compar diferena mediilor populaiilor. Deoarece ne-am propus s testm egalitatea mediilor, aceasta revine la a compara diferena mediilor cu zero.

    df numrul gradelor de libertate al repartiiei t (a statisticii testului). Este numrul de observaii mai puin unu.

    t Stat valoarea calculat a statisticii testului. Provine, teoretic, dintr-o repartiie Student cu df (raportat anterior) grade de libertate.

    Rezultatele aplicrii testului t pentru date perechi.

  • P(T 0 sau, echivalent, H1 : 1 > 2. Valoarea 0,169 afiat este mai mare dect toate valorile uzuale, deci nu se poate respinge ipoteza nul. Prin urmare se pare c diferena dintre medii este datorat mai mult ntmplrii, seleciei eantionului.

    t Critical one-tail valoarea critic unidimensional pentru pragul de semnificaie = 0,05 (precizat n dialogul procedurii). Dac valoarea t calculat este mai mare dect aceast valoare critic, atunci se poate respinge H0 n favoarea ipotezei alternative H1 : 1 > 2. Pentru exemplul prezentat acest fapt nu se ntmpl (0,984 < 1,729).

    P(T

  • numerice (cel mult prima celul n fiecare zon poate fi un titlu). Domeniile pot fi selectate dinamic.

    Hypothesized Mean Difference conine valoarea testat pentru diferena mediilor. Dac se indic valoarea 0 (zero), atunci se verific ipoteza egalitii mediilor.

    Variable 1 Variance (known), Variable 2 Variance (known) dispersiile celor dou populaii. Acestea se presupun cunoscute. n practic, pentru eantioane mari, se pot lua valorile dispersiilor de sondaj, dar n aceast situaie este preferabil s se aplice un test t dect un test z.

    Labels boxa de control se marcheaz dac zonele de date indicate conin pe primele locuri denumirile zonelor.

    Alpha conine valoarea pragului de semnificaie utilizat de procedur pentru a calcula valorile critice ale statisticii (utilizate ca limite ale domeniului de respingere a ipotezei nule). Implicit se ia = 0,05.

    Output options Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive

    Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele. Rezultatele sunt formatate ca un tabel pentru care se va preciza poziia colului din stnga sus. Semnificaia rubricilor din tabel este explicat n exemplul prezentat.

    Exemplu Pentru a compara mediile a dou populaii s-au extras dou eantioane de volume 35,

    respectiv 34. Se cunoate, din alte cercetri, c dispersiile populaiilor sunt 18 i 15, respectiv. Dispersiile de sondaj concord cu aceste valori. Pentru a compara mediile populaiilor se aplic un test z. Resultatele sunt explicate n continuare. Mean mediile de sondaj ale celor dou eantioane. Known Variance dispersiile cunoscute ale celor

    dou populaii. Observations numrul de observaii (volumul

    eantionului). Hypothesized Mean Difference valoarea cu care

    se compar diferena mediilor populaiilor. Testarea egalitii mediilor revine la a compara diferena mediilor cu zero.

    z valoarea calculat a statisticii testului. Provine, teoretic, dintr-o repartiie normal standard. Servete pentru raportare sau pentru decizia n test la alte grade de semnificaie dect valoarea fixat n dialogul procedurii.

    P(Z 0 sau, echivalent, H1 : 1 > 2. Valoarea 0,008 afiat este mai mic dect valorile uzuale (0,05 sau 0,01), deci nu se poate respinge ipoteza nul la aceste valori ale lui . Prin urmare se poate respinge ipoteza nul i accepta ipoteza alternativ c prima populaie are o medie mai mare.

    z Critical one-tail valoarea critic unidimensional pentru pragul de semnificaie = 0,05 (precizat n dialogul procedurii). Dac valoarea z calculat este mai mare dect aceast

    Rezultatele procedurii z-Test.

  • valoare critic, atunci se poate respinge H0 n favoarea ipotezei alternative H1 : 1 > 2. Pentru exemplul prezentat acest fapt nu se ntmpl (2,4096 < 1,6449).

    P(Z 1,96, deci se poate respinge ipoteza nul.

    C. Lucrarea practic

    1) Un studiu a artat c 50% dintre utilizatorii de internet au primit mai mult de 10 mesaje e-mail pe zi. Repetnd, dup un timp, studiul, se dorete verificarea ipotezei c a crescut utilizarea e-mail-ului. S se precizeze ipoteza nul i ipoteza alternativ a testului statistic adecvat.

    2) ntr-un test z cu ipotezele H0 : 1 2 = 5 vs. H1 : 1 2 > 5 s-a obinut statistica testului z = 1.69. Care este probabilitatea critic a testului?

    3) Se vor genera dou coloane de cte 100 de valori dintr-o repartiie normal cu media 0 i dispersia 1.

    i) s se calculeze mediile i dispersiile celor irruri de valori; s se compare cu valorile 0, respectiv 1, i s se interpreteze rezultatul comparaiilor n termenii populaie-eantion.

    ii) s se testeze egalitatea mediilor celor dou seturi de valori cu valoarea teoretic 0.

    iii) s se testeze dac cele dou seturi de valori au mediile egale. 4) Se vor genera dou coloane de valori din repartiii normale cu medii i dispersii

    diferite. Presupunnd c media celei de a doua coloane difer de media primei coloane cu , s se verifice, prin generri repetate ale coloanelor, dac eantioanele pot fi considerate ca aparinnd aceleiai populaii.

    i) Se va mri treptat diferena , ca i diferena dispersiilor, pentru a obine o imagine intuitiv asupra rspunsului la ntrebarea: ct de mare trebuie s fie diferena pentru ca eantioanele s nu pot fi considerate omogene?

    ii) Se va studia i influena diferenelor dintre dispersii asupra concluziei testului.

    5) Se import n Excel fiierul admitere.txt (utilizat la lucrarea nr.1). S se verifice statistic dac

    i) mediile la bacalaureat pot fi considerate egale pentru cei care opteaz la analiz, programare C sau programare Pascal

    ii) mediile la scris pot fi considerate egale pentru cei care opteaz la analiz, programare C sau programare Pascal