122
Redactor: Cătălina Hîrceag Tehnoredactor: Rodica Niţă © Editura Universităţii Titu Maiorescu, 2002 Bucureşti, România Str. Dionisie Lupu nr. 70, sector 1 tel.: (00401) 650.74.30 fax: (00401) 311.22.97 © Toate drepturile asupra prezentei ediţii sunt rezervate Editurii Universităţii Titu Maiorescu. Orice reproducere, preluare parţială sau integrală, prin orice mijloc, a textului este interzisă, acesta fiind proprietatea exclusivă a editorului. Descrierea CIP a Bibliotecii Naţionale a României GHEORGHIU, DUMITRU Statistică aplicată în psihologie / Dumitru Gh^orghiu - Bucureşti: Universitatea „TituMaiorescu", 2003 ISBN 973-86202-2-8 311:159.9 Dumitru Gheorghiu STATISTICĂ APLICATA ÎN PSIHOLOGIE 108985 B.C.U. - IAŞI

Statistica aplicata in psihologie, Dumitru Gheorghiu

  • Upload
    sorelino

  • View
    3.033

  • Download
    68

Embed Size (px)

Citation preview

Page 1: Statistica  aplicata in psihologie, Dumitru Gheorghiu

Redactor: Cătălina HîrceagTehnoredactor: Rodica Niţă

© Editura Universităţii Titu Maiorescu, 2002Bucureşti, România

Str. Dionisie Lupu nr. 70, sector 1tel.: (00401) 650.74.30fax: (00401) 311.22.97

© Toate drepturile asupra prezentei ediţii sunt rezervateEditurii Universităţii Titu Maiorescu.

Orice reproducere, preluare parţială sau integrală,prin orice mijloc, a textului este interzisă,

acesta fiind proprietatea exclusivă a editorului.

Descrierea CIP a Bibliotecii Naţionale a RomânieiGHEORGHIU, DUMITRU

Statistică aplicată în psihologie / Dumitru Gh^orghiu -Bucureşti: Universitatea „TituMaiorescu", 2003

ISBN 973-86202-2-8

311:159.9

Dumitru Gheorghiu

STATISTICĂ APLICATAÎN PSIHOLOGIE

108985B.C.U. - IAŞI

Page 2: Statistica  aplicata in psihologie, Dumitru Gheorghiu

1. INTRODUCERE

Cuvântul statistică este folosit cu diferite înţelesuri în diferite contexte.La sfârşitul unei transmisiuni televizate a unui meci de fotbal, ni se prezintăo „statistică" privind numărul de şuturi pe poartă, numărul de cornere,numărul de cartonaşe galbene şi roşii etc. Meteorologii prezintă zilnicstatistici despre temperaturi şi cantitatea de precipitaţii. Matematicienii şicercetătorii din domeniul ştiinţelor omului şi ale naturii vorbesc desprestatistică într-un fel diferit. Matematicienii au în vedere un domeniuimportant al matematicii, numit adesea statistică teoretică, iar cercetătoriise referă la aplicarea unor metode statistice pentru analiza rezultatelor unorinvestigaţii specifice. în pofida acestor diferenţe, cuvântul statistică esteutilizat corect în fiecare context în parte. Redactorii transmisiunilor sportiveşi meteorologii folosesc cuvântul statistică pentru a se referi la informaţiinumerice despre meciurile de fotbal, respectiv despre vreme, iar mate-

•••• iri i'J'J ' ' ' f y '' maticienii folosesc acest cuvânt în sensul unei teorii şi al unor metode'^ -"/ fundamentale, ce pot fi folosite pentru analiza unor informaţii.

în această carte vom avea în vedere, în principal, statistica aplicată înpsihologie. Vom începe prin a evidenţia rolul statisticii în cercetarea

«./.v /.,' '}s ~y. ;'.''/.' psihologică, după care vom trece în revistă câteva operaţii matematice de' " "v bază, necesare pentru a înţelege statistica. în restul acestui capitol vom

introduce câteva noţiuni fundamentale, folosite în statistică.

1.1. ROLUL STATISTICII ÎN CERCETAREA PSIHOLOGICĂ

Pentru psiholog şi, în general, pentru cercetătorul în domeniul ştiinţeloromului, statistica este un set de metode şi tehnici matematice de organizareşi prelucrare a datelor, folosite cu scopul de a răspunde la anumite întrebărişi de a testa anumite ipoteze. Datele sunt informaţii, în principal numerice,ce reprezintă anumite caracteristici. De pildă, dacă dorim să cunoaştemnivelul de anxietate al unui grup, datele pot fi scoruri pe o scală de anxie-tate, iar tehnicile statistice ne ajută să descriem şi să înţelegem aceste scoruri.

Ştiinţele omului folosesc o mare cantitate de date pentru testareaipotezelor şi formularea unor teorii. Este important de subliniat, însă, căstrângerea datelor nu este, în sine, suficientă pentru cercetarea ştiinţifică.Chiar şi cele mai obiective şi mai atent culese informaţii, luate ca atare, nune pot „spune" mare lucru. Pentru a fi utile, datele trebuie să fie organizate,evaluate şi analizate. Fără o bună înţelegere a principiilor analizei statisticeşi fără o aplicare corespunzătoare a tehnicilor statistice, cercetătorul nu vaputea înţelege semnificaţia datelor culese.

Page 3: Statistica  aplicata in psihologie, Dumitru Gheorghiu

Analiza statistică este esenţială în psihologie, ca şi în celelalte ştiinţeale omului. Se poate spune chiar că psihologia nu poate exista fărăstatistică. Pe de altă parte, rolul statisticii este limitat. Pentru a explicaaceasta, vom evidenţia pe scurt cele trei etape principale ale unei cercetări.Astfel, în etapa formulării problemei de cercetare, cercetătorul formuleazăun enunţ al unei probleme sau al unei întrebări la care cercetarea va încercasă dea un răspuns. Problema cercetării poate să provină din diferite surse,incluzând teorii, cercetări anterioare şi comenzi de cercetare. Odată ce afost formulată problema cercetării, procesul intră într-o a doua etapă, încare se iau decizii privind proiectul de cercetare şi se aleg metodele şitehnicile de cercetare. In această etapă, cercetătorul decide ce tipuri decazuri vor fi incluse în cercetare, cât de multe cazuri vor fi luate în consi-derare şi în ce mod vor fi investigate acestea. După ce au fost investigatetoate cazurile şi au fost culese toate datele relevante, statistica devinerealmente şi în mod direct importantă pentru analiza rezultatelor. Esteimportant de reţinut că, dacă cercetătorul şi-a formulat greşit problema saua proiectat greşit cercetarea, atunci cele mai sofisticate analize statisticesunt lipsite de valoare. împrumutând un „principiu" din ştiinţa compute-relor, putem spune că metodele şi tehnicile statistice se supun regulii IGIG= „introduci gunoaie, ies gunoaie". Oricât ar fi de utilă, statistica nu sepoate substitui conceptualizării riguroase şi nici alcătuirii unui proiect decercetare corespunzător problemei avute în vedere.

Multe persoane care nu sunt cercetători trebuie să fie consumatoriavizaţi de rezultate de cercetare, prelucrate statistic. Statistica oferă adeseasuport raţional pentru decizii ale managerilor din sistemul educaţional,pentru consilierii educaţionali, pentru psihologii clinicieni şi pentru altepersoane, ale căror profesii sunt legate într-un fel sau altul de ştiinţeleomului. Oricare ar fi motivul pentru care se utilizează metode şi tehnicistatistice, atât cercetătorii, cât şi „consumatorii" cercetărilor trebuie săînţeleagă ce, fel de informaţii oferă statistica şi ce fel de concluzii pot fitrase din aceste informaţii.

In această carte, statistica va fi privită ca un set de „instrumente",indispensabil pentru creşterea cunoaşterii în ştiinţele omului, iar nu ca unscop în sine. Ca atare, nu vom da o abordare „matematică" a acestuisubiect. Tehnicile statistice pe care le vom prezenta sunt văzute cainstrumente folosite pentru a răspunde unor probleme de cercetare specificepsihologiei (altfel spus, această carte nu este destinată statisticianuluiprofesionist, ci psihologului). Pe de altă parte, aceasta nu înseamnă că nu

vor fi folosite anumite metode matematice. Această carte a fost scrisă cuintenţia de a furniza îndeajuns material matematic pentru a se putea înţelegece poate face statistica şi cum face statistica ceea ce face. După ce veţiparcurge întregul material, vă veţi familiariza cu avantajele şi limitele celormai frecvent utilizate tehnici statistice şi veţi şti care dintre acestea suntaplicabile unei mulţimi date de informaţii şi unui scop dat al cercetării. încele din urmă, veţi putea întreprinde singuri analize statistice de bază aledatelor strânse din cercetări proprii.

1.2. MATEMATICA DE BAZĂ

în statistică sunt folosite metode matematice, de la cele mai simplepână la cele mai complexe. înţelegerea materialului prezentat în aceastăcarte nu cere o cunoaştere avansată a matematicii, ci doar o familiarizare cuaritmetica, algebra elementară şi cu unele simboluri matematice folosite cuprecădere în statistică. în această secţiune, vom întreprinde o scurtă trecereîn revistă a unor concepte şi operaţii aritmetice, pe care orice cititor cu opregătire medie în domeniul matematicii o poate neglija.

1.2.1. Operaţii aritmetice de bazăStatistica foloseşte din plin cele patru operaţii aritmetice de bază:

adunarea (+), scăderea (-), înmulţirea şi împărţirea. Rezultatul unei adunărise numeşte sumă, iar rezultatul operaţiei de scădere se numeşte diferenţă.înmulţirea a două numere poate fi denotată algebric în trei feluri: X- Y, (X)(Y) sau pur şi simplu XY. Numerele care sunt înmulţite se numesc factori,iar rezultatul operaţiei de înmulţire se numeşte produs. împărţirea a două

numere poate fi, de asemenea, denotată în trei feluri: X + Y, X/Y sau —.

în notaţia folosită aici, X este numărătorul, Y fiind numitorul. Rezultatuloperaţiei de împărţire se numeşte cât.

Este important de reţinut relaţia dintre înmulţire şi împărţire. Astfel,catul X/Y poate fi exprimat ca produsul (X) (l/Y). De exemplu, 15/5 = (15)(1/5) = 3.

1.2.2. Operaţii aritmetice cu numere realeîn aritmetica elementară suntem familiarizaţi cu numerele pozitive, i.e.

numerele mai mari sau egale cu 0. Statistica trebuie să folosească ceea cematematicienii numesc numere reale. Numerele reale sunt toate numerelepozitive şi negative, de la -QO la +°o. Astfel, numerele reale includ nu numainumerele întregi pozitive şi negative, ci şi fracţiile şi numerele zecimale.

Page 4: Statistica  aplicata in psihologie, Dumitru Gheorghiu

8

Atunci când se folosesc atât numere pozitive, cât şi numere negativeîntr-o operaţie aritmetică, se vorbeşte despre numere cu semn. Uneori estenevoie să ignorăm semnul algebric, + sau -, şi să considerăm doar valoareaabsolută a numărului - valoarea numărului indiferent de semnul algebric.De pildă, valoarea absolută (modulul) numărului -7, notată |-7|, este 7. învalori absolute, |-7| = |+7| = 7.

Semnul algebric din faţa unui număr afectează rezultatul operaţiiloralgebrice. în cele ce urmează vom urmări aceste efecte, pe măsură ce vomexpune regulile pentru operaţiile aritmetice.

Adunarea. Dacă două numere au acelaşi semn, se adună valorileabsolute şi se reţine semnul respectiv:

(-10) + (-25) = -35(+15)+ (+5) = +20

Dacă se adună două numere care au semne opuse, se scade valoareaabsolută a numărului mai mic din valoarea absolută a celuilalt număr şi sereţine semnul numărului care are valoarea absolută mai mare:

(-10)+ (+15) = +5(+5) + (-25) = -20

Scăderea. Când se scad numere, se schimbă semnul numărului descăzut, după care se aplică regulile adunării:

(-10)-(+5) = (-10)+ (-5) = -15(-10) - (-25) = (-10) + (+25) = +15

înmulţirea. Dacă se înmulţesc două numere care au acelaşi semn,produsul este pozitiv, iar dacă se înmulţesc două numere care au semnediferite, produsul este negativ:

(-10) (-25) = +250(-10) (+15) = -150

împărţirea. Dacă se împart două numere care au acelaşi semn, catul estepozitiv, iar dacă se împart două numere care au semne diferite, catul este negativ:

-10/-25 = +0,40/-1O = -1,5O

1.2.3. Proprietăţi ale numerelor realeNumerele reale au trei proprietăţi importante, care sunt utilizate în

formulele şi calculele statistice: comutativitatea, asociativitatea şi distribu-tivitatea înmulţirii faţă de adunare.

Comutativitatea. Două numere pot fi adunate sau înmulţite în oriceordine, rezultatul fiind acelaşi:

15 + 5 = 5 + 15 = 2015-5 = 5 • 15 = 75

Asociativitatea. Termenii unei adunări sau factorii unui produs pot figrupaţi oricum, rezultatul fiind acelaşi:

-10 + (15 + 5) = (-10 + 15) + 5 = 10(-10) (15 • 5) = (-10 • 15) 5 =-750

Distributivitatea. Produsul unui număr X cu suma a două numere, Y şiZ, este egal cu suma produselor iui X cu Y şi lui X cu Z:

5(-10+15) = 5(-10) + (5 • 15) = 25

1.2.4. Indicatori speciali ai operaţiilor aritmeticeDoi indicatori speciali ai operaţiilor aritmetice apar frecvent în

statistică: exponentul, radicalul şi operatorul însumării. Exponentul indicăputerea la care este ridicat un număr. Astfel, X2 desemnează ridicarea lapătrat a numărului X sau, altfel spus, înmulţirea numărului X cu sine: X • X.iar X4 desemnează ridicarea la puterea a patra a numărului X: X • X • X • X.

Radicalul indică extragerea rădăcinii unui număr. în statistică aparecel mai frecvent extragerea rădăcinii pătrate a unui număr. Rădăcinapătrată a unui număr, indicată de simbolul-y/~, este numărul realprin acărui ridicare la pătrat se obţine numărul iniţial. Astfel, V36 = 6,deoarece 62 = 36. Rădăcina pătrată a unui număr poate fi indicată şi prinexponentul fracţional Vi. De pildă, V36 = 6m = 6.

Operatorul însumării, simbolizat de majuscula din alfabetul grecescsigma, I, indică însumarea a ceea ce urmează imediat în expresia respec-tivă. Date fiind, de pildă, numerele

X, = 3, X2 = 7, X3 = 4, X4 = 2, Xs = 8,5

expresia ^X, , citită „sumă de Xindice i de la / = 1 la 5" stă pentru suma'= l Xj + X2 +X3 + X4 +XS=3 +7 + 4 + 2 + 8 = 24

X[ este simbolul general pentru numerele din seria de mai sus. Notaţia desub E, i - 1, indică primul număr din sumă, Xj = 3, iar numărul înscrisdeasupra simbolului E arată până la al câtelea număr are locînsumarea, Xs - 8. în general, expresia

N

ÎL*,

Page 5: Statistica  aplicata in psihologie, Dumitru Gheorghiu

10

arată că însumarea începe cu primul număr din seria respectivă şi se încheiecu cel de-al /V-lea număr. Adesea, notaţiile aflate deasupra şi dedesubtulsimbolului E sunt omise. într-un astfel de caz, E indică însumarea de laprimul număr până la ultimul.

Prezentăm în continuare două reguli privind operatorul însumării:

Regula 1. Rezultatul obţinut prin aplicarea operatorului E la produsul dintreo constantă şi o serie de numere este egal cu rezultatul obţinut prinînmulţirea constantei cu suma numerelor din serie. în simboluri, dacă C esteo constantă,

N N

'=] ;=l

Fie constanta 2 şi numereleX, = l,X2 = 3, X3 = 4, X, = 7; atunci,4

T,2Xi = (2 • 1) + (2 • 3) + (2 • 4) + (2 • 7) = 2 + 6 + 8 + 14 = 30

2 2 X = 2 ( l + 3 + 4 + 7) = 2- 15 = 30i=\

Regula 2. Rezultatul obţinut prin aplicarea operatorului E la suma a douăsau mai multe serii de câte N numere este egal cu rezultatul obţinut prinaplicarea operatorului E Ia fiecare serie în parte şi adunarea sumelor astfelobţinute. în simboluri:

N N

1=1 ' /=]

Fie seriile X} = 2, X2 = 5,X3 = 3,X4=\ şi Y, = \,Y2 = 3, Y3 = A,Y4 = 7;atunci.

I (X, +Yi)= {X2 + Y2) + (X3 + Y3) + (X4 + Y4) =

= (2 + 7) + (5 + 9) + (3 + 6) + (1 + 5) = 9 + 1 + 4 + 9 + 6 + = 38

£ X, +Y.Y, = (X,+X2+X3 + X4) + (Y, + Y2 + Ys + Y4) =1 1'=1 ;=1

= ( 2 + 5 + 3 + 1) + ( 7 + 9 + 6 + 5 ) = 1 1 + 2 7 = 38

11

1.3. STATISTICI DESCRIPTIVE ŞI STATISTICIINFERENŢIALE

Pentru cele ce urmează, este necesar să definim termenii variabilă,populaţie şi eşantion. O variabilă este orice trăsătură ce îşi poate schimbavaloarea de la caz la caz. De pildă, trăsăturile sex, vârstă şi venit suntvariabile. O populaţie este un grup ce include toate cazurile de care esteinteresat cercetătorul. De pildă, toţi cetăţenii români cu drept de vot, toţistudenţii unei universităţi şi toate ţările europene sunt populaţii în înţelesuldat acestui cuvânt în statistică. în cele mai multe situaţii de cercetare,populaţiile sunt prea mari pentru a fi cercetate. în astfel de cazuri, seselectează o submulţime strictă a populaţiei de referinţă, numită eşantion.

Tehnicile statistice se împart în două mari clase: statistici descriptive şistatistici inferenţiale. Statisticile descriptive sunt utilizate pentru aprezenta, clasifica şi însuma scorurile (valorile) unei variabile. Dacă neinteresează descrierea unei singure variabile, atunci vom folosi statisticidescriptive pentru a aranja şi prelucra scorurile acelei variabile astfel încâtinformaţia relevantă să poată fi înţeleasă şi evaluată rapid.

Statisticile inferenţiale sunt utilizate pentru a face generalizări despreo populaţie pe baza studiului unui eşantion din acea populaţie sau, altfelspus, pentru a trage concluzii despre caracteristicile unei populaţii pe bazacaracteristicilor corespunzătoare unui eşantion din acea populaţie.

1.4. NIVELURI DE MĂSURĂ

Orice tehnică statistică implică utilizarea unor operaţii, precumordonarea unor cazuri sau însumarea scorurilor unei variabile. înaintede a utiliza o tehnică statistică, este necesară măsurarea variabilei de interesîntr-un mod sau, altfel spus, la un nivel de măsură care să justifice aplicareaoperaţiilor respective. De pildă, multe tehnici statistice cer adunareascorurilor unei variabile. Aceste tehnici pot fi utilizate numai dacă variabilaeste măsurată într-un mod ce permite operaţia matematică a adunării.Astfel, alegerea unei tehnici statistice depinde de nivelul la care a fostmăsurată variabila. Nivelurile de măsură ale variabilelor sunt clasificateîntr-o ierarhie, în funcţie de complexitatea lor. Această ierarhie include, înordinea crescătoare a complexităţii, nivelurile nominal, ordinal, de intervalşi de raport.

Page 6: Statistica  aplicata in psihologie, Dumitru Gheorghiu

12 13

1.4.1. Nivelul nominalMăsurarea unei variabile la nivel nominal constă în clasificarea

diferitelor cazuri în categoriile prestabilite ale unei variabile. La nivelnominal, clasificarea este singura procedură de măsurare permisă.Variabilele sex, denominaţia religioasă (apartenenţa religioasă declarată) şiculoarea ochilor sunt exemple de variabile măsurabile numai la nivelnominal. Categoriile nu pot fi ordonate după vreun criteriu, putând ficomparate unele cu altele exclusiv după numărul de cazuri clasificate înfiecare categorie. De pildă, dacă dorim să măsurăm denominaţia religioasăpentru un grup de persoane, prestabilim categorii precum Creştin-ortodox,Catolic, Protestant ş.a., dar nu putem ordona aceste categorii de la„superior" la „inferior" sau în vreun alt fel.

Criteriile (regulile) măsurării nominale corecte sunt următoarele:

Regula excluderii categoriilor. Categoriile variabilei trebuie să fiereciproc exclusive, ceea ce înseamnă că nici un caz nu trebuie să facă partedin mai mult de o categorie. în raport cu această regulă, distingem douătipuri de erori: (1) cel puţin două categorii au cazuri în comun, fiecarecategorie conţinând şi cazuri ce nu aparţin celeilalte categorii; (2) cel puţindouă categorii aflate în raport de incluziune - orice caz care face partedintr-o categorie face parte şi din cealaltă categorie, nu şi reciproc.

Regula exhaustivităţii categoriilor. Trebuie să apară câte o categoriepentru fiecare manifestare a variabilei respective sau, altfel spus, fiecare cazde interes trebuie să facă parte dintr-o categorie. Având în vederecomplexitatea manifestărilor variabilelor considerate în ştiinţele omului,pentru respectarea acestei reguli se obişnuieşte să se adauge o categorie„Alţii" / „Altele".

Regula omogenităţii categoriilor. Categoriile trebuie să fie omogeneîn termenii proiectului de cercetare urmărit, ceea ce înseamnă căproprietăţile comune cazurilor repartizate în aceeaşi categorie trebuie să fiemai importante în raport cu scopurile cercetării decât proprietăţile cediferenţiază acele cazuri. Să presupunem, de pildă, că indivizii dintr-ocolectivitate sunt clasificaţi în categoriile: foloseşte de obicei aspirinăefervescentă, foloseşte de obicei aspirină obişnuită, foloseşte uneori un tipde aspirină şi alteori celălalt tip de aspirină, nu foloseşte deloc aspirină.Aceste categorii vor fi apreciate ca omogene de un distribuitor de produse

farmaceutice, în timp ce un distribuitor de cafea va prefera clasificareaaceloraşi indivizi în categoriile: consumă de obicei cafea naturală, consumăde obicei cafea solubilă, consumă uneori un tip de cafea şi alteori celălalttip de cafea, nu consumă deloc cafea.

în legătură cu măsurarea nominală, trebuie considerat şi un al patruleacriteriu de acceptabilitate, conform căruia o clasificare trebuie să aibă sensteoretic sau, altfel spus, categoriile trebuie să poată fi folosite pentruexplicaţie şi înţelegere. Putem repartiza, de pildă, orice în univers în clasabursucilor sau în clasa non-bursucilor, dar o astfel de clasificare nu ar aveanici o importanţă pentru cunoaştere.

1.4.2. Nivelul ordinalîn cazul măsurării la nivel ordinal, pe lângă clasificarea cazurilor în

categorii, cazurile repartizate într-o categorie sau alta pot fi ordonate,comparându-le unul cu altul, de la „inferior" la „superior", în funcţie degradul calitativ în care acestea posedă trăsătura măsurată. De pildă,variabila nivel de şcolarizare este măsurabilă la nivel ordinal. Categoriileacestei variabile sunt adesea ordonate conform următoarei scheme: 1. nu aabsolvit nici o şcoală; 1. a absolvit cel mult ciclul obligatoriu de învă-ţământ; 3. a absolvit cel mult liceul; 4. a absolvit cel mult cursuri postli-ceale, neuniversitare; 5. a absolvit cel mult cursuri universitare; 6. a absol-vit cursuri postuniversitare. Aceste categorii sunt exhaustive şi reciprocexclusive şi pot fi comparate în termenii numărului de cazuri pe care leconţin. în plus, categoriile şi cazurile individuale pot fi comparate subaspectul trăsăturii măsurate. Putem spune, de pildă, că un individ clasificatîn categoria a Ii-a are un nivel de şcolarizare inferior unui individ clasificatîn categoria a IV-a, respectiv că un individ clasificat în categoria a IV-a areun nivel de şcolarizare superior unui individ clasificat în categoria a II-a.

La nivel ordinal, deşi există o „distanţă" între oricare două cazuri aflateîn categorii diferite, această distanţă nu poate fi descrisă în termeni precişi.în exemplul nostru, nu suntem îndreptăţiţi să spunem, de pildă, că distanţadintre un individ aflat în categoria a Ii-a şi un individ aflat în categoria aIV-a este egală cu distanţa dintre un individ aflat în categoria a IV-a şi unindivid aflat în categoria a Vi-a şi nici că un individ aflat în categoria a IV-aare un nivel de şcolarizare de două ori mai mare decât un individ aflat încategoria a Ii-a.

întrucât la nivel ordinal nu suntem îndreptăţiţi să presupunem cădistanţele dintre cazuri sau scoruri sunt egale, iar operaţiile de adunare,

Page 7: Statistica  aplicata in psihologie, Dumitru Gheorghiu

14

scădere, înmulţire şi împărţire pot fi aplicate în mod legitim numai dacăintervalele dintre scoruri sunt egale, aceste operaţii nu pot fi aplicatevariabilelor măsurate la nivel ordinal.

1.4.3. Nivelul de intervalIn măsurarea la nivel de interval, pe lângă clasificare şi ordonare,

distanţele (intervalele) dintre oricare două cazuri aflate în categoriisuccesive sunt egale. Cu alte cuvinte, la acest nivel variabilele sunt măsu-rabile în unităţi ce au intervale egale. în legătură cu timbrele dintr-ocolecţie, anul emiterii este un exemplu de variabilă măsurabilă la nivel deinterval: timbrele repartizate într-o categorie sau alta pot fi numărate, sepoate spune că un timbru emis, să zicem, în 1990 este mai recent decât unulemis în 1930, iar intervalele dintre două clase succesive sunt egale (un an).Pe de altă parte, deşi distanţele dintre oricare două cazuri aflate în categoriisuccesive sunt egale, la acest nivel nu se poate determina măsura exactă(proporţia) în care un caz aflat într-o categorie satisface trăsătura măsuratăfaţă de un caz aflat în altă clasă. în exemplul nostru, nu suntem îndreptăţiţisă spunem, de pildă, că un timbru emis în 1990 este de 60 de ori mai recentdecât un timbru emis în 1930.

Este important de remarcat că, dacă într-o măsurare de interval apareun punct zero, acesta este doar unul dintre punctele măsurate şi nu un punctzero natural, adică un punct care să reflecte absenţa caracteristicii măsurate.Temperatura este un exemplu tipic de variabilă măsurabilă Ia nivel deinterval, în care apare un punct zero (0° C sau 0° F), dar acest punct estedoar unul dintre punctele de pe scala de măsură folosită. La acest nivel suntpermise toate operaţiile matematice.

1.4.4. Nivelul de raportîn măsurarea la nivel de raport, pe lângă toate trăsăturile unei măsurări

de interval, se poate determina măsura exactă (proporţia) în care un cazaflat într-o categorie satisface caracteristica măsurată, în raport cu un cazaflat într-o altă categorie, şi apare un punct zero natural, ce reflectă absenţacaracteristicii măsurate. De pildă, înregistrarea vechimii în muncă aangajaţilor unei firme în ani împliniţi produce date de raport, deoareceunitatea de măsură determină intervale egale; suntem îndreptăţiţi să spunemcă un angajat cu 10 ani de vechime în muncă are să zicem o vechime dedouă ori mai mare decât un angajat cu cinci ani de vechime în muncă şiexistă un punct zero natural (0 ani vechime în muncă). Venitul, numărul de

15

copii şi numărul de ani de căsnicie sunt alte exemple de variabilemăsurabile la nivel de raport.

Nivelul de măsură al variabilei (variabilelor) de interes reprezintă uncriteriu necesar (nu şi suficient) de selecţie a tehnicilor statistice. De pildă,calcularea mediei aritmetice este justificată numai pentru variabilelemăsurate la nivelurile de interval şi de raport, deoarece media aritmetică aunei mulţimi de date impune adunarea tuturor datelor respective şi împăr-ţirea sumei astfel obţinute la numărul total de date.

De notat că în psihologie este uneori dificil să se stabilească dacă ovariabilă a fost măsurată la nivel ordinal sau la nivel de interval. într-unastfel de caz, este util să se presupună că variabila a fost măsurată la nivelde interval, căci acest nivel permite aplicarea unor tehnici statistice maisofisticate decât cele permise la nivel ordinal. O decizie de acest fel, însă,nu este lipsită de riscuri. în anumite situaţii este nevoie să se dovedeascăfaptul că analiza statistică respectivă este corectă, de pildă prin analizeseparate ale datelor la ambele niveluri de măsură şi compararea rezultatelor.Dacă rezultatele astfel obţinute sunt substanţial diferite, supoziţia măsurăriila nivel de interval trebuie să fie abandonată.

* * *Stimulaţi de predarea statisticii la Facultatea de Psihologie a

Universităţii Titu Maiorescu, am conceput această carte ca o introducereclară şi relativ concisă în statistica aplicată în psihologie. Măsura în care amreuşit îndeplinirea acestui obiectiv o va da, fireşte, cititorul. Pentru apro-fundarea unor concepte şi metode statistice prezentate aici, recomandăm cudeosebire următoarele lucrări, din care am preluat multe exemple de analizăstatistică: Joseph F. Healey, Statistics: A Tool for Social Research,Belmont, California, Wadsworth Publishing Company, 1984; Dennis E.Hinkle, William Wiersma şi Stephen G. Jurs, Applied Statistics for theBehavioral Sciences, Boston, Houghton Mifflin Company, 1988; GeraldKeller şi Brian Warrack, Essentials of Business Statistics, Belmont,California, Wadsworth Publishing Company, 1991; Leon F. Marzillier,Elementary Statistics, Wm. C. Brown Publishers, 1990.

Page 8: Statistica  aplicata in psihologie, Dumitru Gheorghiu

16

GLOSAR

Date: informaţii, în principal numerice, care reprezintă anumite caracteristici.Eşantion: o submulţime strictă a unei populaţii.Nivel de măsură: ansamblu de proprietăţi matematice ale unei variabile, deter-

minat de procesul prin care variabila a fost măsurată.Populaţie: grup ce include toate cazurile de care este interesat cercetătorul.Statistica: set de metode şi tehnici matematice de organizare şi prelucrare a datelor,

folosite cu scopul de a răspunde la anumite întrebări şi de a testa anumiteipoteze.

Statistici descriptive: tehnici statistice utilizate pentru a prezenta, clasifica şiînsuma scorurile (valorile) unei variabile.

Statistici inferenţiale: tehnici statistice utilizate pentru a face generalizări despre opopulaţie pe baza studiului unui eşantion din acea populaţie sau, altfel spus,pentru a trage concluzii despre caracteristicile unei populaţii prin caracteris-ticile corespunzătoare ale unui eşantion din acea populaţie.

Variabilă: orice trăsătură ce îşi poate schimba valoarea de la caz la caz.

2. PREZENTAREA DATELOR STATISTICE

Funcţia de bază a statisticii descriptive este prezentarea clară şi concisăa rezultatelor cercetării. în acest capitol prezentăm o serie de tehnici deorganizare şi prezentare rezumativă a datelor: procente, proporţii, raporturi,rate, distribuţii de frecvenţe, diagrame şi grafice.

2.1. PROCENTE ŞI PROPORŢII

Imaginaţi-vă că sunteţi şeful unui departament al unei mari companiide asigurări şi că, dorind să prezentaţi directorului executiv al companiei oproblemă de personal cu care vă confruntaţi, îi spuneţi următoarele:„Oamenii din departamentul meu nu sunt suficient de bine plătiţi. Deşi dincei 154 de angajaţi permanenţi ai companiei numai 37 sunt în depar-tamentul meu, din cele 17.832 de contracte de asigurare încheiate încompanie anul trecut, 7321 au fost aduse de angajaţii din departamentul pecare îl conduc". Probabil că, după o astfel de prezentare, directorul executivar schiţa o grimasă de plictiseală şi ar amâna elegant discuţia pentru o datăneprecizată. întrucât este vorba despre compararea a câte două numere(personalul departamentului faţă de numărul total de angajaţi ai companieişi volumul de muncă din departament faţă de volumul total de muncă dincompanie pe timp de un an), procentele şi proporţiile ar fi fost modalităţimai convingătoare de prezentare a informaţiei.

Definiţiile matematice ale proporţiei şi procentului sunt urmă-toarele:

Formula 2.1. Proporţie (p ) = —n

Formula 2.2. Procent (%) = — • 100n

în care f = frecvenţa sau numărul de cazuri în fiecare categorie;n = numărul total de cazuri (numărul de cazuri clin toate

categoriile).Următorul tabel ilustrează calcularea proporţiilor şi procentelor:

Page 9: Statistica  aplicata in psihologie, Dumitru Gheorghiu

18 19

Tabelul 2.1. Opinia faţă de interzicerea fumatuluiîn locurile publice (date fictive)

Opinia

AcordDezacordNu ştiu/Nu răspundTOTAL

Frecvenţax J /

1677230

269

Proporţia i

P 10,621 !

[ 0,268 !0,111 i1,000 \

Procentul

627l26,8 j11,1

100,0

Pentru a afla proporţia cazurilor din prima categorie (de acord cuinterzicerea fumatului în locurile publice), notăm că avem aici 167 decazuri (f= 167) faţă de 269 de cazuri în eşantion (n = 269). Astfel:

Proporţie (p)= L = — =Q,62\n 269

Procedând la fel, aflăm proporţiile cazurilor din celelalte categorii.Rezultatele pot fi exprimate sub formă de procente. Astfel, procentul decazuri din cea de-a treia categorie (Nu ştiu/Nu răspund) este

Procent (%) = ^ • 100 = — • 100 = 11,1%n 269

Exprimarea rezultatelor prin procente şi proporţii este cu deosebireutilă atunci când dorim să comparăm grupuri de mărimi diferite. Să presu-punem, de pildă, că am adunat următoarele date privind două universităţi:

Tabelul 2.2. Numărul de studenţi înscrişi pe specializărila două universităţi (date fictive)

| Specializarea [ Universitatea A j Universitatea 5 [j ...Drept"'"" Z I I I III j III" 103 312 j| Ştiinţe Econornice ! 82 279 |

i Psiiio^gi^iiz^iizzzzijiirrii w zz _ Î I F I i! Sociologie j ^ 93__ { __ " 2\7 ~ ^'1[TOTAL I [I \~ IIIl4J5lI ' [" "~ 996 1

întrucât numărul total de studenţi înscrişi diferă mult de la o univer-sitate la alta, compararea numărului relativ de studenţi înscrişi pe speciali-zări la cele două universităţi este greu de făcut numai pe baza frecvenţelor.Care universitate, de pildă, are cel mai mare număr relativ de studenţiînscrişi la specializarea Psihologie? Pentru a înlesni comparaţiile de acest

fel, calculăm procentele de studenţi înscrişi pe specializări la cele douăuniversităţi:

Tabelul 2.3. Procentul de studenţi înscrişi pe specializărila două universităţi (date fictive)

Specializarea

DreptŞtiinţe EconomicePsihologieSociologieTOTAL

1 Universitatea^

1 (%)J 2 4 > 8

| 19,8i 33,0i 22,4i 100,01 (415)

Universitatea B(%)31,328,018,921,8100,0(996)

Procentele prezentate în acest tabel permit identificarea atât adiferenţelor, cât şi a asemănărilor dintre cele două universităţi. De pildă,Universitatea^ are un procent mai mare de studenţi înscrişi la specializareaPsihologie, deşi numărul absolut de studenţi înscrişi la acest profil este maimic decât la Universitatea B, iar la specializarea Sociologie, procentele suntaproape aceleaşi.

Remarcaţi că sub fiecare coloană de procente am menţionat totalul îndate absolute sau, altfel spus, am menţionat dimensiunea eşantionului. îngeneral, dacă nu se menţionează baza de comparaţie, atunci procentele şiproporţiile nu ne spun nimic sau chiar ne pot induce în eroare. Să presu-punem, de pildă, că o firmă care produce băuturi răcoritoare anunţă căultimul său produs are cu 20% mai puţine calorii. Problema este: 20% maipuţin faţă de ce? Fără menţionarea bazei de comparaţie, pretenţia firmeirespective este lipsită de sens. Unele reclame impresionează prinprezentarea unor proporţii, cum ar fi „Două din trei persoane preferă marcaXde produs mărcii F'. Ce aţi gândi despre o astfel de reclamă, dacă aţi aflacă, de fapt, au fost chestionate doar trei persoane? Cunoştinţele de statisticăîşi dovedesc utilitatea şi în mai buna înţelegere şi evaluare a informaţiilor„statistice" prezentate în presă sau pe posturile de radio şi televiziune.

O eroare care poate să apară în folosirea procentelor constă în încer-carea de a aduna procentele ca şi cum ar fi numere cardinale. Să presu-punem, de pildă, că producătorul naţional de energie electrică anunţăcreşterea preţului pe kilowatt cu 50%. Pentru Justificarea" acestei creşteri,producătorul arată că au crescut costurile de producţie a energiei electrice,

Page 10: Statistica  aplicata in psihologie, Dumitru Gheorghiu

20 21

după cum urmează: preţul combustibilului folosit în termocentrale cu 10%,costurile investiţiilor în retehnologizare cu 20% şi cheltuielile cu forţa demuncă cu 10%, în total, o creştere a costurilor cu 50%. O astfel de justi-ficare este greşită. Doar o creştere cu 50% a tuturor costurilor ar justifica ocreştere cu 50% a preţului pe kilowatt.

Revenind la exemplul dat la începutul acestei secţiuni, informaţiaprezentată directorului executiv al companiei ar fi fost mai convingătoaredacă i-aţi fi spus: „Deşi în departamentul meu lucrează doar 24% dinangajaţii companiei, oamenii mei au adus 41% din contractele de asigurareîncheiate anul trecut în companie".

2.2. RAPORTURI ŞI RATE

Să considerăm din nou tabelul 2.2. Cât de mulţi studenţi sunt înscrişi laŞtiinţe Economice în comparaţie cu cei înscrişi la Psihologie înUniversitatea Bl Putem folosi frecvenţele pentru a răspunde la aceastăîntrebare, dar un răspuns mai uşor de înţeles poate fi dat folosind un raport.Raporturile se calculează împărţind frecvenţa cazurilor dintr-o categorie lafrecvenţa cazurilor din altă categorie, permiţând astfel comparareacategoriilor în termeni de frecvenţă relativă. Definiţia matematică araportului este următoarea:

fFormula 2.3. Raport = —

în care ft = numărul de cazuri din categoria /;f = numărul de cazuri din categoria/.

Raportul ne spune exact în ce măsură categoria i depăşeşte în număr decazuri categoria/. în exemplul nostru, raportul studenţilor înscrişi la ŞtiinţeEconomice faţă de cei înscrişi la Psihologie în Universitatea B este:

f 279Raport = — = 1,48.

fi m

Aceasta înseamnă că pentru fiecare student înscris la Psihologie există1,48 studenţi înscrişi la Ştiinţe Economice.

Raporturile pot fi multiplicate cu 100 pentru a elimina virgulele.Astfel, raportul calculat mai sus poate fi prezentat ca 148, ceea ce înseamnăcă pentru fiecare 100 de studenţi înscrişi la psihologie există 148 de studenţiînscrişi la Ştiinţe Economice.

Ratele se calculează împărţind numărul de cazuri reale (efective) lanumărul de cazuri posibile pentru variabila de interes pe o anumită unitatede timp. De pildă, rata brută a natalităţii pentru o populaţie se calculeazăîmpărţind numărul de născuţi vii la numărul total de persoane din aceapopulaţie pe an, catul astfel obţinut fiind înmulţit cu 1000. Se spune cărezultatul este exprimat în promile (%o). Dacă, de pildă, într-un oraş cu7000 de locuitori s-au înregistrat într-un anumit an 100 de născuţi vii, ratabrută a natalităţii este

Rata brută a natalităţii (°/oo) =

70001000 = 0,0143-l 0 0 0 - l 4,3 °/00

Aceasta înseamnă că pentru fiecare mie de locuitori au fost în acel an14,3 născuţi vii.

Ca modalităţi de a exprima frecvenţe relative, procentele, proporţiile,raporturile şi ratele sunt utile în special atunci când dorim să comparămdiferite grupuri sau/şi diferite intervale de timp.

2.3. DISTRIBUŢII DE FRECVENŢE

O distribuţie de frecvenţe este o dispunere a valorilor unei variabilece arată câte cazuri sunt conţinute în fiecare categorie a variabileirespective. Construirea unei distribuţii de frecvenţe este, de regulă, primulpas în orice analiză statistică. Să presupunem că următoarele date reprezintăscorurile obţinute de 180 de subiecţi la un test de cunoştinţe:

Tabelul 2.3. Scoruri obţinute la un test de cunoştinţe

6855654264

i 45! 56I 59i 56

423850374253

525457496354384649334340294360

695464416344555855413749364152

515349486455374750344439304261

433351505463685743565447375249

364856244555465845325655494755

443250495362675642555346365148

354748254656455946335754504656

544753535050656053405739366338

"57 Tir57 | 4856 i 5255 i 5240 ! 4946 1 4948 i 6462 i 5940 1 5245 ! 3946 1 5656 i 3844 i 3548 ! 6248 i 37

565655 !56 !41 i4 7 I4 9 J6 3 I41 |46 !4555454947

Page 11: Statistica  aplicata in psihologie, Dumitru Gheorghiu

22

Datele brute din tabelul 2.3 sunt greu de urmărit şi greu de înţeles. Subsupoziţia că este vorba despre date de interval, putem construi o distribuţiede frecvenţe listând scorurile diferite în ordine crescătoare şi înregistrândfrecvenţa de apariţie a fiecărui scor. Distribuţia de frecvenţe astfel obţinutăeste următoarea:

Tabelul 2.4. Distribuţia de frecvenţe a scorurilorobţinute Ia un test de cunoştinţe

De notat că această distribuţie de frecvenţe redă şi informaţia conformcăreia în eşantionul considerat nu au fost obţinute scorurile 26, 27, 28, 31 şi66, aflate între cel mai mic scor şi cel mai mare scor.

In distribuţia de frecvenţe din tabelul 2.4 am inclus toate scorurilediferite cuprinse între cel mai mic scor şi cel mai mare scor. Cu alte cuvinte,am clasificat datele într-un număr de grupuri sau clase egal cu numărul descoruri. După cum arată şi acest exemplu, construirea unei distribuţii înacest fel are drept rezultat o listă destul de lungă şi nu tocmai clarificatoare.Atunci când numărul de scoruri înregistrate este mare, se optează pentru oprezentare mai compactă (mai puţin detaliată) a datelor, prin grupareaacestora în categorii mai largi, care, în cazul datelor de interval sau deraport, se numesc intervale de clasă. în tabelul 2.5 se prezintă o distribuţiede frecvenţe pentru datele din tabelul 2.3, în care apar 10 intervale de clasă,

23

mărimea fiecărui interval fiind egală cu 5 unităţi. Adăugând şi o coloană deprocente pentru scorurile din flecare categorie faţă de numărul total descoruri vom spori claritatea prezentării.

Tabelul 2.5. Distribuţia de frecvenţe a scorurilorobţinute la un test de cunoştinţe (mărimea intervalului = 5)

Intervale de clasă20-2425-2930-3435-3940-4445-49

"50-54""""55-59'

60-6465-69TOTAL

/127182242

"30"37"""""'15

1 (3 1180

%0,561,113,8910,00 112,2223,33f6,"67~~"

"" 20756 ~8,333,33100,0

Distribuţia de frecvenţe din tabelul 2.4 evidenţiază predominanţarelativă a scorurilor din intervalele 45-49 (23,33%) şi 55-59 (20,56%). Pede altă parte, gruparea scorurilor în acest tabel conduce la o pierdere deinformaţie faţă de prezentarea din tabelul 2.3. Nu ştim, de pildă, câţisubiecţi au obţinut, respectiv, scorurile 35, 36, 37, 38 şi 39, ci doar că sunt18 scoruri în intervalul 35-39. Apoi, din tabelul 2.4 nu reiese că îneşantionul considerat nu au fost obţinute scorurile 26, 27, 28, 31 şi 66. Sămai notăm că, la rigoare, se poate spune că în distribuţia de frecvenţe dintabelul 2.3 mărimea fiecărui interval este egală cu o unitate.

în general, regulile de construire a unei distribuţii de frecvenţe pentrudate de interval sau de raport în care se utilizează intervale de clasă demărime diferită faţă de datele iniţiale sunt următoarele:

1. Se decide asupra numărului de intervale de clasă care vor fiutilizate. Numărul de intervale de clasă nu trebuie să fie atât de mare încâtsă nu permită sesizarea predominanţei relative a anumitor grupări descoruri, dar nici atât de mic încât să conducă la pierderea unor informaţiisemnificative. De regulă, se utilizează între 5 şi 20 de intervale, în funcţiede numărul de scoruri din mulţimea iniţială de date şi de scopurile cercetării.

2. în funcţie de numărul de intervale de clasă ales, se stabileşte mări-mea intervalelor de clasă. în mod obişnuit, pentru a se înlesni interpretarea

Page 12: Statistica  aplicata in psihologie, Dumitru Gheorghiu

24 25

distribuţiei de frecvenţe, se folosesc intervale de clasă de aceeaşi mărime.Mărimea unui interval de clasă se stabileşte împărţind diferenţa dintre celmai mare scor şi cel mai mic scor din mulţimea scorurilor date1 la numărulintervalelor de clasă şi rotunjind rezultatul până la un număr întregconvenabil.

3. Se stabileşte primul interval astfel încât să conţină cel mai mic scor(limita sa inferioară să fie mai mică sau egală cu cel mai mic scor). Ultimulinterval va fi acela care conţine cel mai mare scor. Intervalele nu trebuie săse suprapună.

4. Se numără scorurile din fiecare interval de clasă şi se înregistreazărezultatele într-o coloană etichetată / („frecvenţa"). La sfârşitul acestei coloanese prezintă numărul total de scoruri. Pentru mai multă claritate, se poateadăuga o coloană de procente.

Să vedem cum au fost aplicate aceste reguli pentru construireadistribuţiei de frecvenţe din tabelul 2.4. Scorul cel mai mare şi scorul celmai mic fiind, respectiv, 69 şi 24, amplitudinea scorurilor este 69 - 24 = 45.Alegând un număr de 10 intervale de clasă, mărimea fiecărui interval declasă este 45 -r 10 = 4,5 ~ 5. Primul interval, care trebuie să includă cel maimic scor, poate fi oricare dintre următoarele:

20-24, 21-25, 22-26, 23-27,24-28Fiecare dintre aceste intervale conţine cinci scoruri", inclusiv scorul 24,

deci poate fi ales. în exemplul nostru am ales intervalul 20-24. Ca atare,următorul interval este 25-29 ş.a.m.d. până la ultimul interval, 65-69, careconţine cel mai mare scor. De notat că intervalele din tabelul 24 par a nu fireciproc exclusive. în realitate, lucrurile nu stau aşa. Dacă, după intervalul20-24, ar fi urmat 24-28, 28-32 ş.a.m.d., am fi obţinut intervale suprapusedouă câte două. Scorul 24, de pildă, ar fi făcut parte atât din intervalul 20-24, cât şi din intervalul 24-28. Intervalele de clasă din tabelul 2.4 suntexhaustive (acoperă toate scorurile din mulţimea iniţială de scoruri) şireciproc exclusive (fiecare scor face parte dintr-un singur interval).

Distribuţiile de frecvenţe pentru date de interval sau de raport potconţine două instrumente ajutătoare în prezentarea datelor: frecvenţecumulate şi procente cumulate. Frecvenţele cumulate prezintă numărul de

1 Diferenţa dintre scorul cel mai mare şi scorul cel mai mic dintr-o mulţime de scoruri senumeşte amplitudine absolută a mulţimii respective de scoruri. Pentru detalii, vezicapitolul 3.2 Aparent, fiecare interval acoperă doar patru scoruri. Pentru a vă convinge că nu esteaşa, număraţi-le!

cazuri dintr-un interval de clasă şi din toate intervalele de clasă precedente,iar procentele cumulate prezintă procentul de cazuri dintr-un interval declasă şi din toate intervalele precedente3. Tabelul următor prezintă ocoloană de frecvenţe cumulate şi o coloană de procente cumulate pentrudistribuţia de frecvenţe din tabelul 2.5.

Tabelul 2.6. Distribuţia de frecvenţe a scorurilorobţinute la un test de cunoştinţe

— Intervale de clasă_ _

25-2930-34

40-4445-49 ]

50-5455-5960-6465-69

TOTAL

/1

h 271822423037156

180

fc131028 j5092122159174180

%0^56~1,113,8910,0

12,2223,3316,6720,568,333,33100,0

_ %c—w~~1 1,671 5,56

15,5627,7851, î l67,78'88,3496,67100,0

Pentru a construi distribuţia de frecvenţe cumulate din tabelul 2.6începem cu primul interval de clasă, 20-24. Pentru acest interval, intrarea încoloana de frecvenţe cumulate este identică cu numărul de scoruri dininterval, 1. Pentru intervalul imediat următor, 25-29, se adună numărul descoruri din interval, 2, cu numărul de scoruri din primul interval, 1,obţinându-se frecvenţa cumulată a intervalului, 3. Se procedează la felpentru fiecare interval, adunând frecvenţa din intervalul respectiv cufrecvenţa cumulată în intervalul imediat anterior. Evident, frecvenţacumulată în ultimul interval de clasă este egală cu numărul total de scoruri.

Construirea coloanei de procente cumulate urmează acelaşi modeladitiv cu cel folosit pentru frecvenţe cumulate. Astfel, pentru primulinterval, intrarea în coloana de procente cumulate este identică cu procentuldin interval. Pentru intervalul imediat următor, procentul cumulat esteprocentul scorurilor din interval plus procentul scorurilor din primulinterval ş.a.m.d. până la ultimul interval, în care, evident, procentul cumulat

3 Considerând, atât pentru frecvenţele cumulate, cât şi pentru procentele cumulate, căintervalele de clasă apar în tabel în ordine crescătoare.

Page 13: Statistica  aplicata in psihologie, Dumitru Gheorghiu

26

este egal cu 100%. De notat că aceleaşi rezultate se obţin prin aplicareatormule. 2.2, în care/C se înlocuieşte cu/pentru fiecare interval de clasă nîi md numărul total de scoruri.

Frecvenţele şi procentele cumulate arată felul în care sunt distribuitecazurile m plaja de scoruri. De pildă, tabelul 2.6 arată că o majoritatesemnificativă de subiecţi din eşantion - 122, respectiv 67,78% - au obţinutscoruri mai mici de 55.

Până acum am considerat scorurile înregistrate la testul de cunoştinţeca fund date discrete. Măsurarea unei variabile produce date discrete dacăînregistrarea acestora se face în categorii reciproc exclusive (nesuprapuse)Pentru anumite scopuri4, distribuţia unei variabile măsurabile la nivel deinterval sau de raport trebuie construită ca o serie continuă de categoriiparţ,al suprapuse. Pentru a obţine o distribuţie continuă de scoruri ale uneiastfel de variabile, se porneşte de la limitele intervalelor de clasă stabiliteiniţial, numite limite stabilite, şi, pe baza acestora, se determină aşa-numi-ele hm,te reale sau exacte. Pentru determinarea acestor limite, se împarte

la do. „distanţa" aritmetică dintre intervalele de clasă stabilite iniţial iarrezultatul astfel obţinut se scade din fiecare limită inferioară stabilită şi seaduna Ia fiecare limită superioară stabilită. Tabelul 2.6 prezintă rezultateleaplicam acestei proceduri la intervalele de clasă stabilite în tabelul o 4Întrucât „distanţa" aritmetică dintre intervalele de clasă din tabelul 2 4 estede o umtate, l.mitele reale se află scăzând 0,5 din fiecare limită inferioară şiadunând 0,5 Ia fiecare limită superioară. în tabelul 2.7 este adăugată ocoloană etichetată centre de interval. Centrele de interval sunt punctelesituate exact la mijlocul unui interval şi se află împărţind la doi sumalimitelor inferioară şi superioară ale intervalului5. De notat că centrele deinterval sunt aceleaşi, indiferent dacă folosim limite stabilite sau limitereale.

J De pildă cum vom vedea în secţiunea următoare, pentru construirea unei histograme• Centrele de interval sunt utile în construirea histogramelor.

27

Tabelul 2.7. Distribuţia de frecvenţe a scorurilor obţinute la unde cunoştinţe (incluzând limite reale şi centre de interval)

test

Intervale de clasă20-2425-2930-3435-3940-4445-4950-54 ~~1

55-5960-64

; 65-69! TOTAL

Limite reale19,5-24,524,5-29,529,5-34,534,5-39,539,5-44,544,5^9,549,5-54,554,5-59,559,5-64,564,5-69,5

Centre de interval22273237

r _ .4752576267

r

12

L 7 - _18224230

1 37156

180

Se poate observa că intervalele de clasă cu limite reale se suprapunparţial două câte două, astfel încât distribuţia apare ca fiind continuă.

Distribuţiile de frecvenţe se pot construi şi pentru variabile măsurate lanivelurile nominal sau ordinal. Pentru fiecare categorie a variabilei respec-tive se numără cazurile şi se prezintă subtotalurile, precum şi numărul totalde cazuri in). Să presupunem, de pildă, că suntem interesaţi de măsurareavariabilei nivel de şcolarizare pentru cei 180 de subiecţi care au răspuns laun test de cunoştinţe şi că decidem să folosim următoarea scală ordinală demăsură: \. nu a absolvit nici o şcoală; 2. a absolvit cel mult ciclul obliga-toriu de învăţământ; 3. a absolvit cel mult liceul; 4. a absolvit cel mult cursivipostliceale, neuniversitare; 5. a absolvit cel mult cursuri universitare; 6. aabsolvit cursuri postuniversitare. Folosind numerele de ordine ale cate-goriilor drept coduri (etichete), tabelul 2.8 ilustrează construirea uneidistribuţii de frecvenţe pentru variabila menţionată.

Tabelul 2.8. Nivelul de şcolarizare pentru cei 180 de subiecţi

Nivel de şcolarizare1 JL

82..„„_

6"TOTAL"

6T80"

zer45,56I3J3]

~3,89"""333• - - - » - • • » -

Page 14: Statistica  aplicata in psihologie, Dumitru Gheorghiu

28 29

Adăugarea unei coloane de procente pentru categorii aduce un spor declaritate a prezentării. De notat că la nivelurile nominal şi ordinal,frecvenţele cumulate şi procentele cumulate sunt lipsite de sens. Deasemenea, întrucât la aceste niveluri categoriile sunt întotdeauna discrete,nu are sens să se determine limitele de clasă reale şi centrele de interval.Singura coloană ce poate fi adăugată la distribuţiile de frecvenţe pentruvariabile la orice nivel de măsură este coloana de procente.

2.4. DIAGRAME ŞI GRAFICE

Diagramele şi graficele sunt modalităţi de prezentare vizuală a datelorstatistice şi furnizează o imagine globală a formei unei distribuţii. Alegereaunei modalităţi sau a alteia depinde, în principal, de nivelul de măsurăfolosit şi de scopurile cercetării.

Diagrame circulare

O diagramă circulară este pur şi simplu un cerc împărţit într-unnumăr de sectoare egal cu numărul de categorii ale variabilei de interes,mărimea fiecărui sector fiind proporţională cu procentajul de cazuri dincategoria respectivă. Diagramele circulare pot fi folosite pentru variabilemăsurate la nivelurile nominal şi ordinal.

Să presupunem că am înregistrat statusul marital al celor 180 desubiecţi care au răspuns la un test de cunoştinţe şi că am obţinuturmătoarele date:

Tabelul 2.9. Statusul marital pentru cei 180 de subiecţi

I Status marital \ f \ % \

tcdlbater^'""!!'""''""" I '&> 1 35,0 1[Căsătorit _ i 90 | 50,0! Piyorjat ; 27 J 15,0j TOTAL '""""""" ; 180 " j l 0 0 , 0

Persoană care nu a fost niciodată căsătorită

Să construim o diagramă circulară pentru datele din acest tabel,întrucât circumferinţa unui cerc are 360°, vom aloca 126° (35% din 360°)pentru prima categorie, 180° (50% din 360°) pentru cea de-a doua categorieşi 54° (15 % din 360°) pentru cea de-a treia categorie. Obţinem următoareadiagramă circulară:

Figura 2.1. Statusul marital al celor 180 de subiecţi

Diagrama din figura 2.1 evidenţiază vizual preponderenţa relativă asubiecţilor căsătoriţi şi lipsa relativă a subiecţilor divorţaţi din eşantionulconsiderat.

Diagrame cu coloane şi diagrame cu linii

Diagramele cu coloane reprezintă o altă modalitate de prezentarevizuală a datelor statistice. Ca şi diagramele circulare, diagramele cucoloane pot fi folosite pentru variabile măsurate la nivelurile nominal şiordinal. într-o astfel de diagramă, categoriile variabilei de interes apar pe oaxă orizontală (axa absciselor), iar frecvenţele (relative) apar pe axaverticală corespunzătoare (axa ordonatelor). Pe axa orizontală se constru-iesc atâtea coloane (dreptunghiuri) cu baze egale câte categorii sunt deprezentat. înălţimea unei coloane este proporţională cu frecvenţa (relativă) acazurilor din categoria respectivă. întrucât la nivelurile nominal şi ordinalcategoriile variabilelor sunt discrete, coloanele sunt separate între ele de odistanţă egală, de regulă, cu !4 din lăţimea lor.

Diagrama cu coloane din figura 2.2 prezintă în procente faţă de totalstatusul marital al subiecţilor din tabelul 2.9.

Page 15: Statistica  aplicata in psihologie, Dumitru Gheorghiu

30 31

60

50

4 0 "

5 30

* 2 0 -

10

0

-

Căsătoriţi Celibatari

Status marital

-

-

Divorţaţi

Figura 2.2. Statusul marital al celor 180 de subiecţi

Decizia de a utiliza o diagramă circulară sau o diagramă cu coloanedepinde de numărul de categorii ale variabilei de interes şi de scopulcercetării. Dacă o variabilă are mai mult de şase sau şapte categorii, atuncieste preferabilă o diagramă cu coloane, căci o diagramă circulară cu preamulte categorii devine prea aglomerată, deci greu de citit.

Diagramele cu coloane sunt utile în special pentru a prezentafrecvenţele (relative) pentru două sau mai multe categorii ale unei variabile,cu scopul de a face unele comparaţii. Să presupunem, de pildă, că dorim săfacem o comparaţie pe sexe a numărului de angajaţi ai unei firme care, înprimele şase luni ale unui an, au apelat la serviciile centrului de consilierepsihologică al firmei. Figura 2.3. prezintă datele (fictive) obţinute.

30

25

20

15

10

5

0

j •Bărbaţi1 • Femei

apr

Figura 2.3. Numărul de angajaţi care au apelat la serviciilecentrului de consiliere psihologică

Această diagramă arată că, în timp ce numărul de angajaţi care auapelat la serviciile centrului de consiliere psihologică în perioada menţio-

nată a fost în creştere, numărul de apelanţi femei a crescut mai repede decâtnumărul de apelanţi bărbaţi. Aceeaşi informaţie este prezentată printr-odiagramă cu linii în figura 2.4.

ian feb mar apr mai iun

Figura 2.4. Numărul de angajaţi care au apelat la serviciilecentrului de consiliere psihologică

Ca şi diagramele circulare şi diagramele cu coloane, diagramele culinii, îndeobşte cunoscute sub denumirea de „grafice", sunt larg folosite înmass-media pentru prezentarea diferitelor date statistice.

Histograme şi poligoane de frecvenţe

Histogramele sunt modalităţi de prezentare vizuală a distribuţiilor defrecvenţe pentru date de interval sau de raport, asemănătoare diagramelorcu coloane. întrucât într-o histogramă se folosesc limitele de clasă reale aleintervalelor considerate, coloanele apar în contact două câte două. Figura2.5 prezintă o histogramă pentru datele din tabelul 2.7.

. : &

. I U

«

••1

•rii

11 i

1 ;i

71 !•••h

19 5 24 5 29 5 34.5 39 5 44,5 49L5 54 5 59.5 64,5 69,5Scoruri (limite reale)

Figura 2.5. Histograma scorurilor obţinute la un test de cunoştinţe

Page 16: Statistica  aplicata in psihologie, Dumitru Gheorghiu

32 33

în general, o histogramă se construieşte după cum urmează:1. Intervalele de clasă sau scorurile se dispun pe axa orizontală (axa

absciselor), utilizând limite de clasă reale.2. Frecvenţele se dispun pe axa verticală (axa ordonatelor).3. Se construieşte câte o coloană pentru fiecare interval, cu înălţimea

corespunzătoare numărului de cazuri din interval şi cu lăţimea corespun-zătoare limitelor reale ale intervalului.

4. Se etichetează axele.

Altă modalitate obişnuită de prezentare vizuală a distribuţiilor defrecvenţe pentru variabile de interval sau de raport este poligonul defrecvenţe. Un poligon de frecvenţe utilizează centrele de interval şi seconstruieşte după cum urmează:

1. Se plasează câte un punct în dreptul fiecărui centru de interval, laînălţimea corespunzătoare frecvenţei din intervalul respectiv.

2. Punctele astfel obţinute se unesc prin linii drepte.3. Se închide poligonul, considerându-se câte un interval suplimentar cu

frecvenţa zero la fiecare capăt al distribuţiei şi unind prin linii drepte puncteleextreme cu centrele de interval (aflate pe abscisă) ale intervalelor suplimentare.

4. Se etichetează axele.

Pentru simplificarea construcţiei, pe axa absciselor se pot marca directcentrele de interval, în locul limitelor de clasă. Deşi redau aceeaşiinformaţie ca şi histogramele, poligoanele de frecvenţe sunt utile pentru ada o imagine generală a unei distribuţii de frecvenţe.

Figura următoare prezintă un poligon de frecvenţe ce redă aceeaşiinformaţie ca şi histograma din figura precedentă.

22 27 32 37 42 47 52 57 62 67Scoruri (centre de interval)

Figura 2.6. Poligonul de frecvenţe al scorurilorobţinute la un test de cunoştinţe

Ogive

Ogivele, numite şi „curbe cumulative ale frecvenţelor" sau „poligoanede frecvenţe cumulate", prezintă vizual frecvenţele cumulate sau procentelecumulate ale unei distribuţii. O ogivă utilizează limitele de clasă realesuperioare ale intervalelor (LCRS) şi se construieşte după cum urmează:

1. LCRS se dispun pe axa absciselor.2. Frecvenţele cumulate sau procentele cumulate se dispun pe axa

ordonatelor.3. Se plasează câte un punct în dreptul fiecărei LCRS, la înălţimea

corespunzătoare frecvenţei cumulate sau procentului cumulat în intervalulcorespunzător acelei LCRS.

4. Punctele astfel obţinute se unesc prin linii drepte.5. Ogiva se închide la stânga, extinzând o linie dreaptă către limita de

clasă reală inferioară a primului interval.6. Se etichetează axele.

Figura 2.7 prezintă o ogivă pentru datele din tabelul 2.6.

£ 100 T(TS

803

E3O

1oo

60

40

20

0

- —

0

Scoruri (limite reale)

Figura 2.7. Ogivă pentru scorurile obţinute la un test de cunoştinţe

După cum vom vedea în capitolul 3, o ogivă poate fi utilizată pentru aafla diferite puncte de interes într-o distribuţie de frecvenţe.

în capitolul 11 vom folosi diagrame de împrăştiere, numite şi„diagrame ale norilor de puncte" sau „scatergrame"6, care sunt modalităţide prezentare vizuală a corelaţiei dintre două variabile măsurate la nivel deinterval sau de raport.

1 De la substantivul din limba engleză „scatter", care înseamnă împrăştiere.

Page 17: Statistica  aplicata in psihologie, Dumitru Gheorghiu

34

GLOSAR

Centre de interval: puncte situate exact Ia mijlocul unui interval de clasă.Diagramă circulară: cerc împărţit într-un număr de sectoare egal cu numărul de

categorii ale variabilei de interes, mărimea fiecărui sector fiind proporţionalăcu procentul de cazuri din categoria respectivă.

Diagramă cu coloane: modalitate de prezentare vizuală a distribuţiei uneivariabile, în care categoriile sunt reprezentate prin coloane cu baza egală,înălţimea fiecărei coloane fiind proporţională cu procentul de cazuri dincategoria respectivă.

Distribuţie de frecvenţe: dispunere a valorilor unei variabile, care arată câte cazurisunt conţinute în fiecare categorie a variabilei respective.

Frecvenţă cumulată: numărul de cazuri dintr-un interval de clasă şi din toateintervalele precedente.

Histogramă: modalitate de prezentare vizuală a distribuţiilor de frecvenţe pentruvariabile de interval sau de raport, în care categoriile sunt reprezentate princoloane continue cu baza egală cu limitele reale ale intervalelor de clasărespective, înălţimea fiecărei coloane fiind proporţională cu procentul de cazuridin interval.

Intervale de clasă: categorii utilizate în cazul distribuţiilor de frecvenţe pentruvariabile de interval sau de raport.

Limite de clasă reale: limitele superioară şi inferioară ale intervalelor de clasă,folosite atunci când distribuţia de frecvenţe respectivă este considerată ca fiindcontinuă.

Limite stabilite: limitele superioară şi inferioară ale intervalelor de clasă, aşa cumapar acestea în distribuţia de frecvenţe iniţială.

Ogivă: modalitate de prezentare vizuală a frecvenţelor cumulate sau a procentelorcumulate ale unei distribuţii de frecvenţe pentru variabile de interval sau deraport.

Procent: numărul de cazuri dintr-o categorie a unei variabile împărţit la numărul decazuri din toate categoriile variabilei respective, rezultatul fiind înmulţit cu 100.

Procent cumulat: procentul de cazuri dintr-un interval de clasă şi din toateintervalele precedente.

Proporţie: numărul de cazuri dintr-o categorie a unei variabile împărţit la numărulde cazuri din toate categoriile variabilei respective.

Raport: numărul de cazuri dintr-o categorie a unei variabile împărţit la numărul decazuri din altă categorie a variabilei respective.

Rată: numărul de cazuri reale (efective) împărţit la numărul de cazuri posibilepentru variabila de interes pe o anumită unitate de timp.

3. MĂRIMILE TENDINŢEI CENTRALE

ŞI ALE DISPERSIEI

Utilizarea distribuţiilor de frecvenţe şi a tehnicilor grafice deprezentare a acestora permite relevarea formelor globale ale distribuţiilorunor scoruri. Pentru descrierea mai detaliată a unei distribuţii de scoruri,statisticienii folosesc două tipuri de mărimi numerice descriptive. Estevorba despre ideea de caz tipic sau central într-o distribuţie, redată prinmărimile tendinţei centrale, şi despre ideea de varietate sau eterogenitatea unei distribuţii, redată prin mărimile dispersiei. Determinarea acestormărimi furnizează valori precise ce pot fi uşor interpretate şi comparateîntre ele.

3.1. MĂRIMILE TENDINŢEI CENTRALE

Mărimile folosite în mod obişnuit pentru măsurarea tendinţei centralesunt modul, mediana şi media aritmetică. Fiecare dintre aceste mărimirezumă o întreagă distribuţie de scoruri, descriind cea mai tipică saucentrală valoare a distribuţiei respective sub forma unui singur număr sau aunei singure categorii.

3.1.1. Media aritmeticăMedia aritmetică se calculează doar pentru variabile măsurate la nivel

de interval sau de raport şi se defineşte ca rezultat al împărţirii sumeituturor scorurilor dintr-o mulţime de scoruri la numărul total de scoruri dinaceajpulţime. Simbolul folosit pentru media aritmetică a unui eşantionesteX, iar pentru media aritmetică a unei populaţii se foloseşte literagrecească y. (miu). întrucât deocamdată va fi vorba numai despre eşan-tioane, vom folosi simbolul X. Formula matematică a mediei aritmeticeeste următoarea:

Formula 3.1. X =

în care £X , = suma scorurilor;n = numărul total de scoruri. Să presupunem, de pildă, că am

înregistrat vârstele pentru un eşantion de 11 persoane şi că am obţinuturmătoarea distribuţie de frecvenţe:

Page 18: Statistica  aplicata in psihologie, Dumitru Gheorghiu

36 37

Tabelul 3.1. Vârstele pentru un eşantion de 11 persoane

Vârsta16171819

1

Iii1

III23

TOTAL311

Să remarcăm că avem 11 scoruri, câte unul pentru fiecare persoană dineşantion. Pentru a afla media aritmetică a vârstelor persoanelor din eşantionsau, pe scurt, vârsta medie, trebuie să însumăm toate cele 11 scoruri şi săîmpărţim rezultatul obţinut la 11. Pentru a scurta procedura, înmulţimfiecare scor cu frecvenţa cu care apare, adunăm rezultatele înmulţirilor şiîmpărţim suma astfel obţinută la 11:

-23)11 11

Astfel, media aritmetică a vârstelor persoanelor din eşantionul consi-derat este 19.

Media aritmetică este mărimea statistică folosită cel mai des în apre-cierea tendinţei centrale a unei mulţimi de scoruri de interval sau de raportdeoarece, pe de o parte, este uşor de calculat şi, pe de altă parte, are urmă-toarele proprietăţi importante, pe care le vom folosi în unele aplicaţii ulterioare:

1. Pentru orice distribuţie de scoruri, suma abaterilor scorurilor de lamedia lor aritmetică este egală cu zero. Abaterea unui scor Xj faţă de mediaaritmetică X este diferenţa X-, - X, astfel că această proprietate se exprimăsimbolic după cum urmează:

în cuvinte, suma diferenţelor dintre scoruri şi media lor aritmetică esteegală cu 0. Această proprietate, care este folosită în obţinerea unor formulestatistice mai complicate, poate fi exprimată şi spunând că, pentru oricedistribuţie de scoruri, media aritmetică este punctul în jurul căruia toatescorurile se anulează, ceea ce face din media aritmetică o mărime des-criptivă adecvată în măsurarea centralităţii scorurilor.

2. Pentru orice distribuţie de scoruri, suma pătratelor abaterilorscorurilor faţă de media lor aritmetică este mai mică decât suma pătratelorabaterilor scorurilor faţă de oricare alt scor din distribuţie, în simboluri:

Il(Xi-X?<Z(Xi-XJ)2

în cuvinte, suma pătratelor diferenţelor dintre scoruri şi media loraritmetică este mai mică decât suma pătratelor diferenţelor dintre scoruri şioricare alt scor din distribuţie. Această proprietate, care este folosită pentrua defini unele mărimi ale dispersiei şi pentru a calcula unele mărimi alecorelaţiei1, poate fi exprimată şi spunând că media aritmetică este punctul înjurul căruia suma abaterilor pătratice ale scorurilor este minimă.

Tabelul 3.2. ilustrează cele două proprietăţi ale mediei aritmeticepentru distribuţia de scoruri din tabelul 3.1, în care X = 19.

Tabelul 3.2. Proprietăţi ale mediei aritmetice pentru datele din tabelul 3.1.

1617171717181919232323E ,

_ _ _-3-2_2-2-2-1004440

IZL-II i 12L-1Â9 1 -14 | 04 " T "0" " "4 i 04 I" 01 _1_ l

0 i 20 | 216 | 616 i 616 1 674 j

'(X, - 17j2

10 j00014 ^4

363636118

Se poate constata că suma abaterilor pătratice ale scorurilor faţă demedia aritmetică (74) este mai mică decât suma abaterilor pătratice alescorurilor faţă de scorul 17 (118). Această relaţie are Ioc pentru oricare altscor din distribuţie.

Este important de reţinut că, în cazul în care o distribuţie are foartepuţine scoruri extreme (foarte mari sau foarte mici), media aritmetică poatedeveni o mărime înşelătoare în aprecierea centralităţii. De pildă, mulţimeade scoruri 15, 20, 25, 30, 35 are media aritmetică 25, în timp ce mediaaritmetică a mulţimii 15, 20, 25, 30, 3500 este 718, iar media aritmetică a

Vezi capitolul 11.

Page 19: Statistica  aplicata in psihologie, Dumitru Gheorghiu

38 39

mulţimii 1,15, 20, 25, 30, este 18,2. Se poate constata că media aritmeticăeste afectată disproporţionat de prezenţa scorurilor 3500 şi, respectiv, 1.Media aritmetică este „trasă" întotdeauna în direcţia scorurilor extreme, maiales în direcţia celor foarte mari. Acesta este un motiv pentru care serecurge uneori la o altă mărime a tendinţei centrale: mediana.

3.1.2. MedianaMediana poate fi determinată atât pentru variabile măsurate la nivel de

interval sau de raport, cât şi pentru variabile măsurate la nivel ordinal. Ca şiîn cazul mediei aritmetice, şi în cazul medianei vom folosi două simboluri:X pentru mediana unui eşantion şi \x pentru mediana unei populaţii. De

asemenea, întrucât deocamdată va fi vorba numai despre eşantioane, vomfolosi simbolul X.

Mediana X a unei mulţimi de scoruri este „punctul de mijloc" alacelei mulţimi, în sensul că numărul de cazuri cu scoruri mai mici sau egalecu X este egal cu numărul de cazuri cu scoruri mai mari sau egale cu X.Pentru a afla mediana unei mulţimi de n scoruri, scorurile respective searanjează mai întâi în ordine crescătoare sau descrescătoare. Dacă n esteimpar, atunci mediana este, evident, scorul cazului de mijloc. Dacă n estepar, atunci vor fi două cazuri de mijloc şi orice valoare cuprinsă între celedouă scoruri ale cazurilor de mijloc satisface definiţia medianei. într-oastfel de situaţie, prin convenţie, se ia drept mediană media aritmetică acelor două scoruri ale cazurilor de mijloc, evident, cu condiţia ca scorurilesă fie de interval sau de raport.

în exemplul din tabelul 3.1 avem de-a face cu 11 cazuri. Vârstamediană este 18, deoarece avem în eşantion cinci persoane cu vârste maimici de 18 ani şi cinci persoane cu vârste mai mari de 18 ani. Să presu-punem acum că am înregistrat vârstele pentru un eşantion de 7 persoane şică am obţinut următoarea distribuţie de frecvenţe:

Tabelul 3.3. Vârstele pentru un eşantion de 7 persoane

Vârsta262829303260

TOTAL

2111117

Pentru datele din acest tabel, X = 29: trei persoane au vârste mai micide 29 de ani şi alte trei persoane au vârste mai mari de 29 de ani. Deremarcat că vârsta tipică a persoanelor din acest eşantion este mai binereprezentată de vârsta mediană decât de media aritmetică a vârstelor, 33,care este „trasă" în sus de scorul 60. Acum, dacă adăugăm la acest eşantiono persoană de 31 de ani, avem 8 cazuri cu scorurile 26, 26, 28, 29, 30, 31,32 şi 60. Astfel, apar două cazuri de mijloc, unul cu scorul 29 şi celălalt cuscorul 30, şi orice număr cuprins între aceste două scoruri satisface definiţiamedianei. Ca atare, mediana este media aritmetică a scorurilor celor douăcazuri de mijloc: 29,5.

Următoarele două exemple arată de ce este inclusă expresia „sauegale" în definiţia medianei. Să presupunem că am înregistrat numărul decopii pentru un eşantion de 16 familii, rezultatele obţinute fiind urmă-toarele:

Tabelul 3.4. Numărul de copii pentru un eşantion de 16 familii

Numărde copii

0123

TOTAL

/_ _ _

47

16

în eşantionul considerat în tabelul 3.4, 8 familii au 0,1 sau 2 copii, iarcelelalte 8 familii au câte 2 sau 3 copii, astfel încât cea de-a 8-a şi cea de-a9-a familie (cele două cazuri de mijloc) au acelaşi număr de copii: 2. Caatare, mediana aceste mulţimi de scoruri este 2: 8 familii au fiecare unnumăr de copii mai mic sau egal cu 2, iar celelalte 8 familii au fiecare unnumăr de copii mai mare sau egal cu 2. Tot aşa, în mulţimea impară descoruri

1,2,3,5,5,5,7, 10, 12scorul median este 5, deoarece avem patru scoruri mai mici sau egale cu 5(1, 2, 3, 5) şi patru scoruri mai mari sau egale cu 5 (5, 7, 10, 12).

Următorul exemplu ilustrează determinarea medianei pentru variabilede nivel ordinal. Să presupunem că într-o cercetare privind modul depetrecere a timpului liber, 11 subiecţi au fost solicitaţi să răspundă la

Page 20: Statistica  aplicata in psihologie, Dumitru Gheorghiu

40 41

întrebarea „Cât de des aţi fost la cinematograf în ultimele şase luni?"Răspunsurile la această întrebare au fost înregistrate pe o scală ordinală cuurmătoarele categorii: 1. Deloc, 2. Foarte rar, 3. Rar, 4. Des, 5. Foarte des.Aranjând scorurile în ordine descrescătoare, datele sunt următoarele:

Tabelul 3.5. „Cât de des mergeţi la cinematograf?"

SubiectulAB

cDEFG

j H

\ I\ J

r K

RăspunsulFoarte desFoarte desFoarte desFoarte desFoarte des

DesFoarte rarFoarte rarFoarte rarFoarte rar

Deloc

Având un total de 11 cazuri, cazul de mijloc este al 6-lea, F, astfelîncât răspunsul median este scorul celui de-al şaselea caz: Des. Dacăadăugăm un subiect care dă răspunsul Deloc, avem două cazuri de mijloc:cel de-al 6-lea, F, şi cel de-al 7-lea, G. în această situaţie, teoretic vorbind,orice răspuns între Des şi Foarte rar satisface definiţia medianei. Practic,pe scala menţionată, între Des şi Foarte rar avem răspunsul Rar, pe care îlvom considera drept răspuns median: 6 subiecţi merg la cinematograf foartedes sau des, iar ceilalţi şase subiecţi merg la cinematograf foarte rar saudeloc.

Dacă numărul de cazuri din eşantion este relativ mic, identificareacazului sau cazurilor de mijloc este neproblematică. Pentru eşantioane mari,identificarea menţionată poate fi înlesnită prin folosirea unor calculesimple. Astfel, după ordonarea scorurilor, dacă n este impar, cazul demijloc este dat de formula (n + l)/2; dacă n este par, primul caz de mijloceste dat de formula n/2, iar cel de-al doilea caz de mijloc de formula0/2) + 1 . Ca exerciţiu, determinaţi mediana scorurilor din tabelul 2.3 dincapitolul anterior. (Puteţi folosi tabelul 2.4? Dacă da, cum?)

De notat că mediana nu este „trasă" în direcţia valorilor extreme,deoarece această mărime ia în considerare doar ordinea scorurilor, nu şimagnitudinea efectivă a acestora2. Reluând un exemplu dat mai sus,mulţimea de scoruri 15, 20, 25, 30, 35 are aceeaşi mediană ca şi mulţimea15, 20, 25, 30, 3500: scorul 25. Să mai remarcăm că mediana şi mediaaritmetică ale unei mulţimi de scoruri pot să coincidă, acesta fiind, de pildă,cazul mulţimii 15, 20, 25, 30, 35.

Mediana nu poate fi determinată pentru variabile de nivel nominal,deoarece aceste variabile nu au scoruri care să poată fi ordonate. Mărimeatendinţei centrale care poate fi folosită la nivel nominal, ca şi la toatecelelalte niveluri de măsură, este modul.

3.1.3. ModulModul unei mulţimi de scoruri (Mo) este scorul care apare cel mai

frecvent în acea mulţime. De pildă, modul datelor din tabelul 3.4 este 2,deoarece este scorul care apare de cele mai multe ori în eşantionulconsiderat, iar modul datelor din tabelul 3.5 sau, altfel spus, răspunsulmodal, este Foarte des, deoarece este răspunsul care apare de cele maimulte ori în raport cu celelalte răspunsuri.

Modul este singura mărime care poate fi folosită în măsurarea tendinţeicentrale pentru variabile de nivel nominal. Modul unei astfel de variabileeste cea mai mare categorie a sa sau, altfel spus, categoria cu cele mai multecazuri. De pildă, modul variabilei status marital pentru distribuţia dintabelul 2.8 din capitolul anterior este categoria Căsătorit.

Exemplele date până acum ilustrează cazul mulţimilor unimodale descoruri, adică al mulţimilor în care există un singur scor care apare maifrecvent decât celelalte. Dacă într-o mulţime de scoruri există două astfel descoruri, ca în exemplul

3, 3, 3, 5, 5, 5, 7, 10, 12,atunci se spune că mulţimea respectivă este bimodală. Desigur, este posibilca o mulţime de scoruri să aibă trei sau mai multe moduri, după cum esteposibil ca o mulţime de scoruri să nu aibă mod, fiecare scor din mulţimearespectivă apărând de un număr egal de ori. Pe de altă parte, este posibil cao mulţime unimodală să nu aibă modul localizat „la mijloc". Fie, de pildă,următoarea mulţime de scoruri:

" Acesta este şi motivul pentru care mediana se foloseşte cu precădere pentru dateordinale.

Page 21: Statistica  aplicata in psihologie, Dumitru Gheorghiu

42 43

44, 44, 46, 46, 46, 48, 50, 50, 50, 50, 50.Modul acestei mulţimi este 50, în timp ce mediana este 48, iar media

aritmetică este aproximativ 47,6. Pretenţia că modul este o mărime atendinţei centrale trebuie să fie înţeleasă în sensul că această mărime indicălocalizarea celei mai mari grupări sau concentrări de scoruri dintr-omulţime unimodală, ceea ce se poate dovedi important în special pentrudate de nivel nominal. Să presupunem că ultima mulţime de scoruri de maisus reprezintă o înregistrare a măsurilor sacourilor vândute într-un magazintimp de o săptămână. Astfel, modul măsurilor de sacouri vândute sau, altfelspus, măsura modală a acestora este de mai mare interes pentru directorulmagazinului decât mediana măsurilor de sacouri vândute. Pe de altă parte,în acest caz media aritmetică a scorurilor nu este în nici un fel semni-ficativă: numerele care indică măsuri de sacouri sunt convenţionale, astfelcă ele puteau fi înlocuite, de pildă, cu litere.

3.1.4. Distribuţii simetrice şi distribuţii asimetriceDupă cum am arătat, dacă lucrăm cu date nominale, singura mărime a

tendinţei centrale pe care o putem folosi este modul; dacă datele sunt ordinale,putem folosi atât modul, cât şi mediana, iar dacă datele sunt de interval sau deraport, putem folosi toate cele trei mărimi ale tendinţei centrale.

După cum vom vedea în capitolele dedicate statisticii inferenţiale, lanivel de interval sau de raport media aritmetică este cu deosebire utilăpentru a trage concluzii despre caracteristicile unei populaţii pe bazacaracteristicilor corespunzătoare ale unui eşantion din acea populaţie.Pentru scopuri descriptive însă, dacă lucrăm cu date de interval sau deraport, este recomandabil să folosim toate mărimile tendinţei centrale,deoarece, pe de o parte, ele pot furniza informaţii relativ diferite şi, pe dealtă parte, compararea valorilor mediei aritmetice şi medianei furnizeazăinformaţii despre forma unei distribuţii. Astfel, media aritmetică şi medianaau aceeaşi valoare numai atunci când distribuţia este simetrică. într-unastfel de caz, dacă distribuţia este unimodală, atunci şi modul are aceeaşivaloare cu celelalte două mărimi. Să considerăm următorul poligon defrecvenţe „rotunjit", care prezintă o distribuţie de frecvenţe simetrică:

o2

LL

X, X

Figura 3.1. O distribuţie simetrică (X = X)

în această distribuţie, media aritmetică, mediana şi modul aparîmpreună în cel mai înalt punct al curbei. Acest punct este modul, deoareceeste punctul în care sunt înregistrate cele mai multe cazuri, este mediana,deoarece numărul de cazuri înregistrate la stânga acestui punct este egal cunumărul de cazuri înregistrat la dreapta sa şi este media aritmetică, deoa-rece scorurile aflate în partea dreaptă întrec scorul median în aceeaşi măsură încare scorurile aflate în partea stângă sunt mai mici decât scorul median.

Atunci când o distribuţie are doar câteva scoruri foarte mari sau, altfelspus, scorurile relativ mici sunt predominante, media aritmetică este maimare decât mediana. într-un astfel de caz, se spune că distribuţia respectivăprezintă o asimetrie pozitivă. Figura 3.2 ilustrează cazul unei distribuţii cuasimetrie pozitivă:

X X

Figura 3.2. O distribuţie cu asimetrie pozitivă (X > X)

Atunci când o distribuţie are doar câteva scoruri foarte mici sau, altfelspus, scorurile relativ mari sunt predominante, media aritmetică este maimică decât mediana. într-un astfel de caz, se spune că distribuţia respectivăprezintă o asimetrie negativă. Figura 3.3 ilustrează cazul unei distribuţii cuasimetrie negativă.

Page 22: Statistica  aplicata in psihologie, Dumitru Gheorghiu

44 45

(Q

X X

Figura 3.3. O distribuţie cu asimetrie negativă (X < X)

După cum se poate constata, compararea mediei aritmetice cu medianane indică imediat dacă distribuţia respectivă este sau nu simetrică şi dacănu, ne indică sensul asimetriei.

3.7.5. Media aritmetică ponderatăSă presupunem că într-o serie de 140 de studenţi sunt 86 de băieţi

şi 54 de fete. Ştim că la examenul de statistică, media aritmetică a notelorobţinute de fete este 8,45 şi media aritmetică a notelor obţinute de băieţieste 7,33. Ne interesează media aritmetică a celor două grupuri combinate.Dacă am calcula pur şi simplu media aritmetică a celor două medii, amgreşi, deoarece grupurile diferă în privinţa numărului de studenţi, deci descoruri. Pentru a afla media aritmetică a celor două grupuri combinate, vomcalcula media aritmetică ponderată. Pentru aceasta, înmulţim numărul descoruri din fiecare grup cu media aritmetică a grupului respectiv, adunămprodusele astfel obţinute, iar rezultatul îl împărţim la numărul total descoruri. în simboluri:

Formula 3.2. X=^"X

N

în care n, - numărul de scoruri din fiecare grup;Xj = media aritmetică a fiecărui grup;N= numărul total de scoruri.

în exemplul nostru avem:

X =v _ £ " / * / - (86-7,33)+ (54.8,45) _ 1086,68 _ ? ?

N 140 140

Dacă am fi făcut media aritmetică a valorilor 7,33 şi 8,45 am fi obţinut7,89, ceea ce ar fi fost incorect, căci grupurile diferă în privinţa număruluide scoruri. Evident, media aritmetică ponderată poate fi calculată şi pentrumai mult de două grupuri.

Este important de remarcat că, aplicate la aceeaşi mulţime de scoruri,formulele 3.1 şi 3.2 produc acelaşi rezultat. Pentru ilustrare, fie următoareamulţime de 10 scoruri, împărţită în două grupuri: n: = {5, 5, 5, 6, 7, 7},ti2 = {7, 8, 9, 10}. Media aritmetică pentru întreaga mulţime este

_ (5-3) + 6 + (7-3) + 8 + 9 + 10 '_ 69 _ Q n

10 10_\ —

Acum, mediile aritmetice ale celor două grupuri sunt, respectiv,Xx = 5,83 şi X2 = 8,50, astfel că media aritmetică ponderată a celor douăgrupuri este

? _ M - (6-5,83)+ (4-8,50) _ 35 + 34 _ 69 _ Q n

10N 10 10

încă o dată, calculul mediei aritmetice a celor două medii conduce laun rezultat greşit: 7,16.

3.1.6. Mărimile tendinţei centrale pentru date grupateîn cele ce urmează, vom expune tehnicile statistice de aflare a

mărimilor tendinţei centrale pentru date de interval sau de raport grupate îndistribuţii de frecvenţe. Aceste tehnici îşi dovedesc utilitatea în douăsituaţii. O primă situaţie apare atunci când trebuie să lucrăm cu o mulţimemare de scoruri brute şi nu dispunem de un calculator sau de un computersau decidem că valorile aproximative ale acestor mărimi sunt suficientepentru scopurile noastre. O a doua situaţie apare atunci când avem de-a facecu date din surse secundare, deja organizate în distribuţii de frecvenţe cuintervale de clasă, fără să avem acces la scorurile brute iniţiale. într-o astfelde situaţie, întrucât nu cunoaştem modui în care scorurile sunt realmente

Page 23: Statistica  aplicata in psihologie, Dumitru Gheorghiu

46

distribuite nu putem decât să aproximăm mărimile tendinţei centrale aledistribuţiilor respective. '

Pentru ilustrare, să considerăm exemplul privind scorurile obţinute deISO de subiect, la un test de cunoştinţe, pe care am lucrat în capitolulantenor. înainte de a trece mai departe, prezentăm valorile calculate pentruscorurile brute, pentru a le putea compara cu cele calculate pentru datelegrupate. Astfel, în exemplul nostru avem:

X = 49,22 X = A9 Mo = 56

Să considerăm acum distribuţia de frecvenţe a scorurilor obţinute de1W de subiecţi la un teste de cunoştinţe:

Tabelul 3.6. Distribuţia de frecvenţe a scorurilorobţinute la un test de cunoştinţe

Intervale de clasă2 0 - 2 4 •"25-2930-34 j35-39

45^49 ~ "

•"2^ 55359 "•""" j

2 '7 1

.~...„_j

30 |

60^465HS9

TOTAL6

180"

Media aritmetică pentru date grupate

Pentru a calcula media aritmetică a unei mulţimi de scoruri trebuie săcunoaştem două valori: suma tuturor scorurilor, ZX>, şi numărul de scorurin. In cazul distribuţiei din tabelul 3.6, nu ştim decât că n = 180 Deoarecedatele au fost grupate, nu cunoaştem distribuţia exactă a scorurilorindividuale, deci nu putem determina e x a c ţ i ^ .

Să considerăm primul interval (20-24). în acest interval se află unsingur caz, dar nu ştim care este scorul acestuia. Pentru a depăşi aceastădilema, vom presupune că scorul acestui caz este situat în centrul inter-valului. Această presupunere revine la a spune că scorul cazului din acestinterval este 22, acest număr aproximând scorul său efectiv. în cel de-al

47

doilea interval (25-29) se află două cazuri. Şi aici vom presupune căscorurile celor două cazuri sunt situate în centrul intervalului, presupunerece revine Ia a spune că fiecare dintre cele două cazuri are scorul 27. Subaceastă presupunere, suma scorurilor individuale din cel de-al doileainterval este 54 (27x2), acest număr aproximând suma reală a scorurilorindividuale din interval. Procedând la fel pentru celelalte intervale şi adunândapoi rezultatele, vom obţine un număr care aproximează suma reală a tuturorscorurilor individuale. în fine, împărţind valoarea astfel obţinută la numărul descoruri (180), vom obţine media aritmetică aproximativă a scorurilor.

în general, supoziţia calculului mediei aritmetice pentru date grupateeste că în fiecare interval de clasă toate scorurile sunt situate în centrulintervalului respectiv. Sub această supoziţie, procedura de calcul esteurmătoarea:

1. Pentru fiecare interval /, se calculează centrul m,.2. Numărul de cazuri din fiecare interval, /, se înmulţeşte cu centrul

intervalului respectiv, m, (fim,).3. Se calculează 2#m,-, iar valoarea astfel obţinută se împarte la

numărul de scoruri (n).întrucât Z//W, = EXj, vom avea:

Formula 3.3. X s

Pentru a aplica această procedură la exemplul nostru, vom adăugadouă coloane la distribuţia de frecvenţe din tabelul 3.6, una pentru centrelede interval şi una pentru produsele dintre centrele de interval şi frecvenţe:

Tabelul 3.7. Calculul mediei aritmetice pentru date grupate

Intervale de clasă20-2425-2930-3435-3940-4445^1950-5455-59

"60^6465-69

""'TOTAL

1

1 271822423037

" 156

m2227323742475257

L 6 2

fm2254

224666924197415602109930"4028865

Page 24: Statistica  aplicata in psihologie, Dumitru Gheorghiu

49

Totalul ultimei coloane este valoarea pentru Zf/m,. împărţind aceastăvaloare la numărul total de cazuri obţinem media aritmetică aproximativă ascorurilor:

1 , 49,25n 180

După cum se poate constata, valoarea obţinută în acest fel reprezintă odeosebit de bună aproximare a valorii efective a mediei aritmetice.

Mediana pentru date grupate

Ştim că pentru a afla mediana unei distribuţii ordonate de scoruritrebuie să identificăm mai întâi cazul sau cazurile de mijloc ale distribuţieirespective. Atunci când se lucrează cu date grupate, se introduce osimplificare: cazul de mijloc este identificat la n/2, indiferent dacă n estepar sau impar. în exemplul nostru, având 180 de cazuri în eşantion, cazul demijloc va fi identificat la 180/2, i.e. al 90-lea caz. Mai departe, problemaeste de a localiza acest caz şi apoi de a afla scorul asociat lui. Evident,atunci când datele sunt grupate, cazul de mijloc se află într-un interval declasă. Supoziţia calculului medianei pentru date grupate este că în fiecareinterval de clasă toate scorurile sunt distribuite uniform între limitele realeale intervalului. Astfel, după ce identificăm intervalul care conţine cazul demijloc, vom afla scorul respectiv pe baza acestei supoziţii. Pentru identifi-carea intervalului de clasă care conţine cazul de mijloc, adăugăm o coloanăde frecvenţe cumulate la distribuţia de frecvenţe iniţială:

Tabelul 3.8. Calculul medianei pentru date grupate

i Intervale de clasă20-24

J^-39_40-4±.

"45-49'

/1

"2

ITf

A j13

_ _ _"28 '50

50-54_ _ 92

55-5960-̂ 5465-69

TOTAL

37156

180

159174180

30

Inspectând coloana de frecvenţe cumulate, constatăm că 50 decazuri s-au cumulat sub limita superioară a intervalului 40-44 şi că 92 decazuri s-au cumulat sub limita superioară a intervalului 45-49. Ştim acumcă mediana - scorul asociat celui de-al 90-lea caz - este o valoare cuprinsăîntre limita reală inferioară şi limita reală superioară ale intervalului 45-49,adică între 44,5 şi 49,5. Mai departe, presupunem că toate cele 42 de cazurisituate în acest interval sunt distribuite uniform între limitele reale aleintervalului, cazul 51 fiind situat la limita reală inferioară (44,5), iar cazul92 la limita reală superioară (49,5). în intervalul care conţine mediana sunt42 de cazuri, cazul 92, cumulat în acest interval, fiind al 42-lea; prinurmare, cazul 90 este al 40-lea din cele 42 din interval3. Aceasta revinela a spune că, pentru a afla al câtelea caz este cazul 90, scădem din 90frecvenţa cumulată a cazurilor aflate sub intervalul în care se află mediana:90 - 50 = 40. Dacă, aşa cum am presupus, scorurile sunt distribuiteuniform, atunci cazul 90 se află la 40/42 din distanţa dintre 44,5 şi 49,5.Acum, 40/42 din 5 (mărimea intervalului) este 4,75, astfel încât putemaproxima mediana la 44,5 + 4,75 sau 49,25.

în general, sub supoziţia că în fiecare interval de clasă toate scorurilesunt distribuite uniform între limitele reale ale intervalului, procedura decalcul al medianei pentru date grupate este următoarea:

1. Se află cazul de mijloc, dat de nil.2. Se construieşte o coloană de frecvenţe cumulate şi cu ajutorul

acesteia se identifică intervalul care conţine cazul de mijloc.3. Se află al câtelea caz din interval este cazul de mijloc, scăzând din n/2

frecvenţa cumulată a cazurilor aflate sub intervalul identificat în pasul 2.4. Numărul obţinut în pasul 3 se împarte la numărul de cazuri din

interval.5. Numărul obţinut în pasul 4 se înmulţeşte cu mărimea intervalului.6. Numărul obţinut în pasul 5 se adună cu limita de clasă reală

inferioară a intervalului care conţine cazul de mijloc. Rezultatul reprezintăvaloarea aproximativă a medianei.

Formula următoare rezumă aceşti paşi:

Formula 3.4. X = LCR1^ +[ nl2~ fa X

1 Cu alte cuvinte, cazul 51 este primul, 52 al doilea, ..., 90 al 40-lea.

Page 25: Statistica  aplicata in psihologie, Dumitru Gheorghiu

50

în care LCRI^= limita de clasă reală inferioară a intervalului care conţineal n/2-lea caz;

n = numărul total de cazuri;

fcj - frecvenţa cumulată sub intervalul care conţine al «/2-lea caz;f, - numărul de cazuri din intervalul care conţine al «/2-lea caz;/' = mărimea intervalului care conţine al «/2-lea caz;

Aplicând această formulă la exemplul nostru, avem:

= 44,5 + 4,75 = 49,25

Vom spune că aproximativ jumătate din subiecţii din eşantion au obţinut unscor mai mic de 49,25 şi jumătate mai mare de 49,25. Şi de data aceasta sepoate constata că valoarea obţinută în acest fel reprezintă o foarte bunăaproximare a valorii efective a medianei.

Intervalul modal

Atunci când datele sunt grupate, scorul modal efectiv al distribuţiei defrecvenţe respective nu poate fi determinat. într-o astfel de situaţie se poatedetermina doar intervalul modal - intervalul care conţine cel mai marenumăr de cazuri -, centrul acestui interval fiind considerat modul distri-buţiei. Pentru o mai bună aproximare a modului unei distribuţii cu dategrupate, în cazul în care distribuţia are două sau mai multe intervaleneadiacente în care numărul de scoruri este mai mare decât în intervaleleadiacente, atunci distribuţia respectivă este considerată multimodală(bimodală, trimodală etc). In exemplul nostru, conform definiţiei stricte,intervalul modal este 45-49, astfel că centrul acestui interval, 47, apare camod al distribuţiei. Totuşi, întrucât aici apar două intervale neadiacente,45-49 şi 55-59, în care numărul de scoruri este mai mare decât înintervalele adiacente, 42 şi respectiv 37, vom considera că distribuţia estebimodală, cele două moduri fiind centrele de interval respective: 47 şi 57.Se poate constata că intervalul 55-59 conţine modul efectiv al distribuţieide frecvenţe, 56.

51

3.2. PERCENTILE

Mărimile tendinţei centrale furnizează informaţii despre mulţimi descoruri. în anumite cazuri însă, cercetătorul poate fi interesat de descriereapoziţiei unui scor individual în raport cu celelalte scoruri dintr-o distribuţie.Dacă, de pildă, un subiect a obţinut scorul 47 la un test de cunoştinţe, sem-nificaţia acestui scor poate fi explicată inclusiv în termenii numărului desubiecţi din eşantionul considerat care au obţinut scoruri mai mici decât 47.

Poziţia unui scor individual într-o distribuţie poate fi determinată cuajutorul percentilelor. Cea de-a w-a percentilă a unei mulţimi de scoruri,P„„ este valoarea faţă de care cel mult m% din scoruri sunt mai mici decât mşi cel mult (100 - m)% din scoruri sunt mai mari decât m. întrucât medianaunei mulţimi de scoruri este valoarea faţă de care cel mult 50% din scorurisunt mai mici şi cel mult 50% din scoruri sunt mai mari, mediana este ceade-a 50-a percentilă a acelei mulţimi. Tot aşa cum există un nume specialpentru cea de-a 50-a percentilă a unei mulţimi de scoruri, există numespeciale pentru percentilele care împart o mulţime ordonată de scoruri însferturi şi în zecimi: cuartile4 şi, respectiv, decile. Lista următoare prezintăcele mai utilizate percentile, împreună cu simbolurile uzuale pentru cuartileşi decile (considerând că este vorba despre o mulţime de scoruri ordonatăcrescător):

D\ = Prima decilă = P\Q,Qx = Prima cuartilă = P25', _Q2 = A doua cuartilă = P$o = X ;Qi = A treia cuartilă = P75;D9 = A noua decilă =

Pentru ilustrare, fie următoarea mulţime ordonată de 15 scoruri:2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, 27, 29, 30

fii X Q3

Prima cuartilă este valoarea faţă de care cel mult 25% din scoruri, i.e.cel mult (15/100)25 = 3,75 scoruri, sunt mai mici şi cel mult 75% dinscoruri, i.e. cel mult (15/100)75 = 11,25 scoruri, sunt mai mari. Singurul

4 Cuartilele sunt valori care împart o mulţime ordonată de scoruri în patru părţi egale. înpractică, termenul cuartilă se foloseşte adesea pentru referire la unul dintre acestesferturi.

Page 26: Statistica  aplicata in psihologie, Dumitru Gheorghiu

52 53

scor care satisface acest criteriu este 5, deci Q\ = 5. Cea de-a doua cuartilă,mediana, este scorul central, i.e. 12. Cea de-a treia cuartilă este valoareafaţă de care cel mult 75% din scoruri, i.e. cel mult 11,25 scoruri sunt maimici şi cel mult 25% din scoruri, i.e. 3,75 scoruri, sunt mai mari. Singurulscor care satisface acest criteriu este 21, deci g3 = 21.

De notat că (n/l00)25 = «(0,25), iar (n/l00)75 = «(0,75). Ca atare,pentru Q\ putem folosi formula «(0,25), iar pentru Q3 formula«(0,75) sau, echivalent, n - «(0,25). în exemplul nostru, «(0,25) = 3,75 şi«(0,75) = «-«(0,25) =11,25.

Uneori, percentila căutată „cade" între două scoruri din mulţimearespectivă. într-un astfel de caz, prin convenţie, se alege media aritmetică acelor două scoruri pentru a aproxima percentila căutată. Să presupunem căne interesează ce-a de-a 20-a percentila din mulţimea de mai sus. Aceasta arfi valoarea faţă de care cel mult 3 scoruri sunt mai mici şi cel mult 12scoruri sunt mai mari. întrucât orice număr cuprins între 4 şi 5 (inclusiv)satisface acest criteriu, vom alege 4,50 drept ce-a de-a 20-a percentila.

Procedura de calcul a percentilelor pentru date grupate este asemă-nătoare procedurii de calcul a medianei pentru date grupate. Să considerămdin nou distribuţia de frecvenţe a scorurilor obţinute la un test de cunoştinţede 180 de subiecţi şi să presupunem că ne interesează cea de-a 75-apercentila. Pentru a o afla, vom folosi tabelul 3.8, care include o coloană defrecvenţe cumulate.

Mai întâi, identificăm intervalul de clasă care conţine percentilacăutată. Având 180 de scoruri individuale în eşantion, P75 este valoarea faţăde care cel mult 135 (180 x 0,75) de scoruri sunt mai mici şi cel mult 45(180 - 135) de scoruri sunt mai mari. Ca atare, intervalul de clasă careconţine percentila căutată este cel care conţine valoarea faţă de care celmult 135 (180 x 0,75) de scoruri sunt mai mici. Inspectând coloana defrecvenţe cumulate din tabelul 3.8, constatăm că 122 de cazuri sau scoruris-au cumulat sub limita superioară a intervalului 50-54 şi că 159 de cazurisau scoruri s-au cumulat sub limita superioară a intervalului 55-59. Ştimacum că P75 este o valoare cuprinsă între limita reală inferioară şi limitareală superioară ale intervalului 55-59, adică între 54,5 şi 59,5. Maideparte, presupunem că toate cele 37 de cazuri situate în acest interval suntdistribuite uniform între limitele reale ale intervalului, cazul 123 fiind situatla limita reală inferioară (54,5), iar cazul 159 la limita reală superioară(59,5). în intervalul care conţine P75 sunt 37 de cazuri, cazul 135 fiind al13-lea: cazul 123 este primul, 124 al doilea, ..., 135 al 13-lea. Aceasta

revine la a spune că, pentru a afla al câtelea caz este cazul 135, scădem din135 frecvenţa cumulată a cazurilor aflate sub intervalul în care se află cazul135: 135 - 122 = 13. Dacă, aşa cum am presupus, scorurile sunt distribuiteuniform, atunci cazul 135 se află la 13/37 din distanţa dintre 54,5 şi 59,5.Acum, 13/37 din 5 (mărimea intervalului) este 1,75, aşa încât putemaproxima/'vs la 54,5 + 1,75 sau 56,25.

Formula următoare rezumă paşii de calcul al percentilelor pentru dategrupate:

Formula 3.5. Pm = LCRIm + [ np~fc'\

în care LCRIm = limita de clasă reală inferioară a intervalului care conţine•'nu

« = numărul total de scoruri;p - proporţia corespunzătoare Pm;foi = frecvenţa cumulată sub intervalul care conţine Pm;fi = numărul de cazuri din intervalul care conţine Pm;i = mărimea intervalului.Aplicând formula 3.5 la exemplul nostru, avem:

Să presupunem acum că ne interesează procentul de subiecţi care auobţinut un scor mai mic sau egal cu 47 şi că nu dispunem decât de datelegrupate din tabelul 3.8. Procentul de cazuri care au un scor mai mic sau egalcu un scor dat se numeşte rangul percentilei scorului respectiv.

Pentru a afla rangul percentilei pentru scorul 47, notat RP47, observămmai întâi că acest scor este cuprins în intervalul 45-49 şi că 50 de cazuris-au cumulat sub limita reală inferioară a acestui interval, 44,5. Ca şi pânăacum, vom presupune că toate cele 42 de cazuri situate în acest interval suntdistribuite uniform între limitele reale ale intervalului. Sub aceastăpresupunere, proporţia de cazuri din interval care au scoruri mai mici sauegale cu 47 este (47,0 - 44,5)/5 = 2,5/5 = 0,5. Ca atare, în acest interval sunt42 x 0,5 = 21 de scoruri mai mici sau egale cu 47. Prin urmare, numărultotal de scoruri mai mici sau egale cu 47 este 50 + 21 = 71, iar rangulpercentilei scorului 47 poate fi aproximat la (71/180) x 100 = 38,9. Aceastaînseamnă că 38,9% din cazuri au un scor mai mic sau egal cu scorul 47.

Page 27: Statistica  aplicata in psihologie, Dumitru Gheorghiu

54

Următoarea formulă rezumă paşii de calcul al rangului percentilelorpentru date grupate:

Formula 3.6. RPX = xlOO

în care fc, = frecvenţa cumulată sub intervalul care conţine scorul X;X= scorul pentru care se determină RPX.LCRIX - limita de clasă reală inferioară a intervalului care conţine

scorul X;i - mărimea intervalului;

fi = numărul de cazuri din intervalul care conţine scorul Xin = numărul total de cazuri.Aplicând această formulă la exemplul nostru, avem:

RPAI-180

x l 0 0 = ~ ^ x l 0 0 = 38,91 oU

Percentilele şi rangul percentilelor pentru date grupate pot fi aproxi-mate şi folosind ogivele. Pentru exemplificare, să folosim ogiva construităîn capitolul anterior pentru scorurile celor 180 de subiecţi:

oa01uo

1UU -90 -

ou -70 -fin -m -4fl -l3n -?n -10 -

o i

m;îm

19,5 24,5

•:/"-:':'•'•"•'-A:

y^'şO •'.

29,5

: > : v : : > : : :•.=-

34,5

.;::«««

' ; ; • • • ' • " : • " : ' - /

39,5

K ¥ K P

44,5 49,5 54,5 59,

* " ' • : " •

5 64,5

= : i .'•.:1-1:.1.ţ

-•?•.'•.•.••:,'>••'!

69.5Scoruri (limite reale)

Figura 3.4. Ogivă pentru scorurile obţinuteIa un test de cunoştinţe

55

Pentru a afla, de pildă, /^g, din punctul 58 de pe axa procentelor trasămo paralelă cu axa scorurilor care să intersecteze curba, iar din punctul deintersecţie trasăm o perpendiculară pe axa scorurilor. Punctul de intersecţieal acestei perpendiculare cu axa scorurilor este Psg. Pentru a afla RP62, dinpunctul 62 de pe axa scorurilor trasăm o paralelă cu axa procentelor care săintersecteze curba, iar din punctul de intersecţie trasăm o perpendiculară peaxa procentelor. Punctul de intersecţie al acestei perpendiculare cu axaprocentelor este RP62-

3.3. MĂRIMILE DISPERSIEI

Descrierea unei distribuţii de scoruri cu ajutorul mărimilor tendinţeicentrale nu epuizează informaţia relevantă statistic despre distribuţiarespectivă. Pentru descrierea completă a unei distribuţii de scoruri trebuiesă considerăm şi mărimile dispersiei. Aceste mărimi furnizează informaţiidespre eterogenitatea sau varietatea unei distribuţii de scoruri.

De pildă, o medie aritmetică de 6,33 poate fi obţinută dintr-o mulţimede scoruri similare, concentrate în jurul acestei valori - precum 6, 6, 7 - saudintr-o mulţime de scoruri nesimilare, împrăştiate în raport cu aceastăvaloare - precum 1,8, 10. în cazul unor scoruri similare sau cu variabilitatescăzută, media aritmetică este mai adecvată pentru măsurarea tendinţeicentrale decât în cazul unor scoruri nesimilare sau cu variabilitate înaltă.Luând un exemplu pur didactic, informaţia conform căreia media aritmeticăa vârstelor dintr-un eşantion este de 25 de ani este relevantă dacă vârstelesubiecţilor din eşantion sunt relativ grupate în jurul aceste valori şi este ne-importantă dacă eşantionul respectiv este alcătuit din două grupuri, unul cuvârste cuprinse între 1 şi 10 ani, celălalt cu vârste cuprinse între 40 şi 50 de ani.

în această secţiune vom introduce cele mai des folosite mărimi aledispersiei: indicele variaţiei calitative, amplitudinea şi amplitudinea inter-cuartilică, abaterea medie, varianta, abaterea standard şi coeficientul devariaţie. Fiecare dintre aceste mărimi furnizează o indicaţie precisă a etero-genităţii unei distribuţii de scoruri.

3.3.1. Indicele variaţiei calitativeIndicele variaţiei calitative {IQVf reprezintă raportul dintre variaţia

observată efectiv într-o distribuţie de scoruri şi variaţia maxim posibilă

5 Prescurtare de la denumirea acestei mărimi în limba engleză: Index of QualitativeVariation.

Page 28: Statistica  aplicata in psihologie, Dumitru Gheorghiu

56 57

pentru acea distribuţie. IQV poate lua valori cuprinse între 0,00 (nici ovariaţie sau variaţie nulă) şi 1,00 (variaţie maximă). Acest indice sefoloseşte în mod obişnuit pentru variabile măsurate la nivel nominal, putândfi utilizat şi pentru variabile măsurate la celelalte niveluri, dacă scorurilerespective sunt grupate în distribuţii de frecvenţe.

Pentru ilustrare, să presupunem că un cercetător este interesat încompararea eterogenităţii religioase a trei colectivităţi - A, B şi C -, dateleobţinute fiind cele din tabelul următor:

Tabelul 3.9. Apartenenţa religioasă în trei colectivităţi

Denominaţia

Creştin-ortodoxCatolicAlteleTOTAL

ColectivitateaA9000

90

B60201090

C30303090

Simpla inspecţie a datelor din acest tabel arată că, dintre cele treicolectivităţi, A este cel mai puţin eterogenă. Mai exact, eterogenitatea reli-gioasă în colectivitatea A este nulă, întrucât toţi membrii acestei colecti-vităţi sunt creştin-ortodocşi. Apoi, colectivitatea C este cea mai eterogenă,B situându-se între A şi C. Să vedem în continuare cum sunt reflectateaceste observaţii de către IQV, a cărui formulă de calcul este următoarea:

k(n2-Y f2)Formula 3.7. IQV=- ^J

n2{k-\)în care k = numărul de categorii;

n = numărul total de cazuri din cele k categorii;£ / 2 = suma pătratelor frecvenţelor din fiecare categorie.

Să aplicăm această formulă la fiecare dintre cele trei distribuţii defrecvenţe. Pentru aceasta, trebuie să calculăm mai întâi suma pătratelorfrecvenţelor respective. Astfel, pentru colectivitatea^, avem:

= 902 + 02 + 02 = 8100

IQV_ 3(9Q2- 8100) 3(8100-8100) _ 30 _ 0_

90 2 (3-l) ~ 8100-2 16200 16200= 0

întrucât valorile pentru k şi n sunt aceleaşi în toate cele trei distribuţii,IQV pentru celelalte două colectivităţi poate fi calculat schimbând doarvalorile pentru £ / 2 . Pentru colectivitatea B, avem:

IQV= 3 ( 8 1 0 ° - 4 1 0 0 )16200

12000

16200 16200

Pentru colectivitatea C:

IQV= 3( 8 1 Q°- 2 7 0 0) _ 3 • 5400 _ 16200 _*™r i f ^^ f\ f\ -f ^/^ /^ f\ i ^- ^^ ^\ f^ J

16200 16200 16200

După cum se poate constata, IQV reflectă cantitativ şi precisobservaţiile de mai sus. Colectivitatea/4 prezintă o variaţie nulă a variabileimăsurate {IQV= 0), colectivitatea C prezintă variaţia maxim posibilă pentruaceste date {IQV = 1,00), iar colectivitatea B se situează între A şi C, cu ovariaţie substanţială (IQV= 0,74).

3.3.2. Amplitudinea şi amplitudinea intercuartilicăAmplitudinea se poate exprima atât ca mărime absolută, cât şi ca

mărime relativă. Amplitudinea absolută (A) este o mărime a dispersieiuşor de calculat, cu care ne-am întâlnit deja în capitolul anterior, definitădrept diferenţa dintre cel mai mare scor şi cel mai mic scor din mulţimeascorurilor date:

Pentru datele din tabelul 2.4, de pildă, A = 69 - 24 = 45. în cazul uneidistribuţii de frecvenţe cu date grupate, amplitudinea absolută seaproximează prin diferenţa dintre limita de clasă reală superioară aultimului interval şi limita de clasă reală inferioară a primului interval6:

A — — LCRImjn

Astfel, pentru datele din tabelul 3.6, A = 69,5 - 19,5 = 50.Amplitudinea intercuartilică (Q) se defineşte ca diferenţa dintre cea

de-a treia şi prima cuartilă a unei distribuţii de scoruri ordonate crescător:

' Considerând intervalele de clasă în ordine crescătoare.

Page 29: Statistica  aplicata in psihologie, Dumitru Gheorghiu

58

Să considerăm din nou un exemplu prezentat în secţiunea 3.2. Fieurmătoarea mulţime ordonată de 15 scoruri:

2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, 27, 29, 30

+ t Ifii &

în acest exemplu,^ = 3 0 - 2 = 28 şi Q = 21 -5 = 16.întrucât iau în considerare doar scorurile extreme dintr-o distribuţie,

nici A, nici Q nu oferă informaţii despre natura scorurilor dintre cele douăextreme: dacă scorurile sunt grupate în centrul distribuţiei; dacă suntîmprăştiate omogen între cele două scoruri extreme; dacă sunt concentrateîn două grupe, câte una lângă fiecare extremă, distribuţia fiind bimodală etc.Totuşi, aceste mărimi sunt utile atunci când dorim să obţinem rapid omăsură a variabilităţii unei distribuţii şi, mai ales, atunci când dorim sărealizăm rapid o comparaţie între variabilităţile a două distribuţii cu unnumăr egal de scoruri. Să presupunem, de pildă, că am înregistrat vârstelesubiecţilor din două eşantioane, obţinând următoarele date:

Eşantionul 1 11, 16, 18, 23, 29, 31, 37Eşantionul 2 18, 19, 21, 23, 24, 26, 29

Mediile aritmetice pentru cele două eşantioane sunt Xx = 23,57 şiX2 =22,86, mediana fiind aceeaşi pentru ambele eşantioane: 23. întrucâtamplitudinea vârstelor din primul eşantion, 26, este mai mare decâtamplitudinea vârstelor din cel de-al doilea eşantion, 11, primul eşantion estemai eterogen din punctul de vedere al vârstelor.

3.3.3. Abaterea medie şi variantaMărimile dispersiei pe care le expunem în continuare captează ideea de

vâri abilitate a unei distribuţii de scoruri de interval sau de raport faţă decentrul acelei distribuţii, mai precis, faţă de media sa aritmetică şi folosesctoate scorurile distribuţiei.

Ştim că într-o distribuţie de scoruri de interval sau de raport cu mediaaritmeticăX, diferenţaA^--X reprezintă abaterea scoruluiX, faţă de mediaaritmetică X. O sugestie pentru a obţine o mărime mai adecvată adispersiei ar fi să însumăm toate abaterile scorurilor individuale faţă demedie şi să împărţim suma astfel obţinută la numărul total de scoruri, n.Mai ştim, însă, că pentru orice distribuţie de scoruri, suma abaterilorscorurilor de la media lor aritmetică este egală cu zero, ^(X, -X) = 0,astfel încât rezultatul împărţirii acestei sume Ia n ar fi întotdeauna 0. Pentrua folosi cumva sugestia menţionată, avem la dispoziţie două posibilităţi: sau

59

neglijăm semnele abaterilor, considerând valorile absolute ale acestora7,sau ridicăm la pătrat abaterile, întrucât dacă se înmulţesc două numere careau semnul minus, produsul este pozitiv.

Prima posibilitate conduce la o mărime a dispersiei, numită abatereamedie şi notată cu d , a cărei formulă de calcul este următoarea:

Formula 3.8. d =

Cea de-a doua posibilitate conduce la o altă mărime a dispersiei, numităvariantă8, notată cu s2 atunci când este vorba despre un eşantion şi cu a2

atunci când este vorba despre o populaţie. Formula de calcul a varianteipentru populaţii este următoarea:

Formula 3.9. a2 = ^X>~^N

în care JU = media aritmetică a populaţiei;N = numărul total de scoruri din populaţie.

Formula de calcul a variantei pentru eşantioane diferă de formula 3.9sub două aspecte: în locul mediei aritmetice a populaţiei (u) apare mediaaritmetică a eşantionului (X), iar la numitor, în locul numărului total descoruri din populaţie (N) apare numărul total de scoruri din eşantiondiminuat cu o unitate {n - l)9.

Formula 3.10. 52 =n-\

Pentru a ilustra calculul abaterii medii şi al variantei, vom folosi dateledin tabelul 3.2, adăugând o coloană pentru modulele diferenţelor X, - X şi,pentru o simplificare pe care o vom menţiona ulterior, o coloană pentrupătratele scorurilor individuale, X,2:

1 Revedeţi capitolul 1, secţiunea 1.2.8 Uneori, această mărime este numită chiar dispersie.9 După cum vom vedea în capitolele dedicate statisticii inferenţiale, mărimile statisticepentru eşantioane servesc drept estimatori ai valorilor respective pentru populaţie, uniiestimatori fiind nedistorsionaţi, alţii fiind distorsionaţi. întrucât varianta pentru uneşantion este un estimator distorsionat al variantei pentru populaţie, numitorul n — 1 arerolul de a corecta distorsiunea. Aceleaşi consideraţii sunt valabile şi pentru abatereastandard. în cadrul statisticii descriptive, unii statisticieni preferă să foloseascănumitorul n, tratând eşantioanele ca şi cum ar fi populaţii foarte mici.

Page 30: Statistica  aplicata in psihologie, Dumitru Gheorghiu

60 61

Tabelul

x]16 i17 !17 |

17 f1 7 j18

L 1 9

192323 !23209

3.10. Calculul

"x?256289289289289324361361529529529

4045

abaterii/" V1 i —

-3_2_2-2-2-1004440

medii şi al variantei l-

_ [ _ _ _ , _22

r 2 J21004

...4i 4

24

X = 19)

i(~i"xf944441

T016161674

Pentru datele din acest exemplu, avem:

a =

17-1 10

De notat că varianta calculată cu ajutorul formulei 3.9 reprezintăpătratul mediu al abaterilor, i.e. media aritmetică a pătratelor abaterilorscorurilor populaţiei de la media lor aritmetică,«.

în cazul eşantioanelor mari, aplicarea formulei definiţionale 3.10 poatefi greoaie, mai ales dacă valoarea pentru X conţine zecimale, ceea cepresupune multe rotunjiri. Din formula 3.10 se poate deduce o serie deformule de calcul care, aplicate la aceleaşi date, produc aceleaşi rezultate caşi formula 3.10 şi permit calcularea mai uşoară şi mai rapidă a variantei10.Prezentăm în continuare două astfel de formule, în care nu mai este nevoiede calcularea diferenţelor X, - X .

Formula 3.11. s2 =

10 Două formule de calcul care, aplicate la aceleaşi date, produc aceleaşi rezultate senumesc echivalente algebric.

Formula 3.12. s2 =•n-\

Aplicând formula 3.11 la datele din exemplul de mai sus, avem:

= 4045-( l lx l9 2 )4045-3<m 74n-\ 10 10

74~To '

Deşi pare mai complicată decât formula 3.10, formula 3.12 ne scuteştede calcularea mediei aritmetice a scorurilor, astfel încât pentru calculareavariantei cu ajutorul acestei formule este nevoie doar de scorurileindividuale. în exemplul nostru:

2092

4045-

n - 1T T _ 4045-3971 74 n t n

10 10 " T o " 'Formulele de calcul simplificat al variantei pentru populaţii diferă de

formulele de mai sus prin aceea că X se înlocuieşte cu ju, iar n - 1 devine N.

3.3.4. Abaterea standard şi coeficientul de variaţieCalculul variantei implică ridicarea la pătrat a abaterilor scorurilor

individuale faţă de media lor aritmetică (formulele 3.9 şi 3.10). în conse-cinţă, unitatea ataşată variantei este pătratul unităţii ataşate scorurilorindividuale respective. Dacă, de pildă, este vorba despre scoruri exprimateîn ani, varianta va fi exprimată în ani la pătrat. Pentru a se obţine o mărimea variabilităţii care să fie exprimată în aceleaşi unităţi în care sunt exprimatescorurile respective, se ia rădăcina pătrată a variantei, s sau a. Aceastămărime statistică se numeşte abatere standard şi, în cazul eşantioanelor, sedefineşte cu ajutorul următoarei formule:

Formula 3.13. s =n-\

Relaţia dintre abaterea standard şi variantă fiind s = Vs2 , valoarea abaterii

standard pentru datele din tabelul 3.10 este s = ^7,40 = 2,72.

Corespunzător formulelor 3.11 şi 3.12, avem următoarele formule decalcul simplificat al abaterii standard:

Page 31: Statistica  aplicata in psihologie, Dumitru Gheorghiu

62

Formula 3

"cumula 3.

.14. s-]^y

2-15. s -1

x,2

n~nX2

~l

[ZX,fn

n-l

Coeficientul de variaţie al unei distribuţii de scoruri (CV) se defineşteca raportul dintre abaterea standard a distribuţiei şi media sa aritmetică. Deobicei, coeficientul de variaţie se înmulţeşte cu 100 şi se prezintă caprocent. Astfel, avem:

Formula 3.16. CV = -L-l00X

în exemplul folosit până acum, CV = (2,72/19) • 100 = 143,16. Evident, încazul populaţiilor, s se înlocuieşte cu a, iar JTcu//. Coeficientul de variaţieeste cu deosebire util atunci când se doreşte compararea variabilităţii a douădistribuţii de scoruri cu medii aritmetice sensibil diferite.

3.3.5. Calculul abaterii standard pentru date grupateFormula de calcul a abaterii standard pentru date grupate se obţine pe

baza formulei 3.15. Pentru a aplica formula 3.15 trebuie să cunoaştem treivalori: suma scorurilor, LX„ suma pătratelor scorurilor, EXj, şi numărul descoruri, n. Atunci când datele au fost grupate în distribuţii de frecvenţe nucunoaştem distribuţia exactă a scorurilor individuale, deci nu putemdetermina exact primele două valori. într-un astfel de caz, suma scorurilorse aproximează, ca şi pentru media aritmetică, înmulţind numărul de cazuridin fiecare interval, f„ cu centrul intervalului respectiv, m,, şi însumândaceste produse: Zf.nii- Suma pătratelor scorurilor se aproximează ridicând Iapătrat centrele de interval, înmulţind fiecare pătrat astfel obţinut cu numărulde cazuri din intervalul respectiv şi însumând aceste produse: Efimf. Avemastfel:

Formula care dă valoarea aproximativă a abaterii standard pentru dategrupate se obţine făcând substituţiile corespunzătoare în formula 3.15.Obţinem astfel:

63

Formula 3.17. s =n-l

Pentru ilustrare, vom folosi datele din tabelul 3.7, în care vom adăuga douăcoloane: una pentru pătratele centrelor de interval şi una pentru produseledintre pătratele centrelor de interval şi frecvenţe:

Tabelul 3.11. Calculul abaterii standard pentru date

Intervale de clasă20-2425-2930-3435-3940^445-4950-5455-5960-6465-69

TOTAL

f1271822423037156

180

m2227

, 3237424752576267

fm2254

2246669241974156021099304028865

48472910241369176422092704324938444489

grupate

48414588428

24.642^38.808

92.77881.120120.21357.66026.934

452.525

Totalul ultimei coloane este valoarea pentru Zfim?. Aplicând formula 3.17la aceste date obţinem:

452525-s =

8865-"180 _ 1452525-436601,25 _

n - l 179 179

De notat că, pentru datele negrupate corespunzătoare acestui exemplu,abaterea standard calculată cu ajutorul uneia dintre formulele 3.13-3.15este egală cu 9,00.

Page 32: Statistica  aplicata in psihologie, Dumitru Gheorghiu

64

Pentru a descrie adecvat o distribuţie de scoruri trebuie să răspundemla trei întrebări: Care este forma distribuţiei? Care este scorul său mediu?Cât de variate sunt scorurile? Modalităţile de răspuns la prima întrebare aufost discutate în capitolul 2. Răspunsurile la ce-a de-a doua întrebare au fostabordate în prima parte a acestui capitol. Am văzut că, în statistică, „scormediu" are trei înţelesuri diferite, cărora le corespund trei mărimi statistice:media aritmetică, mediana şi modul. Media aritmetică, aplicabilă numaipentru date de interval sau de raport, exprimă scorul tipic al unei distribuţii.Mediana poate fi folosită şi pentru nivelul ordinal de măsură şi reflectăscorul central al unei distribuţii. Modul poate fi folosit la orice nivel demăsură şi reprezintă cel mai întâlnit scor într-o distribuţie. în plus, amprezentat modalităţi de descriere a poziţiei scorurilor individuale într-odistribuţie de interval sau de raport: percentilele şi rangul percentilelor. încapitolul următor vom prezenta un alt cadru de referinţă pentru interpretareascorurilor individuale: scorurile standard.

în cea de-a doua parte a acestui capitol am prezentat modalităţi de arăspunde la cea de-a treia întrebare: indicele variaţiei calitative, ampli-tudinea şi amplitudinea intercuartilică, abaterea medie, varianta, abatereastandard şi coeficientul de variaţie. Abaterea standard este cel mai desfolosită mărime a dispersiei pentru date de interval şi de raport, avândavantajul de a fi exprimată în aceleaşi unităţi de măsură ca şi scorurilerespective. Valoarea abaterii standard este cu atât mai mare cu câtdistribuţia scorurilor este mai eterogenă sau, altfel spus, cu cât variabilitateadistribuţiei este mai mare. Reciproc, valoarea abaterii standard este cu atâtmai mică cu cât distribuţia scorurilor este mai omogenă sau, altfel spus, cucât variabilitatea distribuţiei este mai mică. Dacă fiecare caz într-odistribuţie ar avea acelaşi scor, atunci abaterea standard pentru distribuţiarespectivă ar fi 0. Astfel, abaterea standard nu are limită superioară, iarlimita sa inferioară este 0. Abaterea standard îşi dovedeşte utilitatea şiatunci când se doreşte compararea a două sau mai multe distribuţii.

Abatere standard: rădăcina pătrată a catului dintre suma abaterilor pătratice alescorurilor faţă de media lor aritmetică şi n - 1 pentru eşantioane sau 7V pentrupopulaţii.

Abatere medie: media aritmetică a sumei abaterilor absolute ale scorurilor faţă demedia lor aritmetică.

Amplitudinea absolută: diferenţa dintre cel mai mare scor şi cel mai mic scordintr-o mulţime de scoruri.

Amplitudine intercuartilică: diferenţa dintre cea de-a treia şi prima cuartilă aleunei distribuţii de scoruri ordonate crescător.

Asimetrie: proprietatea unei mulţimi de scoruri de a avea puţine scoruri foarte mari(asimetrie pozitivă) sau puţine scoruri foarte mici (asimetrie negativă).

Coeficient de variaţie: raportul dintre abaterea standard a unei distribuţii de scorurişi media sa aritmetică. De obicei, coeficientul de variaţie se înmulţeşte cu 100şi se prezintă ca procent.

Indicele variaţiei calitative: raportul dintre variaţia observată efectiv într-odistribuţie de scoruri şi variaţia maxim posibilă pentru acea distribuţie.

Interval modal: intervalul de clasă care conţine cel mai mare număr de cazuri.Mărimile tendinţei centrale: mărimi statistice ce rezumă o întreagă distribuţie de

scoruri, descriind cea mai tipică sau centrală valoare a distribuţiei respectivesub forma unui singur număr sau a unei singure categorii.

Mărimile dispersiei: mărimi statistice care furnizează informaţii despre eterogeni-tatea sau varietatea unei distribuţii de scoruri.

Medie aritmetică ponderată: media aritmetică a mai multor grupuri combinate.Medie aritmetică: rezultatul împărţirii sumei tuturor scorurilor dintr-o mulţime de

scoruri la numărul total de scoruri din acea mulţime.Mediană: punct într-o mulţime de scoruri faţă de care numărul de cazuri cu scoruri

mai mici sau egale este egal cu numărul de cazuri cu scoruri mai mari sauegale.

Mod: scorul care apare cel mai frecvent într-o mulţime de scoruri.Percentilă: valoarea P,„ a unei mulţimi de scoruri faţă de care cel mult m% din

scoruri sunt mai mici decât m şi cel mult (100 - m)% din scoruri sunt mai maridecât m.

Variantă: catul dintre suma abaterilor pătratice ale scorurilor faţă de medie loraritmetică şi n - 1 pentru eşantioane sau N pentru populaţii.

Page 33: Statistica  aplicata in psihologie, Dumitru Gheorghiu

4. DISTRIBUŢIA NORMALA

Noţiunea de distribuţie normală este de mare importanţă în statistică.Pe de o parte, distribuţia normală poate fi folosită în combinaţie cu abatereastandard pentru a formula enunţuri descriptive precise despre distribuţiilescorurilor unor variabile. Pe de altă parte, distribuţia normală stă la bazamultor tehnici statistice inferenţiale.

4.1. CARACTERISTICILE DISTRIBUŢIEI NORMALE

Distribuţia normală este o distribuţie teoretică de scoruri unimodală,simetrică şi continuă. Graficul unei distribuţii normale are formă de clopotcu ambele extremităţi extinse la infinit11. Ca atare, un astfel de grafic, numitşi curba normală1 , nu atinge axa orizontală sau, altfel spus, esteasimptotic faţă de axa orizontală, după cum se ilustrează în figura 4.1.

Figura 4.1. Un exemplu de curbă normală

Distribuţia normală este un model teoretic ce poate fi folosit pentru adescrie distribuţii particulare ale scorurilor unor variabile măsurate la nivelde interval sau de raport, despre care s-a constatat că aproximează suficientnormalitatea într-o populaţie, precum coeficientul de inteligenţă, rezultateleobţinute la diverse teste de cunoştinţe sau numărul de erori comise înîndeplinirea anumitor sarcini. Scorurile unor astfel de variabile tind să se

" Distribuţia normală a fost studiată pentru prima dată în secolul al XVIII-lea de cătreAbraham De Moivre. La începutul secolului al XlX-lea a fost descoperită independentde Cari Friedrich Gauss şi Pierre Simon de Laplace.12 în onoarea matematicienilor Gauss şi Laplace, curba normală este cunoscută şi subnumele de clopotul lui Gauss sau curba Gauss-Laplace.

Page 34: Statistica  aplicata in psihologie, Dumitru Gheorghiu

69

grupeze simetric în jurul scorului central, dând naştere unui grafic dedistribuţie în formă de clopot. Dacă distribuţia scorurilor unei variabile într-opopulaţie aproximează normalitatea, se spune că variabila respectivă estenormal distribuită în populaţia respectivă sau, pe scurt, că variabilarespectivă este normală. Pe de altă parte, după cum vom vedea în capitolelecare urmează, distribuţia normală poate fi folosită pentru a reprezentadiferite mărimi statistice ce rezultă din studierea unor eşantioane dintr-opopulaţie dată, ceea ce permite obţinerea unor concluzii despre valorilepentru populaţie pe baza valorilor cunoscute pentru eşantioane. Utilizareadistribuţiei normale în statistică face apel la aşa-numitele scoruri standardsau scoruri Z.

4.2. CALCULUL SCORURILOR STANDARD

Scorurile standard, numite şi scoruri Z, folosesc abaterea standard caunitate de măsură şi descriu poziţia relativă a unui scor individual în raportcu întreaga mulţime de scoruri din care face parte. Formula de calcul pentruscorurile Zale unei populaţii este următoarea:

Formula 4.1. Z = X ' ^a

Această formulă transformă orice scor „brut" X în scorul 2corespunzător. Numărătorul fracţiei, X-ju, indică distanţa în unităţi brute ascorului X faţă de media aritmetică. Prin împărţirea acestei distanţe la aaflăm distanţa în abateri standard sau fracţiuni de abateri standard a scoruluiX faţă de medie. Corespunzător, formula de calcul pentru scorurile Z aleunui eşantion este următoarea:

X — XFormula 4.2. Z =

sPentru ilustrare, să considerăm o distribuţie de scoruri pentru un

eşantion, în care X= 100 şi 5 = 20. în acest caz, scorurile Z cores-punzătoare scorurilor brute 85, 120 şi 150 sunt:

85-10020

• = -0,75

i 50

20150-100

20~= +2,50

Fiecare dintre aceste scoruri Z arată la câte abateri standard faţă de mediaaritmetică se află scorul brut corespunzător. Un scor Z negativ arată căscorul brut se află sub media aritmetică, iar un scor Z pozitiv arată că scorulbrut este mai mare decât media aritmetică. Evident, un scor Z egal cu 0arată că scorul brut corespunzător este egal cu media aritmetică.

Se demonstrează că, dacă toate scorurile unei distribuţii particulare setransformă în scoruri Z, atunci:

• forma distribuţiei scorurilor Z este aceeaşi cu cea a distribuţieiiniţiale;

• media aritmetică a distribuţiei scorurilor Z este 0, indiferent devaloarea mediei aritmetice a distribuţiei iniţiale;

• abaterea standard a distribuţiei scorurilor Z este 1, indiferent devaloarea abaterii standard a distribuţiei iniţiale.

Aceste proprietăţi au fost generalizate în studiul distribuţiei normale standard.

4.3. DISTRIBUŢIA NORMALĂ STANDARD

Ca şi în cazul unei distribuţii particulare de scoruri de interval sau deraport, distribuţia normală poate fi descrisă cu ajutorul mediei salearitmetice şi al abaterii standard. întrucât oricărei perechi de valori pentrumedia aritmetică şi abaterea standard îi corespunde o distribuţie normală,matematic vorbind există o infinitate de distribuţii normale, ale căror formeexacte depind de mărimile menţionate. Pentru a descrie efectiv distribuţiileunor variabile normale, în analiza statistică se consideră o distribuţie nor-mală particulară, numită distribuţia normală standard. Variabila cores-punzătoare distribuţiei normale standard este numită variabila normalăstandard, valorile acestei variabile fiind scoruri Z. Din acest motiv, aceastădistribuţie se mai numeşte şi distribuţia Z. Prin convenţie, media aritmeticăa distribuţiei normale standard se ia ca origine a variaţiei variabilei normalestandard, ceea ce înseamnă că această distribuţie are media aritmetică egalăcu 0. De asemenea, se consideră că abaterea standard a distribuţiei normalestandard este egală cu unitatea.

Graficul corespunzător distribuţiei normale standard este numit curba.normală standard. Aria delimitată de curba normală standard este pro-porţională cu frecvenţa scorurilor, astfel încât proporţia de cazuri cuprinseîntre un scor Z şi media aritmetică poale fi aflată cu ajutorul calcululuiintegral. Statisticienii au determinat cu precizie aceste arii, rezultatele fiindorganizate sub forma unui tabel, numit tabelul curbei normale standardsau tabelul ariilor de sub curba normală standard (vezi Anexa A).Schema generală a acestui tabel este prezentată în figura 4.2.

Page 35: Statistica  aplicata in psihologie, Dumitru Gheorghiu

70 71

z 0,00 0,01 0,02 0,03 0,04 0,05 34,13» 34,1355

Figura 4.2. Schema tabelului curbei normale standard

în corpul tabelului apar numere alcătuite din patru cifre. Aceste numerereprezintă ariile cuprinse între un scor Z dat şi media aritmetică. "Numereleînscrise în prima coloană din stânga, etichetată Z, reprezintă primele două cifreale unui scor Z, iar numerele înscrise pe primul rând de sus reprezintă cea de-atreia cifră. De pildă, pentru a afla aria cuprinsă între un scor Z = 0,45 şi mediaaritmetică, se coboară în prima coloană din stânga până la 0,4 (primele două cifreale scorului Z considerat) şi apoi se parcurge spre dreapta rândul respectiv pânăcând se ajunge sub 0,05 (cea de-a treia cifră). Numărul găsit la intersecţia acestordouă coordonate este 1736, care poate fi citit sau ca un procent (17,36%) sau ca oproporţie (0,1736). în primul caz vom spune că 17,35% din aria totală a curbeinormale standard se află între scorul Z = 0,45 şi media aritmetică (punct în care Z— 0); în cel de-al doilea caz vom spune că proporţia din aria totală a curbeinormale standard cuprinsă între scorul Z = 0,45 şi media aritmetică este de0,1736. întrucât orice curbă normală este simetrică, aceeaşi procedură se aplică şipentru a afla aria cuprinsă între un scor Z negativ şi media aritmetică. Astfel,rezultatul de mai sus poate fi interpretat spunând că 17,35% din aria totală acurbei normale standard se află între scorul Z = -0,45 şi media aritmetică.

4.4. UTILIZAREA DISTRIBUŢIEI NORMALE STANDARD

Figura 4.3 ilustrează utilizarea tabelului distribuţiei normale standardpentru determinarea procentelor din aria delimitată de curba normală, aflateîntre un scor Z dat şi media aritmetică (Z = 0).

0,13

+3-3 -2 -1 0 . *1 +2

Abateri standard faţă de media aritmetică

Figura 4.3. Procente din aria de sub curba normală

De pildă, din tabel aflăm că între Z = +1 şi media aritmetică se află 34,13%din aria de sub curbă (v. intersecţia coordonatelor 1,0 şi 0,00). întrucât curba estesimetrică, procentul din arie cuprins între Z = -l şi media aritmetică este tot de34,13%. Astfel, între +1 abateri standard faţă de medie se află 68,26% din ariatotală. Similar, între Z = +2 şi medie se află 47,72% din arie, astfel că între ±2abateri standard faţă de medie se află 94,44% din arie.

întrucât un procent relativ mic din aria totală se află peste +3 abateristandard sau sub -3 abateri standard (0,13%), pentru scopuri practice,ilustrate în cele ce urmează, se consideră că distribuţia normală se extindede la Z = -3,59 la Z = +3,59 sau, altfel spus, la 3,59 abateri standard de oparte şi de cealaltă a mediei aritmetice, scorurile Z aflate dincolo de acestelimite fiind considerate a fi egale cu 0.

în cazul variabilelor normal distribuite pentru care cunoaştem mediaaritmetică şi abaterea standard, distribuţia normală standard poate fi folosităpentru a determina diferite procente sau proporţii de cazuri în distribuţiiparticulare, precum şi pentru a estima probabilitatea ca un caz ales laîntâmplare dintr-o distribuţie particulară să aibă un scor cuprins într-oamplitudine dată de scoruri.

Page 36: Statistica  aplicata in psihologie, Dumitru Gheorghiu

72 73

4.4.1. Determinarea procentelor de cazuriSă considerăm o distribuţie de scoruri a variabilei coeficient de inte-

ligenţă (CI) pentru un eşantion de 1000 de subiecţi cu X- 100 şi s = 20,ilustrată în figura 4.4.

34,13» 34,13";

o,n%2,15%

13 59%

ii • (

13,59S&

2,15 0,13%

120 140 160

Unităţi CI

Figura 4.4. Distribuţia scorurilor CI pentruun eşantion de 1000 de subiecţi

Să presupunem că ne interesează procentul de cazuri cu scoruri CI mai micidecât 115. Calculăm mai întâi scorul Zcorespunzător scorului brut 115:

Z = 1 1 5 - 1 0 ° = + 0 , 7 520

Din tabelul curbei normale aflăm că aria dintre scorul Z = +0,75 şi mediaaritmetică reprezintă 27,34% din aria totală. întrucât aria aflată sub mediaaritmetică reprezintă 50% din aria totală, procentul de subiecţi cu scoruri CImai mici decât 115 este de 74,34% (27,34% + 50%). Acest rezultat poate fiexprimat şi în număr de cazuri, spunând că aproximativ 743 de subiecţi dineşantionul considerat (74,34% din 1000) au scoruri CI mai mici decât 115.

Să presupunem acum că ne interesează procentul de cazuri cu scoruriCI mai mici decât 75. Scorul Z corespunzător scorului brut 75 este:

Z =75-100

20-1,25

Pentru a afla aria de sub un scor Z negativ, aria dintre scor şi media aritmetică sescade din 50% (aria aflată la stânga mediei). Din tabelul curbei normale aflăm căaria dintre scorul Z = -1,25 şi media aritmetică reprezintă 39,44% din aria totală.Astfel, procentul de subiecţi cu scoruri CI mai mici decât 75 este de 10,56%(50% - 39,44%), ceea ce înseamnă că aproximativ 394 de subiecţi (39,44% din1000) au scoruri CI mai mici decât 75.

Acelaşi model de calcul se utilizează pentru a afla aria situată deasupraunui scor Z pozitiv. Să presupunem că ne interesează procentul de cazuri cuscoruri mai mari decât 150. Ştim că scorul Z corespunzător acestui scor bruteste +2,50. Din tabelul curbei normale aflăm că aria dintre scorul Z = +2,50şi media aritmetică reprezintă 47,98% din aria totală, astfel încât procentulde subiecţi cu scoruri mai mari decât 150 este de 2,02% (50% - 47,98%).Aceasta înseamnă că aproximativ 20 de subiecţi (2,02% din 1000) auscoruri CI mai mari decât 150.

In general, ariile situate peste sau sub un anumit scor Z se determinăconform următoarelor reguli:

1. Pentru a determina aria aflată sub un scor Z negativ sau peste un scorZ pozitiv, aria dintre scorul respectiv şi media aritmetică se scade din 50%.

2. Pentru a determina aria aflată sub un scor Z pozitiv sau peste un scorZ negativ, aria dintre scorul respectiv şi media aritmetică se adună cu 50%.

Acum să vedem cum se determină ariile, respectiv procentele de cazuridintre două scoruri. Să presupunem că ne interesează procentul de subiecţicu scoruri CI cuprinse între 95 şi 125. Scorurile Z corespunzătoare acestorscoruri brute sunt:

Z 9 5 -20

125-10020

= +1,25

Din tabelul curbei normale aflăm că aria dintre scorul Z = -0,25 şi mediaaritmetică reprezintă 9,87% din aria totală şi că aria dintre scorul Z= +1,25 şimedia aritmetică reprezintă 39,44% din aria totală. Fiind vorba despre scoruriaflate de o parte şi de alta a mediei, aria dintre scoruri se deter-mină adunândariile dintre fiecare scor şi media aritmetică. Astfel, procentul de subiec:i cuscoruri CI cuprinse între 95 şi 125 este de 49,31% (9,87% + 39,44%). Aceastaînseamnă că aproximativ 439 de subiecţi au scoruri CI cuprinse între 95 şi 125.

Page 37: Statistica  aplicata in psihologie, Dumitru Gheorghiu

74 75

Pentru a determina aria dintre două scoruri aflate de aceeaşi parte amediei aritmetice, se determină mai întâi ariile dintre fiecare scor şi medie,după care aria mai mică se scade din aria mai mare. Să presupunem că neinteresează procentul de subiecţi cu scoruri CI cuprinse între 115 şi 125.Ştim că scorurile Z corespunzătoare scorurilor brute 115 şi 125 sunt,respectiv, +0,75 şi +1,25. Ştim, de asemenea, că între Z = +0,75 şi mediaaritmetică se află 27,34% din aria totală şi că între Z = +1,25 şi mediaaritmetică se află 39,44% din aria totală. Prin urmare, procentul de subiecţicu scoruri CI cuprinse între 115 şi 125 este de 12,10% (39,44% - 27,34%),ceea ce înseamnă că aproximativ 121 de subiecţi au scoruri CI cuprinseîntre 115 şi 125. Acelaşi model de calcul se utilizează atunci când ambelescoruri se află sub medie.

4.4.2. Estimarea probabilităţilorTabelul curbei normale standard poate fi utilizat pentru a estima

probabilitatea ca un caz ales la întâmplare dintr-o distribuţie particularăaproximativ normală să aibă un scor cuprins într-o amplitudine dată descoruri. înainte de a considera acest tip de utilizare, să examinăm pe scurtnoţiunea de probabilitate.

Pentru a estima probabilitatea producerii unui eveniment, trebuie sădefinim evenimentele care reprezintă cazuri favorabile. Un caz favorabileste un caz în care se produce evenimentul a cărui probabilitate de apariţiedorim să o estimăm sau, pe scurt, un caz ce realizează acel eveniment. Săpresupunem că într-o urnă sunt n bile de culori diferite, dintre care exact msunt albe, şi că ne interesează probabilitatea de a extrage de la primaîncercare o bilă albă. Evenimentul fiind apariţia unei bile albe, cazulfavorabil este extragerea unei bile albe. Faţă de cazul favorabil, vom spunecă extragerea unei bile de orice culoare este un caz egal posibil. Avemastfel m cazuri favorabile şi n cazuri egal posibile. Probabilitatea teoretică aunui eveniment E, notată P(E) se defineşte ca raportul dintre numărul m alcazurilor favorabile şi numărul n al cazurilor egal posibile:

Pentru ilustrare, să presupunem că în urnă se află 52 de bile de culoridiferite, dintre care una singură este albă. întrucât m = 1 şi n = 52,probabilitatea de a extrage de la prima încercare o bilă albă este 1/52.Această fracţie poate fi exprimată şi ca proporţie, împărţind numărătorul lanumitor: (1/52) = 0,0192. Vom spune că apariţia bilei albe la o singurăextragere se produce în proporţie de 0,0192. In ştiinţele omului, pro-

babilităţile sunt exprimate în mod obişnuit ca proporţii şi vom urma aceastăconvenţie în continuare.

Este important de remarcat că, gândite astfel, probabilităţile au unînţeles precis: pe termen lung, cazurile favorabile se află într-o anumitărelaţie proporţională cu numărul total de cazuri. în exemplul nostru,probabilitatea de 0,0192 ca bila albă să apară la o singură extragereînseamnă de fapt că din 10.000 de extrageri a câte unei bile din urnacompletă, proporţia de extrageri a bilei albe va fi de 0,0192 sau, altfel spus,că din 10.000 de extrageri a câte unei bile din urna completă, bila albă vaapărea de 192 de ori, celelalte 9808 extrageri producând bile de alte culori.

Acum, din cele de mai sus ştim că pentru orice distribuţie particularăaproximativ normală, proporţiile prezentate în tabelul curbei normalestandard ne dau frecvenţa relativă a cazurilor cu scoruri cuprinse între unanumit scor şi media aritmetică, precum şi că probabilitatea unui evenimenteste frecvenţa relativă a cazurilor ce realizează acel eveniment. Prin urmare,proporţiile din tabelul curbei normale standard pot fi interpretate caprobabilităţi şi pot fi folosite pentru a estima probabilitatea de selecţie aunui caz cu un scor cuprins într-o amplitudine dată de scoruri.

Considerând din nou distribuţia variabilei coeficient de inteligenţă cu caream lucrat mai sus, să presupunem că ne interesează probabilitatea ca un subiectales la întâmplare să aibă un scor CI cuprins între 95 şi scorul mediu de 100(aici, cazul favorabil este selectarea unui subiect al cărui scor se află înamplitudinea de scoruri specificată1). Scorul Z corespunzător scorului brut de95 este -0,25 şi, conform tabelului curbei normale standard, proporţia din ariecuprinsă între scorul Z = -0,25 şi media aritmetică este de 0,0987. Aceastăproporţie este probabilitatea căutată. Vom spune că probabilitatea ca un subiectales la întâmplare să aibă un scor cuprins între 95 şi 100 este de 0,0987 sau,rotunjit, de 0,1 sau de unu la zece.

De notat că pentru estimarea probabilităţilor se utilizează aceleaşiproceduri ilustrate mai sus pentru determinarea procentelor de cazuri,diferenţa fiind aceea că proporţiile din tabelul curbei normale standard suntinterpretate ca probabilităţi.

Să mai notăm că, întrucât în distribuţia normală standard cele maimulte scoruri sunt grupate în jurul mediei aritmetice, frecvenţa acestora

1 Determinarea probabilităţii căutate cu ajutorul formulei de calcul pentru probabilităţi arconduce la construirea unei fracţii care să aibă drept numărător numărul de subiecţi alecăror scoruri se află în amplitudinea specificată şi drept numitor numărul total desubiecţi.

Page 38: Statistica  aplicata in psihologie, Dumitru Gheorghiu

76

scăzând pe măsură ce ne îndepărtăm de medie, dacă vom selecta la GLOSARîntâmplare un număr de cazuri dintr-o distribuţie particulară aproximativnormală, vom selecta mai des cazuri care au scoruri apropiate de media Curbă normală: grafic al unei distribuţii normale; acest grafic are formă de clopotaritmetică şi mai rar cazuri care au scoruri aflate mult sub sau peste medie. cu ambele extremităţi extinse la infinit.

Curba normală standard: graficul corespunzător distribuţiei normale standard.Distribuţie normală: distribuţie teoretică de scoruri, unimodală, simetrică şi

continuă.Distribuţia normală standard: distribuţie normală particulară în care media

aritmetică egală cu 0 şi abaterea standard este egală cu unitatea.Scoruri standard (scoruri Z): scoruri care folosesc abaterea standard ca unitate de

măsură şi descriu poziţia relativă a unui scor individual în raport cu întreagamulţime de scoruri din care face parte.

Tabelul curbei normale standard: tabel în care sunt prezentate sub formă deproporţii ariile dintre un scor Z şi media aritmetică a distribuţiei normalestandard.

Variabila normală standard: variabila corespunzătoare distribuţiei normalestandard.

Page 39: Statistica  aplicata in psihologie, Dumitru Gheorghiu

79

5. EŞANTIONAREA ŞI DISTRIBUŢII DEEŞANTIONARE

După cum am arătat în capitolul 1, cercetătorii folosesc statisticiinferenţiale pentru a trage concluzii despre caracteristicile unei populaţii pebaza caracteristicilor corespunzătoare ale unui eşantion din acea populaţie.Folosirea adecvată a acestor tehnici statistice cere ca eşantioanele să fieselectate aleatoriu din populaţiile de referinţă. în cazul cel mai general, uneşantion este aleatoriu dacă fiecare caz din populaţia de referinţă areaceeaşi probabilitate de a fi selectat în eşantion cu a oricărui alt caz şiselectarea fiecărui caz este independentă de selectarea tuturor celorlaltecazuri. Dacă populaţia are, să zicem, 1000 de membri, atunci fiecaremembru trebuie să aibă o probabilitate de 1/1000 de a fi selectat. Supoziţiafundamentală a statisticilor inferenţiale este aceea că investigarea unuieşantion aleatoriu dintr-o populaţie conduce la rezultate apropiate de celecare ar fi obţinute dacă ar fi investigată întreaga populaţie şi, după cum vomvedea, noţiunea de distribuţie de eşantionare furnizează o măsură a acesteiapropieri. Eşantioanele nealeatorii pot fi foarte uşor alcătuite, dar nu permitformularea unor concluzii despre populaţiile respective, ci doar despreeşantioane.

De notat că, în acest context, „aleatoriu" este un termen tehnic, care nuare acelaşi înţeles cu termenul „întâmplător", aşa cum este utilizat acesta înlimbajul obişnuit. Un eşantion aleatoriu nu este alcătuit la întâmplare, ciprintr-un proces bine determinat şi precis de selecţie. De pildă,intervievarea unor persoane pe care se întâmplă să le întâlnim într-unsupermagazin nu constituie o eşantionare aleatorie. Selecţia aleatorie este ocondiţie necesară pentru obţinerea unor eşantioane care să ofere imagini câtmai precise ale populaţiilor de referinţă sau, altfel spus, a unor eşantioanereprezentative pentru populaţiile de referinţă, dar nici măcar cele maisofisticate proceduri de selecţie aleatorie nu garantează 100% că eşantionulrespectiv este o reprezentare exactă a populaţiei din care a fost alcătuit.Totuşi, probabilitatea ca eşantioanele aleatorii să fie reprezentative pentrupopulaţiile de referinţă este foarte mare, iar tehnicile statistice permitdeterminarea precisă a probabilităţilor erorilor de reprezentativitate.

înainte de a prezenta rolul eşantionării în statisticile inferenţiale, vomprezenta pe scurt câteva dintre cele mai utilizate procedee de eşantionarealeatorie.

5.1. PROCEDEE DE EŞANTIONARE ALEATORIE

Procedeul fundamental de eşantionare aleatorie se numeşteeşantionare aleatorie simplă. în procesul de selecţie a unui eşantionaleatoriu simplu, fiecare caz din populaţia de referinţă are o probabilitateegală de a fi inclus în eşantion, iar selectarea fiecărui caz este independentăde selectarea tuturor celorlalte cazuri. Procesul de selecţie aleatorie simplăse poate baza pe diferite tipuri de operaţii. în mod tipic, se folosesc tabelecu numere selectate aleatoriu de un computer. Un exemplu de astfel detabel este dat în Anexa B. Aceste tabele conţin numere alcătuite din cincicifre, de la 0 la 9. Pentru a folosi un astfel de tabel, se atribuie fiecărui cazdin populaţia de referinţă un număr unic de identificare, după care se aleg laîntâmplare un rând şi o coloană din tabel şi, pornind de la acel punct ladreapta sau la stânga, în sus sau în jos, se citesc numerele, selectând îneşantion cazurile ale căror numere de identificare corespund cu numerelecitite în tabel. Selecţia se opreşte atunci când s-a ajuns la dimensiuneadorită a eşantionului. Pentru ilustrare, să presupunem că dorim să alcătuimun eşantion de dimensiune n = 20 dintr-o populaţie de dimensiune N = 600.Mai întâi, numerotăm membrii populaţiei într-o ordine oarecare 001, 002,..., 600. Pentru a forma eşantionul, considerăm doar ultimele trei cifre alenumerelor din tabel şi, evident, ignorăm numerele mai mari de 600. Alegemla întâmplare un rând şi o coloană şi începem selecţia pornind de la numărulrespectiv şi mergând, de pildă, în jos pe coloana aleasă, până când obţinem20 de numere. Dacă un număr de identificare este selectat mai mult decât osingură dată, se ignoră repetarea şi se trece la următorul număr dinsecvenţă2. Eşantionul va fi alcătuit din acei membri ai populaţiei ale cărornumere de identificare au fost astfel selectate.

1 Cuvântul „aleatoriu" provine din limba latină, în care substantivul „alea"înseamnă joc cu zaruri sau şansă, iar adjectivul „âleatorius" înseamnă de joc, cu referirela jocurile de noroc. După cum se ştie, aruncarea cu zarul este experimentul tipic luat înconsiderare în teoria probabilităţilor.

2 De notat că ignorarea repetărilor implică selecţia fără înlocuire, în care, după ce unmembru din populaţia de referinţă a fost selectat, el este eliminat din populaţie. Inselecţia fără înlocuire, probabilitatea de selecţie creşte pe măsura efectuării selecţiei, caurmare a micşorării treptate a dimensiunii populaţiei cu câte o unitate. De pildă, având opopulaţie de 1000 membri, probabilităţile de selecţie fără înlocuire vor fi 1/1000, 1/999,1/998 ş.a.m.d. Ca atare, riguros vorbind, ignorarea repetărilor afectează caracterulaleatoriu al procesului de selecţie. Totuşi, dacă dimensiunea eşantionului este relativmică, probabilitatea de a selecta acelaşi membru din populaţia de referinţă de două ori şide a neglija astfel repetările este foarte mică. Prin contrast, în selecţia cu înlocuire, dupăce un membru din populaţia de referinţă a fost selectat, el nu este eliminat din populaţie,astfel încât probabilitatea de selecţie rămâne constantă pe tot parcursul selecţiei.

Page 40: Statistica  aplicata in psihologie, Dumitru Gheorghiu

80 81

Statisticienii atrag atenţia asupra necesităţii de a schimba des tabelul cunumere aleatorii, dacă cercetătorul foloseşte des procedeul menţionat:„Natura umană este în aşa fel, încât fiecare dintre noi are tendinţa de a porniaproximativ din acelaşi loc şi de a parcurge repetat aproximativ aceeaşicale. De aceea, folosirea repetată a aceluiaşi tabel poate să conducă laselectarea aceluiaşi şir de numere"3.

Acum să vedem cum poate fi folosit tabelul cu numere aleatorii pentrua repartiza aleatoriu un număr de subiecţi în grupuri. Să presupunem căavem 15 subiecţi şi, în vederea unui experiment, dorim să alcătuim treigrupuri cu câte cinci subiecţi în fiecare grup. Pentru aceasta, alegem laîntâmplare un rând şi o coloană şi, urmând o anumită direcţie, atribuim unnumăr fiecărui subiect, considerând doar ultimele două cifre ale numerelordin tabel. Apoi, considerăm subiecţii în ordinea crescătoare a numereloratribuite şi repartizăm primii cinci subiecţi în grupul 1, următorii cincisubiecţi în grupul 2 şi ultimii cinci subiecţi în grupul 3. Tabelul următorprezintă o posibilă repartizare de felul menţionat:

Subiecţi_ j _ Numere atribuite JRLepartizarea în grupuri

A.B

10

~08

E_

JLJL~KM

o

0912'66

Tf63____

98

83

2_

2TL

"288

Evident, procedeul poate fi folosit pentru orice număr de grupuriîntr-un experiment.

: G. Keller, B. Warrack, 1991.

Procedura de eşantionare aleatorie simplă devine incomodă atunci cânddimensiunea populaţiei de referinţă este foarte mare (10000, de pildă).Intr-un astfel de caz se poate folosi eşantionarea sistematică, numită şiselecţie mecanică. Mai întâi, se stabileşte o fracţie de selecţie (fracţie deeşan-ţionare, pas de numărare): K = N/n, în care N este numărul total decazuri din populaţia de referinţă, iar n este dimensiunea dorită aeşantionului. De pildă, dacă N= 10000 şi n = 300, £ = 3 4 (K se rotunjeşteîntotdeauna până la un număr întreg). După ce s-a stabilit pasul denumărare, se listează la întâmplare membrii populaţiei de referinţă şi sealege la întâmplare, eventual prin tragere Ia sorţi, un caz din primele Kcazuri, care se include în eşantion, şi apoi se alege fiecare al K-\Q& cazpentru a fi inclus în eşantion până se ajunge la dimensiunea dorită aeşantionului. In exemplul nostru, dacă din primele 34 de cazuri a fost ales laîntâmplare cazul cu numărul 5, atunci se vor include în eşantionurmătoarele cazuri: 5, 39, 73, 107, ş.a.m.d. până la n = 300.

De notat că în cazul eşantionării sistematice, selecţia nu mai esteindependentă, deoarece, cu excepţia primului caz, fiecare caz selectatdepinde de numărul de ordine al cazului precedent. De aceea, acestprocedeu este considerat ca fiind cvasi aleatoriu. Caracterul aleatoriu esteasigurat prin alcătuirea întâmplătoare a listelor din care sunt selectatecazurile.

Un al treilea procedeu de eşantionare, eşantionarea stratificată,conduce la creşterea cantităţii de informaţii despre populaţie. Pentru aalcătui un eşantion aleatoriu stratificat, se clasifică populaţia de referinţădupă criterii relevante şi se alcătuiesc eşantioane aleatorii simple din fiecareclasă (strat). De pildă, pot fi folosite criterii precum sexul, vârsta sauocupaţia.

Cititorul interesat de detalii privitoare la procedurile de eşantionaredescrise sumar mai sus sau/şi de alte procedee de eşantionare poate consultacărţi despre eşantionare sau manuale de metodologie a cercetării psihologice.

5.2. DISTRIBUŢIA DE EŞANTIONARE

Scopul principal al statisticilor inferenţiale este generalizarea unorcaracteristici ale eşantionului la populaţia din care a fost alcătuit. Strategiagenerală a acestor tehnici statistice constă în trecerea de la distribuţia unuieşantion la distribuţia unei populaţii prin intermediul noţiunii de distribuţiede eşantionare. Ştim că informaţia necesară pentru caracterizarea adecvatăa unei distribuţii include forma distribuţiei, unele mărimi ale tendinţeicentrale şi unele mărimi ale dispersiei. Distribuţia unui eşantion este

Page 41: Statistica  aplicata in psihologie, Dumitru Gheorghiu

82 83

empirică (există în realitate) şi cunoscută, eşantionul fiind alcătuit decercetător, în timp ce distribuţia populaţiei este empirică, dar este necu-noscută. După cum vom vedea, distribuţia de eşantionare este nonempirică(teoretică - nu poate fi obţinută niciodată în realitate de către cercetător), iarpe baza legilor de probabilitate pot fi deduse forma, tendinţa centrală şidispersia acestei distribuţii, astfel încât proprietăţile sale pot fi exactcunoscute. Să explicăm.

în capitolul anterior am folosit distribuţia normală standard pentru aestima probabilitatea ca un caz ales la întâmplare dintr-o distribuţieparticulară aproximativ normală să aibă un scor cuprins într-o amplitudinedată de scoruri. în cele ce urmează vom considera mediile aritmetice, nuscorurile individuale, şi vom folosi distribuţia normală standard (distribuţia2) pentru a caracteriza distribuţia mediilor aritmetice (X) pentru toateeşantioanele posibile de dimensiune dată («), care pot fi obţinute aleatoriudintr-o populaţie. Cu alte cuvinte, vom considera că media aritmetică esteea însăşi o variabilă, ale cărei scoruri sunt mediile aritmetice ale tuturoreşantioanelor aleatorii posibile de dimensiune constantă n dintr-o populaţie.

Să presupunem că ne interesează media aritmetică a vârstelor dintr-opopulaţie de dimensiune comparabilă cu populaţia României. Selectăm uneşantion aleatoriu de 100 de persoane din această populaţie şi înregistrămvârstele pentru acest eşantion. Evident, ceea ce am obţinut este distribuţiavârstelor pentru eşantionul considerat, pentru care putem calcula mediaaritmetică. Acum, să presupunem că am selectat (cu înlocuire) toateeşantioanele posibile de dimensiune 100 din populaţia respectivă şi că amcalculat media aritmetică pentru fiecare eşantion. Rezultatele pe care, înprincipiu, le-am obţine în acest fel constituie distribuţia mediilor aritmeticepentru toate eşantioanele posibile de dimensiune 100 din populaţia dereferinţă. Această distribuţie este numită distribuţia de eşantionare amediilor aritmetice ale tuturor eşantioanelor aleatorii de dimensiune 100din populaţia de referinţă. în general, distribuţia de eşantionare amediilor aritmetice se defineşte ca distribuţia mediilor aritmetice aletuturor eşantioanelor aleatorii de dimensiune constantă n din populaţia dereferinţă. In mod similar, se definesc distribuţiile de eşantionare pentru altemărimi statistice (proporţii, coeficienţi de corelaţie etc), pe care le vomconsidera în unele dintre capitolele care urmează. în continuare, ne vomconcentra atenţia asupra distribuţiei de eşantionare a mediilor aritmetice.

Ca şi distribuţiile de frecvenţe considerate până acum, distribuţia deeşantionare a mediilor aritmetice (şi cele ale celorlalte mărimi statistice) are(1) o formă, (2) o medie aritmetică şi (3) o abatere standard. Pentru media

aritmetică şi abaterea standard a distribuţiei de eşantionare a mediiloraritmetice vom folosi, respectiv, simbolurile \x. j şi cr j.

Cei trei parametri menţionaţi ai distribuţiei de eşantionare a mediiloraritmetice sunt daţi de următoarea teoremă, numită teorema limiteicentrale:

Dacă se alcătuiesc toate eşantioanele posibile dedimensiune n dintr-o populaţie cu media aritmetică fi şiabaterea standard a, atunci distribuţia de eşantionare amediilor aritmetice ale acestor eşantioane are următoareletrei proprietăţi:

1. Media sa aritmetică, u. ^ , este egală cu media aritmetică a

populaţiei, fi.2. Abaterea sa standard, cr j , este egală cu a/*Jn .

3. Cu cât n este mai mare, cu atât forma sa aproximează maibine normalitatea, indiferent deforma distribuţiei populaţiei.

Demonstrarea acestei teoreme depăşeşte cadrul propus pentru lucrarea defaţă. Pentru concizia exprimării, în loc de „distribuţia de eşantionare a mediiloraritmetice" vom scrie în continuare „distribuţia de eşantionare a X ".

Teorema limitei centrale arată că, indiferent de forma distribuţiei uneivariabile într-o populaţie, distribuţia de eşantionare a X va fi aproximativnormală pentru eşantioane suficient de mari. De pildă, dacă lucrăm cu ovariabilă care prezintă o distribuţie asimetrică, precum venitul, putem săpresupunem că distribuţia de eşantionare a X este aproximativ normalăpentru eşantioane cu n > 100, având media aritmetică egală cu cea apopulaţiei şi abaterea standard egală cu a/V«. Astfel, teorema limiteicentrale elimină constrângerea normalităţii pentru populaţii. Dacădistribuţia unei variabile este aproximativ normală, atunci distribuţia deeşantionare a X va fi aproximativ normală chiar şi pentru valori mai miciale lui n. în fine, teoretic vorbind, dacă distribuţia unei variabile este rigurosnormală, atunci distribuţia de eşantionare a X va fi normală indiferent dedimensiunea eşantionului.

Page 42: Statistica  aplicata in psihologie, Dumitru Gheorghiu

84

5.3. ESTIMAREA PROBABILITĂŢILOR

Teorema limitei centrale poate fi utilizată pentru a estima proba-bilitatea ca media aritmetică a unui eşantion de dimensiune dată, ales laîntâmplare dintr-o populaţie, să aibă o valoare cuprinsă într-o amplitudinedată de valori. Pentru ilustrare, să considerăm o populaţie cu mediaaritmetică a unei caracteristici aproximativ normale ju = 117 şi a = 14. Săpresupunem că ne interesează probabilitatea ca un eşantion aleatoriu cu n =36 selectat din această populaţie să aibă media aritmetică a caracteristiciirespective cuprinsă între 115 şi 120. întrucât variabila considerată esteaproximativ normală, conform punctului 3 al teoremei limitei centrale,distribuţia de eşantionare a X aproximează normalitatea pentru n - 36.Conform punctelor 2 şi 3 ale acestei teoreme, avem:

85

a 14°x = J= = F =

4n V36

Aici, valorile 115 şi 120 sunt medii aritmetice. Scorurile Z corespun-zătoare acestor valori se calculează cu ajutorul următoarei formule:

Z =

în exemplul nostru, avem:

^120 -

115-1172,34

120-1172,34

= -0,85

= 0,90

Din tabelul curbei normale aflăm că probabilitatea corespunzătoarescorului Z = -0,85 este 0,3023, iar cea corespunzătoare scorului Z= +1,25este 0,3944. Ca atare, probabilitatea ca un eşantion cu n = 36 să aibă mediaaritmetică între 115 şi 120 este de 0,6967.

5.4. STRATEGIA INFERENŢIALĂ

în statisticile inferenţiale, mărimile statistice pentru populaţii suntnumite parametri şi, prin contrast, mărimile statistice pentru eşantioane

sunt numite pur şi simplu statistici. Figura 5.1 ilustrează strategia generalăa statisticilor inferenţiale4, pe care o vom folosi în capitolele care urmează.

Populaţie(parametri)

Distribuţiede

eşantionare

Figura 5.1. Strategia infereuţială

Astfel, în general, în statisticile inferenţiale avem o populaţie ai căreiparametri se doresc a fi determinaţi. Pentru aceasta, selectăm un eşantionaleatoriu din acea populaţie şi calculăm statisticile care reflectă parametriicorespunzători, după care, pe baza distribuţiilor de eşantionare ale acelorstatistici şi a legilor de probabilitate, inferăm asupra parametrilor populaţiei.

4 După Hinkle, Wiersma şi Jurs, 1988.

Page 43: Statistica  aplicata in psihologie, Dumitru Gheorghiu

GLOSAR

Distribuţia de eşantionare a mediilor aritmetice: distribuţia mediilor aritmeticeale tuturor eşantioanelor aleatorii de dimensiune constantă n din populaţia dereferinţă. în mod similar, se definesc distribuţiile de eşantionare pentru altemărimi statistice (proporţii, coeficienţi de corelaţie etc).

Eşantionare aleatorie simplă: metodă de selecţie a unui eşantion în care fiecarecaz din populaţia de referinţă are o probabilitate egală de a fi inclus în eşantion,iar selectarea fiecărui caz este independentă de selectarea tuturor celorlaltecazuri.

Eşantionare sistematică: metodă de selecţie a unui eşantion în care primul cazdintr-o listă a populaţiei de referinţă este selectat aleatoriu, după care esteselectat fiecare al &-lea caz.

Eşantionare stratificată: metodă de selecţie a unui eşantion în care populaţia dereferinţă este clasificată după criterii relevante şi se alcătuiesc eşantioanealeatorii simple din fiecare clasă (strat).

Parametri: mărimi statistice pentru populaţii; prin contrast, mărimile statisticepentru eşantioane sunt numite statistici.

Teorema limitei centrale: teorema care specifică media aritmetică, abatereastandard şi forma distribuţiei de eşantionare a mediilor aritmetice.

6. PROCEDURI DE ESTIMARE STATISTICĂ

Statisticile inferenţiale se clasifică în două categorii principale:proceduri de estimare şi proceduri de testare a ipotezelor. în procedurile deestimare, care fac obiectul acestui capitol, pe baza unei statistici calculatepentru un eşantion se face o apreciere despre parametrul corespunzător alpopulaţiei de referinţă. în testarea ipotezelor, care face obiectul capitolelorurmătoare, se verifică (se testează) o ipoteză despre populaţie prin raportarela rezultatele obţinute pe un eşantion.

La rândul lor, procedurile de estimare sunt de două tipuri: puncteestimate şi intervale estimate. Un punct estimat este o singură valoarecalculată pentru un eşantion şi folosită pentru a estima parametrul cores-punzător al populaţiei de referinţă. Un interval estimat este o amplitudinede valori în care este probabil să se afle un parametru al populaţiei deinteres. Luând drept exemplu sondajele electorale, a spune că 38% dinelectorat va vota pentru candidatul X înseamnă a raporta un punct estimat,în timp ce a spune că între 35% şi 42% din electorat va vota pentrucandidatul X înseamnă a raporta un interval estimat. în ambele tipuri deproceduri, statisticile calculate pentru eşantioane servesc drept estimatori.De pildă, media aritmetică pentru un eşantion este un estimator al medieiaritmetice a populaţiei de referinţă.

6.1. CARACTERISTICI ALE ESTIMATORILOR

Un estimator trebuie să satisfacă două condiţii: să fie nedistorsionat şirelativ eficient. Se spune că un estimator este nedistorsionat dacă mediaaritmetică a distribuţiei sale de eşantionare este egală cu media aritmetică apopulaţiei de referinţă. Conform teoremei limitei centrale, mediile arit-metice ale eşantioanelor satisfac această condiţie: media aritmetică adistribuţiei de eşantionare a mediilor aritmetice, \x j, este egală cu media

aritmetică a populaţiei, ix. Statisticienii au demonstrat că şi proporţiileeşantioanelor, p, sunt nedistorsionate, întrucât media aritmetică a distribu-ţiei de eşantionare a proporţiilor pentru eşantioane, nP, este egală cu pro-porţia populaţiei, P. Prin contrast, un estimator este distorsionat dacămedia aritmetică a distribuţiei sale de eşantionare este diferită de mediaaritmetică a populaţiei. De pildă, abaterea standard a unui eşantion s este unestimator distorsionat al abaterii standard a populaţiei: de regulă, dispersiaunui eşantion este mai mică decât cea a populaţiei de referinţă, astfel că s

Page 44: Statistica  aplicata in psihologie, Dumitru Gheorghiu

88 89

tinde să subestimeze pe a. După cum am menţionat în capitolul 3, aceastădistorsiune poate fi corectată.

Un estimator nedistorsionat permite, între altele, determinareaprobabilităţii ca o mărime statistică a unui eşantion să se afle la o anumitădistanţă faţă de parametrul corespunzător pe care încercăm să-1 estimăm.Pentru ilustrare, să presupunem că ne interesează venitul mediu al uneipopulaţii. Pentru aceasta, alcătuim un eşantion aleatoriu cu n = 500 şicalculăm media aritmetică pentru acest eşantion. Să presupunem că amgăsit X = 5.000.000. După cum am arătat, variabila venit prezintă odistribuţie asimetrică. Cu toate acestea, conform teoremei limitei centrale,distribuţia de eşantionare a X pentru eşantioane mari (n > 100) apro-ximează normalitatea, având media aritmetică, \x^, egală cu media aritme-tică a populaţiei, \i . Ştim că toate curbele normale conţin aproximativ 68%din cazuri între +1Z, 95% din cazuri între +2Z şi 98% din cazuri între ±3Zfaţă de medie. Aici, cazurile sunt medii aritmetice ale eşantioanelor, astfelîncât există o probabilitate mare (aproximativ 68 de şanse din 100) camedia aritmetică a eşantionului considerat, 5.000.000, să se afle între±1Z, o probabilitate foarte mare (95 din 100) ca această medie să se afleîntre ± 2 Z şi o probabilitate extrem de mare (98 din 100) ca această mediesă se afle între ± 3 Z faţă de meldia aritmetică a distribuţiei de eşantionareu y , care are aceeaşi valoare cu u :

34,13%. 34,1356

1 +2 +3

Figura 6.1. Procente din aria de sub curba normală

De remarcat că în aproximativ 2% din cazuri, media aritmetică de5.000.000 se află la mai mult de +3Z faţă de media aritmetică a distribuţieide eşantionare. Practic, putem spune că media aritmetică de 5.000.000 nu seaflă în acea „minoritate".

Cea de-a doua condiţie pe care trebuie să o satisfacă un estimator,eficienţa, este legată de dispersie. Un estimator este cu atât mai eficient cucât distribuţia de eşantionare este mai grupată în jurul mediei sale aritmeticesau, altfel spus, cu cât este mai mică abaterea standard a distribuţiei deeşantionare. Să considerăm mediile aritmetice ale eşantioanelor. Din teoremalimitei centrale, ştim că abaterea standard a distribuţiei de eşantionare amediilor aritmetice ale eşantioanelor, <J^, este egală cu cr/-Jn, deci a-^este invers proporţională cu n: cu cât dimensiunea eşantionului este maimare, cu atât este mai mică o^ • Ca atare, eficienţa mediei aritmetice caestimator poate fi îmbunătăţită (=<TJ poate fi micşorată) prin mărirea dimen-siunii eşantionului. Pentru ilustrare, să considerăm următorul exemplu:

Eşantionul 1X = 5.000.000

n,~= 166

Eşantionul 2X = 5.000.000

n7= Tooo""""

Să presupunem că abaterea standard a populaţiei, <r, este de 275.000(evident, valoarea lui a este rareori cunoscută în realitate). în privinţaprimului eşantion, abaterea standard a distribuţiei de eşantionare a mediiloraritmetice ale tuturor eşantioanelor cu n = 100 este 275.0Oo/VÎ00 = 27.500. înprivinţa celui de-al doilea eşantion, abaterea standard a distribuţiei deeşantionare a mediilor aritmetice ale tuturor eşantioanelor c u n = 1000 esteconsiderabil mai mică: 275.000/VlOOO = 8697. Cea de-a doua distribuţie deeşantionare este mult mai grupată decât prima distribuţie1.

Rezumând, întrucât a^ este invers proporţională cu n, cu cât eşan-tionul este mai mare, cu atât distribuţia de eşantionare este mai grupată şieficienţa estimatorului este mai mare .

1 Distribuţia 2 conţine aproximativ 68% din mediile aritmetice ale tuturor eşantioanelorposibile între +8697 faţă de ju j , în timp ce distribuţia 1 conţine aproximativ 68% dinmediile aritmetice într-un interval mult mai larg: ±27.500.2 Aceste relaţii precizează ideea intuitivă că putem avea mai multă încredere înrezultatele obţinute pe eşantioane mari decât în cele obţinute pe eşantioane iniei,evident, cu condiţia ca şi unele şi altele să fie selectate aleatoriu.

Page 45: Statistica  aplicata in psihologie, Dumitru Gheorghiu

90 91

6.2. ESTIMAREA MEDIEI ARITMETICECÂND a ESTE CUNOSCUT

Atunci când se estimează un punct, se alcătuieşte un eşantion aleatoriu,se calculează o medie aritmetică sau o proporţie şi se estimează că valoareaparametrului respectiv este egală cu valoarea calculată pentru eşantion. înacest tip de estimare, se ţine cont că eficienţa estimatorului este directproporţională cu dimensiunea eşantionului, ceea ce înseamnă că proba-bilitatea ca estimatorul să fie aproximativ egal cu parametrul corespunzătoreste cu atât mai mare cu cât dimensiunea eşantionului este mai mare.

Procedura de estimare a intervalelor este relativ mai complicată, dareste mai sigură, în sensul că, atunci când se estimează un interval,probabilitatea ca în acel interval să se afle parametrul de interes este maimare şi poate fi stabilită cu precizie.

Fie o populaţie cu media aritmetică /u şi cu abaterea standard a.Selectăm aleatoriu un eşantion de dimensiune n din această populaţie şicalculăm media aritmetică pentru eşantion, X. Conform teoremei limiteicentrale, distribuţia de eşantionare a mediilor aritmetice ale tuturoreşantioanelor posibile de dimensiune n din populaţia de referinţă esteaproximativ normală, cu media aritmetică egală cu cea a populaţiei de

referinţă şi cu abaterea standard egală cu a/yfn . Pe baza caracteristicilordistribuţiei de eşantionare şi a tabelului distribuţiei normale standard putemformula enunţuri de probabilitate despre mediile aritmetice aleeşantioanelor. De pildă, din tabel aflăm că proporţia de cazuri (mediiaritmetice ale eşantioanelor) cuprinse între Z = -1,96 şi media aritmeticăeste de 0,475. întrucât curba este simetrică, proporţia de cazuri cuprinseîntre Z = +1,96 şi media aritmetică este tot de 0,475. Astfel, proporţia decazuri cuprinse între ±1,96 abateri standard faţă de medie este de 0,95, iarproporţia de cazuri aflate sub -1,96 şi peste +1,96 abateri standard faţă demedie este de 0,05 (0,025 + 0,025):

0,0250,475 0,475

0,95

0,025

-1,96 +1,96

Acelaşi lucru ca mai sus poate fi exprimat spunând că 95% din mediilearitmetice ale eşantioanelor se află în intervalul dintre ^-l,96(a/V«) şi

u + 1,96(<T/V") sau, pe scurt, în intervalul u. ± l,96(a/V«) • Structuraacestui tip de enunţ de probabilitate poate fi folosită pentru a estimavaloarea parametrului fi, prin construirea unui interval centrat pe valoareacunoscută pentru eşantion, X. Rezultatul este un interval de încredereestimat - o amplitudine de valori în care este probabil (nu sigur) să se aflefi. Astfel, putem estima că există o probabilitate de 0,95 (sau 95%) ca mediaaritmetică a populaţiei să se afle în intervalul X ±l,96(u/yfn), ceea ceînseamnă că probabilitatea ca media aritmetică a populaţiei să nu se afle înacest interval este de 0,05 (sau 5%).

Probabilitatea ca media aritmetică a populaţiei să nu se afle înintervalul estimat sau, altfel spus, probabilitatea de eroare a estimării senumeşte nivel de semnificaţie sau nivel alfa (a), iar probabilitatea caintervalul estimat să conţină media aritmetică a populaţiei se numeşte nivelde încredere. După cum reiese şi din cele de mai sus, nivelul de încredereeste complementarul nivelului alfa, fiind egal cu 1 - a sau, în procente, cu(1 - a) x 100. A stabili, de pildă, că a - 0,05 înseamnă acelaşi lucru cu aspune că nivelul de încredere este de 95%. întrucât probabilitatea de eroareeste împărţită în mod egal în extremitatea inferioară şi cea superioară adistribuţiei de eşantionare, stabilindu-se astfel limita inferioară şi limitainferioară de încredere, vom nota scorul Z corespunzător nivelului a ales cuZa2- Astfel, în cazul în care a este cunoscut, formula de construire a unuiinterval de încredere estimat (IE) bazat pe media aritmetică a unui eşantioneste următoarea:

Page 46: Statistica  aplicata in psihologie, Dumitru Gheorghiu

93

Formula 6.1. IE = X ± Za/2(cr/Vw)

Ca exemplu, să presupunem că dorim să estimăm media aritmeticăzilnică a orelor de vizionare a programelor TV de către femeile casnice.Pentru aceasta, alcătuim un eşantion aleatoriu de 200 de femei casnicein - 200) şi aflăm că acestea petrec în medie 6 ore pe zi vizionândprograme TV (X = 200). Prin testări extensive ştim că abaterea standard apopulaţiei pentru vizionarea programelor TV este de aproximativ 0,7(a = 0,7). în această cercetare suntem dispuşi să asumăm o şansă de a greşide 10%, stabilind a = 0,10. Pentru a determina limitele de încredereinferioară şi superioară, trebuie să scădem 0,05 (a/2) din 0,5 (proporţia decazuri aflate de o parte şi de alta a mediei aritmetice a distribuţiei deeşantionare). Rezultatul scăderii este 0,450, ceea ce reprezintă proporţia decazuri dintre o limită de încredere şi medie:

0,05 0,05

0,90-1,65 +1,65

Astfel, pentru a = 0,10 trebuie să căutăm proporţia 0,4500 în tabeluldistribuţiei normale standard. Găsim însă o proporţie de 0,4495, corespun-zătoare scorului Zw2 = ±1,64 şi o proporţie de 0,4505, corespunzătoarescorului Z a 2 = ±1,65. Scorul Z^ pe care îl căutăm se află undeva întreaceste două scoruri. în aceste condiţii, se ia cel mai mare dintre cele douăscoruri: ±1,65. în acest fel, intervalul de încredere va fi cel mai mare posibilîn circumstanţele date. Prin urmare, vom avea:

IE = X± Zaj2 (atfri) = 6 ± 1,65(0,7/7200) = 6 ± 1,65(0,7/14,14) =

= 6 ±1,65 • 0,0495 = 6 ± 0,08Pe baza mediei aritmetice a eşantionului, estimăm că femeile casnice

petrec în medie între 5,92 (6 - 0,08) şi 6,08 (6 + 0,08) ore pe zi vizionândprograme TV. O altă modalitate de a enunţa acest interval este 5,92 < /x < 6,08.

Această estimare are o şansă de 10% de a fi greşită, adică de a nu conţinemedia aritmetică a populaţiei.

în principiu, cercetătorul poate folosi orice valoare pentru nivelul deîncredere. Totuşi, nivelurile de încredere folosite în mod obişnuit sunt 90%,95% şi 99%. în cazul nivelului de încredere de 99% ne confruntăm cuaceeaşi problemă ca în ultimul exemplu de mai sus. în acest caz, a = 0,01 şiscăzând 0,005 (a/2) din 0,5 obţinem 0,495. în tabel nu apare proporţia0,4950, dar apar proporţiile 0,4949 (Z a 2 = ±2,57) şi 0,4951 (Zw2 = ±2,57).Ca mai sus, se ia cel mai mare dintre cele două scoruri: ±2,58. Tabelulurmător rezumă toate datele de care avem nevoie:

Tabelul 6.1. Niveluri de încredere şi scoruri Za/2

Nivelul de încredere

90%

6.3. ESTIMAREA MEDIEI ARITMETICECÂND a ESTE NECUNOSCUT. DISTRIBUŢIA f-STUDENT

în aproape toate situaţiile reale de cercetare, valoarea abaterii standarda populaţiei este necunoscută. Se disting aici două cazuri: cazul în caredimensiunea eşantionului este relativ mare, ceea ce înseamnă eşantioane cun > 30, şi cazul n < 30.

în cazul eşantioanelor cu n > 30, a se poate estima prin s (abatereastandard a eşantionului). întrucât, după cum am văzut, s este un estimatordistorsionat pentru a, formula de construire a intervalului de încredereestimat este uşor modificată faţă de formula 6.1, pentru a se corectadistorsiunea. Astfel, formula modificată pentru cazurile (reale) în care aeste necunoscut şi n > 30 este următoarea:

Formula 6.2. IE = X±Za/2(s/Jn^l)

înlocuirea lui -Jn cu V«-l reprezintă corecţia cerută de faptul că seste un estimator distorsionat.

Pentru ilustrare, să presupunem că venitul mediu al unui eşantion alea-toriu cu n = 500 este de 5.000.000 de lei (X = 5.000.000 ) cu 5 = 12:5.000.

Page 47: Statistica  aplicata in psihologie, Dumitru Gheorghiu

94 95

Care este intervalul de încredere estimat pentru media aritmetică apopulaţiei respective, la un nivel de încredere de 95% (a = 0,05)?

IE = X± Za/2 (slJrTĂ) = 5.000.000 ± l,96(125.000/V500-l) =

= 5.000.000±1,96(125.000/22,34) = 5.000.000 ± 1,96 • 5595,34 == 5.000.000 ±10.967

Pe baza mediei aritmetice a eşantionului, estimăm că media aritmeticăa veniturilor populaţiei este cuprinsă între 4.989.033 lei (5.000.000 - 10.967) şi5.010.967 lei (5.000.000 - 10.967) şi există doar 5% şanse ca acest intervalsă nu conţină media aritmetică a populaţiei.

Atunci când eşantioanele sunt mici (n < 30) şi valoarea lui a estenecunoscută, distribuţia normală standard nu poate fi folosită pentru adescrie distribuţia de eşantionare a mediilor aritmetice. Pentru a construiintervale estimate semnificative în cazul n < 30 se foloseşte o altă distri-buţie teoretică: distribuţia /-Student3. Ca şi în cazul distribuţiei normale,graficul distribuţiei ^-Student, numit şi curba /, este simetric şi are formă declopot cu ambele extremităţi extinse la infinit. Spre deosebire de graficuldistribuţiei normale, forma exactă a graficului distribuţiei t depinde dedimensiunea eşantionului. Pentru eşantioane mici, graficul distribuţiei t estemult mai aplatizat decât cel al distribuţiei normale (comparaţi figuraurmătoare cu oricare dintre graficele de mai sus).

Figura 6.2. Un exemplu de curbă t

^ Pe măsură ce dimensiunea eşantionului creşte, distribuţia / seamănă dince in ce mai mult cu distribuţia normală, identificându-se cu aceasta pentru

Iuta a f tb 5T r ^ ^ ^ ' ^ § ' G ° S S e t ' U " C h i m i s t * s t a t i s t i " a " carelucra la fabrica de bere Guiness Ia începutul secolului al XX-lea. Gosset a descoperit căpentru eşant.oanele mici, distribuţiile de eşantionare diferă de distribuţia normală şi

2 ; i r r Z r ş a n t i o n u l u i considerat-Gosset şi-a bH ^

eşantioane practic foarte mari (şi teoretic infinite). Astfel, întrucât există odistribuţie t specifică pentru fiecare eşantion de dimensiune dată, distribuţiat este, de fapt, o familie de distribuţii.

Distribuţia / particulară cerută pentru rezolvarea unei anumiteprobleme depinde de un concept matematic numit grade de libertate.Acest concept se referă la numărul de valori libere să varieze într-odistribuţie. De pildă, dacă ştim că o distribuţie de cinci scoruri are mediaaritmetică egală cu 3 şi că patru dintre aceste scoruri sunt 1, 2, 3, şi 4, atuncivaloarea celui de-al cincilea scor este fixată: 5. în general, pentru mediaaritmetică a unui eşantion de dimensiune n, o distribuţie are n - 1 grade delibertate. Fiecare distribuţie t este asociată cu un număr unic de grade delibertate. Mai precis, dacă se selectează toate eşantioanele posibile dedimensiune n dintr-o populaţie normală, atunci distribuţia de eşantionare acantităţii

este distribuţia ^-Student cu n - 1 grade de libertate.Distribuţia / va fi utilizată îndeosebi în testarea ipotezelor. Deocamdată

vom descrie tabelul valorilor critice ale distribuţiei /, prezentat în AnexaC, şi vom ilustra utilizarea acestui tabel pentru estimarea intervalelor.Schema generală a acestui tabel este prezentată în figura 6.3.

123

2930

'o. io 'o.O5

025

r2,045

Axoi 'o.oos

Figura 6.3. Schema tabelului valorilor critice ale distribuţiei t

Page 48: Statistica  aplicata in psihologie, Dumitru Gheorghiu

96 97

Tabelul valorilor critice ale distribuţiei t specifică valorile pentru ta,ceea ce înseamnă valorile lui t pentru care aria aflată la dreapta sub curba /este egală cu a:

a

ta

Nivelurile a sunt dispuse pe primul rând al tabelului. Valorile ta suntdate pentru grade de libertate (gl), dispuse pe prima coloană din stânga, dela 1 la 29 şi apoi 30, 40, 60, 120 şi oo. De notat că, pe măsură ce numărul degrade de libertate creşte, diferenţa dintre distribuţia t şi distribuţia normalădescreşte, precum şi că, pentru o infinitate de grade de libertate, distribuţia /este identică cu distribuţia normală. Pentru estimarea intervalelor, ca şipentru alte scopuri, avem nevoie de taa- Această valoare se localizeazăînmulţind cu 2 valoarea a aflată pe primul rând. De pildă, pentru n = 30 şia - 0,05, numărul de grade de libertate este 29; la intersecţia coloanei desub ta = 0,025 şi a liniei corespunzătoare pentru gl = 29 găsim valoarea2,045. Astfel, în acest caz, vom spune că valoarea lui ta/2 este ±2,045.

Formula pentru cazurile în care a este necunoscut şi n < 30 esteurmătoarea:Formula 6.3. IE-X± ta/2(s/4n)

Pentru ilustrare, să presupunem că un eşantion aleatoriu de 20 deadolescenţi cu dificultăţi de învăţare au obţinut următoarele rezultate la untest de cunoştinţe la care scorul maxim ce poate fi obţinut este de 40:

Tabelul 6.2. Scoruri obţinute la un test de cunoştinţede către 20 de adolescenţi cu dificultăţi de învăţare

1831262422

2032282733

1225232028

3029201922

Presupunând că variabila măsurată este normal distribuită în populaţiade adolescenţi cu dificultăţi de învăţare, care este intervalul de încredereestimat pentru media aritmetică a acestei populaţii, la un nivel de încrederede 99%? Calculăm mai întâi media aritmetică a scorurilor din eşantion:

x = 20= 24,45

Abaterea standard la nivelul eşantionului este:

|!2515-20-597,819

Pentru n = 20, numărul de grade de libertate este 19; având a - 0,01, laintersecţia coloanei de sub ta = 0,005 şi a liniei corespunzătoare pentru gl =19 găsim valoarea 2,861. Astfel, valoarea lui t„p_ este ±2,861. Aplicândformula 6.3, obţinem:

IE = X± ta/2 (.sfjn) = 24,45 ± 2,861(5,40/720) = 24,45 ± 3,40

Astfel, estimăm că media aritmetică pe care o căutăm este cuprinsăîntre 21,05 şi 27,85 şi există doar 1% şanse ca acest interval să nu conţinămedia aritmetică a populaţiei.

De reţinut că formula 6.3 poate fi aplicată doar dacă variabila deinteres este normal distribuită.

6.4. ESTIMAREA PROPORŢIILOR

Pe baza teoremei limitei centrale se demonstrează că proporţiile pentrueşantioane (p) au distribuţii de eşantionare aproximativ normale, cu mediaaritmetică (JLIP) egală cu proporţia pentru populaţie (P) şi abaterea standard(o},) egală cu yjP(l - P)jn . Teoretic, formula pentru construirea unui intervalestimat bazat pe proporţii ale eşantioanelor este următoarea:

Formula 6.4. IE = p±Z„/2J' V

în această formulă, valorile pentru p şi n provin de la eşantion, iarvaloarea lui Za/2 se determină la fel ca mai sus. Problema cu această formulăeste că valoarea proporţiei pentru populaţie, P, nu este cunoscută. Pentru arezolva această problemă, se poate proceda în două moduri.

Page 49: Statistica  aplicata in psihologie, Dumitru Gheorghiu

98

Un prim mod de a rezolva problema constă în a stabili că P = 0,5. înaceastă situaţie, 1 - P = 0,5 şi P(\ - P) = 0,5 • 0,5 = 0,25. Este important deremarcat că 0,25 este valoarea maximă pe care o poate lua numărătorulfracţiei de sub radical, P(\ - P). Stabilind pentru P orice altă valoarediferită de 0,5, valoarea expresiei P{\ - P) va fi mai mică decât valoareapentru P = 0,5. De pildă, dacă P = 0,4, atunci 1 - P = 0,6 şi P(\ -P) = 0,4 •0,6 = 0,24. întrucât P(\ - P) are valoarea maximă când P = 0,5, neasigurăm că intervalul obţinut va fi cel mai mare posibil pentru/?, Zai2 şi ndate. Practic, adoptând această soluţie, lucrăm cu formula următoare:

Formula 6.5. IE = p±Za/2]-~V n

A doua soluţie a problemei menţionate constă în a estima valoarea luiP prin/j, lucrând cu formula următoare:

Formula 6.6. IE = p±Za/2 \P^—ă

Oricum, formulele de mai sus pot fi folosite doar dacă dimensiuneaeşantionului considerat este destul de mare, astfel încât np>5ş\ n(\ -p) > 5.

Să presupunem, de pildă, că dorim să estimăm proporţia de studenţi dela universitatea X care au lipsit cel puţin o zi pe motiv de boală într-unanumit semestru şi că, dintr-un eşantion aleatoriu de 200 de studenţi, găsim30 în această situaţie. Astfel, proporţia eşantionului pe care ne bazămestimarea este p = 30/200 = 0,15. La un nivel de încredere de 95%,intervalul estimat cu ajutorul formulei 6.5 este următorul:

= 0,15 + 1,96 = 0,15 + 0,07

Pe baza proporţiei de 0,30 a eşantionului, estimăm că proporţia căutatăeste cuprinsă între 0,08 şi 0,22. Estimarea poate fi exprimată şi în termenide procente, spunând că între 8% şi 22% dintre studenţii universităţii X aulipsit cel puţin o zi pe motiv de boală în semestrul considerat.

Să aplicăm acum formula 6.6 la aceleaşi date, păstrând nivelul deîncredere de 95%:

= 0 4 5 ± l , 9 6 j M ^ = 0,15±l,96jM=0.15±0,0511 200 A ' " " "

99

în acest caz, estimăm că proporţia căutată este cuprinsă între 0,10 şi0,20 sau, altfel spus, că între 10% şi 20% dintre studenţii universităţii Xaulipsit cel puţin o zi pe motiv de boală în semestrul considerat.

De notat că intervalul estimat cu ajutorul formulei 6.5 este mai largdecât cel estimat cu ajutorul formulei 6.6, astfel încât prima estimare estecea mai conservatoare soluţie posibilă, deoarece este mult mai probabil caintervalele mai largi să conţină parametrul estimat. Prin urmare, din punctde vedere statistic, prima estimare este preferabilă celei de-a doua estimări.

6.5. DIMENSIUNI ALE EŞANTIOANELORŞI NIVELURI DE PRECIZIE

Formulele 6.1 şi 6.5 pot fi manipulate algebric pentru a determinadimensiunea unui eşantion la orice nivel de precizie dorit sau, altfel spus,pentru orice limită de eroare stabilită.

6.5.7. Controlul mărimii intervalului estimatMărimea unui interval de încredere estimat pentru medii aritmetice sau

proporţii poate fi controlat prin intermediul a doi termeni ai ecuaţieirespective: nivelul de încredere, care determină scorul Za,2 sau tn2

corespunzător, şi dimensiunea eşantionului.Relaţia dintre nivelul de încredere şi mărimea intervalului este de

proporţionalitate directă: cu cât nivelul de încredere creşte, cu atâtintervalul este mai mare. Intuitiv, este mult mai probabil ca intervalele mailargi să conţină valoarea pentru populaţie, prin urmare putem avea maimultă încredere în astfel de intervale. Pentru a ilustra această relaţie, săconsiderăm din nou exemplul privind estimarea venitului mediu al uneipopulaţii: n = 500, X = 5.000.000 , s = 125.000. La un nivel de încredere de95% am găsit intervalul 5.000.000 ± 10967 (i.e. acest interval se extinde la10.967 lei în jurul mediei aritmetice a eşantionului). Acum, dacă luăm unnivel de încredere de 99%, scorul Zaa corespunzător creşte la ±2,58, iarintervalul se măreşte:

IE = 5.000.000 + 2,58 • 5595,34 = 5.000.000 ± 14.436(intervalul estimat la un nivel de încredere de 99% se extinde la 14.436 leiîn jurul mediei). Exact aceeaşi relaţie se aplică şi la proporţii.

Relaţia dintre dimensiunea eşantionului şi mărimea intervalului este deproporţional itate inversă: cu cât dimensiunea eşantionului este mai mare, cuatât intervalul este mai îngust. Intuitiv, eşantioanele mai mari permitestimări mai precise. Pentru ilustrare, să considerăm din nou exemplul

Page 50: Statistica  aplicata in psihologie, Dumitru Gheorghiu

IE = 5.000.000 + 1,96(125.000/

100

privind estimarea venitului mediu, modificând doar dimensiunea eşantio-nului: n= 1000 (95%).

' /1000-1) = 5.000.000± 1,96• 3955,7 == 5.000.000 ±7753

Pentru n = 500, la un nivel de încredere de 95%, intervalul estimat seextinde la 10.967 lei în jurul mediei; pentru n = 1000, toate celelalterămânând aceleaşi, intervalul estimat se extinde doar la 7753 lei în jurulmediei. Exact aceeaşi relaţie se aplică şi la proporţii.

De notat că îngustarea intervalului (= creşterea preciziei) nu depinde înmod liniar de dimensiunea eşantionului. în exemplul nostru am dublatdimensiunea eşantionului, dar cel de-al doilea interval nu este de două orimai îngust decât primul, ci de aproximativ 1,41 de ori mai îngust. Aceastaînseamnă că n trebuie să crească de trei sau patru ori pentru a obţine odublare a preciziei. întrucât costul unei cercetări este direct proporţional cudimensiunea eşantionului, un eşantion de, să zicem, 10.000 de persoanecostă aproximativ de două ori mai mult decât unul de 5000 de persoane, darestimarea bazată pe eşantionul mai mare nu va fi de două ori mai precisădecât cea bazată pe eşantionul mai mic.

6.5.2. Determinarea dimensiunii eşantionului pentru estimarea mediiloraritmetice

Să considerăm formula 6.1:a

IE = X±Z,a/2'

în această formulă, membrul Z^iof-Jn) reprezintă, în fapt, limita deeroare sau nivelul de precizie a estimării: -Za/2(^/sn) este limitainferioară, iar + Za/2(<j/V") este limita superioară. Notând limita de eroarecu L, putem scrie următoarea ecuaţie:

L = Z.a/2a

TnRidicând la pătrat ambii membri ai ecuaţiei, egalitatea se păstrează:

nDin această egalitate îl putem obţine pe n:

Formula 6.7. n = .

101

Pentru a folosi această formulă trebuie să cunoaştem valoarea lui a, or,după cum am mai menţionat, în aproape toate cazurile această valoare nueste cunoscută. Totuşi, valoarea lui a poate fi aproximată, dacă ştimamplitudinea variabilei măsurate, A. Astfel, o aproximare conservatoare alui creste a = A/4.

Să ilustrăm. Un psiholog industrial doreşte să estimeze durata medie încare un muncitor de la o firmă de produse electronice execută un anumitreglaj. Observând un număr de muncitori care execută reglajul respectiv,psihologul constată că durata cea mai mică este de 10 minute, iar cea maimare de 22 de minute. Cât de mare trebuie să fie eşantionul selectat, dacăpsihologul doreşte să estimeze durata medie de execuţie a acelui reglaj cu oprecizie de 20 de secunde, Ia un nivel de încredere de 95%? în aceastăproblemă, L = 20 şi amplitudinea variabilei măsurate este ^ = 22-10 = 12minute, astfel că:

a = A/4 = 12/4 = 3 minute = 180 secundeAcum îl putem obţine pe n:

H = %i s 0>96) 2 -180i = 31U2S30Q-L2 20 2

Prin urmare, psihologul trebuie să selecteze un eşantion aleatoriu deaproximativ 300 de muncitori pentru a estima durata medie de executare areglajului respectiv cu o precizie de 20 de secunde, la un nivel de încrederede 95%.

Să presupunem acum că se doreşte dublarea preciziei de la ±20 desecunde la 10 secunde, la acelaşi nivel de încredere. în acest caz avem:

n = •^ (1,96)2 -1802

= 1244,48 s 1244

Se observă că dimensiunea eşantionului creşte mai repede decâtprecizia: pentru a dubla precizia de la 20 de secunde la 10 secunde,dimensiunea eşantionului trebuie să crească de aproximativ patru ori.Această relaţie este importantă pentru planificarea costurilor unei cercetări.Eşantioanele impresionant de mari pot constitui o irosire de resurse fără uncâştig semnificativ în privinţa preciziei, în raport cu eşantioanele mai mici,deci mai ieftine.

Page 51: Statistica  aplicata in psihologie, Dumitru Gheorghiu

102

6.5.3. Determinarea dimensiunii eşantionului pentru estimareaproporţiilor

Am văzut că, practic, în construirea unui interval estimat pentruproporţii lucrăm cu formula

. Notând tot cu LAici, limita de eroare a estimării este Z

limita de eroare a estimării, avem ecuaţia:

L-Z

Ridicând la pătrat ambii membri, avem:

L2=Z, a/2'

Din această egalitate îl obţinem pe n:

0,25

Formula 6.8. n =ZCT

2/20,25

Să presupunem că un institut de sondare a opiniei publice doreşte săestimeze rezultatul unor alegeri prezidenţiale înăuntrul unei marje de eroarede ± 3 % . Cât de mare trebuie să fie eşantionul cerut pentru a asigura acestnivel de precizie la un nivel de încredere de 95%? Exprimând limita deeroare sub formă de proporţie, obţinem:

(1,96)2 0,25n =

(0,03)2= 1067,11 = 1000

Prin urmare, pentru a obţine o precizie (o limită de eroare a estimării)de ±3%, este nevoie de un eşantion de aproximativ 1000 de persoane.

Şi aici se poate uşor constata că dimensiunea eşantionului creşte mairepede decât precizia. Tabelul următor prezintă relaţiile dintre precizie şidimensiunea eşantionului pentru proporţii ale eşantioanelor:

103

Tabelul 6.3. Precizia şi dimensiunea eşantionului(a = 0,05, P = 0,5)

Precizia(mărimea intervalului)

±10%±7%

Precizia[mărimea intervalului)

±5%± 3 %±2%±1%

.ii

- 1- -

1

Dimensiunea aproximativăa eşantionului

100200

Dimensiunea aproximativăa eşantionului

400100024009600

Se poate observa, de pildă, că pentru a dubla precizia de la 10% la 5%,dimensiunea eşantionului trebuie să crească de patru ori.

Page 52: Statistica  aplicata in psihologie, Dumitru Gheorghiu

104

GLOSAR

Curba t: grafic al unei distribuţii t\ ca şi curba normală, curba t estesimetrică şi are formă de clopot cu ambele extremităţi extinse lainfinit; spre deosebire curba normală, forma exactă a curbei /depinde de dimensiunea eşantionului.

Distorsiune: criteriu folosit pentru selectarea unei mărimi statistice caestimator; o mărime statistică este nedistorsionată dacă mediaaritmetică a distribuţiei sale de eşantionare este egală cu mediaaritmetică a populaţiei de referinţă.

Distribuţia t: distribuţie teoretică ce descrie distribuţia de eşantionare amediilor aritmetice în cazul în care eşantioanele sunt mici (n < 30)şi valoarea lui a este necunoscută.

Eficienţă: criteriu folosit pentru selectarea unei mărimi statistice caestimator; o mărime statistică este cu atât mai eficientă cu câtdistribuţia de eşantionare este mai grupată în jurul mediei salearitmetice sau, altfel spus, cu cât este mai mică abaterea standard adistribuţiei de eşantionare.

Grade de libertate: concept care se referă la numărul de valori liberesă varieze într-o distribuţie.

Interval de încredere estimat: amplitudine de valori în care esteprobabil să se afle un parametru al populaţiei de interes.

Nivel alfa ( a ) : Probabilitatea ca un parametru să nu se afle în intervalulestimat sau, altfel spus, probabilitatea de eroare a estimării.

Nivel de încredere: probabilitatea ca intervalul estimat să conţinăparametrul de interes.

Proceduri de estimare: tehnici statistice în care pe baza unei statisticicalculate pentru un eşantion, numită estimator, se face o aprecieredespre parametrul corespunzător al populaţiei de referinţă.

Punct estimat: o singură valoare calculată pentru un eşantion şi folosităpentru a face o apreciere despre parametrul corespunzător alpopulaţiei de referinţă.

7. TESTAREA IPOTEZELORDESPRE O SINGURĂ POPULAŢIE

în acest capitol vom prezenta tehnici statistice de testare a ipotezelordespre o singură populaţie. într-un astfel de caz, pe baza unei statisticicalculate pentru un eşantion, cel mai adesea o medie aritmetică sau oproporţie, se trage o concluzie despre parametrul corespunzător alpopulaţiei de referinţă. Mai precis, cercetarea constă în alcătuirea unuieşantion aleatoriu din populaţia de referinţă, culegerea informaţiei relevante

, din eşantion, calcularea valorii unei statistici şi compararea acestei valori cuvaloarea presupusă a parametrului corespunzător. în aproape toate situaţiilede cercetare, vom găsi o anumită diferenţă între cele două valori, iartehnicile de testare a ipotezelor permit să se decidă dacă diferenţa este atâtde mare încât să justifice respingerea presupunerii făcute pentru populaţie.

Tehnicile de testare a ipotezelor pe care le vom prezenta în acestcapitol, precum şi în capitolele care urmează sunt teste despre valoareaparametrilor unei populaţii şi cer îndeplinirea unor condiţii sau supoziţiidespre populaţiile respective, cum este, în principal, normalitatea. Testelede acest fel se numesc teste parametrice.

7.1. TESTUL SCORURILOR Z PENTRU MEDII ARITMETICE

CÂND a ESTE CUNOSCUT

Vom prezenta acest test cu ajutorul unui exemplu, pe care îl vom folosişi pentru a introduce noţiunile fundamentale ale testelor parametrice:ipoteză de nul, ipoteză alternativă, statistică a testului şi regulă de decizie.Un cercetător presupune că, într-un anumit an, media aritmetică apunctajelor obţinute la examenul de rezidenţiat al medicilor este de 800.Pentru a testa această ipoteză, cercetătorul alcătuieşte un eşantion aleatoriude 130 de medici care şi-au susţinut rezidenţiatul în acel an şi constată că lanivelul acestui eşantion media aritmetică a punctajului obţinut este de 755.Prin investigaţii extensive, cercetătorul ştie că abaterea standard la nivelulpopulaţiei de referinţă este de aproximativ 143. Problema care se pune estedacă diferenţa dintre media aritmetică a eşantionului şi valoarea presupusăpentru populaţie este sau nu statistic semnificativă. Dacă răspunsul esteafirmativ, atunci ipoteza făcută poate fi respinsă. Dacă, însă, răspunsuleste negativ, atunci diferenţa poate fi pusă pe seama întâmplării, astfel încâtipoteza cercetătorului nu poate fi respinsă. După cum vom vedea, testul

Page 53: Statistica  aplicata in psihologie, Dumitru Gheorghiu

106 107

scorurilor Z permite determinarea matematică a înţelesului termenului„statistic semnificativ". Datele problemei sunt, deci, următoarele:

PopulaţieHH = 800a=152

EşantionJ = 755«=130

Am notat cu pH media aritmetică presupusă a populaţiei, pentru a odeosebi de media aritmetică efectivă a populaţiei, /u.

Ipoteza de nul, pe care o vom nota Ho, specifică o anumită valoarepentru parametrul respectiv. în general, ipoteza de nul despre mediaaritmetică a unei populaţii are forma:

HQ. fl=fiH

Denumirea de „ipoteză de nul" se justifică prin aceea că forma sa poatefi redată echivalent prin:

Ho: v -/uH = 0

In cuvinte, ipoteza de nul enunţă că nu există nici o diferenţăsemnificativă între valoarea efectivă a parametrului respectiv şi valoareapresupusă a acelui parametru. Dacă ipoteza de nul este adevărată, atuncidiferenţa dintre eşantion şi populaţie nu este semnificativă, putând fiatribuită întâmplării.

In mod obişnuit, cercetătorul este de părere că există o diferenţăsemnificativă între eşantion şi populaţie şi doreşte să respingă ipoteza denul ca neadevărată. Această opinie constituie ipoteza alternativă, pe care ovom nota cu Ha. Dacă cercetătorul nu are posibilitatea sau nu doreşte săprezică sensul diferenţei, atunci ipoteza alternativă ia forma

Ha- H*MH

Dacă, însă, sensul diferenţei dintre eşantion şi populaţie poate fi prezissau dacă cercetătorul este interesat doar de un singur sens al diferenţei,atunci ipoteza alternativă poate lua una dintre următoarele două forme:

Ha: M<MH

în cazul în care Ha are forma /u * JUH, se spune că testul este bilateralsau nedirecţional, iar în cazurile în care Ha are una dintre celelalte douăforme, se spune că testul este unilateral sau direcţional. Vom reveni laaceste noţiuni ceva mai departe. Să reţinem deocamdată că în orice test sedecide dacă se respinge sau nu se respinge ipoteza de nul, pe baza dovezilor

aduse în sprijinul ipotezei alternative. Astfel, dacă putem respinge Ho caneadevărată, atunci vom accepta Ha.

Revenind la exemplul nostru, ipoteza de nul este HQ\ pi = 800. Dinenunţul problemei rezultă că nu este vorba despre un sens al diferenţeimenţionate, astfel încât ipoteza alternativă este Ha: /u * 800.

Termenul statistică a testului se referă la formula a cărei aplicare întestul respectiv permite obţinerea unei valori ce formează baza decizieiasupra ipotezei de nul. Pentru mediile aritmetice, atunci când se cunoaştesau se poate aproxima valoarea lui a, statistica testului este dată deurmătoarea formulă:

Formula 7.1. Z =

Să notăm că această formulă este analoagă structural formulelor decalcul pentru scorurile Z „brute" (v. secţiunea 4.2), aici fiind vorba desprescorul Zal unei medii aritmetice. Ca atare, în numitorul formulei 7.1 apareabaterea standard a distribuţiei de eşantionare a X, astfel că aceastăformulă ne dă distanţa în abateri standard sau fracţiuni de abateri standard amediei aritmetice a eşantionului, X, faţă de valoarea presupusă pentrupopulaţie. în exemplul nostru, avem:

Z =X-\xH _ 755-800 -45 -45

= -3,36152/VÎ30 152/11,40 13,4

Din motive care vor deveni imediat evidente, vom desemna rezultatulaplicării formulei 7.1 prin Z (obţinut). Aici, Z (obţinut) = -3,36.

Regula de decizie se referă la o anumită amplitudine de valori pentrurezultatul statisticii testului, numită zonă critică sau zonă de respingere,care conduce la respingerea ipotezei de nul. în cazul testului scorurilor Zpentru medii aritmetice, zona critică se stabileşte cu ajutorul distribuţiei deeşantionare a X. Astfel, în exemplul de mai sus, eşantionul alcătuit esteunul dintre toate eşantioanele posibile cu n = 130 din populaţia de referinţă.Să presupunem că Ho este adevărată. Dacă s-ar calcula toate mediilearitmetice posibile, atunci teorema limitei centrale asigură următorulrezultat:

Page 54: Statistica  aplicata in psihologie, Dumitru Gheorghiu

108

755 = 800

în general, cu cât X este mai aproape de centru (diferenţa dintre X şi\ix = u este mai mică), cu atât vom fi mai înclinaţi să nu respingem

ipoteza de nul şi cu cât X este mai departe de centru (diferenţa dintre X şi\x j = u este mai mare), cu atât vom fi mai înclinaţi să respingem ipoteza

de nul. Cu alte cuvinte, ipoteza de nul poate fi respinsă dacă rezultatulstatisticii testului este un număr negativ „prea mare" sau un număr pozitiv„prea mare". înţelesul expresiei „prea mare" se fixează prin alegerea unuinivel de încredere sau nivel a (revedeţi capitolul anterior). în cazul ipotezeialternative de forma Ha: /u * fiH, nivelul a ales se împarte în mod egal încele două extremităţi ale distribuţiei de eşantionare:

a/2 a/2

Aria de sub -Zoii plus aria de peste +Zai2 reprezintă zona critică: dacăscorul Z corespunzător mediei aritmetice a unui eşantion cade în aceastăarie (i.e. sub -Z„/2 sau peste +Zaii), atunci media aritmetică respectivă areprin definiţie o probabilitate de apariţie mai mică decât a. Scorurile -Z«/2 şi

109

+Zaa se numesc scoruri Z critice şi se desemnează, respectiv, prin Zaa(critic) şi +Z„/2 (critic).

Să revenim la exemplul nostru şi să stabilim a = 0,05. Ştim că pentruaceastă valoare a lui a, Z^ = ±1,96. Z (obţinut) se află în zona critică(-3,36 < -1,96), după cum se ilustrează în figura următoare:

+1,96

-3,36Ca atare, suntem îndreptăţiţi să respingem ipoteza de nul:

probabilitatea de apariţie a mediei aritmetice a eşantionului considerat estemai mică decât 0,05, deci nu poate fi atribuită întâmplării. Cu alte cuvinte,diferenţa dintre media aritmetică a eşantionului şi media aritmeticăpresupusă pentru populaţie este statistic semnificativă (eşantionul derezidenţi diferă semnificativ de populaţia din care a fost selectat), astfelîncât ipoteza de nul poate fi respinsă.

De notat că decizia pe care am luat-o (respingerea ipotezei de nul)comportă un element de risc: poate fi greşită, întrucât este posibil caeşantionul considerat să fie unul dintre puţinele eşantioane nereprezentativepentru populaţia de medici rezidenţi. O trăsătură foarte importantă a testăriiipotezelor constă în aceea că probabilitatea de a lua o decizie greşită estecunoscută, fiind dată de nivelul a ales. în exemplul nostru, probabilitatea dea lua o decizie greşită este de 0,05. A spune că probabilitatea de a fi respinsgreşit ipoteza de nul este de 0,05 revine la a spune că, dacă am repeta acesttest de o infinitate de ori, vom respinge greşit Ho doar de 5 ori la fiecare 100de repetări. Rezultatul de mai sus poate fi enunţat şi spunând că diferenţamenţionată este statistic semnificativă la un nivel de încredere de 95%. Caşi pentru estimarea intervalelor, nivelurile de încredere folosite în modobişnuit în testarea ipotezelor sunt 90%, 95% şi 99%.

Page 55: Statistica  aplicata in psihologie, Dumitru Gheorghiu

110

Testul întreprins în acest exemplu este bilateral sau ne direcţional. îngeneral, într-un astfel de test, ipoteza alternativă enunţă doar că există odiferenţă între valoarea efectivă a parametrului respectiv şi valoareapresupusă pentru acel parametru. După cum am văzut, în cazul unui testbilateral, zona critică specificată de nivelul a se împarte în mod egal în celedouă extremităţi ale distribuţiei de eşantionare. într-un test bilateral,indiferent de nivelul a ales, regula de decizie este următoarea:

se respinge Ho, dacă Z (obţinut) +Zan (critic) sau dacă Z (obţinut)Zău (critic).

într-un test unilateral sau direcţional, dacă cercetătorul crede că valoa-rea efectivă a parametrului este mai mare decât valoarea presupusă, Ha iaforma fi > ţxH, iar pentru un test în sensul opus, Ha ia forma fi < fin- în cazulunui test unilateral, întreaga zonă critică specificată de nivelul a este plasatăîn extremitatea de interes a distribuţiei de eşantionare. De pildă, într-un testbilateral în care a = 0,05, zona critică începe de la Za / 2 (critic) = ±1,96.într-un test unilateral, la acelaşi nivel a, Za (critic) este +1,65 dacă este vorbadespre extremitatea superioară (dacă Ha este de forma fi > fiH) şi este -1,65dacă este vorba despre extremitatea inferioară (dacă Ha este de forma// </uH)\De notat că aici folosim Za în loc de Z„a, întrucât întreaga zonă critică esteplasată într-o singură extremitate a distribuţiei de eşantionare.

într-un test unilateral, indiferent de nivelul a ales, dacă Ha este deforma fi > fiH („test unilateral dreapta"), atunci regula de decizie este

se respinge Ho, dacă Z (obţinut) +Za (critic).

Dacă Ha este de forma fi < fiH („test unilateral stânga") atunci regula dedecizie este

se respinge Ho, dacă Z (obţinut) Za (critic).După cum rezultă şi din cele de mai sus, un test unilateral este mai

„bun" decât unul bilateral, deoarece zona critică este „trasă" mai aproape demedia aritmetică, îmbunătăţind astfel probabilitatea de a respinge Ho.Astfel, dacă cercetătorul are mai multă experienţă şi mai multe cunoştinţe înlegătură cu variabila investigată, atunci se recomandă folosirea unui testunilateral, ceea ce cere o ipoteză alternativă direcţională.

Se obişnuieşte ca testarea ipotezelor statistice să fie organizată subforma unui „model în n paşi", numărul de paşi diferind de la un autor la

1 Scădem 0,05 din 0,5 (proporţia de cazuri aflate de o parte şi de alta a mediei aritmeticea distribuţiei de eşantionare). Rezultaiul scăderii este 0,4500. Conform tabeluluidistribuţiei normale standard, scorul /corespunzător acestei proporţii este 1,65.

111

altul, în funcţie de anumite opţiuni de compactare sau de detaliere ainformaţiei. în cele ce urmează vom folosi un model în 4 paşi, pe care îlexemplificăm pentru problema tratată mai sus:

Pasul 1. Enunţarea ipotezelorHo: fi = 800Ha: fi * 800

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zoneicritice

Distribuţia de eşantionare = Distribuţia Za = 0,05 (test bilateral)

ZQ/2 (critic) = ±1,96(Zona critică este notată prin scorurile Z care îi marchează

începuturile.)

Pasul 3. Calcularea statisticii testuluiX - \iH _ 755 - 800 _ - 4 5 _ -_45_ _ _ 3 3 6

T~^ ~ 152/VÎ30 ~ 152/11,40 " 13,4 " '

Pasul 4. Luarea decizieiîntrucât Z (obţinut) se află în zona critică (-3,36 < -1,96), ipoteza de

nul poate fi respinsă. Diferenţa dintre eşantionul de medici rezidenţi şipopulaţia de referinţă nu poate fi atribuită întâmplării sau, altfel spus,această diferenţă este statistic semnificativă (la un nivel de încredere de

Pentru a ilustra aplicarea unui test unilateral, să presupunem căcercetătorul din exemplul de mai sus doreşte să testeze ipoteza că mediaaritmetică a populaţiei de rezidenţi este mai mică decât 800, toate celelaltedate fiind aceleaşi. în acest caz, cercetătorul este interesat doar deextremitatea stângă a distribuţiei de eşantionare şi va plasa întreaga zonăcritică în această extremitate. în termenii modelului în patru paşi, testuldecurge după cum urmează:

Pasul 1. Enunţarea ipotezelorHo: fi = 800Ha: fi < 800

Page 56: Statistica  aplicata in psihologie, Dumitru Gheorghiu

112

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zoneicritice

Distribuţia de eşantionare = Distribuţia Za - 0,05 (test unilateral stânga)

Za (critic) = -1,65

Pasul 3. Calcularea statisticii testului

z X - y i H 7 5 5 - 8 0 0 - 4 5 - 4 5 3 3 6

= = =

n 152/VT30" 152/11,40 13,4

Pasul 4. Luarea decizieiîntrucât Z (obţinut) se află în zona critică (-3,36 < -1,65), ipoteza de

nul poate fi respinsă şi se poate accepta că media aritmetică a populaţiei derezidenţi este mai mică decât 800 (la un nivel de încredere de 95%).

7.2. ERORI ÎN TESTAREA IPOTEZELOR

Atunci când decidem să respingem sau să nu respingem ipoteza de nul,sunt posibile patru situaţii, descrise în figura următoare:

Se respinge Ho

Nu se respinge

//0 adevăratăEroare de

tipul I

Decizie corectă

Mo falsăDecizie corectă

Eroare detipul 11

Figura 7.1. Rezultatele unui test al ipotezelor

După cum se indică în figura 7.1, Ho este în realitate adevărată saufalsă şi sunt posibile două decizii: se respinge Ho sau nu se respinge HQ. Caatare, sunt posibile două decizii corecte: respingerea unei ipoteze de nulfalse şi nerespingerea unei ipoteze de nul adevărate. Corespunzător, suntposibile două decizii greşite: respingerea unei ipoteze de nu! care esteadevărată, numită eroare de tipul I, şi nerespingerea unei ipoteze de nulcare este falsă, numită eroare de tipul II. Probabilitatea de a comite oeroare de tipul I este desemnată prin a, iar probabilitatea de a comite oeroare de tipul II este desemnată prin 8.

Probabilitatea de a comite o eroare de tipul I este determinată denivelul a ales. Astfel, atunci când se alege un nivel ec, distribuţia de

113

eşantionare este împărţită în două mulţimi de rezultate ale eşantioanelorposibile: zona critică, ce include toate rezultatele definite ca improbabilesau rare şi care îndreptăţesc respingerea HQ, şi zona necritică, ce constă întoate rezultatele definite drept „non-rare". Cu cât nivelul a este mai mic, cuatât este mai mică zona critică şi, corespunzător, este mai mare distanţadintre media aritmetică a distribuţiei de eşantionare şi începuturile (în cazulunui test bilateral) sau începutul (în cazul unui test unilateral) zonei critice.De pildă, dacă se alege a = 0,05, probabilitatea de a comite o eroare de tipul1 este de 0,05: dacă Ho este respinsă, există 5 şanse din 100 ca aceastădecizie să fie greşită; dacă a - 0,01, probabilitatea de a comite o eroare detipul I este de 0,01: dacă Ho este respinsă, există doar 1 şansă din 100 caaceastă decizie să fie greşită. Prin urmare, pentru a minimiza probabilitateade a comite o eroare de tipul I, trebuie să folosim niveluri a foarte mici.

Pe de altă parte, cu cât nivelul a este mai mic, cu atât este mai marezona necritică şi, păstrând celelalte date constante, este mai puţin probabilca rezultatul obţinut pe eşantion să cadă în zona critică, deci este mai mareprobabilitatea de a comite o eroare de tipul II.

Prin urmare, cele două probabilităţi sunt invers proporţionale, nefiindposibil să le minimizăm pe amândouă: dacă alegem un nivel a foarte micpentru a minimiza probabilitatea de a comite o eroare de tipul I, creşteprobabilitatea de a comite o eroare de tipul II. Cu alte cuvinte, dacă creştemdificultatea de a respinge ipoteza de nul, probabilitatea de a nu respinge:ipoteza de nul atunci când aceasta este falsă creşte. în mod normal, înştiinţele omului se doreşte minimizarea probabilităţii erorii de tipul I.socotită a fi mai gravă decât eroarea de tipul 11, astfel încât se aleg valorimici pentru a.

în tabelul următor sunt prezentate câteva scoruri Z critice pentru nive-luri a mai des folosite, atât pentru teste bilaterale, cât şi pentru testeunilaterale:

Tabelul 7.1. Scoruri Z critice

Niveluri a ji tesrt bilateral

Niveluri a,test unilateral

0,20

0^05

0,100,05

Scoruri Z_ cntice.

1,291,65

70,01 | 0,005_ 2,58

Page 57: Statistica  aplicata in psihologie, Dumitru Gheorghiu

114

De regulă nivelul a = 0,05 este considerat drept un indicator bun alunui rezultat semnificativ.

7.3. TESTAREA IPOTEZELOR PENTRU MEDII ARITMETICECÂND <T ESTE NECUNOSCUT

Ca şi în privinţa estimării intervalelor, în aproape toate situaţiile realede cercetare, valoarea abaterii standard a populaţiei este necunoscută. Şiaici vom distinge două cazuri: cazul în care dimensiunea eşantionului estemare, ceea ce înseamnă eşantioane cu n > 30, şi cazul n < 30. în cazuleşantioanelor cu n > 30, a se poate estima prin s, iar în pasul 3 se foloseşteurmătoarea formulă:

Formula 7.2. Z = X ^

115

Această formulă diferă de formula 7.1 prin aceea că a este înlocuit cus, iar n este înlocuit cu n - 1 pentru a se corecta distorsiunea lui s.

In cazul eşantioanelor cu n < 30, distribuţia de eşantionare estedistribuţia /-Student, prezentată în capitolul 6, iar în pasul 3 se foloseşteurmătoarea formulă:

Formula 7.3. t = X J

Vom spune că este vorba despre testul scorurilor t pentru mediiaritmetice şi vom desemna rezultatul aplicării formulei 7.3 prin t (obţinut).

Un cercetător primeşte informaţia neverificată conform căreia mediaaritmetică a coeficientului de inteligenţă al participanţilor la fazelenaţionale ale olimpiadelor de matematică din ultimii 10 ani este deaproximativ 120. Pentru a testa această ipoteză, cercetătorul selectează uneşantion aleatoriu de 20 de olimpici la matematică din ultimii 10 ani şiconstată că media aritmetică a coeficientului de inteligenţă la niveluleşantionului este de 123, abaterea standard la nivelul eşantionului fiind de8. Cercetătorul este interesat să determine la un nivel de încredere de 99%dacă media aritmetică a coeficientului de inteligenţă al participanţilor lafazele naţionale ale olimpiadelor de matematică din ultimii 10 ani este maimare de 125. Datele problemei sunt, deci, următoarele:

Populaţie ~j~ Eşantion/%=125 X--

CT=8 S

I n -

= f23"Q

— s= 20

Pasul 1. Enunţarea ipotezelor

=125> 125

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zoneicritice

Distribuţia de eşantionare = Distribuţia ta = 0,01 (test unilateral dreapta)

g/ = 2 0 - 1 = 19ta (critic) = +2,539

Pasul 3. Calcularea statisticii testului

= + 1 Q 9

8/VT9 8/4,36

Pasul 4. Luarea decizieiîntrucât t (obţinut) nu cade în zona critică (+1,09 < +2,539),

cercetătorul nu poate respinge ipoteza de nul. Pe baza mediei aritmetice aeşantionului nu se poate conchide la un nivel de încredere de 99% că mediaaritmetică a coeficientului de inteligenţă al participanţilor la fazele naţio-nale ale olimpiadelor de matematică din ultimii 10 ani este mai mare de120. Rezultatul acestui test este prezentat grafic în figura următoare:

2,539

în cazul folosirii distribuţiei t ca distribuţie de eşantionare, regulile dedecizie au aceeaşi structură cu cele ale testului scorurilor Z. Astfel, într-untest bilateral, indiferent de nivelul a ales şi de numărul de grade de libertate,regula de decizie este următoarea:

Page 58: Statistica  aplicata in psihologie, Dumitru Gheorghiu

116

se respinge Ho, dacă t (obţinut) > +ta/2 (critic) sau dacă t (obţinut) < -tan(critic).

într-un test unilateral dreapta (ju > //#), regula de decizie este:

se respinge Ho, dacă t (obţinut) > +ta (critic).

în fine, într-un test unilateral stânga (ju < /uH), regula de decizie este:

se respinge Ho, dacă t (obţinut) < -ta (critic).

7.4. TESTUL SCORURILOR Z PENTRU PROPORŢII

Atunci când variabila de interes nu este de interval sau de raport, astfelîncât să se justifice calcularea mediei aritmetice, se poate utiliza proporţiaeşantionului (p) în loc de media aritmetică. în cele ce urmează, prezentămun test al ipotezelor pentru proporţii, aplicabil în cazul eşantioanelor pentrucare np > 5 şi «(1 -p) > 5.

în acest test, formula de calcul pentru Z (obţinut) are aceeaşi structurăcu formula 7.1: Z (obţinut) este egal cu mărimea pentru eşantion minusvaloarea presupusă pentru parametrul corespunzător, totul de împărţit laabaterea standard a distribuţiei de eşantionare. Din capitolul anterior, ştimcă proporţiile pentru eşantioane (p) au distribuţii de eşantionare aproximativnormale, cu media aritmetică (jup) egală cu proporţia pentru populaţie (P) şiabaterea standard (ap) egală cu ^ ( l - P)/n . Teoretic, formula de calcul altestului scorurilor Z pentru proporţii este următoarea:

Formula 7.4. Z = P~ H

unde PH este proporţia presupusă pentru populaţie. Acum, valoareaproporţiei pentru populaţie, P, nu este cunoscută. Ca şi în cazul estimăriiintervalelor pentru proporţii, putem estima valoarea lui P prin/?, lucrând cuformula următoare:

Formula 7.5. Z = P~FH

Să considerăm un exemplu. Se pretinde că aproximativ 10% dinstudenţii unei mari universităţi sunt căsătoriţi. Pentru testarea acesteiipoteze, se selectează un eşantion aleatoriu de 200 de studenţi de launiversitatea respectivă şi se constată că 24 de studenţi din eşantion suntcăsătoriţi. în baza acestui rezultat, se poate spune la un nivel de încrederede 95% că mai mult de 10% din studenţi sunt necăsătoriţi? Dateleproblemei sunt următoarele:

117

PorJulatie Eşantion |

Folosind formula 7.5, testul decurge după cum urmează:

Pasul 1. Enunţarea ipotezelor

H0:P = 0,\QHa:P >0,10

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zoneicritice

Distribuţia de eşantionare = Distribuţia Za = 0,05 (test unilateral dreapta)

Z„ (critic) = +1,65

Pasul 3. Calcularea statisticii testuluip-PH 0,12-0,10

z = 0,02

•yjp(\ - p)/n ^0,12(1-0,12)/3 00 0,0188= +1,06

Pasul 4. Luarea decizieiîntrucât Z (obţinut) nu cade în zona critică (+1,06 < +1,65), ipoteza de

nul nu poate fi respinsă. La nivelul de încredere de 95% nu se poate spunecă mai mult de 10% din studenţi sunt necăsătoriţi.

Page 59: Statistica  aplicata in psihologie, Dumitru Gheorghiu

GLOSAR

Eroare de tipul I: respingerea unei ipoteze de nul care este adevărată;probabilitatea de a comite o eroare de tipul I este desemnată prin a.

Eroare de tipul II: nerespingerea unei ipoteze de nul care este falsă; probabilitateade a comite o eroare de tipul II este desemnată prin 6.

Ipoteză alternativă: în contextul statisticilor inferenţiale, ipoteză care enunţă căexistă o diferenţă între valoarea efectivă a unui parametru şi valoarea presupusăpentru acel parametru; dacă sensul diferenţei poate fi prezis, ipoteza alternativăeste direcţională, în caz contrar este nedirecţională.

Ipoteză de nul: în contextul statisticilor inferenţiale, ipoteză care enunţă că nuexistă nici o diferenţă semnificativă între valoarea efectivă a unui parametru şivaloarea presupusă a acelui parametru.

Regulă de decizie: enunţ referitor la o anumită amplitudine de valori pentrurezultatul statisticii testului, numită zonă critică sau zonă de respingere, careconduce la respingerea ipotezei de nul.

Statistică a testului: formula a cărei aplicare în testul respectiv permite obţinereaunei valori ce formează baza deciziei asupra ipotezei de nul.

Teste parametrice: teste statistice despre valoarea parametrilor unei populaţii, carecer îndeplinirea unor condiţii sau supoziţii despre populaţiile respective, cumeste, în principal, normalitatea.

Test bilateral: test statistic în care ipoteza alternativă este nedirecţională.Test unilateral: test statistic în care ipoteza alternativă este direcţională.

8. TESTAREA IPOTEZELOR DESPRE DIFERENŢELEDINTRE DOUĂ POPULAŢII

Problema de cercetare abordată în capitolul 7 viza semnificaţiadiferenţei dintre valoarea unei statistici (medie aritmetică sau proporţie)calculată pentru un eşantion şi valoarea presupusă a parametruluicorespunzător al populaţiei de referinţă. în acest capitol vom prezentaprocedee de testare a ipotezelor privind diferenţele dintre mediile aritmeticea două populaţii, pi\ - fi2, şi dintre proporţiile a două populaţii, P\ - Pi.Problema centrală în acest caz poate fi formulată după cum urmează:diferenţa dintre două eşantioane sub aspectul variabilei de interes estesuficient de mare pentru a putea conchide, cu o probabilitate de eroarecunoscută, că populaţiile reprezentate de eşantioane sunt diferite subaspectul variabilei respective?

Toate testele statistice prezentate în continuare sunt aplicabile subsupoziţia că eşantioanele selectate aleatoriu din cele două populaţii dereferinţă sunt independente. Două eşantioane sunt independente dacăselectarea cazurilor pentru un eşantion nu influenţează selectarea cazurilorpentru celălalt eşantion. Astfel, testele prezentate în acest capitol nu pot fiaplicate atunci când între cele două eşantioane există o dependenţă de vreunfel sau altul, de pildă în situaţiile experimentale în care aceiaşi subiecţi sunttestaţi înainte şi după aplicarea unui tratament.

8.1. TESTUL SCORURILOR Z PENTRU DIFERENŢADINTRE DOUĂ MEDII ARITMETICE

Testul expus în această secţiune este aplicabil dacă, pe lângăindependenţa eşantioanelor, sunt satisfăcute următoarele două condiţii:(i) nivelul de măsură al variabilei de interes este de interval sau de raport şi(ii) cele două eşantioane sunt relativ mari, ceea ce înseamnă n\ > 30 şi n2 > 30.

Distribuţia de eşantionare la care ne vom referi în continuare estedistribuţia de eşantionare a diferenţelor dintre mediile aritmetice aleeşantioanelor, despre care se demonstrează că este normală dacă distribu-ţiile de eşantionare separate ale mediilor aritmetice ale eşantioanelor suntnormale. Teorema limitei centrale garantează că aceste distribuţii de eşan-tionare aproximează cu atât mai bine normalitatea cu cât dimensiunile eşan-tioanelor sunt mai mari. Astfel, atunci când eşantioanele sunt mari, pentrudescrierea acestei distribuţii de eşantionare se poate folosi distribuţia Z.

Page 60: Statistica  aplicata in psihologie, Dumitru Gheorghiu

120

Ipoteza de nul este şi în acest caz un enunţ de tipul „nici o diferenţă",numai că este vorba despre diferenţa dintre două populaţii sub aspectulvariabilei de interes. Astfel, forma ipotezei de nul este Ho: fi] = fi2 sau,echivalent, Ho: fi] - /u2 = 0.

Ipoteza alternativă corespunde tipului de test, bilateral sau unilateral,intenţionat de cercetător. Pentru un test bilateral, ipoteza alternativă este deforma HCI: fi] * fi2. Dacă testul este unilateral, atunci ipoteza de nul poate luauna dintre următoarele două forme:

Ha.fi] >fl2;

Halfi] <M2',Prima formă corespunde unui test unilateral în care întreaga zonă

critică este plasată în extremitatea dreaptă a distribuţiei de eşantionare, iarcea de-a doua formă corespunde unui test unilateral în care întreaga zonăcritică este plasată în extremitatea stângă a distribuţiei de eşantionare. Dacărezultatul statisticii testului cade în zona critică, atunci ipoteza de nul poatefi respinsă, fiind acceptată ipoteza diferenţei sub aspectul variabilei de interes.

Teoretic, formula de calcul al testului scorurilor Z pentru diferenţadintre două medii aritmetice este următoarea:

Formula 8.1. Z = ^ i~ 2)-(. ui-P-2lax, - x2

în care Xx - X2 = diferenţa dintre mediile aritmetice ale eşantioanelor;fi]-fi2 ~ diferenţa dintre mediile aritmetice ale populaţiilor;axx -x2 = abaterea standard a distribuţiei de eşantionare a diferen-

ţelor dintre mediile aritmetice ale eşantioanelor.

în formula 8.1, cel de-al doilea termen al numărătorului, fi] - fi2, estenecunoscut. Acest termen se reduce însă Ia zero, întrucât testul are loc subpresupunerea că ipoteza de nul, fi] - fi2 = 0, este adevărată. Mai departe,pentru eşantioane mari, distribuţia de eşantionare a diferenţelor dintremediile aritmetice ale eşantioanelor se defineşte astfel:

a, o •ax, - x-, = . ni

întrucât valorile abaterilor standard ale populaţiilor, o\ şi a2, nu suntaproape niciodată cunoscute, se utilizează abaterile standard ale eşantioa-nelor, cu corecţiile corespunzătoare pentru distorsiune. Astfel, formula

121

folosită pentru estimarea abaterii standard a distribuţiei de eşantionare înaceastă situaţie este următoarea:

Formula 8.2. ax, -x? =. ln, - l n,-lPrin urmare, vom lucra practic cu formula următoare pentru Z

(obţinut):

Formula 8.3. Z = , Xx~Xl =

\nx-\ « 2 - lCa şi până acum, vom considera un exemplu. Un cercetător presupune

că bărbaţii şi femeile diferă sub aspectul capacităţii de a rezolva probleme.Pentru a verifica această ipoteză, cercetătorul alcătuieşte un eşantionaleatoriu de 127 de subiecţi şi le administrează un test de rezolvare deprobleme. Eşantionul este apoi împărţit în două subeşantioane după criteriulsex, iar mărimile statistice sunt calculate pentru fiecare subeşantion, dateleobţinute fiind următoarele:

Eşantion 1 i Eşantion 2(bărbaţi) [ (f?I5£il_Xx = 65 I X2= 62sx= 12 | 52_zil_„«i = 65 | «2

= 62

Presupunând că testul de rezolvare de probleme furnizează date deinterval sau de raport, se poate aplica testul scorurilor Z pentru semnificaţiadiferenţei dintre două medii aritmetice. Se poate observa că scorul mediu aleşantionului 1 este mai mare decât cel al eşantionului 2. Prin aplicareatestului menţionat se poate afla dacă această diferenţă este suficient de marepentru a îndreptăţi concluzia că există o diferenţă semnificativă între bărbaţişi femei sub aspectul capacităţii de a rezolva probleme şi nu o intervenţie aunor factori întâmplători.

Pasul 1. Enunţarea ipotezelorHo: fi] = M2

Page 61: Statistica  aplicata in psihologie, Dumitru Gheorghiu

122 123

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zoneicritice

Distribuţia de eşantionare = Distribuţia Za = 0,05 (test bilateral)

Za/2 (critic) = ±1,96

Pasul 3. Calcularea statisticii testului

Z =2,33

= +1,29

Pasul 4. Luarea decizieiîntrucât Z (obţinut) se află în zona critică (+1,29 > +1,96), ipoteza de

nul poate fi respinsă, ceea ce reprezintă o dovadă în sprijinul ipotezei căbărbaţii şi femeile diferă sub aspectul capacităţii de a rezolva probleme.Decizia de a respinge ipoteza de nul are o probabilitate de doar 0,05 de a figreşită.

8.2. TESTUL SCORURILOR t PENTRU DIFERENŢADINTRE DOUĂ MEDII ARITMETICE

Atunci când abaterile standard ale populaţiilor nu sunt cunoscute şieşantioanele sunt mici (nx < 30 sau/şi n2 < 30), distribuţia de eşantionarefolosită este distribuţia ^-Student, cu n\ + n2 - 2 grade de libertate. Teoretic,formula de calcul al testului scorurilor / pentru diferenţa dintre două mediiaritmetice este următoarea:

Formula 8.4. / = ( ^ ' ~Xţ}~^ ~ ^ )crx, - x2

Ca mai sus, termenul /ux - /u2 se reduce la zero, întrucât testul are locsub presupunerea că ipoteza de nul, juy - fi2 = 0, este adevărată. în cazultestului prezentat în această secţiune, formula folosită pentru estimareaabaterii standard a distribuţiei de eşantionare este următoarea:

Formula 8.5. axx - x2 =

Astfel, pentru a afla valoarea lui t (obţinut) vom folosi următoareaformulă:

Formula 8.6. t -+n2s\

- 2

Este important de notat că testul scorurilor t pentru două medii aritmeticepoate fi folosit doar dacă cele două populaţii sunt egal dispersate sau, altfelspus, au abaterile standard egale (o\ = a2). Această condiţie este necesară pentrua justifica supoziţia de normalitate a distribuţiei de eşantionare şi a estimaabaterea standard a acesteia. Egalitatea dispersiilor poate fi testată formal .Pentru scopuri practice, putem considera că supoziţia o\ = a2 este satisfăcută înmăsura în care eşantioanele au dimensiuni apropiate2.

Un cercetător presupune că o anumită metodă modernă de predare amatematicii conduce la rezultate mai bune decât metodele tradiţionale.Pentru a verifica această ipoteză, cercetătorul alcătuieşte un eşantion alea-toriu de 25 de elevi, pe care îl împarte aleatoriu în două grupe. Un grup de12 elevi este repartizat într-o clasă în care matematica este predată dupămetoda modernă, iar celălalt grup de 13 elevi este repartizat într-o clasă încare matematica este predată după metode tradiţionale. După un an, ambelegrupuri primesc acelaşi test la matematică, obţinând următoarele rezultate:

Grupul 1(m. modernă)

J , = 8,805, = 1,70«, = 12

Grupul 2(mL tradiţională^

X2 = 8,20

«2=13

Mediile aritmetice ale grupurilor diferă în sensul prezis (ji\ > fi2)-Aplicarea testului t arată dacă această diferenţă este sau nu statisticsemnificativă. Fie a = 0,05.

Pasul 1. Enunţarea ipotezelor

' Vezi, de pildă, Hinlcle, Wiersma şi Jurs, 1988, p. 280-284.2 Vezi Healey, 1984.

Page 62: Statistica  aplicata in psihologie, Dumitru Gheorghiu

124

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zoneicritice

Distribuţia de eşantionare = Distribuţia ta = 0,05 (test unilateral)

g/= 12 + 1 3 - 2 = 23/„(critic) = +1,714

Pasul 3. Calcularea statisticii testuluiXA-X2 _ 8,80-8,20

n, + n1 - 2

12(l,70)2+13(l,20)2

0,6023

0,601,52 + 0,4 ~ 1,92

0,60= +0,31

Pasul 4. Luarea decizieiîntrucât t (obţinut) nu se află în zona critică (+0,31 < +1,714), ipoteza

de nul nu poate fi respinsă la un nivel de încredere de 95%. Diferenţa dintrecele două grupuri nu este statistic semnificativă.

8.3. TESTUL SCORURILOR Z PENTRU DIFERENŢADINTRE DOUĂ PROPORŢII

Testul scorurilor Z pentru semnificaţia diferenţei dintre două proporţiieste aplicabil atunci când eşantioanele sunt mari («| > 30 şi n2 ^ 30) şi esteasemănător cu testul pentru medii aritmetice. Ipoteza de nul enunţă că nuexistă nici o diferenţă semnificativă între populaţiile din care sunt alcătuiteeşantioanele, ipoteza alternativă putând fi direcţională sau non-direcţională.

Teoretic, formula de calcul al testului scorurilor Z pentru diferenţadintre două proporţii este următoarea:

Formula 8.7. Z lvp\ - Pi

în careţi -pi = diferenţa dintre proporţiile eşantioanelor;P\ - P2 = diferenţa dintre proporţiile populaţiilor;<rp\ - Pi- abaterea standard a distribuţiei de eşantionare a diferen-

ţelor dintre proporţiile eşantioanelor.

125

Ca şi pentru medii aritmetice, cel de-al doilea termen al numărătorului,P\ - P2, se reduce la zero, întrucât testul are loc sub presupunerea căipoteza de nul, P\ - P2 = 0, este adevărată. Formula folosită pentruestimarea abaterii standard a distribuţiei de eşantionare este următoarea:

Formula 8.8. apl-p2 =-JP*(\-P*)- p -

Cantitatea P* se numeşte estimare combinată a proporţiilor pentrucele două populaţii şi este dată de următoarea formulă:

Formula 8.9. />* =

Prin urmare, pentru a afla valoarea lui Z (obţinut) vom folosiurmătoarea formulă:

P1-P2Formula 8.10. Z =

Să presupunem că au fost alcătuite două eşantioane de studenţi, unul de83 de studenţi de la Universitatea A şi celălalt de 103 studenţi de laUniversitatea B, fiecare student fiind chestionat în legătură cu problemainterzicerii avorturilor şi clasificat într-una dintre categoriile: De acord.,împotrivă, Nedecis. Proporţia studenţilor care s-au declarat de acord cuinterzicerea avorturilor a fost de 0,34 în primul eşantion (̂ 4) şi de 0,25 în celde-al doilea (B). Există o diferenţă semnificativă între studenţii celor douăuniversităţi sub acest aspect?

Eşantion 1

! n, = 83

Eşantion 2|j £?. =..0,251 «,= 103

Pasul 1. Enunţarea ipotezelorH0:P]=P2

Ha: Px * P2

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zonei criticeDistribuţia de eşantionare = Distribuţia Z

a = 0,05 (test bilateral)Za/2 (critic) = ±1,96

Page 63: Statistica  aplicata in psihologie, Dumitru Gheorghiu

126

Pasul 3. Calcularea statisticii testuluip' -n\P\+niPi _ 83(0,34) + 103(0,25) 28,22 + 25,75 53,97

»i+«2 83 + 103 186 ~

Z- Pi ~P2 0,34-0,25186

0,09

= 0,29

n i n

70,29(1-0,29).i n 2

0,07= +1,29

83103

Pasul 4. Luarea decizieiîntrucât Z (obţinut) nu cade în zona critică (+1,29 < +1,69) nu se poate

respinge ipoteza de nul. Studenţii de la cele două universităţi nu diferăsemnificativ în privinţa acordului cu interzicerea avorturilor.

GLOSAR

Eşantioane aleatorii independente: eşantioane aleatorii alcătuite în aşa fel încâtî î T f T 1 0 1 ' ^^ " " e Ş a" t i O n " " M u e n ţ e a z ă s e l e c t a rea cazurilor pentru

9. ANALIZA DE VARIANTĂ (ANOVA)

Am expus până acum proceduri pentru testarea ipotezelor privind opopulaţie sau două populaţii. în acest capitol vom expune o procedură detestare a ipotezei conform căreia mediile aritmetice ale k populaţii (k > 2)sunt egale. Această procedură este numită analiza de variantă (ANOVA1).Ipoteza de nul testată în ANOVA are următoarea formă:

H0:fil=ju2:= ... =/J„

Conform ipotezei alternative, Ha, cel puţin o medie aritmetică diferă decelelalte.

9.1. ANOVA PENTRU O VARIABILĂ INDEPENDENTĂ

Un cercetător presupune că subiecţii supuşi unui interviu vor furniza cuatât mai multe informaţii cu caracter personal cu cât se află mai aproape deintervievator. Pentru a verifica această presupunere, cercetătorul efectueazăun experiment la care participă 15 subiecţi. Fiecare subiect primeşteaceleaşi întrebări de la acelaşi intervievator. Variabila independentă (A) estedistanţa faţă de intervievator, cu următoarele categorii: mică (0,5 metri),medie (1,5 metri), mare (2 metri). Pentru a fi intervievaţi, subiecţii suntrepartizaţi aleatoriu într-una dintre cele trei categorii ale variabileiindependente. Variabila dependentă (E) este numărul de răspunsuri cucaracter personal date de subiect. Datele obţinute, împreună cu mărimilenecesare pentru ANOVA, sunt prezentate în următorul tabel:

Tabelul 9.1. Calcule iniţiale pentru ANOVA, o variabilă independentă

Distanţa faţă de intervievatorMică

3324312934

Medie2125192726

Mare2013151014

' Prescurtarea uzuală de la denumirea procedurii în limba engleză: „Analysis ofVariance".

Page 64: Statistica  aplicata in psihologie, Dumitru Gheorghiu

123

Micăr,= 151

«, = 5Jf, = 30,20

TX,2 =4623

T2 =22801

Distanta fată de intervievatorMedie

r2=118« 2 -5

X2 =23,60

LX\ = 2832

T22 = 13294

Marer 3 = 72«3 = 5

X3 = 14,40

l J 32 = 1090

T32 =5184

Pentru fiecare grup /, T, este totalul scorurilor individuale, «, estenumărul de subiecţi, X,• este media aritmetică a scorurilor, i7X ( este suma

pătratelor scorurilor individuale, iar T2 este pătratul totalului scorurilor. Denotat că grupurile obţinute sunt independente, precum şi că formulele decalcul care urmează sunt aplicabile şi în cazul în care este vorba despre unnumăr diferit de subiecţi în fiecare grup.

în ANOVA, pentru o variabilă independentă se consideră două sursede variaţie: (i) variaţia mediilor aritmetice ale grupurilor şi (ii) variaţiadatorată diferenţelor dintre subiecţii din fiecare grup, care poate fi atribuităprocesului de eşantionare. Pentru început, se calculează trei sume depătrate ale abaterilor faţă de medie sau, pe scurt, sume de pătrate. Vomdesemna generic prin SS aceste sume de pătrate2: (1) SSTOTAL - sumapătratelor abaterilor fiecărui scor individual faţă de media aritmetică atuturor scorurilor, numită şi marea medie; (2) SSA - suma pătratelorabaterilor fiecărei medii de grup faţă de marea medie; (3) SS^OARI; - sumapătratelor abaterilor fiecărui scor individual faţă de media aritmetică agrupului respectiv. Litera ,y4" din SSA arată că lucrăm cu variantasistematică a variabilei independente A. SSA reflectă prima sursă de variaţie,iar SSKROAM; pe cea de-a doua.

Putem calcula aceste abateri direct pe baza datelor din tabel. întrucâtastfel de calcule sunt greoaie, vom utiliza formule simplificate.

C2

Formula 1. SSTOTAL = S ^ 2

în care IX2 = suma pătratelor scorurilor individuale ale tuturorsubiecţilor din experiment = LX2 + EX2 ZX2;

G - pătratul totalului tuturor scorurilor = (f, + T2 + T3)2 .

Prescurtarea uzuală de la denumirea din limba engleză „Sum of squares".

129

N= numărul total de sybiecţi din experiment.

Dacă se efectuează calculele pe hârtie sau cu un calculator de buzunar,este convenabil să se afle mai întâi LX pentru scorurile din fiecare grup,aşa cum am făcut în tabelul de mai sus, după care să se adune aceste sume.Aplicăm formula 1:

s sTOTAL = = (4623 + 2823 +1090) -

N

(151 + 118 + 72)2

15= 8545-7752,07 = 792,93

Atunci când calculăm SSTOTAL este recomandabil să reţinem termeniidiferenţei, 8545 şi 7752,07, pe care îi vom folosi pentru simplificareacalculelor ulterioare.

Odată ce am calculat SSTOTAL, putem calcula SSA după următoareaformulă:

Formula 2. SSĂ = E — • ^n

în această formulă, 7} este un simbol general pentru Tu T2 şi T3, iar n,este un simbol general pentru nu n2 şi n3. Astfel, odată ce cantitatea T2 jni

este calculată pentru fiecare grup, cantităţile sunt adunate, după cum aratăsimbolul I. Să notăm că a doua parte a formulei 2, G2/N, a fost dejacalculată, atunci când am obţinut SSTOTAL, aşa că vom prelua directrezultatul respectiv în calculul SSA:

T2 G2 (T2 r? Tl\ r?2

n,• n \ n.

' i T22 f{

1 - + -+- + -!• N

118Z 72'- 7752,07 = 8381,80 - 7752,07 = 629,73

Şi aici vom reţine unul dintre termenii diferenţei, şi anume 8381,80, pecare îl vom folosi pentru calculul SSEROARE, după următoarea formulă:

T2

Formula 3. SSEROARE = £ X 2 - £ —«/

Ambele cantităţi cerute de această formulă au fost calculate anterior,când am obţinut SSTOTAL şi, respectiv, SSA, aşa că vom prelua directrezultatele respective în calculul SSEROARE'-

Page 65: Statistica  aplicata in psihologie, Dumitru Gheorghiu

130

EROARE - = 8545-8381,80 = 163,20

De notat că SSTOTAL = SSA + SSEROARE- Această relaţie poate fi utilizatăpentru a controla corectitudinea calculelor.

Pasul următor în calculul ANOVA constă în calcularea a două mediiaritmetice ale sumelor de pătrate ale abaterilor faţă de medie sau, pescurt, medii aritmetice ale sumelor de pătrate. Vom desemna generic prinMS aceste medii3: (1) MSA - media aritmetică pentru SSA, numită variantasistematică, şi (2) MSF,ROARE - media aritmetică pentru SSEROARE, numităvarianta de eroare.

CC

Formula 4. MSA = —-=-

în această formulă, k este numărul de grupuri, k - 1 fiind numărul degrade de libertate asociate SSA, pe care îl vom nota în continuare cu glA.

629,73

Formula 5. MSEROAM =

= 314,87

S EROARE

N-k

_MOARE

Aici, N- k reprezintă numărul de grade de libertate asociate SSEROAR1,:,pe care îl vom nota în continuare cu gl EROARE-

_ SS EROARE 163,20 163,20— J z r = _ - = _ _ = i3,60

Distribuţia de eşantionare în ANOVA este distribuţia F (numită astfelîn onoarea britanicului Ronald Fisher (1890-1962), biolog şi statistician,inventatorul ANOVA). Forma aproximativă a unei curbe F este următoarea:

Grade de libertate

Figura 9.1. Un exemplu de curbă F

1 Prescurtarea uzuală de la denumirea din limba engleză „Mean squares"

131

Forma exactă a unei curbe F depinde de valorile pentru glA şi, respec-tiv, pentru glEROARE- De notat că folosirea distribuţiei F cere ca variabiladependentă să fie normal distribuită în cele k populaţii şi ca aceste populaţiisă fie egal dispersate4. în tabelul distribuţiei F (vezi Anexa D) în primacoloană din stânga sunt trecute gradele de libertate pentru MSEROARE(glEROARE = N- k), de la 1 la 200 şi oo. Pe cea de-a doua coloană din stângaapar nivelurile a. Pe primul rând al tabelului apar gradele de libertate pentruMSA {glA = k - 1), de la 1 la 120 şi oo.

glEROARF.

(gl2)1

2

120

oo

a0,250,100,05

Kh (gll)1 2 120 oo

Figura 9.2. Schema tabelului valorilor critice ale distribuţiei F

La intersecţia rândului pentru N-k grade de libertate şi nivelul a alescu coloana pentru k— 1 grade de libertate se găseşte F (critic), adică valoa-rea care marchează începutul zonei critice în distribuţia F. în exemplulnostru, pentru N- £ = 1 2 şi £ - 1 = 2 , alegând un nivel a = 0,05, F(critic) =3,89. Valoarea pentru F (obţinut) se calculează cu formula următoare:

Formula 6. F =

Dacă intervin doar factori întâmplători, valoarea aşteptată pentru F(obţinut) este 1,0. Cu cât este mai mare valoarea pentru F (obţinut), cu atâteste mai mică probabilitatea ca rezultatele experimentului să se datorezeîntâmplării. Regula de decizie este următoarea:

4 De notat că supoziţia omogenităţii dispersiei şi cea a normalităţii distribuţiei, împreunăcu ipoteza de nul, „spun" că distribuţiile la nivelul populaţiilor au aceeaşi formă, aceeaşimedie aritmetică şi aceeaşi abatere standard sau, cu alte cuvinte, că este. vorba despreuna şi aceeaşi populaţie.

Page 66: Statistica  aplicata in psihologie, Dumitru Gheorghiu

132

se respinge Ho, dacă F (obţinut) F (critic).în exemplul nostru,

MS, 314,87= 23,15

m o EROARE ' J ' u w

întrucât F (obţinut) cade în zona critică (23,15 > 3,89), vom conchidecă rezultatele experimentului sunt semnificative şi vom respinge ipoteza cămediile aritmetice sunt egale la nivelul populaţiei.

în termenii modelului în patru paşi, testul ANOVA pentru ovariabilă independentă, în exemplul nostru, decurge după cum urmează:

Pasul 1. Enunţarea ipotezelor

Ha: Cel puţin o medie aritmetică diferă de celelalte.

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zoneicritice

Distribuţia de eşantionare = Distribuţia Fa = 0,05

frJ — AI Ir —: 1 OX EROARE ^* — & *-^

glA = k-\ =2

Pasul 3. Calcularea statisticii testuluiOrganizarea calculului ANOVA se face cu ajutorul unui tabel de

calcule iniţiale (v. tabelul 9.1), precum şi al unui tabel ANOVA rezumativ,numit tabel al surselor de variaţie. Forma generală a unui astfel de tabeleste următoarea:

Sursa devariaţie

J'TOTAL

Sume de j Grade depătrate j libertate

SSA \ k- 1

N- 1

Medii alesumelor , ,

MS,EROARE

F (obţinut)

MSAIMSm)AHE

în exemplul nostru, avem următorul tabel:

133

Tabelul 9.2. ANOVA rezumativ, o variabilă independentă

Sursa devariaţie

AEROARE

TOTAL

Sume depătrate

r 629,73161,20792,93

Grade delibertate

21214

Medii alesumelor314,8713,60

F (obţinut)

23,15

Pasul 5. Luarea decizieiîntrucât F (obţinut) cade în zona critică (23,15 > 3,89), ipoteza de nul

este respinsă. La nivelul populaţiei, mediile aritmetice ale scorurilorcorespunzătoare celor trei distanţe diferă semnificativ. Enunţul de probabi-litate asociat acestei concluzii este următorul: probabilitatea ca diferenţaobservată între mediile aritmetice ale grupurilor să apară din întâmplare,dacă Ho ar fi în realitate adevărată, este mai mică de 0,05.

De notat că în cazul în care se consideră mai mult de două categorii alevariabilei independente (ca în exemplul nostru în care avem trei grupuri), F(obţinut) nu arată care este grupul care diferă semnificativ de celelalte. Omodalitate de a examina diferenţa dintre două grupuri este de a utiliza formulaSSA pentru a calcula suma pătratelor şi media sumei de pătrate pentru cele douăgrupuri (numărul de grade de libertate în acest caz fiind 2 - 1) şi de a utilizacantitatea MSEROARE, calculată anterior, ca eroare de variantă pentru calculareaF (obţinut). Au fost dezvoltate şi metode mai sofisticate pentru a evaluadiferenţa dintre două grupuri, după ce s-a determinat un F (obţinut)semnificativ, numite teste de comparare multiplă post hoc, precum şi metodede testare a unor ipoteze specifice privind diferenţele dintre medii, numitecomparaţii apriori sau comparaţii planificate'.

9.2. ANOVA PENTRU DOUĂ VARIABILE INDEPENDENTE

Testul ANOVA pentru două variabile independente este o extindere atestului ANOVA pentru o singură variabilă independentă, cu excepţiafaptului că formulele testului expus în această secţiune sunt aplicabile doarîn cazul grupurilor independente cu acelaşi număr de subiecţi în fiecaregrup. Vom folosi aceeaşi manieră de expunere ca mai sus: vom prezenta unexemplu ipotetic, un tabel de calcule iniţiale, formulele de calcul aletestului ANOVA pentru două variabile independente, precum şi modelul înPATRU paşi specific acestui test.

; Vezi Hinkle, Wiersma şi Jurs, 1988.

Page 67: Statistica  aplicata in psihologie, Dumitru Gheorghiu

134

20 de elevi sunt supuşi unui experiment privind metodele de instruireîn matematică. Variabila independentă, A, este, deci, metoda de instruire.Elevii sunt repartizaţi aleatoriu în două clase: o clasă la care se utilizeazămetoda tradiţională (Al) şi o clasă la care se utilizează o metodă modernă(A2). Variabila independentă, B, este nivelul IQ, cu categoriile : Bl (< 90) şiB2 (> 90). Informaţia prezentată la cele două clase este aceeaşi. La sfârşitulperioadei de instruire elevii dau acelaşi test. Rezultatul (scorul) obţinut laacest test este variabila dependentă. Experimentul permite evaluarea a treiefecte: (i) efectul principal al variabilei A (dacă una dintre metode conducela rezultate diferite faţă de cealaltă), (ii) efectul principal al variabilei B(dacă elevii cu un IQ superior obţin rezultate diferite faţă de ceilalţi),(iii) interacţiunea A x B (dacă efectul unei variabile independente diferă înfuncţie de un anumit nivel al celeilalte variabile independente).

După cum reiese şi din cele de mai sus, un astfel de experiment are maimulte avantaje. Mai întâi, prin analiza simultană a două variabileindependente se realizează, de fapt, două cercetări altfel distincte. în plusfaţă de investigarea modului în care diferitele categorii ale celor douăvariabile independente afectează variabila dependentă, se poate verificadacă nivelurile uneia dintre variabilele independente afectează variabiladependentă în acelaşi fel ca şi nivelurile celeilalte variabile independente.Apoi, este vorba despre investigarea interacţiunii dintre două variabileindependente. întrucât, în situaţiile reale, efectul unei variabile indepen-dente este adesea afectat de una sau mai multe variabile independente,studiul interacţiunii dintre variabilele independente poate fi un obiectivfoarte important al cercetării.

Revenind la exemplul nostru ipotetic, datele obţinute, împreună cumărimile necesare pentru ANOVA, sunt prezentate în următorul tabel:

Tabelul 9.3. Calcule iniţiale pentru ANOVA, două variabile independente

Metoda (A)

Tradiţională(AI)

Bl7570697268

TAIRI =riAiai --

X AIBI =

£• •*• AIBI ~

Nivelu

354= 570,80

= 25.094

\Q(B)B29095898591

TA1B2 = 450"AIB2 = 5

XAIB2 = 90,00r y2 _ A r\ c c o" -̂*- AÎB2 — W.JJZ,

= 804= 10= 80,40

135

Modernă (AI)

8587839089

^ a / = 434»A2BI = 5

XAIBI** 86,80

£X2AUJ = 37.704TBJ = 788nB, = 10

XB, = 78,80

8794938992

7^2 = 455

»A2B2 = 5

X~A2B2:= 91,00

IX2A2B2 = 41A39

TB2 = 905

nB2= 10

Jf„ = 90,50

7^ = 788«,«= 10

XA2 = 88.90

în ANOVA, pentru două variabile independente se testează trei ipotezede nul, fiecare corespunzând unei surse de variaţie:

H(j\\ La nivelul populaţiei nu există nici o diferenţă între mediilearitmetice ale rezultatelor obţinute prin cele două metode.

HQ2'- La nivelul populaţiei nu există nici o diferenţă între mediilearitmetice ale rezultatelor obţinute de elevii cu niveluri IQ diferite.

Hm: La nivelul populaţiei nu există interacţiune între cele douăvariabile.

HQ\ corespunde variaţiei mediilor aritmetice ale scorurilor variabileidependente din fiecare categorie a variabilei A. H02 corespunde variaţieimediilor aritmetice ale scorurilor variabilei dependente din fiecare categoriea variabilei B. H03 corespunde variaţiei mediilor aritmetice ale scorurilorvariabilei dependente din categoriile combinate A x B.

în acest caz, se calculează cinci sume de pătrate: (1) SSTOTAL, (2) SSA,Q)SSB,

(4)SSAxBşi(5)SSEROARE.

SSTOTAL se calculează cu ajutorul formulei 1:

TOTAL .V Y2 , vL*A\B2 +LA2B2

Page 68: Statistica  aplicata in psihologie, Dumitru Gheorghiu

+ TA\B2

N(354 + 450 + 434 + 455)2

20

136

• = (25.094 + 40.552 + 37.704 + 41.439)-

= 144.789-143.312,45 = 1476,55

Şi aici, atunci când calculăm SSTOTAI, este recomandabil să reţinemtermenii diferenţei, 144.789 şi 143.312,45, pe care îi vom folosi pentrusimplificarea calculelor ulterioare.

Formula 2 este modificată corespunzător pentru calculul SSA şi SSB,Astfel, SSA se calculează cu ajutorul următoarei formule:

Formula 7. SSA = £— - —na n

în această formulă, Ta este un simbol general pentru TAi şi TA2, iar na

este un simbol general pentru nA1 şi nA2. Prin urmare, atunci când calculămSSA, luăm în considerare doar grupurile variabilei independentei.

9ln

804^ 889"[nM nA2) N y 10 10

= 143.673,70-143.312,45 = 361,25SSB se calculează cu ajutorul următoarei formule:

2 r-2b G

-143.312,45 =

Formula 8. SS B = I —nb n

în această formulă, Tb este un simbol general pentru TB/ şi TB2, iar «A

este un simbol general pentru nBi şi nB2. Prin urmare, atunci când calculămSSB, luăm în considerare doar grupurile variabilei independente B.

T2

1BG2 T,B\

" » a n \nm nB1) N { 10 10 ,= 143.996,90 -143.312,45 = 684,45

Calculăm acum SSAxB, cu ajutorul următoarei formule:

-143.312,45 =

Formula 9. SSAxB = £ - ^ - -nab N

•SSA - SSB

în această formulă, Tab este un simbol general pentru TA\m, TAIB2, TA2B!

şi TA2B2, iar nab este un simbol general pentru nAtBi, nA1B2, nA2Bl şi nA2B2. Prinurmare, atunci când calculăm SSA x B, luăm în considerare grupurileconstituite după categoriile combinate

AxB.

SSAxB

137

^2 <Ţ>2 rp1A\B\ , l A\B2 , 1A2B\ ,

nA\B\nA\B2 nA2B\ nA2B2

91~N

— SS A — SS o —

354 2 450 2 434 2 455"- + • -143.312,45 - 3 61,25 - 684,25 =

[5 5 5 5= 144.639,40 -143.312,45 - 361,25 - 684,45 = 281,25

Şi aici vom reţine unul dintre termenii diferenţei, şi anume 144.639,40,pe care îl vom folosi pentru calculul SSEROARE, după următoarea formulă:

Ţ2

Formula 10. SSEROARE = ^X2 -J^-^-

Ambele cantităţi cerute de această formulă au fost calculate anterior,când am obţinut SSTOTAL şi, respectiv, SSA x B, aşa că vom prelua directrezultatele respective în calculul SSEROARI-:'-

SSEROARE -2L = 144.789-144639,40 = 149,60

De notat că SSŢOTAL = SSA + SSB + SSA xB + SSEROARE- Această relaţie

poate fi utilizată pentru a controla corectitudinea calculelor.Mediile aritmetice ale sumelor de pătrate pentru fiecare sursă de

variantă se calculează prin împărţirea sumei de pătrate respectivă lanumărul corespunzător de grade de libertate.

Formula 11. MSA =

în această formulă, kA este numărul de grupuri constituite dupăcategoriile variabilei A, iar kA - 1 este numărul de grade de libertate asociateSSA, notat cu glA. în exemplul nostru,

Formula 12. MSR =

MSA =

SSB

Ku — 1

SSA 361,25kA-\ 2-1

= 361,25

în formula 12, kB - 1 este numărul de grupuri constituite dupăcategoriile variabilei B, iar kB - 1 este numărul de grade de libertate asociateSSB, notat cu glB. în exemplul nostru,

Page 69: Statistica  aplicata in psihologie, Dumitru Gheorghiu

138 139

kR-\ 2-1

Formula 13. MSAxB

SS AxB

(kA-\)(kB-\)

în formula 13, (kA - l)(kB - 1) este numărul de grade de libertateasociat SSA x B, notat cu glA x B. în exemplul nostru,

w _ SSAxB 281,25 $

(kA-\)(kB-\)

Formula 14. MSEROĂRE = f £ ^ f

In formula 14, N - ^^ este numărul de grade de libertate asociatSSEROARE, notat cu glsROARE-

m _ SSEROARE 149,60 149,60MC> EROARE ~ ——;—;— - — — 7 = —--— = 9,35N-kAkB 20 -4 16

Valoarea pentru F (obţinut) se calculează pentru fiecare sursă devariantă sistematică (efectele principale pentru A, pentru B şi pentruinteracţiunea A x B). Prezentăm în continuare formulele de calcul pentru FA

(obţinut), FB (obţinut) şi FAxB (obţinut), împreună cu calculele respective,corespunzătoare exemplului nostru.

Formula 15. F,= MS *

Formula 16. FB

MSEROARF,

FA= MS* = 1 ^ 1 = 38,64

M S EROARE 9,35MSB

MSERUARR

MSB _ 684,45MSEROARE 9,35

= 30,08

Formula 17. FAvB =

9,35

Pentru luarea deciziei, fiecare valoare pentru F (obţinut) se compară cuF (critic). întrucât în fiecare caz din exemplul nostru, ghROARE = 16, iarnumărul de grade de libertate din numărător pentru media aritmetică esteegal cu 1 (glA = glB = glA*B = 1), pentru a = 0,05, F (critic) = 4,496.Deoarece fiecare F (obţinut) este mai mare decât F (critic), toate cele treiipoteze de nul pot fi respinse. De notat că toate cele trei ipoteze de nul pot firespinse (rezultatele experimentului sunt semnificative) şi pentru a - 0,01,pentru care F (critic) = 8,53.

în termenii modelului în patru paşi, testul ANOVA pentru douăvariabile independente decurge astfel:

Pasul 1. Enunţarea ipotezelorHQ\. La nivelul populaţiei nu există nici o diferenţă între mediile

aritmetice ale rezultatelor obţinute prin cele două metode.Ha\. La nivelul populaţiei mediile aritmetice ale rezultatelor obţinute

prin cele două metode diferă.Hai'- La nivelul populaţiei nu există nici o diferenţă între mediile

aritmetice ale rezultatelor obţinute de elevii cu niveluri IQ diferite.Ha2- La nivelul populaţiei mediile aritmetice ale rezultatelor obţinute

de elevii cu niveluri IQ diferite variază.H03: La nivelul populaţiei nu există interacţiune între cele două

variabile.Ha3~. La nivelul populaţiei există interacţiune între cele două variabile.

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zonelorcritice

Distribuţia de eşantionare = distribuţia Fa = 0,05

glEROARE = 16

gh = gh = ghxB = 1F (critic)7 = 4,49

Pasul 3. Calcularea statisticii testuluiOrganizarea calculului ANOVA pentru două variabile independente se

face cu ajutorul unui tabel de calcule iniţiale (v. tabelul 9.3), precum şi al

6 Evident, dacă gl&, gls şi ghxB diferă două câte două, vom avea trei valori pentru FCT,„C..7 De notat că în cazul în care cele trei grade de libertate ar fi fost diferite, am fi avut treivalori pentru F (critic).

Page 70: Statistica  aplicata in psihologie, Dumitru Gheorghiu

140

unui tabel ANOVA rezumativ {tabel al surselor de variaţie). în acest caz,forma generală a unui astfel de tabel este următoarea:

Sursa de Sume devariaţie

"A

Grade de j Medii ale | F (obţinut)pătrate j libertate I sumelor ;

"SSA'Z^II ~ * " ~ 'ks-l

AxBEROARE"

TOTAL

SSA

TOTAL

MS* OAKE_ |

N-\MSFEROARE

în exemplul nostru, avem următorul tabel:

Tabelul 9.4. ANOVA rezumativ, două variabile independenteSursa devariatie__

BAxB

Sume de

36Î725

Grade delibertate

"""" 1 ~ i

Medii ale_ sumelor _"361,25"

F (obţinut)

38,64684,45 | 1 j 684,45

"'28U25 1 1 " 1 "2"87,25_J73,2030,08

EROARE | 149,60 I 16_ _ ! __ ___9j35

I^^ZLZi^lIZlIIIIl£IZÎZZPasul 4. Luarea decizieiîntrucât fiecare valoare pentru F (obţinut) este mai mare decât valoarea

pentru F (critic), se resping cele trei ipoteze de nul. Pentru efectul principalal variabilei A, concluzia este că, la nivelul populaţiei, mediile aritmeticeale rezultatelor obţinute prin cele două metode diferă semnificativ. Pentruefectul principal al variabilei B, concluzia este că, la nivelul populaţiei,mediile aritmetice ale rezultatelor obţinute de elevii cu niveluri IQ diferitevariază semnificativ. Enunţul de probabilitate asociat ambelor concluziieste următorul: probabilitatea ca diferenţele observate între mediile aritme-tice ale grupurilor constituite după categoriile unei variabile independentesă apară din întâmplare, dacă Ho respectivă ar fi în realitate adevărată, estemai mică de 0,05 (şi după cum am văzut, chiar decât 0,01).

Pentru interacţiune, concluzia este că la nivelul populaţiei există ointeracţiune între metoda de instruire şi nivelul IQ al subiecţilor. Enunţul deprobabilitate asociat acestei concluzii este următorul: probabilitatea cadiferenţele observate între mediile aritmetice ale scorurilor din categoriilecombinate ale celor două variabile să apară din întâmplare, dacă Hm ar fi înrealitate adevărată, este mai mică de 0,05 (şi decât 0,01).

141

9.3. ANOVA PENTRU EŞANTIOANE DEPENDENTE

Calculele ANOVA considerate până acum sunt aplicabile doar în cazuleşantioanelor independente. în această secţiune vom prezenta calculele ANOVApentru cazul eşantioanelor dependente. Amintim că în acest caz este vorba fiedespre alcătuirea unor eşantioane, astfel încât selectarea cazurilor pentru uneşantion influenţează selectarea cazurilor pentru un alt eşantion, fie despresituaţiile experimentale în care aceiaşi subiecţi sunt testaţi repetat.

Un cercetător presupune că atractivitatea fizică a candidaţilor laobţinerea unei slujbe influenţează judecata asupra competenţei profesionalea candidaţilor. Variabila independentă este deci atractivitatea fizică acandidaţilor, variabila dependentă fiind judecata asupra competenţeiprofesionale, măsurată pe o scală cu zece puncte. Cercetătorul alcătuieşteun eşantion aleatoriu cu opt subiecţi şi le prezintă două filme, în fiecare filmapărând o femeie care răspunde la un test de aptitudini mecanice (îmbinareaunor piese). Cele două femei îndeplinesc sarcinile testului la fel de bine, daruna dintre ele este atractivă fizic, în timp ce cealaltă nu este atractivă fizic.Filmele sunt prezentate de mai multe ori, pentru a se controla efectulordonării. Datele obţinute, împreună cu mărimile necesare pentru ANOVAsunt prezentate în următorul tabel:

Tabelul 9.5. Calcule iniţiale pentru ANOVA, eşantioane dependente

Subiecţi

12345678

Atractivitatea fizică (A)Neatractive

041)65574354

TAi = 392 ^ = 201

Atractive 042)

86966557

TA2 = 522*42 = 352

Ts

141114131081011

19612119616910064100121

ST} = 1067

Page 71: Statistica  aplicata in psihologie, Dumitru Gheorghiu

142 143

în acest tabel, Tx se referă la totalul scorurilor acordate de fiecare

subiect pentru cele două femei, Ts este pătratul acestui total, iar ZTS este

suma acestor pătrate pentru toţi subiecţii.Principala diferenţă dintre ANOVA pentru eşantioane dependente şi

ANOVA pentru o variabilă independentă constă în aceea că efectuldiferenţelor dintre subiecţi devine o sursă de variantă. în ANOVA pentrueşantioane dependente apar patru surse de variantă, deci se calculează patrusume de pătrate: (1) SSTOTAL, (2) SSA, (3) SSSUBIECŢI şi (4) SSER0ARE. SSTOTALse calculează cu ajutorul formulei 1:

SS-TOTAL - = (201+352)- - ^ ^ =N ' 1 6

= 35,44SSA se calculează cu ajutorul formulei 7:

=553-517,56 =

T2 c2

CC _ V a39 2 +52 2

"a n-517,56 = 10,57

SSSUBIECŢI s e calculează cu ajutorul următoarei formule:

T2 G2

Formula 18. SSSUBJECTI = £ —ns n

Termenul »$ se referă la numărul de eşantioane dependente dinexperiment sau la numărul de scoruri pe care le dă fiecare subiect, astfel căîn exemplul nostru, ns — 2.

'SUBIECŢI = Z ^ - — = ^~ - 517,56 = 15,94G_n

în fine, SSERUAIIE se calculează cu ajutorul următoarei formule:Formula 19. SS EROARF =SSTOTĂL -SSA - SSSUBIliCTI

SS EROARE = 35,44 -10,57 -15,94 = 8,93

Conform ipotezei de nul, atractivitatea fizică nu influenţează judecataasupra competenţei profesionale. Forma generală a unui tabel ANOVArezumativ pentru eşantioane dependente este următoarea:

f Sursa devariaţie

Sume depătrate

Grade delibertateAr L

Medii alesumelor

F (obţinut)

MS A

MS,EROARIL

MS/MSER0ARE

Procedurile de calcul pentru mediile sumelor de pătrate şi pentru F(obţinut) sunt similare sau aceleaşi cu cele deja cunoscute, exceptând faptulcă în formulele respective apare s, care se referă la numărul de subiecţi dinexperiment. De notat că, în acest caz, media sumei de pătrate şi F (obţinut)pentru SSSUBIECŢI

n u s e calculează. în mod obişnuit, nu este necesar săcunoaştem dacă există diferenţe semnificative între subiecţi. Aflareacantităţii corespunzătoare sursei de variantă SSSUBIECŢI contribuie, însă, lareducerea sursei de variaţie SSEROARE (formula 19). în exemplul nostru,avem următorul tabel:

Tabelul 9.6. ANOVA rezumativ, eşantioane dependente

Sursa devariaţie

ASUBIECŢIEROARE

TOTAL

Sume depătrate

10,5715,948,93

35,44

Grade delibertate

17715

Medii ale jsumelor !

10,57 |— |

1,28 1|

F (obţinut)

8,26

Lăsăm ca exerciţiu pentru cititor formularea în termenii modeluluiîn patru paşi a testului ANOVA aplicat aici, în principal a decizieipentru a = 0,05, precum şi a enunţului de probabilitate asociat concluziei8.

! Vezi exerciţiul 9.1.

Page 72: Statistica  aplicata in psihologie, Dumitru Gheorghiu

144

GLOSAR

Analiza de variantă (ANOVA): procedură de testare a ipotezei conform căreiamediile aritmetice ale k populaţii (k > 2) sunt egale. Testul ANOVA poate ficonsiderat drept o extensie a testului privind diferenţa dintre două mediiaritmetice.

Curbe F: grafic al distribuţiei F.Distribuţia F: distribuţia de eşantionare în testul ANOVA.

10. TESTE INON PARAMETRICE

Toate testele statistice prezentate până acum se bazează pe anumitesupoziţii privind parametrii populaţiilor din care sunt selectate eşantioanelo,şi anume supoziţia de normalitate şi de omogenitate a abaterilor standardale populaţiilor respective. Testele nonparametrice sunt teste de semnifi-caţie care nu necesită supoziţii particulare despre forma distribuţieipopulaţiilor de referinţă, astfel încât pot ti aplicate în special atunci când selucrează cu eşantioane mici. în al doilea rând, testele nonparametrice suntcu deosebire utile în psihologie, întrucât pot ti aplicate pentru variabilemăsurate la nivel nominal sau ordinal.

10.1. TESTUL CHI-PĂTRAT (x)Testul chi-pătrat (x~) este aplicabil atunci când nivelul de măsură estenominal, datele fiind frecvenţe - numărul de cazuri care fac parte dincategoriile variabilelor (variabilei) considerate. Esenţa acestui test constă încompararea frecvenţelor observate - frecvenţele efective obţinute empiricde către cercetător - cu frecvenţele teoretice sau aşteptate - frecvenţelecalculate sub presupunerea că ipoteza de nul este adevărată. Testulexaminează măsura în care frecvenţele observate sunt sau nu semnificativdiferite de frecvenţele care sunt aşteptate dacă ipoteza de nul este adevărată.Distincţia dintre frecvenţele observate şi cele aşteptate poate fi înţeleasă cuajutorul următorului exemplu intuitiv. Să presupunem că avem un zar şidorim să verificăm ipoteza că este nemăsluit. Pentru aceasta, aruncăm zarulde 300 de ori şi observăm frecvenţa de apariţie a fiecărei feţe. Dacă ipotezamenţionată este adevărată, ne-am aştepta ca fiecare faţă să apară de aproxi-mativ 50 de ori. Acum, să presupunem că observăm următoarele frecvenţede apariţie:

Faţa j

1 î2 !3 i4 ';5 !'6 \

Număr de apariţii425538576444

Page 73: Statistica  aplicata in psihologie, Dumitru Gheorghiu

146

Comparând frecvenţele observate cu cele teoretice, suntem îndreptăţiţi săspunem că zarul respectiv este măsluit sau diferenţele pot fi puse pe seamafluctuaţiilor întâmplătoare?

Testul chi-pătrat poate fi folosit pentru verificarea independenţei adouă variabile sau pentru verificarea concordanţei dintre frecvenţeleobservate şi frecvenţele aşteptate ale unei singure variabile. Corespunzător,se vorbeşte despre testul chi-pătrat pentru independenţă şi despre testulchi-pătrat pentru concordanţă.

10.1.1. Testul chi-pătrat pentru independenţăDouă variabile sunt independente dacă, pentru toate cazurile din

eşantionul considerat, clasificarea unui caz într-o categorie a unei variabilenu are nici un efect asupra probabilităţii ca acel caz să fie clasificat înoricare dintre categoriile celeilalte variabile. De pildă, să presupunem căvariabilele de interes sunt sexul şi dominanţa funcţional-operativă amâinilor pentru un eşantion de 50 de bărbaţi şi 50 de femei. Aceste douăvariabile sunt independente, în condiţiile în care clasificarea subiecţilor încategoriile unei variabile {masculin -feminin) nu are nici un efect asupraclasificării cazurilor în categoriile celeilalte variabile {dreapta, stânga,ambidextru). Acum, să presupunem că am efectuat un astfel de studiu şi amobţinut următoarele date:

Tabelul 10.1. Sexul şi dominanţa funcţional-operativă a mâinilor

DominanţaDreaptaStângaAmbidextruTOTAL

SexulMasculin

15305

50

Feminin35105

50

TOTAL504010100

Un astfel de tabel rectangular, în care cazurile dintr-un eşantion suntclasificate concomitent după categoriile a două variabile, se numeşte tabelal contingenţelor. Denumirile categoriilor unei variabile sunt folosite drepttitluri de coloane, iar denumirile categoriilor celeilalte variabile suntfolosite drept titluri de rânduri. în corpul tabelului, intersecţia unui rând cuo coloană se numeşte celulă. Celulele indică numărul de cazuri clasificateconcomitent în câte două categorii ale celor două variabile. Subtotalurilepentru fiecare coloană şi rând se numesc marginale. Marginalele indicădistribuţiile de frecvenţe pentru fiecare categorie a variabilei respective sau,

147

altfel spus, distribuţiile univariate de frecvenţe ale fiecărei variabile. Laintersecţia marginalelor de pe linii şi coloane se prezintă numărul total decazuri din eşantion («).

în cazul testului chi-pătrat pentru independenţă, ipoteza de nul enunţăcă variabilele sunt independente. în exemplul nostru, ipoteza de nul este căsexul nu are nici o influenţă asupra dominanţei funcţional-operative amâinilor. Sub supoziţia că ipoteza de nul este adevărată, se calculeazăfrecvenţele din celule la care ne-am aştepta, dacă ar interveni doarîntâmplarea. Aceste frecvenţe aşteptate sunt apoi comparate, celulă cucelulă, cu frecvenţele observate în tabel. Dacă ipoteza de nul este adevărată,atunci diferenţele dintre frecvenţele aşteptate şi cele observate vor fi mici.Dacă, însă, ipoteza de nul este falsă, atunci aceste frecvenţe vor fi relativmari. Cu cât sunt mai mari diferenţele dintre frecvenţele aşteptate şi celeobservate, cu atât este mai puţin probabil ca variabilele să fie în faptindependente, deci este cu atât mai probabil că vom putea respinge ipotezade nul.

Pentru a afla frecvenţa aşteptată pentru fiecare celulă a tabelului,folosim următoarea formulă:

Formula 10.1. frfc

în care /,. = marginalul rândului pe care este situată celula respectivă;fc = marginalul coloanei pe care este situată celula respectivă;n = numărul total de cazuri din eşantion;

în cazul tabelului 10.1, frecvenţele aşteptate sunt următoarele:

Dreapta

Stânga

Ambidextru

Masculin50-50

100= 25

40-50100

= 20

10-50100

Feminin50-50

100- = 25

40-50100

= 20

10-50100

Calcularea statisticii testului chi-pătrat pentru independenţă se face cuajutorul următoarei formule, care dă valoarea pentrux (obţinut):

Page 74: Statistica  aplicata in psihologie, Dumitru Gheorghiu

148

Formula 10.2..'a

în care /„ = frecvenţele observate în celulele tabelului;fu = frecvenţele aşteptate.

Astfel, odată calculate frecvenţele aşteptate, formula 10.2 ne conduce lascăderea frecvenţei aşteptate din frecvenţa observată pentru fiecare celulă,ridicarea la pătrat a acestei diferenţe, împărţirea rezultatului la frecvenţaaşteptată pentru acea celulă şi apoi la însumarea valorilor rezultate ale tutu-ror celulelor. Calculele pentru exemplul nostru sunt ilustrate în tabelul 10.2.

Tabelul 10.2. Calculul/2 pentru datele din tabelul 10.1.

/„

15

30

5

35

10

5

100

25

20ş

2520

5

ÎOO

Jo .tu

-10ioo

-iooo

(fo-f,100

100oîooîoo

De notat că suma frecvenţelor observate este egală cu sumafrecvenţelor aşteptate şi că suma diferenţelor /„ - fa este egală cu 0.Aceste relaţii pot fi folosite la verificarea calculelor pentru/2 (obţinut).Distribuţia de eşantionare folosită în acest test este distribuţia /2. Ca şi încazul distribuţiei /-Student, este vorba despre o familie de distribuţii /2.fiecare fiind o funcţie de un anumit număr de grade de libertate. In cazultestului chi-pătrat pentru independenţă, numărul de grade de libertate secalculează cu ajutorul următoarei formule:Formula 10.3. gl = (r - l)(c - 1)în care r = numărul de rânduri din tabelul contingenţelor;

c = numărul de coloane din tabelul contingenţelor.

149

Un tabel cu trei rânduri şi două coloane (un tabel 3 x 2) are (3 - \)(2 •-•I) = 2 grade de libertate'. Spre deosebire de distribuţia /-Student, care esi-̂simetrică, distribuţia/2 prezintă, ca şi distribuţia F, o asimetrie poziiivr,după cum se ilustrează în figura 10.1.

Grade de libertate

Figura 10.1. Un exemplu de curbă/2

Valorile pentru /" (critic) marchează începuturile zonelor critice şi suntdate în tabelul valorilor critice ale distribuţiei /' (Anexa E). Acest tabeleste similar cu tabelul distribuţiei /-Student, având nivelurile a dispuse peprimul rând şi gradele de libertate pe prima coloană din stânga. Regula dedecizie este

se respinge Ho, dacă /2 (obţinut) > x (critic).întrucât în exemplu nostru gl = 2, dacă stabilim a = 0,05, scorul /2 (cri-

tic) este 5,991. Deoarece/2 (obţinut) cade în zona critică (18,00 > 5,991), sepoate respinge ipoteza de nul şi se poate conchide că variabilele respectivi1

nu sunt independente: sexul influenţează dominanţa funcţional-operativă amâinilor.

în termenii modelului în patru paşi, testul decurge după cum urmează:

Pasul 1. Enunţarea ipotezelorHo'. Variabilele sex şi dominanţa funcţional-operativă a mâinilor sunt

independente.Ha\ Variabilele sex şi dominanţa funcţional-operativă a mâinilor sunt

dependente.

1 Un tabel 3 x 2 are două grade de libertate deoarece, odată ce frecvenţele din cloniicelule au fost determinate, frecvenţele din celelalte celule sunt fixate, i.e. nu mai sunilibere să varieze.

Page 75: Statistica  aplicata in psihologie, Dumitru Gheorghiu

150

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zoneicritice

Distribuţia de eşantionare = Distribuţia/2

a = 0,05

/(critic) = 5,991I) Pasul 3. Calcularea statisticii testului După cum am văzut,

9 _ ( / • _ / • ) 2

= 18fa

Pasul 4. Luarea decizieiîntrucât x (obţinut) cade în zona critică (18,00 > 5,991), se poate

respinge ipoteza de nul şi se poate conchide că variabilele respective nusunt independente: sexul influenţează dominanţa funcţional-operativă amâinilor (la un nivel de încredere de 95%).

10.1.2. Testul chi-pătrat pentru concordanţă> Testul chi-pătrat poate fi folosit şi pentru verificarea concordanţei

dintre frecvenţele observate şi frecvenţele aşteptate (teoretice) ale uneisingure variabile. Astfel, dacă x (obţinut) > £ (critic) pentru numărulcorespunzător de grade de libertate şi un nivel a dat, atunci diferenţeledintre frecvenţele observate şi cele aşteptate pot fi atribuite întâmplării,concordanţa dintre cele două tipuri de frecvenţe fiind apreciată drept bună'In caz contrar, diferenţele dintre frecvenţele observate şi cele aşteptate potfi considerate prea mari pentru a putea fi atribuite întâmplării sau, altfelspus, aceste diferenţe sunt statistic semnificative.

Pentru ilustrare, să presupunem că un cercetător opinează că distribuţiapopulaţiei după ocupaţie într-o anumită zonă geografică este aproximativurmătoarea:

- 20% ţărani;- 30% muncitori industriali;- 30% funcţionari;- 15% mici întreprinzători;- 5% manageri industriali.

151

Cercetătorul alcătuieşte un eşantion aleatoriu de 864 de persoaneocupate din zona respectivă pe care le clasifică în categoriile menţionate.Frecvenţele observate pentru aceste categorii sunt următoarele:

-145 ţărani;- 310 muncitori industriali;- 305 funcţionari;- 78 mici întreprinzători;- 26 manageri industriali.

Cercetătorul doreşte să ştie dacă rezultatele obţinute pe acest eşantionconfirmă distribuţia presupusă a populaţiei sau, altfel spus, dacă diferenţeledintre frecvenţele observate şi cele presupuse sunt sau nu statistic semni-ficative. Calcularea statisticii testului se face cu ajutorul formulei 10.2:

2_T(fo-fa)2

faPentru a afla frecvenţa aşteptată pentru fiecare categorie a variabilei

considerate, folosim următoarea formulă:Formula 10.4. fa = np

în care n = numărul total de cazuri din eşantion;p = proporţia presupusă de cazuri din categoria respectivă.

De pildă, pentru ţărani, /„ = npx = 0,20 • 864 = 172,80.Calculele pentru exemplul nostru sunt ilustrate în tabelul 10.3.

Tabelul 10.3. Calculul/ pentru datele privind ocupaţia

Ocupaţia

ŢăranMuncitorindustrialFuncţio-narMicîntreprin-zătorManagerindustrialTOTAL

r

fo

145310

305

78

26

864,00

fa

î 72,80259,20

259,20

129,60

43,20

864,00

J o J a

-27,8050,80

45,80

-51,60

-17,20

0

ifo-faf

772,842580,64

2097,64

2662,56

295,84

-

(fo-fa)2/fa

4,479,96

8,09

20,54

6,85

49,91 =x*

R

-2,12 j

3,16

2,84

-4,53

-2,63

Page 76: Statistica  aplicata in psihologie, Dumitru Gheorghiu

152

i)e notat că frecvenţele aşteptate sunt exact acele frecvenţe pe careie-am întâlni dacă proporţiile cazurilor din eşantion ar fi aceleaşi cuproporţiile cazurilor pentru populaţie.

In cazul testului chi-pătrat pentru concordanţă, numărul de grade delibertate se calculează cu ajutorul următoarei formule:Formula 10.5. gl = k - 1în (are k = numărul de categorii ale variabilei de interes.

întrucât în exemplul nostru sunt considerate cinci categorii alevariabilei ocupaţie, avem patru grade de libertate". Pentru o. — 0,05 şi gl = 4,/ (critic) - 9,488.

Testul formal este următorul:

Pasul 1. Enunţarea ipotezelorHo: Nu există nici o diferenţă între proporţiile din eşantion şi celepentru populaţie.//„: Proporţiile din eşantion diferă de cele pentru populaţie.

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zoneicritice

Distribuţia de eşantionare = Distribuţia^'a = 0,05

gl = AX1 (critic) = 9,488

Pasul 3. Calcularea statisticii testului. După cum am văzut,

- (fa ~ fa )X • = 49,91

Pasul 4. Luarea decizieiîntrucât/" (obţinut) cade în zona critică (49,91 > 9,448), se poate respinge

ipoteza de nul. Diferenţele dintre eşantion şi populaţie sunt prea mari pentru aputea fi atribuite întâmplării (la un nivel de încredere de 95%).

De notat că, deşi valoarea pentru % (obţinut) este statistic semnifi-cativă în acest exemplu, această valoare este calculată ţinând cont de toatecategoriile, astfel că nu putem spune care categorie are cea mai marecontribuţie la semnificaţia statistică. Atunci când /2 (obţinut) > x~ (critic).

: Aceasta înseamnă că, odată ce frecvenţele a oricare patru categorii sunt determinate,frecvenţa categoriei rămase este fixată.

153

pentru a afla care categorie are cea mai mare contribuţie la semnificau';)statistică, se calculează reziduul standard pentru licean: cavesiorio cuajutorul următoarei formule:

Formula 10.6. R = -" li"4 fa

Valorile reziduurilor standard pentru fiecare categorie din exempiui ciemai sus se găsesc în tabelul 10.3. Atunci când valoarea absolută (triotinUu;.reziduului standard pentru o categorie este mai mare decât 2,00, se poateconchide că acea categorie are o contribuţie majoră la valoarea sernnif;cativă a lui %~ (obţinut). în exemplul de mai sus, toate reziduurile standa^iîn valoare absolută sunt mai mari decât 2,00. Prin urmare, uuik- cau:^. iiiiccontribuie major la valoarea semnificaiivă a lui /' (obţinut), ctvu ceînseamnă că întreaga distribuţie din eşantion nu concordă cu distribuţii!presupusă de cercetător.

10.2. TESTUL McNEMAR

Testul McNemar este un test nonparametric pentru scinnificoii.-.schimbării. Acest test utilizează distribuţia •/' şi este aplicabil ivnin.!variabile de nivel nominal, în cazul a două eşantioane dependente.

Să presupunem că am alcătuit un eşantion aleatoriu de 38 de ii-mcisalariate şi am solicitat în două momente diferite răspunsul la întrebare;;„Credeţi că organizaţiile feministe vă apără interesele?'' întrebarea a ibsipusă înainte şi după ce femeile clin eşantion au citit o serie de documentedespre astfel de organizaţii. Datele obţinute sunt prczenîaie m umiahuu!tabel 2 x 2 :

Tabelul 10.4. Date pentru calculul/2 în cazul a două eşantioanedependente pentru opinia despre organizaţiile feministe

Dupălecturadocu-mentelor

Nu

Da

Înainte

14

16

de lectura

Da Nu

A

C

B

D

document

6

2

el or

38

Page 77: Statistica  aplicata in psihologie, Dumitru Gheorghiu

154

Este important să remarcăm ordinea intrării datelor în acest tabel.Astfel, celulele A şi D trebuie să fie cele care indică schimbarearăspunsurilor de la un moment la altul - de la Da la Nu (A) şi, respectiv, dela Nu la Da (D) -, iar celulele B şi C trebuie să fie cele care indică absenţaschimbării răspunsurilor de la un moment la altul Fiind vorba despre tabele2 x 2, în cazul testului McNemar, pl= 1.

în acest test ne interesează doar celulele care reflectă schimbareaopiniei despre apărarea intereselor femeilor salariate de către organizaţiilefeministe, i.e. celulele A şi D. Ipoteza de nul pentru testul McNemar enunţăcă, în cazul populaţiei de referinţă, numărul de schimbări într-o direcţie esteegal cu numărul de schimbări în cealaltă direcţie. Aceasta înseamnă că,presupunând că ipoteza de nul este adevărată, frecvenţa aşteptată în celula Ava fi egală cu frecvenţa aşteptată în celula D. Ipoteza alternativă enunţă cănumărul de schimbări într-o direcţie este diferit de numărul de schimbări încealaltă direcţie.

Testul statistic este testul % şi se poate folosi formula 10.2 pentrucalcularea valorii lui/2 (obţinut), dar formula va fi aplicată doar celulelor^şi D. întrucât se presupune că frecvenţele aşteptate din aceste două celulesunt egale, valoarea aşteptată în fiecare dintre aceste două celule este egalăcu (A + D)/2. Astfel, formula de calcul a valorii / (obţinut) pentru testulMcNemar se simplifică după cum urmează:

Formula 10.6. x2 = ^ ~ °^

A + DPentru exemplul de mai sus, testul formal decurge după cum urmează:

Pasul 1. Enunţarea ipotezelorHo: Există un număr egal de schimbări în ambele direcţii.Ha: Numărul de schimbări într-o direcţie este semnificativ diferit

faţă de numărul de schimbări în cealaltă direcţie.

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zoneicritice

Distribuţia de eşantionare = Distribuţia/2

a = 0,05

2 g l = l

X (critic) = 3,841

155

Pasul 3. Calcularea statisticii testului..2_(A~D)2 _ (14-2) 2

A+D 14 + 212 144

= I±_ = 111 = 9,0016 16

Pasul 4. Luarea decizieiîntrucât x (obţinut) cade în zona critică (9,00 > 3,841), se poate

respinge ipoteza de nul. Există o diferenţă statistic semnificativă întrenumărul de schimbări într-o direcţie şi numărul de schimbări în cealaltădirecţie (o diferenţă care nu poate fi pusă pe seama întâmplării). Din tabelul10.4 rezultă că mai multe femei salariate şi-au schimbat opinia de la Da laNu decât de la Nu la Da, iar testul arată că această diferenţă este statisticsemnificativă.

10.3. TESTUL MANN-WHITNEY U

Testul Mann-Whitney U este asemănător în multe privinţe cu testeleparametrice pentru diferenţa dintre mediile aritmetice a două eşantioaneindependente. în ambele cazuri, comparăm două eşantioane independentepentru a face inferenţe despre diferenţele dintre cele două populaţii dereferinţă şi comparăm rezultatul calculării testului statistic cu distribuţia deeşantionare a rezultatelor tuturor eşantioanelor posibile. Pe de altă parte,acest test se bazează pe ordonarea scorurilor eşantioanelor, astfel că esteaplicabil la date de nivel ordinal.

Testul Mann-Whitney U comportă două variante, în funcţie dedimensiunile eşantioanelor. Prezentăm mai întâi testul pentru eşantioanemici (n\ < 20 şi n2 < 20).

Să presupunem că ne preocupă diferenţa pe sexe privind nivelul desatisfacţie în raport cu serviciile sociale oferite într-un campus universitar.Pentru aceasta, selectăm aleatoriu două eşantioane de studenţi, băieţi şi fete,cu n\ = 10 şi n2 = 10, şi administrăm o scală în care un scor înalt indică unnivel înalt de satisfacţie. Scorurile obţinute sunt prezentate în tabelul 10.5.

Page 78: Statistica  aplicata in psihologie, Dumitru Gheorghiu

156

Tabelul 110.5. Scoruri ale satisfacţiei exprimate în raport cuserviciile sociale oferite într-un campus universitar

Eşantionul 2 (studenţi)

4 •

5 '6

1. ...89

:b •

1415171925

3542

a?.ulîl ;12 '.13 " i

îi !Î 5 ''•

16 ;

1 7 ';"•

Î8 ! 'Î9 '""20 :

Scorul

io2024 ;

''2627283032 :

4045 j

Rangul3

.'.'" 89 ' '"11121314,5161820

27?. = 124.5

Rijantionul 1 (studente)Cazul , Scorul i l̂ angur

24 '

[ 56710

14,51719

Mai întâi, aranjăm scorurile din fiecare eşantion în ordine crescătoare(sau descrescătoare). Apoi, considerăm scorurile combinate ale celor douăeşantioane ca şi cum ar li vorba despre un singur eşantion şi acordămraisgisri .scorurilor combinate, de ia cei mai mic la cel mai marc scor.AsLlel, acordăm rangul 1 celui mai mic scor (5), rangul 2 scorului imediaturmător (°) ş.a.m.d. până la cel mai mare scor (45). Dacă întâlnim două saumai multe scoruri identice (două sau mai multe cazuri cu acelaşi scor),procedăm după cum urmează:

- considerăm rangurile pe care aceste scoruri le-ar fi avut dacă ar fifost diferite şi imediat succesive:

calculăm media aritmetică a acestor ranguri;» atribuim fiecărui scor rangul mediu astfel obţinut.

în exemplul nostru, cazurile 8 şi 17 au acelaşi scor. 30. Scoruluicazului 8 i-am fi atribuit rangul 14, iar scorului cazului 17 i-am fi atribuitscorul 15. Prin urmare, atribuim ambelor scoruri rangul 14,5 ((14 + 15)/2),iar scorului imediat următor în ordine crescătoare (32) îi atribuim rangul 16(rangul pe care l-ar fi avut acest scor, dacă cele două scoruri 30 ar fi fosttiiferite). După această operaţie, calculăm suma rangurilor pentru fiecareeşantion. Intuitiv vorbind, dacă cele două eşantioane reprezintă populaţiicare nu diferă semnificativ între ele sub aspectul variabilei măsurate, atuncicele două sume sunt apropiate ca valoare. Dacă. însă, cele două esanc ..:~"

157

reprezintă populaţii care diferă semnificativ între ele sub aspectul variabileimăsurate, atunci cele două sume sunt mult diferite.

Calcularea statisticii testului presupune mai întâi calcularea a douămărimi statistice, U\ şi Ui, cu ajutorul următoarelor formule:

Formula 10.7. {./,

Formula 10.8. U, =n,

2— T.R,

în aceste formule, n\ şi n2 sunt, respectiv, dimensiunile celor douăeşantioane, iar 27?, şi ER2 sunt, respectiv, sumele rangurilor pentru eek'două eşantioane.

Odată calculate cele două mărimi, U\ şi U2, se ia drept valoare pentruU (obţinut) cea mai mică dintre valorile U\, U2: U (obţinut) = min (U,, U2).

Pentru a stabili valoarea critică din distribuţia de eşantionare a valorilorU, folosim tabelul valorilor critice pentru testul Mann-Whitney V(anexa F). Pe prima linie şi pe prima coloană din stânga ale acestui tabelsunt trecute dimensiunile a două eşantioane, de la 1 la 20. Pe ce-a de-a douacoloană din stânga, pentru fiecare dimensiune de eşantion, apar nivelurile cpentru un test unilateral (direcţional). în cazul unui test bi!atcn>!(nondirecţional). nivelul a dat se localizează înmulţind cu doi valoare,;aflată pe cea de-a doua coloană din stânga. Valoarea critică, U (critic), si,află la intersecţia liniei corespunzătoare dimensiunii unui eşantion la pivelu!a ales cu coloana corespunzătoare dimensiunii celuilalt eşantion. în sxempiui nostru, având n\ = 10 şi n2 = 10, pentru a = 0,05 (test nondirecţional)[/(critic) = 23.

Ipoteza de nul este, ca întotdeauna, un enunţ de tipul „nici o uifeienţă".dar este formulată în termeni mai generali decât în cazul tcstelo:parametrice: nu există nici o diferenţă în privinţa scorurilor populaţiilorrespective sub aspectul variabilei de interes. în exemplul nostru, ipoteza denul enunţă că nu există nici o diferenţă între studente şi studenţi subaspectul satisfacţiei exprimate în raport cu serviciile sociale oferite încampus. De regulă, ipoteza alternativă enunţă că populaţiile din care au fostselectate eşantioanele sunt diferite sub aspectul variabilei ele interes.Această formă a ipotezei de nul conduce la un test nondirecţional. Desigur,putem apela la un test direcţional, atunci când sensul diferenţei poate fiprezis, i.e. atunci când putem prezice că scorurile unei populaţii sunt maimari sau mai mici decât scorurile celeilalte populaţii. într-un testnondirecţional, regula de decizie este următoarea:

se respinge H{). dacă U(obţinut) (/(critic).

Page 79: Statistica  aplicata in psihologie, Dumitru Gheorghiu

158

De remarcat că ipoteza de nul se respinge dacă valoarea obţinută estemai mică decât cea critică. Această regulă diferă de regulile de decizie dincele mai multe teste de semnificaţie, în care ipoteza de nul este respinsădacă valoarea obţinută este mai mare decât cea critică.

Dacă se poate prezice că scorurile populaţiei 1 sunt mai mari decât celeale populaţiei 2, regula de decizie este

se respinge H$, dacă U{ U (critic),iar dacă se poate prezice că scorurile populaţiei 1 sunt mai mici decât celeale populaţiei 2, regula de decizie este

se respinge Ho, dacă U% U (critic).Testul formal decurge după cum urmează:

Pasul 1. Enunţarea ipotezelorHo: Satisfacţia] = Satisfacţia2Ha: Satisfacţia] =£ Satisfacţia2

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zoneicritice

Distribuţia de eşantionare = Distribuţia Ua = 0,05 (test nedirecţional)

[/(critic) = 23

Pasul 3. Calcularea statisticii testului

=(10-10) -85,5 = 100 + 55 -85,5 = 69,5

= 100 + 55-124,5 = 30,5

Pasul 4. Luarea decizieiîntrucât U(obţinut) > [/(critic) (30,5 > 23), nu putem respinge ipoteza

de nul. Studentele nu diferă semnificativ de studenţi sub aspectul niveluluide satisfacţie în raport cu serviciile sociale oferite în campus (la un nivel deîncredere de 95%).

159

Atunci când n\ > 20 şi «2 > 20, distribuţia de eşantionare pentru U seapropie de distribuţia normală, astfel încât putem folosi tabelul scorurilor Zpentru a stabili zona critică. Luând drept cadru modelul în patru paşi, înpasul 2, distribuţia de eşantionare este distribuţia Z, zona critică fiind ceamarcată de Z (critic). în funcţie de nivelul a ales şi de tipul de test(unilateral sau bilateral). Formula pentru Z (obţinut) este următoarea:

Formula 10.9. Z =

în care fiu = media aritmetică a distribuţiei de eşantionare a valorilor Upentru toate eşantioanele posibile;

au = abaterea standard a distribuţiei de eşantionare a valorilor[/pentru toate eşantioanele posibile.

Valorile pentru /xy şi (?u se calculează cu ajutorul următoarelor formule:

Formula 10.10. n f / = - ^

Formula 10.11. arr =+n2 +1)

12

Prin urmare, în pasul 3 lucrăm cu următoarea formulă:

U n\n2

Formula 10.12. Z =

12în fine, în pasul 4 se utilizează procedura de decizie cunoscută pentru

testul Z.

10.4. TESTUL MEDIANEI

Testul medianei este un test nonparametric pentru egalitatea a douămediane. Acest test utilizează distribuţia^2 şi este aplicabil în cazul a douăeşantioane independente, pentru variabile măsurate la nivel ordinal.

Să presupunem că ne interesează atitudinea femeilor salariate şi a celorcasnice faţă de mişcările feministe. Alcătuim un eşantion de 10 femeisalariate şi un eşantion de 10 femei casnice şi administrăm un chestionaradecvat. Scorurile obţinute sunt prezentate în tabelul 10.6.

Page 80: Statistica  aplicata in psihologie, Dumitru Gheorghiu

160

I aiului 10.6. Atitudine;! faţă de mişcările feministea femeilor salariate şi a casnicelor

Eşantionul 1 (salariate)('azul

12345678910

Scorul ' R. 19i T I

\ 28 i

: 32

i 34 ;i 37 •: Ai)

42: 4 { ' ' ;

4 6 •

angnl l

3

811 ;

13 ':14 ;17 ::18 ;19 ;20 l

Eşantionul 2 (casnice)Cazul

11121314151617181920

; Scorul •1618

i 21 :; 26 ;

; 27 ii 29

! 31 :• 3 3 :

! 38 :: 39 j

Rant1

i

4679

10121516

Mai întâi, aranjăm scorurile clin flecare eşantion în ordine crescătoare(sau descrescătoare). Apoi, consideram scorurile combinate ale celor douăeşantioane ca şi cum ar li vorba despre un singur eşantion şi aflăm medianiiscorurilor combinate, l'enlru a înlesni aflarea medianei scorurilor combinateeste recomandabil să acordam ranguri scorurilor. întrucât avem un numărpar de cazuri (20), mediana va fi media aritmetica a scorurilor celor douăcazuri de mijloc, 3I şi 32:

,; 3 I i 32A' •=—-— = 31,5

Cu ajutorul unui tabel 2 x 2, prezentăm pentru fiecare eşantionnumărul de scoruri aliate deasupra şi sub mediana scorurilor combinate:

Eşantion 1 Eşantion 2

Deasupramedianei

Submediană

10

10

7

3

//

C

B

D

3

7

IO

10

20

Fiind un tabel 2 x 2 , numărul de grade de libertate este egal cu

161

Ipoteza de nul pentru testul medianei enunţă că populaţiile din care aufost selectate cele două eşantioane au aceeaşi mediană (jTj = p72), iaripoteza alternativă enunţă că medianele celor două populaţii sunt diferite(£i * £2 )•

în general, formula de calcul a valorii x (obţinut) pentru testulmedianei este formula 10.2. Pentru un tabel 2 x 2 , notând celulele ca maisus, formula de calcul poate fi simplificată, după cum urmează:

Formula 10.13. %2 =- n{AD-BC)2

{A + B)(C + D)(A + C)(B + D)în termenii modelului în patru paşi, testul decurge după cum urmează:

Pasul 1. Enunţarea ipotezelor

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zoneicritice

Distribuţia de eşantionare = Distribuţia^2

a = 0,05

/(critic) = 3,841

Pasul 3. Calcularea statisticii testului

n(AD-BCf 20(7-7-3-3)2

101010-10= 3,20

Pasul 4. Luarea decizieiîntrucât/2 (obţinut) nu cade în zona critică (3,20 < 3,841), nu se poate

respinge ipoteza de nul, ceea ce înseamnă că nu există nici o diferenţăstatistic semnificativă între femeile salariate şi cele casnice în privinţaatitudinii faţă de mişcările feministe (la un nivel de încredere de 95%).

10.5. TESTUL ITERAŢIILOR

Testul iteraţiilor este similar ca logică şi formă cu testul Testul Mann-Whitney U. Ipoteza de nul enunţă că nu există o diferenţă semnificativăîntre populaţiile de referinţă sub aspectul variabilei de interes. Pentru aaplica acest test, se combină scorurile celor două eşantioane, după care

Page 81: Statistica  aplicata in psihologie, Dumitru Gheorghiu

162

aceste scoruri se ordonează crescător (sau descrescător) ca şi cum ar fivorba despre un singur eşantion. Dacă ipoteza de nul este adevărată, atunciscorurile vor fi foarte amestecate şi vom avea multe iteraţii. O iteraţie(repetare) este orice succesiune de R elemente de acelaşi fel, cu R > 1. Dacăipoteza de nul este falsă, populaţiile fiind diferite sub aspectul variabilei deinteres, atunci vor fi foarte puţine iteraţii.

Pentru a ilustra noţiunea de iteraţie, să considerăm datele dintabelul 10.5 şi să folosim F pentru studente şi B pentru studenţi. Obţinemurmătoarele iteraţii:

£F B F F F F BB F B B B B F B F B F B1 2 3 4 5 6 7 8 9 10 11 12

Cele două litere F din extrema stângă reprezintă două studente care aucele mai mici scoruri din ambele eşantioane; următoarea literă, B,reprezintă un student cu scorul următor în ordine crescătoare ş.a.m.d. Denotat că nici o iteraţie alcătuită din elemente de un anumit tip nu seînvecinează cu o iteraţie alcătuită din elemente de acelaşi tip. Dacă, depildă, am considera primul element al iteraţiei 3 drept o iteraţie distinctă,atunci aceasta s-ar învecina la dreapta cu o iteraţie alcătuită din elemente deacelaşi tip, F.

Diferenţa dintre eşantioane, deci dintre populaţii, este cu atât maisemnificativă cu cât numărul de iteraţii este mai mic. Cel mai mic număr deiteraţii posibil este, desigur, 2. în exemplul de mai sus, dacă toţi studenţii arexprima o satisfacţie mai mare decât studentele în raport cu serviciilesociale din campus, am fi obţinut următoarele două iteraţii:

B B B B B B B B B B F F F F F F F F F F1 2

Evident, numărul maxim posibil de iteraţii este egal cu numărul decazuri din cele două eşantioane.

Este important de reţinut că, în aplicarea acestui test, cazurile care nufac parte din acelaşi eşantion şi au scoruri identice pot crea problemeserioase, deoarece numărul de iteraţii poate fi mult afectat de felul în caresunt aranjate cazurile cu scoruri identice. Dacă întâlnim multe cazuri cuscoruri identice în eşantioane diferite este recomandabil să folosim alt testde semnificaţie.

Distribuţia de eşantionare pentru iteraţii aproximează normalitatea.Media aritmetică a acestei distribuţii (\iR) şi abaterea sa standard (aR) secalculează cu ajutorul următoarelor formule:

163

2n,+ 1Formula 10.14. \iR =

Formula 10.15. a,? =

Statistica testului iteraţiilor, Z (obţinut), se calculează cu următoareaformulă:

Formula 10.16. Z = R~^R

în care R = numărul de iteraţii.

Pentru a ilustra aplicarea acestui test, să presupunem că douăeşantioane aleatorii alcătuite, respectiv, din bărbaţi şi femei au fostchestionate cu privire la atitudinea faţă de politică şi politicieni. Scorurilesunt prezentate în următorul tabel:

Tabelul 10.7. Atitudinea faţă de politică şi politicieni pentrudouă eşantioane de bărbaţi şi, respectiv, femei

Cazul1234

L 5

6

iZJ1 8

910

BărbaţiScorul

1

i2

1 235„.„

791Q

Cazul21222324252627282930

Femeij Scorul

0o j4 .466 |8121213

[I

BăCazul

11121314

" 15 "16

rbaţiScorul

10151717

"""'l8~19

Cazul3132

h 33343536

Femei

Scorul14161621

" 21JL 21

Page 82: Statistica  aplicata in psihologie, Dumitru Gheorghiu

164

17

1 ?_

20

"W.~22_"23

37

JŞ940~"

25 j26 |

27 I

Să observăm că aici nu există scoruri identice în eşantioane diferite(scorurile identice în acelaşi eşantion nu au nici o influenţă asupranumărului de iteraţii). Folosind tot literele B şi F, obţinem următoareleiteraţii:

FF B B B B B £F BJJ F_F B F B B B F F F F B FF1 2 3 4 5 6 7 8 9 1 0 1 1

BBBB FFF BBB FFFF12 13 14 15

în aceste date se află 15 iteraţii şi putem acum să aplicăm testul formalpentru semnificaţie.

Pasul 1. Enunţarea ipotezelorHQ: Atitudineai = Atitudinea2

Hu: Atitudinea] * Atitudinea2

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zoneicritice

Distribuţia de eşantionare = Distribuţia Za = 0,05

Z (critic) = ±1,96

Pasul 3. Calcularea statisticii testului

nx+n220 + 20

a» =\lnxn2{2nxn2 -nx-n2) _ /2-20-20(2-20-20-20-20(n 1 +« 2 ) 2 (n I +n 2 - l) ~\ (20 + 20)2(20 + 20-l)

Z =R-VR _ 15-21 = -1,92

165

Pasul 4. Luarea decizieiîntrucât Z (obţinut) > -Z (critic) (-1,92 > 1,96), rezultatul statisticii

testului nu cade în zona critică. Prin urmare, nu putem respinge ipoteza denul. în exemplul de mai sus, bărbaţii şi femeile nu diferă semnificativ înprivinţa atitudinii faţă de politică şi politicieni.

10.6. TESTUL WILCOXON T

Testul Wilcoxon T este un test pentru semnificaţia diferenţei dintredouă eşantioane dependente, aplicabil pentru date de nivel ordinal. Astfel,testul este folosit în mod obişnuit atunci când selectarea cazurilor pentru uneşantion influenţează selectarea cazurilor pentru celălalt eşantion, având carezultat considerarea unor perechi de cazuri, unul dintr-un eşantion, altuldin celălalt eşantion, sau în situaţii în care aceiaşi subiecţi sunt testaţiînainte şi după un anumit tratament.

Ca şi Testul Mann-Whitney U, testul Wilcoxon T comportă douăvariante, în funcţie de dimensiunile eşantioanelor. Prezentăm mai întâitestul pentru eşantioane mici (n\ < 25 şi «2 ^ 25).

Pentru ilustrare, să presupunem că ne interesează comportamentulagresiv al adolescenţilor cu dificultăţi de învăţare, înainte şi după o serie deşedinţe de consiliere. Pentru aceasta, am selectat un eşantion aleatoriude \2 adolescenţi cu dificultăţi de învăţare. Măsura comporta-mentulmagresiv reprezintă media aprecierilor oferite de cinci consilieri. Aprecierileau fost făcute înainte şi după tratament. Problema pe care ne-o punem esteurmă-toarea: comportamentul agresiv al adolescenţilor cu dificultăţi deînvăţare poate fi diminuat prin astfel de şedinţe de consiliere? După cum sepoate constata, ca şi în cazul altor teste nonparametrice, ipoteza de nul şiipoteza alternativă în cazul testului Wilcoxon T se enunţă în termenigenerali.

Datele obţinute sunt prezentate în tabelul 10.8, în care un scor înaltindică un comportament agresiv.

Page 83: Statistica  aplicata in psihologie, Dumitru Gheorghiu

166

Tabelul 10.8. Scoruri ale comportamentului agresiv pentruadolescenţi cu dificultăţi de învăţare

Cazul

123456789101112

ScorulPretrata-

ment362348544032504436293345

ScorulPosttra-tament

212436303235434030272236

ScorulDife-rentă_

15-112248

-37462119

Ranguldife-ren|ei___

11-110127

-3645298

Ranguri cu celmai puţin

frecvent semn

1

3

T (obţinut) = 4

Pentru calcularea statisticii testului se procedează după cum urmează:1. Pentru fiecare caz, se calculează diferenţa dintre scorulpretratament şi scorul posttratament; rezultatul scăderii se numeştescor diferenţă.2. Se atribuie ranguri valorilor absolute ale scorurilor diferenţă(modulelor scorurilor diferenţă), începând cu cea mai mică valoareabsolută; rangurile scorurilor diferenţă pozitive primesc semnul +,iar rangurile scorurilor diferenţă negative primesc semnul -.3. Se însumează valorile absolute ale rangurilor cu semnul care arecele mai puţine apariţii; rezultatul însumării reprezintă valoareapentru T (obţinut).

Ca şi în cazul testului iteraţiilor, în aplicarea testului Wilcoxon T,cazurile care nu fac parte din acelaşi eşantion şi au scoruri identice pot creaprobleme serioase. Dacă întâlnim multe cazuri cu scoruri identice îneşantioane diferite este recomandabil să folosim alt test de semnificaţie.

Pentru a stabili valoarea critică din distribuţia de eşantionare a valorilor T,folosim tabelul valorilor T critice, elaborat de Frank Wilcoxon (anexa G).în acest tabel sunt date valorile T critice pentru diferite niveluri a şi diferitedimensiuni ale eşantioanelor-perechi. în exemplul de faţă, cu n = 12, pentrua = 0,01 (test unilateral), T (critic) = 10.

167

Ipoteza de nul enunţă că nu există nici o diferenţă în privinţacomportamentului agresiv al populaţiei de adolescenţi cu dificultăţi deînvăţare, înainte şi după o serie de şedinţe de consiliere. Ipoteza alternativă,în conformitate cu datele problemei, enunţă că agresivitatea adolescenţilorcu dificultăţi de învăţare este diminuată după respectivele şedinţe deconsiliere. Această ipoteză alternativă conduce la un test unilateral stânga,în care vom respinge ipoteza de nul dacă T (obţinut) < T (critic). în cazulunui test unilateral dreapta, se respinge ipoteza de nul dacă T (obţinut) > T(critic). Pentru un test bilateral, se respinge ipoteza de nul dacă T (obţinut)< T (critic) sau T (obţinut) > T (critic).

în termenii modelului în patru paşi, testul decurge după cum urmează:

Pasul 1. Enunţarea ipotezelorHQ. NU există nici o diferenţă în privinţa comportamentului agresival populaţiei de adolescenţi cu dificultăţi de învăţare, înainte şidupă o serie de şedinţe de consiliere.Ha: Comportamentul populaţiei de adolescenţi cu dificultăţi deînvăţare este mai puţin agresiv după şedinţele de consiliere.

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zoneicritice

Distribuţia de eşantionare = Distribuţia Ta = 0,01 (test unilateral stânga)

T (critic) = 10

Pasul 3. Calcularea statisticii testuluiDupă cum am văzut în tabelul 10.8, calculăm scorurile diferenţă şi

atribuim ranguri valorilor absolute ale acestor scoruri începând cu cea maimică valoare absolută, păstrând semnele corespunzătoare. Rangurile cusemnul care are cele mai puţine apariţii, considerate în valoare absolută,sunt 1 şi 3; prin însumarea acestor valori, găsim T(obţinut) = 4.

Pasul 4. Luarea decizieiîntrucât T (obţinut) < T (critic) (4 < 10), respingem ipoteza de nul şi

conchidem că agresivitatea adolescenţilor cu dificultăţi de învăţare poate fidiminuată prin şedinţele de consiliere.

Atunci când n\ > 25 şi n2 > 25, distribuţia de eşantionare pentru T seapropie de distribuţia normală, astfel încât putem folosi tabelul scorurilor Zpentru a stabili zona critică. în pasul 3, după ce determinăm valoarea pentru

Page 84: Statistica  aplicata in psihologie, Dumitru Gheorghiu

168

T (obţinut), folosim mai întâi următoarele formule pentru determinareamediei aritmetice a distribuţiei de eşantionare a valorilor T ( u r ) şi,respectiv, a abaterii standard a acestei distribuţii (<yT):

Formula 10.17. aT = -i '-

Formula 10.18. a> =24

în aceste formule, n reprezintă numărul de cazuri din fiecare eşantionsau, altfel spus, numărul de perechi de cazuri alcătuite din cele douăeşantioane.

Z (obţinut) se calculează cu următoarea formulă:

Formula 10.19. Z=T~^r

Procedura de decizie este cea uzuală pentru testul Z.

10.7. TESTUL KRUSKAL-WALLIS H

Testul Kruskal-Wallis H este analogul nonparametric al testuluiANOVA unifactorial şi este aplicabil la date de nivel ordinal.

Să presupunem că ne interesează diferenţele dintre cadrele didacticedin învăţământul primar, cel gimnazial şi cel liceal sub aspectulcomportamentului autoritar faţă de elevi. Alcătuim eşantioane din cele treipopulaţii cu, respectiv, n\ = 6, ni = 5 şi «3 = 6 şi administrăm subiecţilor oscală de autoritate. Datele obţinute sunt prezentate în tabelul 10.9, în carescorurile mari indică un comportament mai autoritar.

Tabelul 10.9. Comportamentul autoritar al cadrelor didacticedin învăţământul primar, gimnazial şi liceal

Cadre didactice dinînvăţământul primarScorul

464852545762

jlangul__124679

IR, = 29

Cadre didactice dinînyătământuljgirnnazialScorul

49h 53

646668

Rangul35111314

I R 2 = 46

Cadre didactice dinînvăţământul licealScorul j Rangul

L J58 i___ 863 ) 1065 1 1270 1 1571 ! 1673 1 17

1 ZR3 = 78

169

Considerând scorurile combinate ale celor trei eşantioane ordonatecrescător, atribuim rangul 1 celui mai mic scor (46), rangul 2 scoruluiimediat următor (48) ş.a.m.d. până la cel mai mare scor (73). Dacă întâlnimdouă sau mai multe scoruri identice, procedăm în maniera indicată în cazultestului Mann-Whitney U. Calculăm apoi suma rangurilor pentru fiecareeşantion.

Ipoteza de nul pentru testul Kruskal-Wallis //este analoagă ipotezei denul pentru testul ANOVA unifactorial, fiind însă enunţată în termeni maigenerali: nu există nici o diferenţă în privinţa scorurilor celor k populaţii dincare au fost alcătuite eşantioanele sau, altfel spus, populaţiile din care aufost alcătuite eşantioanele sunt identice sub aspectul variabilei de interes.Ipoteza alternativă enunţă că cel puţin două dintre cele k populaţii diferăsub aspectul variabilei de interes.

De notat că o condiţie de aplicabilitate a acestui test este ca n, >5,j =1,2,...,*.

Calcularea statisticii testului constă în aflarea valorii unei mărimistatistice, H, cu ajutorul următoarei formule:

Formula 10.20. H = 12N(N

în care N = numărul total de cazuri din cele k eşantioane;IRj = suma rangurilor din eşantionuly,/ = 1,2,..., k;rij = numărul de cazuri din eşantionul j, j = 1,2, ..., k.

Distribuţia de eşantionare în testul Kruskal-Wallis //este distribuţia/cu k - 1 grade de libertate. Ipoteza de nul este respinsă dacă valoarea lui Heste mai mare decât valoarea critică % corespunzătoare nivelului a ales şinumărului de grade de libertate.

In termenii modelului în 4 paşi, testul pentru exemplul de mai susdecurge după cum urmează:

Pasul 1. Enunţarea ipotezelorHQ. NU există nici o diferenţă în privinţa comportamentuluiautoritar faţă de elevi al cadrelor didactice de la cele treiniveluri de învăţământ.//«: Cel puţin două din cele trei populaţii de cadre didacticediferă sub aspectul comportamentului autoritar faţă de elevi.

Page 85: Statistica  aplicata in psihologie, Dumitru Gheorghiu

170

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zoneicritice

Distribuţia de eşantionare = Distribuţia/2

a = 0,05g/ = * - l = 3 - l = 2

/(crit ic) = 5,991

Pasul 3. Calcularea statisticii testului

H = 3(tf + l) =

-3(17 + 1) = 7,86

Pasul 4. Luarea deciziei

întrucât H(7,86) > x (critic) (5,991), putem respinge ipoteza de nul.Examinarea datelor indică faptul că profesorii de liceu sunt mai autoritaridecât cei din învăţământul gimnazial şi primar şi profesorii din învăţă-mântul gimnazial sunt mai autoritari decât cei din învăţământul primar, iartestul arată că aceste diferenţe sunt statistic semnificative.

171

GLOSAR

Celulă: intersecţia unui rând cu o coloană într-un tabel al contingenţelor. Celuleleindică numărul de cazuri clasificate concomitent în câte două categorii ale celordouă variabile.

Iteraţie: orice succesiune de R elemente de acelaşi fel, cu R > 1.Marginal: subtotal pentru o coloană şi un rând într-un tabel al contingenţelor.

Marginalele indică distribuţiile de frecvenţe pentru fiecare categorie avariabilei respective sau, altfel spus, distribuţiile univariate de frecvenţe alefiecărei variabile.

Tabel al contingenţelor: tabel rectangular în care cazurile dintr-un eşantion suntclasificate concomitent după categoriile a două variabile. Denumirilecategoriilor unei variabile sunt folosite drept titluri de coloane, iar denumirilecategoriilor celeilalte variabile sunt folosite drept titluri de rânduri.

Teste nonparametrice: teste de semnificaţie care nu necesită supoziţii particularedespre forma distribuţiei populaţiilor de referinţă, astfel încât pot fi aplicate înspecial atunci când se lucrează cu eşantioane mici. Testele nonparametrice suntcu deosebire utile în psihologie, întrucât pot fi aplicate pentru variabilemăsurate la nivel nominal sau ordinal.

Testul chi-pătrat Of2) : test nonparametric pentru două variabile măsurate la nivelnominal şi organizate într-un tabel al contingenţelor. Esenţa acestui test constăîn compararea frecvenţelor observate - frecvenţele efective obţinute empiricde către cercetător — cu frecvenţele teoretice sau aşteptate - frecvenţelecalculate sub presupunerea că ipoteza de nul este adevărată.

Testul iteraţiilor: test nonparametric pentru două variabile măsurate la nivelordinal.

Testul Kruskal-Wallis H: este analogul nonparametric al testului ANOVAunifactorial, aplicabil la date de nivel ordinal.

Testul Mann-Whitney U: test nonparametric pentru două variabile măsurate lanivel ordinal.

Testul McNemar: test nonparametric pentru semnificaţia schimbării; acest testutilizează distribuţia ^ şi este aplicabil pentru variabile de nivel nominal, încazul a două eşantioane dependente.

Testul medianei: test nonparametric pentru egalitatea a două mediane; acest testutilizează distribuţia % şi este aplicabil în cazul a două eşantioane indepen-dente, pentru variabile măsurate la nivel ordinal.

Testul Wilcoxon T: test nonparametric pentru semnificaţia diferenţei dintre douăeşantioane dependente, aplicabil pentru date de nivel ordinal.

Variabile independente: două variabile sunt independente dacă, pentru toatecazurile din eşantionul considerat, clasificarea unui caz într-o categorie a uneivariabile nu are nici un efect asupra probabilităţii ca acel caz să fie clasificat înoricare dintre categoriile celeilalte variabile.

Page 86: Statistica  aplicata in psihologie, Dumitru Gheorghiu

11. MĂRIMI ALE CORELAŢIEI

Mărimile corelaţiei sunt mărimi statistice complementare testelor desemnificaţie şi permit cuantificarea importanţei (tăriei) unei relaţii dintrevariabile. Psihologii sunt interesaţi să descopere dacă există relaţii întrevariabile precum inteligenţa şi creativitatea, vechimea în muncă şisatisfacţia faţă de profesia practicată, timpul afectat vizionării emisiunilorTV şi performanţele şcolare etc. Mărimile corelaţiei sunt folosite înprincipal pentru înţelegerea relaţiilor cauzale dintre variabile şi pentrupredicţia de la o variabilă la alta. Să precizăm. Deşi mărimile corelaţiei nupot fi folosite pentru a dovedi existenţa relaţiilor cauzale, informaţiilefurnizate de acestea pot fi folosite ca argumente în favoarea sau împotrivaexistenţei relaţiilor cauzale. Pe de altă parte, dacă două variabile suntcorelate, atunci putem aprecia scorurile unei variabile pe baza cunoaşteriiscorurilor în privinţa celeilalte variabile. In psihologie, o astfel de aprecierese numeşte predicţie. O predicţie este cu atât mai precisă cu cât corelaţiadintre cele două variabile este mai puternică.

în cele ce urmează, vom folosi tabelele cu dublă intrare pentru aintroduce noţiunea de corelaţie, vom prezenta calcularea şi interpretareadiferitelor mărimi ale corelaţiei bivariate (corelaţia dintre două variabile) şivom aborda unele aspecte ale corelaţiei multivariate (corelaţia dintre maimult de două variabile).

11.1. NOŢIUNEA DE CORELAŢIE

Se spune că două variabile sunt corelate dacă distribuţia scoruriloruneia dintre acestea se schimbă sub influenţa scorurilor celeilalte.

Să presupunem că ne interesează relaţia dintre satisfacţia faţă demeseria practicată şi productivitatea muncii pentru muncitorii unei fabrici.Dacă aceste două variabile sunt corelate, atunci nivelurile de productivitatea muncii vor varia sub influenţa nivelurilor de satisfacţie. Tabelul 11.1prezintă relaţia în discuţie pentru un eşantion de 173 de muncitori (datefictive).

Page 87: Statistica  aplicata in psihologie, Dumitru Gheorghiu

174

Tabelul 11.1. Productivitatea şi satisfacţia faţă de meseria practicată

Productivitatea(Y)

înaltăMedieScăzutăTOTAL

Satisfacţia fată de meserie (X)Scăzută

10203060

Medie15252161

înaltă27187

52

TOTAL526358173

Ca şi până acum, într-un tabel cu dublă intrare vom urma convenţiatacită de a lua denumirile categoriilor variabilei independente (X) dreptcapete de coloane, iar denumirile categoriilor variabilei dependente (Y)drept capete de rânduri.

Intr-un astfel de tabel, distribuţiile de frecvenţe „pe coloană" suntnumite distribuţii condiţionate ale variabilei dependente, deoareceprezintă distribuţia scorurilor variabilei dependente pentru fiecare scor(condiţie) al (a) variabilei independente. De pildă, în tabelul 11.1, primacoloană din stânga arată că din 60 de muncitori cu satisfacţie scăzută faţă demeseria practicată, 10 sunt înalt productivi, 20 sunt mediu productivi, iar 30au o productivitate medie. Inspectarea acestor distribuţii condiţionate nepermite să observăm efectele variabilei independente asupra variabileidependente. Astfel, constatăm că distribuţiile condiţionate ale variabileiproductivitate se schimbă în funcţie de diferitele scoruri ale variabileisatisfacţie. De pildă, jumătate dintre muncitorii cu satisfacţie scăzută faţă demeserie (30) au o productivitate scăzută, în timp ce peste jumătate dintremuncitorii cu satisfacţie înaltă faţă de meserie (27) au o productivitateînaltă. Aceasta arată că productivitatea în muncă şi satisfacţia faţă demeseria aleasă sunt corelate.

In tabelul 11.1, compararea distribuţiilor condiţionate ale variabileidependente este uşor de făcut, deoarece marginalele coloanelor au valoriapropiate. în mod obişnuit, nu aceasta este situaţia şi de aceea este util săcontrolăm distribuţiile condiţionate care dau totaluri diferite prin calculareaprocentelor corespunzătoare în sensul variabilei independente (pe coloane)şi apoi să le comparăm în sensul variabilei dependente (pe rânduri). întabelul 11.2 sunt prezentate procentele pentru datele din tabelul 11.1 (valorirotunjite), calculate în modul indicat.

175

Tabelul 11.2. Productivitatea şi satisfacţia faţă de meseria practicată(în procente)

Productivitatea(Y)

înaltăMedieScăzutăTOTAL

Satisfacţia faţă de meserie (X)Scăzută

17%3350

100%(60)

Medie25%4134

100%(61)

înaltă52%3513

100%(52)

Să observăm că în tabelul 11.2 marginalele rândurilor au fost omise,iar marginalele coloanelor, faţă de care au fost calculate procentele, suntprezentate între paranteze.

Putem vedea imediat că poziţia celulei cu cea mai mare frecvenţărelativă se schimbă de la o coloană la alta. Astfel, pentru muncitorii cu unnivel de satisfacţie scăzut, celula cu cea mai mare frecvenţă relativă (50%)se află pe ultimul rând; pentru muncitorii cu un nivel mediu de satisfacţie,celula cu cea mai mare frecvenţă relativă (41%) se află pe rândul dinmijloc; în fine, pentru muncitorii cu un nivel înalt de satisfacţie, celula cucea mai mare frecvenţă relativă se află pe primul rând. Aceste rezultateîntăresc concluzia că există o corelaţie între cele două variabile.

Dacă două variabile nu sunt corelate, atunci distribuţiile condiţionateale variabilei dependente nu se vor modifica de la o coloană la alta sau,altfel spus, distribuţiile variabilei dependente vor fi aceleaşi pentru fiecarecondiţie a variabilei independente. Dacă, de pildă, în loc de variabilasatisfacţie am lua variabila culoarea părului, am obţine în fiecare celulă,probabil, un procent de aproximativ 33,3%.

Dacă două variabile sunt corelate, iar variabilele respective se află celpuţin la nivel ordinal, atunci se poate indica un sens al corelaţiei. Acestapoate fi pozitiv (direct) sau negativ (invers). De pildă, dacă se constată căperformanţele şcolare ale unui eşantion de elevi într-o anumită perioadăsunt cu atât mai bune cu cât elevii respectivi au afectat un număr mai marede ore pe săptămână studiului individual în acea perioadă, atunci se spunecă între studiul individual şi performanţele şcolare există o corelaţiepozitivă. Dacă se constată că performanţele şcolare ale unui eşantion deelevi sunt cu atât mai slabe cu cât elevii respectivi au afectat un număr maimare de ore pe săptămână vizionării emisiunilor TV, atunci se spune căîntre vizionarea emisiunilor TV şi performanţele şcolare există o corelaţienegativă. în general, două variabile sunt corelate pozitiv la nivelul unui

Page 88: Statistica  aplicata in psihologie, Dumitru Gheorghiu

176

eşantion dacă subiecţii din eşantion care au scoruri înalte în privinţa uneivariabile au scoruri înalte şi în privinţa celeilalte variabile, iar cei care auscoruri joase în privinţa unei variabile au scoruri joase în privinţa celeilaltevariabile. Altfel spus, într-o corelaţie pozitivă, o variabilă creşte saudescreşte în valoare după cum creşte sau descreşte cealaltă. Tabelul 11.2.arată că variabilele satisfacţie şi productivitatea muncii sunt corelatepozitiv: un nivel înalt de satisfacţie este asociat cu un nivel înalt deproductivitate, satisfacţia medie este asociată cu productivitatea medie, iarsatisfacţia scăzută cu productivitatea scăzută. Două variabile sunt corelatenegativ la nivelul unui eşantion dacă subiecţii din eşantion care au scoruriînalte în privinţa unei variabile au scoruri joase în privinţa celeilaltevariabile. Altfel spus, într-o corelaţie negativă, creşterea valorii uneivariabile este însoţită de descreşterea valorii celeilalte variabile. Tabelul11.3 prezintă o corelaţie negativă între nivelul de educaţie şi vizionareaprogramelor TV (date fictive).

Tabelul 11.3. Nivelul de educaţie şi vizionarea programelor TV(ilustrare pentru „corelaţie negativă")

Gradul de urmărire aprogramelor TVînaltMediuScăzutTOTAL

Nivelul de educaţieScăzut60%3010

100%

Mediu20%6020

100%

înalt10%3060

100%

Orice corelaţie, pozitivă sau negativă, poate fi apreciată după tăria sauputerea sa. Un caz extrem este cel al corelaţiei perfecte. Corelaţia dintredouă variabile este perfectă dacă fiecare scor al unei variabile este asociatcu un singur scor al celeilalte variabile, astfel încât scorurile unei variabilepot fi determinate exact pe baza cunoaşterii scorurilor celeilalte variabile.Dacă, de pildă, între nivelul de educaţie şi vizionarea programelor TV ar fio corelaţie (negativă) perfectă, atunci într-un tabel cu dublă intrare pentruaceste variabile, toate cazurile de pe fiecare coloană ar fi localizate într-osingură celulă, ceea ce ar arăta că nu există nici o variaţie a variabilei Ypentru orice scor dat al variabilei X. O astfel de situaţie este prezentată întabelul 11.4.

177

Tabelul 11.4. Nivelul de educaţie şi vizionarea programelor TV(ilustrare pentru „corelaţie negativă perfectă")

Gradul de urmărire aprogramelor TVînaltMediuScăzutTOTAL

Nivelul de educaţieScăzut100%

00

100%

Mediu0%1000

100%

înalt0%0

100100%

O corelaţie perfectă ar putea fi luată drept o dovadă puternică pentru orelaţie cauzală între variabile, cel puţin pentru eşantionul respectiv.Rezultatele prezentate în tabelul 11.4 ar indica faptul că, pentru eşantionulconsiderat, este foarte probabil ca singura cauză a gradului de urmărire aprogramelor TV să fie nivelul de educaţie. De asemenea, o corelaţieperfectă ar permite predicţii fără eroare de la o variabilă la alta. De pildă,dacă am şti că o persoană din eşantion are un nivel înalt de educaţie, amputea prezice cu exactitate că gradul de urmărire a programelor TV pentruacea persoană este scăzut. Corelaţia perfectă este un caz ideal, care nu seîntâlneşte în practica cercetării psihologice, dar care este luat ca reperpentru aprecierea tăriei corelaţiilor dintre variabilele de interes.

în cele ce urmează, vom prezenta o serie de mărimi ale corelaţieipentru diferite niveluri de măsură. Aproape toate aceste mărimi suntconcepute astfel încât să aibă limita inferioară 0, indicând cazul „nici ocorelaţie", şi limita superioară 1 pentru nivelul nominal, respectiv ±1 pentrucelelalte niveluri, indicând cazurile „corelaţie pozitivă perfectă" (+1) saucazul „corelaţie negativă perfectă". După cum vom vedea, semnificaţiaexactă a valorilor cuprinse între 0 şi 1 (±1) diferă de la mărime la mărime.Oricum, cu cât valoarea unei astfel de mărimi este mai apropiată de 1 (±1),cu atât corelaţia respectivă este mai puternică.

11.2. MĂRIMI ALE CORELAŢIEI LA NIVEL NOMINAL

Cele mai utilizate mărimi ale corelaţiei dintre variabile măsurate lanivel nominal sunt coeficientul (p, coeficientul de contingenţa C,coeficientul Fal lui Cramer şi coeficientul^.

Coeficienţii <p, C şi V sunt mărimi ale corelaţiei bazate pe x •Coeficientul <p se calculează cu ajutorul următoarei formule:

Page 89: Statistica  aplicata in psihologie, Dumitru Gheorghiu

178

Formula 11.1. <p = J—V n

Să considerăm din nou tabelul 10.1, în care se prezentau datele(fictive) ale unui studiu privind sexul şi dominanţa funcţional-operativă amâinilor, reprodus aici ca tabelul 11.5.

Tabelul 11.5. Sexul şi dominanţa funcţional-operativă a mâinilor

Dominanţa

DreaptaStângaAmbidextruTOTAL

SexulMasculin

15305

50

Feminin35105

50

TOTAL

504010

100

După cum am constatat prin aplicarea testului / 2, relaţia dintre celedouă variabile este statistic semnificativă, i.e valoarea/2 (obţinut) = 18 s-adovedit a fi semnificativă la un nivel de încredere de 95%. Ceea ce neinteresează acum este tăria corelaţiei. Aplicând formula 11.1, obţinem:

(ZValoarea ş = 0,42 indică o corelaţie cel mult moderată între sex şi

dominanţa funcţional-operativă a mâinilor. Relaţia dintre aceste variabileeste statistic semnificativă (/2), dar nu este puternică. Problema este că cp iavalori cuprinse între 0 (nici o corelaţie) şi 1 (corelaţie perfectă) numaipentru tabele 2 x 2 . Pentru tabelele de mare dimensiune, <p poate depăşivaloarea 1, ceea ce face ca interpretarea acestui coeficient să devinăproblematică. Oricum, după cum vom vedea, valoarea lui <p obţinută pentruexemplul de mai sus este foarte apropiată de valorile obţinute princalcularea celorlalţi coeficienţi de corelaţie menţionaţi.

Coeficientul C se calculează cu ajutorul următoarei formule:

Formula 11.2. C =

Aplicând această formulă la datele din tabelul 11.5, obţinem:

= 0,39100 + 18

179

Deficienţa coeficientului C este aceea că, fiind o mărime subunitară, nupoate lua niciodată valoarea 1. Se demonstrează că, pe măsură cedimensiunea tabelului creşte, C tinde către 1. De pildă, valoarea maximă alui C este 0,82 pentru un tabel 3 x 3 şi 0,87 pentru un tabel 4 x 4. De aceea,se recomandă folosirea acestui coeficient numai pentru tabele de maredimensiune (aproximativ de la 10 linii sau/şi coloane în sus).

Coeficientul Fse calculează cu ajutorul următoarei formule:

I v 2

Formula 11.3; V = J—\n(q-\)

în care q este cea mai mică dintre valorile numerice, r (număr derânduri) şi c (număr de coloane) pentru tabelul respectiv. Aplicând formula11.3 la datele din tabelul 11.5 obţinem:

* I 1 W

= 0,42100(2-1)

După cum se poate constata, rezultatul obţinut prin calculareacoeficientului Feste acelaşi cu cel obţinut prin calcularea coeficientului <p.Coeficientul Kare valoarea maximă 1, dar numai pentru tabele mai mari de2 x 2 .

Cu toate deficienţele lor, întrucât sunt uşor de calculat, coeficienţii tp, Cşi Fpot fi folosiţi în calitate de primi indici ai importanţei unei corelaţii.

în situaţii de cercetare mai pretenţioase se obişnuieşte să se utilizezecoeficientul X, care ia valori cuprinse între 0 şi 1. în cazul în care nu sedoreşte sau nu se poate identifica variabila independentă, se foloseşte vari-anta simetrică a coeficientului X, a cărui formulă de calcul este următoarea:

Formula 11.4. X

Znmx + lLn -nmc-nmrx=l y=\

2n-nmc-nmr

în care nmx = cea mai mare frecvenţă în coloana x;nmy = cea mai mare frecvenţă în rândul y;nmc = cel mai mare marginal de coloană;nmr = cel mai mare marginal de rând.

Să presupunem că într-o cercetare privind relaţia dintre apartenenţareligioasă şi atitudinea faţă de pedeapsa capitală s-au obţinut rezultatele dintabelul 11.6.

Page 90: Statistica  aplicata in psihologie, Dumitru Gheorghiu

180 181

Tabelul 11.6. Apartenenţa religioasă şi atitudineafaţă de pedeapsa capitală

Atitudinea

FavorabilăNeutrăÎmpotrivăTOTAL

Apartenenţa religioasăCreştin-ortodox

5102540

Catolic10141135

Altele9124

25

Niciuna1461030

TOTAL

384250130

Pentru datele din acest tabel avem:

î > m , =25 + 14 + 12 + 14 = 65x=\

*-^ myy=\

"„„=40

= 14 + 14 + 25 = 53

Aplicând formula 11.4, obţinem:C f

i ^mx ' 2-, ^my ~ ^mc ~ ^mrjt=i y=\ 65 + 53 - 40 - 50

2n - nmc - nmr

= 0,162 ( 1 3 0 ) - 4 0 - 5 0

Dacă se poate identifica variabila independentă, atunci se foloseştevarianta asimetrică a coeficientului X, notat Xy, a cărui formulă de calcul esteurmătoarea:

2J

Formula 11.5. A,,, =—n - n

Considerând exemplul de mai sus, dacă cercetătorul identifică dreptvariabilă independentă apartenenţa religioasă, atunci se obţine:

c

2-i mx mr se cr\^ 5 0

n-nmr 130-50Pentru cele mai multe situaţii de cercetare, interpretarea celor două

variante ale coeficientului X este similară interpretării coeficienţilor C şi V.

Pentru exemplul considerat aici, putem conchide că cele două variabile suntcorelate, dar că această corelaţie este slabă1.

11.3. MĂRIMI ALE CORELAŢIEI LA NIVEL ORDINAL

Vom prezenta patru coeficienţi ai corelaţiei, utilizabili la nivel ordinal:y al lui Goodman şi Kruskal, d al lui Şomer, xb al lui Kendall şi ps al luiSpearman2. Aceşti coeficienţi iau valori cuprinse între 0 şi ±1 (n, numaipentru cazul r = c).

Coeficientul y se utilizează în situaţii de cercetare în care avem douăvariabile măsurate la nivel ordinal cu un număr mic de valori (nu mai multde cinci sau şase). Să presupunem că am obţinut următoarele date privindvechimea în muncă şi descurajarea profesională pentru un eşantion de 100 decadre didactice din învăţământul primar:

Tabelul 11.7. Vechimea în muncă şi descurajarea profesională

Nivel dedescurajareprofesională

SuperiorMediuInferiorTOTAL

Vechime în muncăInferioară

8102038

Medie

11156

32

Superioară

2154

30

TOTAL

403030100

Pentru a calcula coeficientul y, sunt necesare două cantităţi, notate cuNa şi respectiv Nd. Cantitatea Na reprezintă numărul total de perechi decazuri dispuse în aceeaşi ordine în privinţa ambelor variabile. Cantitatea Ndreprezintă numărul total de perechi de cazuri ordonate diferit în privinţacelor două variabile. Pentru aflarea acestor două cantităţi, vom lucra cufrecvenţele celulelor, considerând celulă cu celulă.

Pentru înlesnirea referirii la celulele unui tabel n x m vom numerotarândurile de la 1 la n începând de sus în jos şi, de asemenea, coloanele de la1 la m începând de la stânga la dreapta; pentru fiecare celulă, vom folosi onotaţie de forma cy, în care / este numărul rândului, iary numărul coloanei.Pentru un tabel 3 x 3 , cum este 11.7, avem:

1 Pentru o prezentare detaliată a coeficientului A ca o mărime a reducerii proporţionale aerorilor (RPE), vezi Healey, 1984, p. 223-228.2 y, d şi rb pot fi interpretaţi ca mărimi ale RPE (vezi ibidem, cap. 14).

Page 91: Statistica  aplicata in psihologie, Dumitru Gheorghiu

182

C21

C\2

C23

C33

Pentru a afla cantitatea JVa, se înmulţeşte frecvenţa din fiecare celulă cusuma frecvenţelor din toate celulele situate deasupra şi la dreapta celuleirespective, după care se adună produsele astfel obţinute. Să observăm cănici una dintre celulele situate pe primul rând sau pe ultima coloană nupoate contribui la Na, deoarece nu există celule situate deasupra şi ladreapta acestora. Calcularea Na pentru tabelul 11.7 decurge după cumurmează:

Pentru c3i: 20(11 +21 + 15+5)= 1040Pentru c3 2: 6(21 + 5 ) = 156Pentru c2 1: 10(11 +21) = 320Pentru c 2 2: 15-21 =315

Nu= 1831Procedeul de calculare a Nd urmează o schemă simetrică faţă de cel

pentru Na: se înmulţeşte frecvenţa din fiecare celulă cu suma frecvenţelordin toate celulele situate deasupra şi la stânga celulei respective, după carese adună produsele astfel obţinute. Ca mai sus, să observăm că nici unadintre celulele situate pe primul rând sau pe prima coloană nu poatecontribui la A ,̂ deoarece nu există celule situate deasupra şi la stângaacestora. Calcularea Nd pentru tabelul 11.7 decurge după cum urmează:

Pentru c 3 3: 4 (8 + 11 + 10 +15) = 176Pentru c32 6 (8 + 10)= 108Pentru c 2 3 5 (8 + 11) = 95Pentru c2 2: 15 • 8= 120

' Nd = 499în tabelul 11.7, un număr total de 1831 de perechi de cazuri sunt

dispuse în aceeaşi ordine în privinţa ambelor variabile şi un număr total de499 de perechi de cazuri sunt ordonate diferit în privinţa celor douăvariabile.

Coeficientul y se calculează cu ajutorul următoarei formule:

Formula 11.6. r = N N

Na+Nd

Valoarea coeficientului y pentru datele din tabelul 11.7 este:

Y-Na-Nd T=1831-499_

Na+Nd 1831 + 499 '

183

Vom conchide că vechimea în muncă este corelată cu nivelul dedescurajare profesională, această corelaţie fiind pozitivă: dacă, de pildă,ştim că A are o vechime mai mare în muncă decât B, suntem îndreptăţiţi săspunem că este probabil ca A să aibă un nivel de descurajare profesionalămai înalt decât B.

Este important de observat că aplicarea coeficientului y presupune(pentru a obţine cantităţile A^ şi NJ) ca tabelul pe care se lucrează să fieconstruit în maniera tabelului 11.7, cu categoriile de pe coloane dispuse înordine crescătoare de la stânga la dreapta şi categoriile de pe linii dispuse înordine crescătoare de jos în sus; y este o mărime simetrică a corelaţiei:valoarea acestui coeficient va fi aceeaşi, indiferent de variabila care esteluată ca independentă.

Ca şi y, coeficienţii d al lui Şomer şi r& al lui Kendall se utilizează însituaţii de cercetare în care avem două variabile măsurate la nivel ordinal cuun număr mic de valori şi necesită calcularea cantităţilor A^ şi Nd. în plus,aceşti coeficienţi necesită calcularea a două cantităţi, notate Ly şi respectivLx. Cantitatea Ly reprezintă numărul total de perechi de cazuri care fac partedin aceeaşi categorie a variabilei dependente. Cantitatea Lx reprezintă nu-mărul total de perechi de cazuri care fac parte din aceeaşi categorie a varia-bilei independente. în general, cazurile care fac parte din aceeaşi categorie aunei variabile se numesc cazuri legate în privinţa variabilei respective.

Numărul total de perechi de cazuri legate în privinţa variabileidependente, Ly, se determină aflând numărul de perechi de cazuri de pefiecare rând (prin definiţie, toate cazurile aflate pe acelaşi rând sunt legateîn privinţa variabilei dependente) şi adunând cantităţile astfel obţinute.Pentru a afla contribuţia fiecărui rând la Ly, se înmulţeşte frecvenţa dinfiecare celulă cu suma frecvenţelor din toate celulele situate la dreapta (perândul respectiv), după care se adună produsele astfel obţinute. Evident,celulele situate pe ultima coloană nu pot contribui la Ly, deoarece nu existăcelule situate la dreapta acestora. Calcularea Ly pentru tabelul 11.7 decurgedupă cum urmează:

Pentru rândul 1:8(11 +21)+ (11 -21) = 487Pentru rândul 2: 10(15 + 5) + (15 • 5) = 275Pentru rândul 3: 20(6 + 4) + (6 • 4) = 224

Ly = 986Numărul total de perechi de cazuri legate în privinţa variabilei

independente, Lx, se determină analog, lucrând însă pe coloane. Pentru aafla contribuţia fiecărei coloane la Lx, se înmulţeşte frecvenţa din fiecarecelulă cu suma frecvenţelor din toate celulele situate dedesubt (pe coloanarespectivă), după care se adună produsele astfel obţinute. Evident celulelesituate pe ultimul rând nu pot contribui la Lx, deoarece nu există celule

Page 92: Statistica  aplicata in psihologie, Dumitru Gheorghiu

184 185

situate dedesubtul acestora. Calcularea Lx pentru tabelul 11.7 decurge dupăcum urmează:

Pentru coloana 1: 8(10 + 20) + (10 • 20) = 440Pentru coloana 2: 11(15 + 6) + (15 • 6) = 321Pentru coloana 3: 21(5 + 4) + (5 • 4) = 209

L, = 970în tabelul 11.7, un număr total de 986 de perechi de cazuri sunt legate

în privinţa variabilei dependente şi un număr total de 970 de perechi decazuri sunt legate în privinţa variabilei independente.

Coeficientul d al lui Şomer se calculează cu ajutorul următoareiformule:Formula 11.7. d= N«~Nd—

Na+Nd+Ly

Să observăm că această formulă diferă de formula pentru y numai prinadunarea cantităţii Ly la numitor, ceea ce face ca of să fie o mărime acorelaţiei mai conservatoare decât y, deoarece valoarea lui d va fiîntotdeauna mai mică decât valoarea lui y pentru acelaşi tabel. Pentrutabelul 11.7, avem:

N„-N,, 1831-449Na+Nd+Ly

"1831 + 449 + 986= 0,40

Această valoare a coeficientului d indică o corelaţie pozitivă de tăriemoderată între cele două variabile.

După cum se poate constata, coeficientul d este o mărime asimetrică acorelaţiei. Dacă variabila ale cărei categorii sunt capete de rânduri este luatădrept variabilă independentă, atunci se calculează numărul de perechi decazuri pe coloane şi nu pe rânduri (în notaţia noastră, în formula 11.7 se iaLx în loc de Ly. în cazul datelor din tabelul 11.7, valorile cantităţilor Lx şi Ly

sunt apropiate, ceea ce înseamnă că o astfel de schimbare nu ar afecta multvaloarea coeficientului d. In cazul în care cele două cantităţi sunt sensibildiferite, trebuie să fim precauţi în privinţa alegerii variabilei dependente,deoarece valoarea lui d poate fi considerabil afectată de această decizie.

Coeficientul tt, al lui Kendall este o mărime simetrică a corela-ţiei, întrucât ţine cont atât de Ly, cât şi de Lx. Formula sa de calcul esteurmătoarea:

Formula 11.8. xh =

Pentru tabelul 11.7 avem:a +Nd+Lx)

t ; =pa+Nd+Ly){Na+Nd+Lx)

1831-499• = 0,40

-7(1831 + 499 + 986)(1831 + 499 + 970)

Particularitatea coeficientului ib constă în aceea că poate lua valoricuprinse între 0 şi ±1 doar pentru tabele pătratice (r = c), deci nu serecomandă calcularea sa pentru orice tabel rectangular.

Coeficientul ps al lui Spearman se utilizează, de regulă, în situaţii decercetare în care avem două variabile măsurate la nivel ordinal, care au oamplitudine relativ largă de scoruri diferite şi puţine cazuri legate înprivinţa fiecărei variabile. Să presupunem că dorim să verificăm ipotezaconform căreia persoanele care practică jogging au un sentiment maiputernic de respect faţă de sine. Pentru aceasta, 10 persoane care practicăjogging au fost chestionate cu ajutorul a două scale, prima măsurând gradulde implicare în practicarea jogging-ului, cealaltă măsurând nivelul respec-tului faţă de sine. Datele obţinute, împreună cu o serie de calcule cerute dedeterminarea coeficientului ps, sunt prezentate în tabelul 11.8.

Cazul

12345678910

Tabelul 11.

-

Nivel deimplicare

18171512 j109 'O

o851

8. Practicarea

Ran-

i2_45_]6 l

7,5 "7,59io

Resd

jogging-

ject faţăesine151812166108752

•ului şi respectul faţă

| Ran-gul

3i 1

T 4~i 21 8r 5~I ~6

1 9! 10

d

f -2i

-i, l_

-31

1,50,5

_ Qo

de sine

d2

4ir~ ~491

2,250,25

00

_Irfr = 22,5

Mai întâi, atribuim ranguri scorurilor fiecărei valori, începând cu celmai mare scor. Apoi, pentru fiecare caz, calculăm diferenţa dintre rangulscorului în privinţa primei variabile (X) şi rangul scorurilor în privinţaceleilalte variabile (F) (în tabel, coloana etichetată d). Să observăm că sumaacestor diferenţe este 0, ceea ce înseamnă că diferenţele negative sunt egalecu cele pozitive, acesta fiind întotdeauna cazul. Dacă obţinem £rf •£ 0,atunci am greşit în atribuirea rangurilor sau/şi în calcularea diferenţelor.

Page 93: Statistica  aplicata in psihologie, Dumitru Gheorghiu

186

Fiecare diferenţă astfel obţinută este apoi ridicată la pătrat pentru a eliminasemnele minus (în tabel, coloana d2), după care se calculează suma acestordiferenţe ridicate la pătrat, Y,d2-

Formula de calcul a coeficientului px al Iui Spearman este următoarea:

Formula 11.9. p. = 1n(n2-\)

în care n este numărul de perechi de ranguri. Aplicând această formulăla datele din tabelul 11.8, obţinem:

P t = l - - ^ L = 1- 6 " 2 2 ' 5 .0,86«(« -1) 10(100-1)

Acest rezultat indică o corelaţie pozitivă puternică între cele douăvariabile, ceea ce sprijină ipoteza cercetării.

In anumite situaţii de cercetare ne interesează să aflăm dacă douăvariabile sunt corelate la nivelul populaţiei de referinţă. în cazul variabilelormăsurate la nivel nominal, semnificaţia statistică a unei corelaţii estejudecată, de obicei, prin intermediul testului %'. De asemenea, testul y~poate fi aplicat şi în cazul corelaţiilor dintre variabile măsurate la nivelordinal. Totuşi, acest test evidenţiază doar probabilitatea ca frecvenţeleobservate să se datoreze doar întâmplării şi, ca atare, nu reprezintă un testdirect al corelaţiei3. Pentru coeficienţii y şi ps au fost elaborate teste desemnificaţie specifice, în care ipoteza de nul enunţă că nu există nici ocorelaţie la nivelul populaţiei, deci că valorile mărimilor respective suntegale cu 0: y = 0, respectiv/).,. = 0. Corespunzător, ipoteza alternativă enunţăcă y =t 0 sau, respectiv, că p„ * O4. Astfel, pentru eşantioane cu n > 30,distribuţia de eşantionare pentru y aproximează distribuţia Z şi se foloseşteurmătoarea formulă pentru calcularea statisticii testului:

Formula 11.10. Z=y IN"+Nd

' Luat în sine,,*-2 nu este o mărime a corelaţiei. Deşi valorile diferite de 0 ale luijf2 indicăexistenţa unei corelaţii, valoarea numerică efectivă pentru /2 (obţinut) nu stă în nici olegătură necesară cu tăria corelaţiei. /2 (obţinut) poate avea o valoare mare, în timp cecorelaţia efectivă poate fi slabă. Cu alte cuvinte, independenţa (/) şi corelaţia sunt douăaspecte diferite. Este perfect posibil ca două variabile să fie corelate (x1 (obţinut) * 0) şitotuşi să fie independente, în cazul în care nu putem respinge ipoteza de nul.

Unii autori folosesc simbolurile g şi /-„ respectiv, pentru y şi p, atunci când este vorbadespre eşantioane, rezervând literele greceşti pentru cazul populaţiilor.

187

Regulile de decizie sunt cele cunoscute pentru testul Z.în cazul coeficientului ps, dacă 5 < n < 30, atunci se foloseşte tabelul

valorilor critice pentru ps (anexa H). Pentru a folosi acest tabel, seidentifică valoarea critică a lui px corespunzătoare numărului de perechi deranguri, n, şi nivelului a ales. Pentru a putea respinge ipoteza de nul şi aconchide că variabilele respective sunt corelate la nivelul populaţiei,valoarea obţinută pentru ps trebuie să fie mai mare decât valoarea critică.Dacă n > 30, atunci distribuţia de eşantionare pentru />, aproximeazădistribuţia t cu gl = n - 2 şi se foloseşte următoarea formulă pentru calcu-larea statisticii testului:

Formula 11.11. t = p

Regulile de decizie sunt cele cunoscute pentru testul ^-Student.

11.4. MĂRIMI ALE CORELAŢIEI LA NIVELDE INTERVAL SAU DE RAPORT

Tehnicile statistice folosite pentru analiza corelaţiei dintre variabilemăsurate la nivel de interval sau de raport se bazează pe alte concepte şimodalităţi de calcul faţă de cele prezentate în secţiunea anterioară, darurmăresc să răspundă la aceleaşi întrebări privind existenţa, sensul şi tăriaunei corelaţii. în cele ce urmează, vom prezenta diagramele de împrăştiere,ecuaţia de regresie şi coeficientul de corelaţie r al lui Pearson.

Diagramele de împrăştiere5 sunt modalităţi de prezentare vizuală acorelaţiei dintre două variabile măsurate la nivel de interval sau de raport şisunt analoage funcţional tabelelor bivariate, întrucât permit sesizarea rapidăa multor trăsături importante ale unei corelaţii.

Vom exemplifica construirea unei diagrame de împrăştiere. Să presu-punem că ne interesează dacă există o relaţie între abilităţile de limbaj şicele aritmetice pentru un eşantion de 9 elevi din învăţământul primar.Rezultatele obţinute prin aplicarea testelor corespunzătoare sunt prezentateîn tabelul 11.9.'

1 Aceste diagrame se mai numesc şi scatergrame sau diagrame ale norilor de puncte.

Page 94: Statistica  aplicata in psihologie, Dumitru Gheorghiu

183

Tabelul 11.9. Abilităţi de limbaj şi abilităţi aritmetice

Elevul

A iBCD

r E[ £1 Gi Hj I

Abilităţi de

833847562390758789

Abilităţiaritmetice (IO

95703466

_ _ ,100587168

Pentru a construi o diagramă de împrăştiere, folosim un sistem de axerectangulare, dispunând valorile variabilei X pe axa orizontală (abscisa) şivalorile variabilei Fpe axa verticală (ordonata). Ambeie axe se calibreazăîn unităţi corespunzătoare, respectiv, scalelor de măsură folosite pentrustrângerea datelor. Pentru fiecare pereche de valori (pentru fiecare caz) seplasează un punct la intersecţia perpendicularelor respective pe cele douăaxe. Diagrama de împrăştiere pentru datele din tabelul 11.9 este prezentatăîn figura 11.1.

0 10 20 30 40 50 60 70 80 90 100 110 120

Abilităţi de limbaj

Figura 11.1. Abilităţi de limbaj şi abilităţi aritmetice

189

Fiecare elev este reprezentat printr-un punct plasat la intersecţia celordouă scoruri obţinute de acesta. Dispunerea punctelor poate fi pusă înevidenţă prin trasarea unei linii drepte care să atingă fiecare punct sau sătreacă cât se poate mai aproape posibil de fiecare punct. După cum vomvedea, această linie, numită linie de regresie, poate fi descrisă precis prin-tr-o ecuaţie, dar deocamdată este suficientă trasarea sa aproximativă:

Abilităţi aritmetice

1Q -

0 10 20 30 40 50 60 70 80 90 100110 120

Abilităţi de limbaj

Punctele situate deasupra fiecărei valori Xpot fi considerate distribuţiicondiţionate ale lui Y; cu alte cuvinte, punctele reprezintă scoruri alevariabilei Y pentru fiecare scor al variabilei X. Figura 11.1 arată că acestedistribuţii condiţionate ale lui Y se modifică după cum se modifică X(scorurile Y variază în funcţie de scorurile X), ceea ce înseamnă că celedouă variabile sunt corelate. Existenţa unei corelaţii este evidenţiată şi defaptul că linia de regresie formează un unghi cu axa X (abscisa). Dacă celedouă variabile nu ar fi corelate, scorurile variabilei Y nu s-ar modifica înfuncţie de scorurile X, astfel încât linia de regresie ar fi paralelă cu abscisa.

Sensul corelaţiei poate fi detectat prin panta (înclinarea) liniei deregresie faţă de abscisă. în exemplul nostru avem o corelaţie pozitivă,deoarece elevii cu scoruri mari în privinţa variabilei X {abilităţi de limbaj)tind să aibă scoruri mari în privinţa variabilei Y {abilităţi aritmetice). Dacăîntre cele două variabile ar fi fost o corelaţie negativă, linia de regresie ar fifost înclinată în direcţia opusă, indicând că scorurile înalte ale unei variabilesunt asociate cu scoruri mici ale celeilalte variabile.

Tăria corelaţiei poate fi aproximativ apreciată observând împrăştiereapunctelor în jurul liniei de regresie. într-o corelaţie perfectă, toate punctele

Page 95: Statistica  aplicata in psihologie, Dumitru Gheorghiu

190

s-ar afla pe linia de regresie. Prin urmare, cu cât punctele sunt mai puţinîmprăştiate în jurul liniei de regresie, cu atât corelaţia este mai puternică.

O supoziţie esenţială care stă la baza tehnicilor statistice prezentate încontinuare este aceea că între cele două variabile considerate este ocorelaţie liniară, ceea ce înseamnă că dispunerea punctelor poate fiaproximată printr-o linie dreaptă. Această supoziţie poate fi testată princonstruirea unei diagrame de împrăştiere înaintea aplicării unei tehnicistatistice. Dacă respectiva corelaţie nu este liniară, atunci supoziţiilenivelului de măsură de interval sau de raport nu sunt satisfăcute, ceea ceînseamnă că variabilele trebuie să fie tratate ca şi cum ar fi de nivel ordinal.

Se demonstrează că linia care prezintă cel mai bine corelaţia dintredouă variabile este descrisă de următoarea formulă, numită ecuaţia deregresie bivariată:Formula 11.12. Y = a + bX

în care Y= scor al variabilei dependente;a = punctul în care linia de regresie intersectează axa Y;b = panta liniei de regresie;X= scor al variabilei independente.

Parametrul b, numit coeficient de regresie, arată cantitatea deschimbare a lui Ycare corespunde unei unităţi de schimbare a lui X. Pantaunei linii de regresie poate fi pozitivă, negativă sau egală cu 0. In cazul b =0, linia de regresie este paralelă cu abscisa (este orizontală), ceea ceînseamnă că între cele două variabile nu există nici o corelaţie. Coeficientulde regresie se calculează cu ajutorul următoarei formule:

Formula 11.13. b ; -2 2

în care n - numărul de cazuri;ZXY= suma produselor dintre cele două scoruri ale fiecărui caz;EX= suma scorurilor variabilei X;EY= suma scorurilor variabilei Y;EX2 — suma pătratelor scorurilor variabilei X;

Pentru determinarea valorii coeficientului de regresie se poate folosi untabel de calcule, ilustrat aici pentru datele din tabelul 11.9.

191

Tabelul 11.10. Calcule pentru coeficientul de regresie (b)

X"""83 """'"" "

3847562390758789

IX =588

Astfel,

Y9570346645100587168

yr=607 YX2

în exemplul nostru.riLXY-IXLY

r&X2 -CLX)2

68891444220931365298100562575697921= 43.422

, avem:

Y1

9025490011564356202510000336450414624

2^_= 44.491

(9-42.453)-(588-607) n

(9-43 .422)-5882

XY788526601598369610359000435061776052

56

Această valoare a parametrului b arată că, pentru fiecare unitate deschimbare a lui X, există o creştere de 0,56 unităţi în privinţa Iui Y. Cu altecuvinte, o creştere cu o unitate a scorului în privinţa abilităţilor de limbajare drept rezultat o creştere cu 0,56 a scorului în privinţa abilităţiloraritmetice.

Parametrul a, numit constanta de regresie, se calculează cu ajutorulurmătoarei formule:Formula 11.14. a = Y-bX

în exemplul nostru, avem:^ = 6 0 7

9

na = 67,4-(0,56-65,3) = 30,8

Această valoare a parametrului a arată că linia de regresie intersecteazăaxa 7 (ordonata) în punctul în care Y= 30,8. De notat că a poate fi calculatşi cu ajutorul următoarei formule, echivalentă algebric cu formula 11.14:

Formula 11.15. a =n

în fine, ecuaţia de regresie pentru exemplul nostru este:K = a + Mf = 30,8+ (0,56-^0

Page 96: Statistica  aplicata in psihologie, Dumitru Gheorghiu

192

Linia de regresie poate fi folosită pentru a face predicţii asupra scoruluiunui caz în privinţa unei variabile, pornind de la scorul celuilalt caz înprivinţa celeilalte variabile. Dacă se foloseşte variabila X pentru a facepredicţii despre variabila Y, atunci linia de regresie este denumită regresialui Y asupra lui X. Pentru ilustrare, să presupunem că, pe baza corelaţieiprezentate în figura 11.1, ne interesează să aflăm scorul în privinţaabilităţilor aritmetice al unui elev cu scorul 100 în privinţa abilităţilor delimbaj (eşantionul nu conţine nici un elev cu scorul 100 la testul privindabilităţile de limbaj). Notăm scorul pe care dorim să îl aflăm („scorulprezis") cu Y, pentru a-1 distinge de scorurile Y efective. Folosind ecuaţiade regresie din exemplul nostru pentruX= 100, obţinem:

Y = 30,8 + (0,56 • X) = 30,8 + (0,56 • 100) = 86,8Prin urmare, pe baza regresiei lui Y asupra lui X, prezicem că un elev

cu scorul 100 în privinţa abilităţilor de limbaj va obţine scorul 86,8 înprivinţa abilităţilor aritmetice.

Coeficientul r al lui Pearson este o mărime a corelaţiei liniare dintredouă variabile măsurate la nivel de interval sau de raport, care ia valoricuprinse între 0 şi ±1. Valoarea acestui coeficient poate fi calculată cuajutorul următoarei formule:

Formula 11.16. r = —•J(riLX2 -(T.X)2)(nI.Y2 -(ZY)2)

Pentru a afla valoarea coeficientului r în cazul exemplului de mai sus,folosim tabelul 11.10, în care am adăugat deja o coloană pentru Y1 şi amcalculat suma corespunzătoare. Astfel, avem:

(9 -42453) -(588 -607)r =

• 43422) - 5882 )((9 • 44491) - 607 2)= 0,66

Ca şi în cazul celorlalţi coeficienţi ai corelaţiei, valorile coeficientului rdiferite de 0 şi de ±1 nu au o interpretare directă precisă. Valorile apropiatede 0 pot fi interpretate ca indicând o corelaţie slabă, iar cele care se apropiede ±1 ca indicând o corelaţie puternică. O interpretare mai directă este datăde calcularea coeficientului de determinare bivariată, care este pur şisimplu r2. în exemplul nostru, r2 = 0,435. Această valoare arată că scorurileobţinute în privinţa abilităţilor de limbaj (X) explică aproximativ 43,5% dinvariaţia totală a scorurilor obţinute în privinţa abilităţilor aritmetice, restulde 56,5% din această variaţie datorându-se probabil influenţei altorvariabile, erorilor de măsurare sau întâmplării.

193

în condiţiile în care eşantionul respectiv a fost alcătuit aleatoriu,valoarea coeficientului r al lui Pearson poate fi testată pentru semnificaţia lanivelul populaţiei de referinţă, distribuţia de eşantionare fiind distribuţia tcu gl = n - 2. Calcularea statisticii testului se face cu ajutorul următoareiformule:

Formula 11.17. t = r

Dacă variabilele sunt corelate la nivelul eşantionului şi valoarea lui t(obţinut) cade în zona critică, atunci vom respinge ipoteza de nul şi vomconchide că variabilele respective sunt corelate şi la nivelul populaţiei (cuprobabilitatea dată de nivelul a ales); dacă, însă, valoarea lui t (obţinut) nucade în zona critică, atunci nu suntem îndreptăţiţi să conchidem căvariabilele sunt corelate la nivelul populaţiei. într-un astfel de caz, testularată că valoarea coeficientului r la nivelul eşantionului poate să aparănumai datorită întâmplării, dacă ipoteza de nul este adevărată, i.e. dacăvariabilele respective nu sunt corelate la nivelul populaţiei.

Este important de reţinut că semnificaţia valorii coeficientului r poatefi testată cu ajutorul formulei 11.6 numai dacă, pe lângă supoziţia deliniaritate a corelaţiei, este satisfăcută atât supoziţia că ambele variabile auo distribuţie normală (distribuţie bivariată normală), cât şi supoziţia căabaterile standard ale distribuţiilor condiţionate ale variabilei Y suntaproximativ egale. Pentru această ultimă supoziţie se foloseşte conceptul dehomoscedasticitate. în mod obişnuit, inspectarea vizuală a unei diagramede împrăştiere este suficientă pentru a aprecia dacă o corelaţie seconformează supoziţiilor de liniaritate şi homoscedasticitate. După cum amarătat, dacă dispunerea punctelor poate fi aproximată printr-o linie dreaptă,atunci corelaţia poate fi apreciată ca fiind liniară. Pe de altă parte, dacăscorurile Fsunt relativ uniform împrăştiate deasupra şi dedesubtul liniei deregresie, atunci corelaţia este homoscedastîcă. De pildă, după cum se poateconstata imediat, corelaţia prezentată în figura 11.1 este homoscedastică:din cele 9 cazuri, cinci se află deasupra liniei de regresie, iar patru dedesubt.

11.5. ELEMENTE DE ANALIZĂ MULTIVARIATĂ

Unele situaţii de cercetare necesită analiza mai multor variabile, chiardacă cercetătorul este interesat în principal de o anumită corelaţie bivariată.Tehnicile prezentate în această secţiune se referă la corelaţia multivariatădintre variabile măsurate la nivel de interval sau de raport şi se bazează pecoeficientul r al lui Pearson.

Page 97: Statistica  aplicata in psihologie, Dumitru Gheorghiu

194

11.5.1. Corelaţia parţialăMetoda corelaţiei parţiale poate fi folosită atunci când cercetătorul

doreşte să observe influenţa unei a treia (a patra etc.) variabile asupra uneicorelaţii bivariate. în cele ce urmează vom folosi următoarele simboluri,numite coeficienţi de corelaţie parţială de ordinul zero:

rv. = coeficientul de corelaţie dintre variabila 7şi variabila Z;rxy = coeficientul de corelaţie dintre variabila X şi variabila 7;rxz = coeficientul de corelaţie dintre variabilaXşi variabila Z.Aceşti coeficienţi se calculează cu formula 11.16.Atunci când controlăm influenţa unei singure variabile X asupra

corelaţiei dintre variabilele 7 şi Z folosim simbolul ryzx, numit coeficient decorelaţie parţială de ordinul întâi; ryzx se referă la coeficientul de corelaţieparţială dintre variabilele Y şi Z sub influenţa variabilei X („variabila decontrol"); ry:x se calculează cu ajutorul următoarei formule:

Formula 11.18. ryzx =

Pentru ilustrare, să considerăm datele din tabelul 11.11, în care seprezintă distribuţia a trei variabile, X, Yşi Z, împreună cu valorile parţialilorde ordinul zero. Să presupunem că ne interesează influenţa variabilei Xasupra corelaţiei dintre Y şi Z.

Tabelul 11.11. O ilustrare a corelaţiei parţiale

J j E ! I I I2 L 12 I _£ ____ 1

•~ y i 14 i io """"i

4

3] 5 "15

rxz = 0,70

Valoarea ry_- = 0,50 indică o corelaţie pozitivă moderată întrevariabilele 7 şi Z. Aplicând formula 11.18, obţinem:

V- - <\yrx: 0,5 - (0,78 • 0,70)Y —ry:x ~ • = -0,098

Această valoare a coeficientului parţial de ordinul întâi este mult maimică decât valoarea coeficientului parţial de ordinul zero, ryz = 0,50. Acest

195

rezultat, pe care îl vom nota prin ryzx « ry:, arată că, dacă eliminăminfluenţa variabilei Xasupra variabilelor 7 şi Z, corelaţia dintre variabilele 7şi Z se reduce de la 0,5 la aproape 0. într-un astfel de caz, se poate caXsădetermine atât variaţia lui 7, cât şi variaţia lui Z, relaţia dintre 7 şi Z fiindinautentică (aparentă), sau ca variabilele 7 şi Z să fie corelate, dar nu direct,ci prin intermediul variabilei X:

sau Y-

în exemplul nostru, valorile rxy = 0,78 şi rx- - 0,70 pot fi luate drept unindiciu probabil al tipului de relaţie reprezentat prin diagrama din stânga.De notat că distincţia dintre cele două tipuri de relaţie nu poate fi făcută cuprecizie doar pe baza metodelor statistice. într-o situaţie reală de cercetare,distincţia se poate face pe criterii de conţinut al cercetării respective(ordinea temporală dintre variabile ş.a).

Un al doilea tip de rezultat posibil este acela în care ryzx şi ryz au valoriapropiate. Acest rezultat, pe care îl vom nota prin ryzx = rvz, arată că dacăeliminăm influenţa variabilei X asupra variabilelor 7 şi Z corelaţia dintrevariabilele 7 şi Z rămâne neschimbată sau, altfel spus, căXnu influenţeazăsemnificativ corelaţia dintre 7 şi Z, relaţia dintre variabilele 7 şi Z fiinddirectă.

Al treilea tip de rezultat posibil este acela în care valoarea lui ryzx estemult mai mare decât valoarea lui ryz. Acest rezultat, pe care îl vom nota prinryzx » ryz, arată că variabila luată iniţial drept independentă şi variabila decontrol (X) au fiecare în parte o influenţă separată asupra variabileidependente şi nu sunt corelate una cu alta. Următoarea diagramă prezintăacest tip de relaţie pentru cazul în care Z este variabila dependentă:

z

Page 98: Statistica  aplicata in psihologie, Dumitru Gheorghiu

196 197

Dacă se obţine acest rezultat, concluzia este că atât Y, cât şi X suntvariabile independente, iar următoarea etapă în analiza statistică este,probabil, utilizarea regresiei multiple şi a corelaţiei multiple. Metodaregresiei multiple permite izolarea influenţelor separate ale mai multorvariabile independente asupra variabilei dependente şi astfel permiteidentificarea variabilei independente care are cea mai puternică influenţăasupra variabilei dependente, iar metoda corelaţiei multiple permiteevidenţierea influenţelor combinate ale tuturor variabilelor independenteasupra variabilei dependente.

11.5.2. Regresia multiplăEcuaţia de regresie poate fi modificată pentru a include (teoretic) un

număr oricât de mare de variabile independente. Această tehnică statisticăse numeşte regresie multiplă. în cazul a două variabile independente, liniade regresie multiplă este descrisă de următoarea formulă, numită ecuaţia deregresie multiplă:Formula 11.19. Y = a + b]X] +b2X2

în care b\ = panta parţială a corelaţiei dintre prima variabilă independentă şi Y;b2 = panta parţială a corelaţiei dintre a doua variabilă independentă şi Y;

Parametrii b\ şi b2 se calculează cu ajutorul următoarelor formule:

Formula 11.20. b, = —r\y ~~r2yr\2

1-r, 12

în care sy = abaterea standard a variabilei Y;s\ = abaterea standard a variabilei independente X\;s2 - abaterea standard a variabilei independente X2;r\y = coeficientul de corelaţie dintre X\ şi Y;r2y = coeficientul de corelaţie dintre X2 şi Y;r\2 = coeficientul de corelaţie dintre X\ şi X2.

Pentru a ilustra calcularea parametrilor b] şi bi, să considerăm dateledin tabelul 11.12, în care, pentru un eşantion de 15 subiecţi, se prezintăscorurile obţinute înaintea unui test {X\), numărul mediu de răspunsuricorecte date la şase încercări preliminare (X2) şi scorurile posttest (Y).

Tabelul 11.12. O ilustrare pentru două variabile independente

154

Y

22

19

7,70 36

J22_20.

"28

JL20.7,809,308,20

8,80

39_3i

40

4212,108,0(T

49_38

11,20 4426 !14 !19 !22 i20 |

~\s,=4,06 Ţ~ trXy = 0,39 !•;

9,4010,308,507,608,40

^=1,34

! 35! 434 371 411 40T J3="3,92 "ru = 0,45

Aplicând formulele 11.20 şi 11.21, obţinem:rly-r2yrl2 _ 3,92 0,39-(0,77 0,45)

7T*1

s2

l-r,12 4,06 l-(0,45)2

r2y-rlyrn 3,92 0,77-(0,39-0,45)= = 2,1 O

-r,22 1,34 l-(0,45)2

Parametrul a se calculează cu ajutorul următoarei formule:Formula 11.22. a = Y-blX1-b2X2

în exemplul nostru, avem:

15 15

n 15 " ' "a = F - 6 , ^ - 6 2 X 2 =39,86-(0,052-19,73)-(2,18-8,90) = 19,38

în fine, ecuaţia de regresie multiplă pentru exemplul nostru este:Y = a + blXl+b2X2 = 19,38 + (0,052 - JC,) + (2,18 - JT2)

Page 99: Statistica  aplicata in psihologie, Dumitru Gheorghiu

198 199

Acum, să presupunem că ne interesează să prezicem scorul posttest alunui subiect cu scorul pretest de 25 şi media răspunsurilor corecte laîncercările preliminare de 11,16. Folosind ecuaţia de regresie multiplă dinexemplul nostru pentruX\ = 25 şi X2 - 11,16 obţinem:

F = 19,38 + (0,052 - 25) + (2,18 -11,16) = 45Prin urmare, prezicem că un subiect cu scorurile X\ = 25 şi X2 - 11,16

va obţine un scor posttest de 45.în cele ce urmează prezentăm o modalitate simplificată de utilizare a

metodei regresiei multiple pentru evaluarea influenţelor separate alevariabilelor independente asupra variabilei dependente. Pentru o astfel deevaluare se consideră scorurile standardizate ale variabilelor şi se utilizeazăcoeficienţii de regresie standardizaţi, simbolizaţi în general prin 8. Acestemărimi, numite şi „pante parţiale standardizate", arată cantitatea deschimbare a abaterii standard a variabilei Y corespunzătoare unei unităţi deschimbare a abaterii standard a unei variabile independente, în timp ceinfluenţele celorlalte variabile independente sunt controlate. în cazul a douăvariabile independente, aceşti coeficienţi se calculează cu ajutorul urmă-toarelor formule:

Formula 11.23. p, =6, ^~sy

Formula 11.24. p7 =b2^-' sy

în care 6\ = panta parţială standardizată a corelaţiei dintre X\ şi Y;62 = panta parţială standardizată a corelaţiei dintre X2 şi Y.

Ecuaţia de regresie multiplă standardizată este dată de următoareaformulă:Formula 11.25. Zy = a. + p,Z, + p 2 Z 2

în care simbolul Z arată că toate scorurile au fost standardizate. Amintim căformula de calcul pentru standardizarea scorurilor unui eşantion este

Acum, formula 11.25 poate fi simplificată, întrucât definiţia algebrică aparametrului az este a. = Y —bxZx —b2Z-> şi, după cum ştim, mediaaritmetică a oricărei distribuţii standardizate de scoruri este 0. Ca atare, a,_se reduce la 0, astfel încât pentru ecuaţia de regresie multiplă standardizatăputem folosi următoarea formulă:

Formula 11.26. Zy = PXZX + P2Z2

Pentru exemplul de mai sus, valorile coeficienţilor de regresiestandardizaţi sunt:

p = bx i = 0 , 0 5 2 ^ = 0,05385 3923,92

3,92= 0,74

Astfel, ecuaţia de regresie multiplă standardizată pentru acest exemplueste:

Zy,= (0,053 8 • Z,) + (0,74 -Z2)

Concluzia este că variabila X2 are o influenţă mult mai puternicăasupra variabilei dependente decât variabila X\, astfel încât predicţiileasupra scorurilor standardizate Zy nu vor fi influenţate semnificativ descorurile Z].

Inspectarea datelor din tabelul 11.12 oferă unele indicii privindexplicaţia rezultatului obţinut. Astfel, putem observa că X2 este puterniccorelată cu Y [r2y = 0,77), în timp ce X\ prezintă o corelaţie slabă până lamoderat cu Y(rly = 0,39).

De notat că dacă am fi obţinut B\ » 82, am fi tras concluzia căvariabilaX\ are o influenţă mult mai puternică asupra variabilei dependentedecât variabila X2, iar dacă am fi obţinut 8\ = 82, am fi tras concluzia că celedouă variabile independente au aproximativ aceeaşi influenţă asupravariabilei dependente.

11.5.3. Corelaţia multiplăMetoda corelaţiei multiple permite evidenţierea influenţelor

combinate ale tuturor variabilelor independente asupra variabilei depen-dente. Pentru aceasta, vom calcula coeficientul de corelaţie multiplă R şicoeficientul de determinare multiplă R .

O formulă de calcul pentru coeficientul R în cazul a două variabileindependente este următoarea:Formula 11.27. R = pxrXy + p2r2y

Pentru datele din exemplul de mai sus, avem:+ J32r2y = 7(0^0538 • 0,39) + (0,74 •0,77 = 0,77

Page 100: Statistica  aplicata in psihologie, Dumitru Gheorghiu

200 201

Acest rezultat indică o corelaţie puternică între influenţele combinateale variabilelor X\ şi X2 şi variabila Y.

Coeficientul de determinare multiplă R2 se interpretează în acelaşi felca şi coeficientul de determinare bivariată r2. în exemplul nostru, R2 = 0,59,ceea ce arată că influenţa combinată a celor două variabile independenteexplică aproximativ 59% din variaţia totală a scorurilor posttest, restul de41% din această variaţie datorându-se probabil influenţei altor variabile,erorilor de măsurare sau întâmplării.

GLOSAR

Coeficientul d al Iui Şomer: mărime asimetrică a corelaţiei, adecvată pentru cazula două variabile măsurate la nivel ordinal cu un număr mic de valori.

Coeficientul de contingenţă C: mărime a corelaţiei bazată pe x2, adecvată pentrucazul a două variabile măsurate la nivel nominal; se recomandă calculareaacestui coeficient numai pentru tabele de mari dimensiuni.

Coeficientul r al lui Pearson: mărime a corelaţiei liniare dintre două variabilemăsurate la nivel de interval sau de raport.

Coeficientul V al lui Cramer: mărime a corelaţiei bazată pe #2, adecvată pentrucazul a două variabile măsurate la nivel nominal; se recomandă calculareaacestui coeficient numai pentru tabele mai mari de 2 x 2.

Coeficientul y: mărime simetrică a corelaţiei adecvată pentru cazul a două variabilemăsurate la nivel ordinal cu un număr mic de valori.

Coeficientul p al lui Spearman: mărime a corelaţiei adecvată pentru cazul a douăvariabile măsurate la nivel ordinal cu o amplitudine relativ largă de scoruridiferite şi puţine cazuri legate în privinţa fiecărei variabile.

Coeficientul r* al lui Kendall: mărime simetrică a corelaţiei, adecvată pentru cazula două variabile măsurate la nivel ordinal cu un număr mic de valori; serecomandă calcularea acestui coeficient numai pentru tabele pătratice.

Coeficientul <p: mărime a corelaţiei bazată pe x, adecvată pentru cazul a douăvariabile măsurate la nivel nominal; se recomandă calcularea acestui coeficientnumai pentru tabele 2 x 2 .

Corelaţie: relaţie între două sau mai multe variabile; se spune că două variabilesunt corelate dacă distribuţia scorurilor uneia dintre acestea se schimbă subinfluenţa scorurilor celeilalte.

Corelaţie negativă: corelaţie între două variabile caracterizată prin aceea că scoruriînalte ale unei variabile sunt asociate cu scoruri joase ale celeilalte variabile;altfel spus, într-o corelaţie negativă, creşterea valorii unei variabile este însoţităde descreşterea valorii celeilalte variabile.

Corelaţie pozitivă: corelaţie între două variabile caracterizată prin aceea că scoruriînalte ale unei variabile sunt asociate cu scoruri înalte ale celeilalte variabile,iar scoruri joase ale unei variabile sunt asociate cu scoruri joase ale celeilaltevariabile; altfel spus, într-o corelaţie pozitivă, o variabilă creşte sau descreştedupă cum creşte sau descreşte cealaltă variabilă.

Corelaţie liniară: corelaţie între două variabile de interval sau de raportcaracterizată prin aceea că dispunerea punctelor în diagrama de împrăştierepoate fi aproximată printr-o linie dreaptă.

Corelaţie perfectă: corelaţia dintre două variabile caracterizată prin aceea căfiecare scor al unei variabile este asociat cu un singur scor al celeilaltevariabile.

Diagrame de împrăştiere: modalităţi de prezentare vizuală a corelaţiei dintre douăvariabile măsurate la nivel de interval sau de raport.

Page 101: Statistica  aplicata in psihologie, Dumitru Gheorghiu

202

Ecuaţia de regresie bivariată: ecuaţie care descrie matematic o linie de regresie.Linie de regresie: linie dreaptă care rezumă cel mai bine corelaţia dintre două

variabile de interval sau de raport.Mărimile corelaţiei: mărimi statistice care permit cuantificarea importanţei (tăriei)

unei relaţii dintre variabile.Metoda corelaţiei multiple: tehnică multivariată de evidenţiere a influenţelor

combinate ale tuturor variabilelor independente asupra variabilei dependente.Metoda corelaţiei parţiale: tehnică multivariată de evidenţiere a influenţei unei a

treia (a patra etc.) variabile asupra unei corelaţii bivariate.Metoda regresiei multiple: tehnică multivariată care permite izolarea influenţelor

separate ale mai multor variabile independente asupra variabilei dependente şiastfel permite identificarea variabilei independente care are cea mai puternicăinfluenţă asupra variabilei dependente.

Predicţie: apreciere a scorurilor unei variabile pe baza cunoaşterii scorurilor înprivinţa altei variabile; o predicţie este cu atât mai precisă cu cât corelaţiadintre cele două variabile este mai puternică.

12. INTRODUCERE ELEMENTARĂ ÎN SPSS1

SPSS2 este un program performant ce permite analize statistice şimanagementul datelor înregistrate în sistem, utilizând, asemenea mediuluiWindows, o interfaţă grafică bazată pe căsuţe de dialog, pentru a facilitaaccesul acestora de către utilizatori. Structural, mediul SPSS se apropie caformă de sistemele de gestionare a datelor de tip Acces, Excel etc, avândînsă particularităţi şi facilităţi distincte, pe care le vom evidenţia în continuare.

Principial, ferestrele active sub SPSS sunt de diverse forme, cuprin-zând facilităţi legate de:

Data editor: permite afişarea în cadrul ferestrelor sale a conţinutuluidatelor stocate. Acest tip de fereastră se deschide în mod automat odată culansarea mediului SPSS, permiţând deopotrivă vizualizarea datelorexistente, introducerea unora noi sau modificarea acestora.

Viewer: asigură în cadrul propriei ferestre vizualizarea tuturorcategoriilor de rezultate, tabele şi diagrame obţinute în urma procesăriidatelor statistice. Fereastra de tip Viewer se deschide în mod automat decătre program odată cu terminarea procesării datelor propuse spre analiză.

Draft viewer: acesstă categorie de fereastră este utilizată atunci cândse doreşte tipărirea rezultatelor doar sub un format de text simplu, rezultatdin tabelele pivot.

Pivot table editor: permite modificarea tabelelor pivot rezultate în urmaprocesării datelor prin intermediul facilităţilor de modificare a formei, culorii,fonturilor caracterelor, dispunerii acestora etc. în cadrul tabelelor pivot.

Chart editor: face parte din categoria ferestrelor interactive carepermit modificarea rezoluţiei, culorilor, formei etc. graficelor rezultate înaplicaţia statistică.

Text output editor: este utilizat atunci când se doreşte prezentareafinală a datelor sub forma simplă de text, fără a prezenta însă structurarezultată din tabelele pivot. De asemenea, în cadrul acestei ferestre suntactivate facilităţile de modificare a formei, stilului, culorii şi mărimiicaracterelor.

1 Capitol elaborat de Sergiu Stan.2 Prescurtarea de la denumirea programului în limba engleză: Statistical Packagefor theSocial Sciences.

Page 102: Statistica  aplicata in psihologie, Dumitru Gheorghiu

204 205

Syntax editor: este o fereastră care se poate ataşa căsuţelor de dialogpentru verificarea sintaxei în cadrul textelor, împreună cu toate facilităţileaferente, atunci când utilizatorul doreşte acest lucru.

Script editor: reprezintă o facilitate acordată de către programul SPSScare permite crearea şi modificarea structurilor de gestionare a datelorexistente cu ajutorul unui sistem de tip OLE.

Toate aceste ferestre pot fi apelate în mod succesiv de către utilizatoriiprogramului SPSS, fără însă a avea şi facilitatea de a fi deschise toate înparalel (aşa cum se obişnuieşte deseori în cadrul mediului Windows).

La deschiderea unei noi aplicaţii în SPSS, fereastra de tip Viewer carese deschide utilizatorului prezintă următoarea formă:

l ITid iâMSJ iii

•î

t

ţ

HI

•I..J

111 a l l!

MgSlatl [ j§ Lama Megan» ffttayMfc. [jjjjll.ilMed SPSS Data...

Odată cu lansarea în execuţie a programului se pot identifica căsuţe dedialog active de pe toolbar, acestea fiind File, Edit, View, Data, Transform,Statistics, Graphics, Utilities, Windows şi Help. La rândul lor, fiecare dintreaceste căsuţe de dialog prezintă o serie de facilităţi pe care le vom prezentasuccint în continuare sub formă grafică, pentru a oferi cititorului o imagineconcludentă asupra conţinutului acestora, fără să ne propunem aiciprezentarea unui ghid de utilizare a programului SPSS. Astfel, căsuţa dedialog File prezintă următoarea structură:

2 Fai suitatfe*3Tien»etul»«r4

Ei* SPSS

Această fereastră de dialog din meniul de tip File permite introducereaunor noi date în baza de date, utilizarea editorului de sintaxă, a formei deieşire a datelor, precum şi deschiderea unor baze de date în SPSS realizateanterior pentru vizualizarea, modificarea sau exportarea datelor stocate.Fereastra ne permite, de asemenea, captarea unei baze de date, citireadatelor în cod ASCI, precum şi afişarea informaţiilor despre datele utilizate.

Asemenea mediului editor Windows, meniul File permite salvarea şiimprimarea fişierului ce conţine baza de date.

Meniul Edit conţine şi în cadrul programului SPSS opţiunile standard:undo, cut, copy, paste, clear,find şi options.

,(

4.

— "

,i

.•1 .1

Sud. CM.F

I M » "*i*l&fîrT

- 1 - . .-1 1

1

Page 103: Statistica  aplicata in psihologie, Dumitru Gheorghiu

206 207

Meniul View permite modificarea structurii toolbar-ului, prin ataşareasau excluderea unor căsuţe de dialog, în funcţie de dorinţa utilizatorului. încadrul acestui meniu se poate modifica deopotrivă şi forma structurii de tipgrilă a liniilor, precum şi a etichetelor pentru variabilele incluse în baza dedate.

••:•;••:.: * • ! • •

-^£*-: » ; • • : * '

1,11/,-;!

f 1, V £tltU98

v* GnttJLowbets

«un §t«

" • v-t * ^ . ••i,

Meniul de tip Data cuprinde informaţii referitoare la definireavariabilelor, a datelor, având şi facilităţile de operare în cadrul bazei dedate, aşa cum se poate observa în fereastra de mai jos:

ff-)!|'-jeai»şFK;i|'iiBic»j*«spiiill'iauMi.i.j.,!::;:;•:';:;- «'-'::îf:îi<is"

Meniul de tip Transform se adresează calculului, ordonării datelor încadrul bazei de date după o anumită regulă, înregistrării cazurilor de unanumit tip, precum şi înlocuirii unor categorii de valori.

Hdp

4

7

*4

S

«

ra

«

iJJ

I'3li5fi; Rmfemttai dc»lril

»V:> j V i i

l

f

JCCAM

Meniul Statistics cuprinde toate statisticile aferente programului SPSS.

Eli &* X»« &•»fi*jţî|-'-jf| ŞŞ| f

1

}

,!

7

«

«.

I

IO •k

îlBL

>

a J â J J „

>-,.

Wm[

Meniul Graphics abordează toate categoriile principale de graficestatistice ce pot fi realizate cu ajutorul programului SPSS.

Page 104: Statistica  aplicata in psihologie, Dumitru Gheorghiu

20!! 209

StortjlljUnMIod - SPSS Dala .. BJ Carte SPSS. Wcremtl W

Meniul Window:

-

'NSllJ-iilM*« 1

^ !Urtiy«tHSPssi>4i*&j*a îl

Ultimele meniuri, pe care le vom prezenta doar la nivel general pentrufamiliarizarea cititorilor cu toate facilităţile programului SPSS, cuprindfacilităţi utilitare aferente bazei de date, facilităţi referitoare la lucrul cuferestrele în cadrul programului SPSS, precum şi meniul Help pentrufurnizarea tuturor informaţiilor necesare utilizării programului.

Meniul Utilities:

Meniul Help:

>

••

" ' -

'1 '1 51 • |

.,«

_Jfc|6J «j * ll̂ l

v,.« v **>"•» CM

BewEtiiw.

i -

6»|H|:*tHJ| -

H'l

l'Mfcl»

ăUrtw

JjtndJ

mal SIMisiic-.

TCQfCţ

SPSS Ho»mssssBSMisfesE

l t a r 1SHRIjxsch {

: r~

-

Pentru ilustrarea procesării datelor statistice, propunem următorulstudiu de caz. 30 de subiecţi, copii cu deficit intelectual având vârstecuprinse între 9 şi 12 ani, au fost supuşi unei testări psihologice complexe,constituite dintr-o baterie de teste de specialitate (Raven, Portage şi vpl).Au fost împărţiţi în două grupuri de lucru, fiecare dintre acestea fiindformat din câte 15 subiecţi, şi au beneficiat de metode educaţionale diferite.

Page 105: Statistica  aplicata in psihologie, Dumitru Gheorghiu

210

în cadrul testării s-a dorit evidenţierea eficienţei uneia dintre cele douămetode, precum şi alte aspecte legate de similitudinile şi diferenţelesemnificative înregistrate între cele două grupuri.

211

Pentru a concluziona asupra acestei situaţii, se constituie baza de dateîn SPSS, care va avea următoarea formă:

1:grupul

BX

D.M

DA

E.6

grupul

83

87

deficit vpl

DM

DM

DMS

DMS

3.B

~3~B

4 ^

5

3.(

4

5

4

Valorile înregistrate în cadrul tabelului primar de gestionare a datelorstatistice au fost introduse în câmpurile aferente bazei de date din SPSS.

Se definesc apoi variabile înregistrate în capetele coloanelor de studiu,stabilindu-se numele, tipul acestora, lărgimea câmpului, precum şi numărulde zecimale utilizat în descrierea acestor categorii de variabile.

Page 106: Statistica  aplicata in psihologie, Dumitru Gheorghiu

212 213

De remarcat este faptul că programul prezintă facilităţi de exprimare avariabilelor atât sub formă numerică, cât şi sub formă de cuvinte, acesteadin urmă neintrând, însă, în calculul valorilor medii ale variabilelor,implicit în analizele statistice de structură.

într-o primă analiză, vom considera că cei 30 subiecţi fac parte dintr-uneşantion comun, fără să facem o diferenţiere în funcţie de grupul de lucrudin care fac parte aceştia.

Mai întâi se trece la realizarea primelor statistici referitoare lafrecvenţele înregistrate în câmpurile de valori ale bazei de date. Apelândopţiunea Frequencies din meniul Statistics, se obţine următoarea fereastrăde dialog, care cuprinde două câmpuri active:

1:grupul

10

Vitrata BrunulA.G

A l

BC

CE

CI

CG

D M

D Ml

DA

deficit <nume <ravenvaistavpl

[gnjpuijpoitafleiIportage2

*

Help

E.G 25

73

92

83

95

87

dsfidt

DMI

DM

DM

OMS

DMI

DM

DMS

DMS

DMS

03.E

jSPSSPitmm» &'»»#" '

210AM

Câmpul din stânga cuprinde toate variabilele identificate în cadrulbazei de date realizate, în partea dreaptă fiind transferate cu ajutorulcursorului prezent în figură doar acele variabile ce se doresc a fi prezente încadrul tabelelor pivot. Se observă că în dreptul variabilelor deficit şi numeapare semnul „<", ceea ce semnifică prezenţa unor variabile de tip „string"(în terminologia programului). In general, nu este recomandată asociereaunor astfel de tipuri de variabile cu cele numerice, din cauza imposibilităţiide comparare sau de asociere cu acestea.

în cadrul ferestrei precedente erau prezentate şi facilităţile programuluide identificare, alături de frecvenţe, a principalilor indicatori statistici,precum şi de reprezentare grafică a acestora.

Apelând la statisticile de bază pe care ni le poate oferi SPSS-ul,obţinem următoarea fereastră, în care se bifează opţiunile pe care le doreşteutilizatorul, în funcţie de necesităţile analizei statistice:

SPSS ftoeessor îs ready

aBSIwt||gHodica BD -.. BjraiteSPSS -Mic, [ fgOulpuH -SPSS

Se pot calcula valorile percentilelor, indicatorii tendinţei centrale(medie, mediană, mod, suma scorurilor înregistrate), indicatorii dispersiei(abaterea standard, dispersia, amplitudinea, valoarea minimă, respectivmaximă a distribuţiei de date), precum şi eroarea probabilă în raport cudeterminarea mediei aritmetice ş.a. Bifând în câmpurile corespunzătoareindicatorii ce se doresc a fi evidenţiaţi în cadrul analizei statistice, seaccesează comanda Continue, care va readuce în prim-plan fereastraprecedentă, iar după lansarea comenzii OK, programul va calcula în modautomat indicatorii selectaţi.

La output, programul SPSS va furniza următorul tip de fereastrăsegmentată în două suprafeţe distincte: cea din stânga cuprinde numeletabelelor sau al graficelor generate de către program, în partea dreaptă fiindprezentate aceste tabele sau grafice sub formă propriu-zisă:

Page 107: Statistica  aplicata in psihologie, Dumitru Gheorghiu

214 215

Eje _£*ţ_ ŞSew traa» Fşm>« Ştotlstfcs firachs

_J SPSSOutputEt J§:] Frequencies

: piftiej Notesi Statlstics

PORTAG^

RAVENVÂRSTAVPL

•• Frequencies

P0RTAGE2

VÂRSTAVPL

NValid

Statistic3030303030

30

MissinqStatistic

0

0000

0

MeanStatistic

62.07

72.9077.8716.4010.704.450

Std. Error.49

1.881.77

.75

.17.104

MedianStatistic

61 50

730077 5016 0011 004.500

Din mulţimea de statistici generate de către program le vom trece înrevistă şi le vom comenta doar pe cele mai semnificative.

Primul tabel este centralizatorul principalilor indicatori şi prezintăurmătoarea structură:

Statistici:Frequencies

PORTA!

t

Valid

Statistic

30

30

3030

30

aMultiple mode

J

Missinq

Statistic

0

0

0

0

0

s exist.

MeanStatistic

62.0772.90

77.87

16.40

10.70

4.450

Itd. Erro.49

1.89

1.77

.75

.17

.104

Median

Statistic61.6073.00

77.60

16.00

11.00

4.500

Mode

Statistic61»

60

69*

13

11

3.8»

Std.Jeviatic-r

Statistic2.66

10.35

9.72

4.09

92

.572

/ariance

Statistic7.10

107.20

94.40

16.73

.84

.327

Range

Statistic11

29

35

15

3

1.8

/linimuitf

Statistic58

60

62

10

9

3.5

laximun

Statistic69

89

97

25

12

5.3

Sum

Statistic1B62

2187

2336

492

321

133.6

p

25.00

Statistic60.00

63.00

69.00

13.00

10.00

3.950

ercentile

50 00

Statistic61 50

73 00

77 50

16 0011.00

4 500

s

75.00

Statistic64 00

82.25

86 25

19 50

11.00

5 000

în prima coloană sunt prezentate frecvenţele valide luate în calcul decătre program, în cea de-a doua fiind identificate eventualele frecvenţelipsă, drept urmare a neexistenţei unei valori într-un câmp al bazei de date.într-un astfel de context, se sugerează utilizatorilor verificarea acesteicoloane şi introducerea valorilor lipsă în câmpurile aferente, în sensulobţinerii unei statistici de acurateţe deosebită. în continuare, programulidentifică frecvenţele de apariţie a variabilelor numerice (scorurile

înregistrate în cadrul testului Portage în cadrul grupelor 1 şi 2 înainte şidupă aplicarea strategiilor educaţionale).

GRUPUL

Valid 1

2

Total

Total

Frequency

15

15

30

30

Percent

50.0

50.0

100.0

100.0

Valid

Percent

50.0

50.0

100.0

Cumulative

Percent

50.0

100.0

PORTAGE1

Valid 58

59

60

61

62

63

64

65

66

69

Total

Total

Frequency

3

2

4

6

2

2

6

3

1

1

30

30

Percent

10.0

6.7

13.3

20.0

6.7

6.7

20.0

10.0

3.3

3.3

100.0

100.0

Valid

Percent

10.0

6.7

13.3

20.0

6.7

6.7

20.0

10.0

3.3

3.3

100.0

Cumulative

Percent

10.0

16.7

30.0

50.0

56.7

.63.3

83.3

93.3

96.7

100.0

PORTAGE2

Valid 60

61

62

6 3

64

65

66

68

78

79

80

81

82

83

84

85

86

89

Total

Total

Frequencv4

1

1

2

2

3

1

1

1

1

1

2

3

2

1

1

2

1

30

30

Percent13.3

3.3

3.3

6.7

6.7

10.0

3.3

3.3

3.3

3.3

3.3

6.7

10.0

6.7

3.3

3.3

6.7

3.3

100.0

100.0

ValidPercent

13.3

3.3

3.3

6.7

6.7

10.0

3.3

3.3

3.3

3.3

3.3

6.7

10.0

6,7

3.3

3.3

6.7

3.3

100.0

CumulativePercent

13.3

16.7

20.0

26.7

33.3

43.3

46.7

50.0

53.3

56.7

60.0

66.7

76.7

83.3

86.7

90.0

96.7

100.0

Page 108: Statistica  aplicata in psihologie, Dumitru Gheorghiu

216 217

Tabelele de mai sus prezintă cel mai simplu mod de definire avariabilelor, fără a fi necesară o relaţie de condiţionare suplimentară. Dacăaceastă condiţionare este totuşi necesară în cadrul investigaţiei, atunci sepoate apela la o formă mai complexă de prezentare a frecvenţelor, în speţăla frecvenţele de tip explore (selectate prin comenzile statistics -

frequencies - explore).Să considerăm, de exemplu, variabila dependentă grad de deficit

mintal al fiecăruia dintre subiecţi; obţinem următoarea situaţie:

DeficitCase Processing Summary

DEFICITPORTAGE1 DL

DMDMIDMS

PORTAGE2 DLDMDMIDMS

CasesValid

N2

11

10

7

2

11

10

7

Percent100.0%100.0%100.0%100.0%100.0%100.0%100.0%100.0%

MissingN

00000000

Percent.0%.0%.0%.0%.0%.0%.0%.0%

TotalN

21110

72

11107

Percent100.0%100.0%100.0%100.0%100.0%100.0%100.0%100.0%

Pentru testul Portage aplicat înainte de diferenţierea strategiiloreducaţionale se obţine următoarea evoluţie a valorilor înregistrate de cătresubiecţi în funcţie de tipul de deficit:

La a doua aplicare a testului Portage (după diferenţierea strategiiloreducaţionale în cadrul uneia dintre grupe), rezultatele înregistrate de cătresubiecţi prezintă următoarea evoluţie:

DM DMS

DEFICIT

Până acum am considerat evoluţia întregului eşantion format dincei 30 de subiecţi la cele două aplicări ale testului Portage, fără a realizanici un fel de diferenţă între aceştia (dacă fac parte din primul sau din aldoilea grup de lucru). Dacă se doreşte a se observa evoluţia în paralel aperformanţelor înregistrate în cadrul fiecăruia dintre cele două grupuri laaplicarea succesivă a testului Portage (înainte şi după diferenţiereastrategiilor educaţionale), este necesară utilizarea funcţiei Split file dinmeniul Data.

DMI DMS

DEFICIT

Page 109: Statistica  aplicata in psihologie, Dumitru Gheorghiu

218 219

Q.jta Iramfomi £i«phs Wwtew

s i J J _J fel a 1 **t căatticvi6:grupul

«

13

14

1S

16

«

19

20

21

•i i

nume

S G

V I

V M

BR I

C A

BG IBA

EC

F I C

Dv » s t a grupai - rflUUlţ <

deh?r< ; r* £n«|jtt»»j£4$«sţ,dv-*K>t£twR6

poitage2 f* Qrgfchixs*4)MtBti!by$tClv$£

vaisla _ _ _

CDgiupul

^ £otih»fif»IVjii(isupH|««taUe«

qt deficit

( OK. 1

Ctnw)

vpl

5 ;

J !

4!

Al

4

4 !

4 !

»

J

j B]CarlaSPS

In cadrul aplicării opţiunii Split file avem două posibilităţi deorganizare a datelor. Prima dintre acestea se referă la realizarea decomparaţii, având drept variabilă independentă grupul, iar cea de-a doua neva oferi posibilitatea de a evidenţia în mod separat performanţeleînregistrate la nivel individual de fiecare grup în parte. Alegând opţiunea dea compara, de exemplu, rezultatele obţinute de către subiecţi la aplicareapentru prima dată a testului Portage, obţinem următoarea situaţie:

PORTAGE1Frequency Table

GRUPUL"1 Valid 58

59

60

61

63

64

65Total

Total

2 Valid 5860

61626364

65

6669Total

Total

22

3

41

2

115

151

1

221421

1

1515

Percent13.3

13.3

20.026.7

6.7

13.36.7

100.0

100.06.7

6.7

13.3

13.36.7

26.7

13.36.7

6.7100.0

100.0

ValidPercent

13.313.3

20.026.7

6.7

13.3

6.7100.0

6.76.7

13.3

13.36.7

26.713.3

6.76.7

100.0

Percent

13.326.746.7

73.3

80.0

93.3

100.0

67~13.326.7

40.046.7

73.386.7

93.3100.0

Evident, în mod analog se obţine un tabel care prezintă evoluţiarezultatelor subiecţilor la cea de-a doua aplicare a testului Portage.

Până acum nu am realizat decât o evidenţiere a scorurilor, fără a puteapreciza dacă există similitudini sau diferenţe semnificative între rezultateleînregistrate Pentru a evidenţia similitudinile în aplicarea celor doua teste,vom folosi funcţiile de corelaţie liniare şi nonliniare, pentru a putea stabiligradul de legătură dintre variabile.

Aplicând testul de corelaţie Pearson pentru eşantionul format din cei30 de subiecţi, obţinem următoarea situaţie:

Page 110: Statistica  aplicata in psihologie, Dumitru Gheorghiu

220 221

Correlations Correlations

Pearson PORTAGE1Correlation PORTAGE2Sig. PORTAGE1(2-tailed) PORTAGE2

N PORTAGE1PORTAGE2

PORTAGE11.000-.296

.1123030

PORTAGE2-.2961.000

.112

3030

Tabelul ne indică o corelaţie slabă între variabile, aceasta întâlnindu-sedoar în 11,2% din totalul de cazuri. Coeficientul de corelaţie negativ (-296)arată o uşoară relaţie de dependenţă inversă (creşterea valorilor unui set devariabile se realizează în concordanţă cu descreşterea valorilor pentru celde-al doilea tip de variabile).

Apelând la metodele nonparametrice de corelaţie, se calculează în modanalog coeficienţii x-b al lui Kendall respectiv coeficientul p al luiSpearman.

Nonparametric Correlations

Correlations

GRUPUL

1 Pearson PORTAGE1

Correlation PORTAGE2

Sig. PORTAGE1

(2-tailed) PORTAGE2

N PORTAGE1

PORTAGE2

2 Pearson PORTAGE1

Correlation PORTAGE2

Sig. PORTAGE1

(2-tailed) PORTAGE2

N PORTAGE1

PORTAGE2

PORTAGE1

1.000

.143

.612

15

15

1.000

. 8 9 7 "

.000

15

15

PORTAGE2

.143

1.000

.612

15

15

.897"

1.000

.000

15

15

Kendall'stau_b

Spearman'srho

CorrelationCoefficient

Sig.(2-tailed)

N

CorrelationCoefficient

Sig.(2-tailed)

N

PORTAGE1PORTAGE2PORTAGE1PORTAGE2PORTAGE1PORTAGE2PORTAGE1PORTAGE2PORTAGE1PORTAGE2PORTAGE1PORTAGE2

PORTAGE11.000-.077

.5743030

1.000-.162

.3913030

PORTAGE2-.0771.000

.574

3030

-.1621.000

.391

3030

Dacă vom dori să analizăm corelaţia variabilelor după grupul de lucru,apelând ca în cadrul exemplelor de mai sus la funcţia Split file, vom obţineurmătoarele situaţii:

**• Correlation is significant at the 0.01 level (2-tailed).

Dacă pentru grupul 1 nu se înregistrează corelaţii semnificative întreprima aplicare şi cea de-a doua aplicare a testului Portage, în cadrul gru-pului numărul 2 se observă corelaţii înalt semnificative (în valoare absolută.000; cu alte cuvinte, sunt practic 0% şanse să ne putem înşela în predicţiaconform căreia nu s-ar înregistra diferenţe semnificative). Acest lucru seobservă şi din valoarea deosebit de ridicată a coeficientului Pearson 897(având în vedere faptul că 1 este cea mai ridicată valoare ce se poateînregistra).

Aceste corelaţii semnificative în cadrul grupului numărul 2 se potobserva şi în cadrul testelor nonparametrice.

GRUPUL

2

Kendall'stau_b

Spearman'srho

Kendall'stau_b

Spearman'srho

Coefficient

Sig.(2-tailed)

N

CorrelationCoelficient

Sig(2-tailed)

N

CorrelationCoefficient

Sig.(2-tailed)

N

CorreiationCoefficient

Sig(2-lailed)

N

PORTAGL1PORTAGE2PORTAGE1PORTAGE2PORTAGE 1PORTAGE2PORTAGE 1PORTAGE2PORTAGE 1PORTAGE2PORTAGE 1PORTAGE2PORTAGE 1PORTAGE2PORTAGE1PORTAGE2PORTAGE 1PORTAGE2

PORTAGE 1PORTAGE2PORTAGE 1PORTAGE2PORTAGE 1PORTAGE2

PORTAGE 1

.094

.6471515

1.000.115

.6831515

1.000.768*

.0001515

1.000.883

.0001515

PORTAGE2

1.000.647

1515

.1151.000

.683

1515

768"1.000

.000

1515

.883"1.000

.000

1515

Corretation is significant at the .01 level (2-tailed).

Page 111: Statistica  aplicata in psihologie, Dumitru Gheorghiu

222

în cadrul programului SPSS, o modalitate de testare a diferenţelorsemnificative dintre mediile a două eşantioane se realizează prinintermediul testului de semnificaţie cunoscut în terminologia de specialitatesub numele t-Student. Aşa cum se poate observa şi în fereastra următoare,exislă mai multe modalităţi de testare a diferenţelor semnificative:

223

1:nume A G flESBSEQSSSS

1

2

•.';.':Vt:

;•;;•..«:

•'•i.'«;

•••;.'7j

9

nums

A 6

A l

B.C

C E

C I

C.G

D M

D.MI

D A

E G

vama & ^ , i e

|85^TCiosţ*

Sojk. -

| Swival

10

9

in

I I

1

1

i

•;>'; 'SPSS Pfroessoiîs re

fjBStarl j BjCaileSPSS-MraosodW JjijRod.ca C

ijm*

w] Mw

Mei

' £*<A»12

16

16

19

17

18

21

25

a* i

P - SPSS D„.

w^iAMDVA,.73'

88

73

92

69

83

95

87

86

3J0]S? ISIdsl

DMi'

DM

DM

DMS

DMI

DM

DMS

IDMS

DMS

vpl

JC

36

3.E

A.e

L s'*4i3f

4,i

5^

4 !

^, 1

W® S»AM

Prima dintre facilităţile operaţionale puse la dispoziţie de program sereferă la aplicaţia Compare Means - Means, prima dintre cele întâlnite încadrul barei de derulare a meniului Statistics. Acest tip de test este utilizatatunci când se doreşte evidenţierea mediilor înregistrate de către douăeşantioane distincte în funcţie de o variabilă independentă predefinită.

In exemplul următor, ne propunem să evidenţiem mediile înregistrateîn cadrul colectivităţii formate din cei 30 de subiecţi la aplicarea testuluiPortage, având drept variabilă independentă gradul de deficit mintal alsubiecţilor. Pentru a putea realiza o astfel de analiză, programul ne propunedrept interfaţă următoarea fereastră de dialog, în care se observă clarposibilităţile de alegere a variabilelor dependentă şi independentă, în funcţiede preferinţele de analiză ale utilizatorului.

S| 933AM

în urma selectării variabilelor dependentă şi independentă, SPSS-ul vaprezenta în partea rezervată prezentării rezultatelor următorul raport:

Page 112: Statistica  aplicata in psihologie, Dumitru Gheorghiu

224 225

MeansReport

DEFICITDL Mean

NStd.Deviation

DM MeanNStd.Deviation

DMI MeanNStd.Deviation

DMS MeanNStd.Deviation

Total MeanNStd.Deviation

PORTAGE 161.50

2

2.12

61.5511

2.54

62.80

10

3.19

62.00

7

2.45

62.07

30

2.66

PORTAGE283.50

2

3.54

70.9111

10.44

70.3010

10.98

76.71

7

8.98

72.9030

10.35

După cum se poate observa, această facilitate ne permite doarevidenţierea mediilor înregistrate la aplicarea celor două teste Portage(generând şi informaţii asupra gradului de împrăştiere a datelor în jurulvalorii centrale prin intermediul indicatorului de dispersie), fără a puteatesta dacă aceste diferenţe sunt semnificative sau nu. Acest tip de analizăeste realizat cu ajutorul testului t-Student, care, în cadrul programului SPSS(în funcţie de domeniul de aplicare), prezintă trei funcţii distincte:

1. Compararea independentă a eşantioanelor {Independent-samples t test): compară mediile înregistrate pentru o singură variabilăîn cazul a două eşantioane (sau grupuri de cazuri).2. Compararea dependentă a eşantioanelor (Paired-samples t test-dependent t test): compară mediile înregistrate pentru două variabiledin cadrul aceluiaşi eşantion.3. Compararea valorii pentru un eşantion: compară media pentru ovariabilă înregistrată la nivel experimental cu o medie teoretică.

în continuare, vom efectua analiza diferenţelor semnificative pentrutoate cele trei situaţii distincte, în cadrul exemplului prezentat anterior.

1. Compararea independentă a eşantioanelor {Independent-samplest test). Aşa cum este prezentat şi în cadrul următoarei ferestre de dialog,dorim să evidenţiem diferenţele semnificative înregistrate la aplicareasuccesivă a testelor Portage pentru fiecare dintre grupurile de studiu. înacest sens, vor fi comparate mediile grupurilor 1 şi 2 la prima şi, respectiv,la cea de-a doua aplicare a testului Portage.

j 1019AM

în urma procesării datelor, obţinem următorul tabel:

Independent Samples Test

P0RTAGE1 EqualvariancesassumedEqualvanancesnotassumed

PORTAGE2 EqualvariancesassumedEqualvariancesnotassumed

Levene's Test torEaualltv of Variances

F

.493

.098

Siq.

.488

756

t

-2,539

-2.539

19 767

19.767

df

28

26.923

28

27,429

t-test for Equalitv of Means

Sig(2-tailed)

017

.017

.000

ooo

Difference

-2 27

-2.27

1967

19.67

Dilference

.89

89

99

.99

95% ConfidencoInterval olLower

-4.10

-4.10

17.63

1763

theMeanUpper

-44

.43

21.70

21.71

Dacă la prima aplicare a testului Portage se observă diferenţe valoriceîntre grupul 1 şi 2 pe care nu le putem considera semnificative (nivelul desemnificaţie este .017 pentru un nivel de încredere de 95%), după aplicarea

Page 113: Statistica  aplicata in psihologie, Dumitru Gheorghiu

226 227

strategiilor educaţionale se observă diferenţe valorice înalt semnificative(nivelul de semnificaţie este maxim, .000, pentru un nivel de încredere de95%). Această analiză statistică ne poate conduce la concluzia că strategiileeducaţionale aplicate au avut un succes real pentru grupul ce a beneficiat deo astfel de aplicaţie.

De notat că în primele coloane tabelul prezintă testul Levene pentruverificarea diferenţelor înregistrate între dispersiile scorurilor înregistrate încadrul celor două grupuri de subiecţi. Sunt prezentate în următoarelecoloane valorile variabilei t calculate pentru fiecare grup în parte, gradelede libertate ale sistemului (df - degrees offreedom), valorile diferenţelorînregistrate între medii, precum şi erorile standard înregistrate în estimareamediilor. Cea mai importantă coloană a tabelului conţine concluziile asupranivelului de semnificaţie al testului (sig. 2-tailed, adică nivel desemnificaţie pentru teste bilaterale). Cu cât valoarea calculată este maiapropiată de cea considerată drept pragul maximal al semnificativităţii,.000, cu atât diferenţele înregistrate între mediile grupurilor sunt maievidente.

2. Compararea dependentă a eşantioanelor {Paired-samples t test-dependent t test).

în cadrul acestui test vom evidenţia diferenţele semnificative laaplicarea testului Portage în două situaţii: considerând într-o primă fazăeşantionul de 30 de subiecţi, urmând apoi, cu ajutorul funcţiei splitfile, sărealizăm o analiză după scorurile înregistrate în cadrul grupurilor.

QM J,4rati>.m JlşfaŞM $)IDttt V i t e !r*«w H*

jlj J # i i N l"

Cum* $*!*«-V â n t u lVantfeZ

Ipoilagel -.portageS

tm

~l J—

în prima situaţie, programul va considera că există un singur eşantionşi că cele două variabile sunt scorurile înregistrate la testele Portage 1,respectiv Portage 2, pe care le compară între ele. Rezultatele obţinute suntprezentate în cadrul următorului tabel:

Paired Samples Test

Pair i PORTAGI

PORTAGI

Paired Differences

Mean

-10.83

Std.3eviation

11.43

Std. ErrorMean

2.09

95% Confîdencesrvalof the Differer

Lower

-15.10

Upper

-6.57

t

-5.192

df

29

Sig.(2-tailed)

.000

Se confirmă şi în această situaţie existenţa diferenţelor înaltsemnificative (.000) dintre cele două categorii de variabile.

Dorind să realizăm acelaşi tip de analiză pentru cele două variabile, dedata aceasta realizând splitfile după variabila grup, obţinem următorul tabelde date:

Paired Samples Test

GRUPUL1 Pair 1 PORTAGE1

PORTAGE22 Pair 1 PORTAGE1

PORTAGE2

Paired Differences

Mean

-21.80

.13

Std.Deviation

3.38

1.19

Std. ErrorMean

.87

.31

95% ConfldenceInterval of trie Difference

Lower

-23.67

-52

Upper

-19.93

79

t

-24944

.435

df

14

14

Sig(2-tailed)

.000

.670

3. Compararea valorii pentru un eşantion este utilizată în situaţia încare considerăm o medie teoretică postulată pentru testul Portage şi dorimsă comparăm această valoare cu valorile experimentale pe care le cunoaş-tem deja din analizele anterioare.

iiii

Page 114: Statistica  aplicata in psihologie, Dumitru Gheorghiu

228 229

După cum se poate observa şi din fereastra prezentată, se alegevaloarea teoretică de 70 de puncte pe scala aferentă testului respectiv.

Rezultatele obţinute în urma procesării datelor statistice sunt prezentateîn următoarele tabele:

One-Sample îitatistics

PORTAGE1

PORTAGE2

N30

30

Mean62.07

72.90

Std.Deviation

2.66

10.35

Std. ErrorMean

.49

1.89

One-Sample Test

PORTAGE1

PORTAGE2

Test Value = 70

t-16.309

1.534

df29

29

Siq.(2-tailed)

.000

.136

MeanDifference

-7.93

2.90

95% ConfidenceInterval of the Difference

Lower-8.93

-.97

Upper-6.94

6.77

Dacă la prima aplicare a testului Portage diferenţele înregistrate erauconsiderate semnificative în raport cu media propusă (62.07 puncteexperimentale în raport cu cele 70 propuse teoretic), Ia a doua aplicare atestului Portage, după aplicarea strategiilor educaţionale, media de punctaj a

subiecţilor a ajuns la 72.9 puncte (depăşind uşor şi media postulatăteoretic), ceea ce concluzionează asupra validităţii metodelor aplicate.

Pentru analiza diferenţelor semnificative înregistrate între mediile a celpuţin 3 eşantioane sau a comparării a cel puţin 3 categorii de variabiledistincte este utilizat testul ANOVA.

iUrUL'j: 'iJ-iU1.*,'*:

Presupunând că dorim să realizăm o identificare a diferenţelorsemnificative dintre scorurile înregistrate de către subiecţi la cele două testePortage şi testul Raven, având drept factor variabila grup, obţinemurmătoarea situaţie prezentată în tabel.

ANOVA

PORTAGE1 BetweenGroupsWithinGroupsTotal

PORTAGE2 BetweenGroupsWithinGroupsTotal

RAVEN BetweenGroupsWithinGroupsTotal

SumofSquares

38.533

167.333

205.867

2900.833

207.867

3108.700

53.333

431.867

485.200

df

1

28

29

1

28

29

1

28

29

MeanSquare

38.533

5.976

2900.833

7.424

S3.333

15.424

F

6.448

390.747

3.458

Sifl.

.017

.000

.073

Page 115: Statistica  aplicata in psihologie, Dumitru Gheorghiu

230 231

Calculul coeficientului F (al lui Fischer) ne arată că diferenţele înaltsemnificative .000 între variaţiile intra-grupuri respectiv între grupuri seobservă doar la a doua aplicare a testului Portage pentru grupurile 1 şi 2.Aceste variaţii mari ale scorurilor se traduc prin creşterea performanţelorşcolare în urma aplicării strategiilor educaţionale. De remarcat este faptulcă aceste variaţii semnificative nu sunt observate la prima aplicare a testuluiPortage pentru cele două grupuri (.017), respectiv la aplicarea testuluiRaven (.073 - se observă o omogenitate mai mare în răspuns).

Pentru a întregi analiza statistică, propunem în final aplicarea testuluide regresie liniară pentru a putea evidenţia tendinţa datelor de evoluţie înjurul valorii medii.

Să presupunem că dorim să studiem evoluţia subiecţilor la aplicareatestului Portage 1, considerând drept variabilă independentă grupul destudiu.

Rezultatele obţinute în urma procesării datelor statistice prezintăurmătoarea formă:

ANOVA"

Model1 Regression

ResidualTotal

SumofSquares

38.533167.333205.867

df1

2829

MeanSquare

38.5335.976

F6.448

Sig.

a. Predictors: (Constant), GRUPUL

"• Dependent Variable: PORTAGE1

Calculul coeficientului de regresie p aferent testului statistic:Coefficients1

Model1 (Constant)

GRUPUL

UnstandardizedCoefficients

B58.667

2.267

Std. Error1.411

.893

Standardized

Coefficients

Beta

.433

t41.566

2.539

Sig.

.017

a- Dependent Variable: P0RTAGE1

Pentru aplicarea. testului Portage 1 se poate constata confirmareaapariţiei diferenţelor semnificative, ca şi în cadrul analizelor precedente.

Page 116: Statistica  aplicata in psihologie, Dumitru Gheorghiu

ANEXA A: Tabelul ariilor de sub curba normală standard

A!0.0 i

0.1 I

0.2 ;

0.3 i

0.4 i

0.5 ;

0.6

.°-7J0,8 i

0.9 i

1,0

1,1

1.2

,.3

U |

1 1 O J2-1 i

2.2 i

2.3 j

0.00 ;

0.0000 1

0.0398 |

0.0793

0.1179

0.1554

0.1915

0.2257

0.2580 i

0.2881 i

0.3159 j

0.3413

0.3643

0.3849

0.4032

0.4192 i

0.4332

0.4452

0.4554 i

0.4641 ;

0.4713 |

0.4772 1

0.4821 ;

0.4861 i

0.4893 i

0.01 i

0.0040 !

0.0438 j

0.0832 i

0.1217 j

0.1591 j

0.1950

0.2291 ;

0.2611 \

0.2910 j

0.3186 i

0.3438 ;

0.3665 ;

0.3869 i

0.4049 )

0.4207 \

0.4345 j

0.4463 î

0.4564

0.4649

0.4719 :

0.4778 i

0.4826

0.4864 ;

0.4896

0.02

0.0080

0.0478 1

0.0871

0.1255 |

0.1628 i;

0.1985

0.2324 i

0.2642

0.2939

0.3212

0.3461 i

0.3686 i

0.3888

0.4066

0.4222 i

0.4357 i

0.4474 i

0.4573 |

0.4656 |

0.4726 i

0.4783 i

0.4830 i

| 0.4868 i

0.4898

0.03

0.0120

0.0517

0.0910

0.1293 i

0.1664 i

0.2019 \

0.2357 i

0.2673

0.2967 i

0.3238

0.3485 •

0.3708

0.3907 .

0.4082

0.4236 |

0.4370 i

0.4484 i

0.4582 i

0.4664 1

0.4732 i

0.4788 i

0.4834

0.4871

0.4901

7k0.04 ;

0.0160 i

0.0557 |

0.0948 i

0.1331

0.1700 ]

0.2054 :

0.2389

0.2704 ;

.... .,

0.2995 |

0.3264 j

0.3508 \

0.3729

0.3925 i

0.4099 i

0.4251 [

0.4382 i

0.4495 ;

0.4591

0.4671 i

0.4738 |

0.4793 i

0.4838

0.4875

[ 0.4904 :

-0.05 ş

0.0199 |

0.0596

0.0987

0.1368 i

0.1736 i

0.2088 i

0.2422 \

0.2734 i:

0.3023

0.3289 j

0.3531 i

0.3749 i

0.3944 i

0.4115

0.4265 i

0.4394

0.4505

0.4599 i

0.4678 :

0.4744

0.4798

0.4842

0.4878

0.4906

0.06 ;

0.0239 i

0.0636 j

0.1026 j

0.1406

0.1772

0.2123

0.2454 i

0.2764 1

0.3051 ;

0.3315 i

0.3554 i

0.3770 i

0.3962 i

0.4131 i

0.4279 i

0.4406 j

0.4515 I

0.4608

0.4686

0.4750

1 0.4803

0 4846

0.4881

0.4909

0.07 i

0.0279

0.0675

0.1064

.0.1443 i

0.1808

" "10.2157 :

0.2486 i

0.2794

r~ i0.3078 \

|1

0.3340 |

0.3577 j

0.3790 ;

0.3980 i

0.4147 \

0.4292 i

0.4418

0.4525 \

0.4616

0.4693

[ 0.4756 :

| 0.4808 i

0.4850 i

1 0.4884 |

0.4911 i

0.08

0.0319 i

0.0714 ;

!0.1103 ;

0.1480 i

0.1844

0.2190 i

0.2517 i

0.2823 i

;

0.3106

0.33650.3599 i

0.3810

'0.3997 ;

0.4162

0.4306

0.4429 i

0.4535 !

0.4625 |

0.4699 |

0.4761

0.4812 ;

0.4854

0.4887 ;

0.4913 j

0.09 [

0.0359 ii

0.0753 ;|

0.1141 ii; î

0.1517 i|

0.1879 |

0.2224 ii

0.2549 |

0.2852 ii

0.3133 |

0.3389 |

0.3621 ii

0.3830 i

0.4015 ii

0.4177 :|

0.4319 i|

0.4441 ii

0.4545 i

- -;0.4633 :!

• !

0.4706

0.4767 i

0.4817 i

0.4857

0.4890

0.4916 i

Page 117: Statistica  aplicata in psihologie, Dumitru Gheorghiu

234

1?2.4

;j 2.6 ;

• \ 2.7 ;

II 2.8 ij

I 2 -»!IEf

i ••"

| 0.00

' 0.4918

0.4938

0.4953 !

0.4965 i

0.4974 ;

0.4981 1

0.4987 :

[ 0.01

j 0.4920

0.4940

0.4955 j

0.4966 ;

0.4975 :

0.4982

0.4987 :

[ 0.02

J 0.4922

0.4941 ;

0.4956 ;

0.4967 i

0.4976 ;

0.4982

0.4987 1

I.. 0 - 0 3

0.4925

0.4943

0.4957 \

0.4968 !

0.4977 ş

0.4983 i

0.4988 '

j 0.04

0.4927

0.4945

0.4959 j

0.4969 '<•

0.4977 (

0.4984 \:

0.4988 !;

! 0.051.

| 0.4929

0.4946 :

0.4960 î

0.4970 \^

.0.4978 |

0.4984 \

0.4989 !

j 0.06

| 0.4931

0.4948 j

0.4961 i

0.4971 :

0.4979 !

0.4985 :

0.4989 ii

j 0.07

| 0.4932

0.4949 i

0.4962

0.4972 ;

0.4979 \

0.4985 ''•

0.4989 !

o.o8 :

| 0.4934 ;

; 0.4951 ;

0.4963 |

0.4973 :

0.4980 !|

0.4986 ;!ir

0.4990 !i

1 0.09

0.4936 :

0.4952 I

0.4964 :

0.4974 \

0.4981 i

0.4986 1

0.4990

235

ANEXA B: Tabel cu numere aleatorii

234395482408887360091 1 57915999353 13711450 118 2248307088423337720526342313656286263663340782323949309898858775493 194525794976649063005436194437933 10025754361920709472707690326977612110 6 0 895058389576789914012005271 1332942859754361713401755184782095

985073982553462716131 18665690952502264782884131913744387269357078119195207561547530253 403054527650605020862988032827616942607946356737007008769253405717404504599638667800689327728044906321474059732902197937874854185922309815355274485070257740603

39910412552706159290239826352620542576576 3 9 2 59269 76313956751624488113572073713220075143905454 17349225478498074242390109974723103502392527445449537722021565460444710972675491 1 50244663248464988861 12765 1011141280724077502493 17368311897218842955 3 6 6 2

005609229291124393070718458442181611 1259169872146482700814546195783 18526395523183 195117686333844006260012413260856289443805367082476439533906679004875369003484145 19389012256552753992769457467766423971187775456677453104392968874813357007026363581

32626427920082181382487546501 80814823742454507622380136876374732779771872754421 1177056 4 3 9 7571290779448871092322275000 1052047590228083973794190254933368417 1413368142968124126194641 842805691 844770438938825 177150321435745472001 522444523957598835416

103 89470440673990065237306721626274111300302423050369950154505131412919466928 1686139478999670031786654379646357780567125259969275356952878531885887945854622635 18449476345762332930152649057580585997347056959932203715099747174762979591313529911192

Page 118: Statistica  aplicata in psihologie, Dumitru Gheorghiu

236 237

91330718473603208226707780737458853256078790203474373501599770801662665990667885271531 598072707059226 3 9 12

6991 5365023279944723927343118772101763091611736702900695578639564372621 0852801 0782956085173 15354424572 1 08

500028 1114206875 2 3 9 743 05 70922981 0422644047038647297869212577705276228082541752935807192262933457077784799

2653902923273 130398430797433262649301 54856639565042616920265200084992205267328144206221835476646707034600

22932105042978 1242948234949 1 424989028838878672 9 7 2 957320794327094748858059 127299076281354239 5 9909212951273

20736705233290404990459167 8 2 3 8013893712963608379364 3 2 3 1077874860270309180460587357111719027616 16792540910

ANEXA C: Tabelul valorilor critice ale distribuţiei /

df\a

1

1 23

Li.L5.1 •

7

8

1.»1 «o! ' •

1 nP 1314

15

18r»L 2 0

fir22

[~23~

fls"ff 26

l| 27

'{!»29

30

[ in?

0.10 :

3 077684 j|

0.05

6.313752

1 885618 ij 2.919986

| 1 637744 i

.,"1J

1 533206 i

1.475884 f

|[ 1.439756 |

J 1.414924 '

1.396815

j 1.383029

1372184

1 363430

1 356217

1 350171

if i.345030•*::L-,-^™.,..wu™™ J

1 340606

| 1336757

~| 1153379""1330391 \

1 327728 i

["1325341 i

( 1.323188 ;

i 1.321237 ;

jj 1.319460 |

S 1.317836 !

j 1.316345 :

1 {~1.314972 (

j| 1.313703 !

j 1.312527 |

1311434

1310415

1 281552

2.353363 ,

2.131847 j

2.015048

1.943180

1 894579

1 859548

I 833113

1.812461 i

1.795885 !

1 782288 1

""7770933 !

1.761310 ;

1 753050

1 745884

""7739607* ~

1.734064

1.729133

1.724718

1.720743

1.717144

1.713872

1.710882 i

1.708141 i

1.705618 i

1.703288 |

1.701131 ;

1 699127

1 697261

1 644854

L

i

L

- ̂ a0.025

12 70620

4 30265

3.18245

2.77645

2 57058

2 44691

2 36462

2 30600

2 26216

2.22814

2.20099

2.17881

2.16037

2.14479

2 13145

2 11991

TÎ0982~

2 10092

2 09302

2 08596

2 07961

2 07387

2.06866

2.06390

2.05954

2.05553

2.05183

2.04841

2 04523

2 04227

1 95996

1

|

II

i

jl...

1

T1

.

~

1

I

.1

0.01

31 82052

6 96456

4 54070

3 74695

3.36493

3.14267

2.99795

2.89646

2.82144

2.76377

2.71808

2.68100

2.65031

2 62444

2 60248

2 58349

T56693~

2 55238

2.53948

2.52798

2.51765

2.50832

2 49987

2.49216

2 48511

2 47863

2 47266

2 46714

2 46202

2 45726

2 32635

| 0.005

| 63 65674

| 9 92484

5 84091

4 60409

j[ 4 03214

1,l

1^

3.70743

3.49948

3 35539

3 24984

3 16927

j[ 3 10581

3 05454

~~îj 3 61228" ~

| F97684

2 94671

{ 2 92078

~P~289823

| 2 87844

2 86093

f 2 84534

2 83136

2 81876

[ 2.80734

2 79694

2.78744

•J 2 77871

2 77068

2 76326

f 2 75639

2 75000

f 2 57583

0.0005

636 6192 •

31 5991 i

12.9240 \

8.6103 :

6 8688

5 9588

5 4079

5 0413

4 7809 i

4 5869 \

4 4370 :

4 3178 :

4 2208 ;

4 1405

4 0728

4 0150

3 9216

3 8834

3.8495

3 8193

3 7921

F~ 3.7676 i

3 7454

pr?25i3 7066

| 3 6896

[ 3.6739

| 3 6594

3 6460

| 3 2905

Page 119: Statistica  aplicata in psihologie, Dumitru Gheorghiu

O;of

Page 120: Statistica  aplicata in psihologie, Dumitru Gheorghiu

OlO

î

ş

1

OZI

o

Ol

o

Vi

o

ov

00

-

o

.020

o

008 6001

1005

598

1001

41

4

3

i

984

8668

9767

079

oo

963

2846

vO

O-

948.

216<

Ov

sr-l

00in

00

4.16

30

o

00

§

39.4

9S49

0

S

39.4

819.

473

rt

39.4

562

9 44

739

.414

6

00

r>

39 3

S69

9.37

30

in

in

1

.248

416

55

m

0000

.506

3

g

-

N

4 03

74.

081

4.12

41

Vl

I

00

4.53

9946

244

4.73

4714

.884

8

9.

.439

2

g

.443

4

s

o

oo

8.36

04

11

oo8.

5109

•nin

5959 8

S.7

5I2

s

8904

73

9796

.074

1.1

973

J364

560

497

9264

91

L4

o

N

.175

Ol

\O

Ooo

vO

6 52

45

Ov

6811

Ş7

57

2j

,853

1.9

777

1464

LU

763

4336

00

4.84

9

3

4.9

• * '

O

o

Ol

vO

5.26

87>.

3662

5.46

1:

I

6955

8618

.987

6

r-,

865

2599

81

3

o

.309

4.41

50(.4

664.

5678

8S99t

4 76

182

324.

8993

.994

9

9811

V

<x

<-

in

889i

5415

072

r-l

/S4

.840

&

3 94

72J

99

94.

1012

997

S6ZI

.357

24

4333

.528

6.6

517

1.81

7305

241

6

Ov

S70

i

Ol

SOS

&

6142

S66

6

Z898

S

.026

04.

1020

0£6l

3197

.484

471

807

871

4720

90

80

|

o

„•

-

255

3654

.418

3.52

1762

09.7

790

3.85

49.9

498

072

1

468

r-

3

936

i

T

04

-:

06

1

1'

.17

25

"22

6.3

299

.429

63.

5257

.587

93.

6638

goo

1

275

8

2559

724

IO

ooxr

r-l

906

Si

.018

7S

P

i.373

<.4

358

1.51

1860

65

O

1I6S

121

474

o*

• n

£

c

2.6

.780

.893

22.

947

i53

23.

3880

,482

7

1

7667

995

347

9653

414

r-,

r-i

674

oo0000

00

1oo

1.14

6?.2

093

3.28

53

66££

o

s

891

241

8567

297

-'

-

r-i

585

A

.700

6 ^

.862

1..9

633

1

.122

7Î.

I98

7.2

934

414

.576

480

415

276

5019

9

-o

-.

o,

OJ

OvO

•n

-n

252

2,68

0.7

875

2.88

90

DO

OO

S

.124

8 j

.219

4.3

406

.5021

076

6867

115

<N

s,f-i

.442

o-

" '.

.723

0.8

24

9

s

9849

3 06

1015

56

£

4379

664

011

6189

_

047

-

r-i

r-l

.384

rr

ÎNg ;

2.55

9.6

667

68

9

DC

.929

1

|

0999

.220

938

20

o

951

5597

978

-

r-i

O

t-i

•;

523

2.50

89

3

7196

oo

1088

2.95

63

j.0

509

.171

8.3

327

558

903'

50

75

921

n

c;

•O

r-,

r-i

287

r-l

076

2 46

42

57

31

>75

873

'8

36

52

9128

.289

15

14

858

4613

Ii8

r-l

oi

.246

Mii

T

5338

S

3

7977

2 87

40.9

686

.089

525

01

r--

00

4199

816

O

<-'•

*

o-

4984

&

.762

82.

8392

9338

.054

6.2

151

440

r-

3828

786

« j

o.

=

r-l

r-l

989

2.35

6Î.4

665

69

9ot

2.80

77.9

023

.023

2.1

835

80»

750

3492

749

°~.

O

oi

2.08

0.1

4669

323

27.4

374

=

.702

72.

7791

.873

8

1

.1548

64 E

721

3187

1 906

--

20

52

811

-

\

2.30

014

9

1-o

2.75

3184

78.9

685

.128

73

53

694

2909

AR

6

w

-

2.02

6.0

93

-

174

2.27

5

1

908

O(

6528

o

.824

094

47.1

048

00Ol

66

926

556

CO

O

-

2 00

2.06

994

6..3

644

688

6309

2.70

74.8

021

8ZZ6

0828

106

O

613

o

r~

-

.980

048

r-l

a

34

38

^48

4

.610

62.

6872

.782

0.9

027

.062

6

79Z9

ir

o

-

028

r-l

O

540

?:

3248

295

286

.591

92.

6686

.763

3.8

840

.043

8

£

£

2006

587

«0

O

2.00

9

o

359

-

.307

212

0

.574

62.

6513

.746

0.8

667

.026

524

958

9'18

2156

7

-ii

£08

1.87

5

O*

VO

2.06

7.1

819

00

88

.4519

2.52

89.6

238

1

.903

712

6

3

o

423

.667

1.744

ir,

00

944

0613

1

692

702

.334

4-

8905

.627

42.

7863

s

342

9253

785

530

1,614

597

.824

9

5

.054

857

C

ÎN

2.29

9439

48.5

154

2.67

4089

422

6<80

46T5

?3

88

|

1

Zi

.708

5_

00

9447

2 04

83.1

136

| 2.

1918

.287

5.4

082

2 56

6578

5811

61

o-

023

Page 121: Statistica  aplicata in psihologie, Dumitru Gheorghiu

242

ANEXA E: Tabelul valorilor critice ale distribuţiei/2

gfta

1z->J

4

/ •

{>

*7I

QOoV

i nIU

11i ">11

1 11 J

1415

16

17

18

19

21

222 J

24•^c25

26

27

28

29

30

.100

2.70554

4.60517

6.25139

7.77944

9.23636

10 04464

f2.OI7O4

""13.36157

14.68366"

' " 15.98718

• 17.27501

18.54935

19.81193

21.06414

22.30713

, 23.54183

24 76904

25.98942*

27.20357

28.41 198

29.61509

30.81328

32.00690

33.19*624

34.38159'

35.56317

36.74122

37.91592

, 39.08747

40.25602

.050

3.84146

5.99146

7.81473

9.48773

11.07050

12.59159

14.06714

15.5073*1

"16.91898"

18.3*0704

19.67514

' 21.02607

22.36203

23.68479

24.99579"

26.29623

27.58711

2*8.86930

30.14353

31 41043

i 32.67057

33.92444 ;

35.17246

36.41503 " ,

' " 3 7 . 6 5 2 4 8 " " . '

; 38.88514" ","

; 40.11327

î 4133714 [

42.55697

43.77297 1

x !

~ .025

5702389*

7.37776

9.34840

11.14329

12.83250

14.44938

16.01276

17.53455

i 9*02277

20.48318

21.92005

23.33666

24.73560

26.1 1895

~ 27.48839

28.84535

30.19101

31.52638*

32.85233

34.16961

35.47888

36.78071

" 38.07563

39.36408

"40.64647

41.923 17

43.19451

44.46079

45.72229

46.97924

.010

6.63490

9.21034*

11.34487

13.27670

15.08627

16.81189

18.47531

; 20.09024

21.66599

. " 23 20925

24.72497

| 26.21697

, 27.68825

29.14124

, 30.57791

3 1.99993

33.40866

34.80531

36.19087

37.56623

38.93217

40.28936

41.63840

" 42*97982

" "44.31*410

"* 45.64 f68

46.96294

, 48.27824

49 58788

50.89218

.005

7.87944

10.59663

12.83816

14 86026

16.74960

18.54758

20.27774

2 1 95495

23.58935

25.18818

26.75685

> 28.29952

29.81947

31.31935

32.80132

34.26719

35.71847

37.15645

38.58226

39 99685

41.40106

42.79565

44.I812S

45.55851

46 92789

48.28988

49 64492

50.99338

52.33562

53.67196

243

ANEXA F: Tabelul valorilor critice pentru testul Mann Whitney U

a = 0.025, test unilateral>h

1234567891011121314151617181920

9

0247101215172023262831343739424548

10

0358111417202326293336394245485255

11

0369131619232630333740444751555862

12

14711141822262933374145495357616569

13

14812162024283337414550545963677276

14

15913172226313640455055596467747883

15

151014192429343944495459647075808590

16

161115212631374247535964707581869298

17

2611172228343945515763677581879399105

18

27121824303642485561677480869399106112

19

271319253238455258657278859299106113119

20

2813202734414855626976839098105112119127

10

ii.13

16

18

20

121518212427303336394245485154

a = 0.05, test unilateral

10 11 12

141720242731343741444851555862

121619232731"3438424650545761

~6569

13172126303438424751556064687277

13

1015192428333742475156616570758084

14

1621263136414651

"5661667177828792

15

12182328333944'50*55*6166"

77838894100

16

141925303642485460657177838995101107

17

1520263339455157647077838996102109115

18

16222835414855616875828895102109116123

19

10172330374451586572808794101109116123130

20

11

JJL25

_39__47_54

_62_69

J4__92_J_00_J_07__U5_123

_J_30_138

Page 122: Statistica  aplicata in psihologie, Dumitru Gheorghiu

244 245

ANEXA G: Tabelul valorilor critice pentru testul Wilcoxon T

Unilateral

0.05

0.025

0.01

0.005

0.05

0.025

0.01

0.005

0.05

0.025

0.01

0.005

1 = 0.05

!.! = 0.025

= 0.01

:.: =0.005

Bilateral

0.10

0.05

0.02

0.01

0.10

0.05

0.02

0.01

0.10

0.05

0.02

0.01

! =0.10

= 0.05

i, =0.02

: =0.01

n = 5

1

n = 11

14

11

7

5

n = 1 7

41

35

28

23

n = 23

83

73

62

55

n = 6

2

1

n = 12

17

14

10

7

n = 1 8

47

40

33

28

n = 24

92

81

68

n = 7

4

2

0

i i = 1 3

21

17

13

10

n= 19

54

46

38

32

n = 25

101

90

77

1 68

n = 8

6

4

2

0

n = 14

26

21

16

13

n = 20

60

52

43

37

n = 26

110

98

85

76

n = 9

8

6

3

2

n = 1 5

30

25

20

16

n = 21

68

59

49

43

n = 2 7

120

107

93

84

n= 10

II

8

5

3

n= 16

36

30

24

19

n = 22

75

66

56

49

n = 28

130

117

102

92

ANEXA G: Tabelul valorilor critice pentru ps

n

5

6

7

89

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27282930

Nivelul a

0.10

0.90

0.83

0.71

0.64

0.60

0.56

0.52

0.50

0.47

0.46

0.44

0.42

0.41

0.40

0.39

0.38

0.37

0.36

0.35

0.34

0.34

0.33

0.32

0.32

0.31

0.31

0.05

1.00

0.89

0.79

0.74

0.68

0.65

0.61

0.59

0.56

0.54

0.52

0.51

0.49

0.48

0.46

0.45

0.44

0.43

0.42

0.41

0.40

0.39

0.38

0.38

0.370.36

0.01

-

1.00

0.93

0.88

0.83

0.79

0.77

0.75

0.71

0.69

0.66

0.64

0.62

0.61

0.60

0.58

0.56

0.55

0.54

0.53

0.52

0.51

0.500.490.480.47