425

Click here to load reader

statistica aplicata

Embed Size (px)

Citation preview

Page 1: statistica aplicata

DANIELA DUMBRĂVEANU

STATISTICA APLICATĂ ÎN TURISM

Page 2: statistica aplicata

ISBN

2

Page 3: statistica aplicata

DANIELA DUMBRĂVEANU

STATISTICAAPLICATĂ ÎN TURISM

EDITURA UNIVERSITARĂ

3

Page 4: statistica aplicata

Bucureşti, 2006

4

Page 5: statistica aplicata

5

Page 6: statistica aplicata

Capitolul 1

CUANTIFICAREA CA METODĂ DE STUDIU, CERCETARE ŞI CUNOAŞTERE

A REALITĂŢII SOCIO GEOGRAFICE

1.1. Introducere

Geografia1 în mod asemănător altor discipline de

studiu sau ştiinţe presupune un volum vast de informaţie

cu care operează, de ordin cantitativ sau calitativ în funcţie

de natura elementelor componente, a proceselor sau

fenomenelor dintr-un mediu anume. În marea majoritate a

cazurilor, elementele componente ale unui mediu

geografic fie el fizic sau antropic, fenomenele şi procesele

din natură şi societate în mod normal şi de la sine iau

forma unor grupuri, ansambluri sau mulţimi de elemente

individuale, de acelaşi fel, care în mod cauzal pentru

apariţie, evoluţie şi dezvoltare necesită condiţii

asemănătoare sau urmează aceleaşi legi. Astfel geografia

ca ştiinţă este pusă foarte adesea în situaţia de a generaliza

1Turismul este considerat şi tratat de către autoare din punct de vedere conceptologic ca disciplină componentă a Geografiei Umane, fapt pentru care în acest capitol nu va face referiri directe la acesta.

6

Page 7: statistica aplicata

informaţia de detaliu în vederea cunoaşterii ansamblului,

de a descrie, examina şi analiza critic informaţia precum şi

de a perfecţiona ori prognoza tendinţe, practici, procese,

fenomene.

Cunoaşterea cantitativă sau statistică reprezintă un

domeniu la care geografia (la fel ca toate celelalte ştiinţe

sociale sau ale pământului) face apel, utilizând în mod

selectiv acele metode statistice cu aplicabilitate, eficacitate

şi relevanţă. Autoarea doreşte să sublinieze în beneficiul

studenţilor geografi, faptul ca nu toată statistica este utilă

sau relevantă ca metodă de analiză în studiile şi cercetările

geografice. La baza faptului că geografia face apel la

cunoaşterea statistică utilizându-i metodele stă în primul

rând faptul că cele două au ceva important în comun:

obiectul de studiu este adesea acelaşi – fenomenele de

masă, sau în limbaj geografic, procesele şi fenomenele

care implică un volum forte mare de elemente componente

sau informaţie.

În plus potrivit logicii formale din ştiinţă atât

inducţia cât şi deducţia reprezintă două laturi unitare ale

procesului de cunoaştere ştiinţifică în general,

7

Page 8: statistica aplicata

completându-se, condiţionându-se reciproc (Ţarcă, 1998),

laturi specifice ambelor domenii.

Cunoaşterea geografică ca şi cea statistică a

fenomenelor complexe se realizează pe baza

caracteristicilor, a faptelor observate (metoda observaţiei,

fundamentală în geografie şi statistică) sau constatate fie

în realitate, pe teren, într-o experienţă, anchetă, sau într-o

bază de date, urmărindu-se:

desprinderea elementelor semnificative din

aparent întâmplătorul joc al realităţii,

determinarea unei structuri în domeniul aleator

identificarea unei legităţi, tendinţe, teorii ,etc,

confruntarea unei teorii cu realitatea

Este bine cunoscut faptul că legile ştiinţifice odată

stabilite nu exprimă cu certitudine cum se comportă natura

sau societatea în general, ci descriu pur şi simplu modul

cum se comportă acestea între anumite limite de timp, de

spaţiu şi modul cum probabil se vor comporta din nou în

condiţii similare. De asemenea este bine cunoscut faptul

că ştiinţele particulare, printre care şi geografia, nu ar fi

ajuns în mod real pe o treaptă superioară de dezvoltare

fără cuantificare, matematizare (aceasta reprezentând de

8

Page 9: statistica aplicata

fapt un stadiu evolutiv). Această teorie a fost verificată

mai întâi în cazul ştiinţelor naturii iar mai recent şi în

cazul ştiinţelor sociale, ceea ce plasează geografia (atât

prin ramura sa umană cât şi prin cea fizică) în sfera

necesităţii combinării metodelor proprii de cunoaştere cu

cele ale statisticii prin prisma faptului că, esenţa statisticii

ca ştiinţă constă în capacitatea ei de a generaliza trăsăturile

şi relaţiile dintre procesele şi fenomenele colective din

viaţa economică şi socială, care există în mod obiectiv şi

în reflectarea lor în noţiuni generale, regularităţi, legităţi şi

legi (Ţarcă, 1998). Ori aceste aspecte reprezintă stadii

fundamentale în cunoaşterea geografică finală.

Practic atât cunoaşterea geografică cât şi cea

statistică, pornind de la real la abstract, cercetează

fenomene concrete sau colectivităţi de fenomene pentru a

stabili ce au în comun, esenţial şi stabil în vederea

determinării categoriilor, regularităţilor, legităţilor.

Ambele cunoaşteri putând lua forme inductive sau

deductive în funcţie de realitatea fenomenelor având ca

scop final cunoaşterea tendinţei de evoluţie, prognoza şi

luarea de decizii.

9

Page 10: statistica aplicata

Revenind la fenomenele de masă ca obiect de studiu

comun atât geografiei cât şi statisticii se vor prezenta în

continuare o serie de aspecte care vin să argumenteze în

detaliu ce au în plus în comun cele două discipline sau

ştiinţe.

Esenţa fenomenelor sau a proceselor de masă este

pusă în evidenţă de numărul mare cazuri individuale din

componenţă. De exemplu, natalitatea unei populaţii

necesită un număr mare de naşteri de copii vii sau

formarea unei structuri de cazare în turism necesită un

număr mare de hoteluri de mai multe categorii.

Fenomenele de masă se caracterizează prin definiţie

prin variabilitate, concept de bază în statistică. În cazul

geografiei acesta se numeşte diversitate sau complexitate.

Elementele componente sau indivizii, până la un anumit

nivel, asemănători, prezintă şi anumite caracteristici

distinctive. Diferenţierile, mai mult sau mai puţin

semnificative constituind obiectivul înregistrării prin

măsurătoare (Isaic-Maniu şi colab; 2003). Astfel

fenomenele de masă sunt rezultatele acţiunii unui număr

mare de factori de influenţă cu componenţă şi natură

diferită, asociaţii cu sensuri, direcţii şi intensităţi multiple.

10

Page 11: statistica aplicata

Ele sunt de asemenea deterministe, produse în condiţii de

incertitudine, forma lor individuală de manifestare fiind

diferită.

Legitatea de manifestare a fenomenelor de masă nu

poate fi studiată şi verificată decât la nivelul întregului

ansamblu de cazuri individuale, în nici un caz la nivel de

element component individual.

Astfel studiul cantitativ al fenomenelor de masă

presupune conform lui Isaic-Maniu şi colab., studiul

raportului dintre necesitate şi întâmplare, a raportului

dintre legea statistică (cunoscută şi sub denumirea de lege

stocastică) şi legea dinamică sau a relaţiei dintre modelul

statistic (stocastic) şi modelul determinist (Isaic-Maniu şi

colab; 2003). Deşi cele două legi şi modele fac parte din

metodologia de început a cercetării ştiinţifice fiind

considerate în prezent de către cercetătorii britanici

(autorităţi tradiţionale în domeniul statisticii), uşor

învechite şi depăşite ele rămân importante şi din punct de

vedere geografic datorită aplicabilităţii lor. Studiul relaţiei

dintre ele însă, sau mai bine spus a raportului dintre ele

constituie o tendinţă conceptuală şi de cercetare mai nouă

şi mai eficientă atât în statistică cât şi în geografie.

11

Page 12: statistica aplicata

Legea statistică reprezentând „una din formele

manifestării legăturilor generale ale fenomenelor din

natură şi societate” (Ţarcă, 1998, p 43), constituie în

acelaşi timp un instrument de verificare şi cercetare a

tuturor proceselor şi fenomenelor din geografie. Spre

deosebire de legea dinamică , care este o formă de

manifestare a fenomenelor individuale luate ca atare, legea

statistică „exprimă legătura necesară dintr-un ansamblu de

procese şi fenomene, care se găsesc într-o anumită

interacţiune, aparent întâmplătoare, şi nu dintre două

fenomene oarecare sau două cazuri ale unui fenomen”

(Ţarcă, 1998, p 43). Fiecare unitate sau element

component dintr-un fenomen sau ansamblu se comportă

întâmplător în raport cu întregul, cu ansamblul de

fenomene. Legea statistică nu determină mişcarea sau

comportarea fiecărui element, ea este rezultanta medie a

numeroaselor acţiuni individuale ale ansamblului de

fenomene, ca tendinţă predominantă, ca medie a unui

număr mare de abateri întâmplătoare. Deoarece în

geografie interesează adesea, mai ales în ultimul timp şi

formele de manifestare ale unităţilor individuale ale

ansamblului de fenomene, aceasta trebuie să aplice şi să

12

Page 13: statistica aplicata

ţină cont şi de legea dinamică cu atât mai mult cu cât,

mediul geografic în ansamblu său este un mediu foarte

dinamic, caracterizat printr-o structură complexă şi vastă

dar în acelaşi timp cu elemente individuale cu

personalitate şi trăsături puternice, la rândul lor, dinamice.

Practic geografia trebuie să ţină cont în cercetare de faptul

că între legea statistică şi cea dinamică există o legătură

dialectică (conform unor autori, precum Ţarcă, 1998), o

legătură determinantă. Ele se corelează, se întrepătrund,

determinând împreună manifestarea fenomenelor,

mişcarea lor, tendinţele de evoluţie. Devine astfel evident

de ce geografia, în mod special ramura sa, geografia

umană, pentru a atinge un nivel ridicat de rigurozitate în

cercetare, în verificarea teoriilor sale, mai ales atunci când

este vorba de fenomene de amploare (fenomene de masă)

trebuie să apeleze la cuantificare; urmând practic până la

un anumit nivel metodologia statistică cu care după câte

am demonstrat mai sus are forte multe în comun. Ca

urmare reamintim cititorului student că geografia aplică

selectiv o parte din metodologia şi „instrumentarul”

statisticii, ca necesitate de cuantificare în studiul

anumitor procese şi fenomene atât fizice dar mai ales

13

Page 14: statistica aplicata

umane. Reamintim aceluiaşi cititor că în geografie

cuantificarea reprezintă doar un stadiu în demersul său

din cercetare, geografia mai ales cea umană nu îşi

bazează metodologia exclusiv, exhaustiv, finalmente pe

cuantificare. În concluzie, cuantificarea, statistica în

geografia umană trebuie privită ca un instrument, unul

important, de analiză, de verificare a legităţilor şi

teoriilor privind procesele şi fenomenele de amploare,

indiferent de natura acestora.

Statistica nu posedă până în prezent o definiţie

universal valabilă sau universal acceptată ca satisfăcătoare

deşi un domeniu cu propria sa istorie şi proces de evoluţie

(separat de matematică) este considerat de unii ştiinţă iar

alţii o artă. A apărut în secolul XVII ca urmare a

preocupării unor matematicieni pentru probabilităţi, s-a

dezvoltat mai întâi ca sub-domeniu al matematicii

devenind un domeniu de sine stătător în secolul XIX

(Ebdon, 1977).

Termenul de statistică posedă în general 4

semnificaţii diferite sau înrudite:

a) acela de activitate practică (colectarea, măsurarea,

obţinerea, înregistrarea, informaţiei, a datelor);

14

Page 15: statistica aplicata

b) metodologie cantitativă (ansamblul metodelor şi

procedeelor de culegere, prelucrare şi analiză a datelor);

c) metodă cantitativă (modul de cercetare a

fenomenelor de masă, pe baza exprimărilor cantitative cu

ajutorul unui sistem specific de reguli, principii de

cunoaştere şi transformare a realităţii obiective);

d) disciplină ştiinţifică de învăţământ.

Ca rezultat domeniul statistic nu este cu siguranţă

unul restrâns.

1.2. Funcţiile statistice

Din punct de vedere al demersului geografic

statistica prezintă importanţă şi relevanţă devenind un

instrument de cercetare indispensabil prin prisma celor 4

funcţii fundamentale ale sale şi care în realitate stau la

baza formării unor ample categorii metodologice de sine

stătătoare:

Funcţia descriptivă. Cantitatea de

informaţie, de date care uneori iau formă numerică, cu

care operează geografia, în special cea umană, este foarte

mare şi în continuă creştere. Aplicarea principiului

descrierii statistice a reprezentat şi mai reprezintă o fază

15

Page 16: statistica aplicata

(faza exploratorie) a dat naştere statisticii descriptive al

cărui scop principal şi specific este acela de a sintetiza şi

structura într-o manieră cât mai directă şi mai intuitivă

datele şi informaţia, inclusiv caracteristicile acestora. Ori

acest principiu îi este absolut necesar geografiei umane în

cercetare mai ales pentru trecerea de la demersul geografic

descriptiv la cel interpretativ.

Funcţia inducţiei sau inferenţei. Când

obiectul de studiu, informaţia sau datele geografului au

fost obţinute selectiv, ori provin din eşantioane nu din

întreg pe baza acestora sugerându-se ipoteze cu privire la

o posibilă extindere a concluziilor la nivelul ansamblului

implicând astfel probabilitatea ca model de evoluţie se

aplică principiul inferenţei. Acestuia îi revine rolul de a

extinde rezultatele obţinute pe baza datelor din eşantion la

nivelul ansamblului şi de a confirma sau invalida ipotezele

emise a priori sau formulate după faza exploratorie. Există

astfel o statistică inductivă sau inferenţială a cărei

metodologie se bazează practic pe teoria probabilităţilor

şi prezintă caracteristici specifice precum, caracterul

aleator al eşantionării, generalizarea concluziilor prin

marje specifice de eroare, recunoaşterea explicită a

16

Page 17: statistica aplicata

nesiguranţei predicţiilor. Aceasta presupune în esenţă,

măsurarea incertitudinii rezultatelor şi calcularea riscurilor

pe care le implică luarea unei decizii bazate pe informaţii

care nu sunt exhaustive. Obiectivul ei constă în a estima

parametrii unei colectivităţi şi în testarea ipotezelor

statistice.

În limbaj geografic statistica inductivă sau

inferenţială poartă această denumire ca urmare a faptului

că porneşte de la o presupunere (inducţie) stabilită

(demonstrată) ulterior şi verificată printr-un rezultat.

În geografia umană şi nu numai, specialiştii lucrează

preponderent cu date selective (obţinute prin generare) şi

care nu sunt exhaustive. Adică aceste date reprezintă

eşantioane (sunt obţinute eşantionat) dintr-o populaţie

întreagă; sunt şiruri finite; ”incomplete” deoarece

totalitatea lor absolută este imposibil a fi obţinută. Ele sunt

datele care nu reproduc perfect şi absolut caracteristicile

populaţiei statistice. Exemplu: comportamentul decizional

în alegerea destinaţiei de vacanţă pentru o anume grupă

de vârstă de turişti sau grupă socială”. A obţine datele

statistice pentru întreaga populaţie , adică toţi potenţialii

turişti fie şi ai unui oraş este aproape imposibil. Se

17

Page 18: statistica aplicata

selectează astfel un eşantion reprezentativ asupra căruia se

generează datele statistice necesare pe baza cărora se fac

apoi presupuneri, în funcţie de anumiţi factori şi situaţii

luate în calcul, pentru a se demonstra comportamentul

decizional. Acest comportament poate fi corelat în

evoluţia sau desfăşurarea sa cu anumiţi alţi factori etc.

Selectarea, eşantionarea presupune obligatoriu

probabilitatea existenţei unui anumit grad de eroare în

măsurătoare şi în deducţia finală. Probabilitatea este

conceptul statistic care deosebeşte datele selective sau

eşantioanele (incomplete, nu reprezintă/implică/presupun

toată populaţia fiind obţinute prin eşantionare) de cele

exhaustive (absolute, complete, finite, obţinute în ştiinţele

exacte din măsurători şi care reprezintă/implică/presupun

toată populaţia, nu un eşantion). Prin urmare datele

selective, eşantioanele includ probabilitatea erorii, în timp

ce datele exhaustive NU.

În concluzie funcţia deductivă presupune că: în

condiţii specifice, probabilitatea unei presupuneri/ipoteze

(deducţii) efectuate pe baza unor eşantioane de populaţie ,

să fie validă, iar statistica inductivă sau inferenţială pune

18

Page 19: statistica aplicata

la dispoziţie o serie de metode şi tehnici de operare pentru

validare sau invalidare.

Profunzimea analizei statistice este dată în

continuare de îndeplinirea funcţiei semnificaţiei.

Funcţia semnificaţiei. Semnificaţia statistică

reprezintă una dintre cele mai puternice funcţii din punct

de vedere al ştiinţelor socio-geografice. Aceasta stabileşte

dacă diferenţa sau relaţia dintre două seturi de date

selective (eşantioane) este semnificativă. Constituie una

dintre cele mai utile funcţii statistice în sprijinul geografiei

umane mai ales în studiile cu caracter social. Semnificaţia

statistică presupune că diferenţa observată la două

eşantioane poate semnifica ceva anume sau altceva – de

exemplu: că există pur şi simplu o diferenţă între

eşantioanele respective sau că diferenţa apărută la nivelul

eşantioanelor este rezultatul întâmplării sau procedurii de

eşantionare.

Semnificaţia statistică presupune astfel operaţia de

comparaţie la nivel de eşantion. Eşantioanele, aşa cum

arătam mai devreme presupun prin natura lor o marjă de

eroare dar mai presupun şi o marjă de variaţie faţă de un

19

Page 20: statistica aplicata

interval pe care se găsesc valorile efective ale populaţiei.

Astfel undeva apare o diferenţă!

Pentru a fi siguri că diferenţa dintre valorile în

eşantion reflectă o diferenţă reală de valori în populaţii,

la mărimile comparate ea trebuie să depăşească mărimea

intervalului pe care se află, cu o anumită probabilitate,

valorile din populaţie. Cu alte cuvinte o diferenţa este

semnificativă dacă depăşeşte eroarea maximă admisă,

adică ea nu poate fi pusă (integral) pe seama fluctuaţiilor

fireşti de eşantionare.

În caz contrar se va spune că diferenţa nu este

semnificativă. O diferenţă care nu este semnificativă

reflectă o deosebire despre care nu se poate spune cu o

probabilitate suficient de mare că este reală, acesta nu

înseamnă că ea nu este reală.

La o privire mai atentă asupra informaţiei privind

statistica inductivă cât şi semnificaţia statistică se poate

observa că ambele operează cu eşantioane şi ambele

implică probabilitatea de eroare fapt pentru care trebuie

menţionat că ambele operează într-o mare măsură cu

conceptul de probabilitate şi teoria probabilităţilor.

Statistica în sine nu poate trage concluzii, nu poate emite

20

Page 21: statistica aplicata

deducţii asupra unor populaţii pe baza unor eşantioane şi

nu poate demonstra că o relaţie este semnificativă sau nu.

Ceea ce poate face este a ne pune la dispoziţie informaţie

suficient de obiectivă pe baza căreia să ne emitem

propriile deducţii şi trage propriile concluzii, inevitabil

subiective. Statistica ne poate pune la dispoziţie

probabilitatea cu care în condiţii specifice o relaţie

înseamnă ceva adică devine semnificativă; probabilitatea

cu care în condiţii specifice deducţiile efectuate pe baza

unor eşantioane sunt valide.

Funcţia prognozării. Cea de a patra funcţie

majoră a statisticii ne dă posibilitatea de face prognoze sau

predicţii, ori să explicăm în prezent anumite procese sau

fenomene trecute. O predicţie sau prognoză exactă este

posibilă numai atunci când se operează cu procese sau

fenomene deterministe, prin care se înţelege totalitatea

proceselor sau fenomenelor care produc rezultate identice

în condiţii şi circumstanţe identice. Un exemplu de astfel

de proces îl constituie acceleraţia gravitaţională. Înarmaţi

cu valoarea acceleraţiei gravitaţionale (în condiţiile căderii

unui obiect în vid) putem prognoza cu certitudine la ce

distanţă va cădea un obiect după un timp dat, sau care va fi

21

Page 22: statistica aplicata

viteza acestuia la un moment anume din căderea sa în

aceleaşi condiţii de vid.

Cum cel mai adesea în geografie procesele şi

fenomenele nu au o natură deterministă, acestea se

comportă în general în feluri şi moduri diferite fapt pentru

care arareori putem spune cu certitudine absolută care vor

fi rezultatele sau tendinţele unui proces chiar şi în condiţii

strict controlate. Cu toate acestea pornind de la ideea că

procesul nu are loc la întâmplare (din hazard absolut,

deoarece s-a demonstrat că procesele şi fenomenele

geografice se supun legii cauzalităţii) ar putea fi posibil a

se prognoza rezultatul sau tendinţa acestuia în condiţiile

unei anumite combinaţii de circumstanţe şi cu anumite

limite. De exemplu dacă partea de suprafaţă a unei stânci

se erodează cu o anumită rată medie de centimetri pe an

este posibil a se prognoza cu o oarecare aproximaţie cu

câţi centimetri se va fi erodat suprafaţa stâncii în viitori 5

ani.

În concluzie statistica pune la dispoziţia geografului

prin metodologia şi principiile sale de cercetare şi analiză

informaţie asupra stabilităţii şi regularităţii trecutului sau

prezentului unui proces, lucru care ajută la efectuarea unor

22

Page 23: statistica aplicata

prognoze probabile. Astfel predicţia unui anumit

eveniment sau prognoza asupra rezultatului sau tendinţei

unui proces, va implica întotdeauna o anumită cantitate de

intuiţie. Faptul că procesul respectiv s-a comportat cu

certitudine într-un anumit fel în trecut (zile, luni, ani, chiar

şi secole) NU face imposibilă, adică NU EXCLUDE

posibilitatea ca acesta să-şi schimbe total comportamentul

în secunda următoare.

1.3. Noţiuni statistice fundamentale cu semnificaţie în geografia umană1

Statistica operează cu o serie de termeni de

specialitate care reprezintă noţiuni fundamentale şi care

sunt utilizate ca atare şi de geografie atunci cât se apelează

la cuantificare sau metodologia statistică pentru analiză.

Geografia umană însă, are un punct de vedere mult mai

general în ceea ce priveşte terminologia acestor noţiuni

fundamentale. Ea nu le defineşte şi nu se preocupă de

teoria lor, le preia ca atare, le utilizează selectiv şi cel mai

adesea operează cu o terminologie paralelă mult mai de

1 Noţiunile statistice fundamentale în turism sunt considerate componente conceptuale ale disciplinelor umanisteîn general şi deci şi din geografia umană.

23

Page 24: statistica aplicata

ansamblu în desemnarea noţiunilor statistice dar derivată

din aceasta. Ca urmare autoarea consideră necesară o

trecere în revistă a noţiunilor fundamentale ale statisticii.

Acestea vor fi prezentate în linii mari dar nu selectiv şi în

corelaţie cu semnificaţia acestora din punct de vedere

geografic, uman şi turistic.

De asemenea înainte de a trece la prezentarea

acestora autoarea consideră necesar să menţioneze faptul

că în literatura de specialitate, statisticienii utilizează

denumiri variate pentru aceeaşi termeni, lucru care vine să

sublinieze necesitatea prezentării şi explicării cel puţin a

noţiunilor statistice fundamentale de interes pentru

geografi şi lucrătorii în turism. Prezentarea care urmează

se bazează pe punctele de vedere ale autorilor M Ţarcă din

lucrarea intitulată, „Tratat de statistică aplicată”, A. Novak

din „Statistica şi sondajul de opiniei”, A. Isac-Maniu,

„Statistica”, D. Ebdon, „Statistics in Geography, a

practical approach”; I F. Clegg, „Simple statistics; a

course book for the social sciences”.

În studiul cantitativ al fenomenelor de masă,

statistica foloseşte un număr mare de noţiuni şi concepte.

Dintre acestea unele au caracter general şi formează

24

Page 25: statistica aplicata

vocabularul de bază a statisticii iar altele au caracter

specific. Cele fundamentale sunt: colectivităţile statistice,

unităţile statistice şi caracteristicile unităţilor statistice.

a) Colectivităţile statistice

Colectivităţile statistice mai sunt cunoscute şi sub

denumirea de populaţii statistice constituind principală

formă sub care se delimitează şi definesc fenomenele de

masă din natură, societate sau economie.

Conform autorului M. Ţarcă, „Colectivitatea

statistică reprezintă... un ansamblu de fenomene

individuale, care au una sau mai multe caracteristici

esenţiale comune, bine definite, proprii tuturor unităţilor ei

componente” (Tarcă, 1998, p. 51). Cu alte cuvinte ea

desemnează elementelor (inclusiv când acestea iau forma

unor procese sau fenomene) de aceeaşi natură, sunt

asemănătoare sau sunt omogene din anumite puncte de

vedere sau criterii.

Conform aceluiaşi autor colectivităţile se

caracterizează prin existenţa lor de sine stătătoare, bazată

pe asociaţie, pe legături între elementele lor componente,

statistica ocupându-se numai de acele colectivităţi care

25

Page 26: statistica aplicata

sunt finite, a căror existenţă este obiectivă şi concretă sau

faptică (Ţarcă, 1998).

Colectivităţile statistice se prezintă în forme foarte

variate, delimitându-se adesea în timp şi spaţiu din punct

de vedere al conţinutului şi formelor lor de organizare.

Există numeroase exemple de colectivităţi statistice dintre

care amintim: populaţia unui oraş sau a unui judeţ,

numărul de naşteri la o anumită populaţie într-o perioadă

determinată de timp, numărul căsătoriilor dintr-un oraş

dintr-o perioadă de timp determinată, cantităţile de

precipitaţii dintr-o regiune pe o perioadă de timp

determinată, debitul unui râu pe o perioadă de timp

determinată, parcul de autovehicule ce deservesc tur

operatorii dintr-un judeţ sau o ţară, agenţii turistice dintr-

un judeţ sau ţară, unităţi de cazare dintr-un judeţ sau ţară,

etc. În concluzie colectivităţile statistice pot fi formate din

fiinţe, lucruri sau manifestări ale acestora fie că sunt ele

fapte sau evenimente.

În funcţie de tipul de legi şi intensitatea cu care

acestea acţionează asupra elementelor unei colectivităţi,

aceasta prezintă un anumit grad de omogenitate dar şi o

tipologie a omogenităţii colectivităţilor. Astfel există

26

Page 27: statistica aplicata

colectivităţi mai mult sau mai puţin omogene, mai largi

sau mai restrânse alcătuite sau nu din subcolectivităţi . Din

punct de vedere al tipologiei sale omogenitatea

colectivităţilor poate fi privită sub trei aspecte principale;

calitativ, de timp şi de spaţiu rezultând în principiu

omogenitate:

calitativă dată de însuşirea elementelor

componente care le definesc. De exemplu în

funcţie de sex populaţia unei ţări poate fi

omogen masculină sau feminină sau în funcţie

de vârstă, formată din tineri, adulţi sau vârstnici

ori despre o colectivitate privind produsele

turistice oferite în funcţie de destinaţie acestea

pot fi interne sau externe etc.

de timp pentru colectivităţile ale căror

elementele componente au însuşirea de a

aparţine aceluiaşi moment sau perioade de timp.

Condiţia momentului sau perioadei de timp

influenţează evoluţia şi dinamica colectivităţii

respective. De exemplu populaţia unei ţări la un

anume recensământ, numărul de turişti străini

dintr-o ţară într-o anume perioadă etc.

27

Page 28: statistica aplicata

de spaţiu cunoscută şi sub denumirea de

omogenitate teritorială reprezintă însuşirea

elementelor componente ale unei colectivităţi de

a aparţine unui anumit teritoriu şi care imprimă

anumite trăsături colectivităţii respective.

Colectivităţile statistice se mai clasifică după natura

lor în colectivităţi de fiinţe sau lucruri cunoscute sub

denumirea de colectivităţi statice, colectivităţi de fapte sau

eveniment cunoscute sub denumirea de mişcare (Ţarcă,

1998). Iar în funcţie de gradul de cuprindere

colectivităţile pot fi generale (totale, complete) sau

parţiale (de selecţie).

b) Unităţile statistice.

Elementele componente ale colectivităţilor care se

înregistrează cu însuşirile lor poartă denumirea de unităţi

statistice, ele sunt purtătoare de informaţie sau sunt

subiecte logice ale informaţiei deoarece asupra lor se

efectuează nemijlocit observaţia. Ele sunt supuse

observării statistice şi înregistrării însuşirile lor

corespunzătoare. Ca urmare ele mai sunt întâlnite şi sub

28

Page 29: statistica aplicata

denumirea de unităţi de observare care trebuiesc clar

definite, identificate pe teren, înregistrate şi apoi analizate.

Unităţile statistice mai pot fi privite ca fapte simple

elemente care fac obiectul observaţiei indiferent de natura

lor, cu condiţia de a răspunde cerinţelor unei definiţii

precise, ele putând fi fiinţe, fapte, evenimente, opinii,

comportamente, atitudini, obiceiuri etc. După numărul de

caracteristici necesare pentru definirea, descrierea şi

exprimarea lor acestea pot fi:

Unităţi statistice simple reprezintă unităţile

formate dintr-un singur element indivizibil, cum

ar fi spre exemplu persoana în cazul

recensământului, copilul născut viu în cadrul

natalităţii, turistul cazat într-o unitate hotelieră,

vizitatorul unui muzeu, biletul de tratament într-

o staţiune balneoclimaterică etc.

Unităţile statistice complexe reprezintă unităţile

formate din două sau mai multe unităţi simple,

constituite ca rezultat al organizării sociale şi

economice a colectivităţii. De exemplu: familia

formată dintr-un număr oarecare de membrii,

grupa de studenţi din cadrul unui an, a unei secţii

29

Page 30: statistica aplicata

dintr-o facultate, clasa de elevi într-o şcoală,

hotelul format dint-un anumit număr de camere

duble ori simple şi un anumit număr de

apartamente, grupul de turişti dint-o anume

excursie, familia aflată într-o anume categorie de

vacanţă, agenţia turistică, turoperatorul etc.

Conform autorului Ţarcă (1998) definirea clară şi

precisă a unităţilor statistice este o condiţie de bază în

cercetare deoarece este necesară ajungerea la înregistrări

de date comparabile. Definiţia unică pe întregul arealului

cuprins în cercetare stă la baza comparaţiilor ce trebuie

făcute între aspectele diferite pe care îmbracă un anumit

fenomen în teritorii diferite, în funcţie de condiţiile

specifice ale dezvoltării (Ţarcă, 1998).

Acelaşi autor denumeşte totalitatea unităţilor

statistice care fac parte din cadrul unei colectivităţi volum

al unităţii respective. Volumul colectivităţilor se

determină prin identificare, înregistrare, numărare şi

totalizare a unităţilor care aparţin prin definiţie

colectivităţilor respective.

c) Caracteristicile unităţilor statistice

30

Page 31: statistica aplicata

Aceasta desemnează însuşirea, proprietatea, trăsătura

comună unităţilor unei colectivităţi statistice reţinută într-

un program de cercetare pentru a fi înregistrată şi care

capătă accepţiuni diferite de la o unitate la alta sau de la

un grup de unităţi la altul.

„Însuşirea sau trăsătura comună tuturor unităţilor

statistice ale unei colectivităţi, ale cărei valori diferă, în

general, de la o unitate statistică la alta sau de la un grup

de unităţi la altul, poartă denumirea de caracteristică

statistică”(Ţarcă, 1998, p.55). De obicei fiecare unitate

statistică are mai multe caracteristici dintre care numai una

sau numai unele prezintă interes pentru un studiu sau

cercetare.

Caracteristicile statistice sunt cel mai frecvent

întâlnite sub denumirea de variabile statistice iar valorile

înregistrate de aceeaşi caracteristică/variabilă statistică se

numeşte variantă.

Exemple bine cunoscute de variabile statistice din

geografia umană spre exemplu, sunt: populaţia unui judeţ

cu caracteristicile privind: sexul, vârsta, calificarea, starea

civilă, naţionalitatea, religia etc sau turiştii sosiţi pentru

anumită perioadă într-o staţiune balneară, cu caracteristici

31

Page 32: statistica aplicata

privind: vârsta, sexul, starea civilă, nivelul de pregătire

profesională, venitul lunar, domiciliul stabil etc.

Înainte de a trece la clasificarea variabilelor statistice

este necesară o concluzionare a teoriei noţiunilor

fundamentale statistice. Pentru aceasta autoarea va apela la

limbajul matematic tocmai pentru a evidenţia esenţialul în

ceea ce reprezintă de fapt cele trei noţiuni fundamentale

amintite. Ca urmare din punct de vedere statistic cele trei

noţiuni statistice fundamentale prezentate mai sus

(colectivitatea/populaţia, unitatea şi caracteristica/varia-

bila) se exprimă astfel: pentru un caz general valabil al

unei populaţii statistice (totale sau în eşantion în funcţie

de cercetare/studiu dacă este totală sau selectivă) notată cu

P , unităţile statistice ale acesteia sunt descrise printr-un

număr k (unde k 1) de elemente (sau cu alte cuvinte ea

este alcătuită din k unităţi), fiecare dintre acestea fiind

definită după cum urmează:

Printr-o mulţime de valori individuale denumite

variate sau un spaţiu de observaţii (M)

Printr-o structură algebrică specifică SA

existentă pe spaţiul de observaţii (M)

Printr-o aplicaţie „u” a lui P pe M

32

Page 33: statistica aplicata

Variabile statistice sau caracteristicile unităţilor

statistice se pot clasifica din mai multe puncte de vedere:

a) După provenienţa, modul de colectare şi treapta

de cercetare

b) După importanţa lor

c) După numărul de valori pe care le pot lua

d) După modul de exprimare şi natura lor

e) După modul cum reflectă realitatea

După provenienţa, obţinerea şi treapta de

cercetare/studiu utilizate, se clasifică în două grupe:

primare şi secundare sau derivate

Caracteristicile primare ale variabilelor statistice

reprezintă acele însuşiri ale căror valori rezultă direct din

înregistrarea sau măsurarea statistică a colectivităţii, de

pe teren sau din realitate. Ele se exprimă de regulă în

mărimi absolute sau prin cuvinte fiind adesea întâlnite

direct sub denumirea de variabile statistice primare.

În geografie acestea sunt cunoscute ca fiind generate,

colectate prin măsurătoare sau observaţie directă,

indiferent de forma, tehnica şi metodologia acestora

(măsurătorii, observaţiei), efectuată de cercetător sau

33

Page 34: statistica aplicata

persoanele abilitate direct pe teren. Din punct de vedere

geografic sunt incluse în categoria „date” şi mai sunt

cunoscute şi sub denumirea de date primare sau empirice

(unde termenul empiric indică faptul că au fost colectate

direct din realitate de către cercetător, persoana care

efectuează studiul sau persoana abilitată, şi nu s-a

intervenit asupra lor în nici un fel, conţin informaţie

brută). Nu este exclusă prezenţa informaţiei care nu ia

formă numerică din această categorie.

Caracteristicile secundare sau derivate rezultă din

prelucrarea informaţiilor, măsurătorilor, determinărilor

obţinute prin înregistrarea statistică ele putând fi

exprimate prin mărimi absolute, medii sau relative. Practic

acestea rezultă în urma unei intervenţii de un anume gen

(mai mult sau mai puţin complex) ca de exemplu a

aplicării de modele, metode sau simple operaţii de calcul

statistic ori estimări, comparaţii, evaluări. Ele sunt adesea

întâlnite sub denumirea de variabile statistice secundare

sau derivate.

În geografie sunt cunoscute ca fiind generate,

colectate de altcineva, conţinând un anume grad de

intervenţie asupra lor şi fiind publicate într-o formă sau

34

Page 35: statistica aplicata

alta. Terminologia geografică utilizează în marea

majoritate a cazurilor denumirea de date secundare sau

derivate pentru această categorie de variabile şi nu exclude

din această categorie prezenţa informaţiei care nu ia formă

numerică. (Vezi tabelul 1 din anexa 1.1.)

După importanţa lor în procesul cunoaşterii şi

cercetării caracteristicile sau variabilele statistice pot fi

esenţiale, care definesc colectivitatea şi sunt prezente la

toate unităţile componente, şi ne esenţiale sau caracter

întâmplător.

După numărul de valori pe care le pot lua (niveluri

sau variante) caracteristicile sau variabilele statistice se

împart în două grupe: variabile alternative sau binare şi

variabile nealternative. Variabilele alternative sau binare

sunt acele însuşiri ale unităţilor statistice care nu pot lua

decât două valori ca de exemplu sexul (masculin,

feminin), mediul (fizic sau antropic), mediul antropic

(rural, urban) etc. Variabilele nealterntive reprezintă

trăsături ale unităţilor statistice care pot lua mai mult de

două niveluri sau valori. În marea majoritate a cazurilor

avem de a face cu variabile nealternative iar de regulă

când nu se face nici o specificaţie privind numărul de

35

Page 36: statistica aplicata

niveluri sau valori ale unei variabile se presupune automat

prin aceasta una nealternativă.

După modul de exprimare şi natura lor,

caracteristicile sau variabilele statistice se pot împărţi în

două grupe principale: variabile numerice cunoscute şi

sub denumirea de variabile cantitative (care pot fi: de

timp, de spaţiu) şi variabile atributive sau calitative (sau

de conţinut).

Caracteristicile sau variabilele cantitative

reprezintă însuşiri ale unităţilor, care prin însăşi natura lor

sunt măsurabile şi se pot exprima cifric, numeric sau

cantitativ; spre exemplu: vârsta vizitatorilor unui muzeu,

numărul personalului hotelier, numărul de vehicule dintr-

un parc auto, valoarea unui sejur de 10 zile pe litoral,

înnoptările la un hotel, gradul de ocupare al unei unităţi de

cazare, număr locuri cazare,etc.

Caracteristicile cantitative reprezintă rezultatul unei

măsurători pentru care se pot defini relaţii de egalitate şi

însumare. (Ţarcă, 1998). Uneori o caracteristică cantitatvă

poate fi privită sau transformată calitativ în scopul

simplificării şi sintetizării realităţii (exemplu: veniturile

36

Page 37: statistica aplicata

relaizate de o agenţie de turism într-o anumită perioadă de

timp pot fi împărţite ăn trei categorii: mici, medii, mari).

Transformarea nu este posibilă şi invers.

Atât caracteristicile cantitative cât şi cele calitative

pot desemna diverse stări exprimate prin valori numerice.

Acestea se numesc variante sau modalităţi. (Vezi

exerciţiul 1 din anexa 1.1.)

Măsurarea unei caracteristici pe care o posedă o

unitate statistică constă în atribuirea unui scor, care arată

în ce grad ea posedă o proprietate coresunzătoare

caracteristicii respective prin utilizarea unei scări de

măsură. Variabilele asupra cărora se poate aplica acelaşi

ansamblu de operaţiuni de prelucrare statistică se numesc

variabile măsurabile pe aceeaşi scară. Se cunosc şi se

utilizează patru scări de măsurare: scara intervală , cea

proporţională, scara nominală, scara ordinală.

Din punct de vedere pur teoretic statistic

caracteristicile sau variabilele cantitative utilizeaza scările

proporţională şi respectiv intervală. Astfel ele se mai

numesc :

Variabile cantitative metrice , cele care posedă

un zero natural, o origine absolută şi se măsoară

37

Page 38: statistica aplicata

cu ajutorul unei scări proporţionale sau de

raport. De exemplu datele statistice utilizate în

meteorologie şi climatologie.

Variabile cantitative scalate , nu posedă un zero

natural, au origine arbitrară şi se măsoară cu

ajutorul unei scări de intervale.

Adesea, în statistică noţiunea de caracteristică

cantitativă se înlocuieşte cu noţiunea de variabilă iar în

geografie cu cea de dată numerică şi respectiv intervală.

Dată fiind natura preponderentă a proceselor şi

fenomenelor de masă din geografia umană, aceasta

utilizeaza în cea mai mare parte variabile cantitative

scalate, intervale.

Trebuie reţinut faptul că un anumit nivel al

caracteristicii poartă denumirea de de variantă a

caracteristicii sau variantă a unei anumite variabile. Din

punct de vedere al naturii variaţiei, variabilele cantitative

se împart în două categorii: discrete (discontinue) şi

continue.

Se spune despre o variabilă că este discretă dacă

variantele ei posibile pe un anumit interval sunt valori

izolate, cazul cel mai frecvent de variabile discrete fiind

38

Page 39: statistica aplicata

acela în care valorile ei posibile sunt numere întregi. De

exemplu numărul vizitatorilor la Muzeul Naţional în luna

decembrie nu poate fi exprimat decât printr-un număr

întreg pentru intervalul respectiv.

Dimpotrivă, o variabilă este continuă dacă variantele

ei posibile sunt în număr infinit în cadrul unui anumit

interval. De exemplu: distanţa medie parcursă în timpul

unei călătorii, consumul mediu al unui anumit produs,

gradul de ocupare a unei anumite unităţi de cazare într-o

anumită peioadă. Variabilele continue continue pot fi

exprimate prin orice fel de număr.

Caracteristicile sau variabilele atributive ori

calitative reprezintă variabilele statistice ale căror variante

(modalităţi) reprezintă diferite rubrici ale unui

nomenclator stabilit astfel încât acestea să fie

incompatibile şi exhaustive. Ele reprezintă însuşiri ale

unităţilor statistice care se exprimă atât numeric cât şi prin

cuvinte (în cazuri excepţionale prin imagini) ca de

exemplu: starea civilă a populaţiei, destinaţii de vacanţă,

percepţia unui eşantion de populaţie asupra a ceva anume,

gradul de satisfacţie privind un produs turistic sau

rezultatele unor teste, opinii privind un anume eveniment,

39

Page 40: statistica aplicata

proces, fenomen, gradul de satisfacţie, calitatea unui

produs turistic, etc. (Vezi exerciţiul 2 din anexa 1.1.)

Din punct de vedere pur teoretic statistic

caracteristicile sau variabilele calitative utilizează scările

nominale şi respectiv ordinale. Astfel ele se mai numesc :

Variabile calitative nominale , când acestea pot

fi doar numite, reprezintă simple etichete de

identificare. Astfel scala nominală are mai mult

funcţia de procedeu de clasificare decât de

măsurare dând numai o relaţie de echivalenţă

asupra cărora nu se pot face operaţii aritmetice

elementare. (Vezi exerciţiul 3 din anexa 1.1.)

Variabile calitative ordinale , când acestea pot fi

clasificate după o dimensiune, direcţie sau

criteriu de proprietate considerată, în sensul că

unitatea statistică posedă grade diferite ale

proprietăţii considerate.Cu acestea nu se pot

efectua operaţii aritmetice. (Vezi exerciţiul 4 din

anexa 1.1.)

În geografie şi nu numai, aceste variabile se întâlnesc

sub denumirea simplificată de date numerice cantitative

(intervale şi proporţionale) sau calitative (nominale şi

40

Page 41: statistica aplicata

ordinale). Cu menţiunea că forma de exprimare cifrică a

unei variabile are dimensiune (variantă, nivel) atributivă

sau calitativă încazul datelor cantitative.

După modul cum reflectă realitatea variabilele

statistice pot fi clasificate în două categorii: certe (precise)

cele cu valori observate, rezultate dintr-un raţionament a

posteriori în cadrul analizei retrospective şi; aleatoare cu

valori care nu au fost observate, rezultate dintr-un

raţionament a priori în cadrul analizei retrospective.

41

Page 42: statistica aplicata

Anexa 1.1.Tabelul 1

Numărul de vizitatori în staţiunile balneoclimaterice româneşti în perioada 1985 - 2000

secundară

Destinaţiile de vacanţă ale unui eşantion de 100 de studenţi ai Facultăţii de Geografie, Bucureşti

primară

Reprezentarea Spaniei ca destinaţie turistică într-un eşantion de 10 broşuri diferite primarăComportamentul spaţial al turiştilor din staţiunea Poiana Braşov în perioada 6 - 21 decembrie 2002

primară

Contribuţia turismului la PNB-ul ţarii în perioada 1970 – 2000

secundară

Ghidul ‚Lonely Planet’ pentru Europa de Est

secundară

Percepţia cetăţenilor britanici asupra României ca destinaţie turistică

secundară

Ilustrate ale staţiunii Mamaia din perioada 1970 – 2000

primară

Preţul unui pachet de vacanţă de 2 săptă-mâni în Grecia la 10 agenţii turistice diferite

primară

Cantitatea de precipitaţii din judeţul Braşov din anii 1980 - 2000

secundară

Preţul ceramicii artizanale din pieţele bucureştene

primară

Preţ cazare la Hotelurile din Judeţul Mehedinţi

prim.+ sec.

Mesaje conţinute de materialele promoţionale turistice ale Ungariei

secundară

42

Page 43: statistica aplicata

Exerciţiul 1

Priviţi cifrele de mai jos în relaţie cu ceea ce exprimă ele. Sunt asemănătoare sau diferă? Prin ce?

Cele mai recente destinaţii turistice:

1 = Croaţia2 = Ungaria3 = SUA4 = Maramureş5 = Egipt

Exprimaţi gradat nivelul de satisfacţie al celei mai recente vacanţe, unde:

1 = excelent2 = bine3 = satisfăcător4 = nesatisfăcător5 = rău

Numărul de vizitatori la muzeul memorial „Liviu Rebreanu” în ultimii 5 ani:

125.000138. 258132.289120.610125.000

Da / Nu

Diferenţa 1............................................................................................

Diferenţa 2............................................................................................

Diferenţa 3............................................................................................

43

Page 44: statistica aplicata

Tabelul 2

Durata medie a sejurului pentru vizitatorii oraşului Sighişoara

cantitativă

Densitatea schiorilor de pe pârtia... din Poiana Braşov

cantitativă

Modul de prezentare al Franţei ca destinaţie turistică de către Rough Guide

calitativă

Mesaje conţinute de materialele promoţionale turistice ale Ungariei

calitativă

Numărul de vizitatori la Muzeul Militar Central din Bucureşti

cantitativă

Impresiile de călătorie ale vizitatorilor Indiei în ghidurile de călătorie din secolul XIX

calitativă

Strategiile de dezvoltare turistică prevăzute de Ministerul turismului pentru patrimoniul istoric

calitativă

Poluarea vizuală din Parcul Natural Porţile de Fier

calitativă

Observaţii asupra comportamentului vizitatorilor Muzeului Ţăranului Român

calitativă

Proporţia vizitatorilor americani din hotelurile oraşului Manchester

cantitativă

44

Page 45: statistica aplicata

Exerciţiul 2

Observaţi cifrele de mai jos. Exprimă o caracteristică cantitativă sau una calitativă?

Destinaţii de vacanţă

1 = Austria2 = Tenerife3 = Poiana Braşov4 = Grecia

Forme de turism

1 = odihnă2 = tranzit3 = afaceri4 = conferinţe

Organizaţii turistice statutare din Marea Britanie

1 = ETB2 = WTB3 = STB4 = NITB5 = BTA

Exerciţiul 3

Determinaţi destinaţia preferată de vacanţă a unui eşantion de populaţie utilizând întrebarea: „Unde v-aţi petrecut o parte din vacanţa de iarnă?”, şi răspunsurile următoare:1 = la munte2 = la mare3 = acasă cu familia4 = la bunici5 = în străinătate6 = în vizită la rude sau prieteni7 = alte situaţiiCe fel de variabile reprezintă cifrele variantelor de răspuns?

45

Page 46: statistica aplicata

Exerciţiul 4

Ce fel de variabile reprezintă cifrele variantelor de răspuns?

Indicaţi nivelul de satisfacţie atins în timpul ultimei vacanţe de iarnă

5 = excelent4 = bine3 = în regulă2 = nesatisfăcător1 = plictisitor; rău

Oraşul Caracal nu este foarte căutat ca destinaţie turistică:

5 = foarte de acord4 = de acord3 = fără opinie2 = nu sunt de acord1 = total împotrivă

46

Page 47: statistica aplicata

Capitolul 2

PROCESUL DE GRUPARE A INFORMAŢIEI GEOGRAFICE DE ORDIN STATISTIC

2.1. Gruparea informaţiei geografice statistice – concept teoretic

Primul pas în utilizarea informaţiei geografice de

ordin statistic în care se regăseşte şi informaţia strict

turistică, după colectare este acela de grupare,

sistematizare sau clasificare a evenimentelor şi

fenomenelor pe care le-au studiat încă din antichitate.

Acesta a aparut ca urmare, mai ales a posibilităţilor

limitate de stocare a unui volum mare de fapte şi de

cunoştiinţe, descoperite, în toate etapele istorice ale

dezvoltării umanităţii, în condiţiile în care acesta a

reprezentat un proces în continuă creştere. Asfel apariţia şi

dezvoltarea metodei grupărilor este strâns legată de

necesitatea de a ordona, ierarhiza şi sistematiza

fenomenele şi faptele din natură şi societate după criterii

logice.

47

Page 48: statistica aplicata

Începutul a presupus recurgerea la clasificările

taxonomice care necesitau un criteriu uşor de aplicat, cum

ar fi succesiunea cronologică a faptelor şi evenimentelor.

Primele aspecte teoretice privind clasificările au fost

întocmite în Grecia antică de către Platon (427 î.e.n. – 348

î.e.n.), având la bază dihotomia, (diviziunea la doi

membri), considerat principiul raţional al orcărei

clasificări. Ulterior acest principiu a fost criticat de către

Aristotel ( 384 î.e.n. – 322 î.e.n care a susţinea că în

realitate, cel mai frecvent, clasificarea dihotomică

superficială şi dificil de aplicat (Ţarcă, 1998).

Gruparea informaţiei statistice a continuat să

intereseze şi să constituie o dispută în ceea ce priveşte

acurateţea ei ştiiţifică. Metoda grupărilor, apărută de

asemenea din antichitate a fost permanent subiect de

perfecţionare până în prezent. Aspectele conceptologice

fundamentale ale grupărilor nu au fost încă deplin

clarificate şi contin (Ţarcă, 1998).

Geografia Umană şi ramura sa, turismul operând cu

aspecte măsurabile ale fenomenelor colective, reprezintă

domenii interesate de clasificarea noţiunilor, principiilor şi

metodelor de grupare a unităţilor unei colectivităţi, în

48

Page 49: statistica aplicata

vederea eficientizării prelucrării, analizei şi sintezei lor.

Aceasta urmeză însă tendinţa generală de operare a

statisticii.

Informaţiile geografice statistice obţinute prin

înregistrarea caracteristicilor unităţilor cercetate prezintă,

în general, un număr mare de variante care nu permite

formarea unei imagini concrete şi complete asupra unor

colectivităţi şi de aceea este necesară ordonarea unităţilor

în funcţie de nivelul de dezvoltare al caracteristicilor

esenţiale. Dacă numărul variantelor unei variabile

statistice este foarte mare, aceasta nu dă posibilitatea

evidenţie-rii anumitor regularităţice se manifestă în cadrul

colectivităţii la diferite grupe de unităţi.

„Împărţirea colectivităţilor statistice în grupe

omogene de unităţi, după variaţia uneia sau a mai multor

caracteristici eseţiale, comune tuturor unităţilor

colectivităţii, poartă denumirea de grupare statistică,

stratificare sau clasificare, iar grupele se mai numesc

straturi sau clase” (Ţarcă, 1998, p. 74).

Gruparea informaţiei geografice reprezintă un stadiu

foarte important în special în ceea ce priveşte informaţia

statistică deoarece, de modul cum sunt alcătuite grupele,

49

Page 50: statistica aplicata

depinde în mare parte, cunoaşterea tipurilor calitative care

se conturează în cadrul colectivităţilor social-economice,

structura colectivităţilor, conţinutul indicatorilor ce

urmează a fi calculaţi şi pe baza acestora lor a rezultatelor

obţinute. Astfel, orice grupare a unităţilor unei colectivităţi

trebuie să fie precedată de o analiză multilaterală a esenţei

fenomenelor cercetate.

Pornind de la informaţiile sistematizate prin grupare,

se pot obţine indicatori generalizatori, diferenţiaţi pe

grupe, care să permită o analiză stiinţifică a fenomenelor şi

proceselor social-economice, a legăturilor esenţiale dintre

acestea.

Gruparea informaţiei presupune alegerea unui

criteriu care să exprime cel mai clar esenţa fenomenului

studiat şi care răspunde cel mai bine scopului cercetării.

Procesul de grupare statistică a informaţiei

presupune respectarea unor reguli elementare precum:

a) Gruparea unităţilor statistice (respectiv a

variantelor unei variabile) nu este raţională şi nici

avantajoasă decât dacă numărul variantelor variabilei de

grupare este suficient de mare.

50

Page 51: statistica aplicata

b) Grupările nu prezintă interes decât în cazul în care

numărul de grupe (clase) este relativ redus (de obicei până

la 15).

c) Numărul de grupe trebuie să fie suficient de mare

pentru a putea a scoate în evidenţă anumite particularităţi

ale distribuţiei unităţilor statistice în cadrul colectivităţii

studiate.

2.2. Tipurile de grupări ale informaţiei geografice statisice

În practică de fapt există o mare diversitate de

grupări ceea ce necesită o clasificare a lor în funcţie de

anumite criterii, cum ar fi natura colectivităţilor şi scopul

cercetării.

a). În funcţie de numărul de caracteristici care stau

la baza grupărilor există: grupări simple şi grupări

combinate sau complexe.

Grupările simple iau naştere în urma aplicării unei

singure caracteristici de grupare, de exemplu, gruparea

unităţilor de cazare după numărul salariaţilor, în anul 2000

(tabelul 2.1.)

51

Page 52: statistica aplicata

Regrupând unitaţile de cazare pe intervale de variaţie

mai mari (vezi ultima coloană a tabelului 2.1.) se poate

obţine o imagine a tipurilor calitative care se diferenţiază

în cadrul colectivităţii. Astfel, se disting tipurile:

• unităţi mici, care cuprind pană la 200 de salariaţi;

• unităţi mijlocii, având numărul salariaţilor între

201 şi 1000;

• unităţi mari, în care lucrează între 1001 şi 5000

salariaţi;

• unităţi foarte mari, care au numărul salariaţilormai

mare de 5000.

Tabelul 2.1. Distribuţia unităţilor de cazare din judeţul Mehedinţi după numărul salariaţilor şi total număr cazaţi la sfârşitul anului 2000

Unităţi

cazare

Salariaţi Total număr cazaţi

Valori

absolute %

Valori

absolute %

<2 1 0,7 24288 1,9 1,9

2 -5 4 2,9 162505 5,2 15,9

5 -10 6 4,5 391386 10,7

52

Page 53: statistica aplicata

10 – 20 15 10,2 723116 18,9

53,820 – 30 24 16,9 592538 14,3

30 – 50 38 27,2 768760 20,6

>50 46 34,1 1039263 28,4 28,4

TOTAL 143 100,0 3701856 100,0 100,0

Sursa: Direcţia judeţeană de statistică Mehedinţi

Grupările simple sunt utile pentru caracterizarea

structurii colectivităţilor, pentru determinarea tendinţei de

concentrar a fenomenelor, pentru evidenţierea tipurilor

calitative care se conturează în dezvoltarea fenomenelor şi

pentru rezolvarea altor probleme ale cercetării statistice,

dar nu permit studierea legăturilor existente între

fenomene. Acest neajuns se înlatură cu ajutorul grupărilor

combinate.

Grupările combinate utilizează două sau mai multe

caracteristici, de exemplu, gruparea unităţilor de cazare

după numărul de salariaţi şi după mărimea numărul total

de cazaţi, gruparea salariaţilor după vârste, sexe şi medii

sociale, gruparea cazaţilor după domiciliu, numărul de

înnoptări etc. În cadrul procesului de grupare combinată,

colectivitatea se împarte în grupe după o anumită

53

Page 54: statistica aplicata

caracteristică, apoi aceste grupe se împart în alte grupe

mai mici după o altă caracteristică şi aşa mai departe. Deci

numărul grupelor creşte o dată cu numărul caracteristicilor

de grupare considerate.

În statistica aplicată şi cu precădere în turism pentru

a se evita divizarea în exces a colectivităţilor se aleg cel

mult trei sau patru caracteristici de grupare, iar pentru

fiecare caracteristică (de grupare) nu se formează un

număr prea mare de grupe. Grupările combinate se

utilizează, în general, pentru cercetarea fenomenelor

complexe între care există o legătură reciprocă. De

exemplu, populaţia unei ţări înregistrată cu ocazia unui

recensământ, poate fi grupată în mod combinat astfel:

după mediul social în care trăieşte, se poate împărţi

în populaţia urbană şi populaţia rurală;

atât populaţia urbană cât şi cea rurală se poate

împărţi pe sexe în populaţia masculină şi populaţia

feminină;

la rândul lor populaţia masculină şi cea feminină,

astfel obţinute se poate împărţi în funcţie de

caracteristica stare civilă în patru grupe mai

omogene: necăsătorit, căsătorit, divorţat şi văduv.

54

Page 55: statistica aplicata

Binenţeles că gruparea ar putea continua, în acest

caz, mai departe după alte caracteristici sociale şi

demografice. În mod similar se procedează cu informaţia

turistică.

b) Conţinutul caracteristicilor de grupare reprezintă

un alt criteriu utilizat în întocmirea de grupări,obţinându-

se următoarele grupări: după caracteristici de timp, după

caracteristici de spaţiu şi după caracteristici calitative.

Grupările statistice după caracteristici de timp

permit efectuarea analizei dependenţei fenomenelor

cercetate de timp şi evidenţierea tendinţei lor centrale de

dezvoltare de lungă durată, determinarea şi separarea

oscilaţiilor sezoniere şi a celor ciclice, pentru fenomenele

care poartă acest caracter şi constituie informaţia de bază

pentru efectuarea prognozelor. În cazul grupărilor după o

caracteristică de timp, unităţile colectivităţii se

repartizează în grupe după timpul în care au apărut, au

existat sau au suferit un anumit eveniment.

Grupările după caracteristici de spaţiu se utilizează

în practică pentru caracterizarea dezvoltării fenomenelor

în profil teritorial, de exemplu: gruparea turiţtilor după

destinaţie, numărul mediu al angajaţilor în turism per

55

Page 56: statistica aplicata

unitate teritorială, volumul comerţului exterior pe ţări,

populaţia lumii pe ţări, producţia principalelor produse de

export pe ţări etc.

Grupările după o caracteristică calitativă se

utilizează în statistica aplicată pentru studierea structurii

diferitelor colecticvităţi şi uneori a tipurilor calitative care

se separă în cadrul acestora, iar în acest caz se numesc

grupări tipologice. De exemplu, gruparea tur-operatorilor

după numărul angajaţilor, structura turiştilor pe sexe,

medii, grupe de vârstă, categorii de destinaţie, structura

fondurilor de dezvoltare naţionale etc.

c). Forma de exprimare a caracteristicii reprezintă

un alt utilizat în grupare pentru diferenţiere, grupările

putându-se împărţi în două categorii:

• grupări după caracteristici calitative, exprimate

prin cuvinte, numite şi grupări tipologice sau

clasificări;(vezi capitolul 1, variabile calitative)

• grupări după caracteristici cantitative exprimate

numeric;(vezi capitolul 1, variabile cantitative).

La rândul lor grupările după caracteristici

cantitative pot fi de două feluri, după cum variaţia lor este

discretă sau continuă. În cazul unor caracteristici discrete

56

Page 57: statistica aplicata

gruparea se poate face, de regulă, pe variante ale acesteia,

iar în cazul unor caracteristici continue, pe intervale de

variaţie.

2.3. Intervalele utilizate în grupare

Adesea procesele şi fenomenele evoluează sub

aspectul nivelului unor caracteristici prezintând un număr

foarte mare de variante, iar gruparea unităţilor după

variante ar duce la o divizare a colectivităţii într-un număr

foarte mare de grupe mici, fără nici o semnificaţie.Înastfel

de situaţii se procedează la reunirea colectivităţii în grupe

pe anumite intervale de variaţie. Fiecare interval are o

limită inferioară şi o limită superioară. În funcţie de

natura colectivităţilor şi scopul urmărit în cercetare, se pot

stabili intervale egale sau neegale de grupare .

Numărul de intervale de grupare, considerat pentru

o anumită variabilă continuă, depinde de mărimea

preciziei măsurătorilor, de natură şi volumul colectivităţii

studiate şi de scopul cercetării. Stabilirea unui număr mare

de intervale poate determina apariţia unor neregularităţi

accidentale, datorită numărului redus de unităţi cuprinse în

fiecare interval, dimpotrivă, considerarea unui număr

57

Page 58: statistica aplicata

foarte mic de intervale poate determina o pierdere de

informaţie. Între aceste două situaţii extreme de precizie

iluzorie şi costisitoare – dată de un număr foarte mare de

intervale mici – şi informaţia insuficientă există în mod

logic un număr optim de intervale. Stabilirea numărului de

grupe este rezultatul unui compromis care depinde, mai

ales, de natura colectivităţii cercetate. În funcţie de natura

caracteristicii studiate, numărul optim de intervale se

situează în general între 10 şi 15.

Un interval de grupare ( ) i= este

descris de trei elemente:

mărimea sau amplitudinea intervalului de

grupare:

a centrul intervalului de grupare:

x

densitatea intervalului de grupare:

d

În cazul intervalelor neegale, d permite mai buna

apreciere a greutăţii specifice (a pondereii relative) a

58

Page 59: statistica aplicata

unităţilor statistice care îi aparţin faţă de volumul total al

colectivităţii.

Mărimea intervalelor este determinată de necesitatea

obţinerii de efective comparabile – adică de acelaşi ordin

de mărime – de la un interval la altul. În practică se

folosesc atât intervale egale ca mărime, cât şi intervale

neegale.

Limitele intervalelor trebuie să fie întotdeauna valori

simple, de regulă numere întregi sau rotunjite.

În cazul unor intervale egale de grupare se

recomandă, în literatura de specialitate, determinarea

acestora după formula lui H.A.Sturges:

d =

în care:

d = mărimea intervalului de grupare;

x varianta maximă a caracteristicii de grupare;x varianta minimă a caracteristicii de grupare;N = numărul unităţilor colectivităţii cercetate.

Cu ajutorul acestei formule se stabileşte, în funcţie

de numărul unităţilor colectivităţii cercetate N, mărimei

intervalelor d în care se pot grupa variantele unei

59

Page 60: statistica aplicata

caracteristicipentru a limita volumul calculelor şi nu a

pierde din informaţie. Numitorul formulei mai sus

prezenate, reprezintă tocmai numărul intervalelor de

grupare k.

Dacă se cunoaşte numărul de intervale egale de

grupare k pentru o anumită colectivitate, atunci mărimea

acestora d se poate determina cu ajutorul formulei:

d

Din această relaţie rezultă că, atunci când se

cunoaşte mărimea intervalelor de grupare d ,numărul

acestora k se va determina astfel:

k

Trebuie să precizăm că asemenea formule de

stabilire a mărimii intervalelor de grupare, cum este cea

elaborată de statisticianul american H. Sturges, au mai

mult o valoare orientativă şi nu pot, în nici un caz, să

suplinească analiza cantitativă a fenomenului cercetat.

Aplicarea în mod mecanic a acestei formule poate să ducă

la rezultate nesatisfăcătoare în practică. De regulă, pentru

fenomenele în curs de formare şi dezvoltare, se recomandă

60

Page 61: statistica aplicata

a se utiliza intervale neegale de grupare, mai mici către

partea inferioară şi mai mari spre partea superioară (Ţarcă,

1998).

O altă problemă a grupărilor pe intervale este

stabilirea limitelor intervalelor de grupare.

Se disting mai multe cazuri:

a. când limita superioară face parte din

interval( tabelul 2.2. sau tabelul 2.3.)

Tabelul 2.2.

Caracteristica Numărul unităţilor

0-5 1

5-10 4

10-15 6

15-20 4

20-25 1

Total 16

61

Page 62: statistica aplicata

Tabelul 2.3.

Caracteristica Numărul unităţilor

0

5

10

15

20

25

1

4

6

4

1

Total 16

b. când se precizează în mod explicit limitele intervalelor

de grupare:

Tabelul

Caracteristica Numărul unităţilor

0,1-5,0 1

5,1-10,0 4

10,1-15,0 6

15,1-20,0 4

20,1-25,0 1

Total 16

62

Page 63: statistica aplicata

Desigur, cea mai precisă modalitate de stabilire a

limitelor intervalelor este varianta b , dar ea nu se

utilizează în mod obişnuit la una din formele variantei a.

În activitatea statistică se întâlnesc şi situaţii în care

nu se cunoaşte una dintre limitele intervalelor marginale

(limita inferioară a primului interval sau limita superioară

a ultimului interval). Dacă în cercetare este absolut

necesară cunoaşterea acestor limite, se va recurge la

obţinerea informaţiilor suplimentare cu privire la

colectivitatea cercetată sau se vor utiliza mijloace indirecte

de estimare, numai în cazul în care prima modalitate este

inaplicabilă.

63

Page 64: statistica aplicata

Capitolul 3

INFORMAŢIA GEOGRAFICĂ DE ORDIN STATISTIC – PREZENTARE

ŞI REPREZENTARE GRAFICĂ

3.1. Seriile de repartiţie - terminologie, importanţă şi tipologie

Datele geografice de ordin statistic iniţiale, obţinute

în urma observării fenomenelor şi proceselor colective, se

prezintă sub formă brută ca o masă neordonată de date.

Înainte ca acestea să fie supuse prelucrării, analizei

ulterioare şi generalizărilor, ele trebuie să fie ordonate,

grupate şi sistematizate, astfel încât să permită obţinerea

unei imagini clare asupra colectivităţii la care se referă şi

să se preteze la calcule algebrice ulterioare.

Ca rezultat al grupării şi centralizării datele statistice

se sistematizează cu ajutorul unor tabele, sub forma a două

şiruri paralele de date, dintre care unul reprezintă

variantele sau intervalele de vatiaţie ale unei

caracteristici(variabile), iar celălalt, numărul de unităţi

64

Page 65: statistica aplicata

statistice corespunzătoare fiecărei variante (sau fiecărui

interval de variaţie), numit frecvenţă.

Să considerăm, pentru exemplificare, o colectivitate

de fenomene constituită din n unităţi statistice pentru care

se înregistrează un anumit număr de caracteristici. Pentru

fiecare caracteristică X, Y,...Z se pot înregistra k niveluri

distincte ( x , x ,...,x ,...,x ), .....(z , z ,...,z ,....,z ), a căror

succesiune poate fi apariţiei lor, în ordinea mărimii lor

sau la întâmplare (fără un criteriu bine determinat). Un

anumit nivel al caracteristicii (o anumită variantă a unei

variabile) x se poate întâlni fie la o singură unitate

statistică, fie la mai multe unităţi. Numărul unităţilor

statistice n care poartă un anumit nivel x al caracteristicii

se numeşte frecvenţă absolută, deoarece se exprimă în

mărimi absolute.

Dacă se împarte fiecare frecvenţă absolută n la

volumul total al colectivităţii, se obţine frecvenţa relativă,

notată cu f , care se poate exprima sub formă de coeficienţi

sau în procente.

65

Page 66: statistica aplicata

3.2. Seriile de repartiţie unidimesionale

Prezentarea paralelă a celor două şiruri de date x şi n

sau x şi f poartă denumirea de serie de repartiţie sau

distribuţie statistică unidimensională ( după o singură

caracteristică) sau distribuţie empirică unidimensională.

Seriile de repartiţie caracterizează fenomenele sub aspect

static şi prezintă distribuţia unităţilor unei colectivităţi în

funcţie de variaţia unei variabile calitative de grupare,

prezintă deci structura colectivităţilor.

Suma frecvenţelor absolute ale nivelurilor

individuale este egală cu volumul colectivităţii la care se

referă seria , iar suma frecvenţelor relative este

egală cu unitatea:

sau

unde f = şi f

66

Page 67: statistica aplicata

Un anumit nivel al caracteristicii împreună cu

frecvenţa lui reprezintă un termen al seriei (x , n ) sau (x ,f

).

Dacă n = n = n = ....= n

= ......= n = constant t, atunci se poate renunţa în practică

la scrierea celui de al doilea şir n ,iar şirul x poartă

denumirea de serie de repartiţie simplă.

În general, frecvenţele n sunt diferite unele de altele

(aceasta nu exclude egalitatea unora dintre ele) şi este

necesar să se menţină cel de al doilea şir de valori, iar

această prezentare paralelă a celor două şiruri de valori

poartă denumirea de serie de repartiţie cu frecvenţă.

Datele statistice sistematizate cu ajutorul seriilor de

repartiţie constituie un element esenţial al sistemului

informaţional statistico-economic.

Alături de distribuţiile empirice unidimensionale

există şi distribuţii teoretice, care corespund unei anumite

legi de probabilitate cu o singură variabilă. Distribuţiile

empirice iau naştere pe baza unor experienţe practice şi au

un caracter statistic, de aceea se mai numesc şi distribuţii

statistice.

67

Page 68: statistica aplicata

Distribuţiile empirice ale fenomenelor reale din

natură şi societate sunt studiate de către statistica aplicată,

în timp ce distribuţiile teoretice sunt studiate de către

calculul probabilităţilor şi statistica matematică.

Între disribuţiile teoretice şi cele empirice există o

strânsă legătură. De multe ori este suficientă înlocuirea

cuvântului probabilitate cu cel de frecvenţă pentru a se

trece de la o demonstraţie privind o anumită proprietate a

unei distribuţii teoretice la demonstraţia privind

proprietatea analogă a unei distribuţii empirice.

Datele statistice, sistematizate cu ajutorul

distribuţiilor empirice, constituie un element esenţial în

cadrul cercetării staistice pe baza căruia se pot determina

indicatorii derivaţi.

Frecvenţele empirice se pot cumula din aproape în

aproape, ajungându-se astfel la stabilirea distribuţiilor

frecvenţelor cumulate. Fie că este vorba de frecvenţa

absolută sau de cea relativă, frecvenţa cumulată a unei

valori empirice x a caracteristicii este egală cu suma

frecvenţelor tuturor valorilor mai mici sau mai mari decât

x , inclusiv aceea a lui x , în funcţie de sensul cumulării

68

Page 69: statistica aplicata

N(x ) şi F(x ) respectiv N’(x ) şi F’(x ) în cazul

retrocumulării.

Dacă cumularea se face pornind de la nivelul minim

al lui x spre cel maxim, ultima frecvenţă cumulată este

egală cu totalul frecvenţei seriei şi deci cu volumul

colectivităţii:

N(x ) = F(x ) =

Seriile de repartiţie au o mare răspândire în statistica

social-economică, fiind utilizate pentru a reprezenta

structura diferitelor fenomene sociale şi economice pe

sfere ale economiei naţionale, pe sectoare de activitate, pe

ramuri ale economiei, pe forme de proprietate etc., de

exemplu, distribuţia populaţiei după caracteristici

demografice, sociale, economice etc.

După modul de exprimare a caracteristicii de grupare

(numeric sau prin cuvinte), seriile de repartiţie se pot

împărţi în două categorii:

serii de repartiţie cu caracteristica exprimată

numeric sau cantitativ, numite şi serii cu atribut cantitativ;

(vezi capitolul 1, variabile cantitative).

69

Page 70: statistica aplicata

serii de repartiţie cu caracteristica exprimată prin

cuvinte, care se mai numesc şi serii cu atribut calitativ,

(vezi capitolul 1, variabile calitative)..

În cazul unor astfel de serii, frecvenţele (absolute sau

relative) sunt funcţii de anumite intervale, care sunt

compatibile de la un interval la altul, atunci când

intervalele sunt egale şi necompatibile în cazul unor

intervale neegale.

Pentru a deveni compatibile de la un interval la altul,

şi în acest caz se determină anumite mărimi abstracte,

numite frecvenţe transformate, prin împărţirea

frecvenţelor absolute sau a celor relative la mărimea

intervalelor corespunzătoare, astfel:

n = şi f =

unde: n - frecvenţa absolută transformată;

f - frecvenţa relativă transformată;

= x - x

Frecvenţele transformate n şi f se mai numesc şi

frecvenţe unitare sau frecvenţe pe intervale unitare.

70

Page 71: statistica aplicata

Tabelul 3.1. Populaţia totală a României pe grupe de vârstă la recensământul din 7 ianuarie 1992

Grupa de vârstă(ani)

Numărul populaţiei

Grupa de vârstă(ani)

Numărul populaţiei

0 – 4 1 613 419 45 – 49 1 173 644

5 – 9 1 653 885 50 – 54 1 347 530

10 – 14 1 914 598 55 – 59 1 363 062

15 – 19 1 916 936 60 – 64 1 232 053

20 – 24 2 042 068 65 – 69 1 029 195

25 – 29 1 255 780 70 – 74 558 656

30 – 34 1 546 138 75 – 79 475 007

35 – 39 1 713 144 80 – 84 303 819

40 – 44 1 527 519 85 şi peste 143 582

Total 22 810 035

Sursa: Anuarul statistic al Românei, CNS, 1993, pp.96 – 98

Termenii seriei iniţiale se pot grupa pe intervale

egale sau neegale, în funcţie de natura fenomenului la care

se referă şi de scopul ce se urmăreşte prin alcătuirea seriei.

Să considerăm acum seria de distribuţie cu

caracteristica exprimată numeric, reperentând gruparea

municipiilor şi oraşelor din România după numărul

71

Page 72: statistica aplicata

populaţiei la recensământul din 7 ianuarie 1992 (tabelul

3.2.)

Deci, din cele 260 de oraşe ale României, existente la

data recensământului, un număr de 109 aveau o populaţie

de peste 20 de mii de locuitori, iar 25 de oraşe aveau o

populaţie de peste 100 de mii de locuitori, din care 12

peste 200 de mii de locuitori. Paralel cu dezvoltarea

social-economică a ţării a avut loc o creştere continuă a

gradului de urbanizare, care s-a concretizat în sporirea

numărului de locuitori în localităţile urbane vechi şi în

cele nou înfiinţate, ca şi prin creşterea numărului de oraşe

cu o populaţie mai numeroasă, cu importante implicaţii

asupra structurii populaţiei pe medii.

72

Page 73: statistica aplicata

Tabelul 3.2. Distribuţia municipiilor şi oraşelor din România după numărul populaţiei existente la recensământul din 7 ianuarie 1992

Grupe de oraşe după numărul de locuitori

Numărul municipiilorşi oraşelor

Numărul populaţieiPersoane %

Sub 20002000 – 49995000 - 9999

10000 – 1999920000 - 4999950000- 99999

100000 - 199999200000 - 999999

1000000 şi peste

1105486612313111

1 96937 848

414 1731 183 3951 910 0061 723 7131 827 0163 226 1542 067 545

*0,33,39,6

15,413,914,826,016,7

Total 260 12 391 819 100,0

* sub 0,1 % Sursa: Anuarul statistic al României 1993, CNS, Bucureşti, p.91.

Distribuţia municipiilor şi oraşelor din România s-a

făcut pe intervale neegale de grupare, deoarece procesul de

urbanizare în ţara noastră este în curs de desfăşurare. În

procesul complex de transformare a localităţilor rurale în

centre urbane, se diferenţiază o serie de etape cu o anumită

succesiune şi semnificaţie. De aceea este necesar, pentru

oraşele cu un număr redus de locuitori, să se formeze

intervale de grupare mai mici, iar pe măsură ce numărul

locuitorilor oraşelor va creşte , va creşte şi mărimea

73

Page 74: statistica aplicata

intervalelor. În general, se poate aprecia că oraşele dintr-

un anumit interval au trăsături şi roluri specifice în viaţa

economico-socială din zonă.

Astfel, oraşele mici sunt fie centre industriale,

comerciale sau agro-industriale nou înfiinţate, fie centre

urbane mai vechi cu importanţă turistică restrânsă. Oraşele

mari –municipiile – concentrează în ele o importantă

activitate economico-socială şi culturală, şi sunt nuclee

puternice de urbanizare pentru zonele din care fac parte.

3.2.1. Seriile unidimensionale de repartiţie şi reprezentarea lor grafică

Pentru a uşura analiza şi generalizarea rezultatelor,

seriile statistice pot fi reprezentate grafic prin intermediul

punctelor, liniilor, suprafeţelor şi a altor forme geometrice,

prin figuri naturale şi simbolice, precum şi cu ajutorul

hărţilor. Această metodă intuitivă, flexibilă şi foarte utilă

pentru lămurirea, interpretarea şi analiza fenomenelor şi

proceselor social-economice, poartă denumirea de metoda

reprezentării grafice a informaţiilor statistice inclusiv

geografice.

74

Page 75: statistica aplicata

Reprezentarea grafică a seriilor de distribuţie

urmăreşte să scoată în evidenţă diferite părţi ale

colectivităţii studiate pe baza variaţie caracteristicii şi a

frecvenţelor corespunzătoare. Prin reprezentarea grafică a

acestor serii se obţine o primă imagine asupra formei

distribuţiei, asupra structurii şi modificărilor structurale

în timp şi în spaţiu ale colectivităţii şi se pot determina

anumiţi indicatori.

Graficele utilizate pentru reprezentarea distribuţiilor

statistice sunt numeroase. Forma şi tipul acestora depinde

de natura fenomenului studiat şi de scopul urmărit. Astfel,

în practică, se folosesc: diagrame prin benzi, histograme,

diagrame triunghiulare, diagrame de structură, diagrame

cu figuri naturale, simbolice etc.

Diagramele prin benzi sunt reprezentările grafice

cele mai simple şi foarte răspândite în practică. Lungimea

benzilor este direct proporţională cu indicatorii reprezen-

taţi, iar lăţimea lor este aceeaşi pentru toate benzile dintr-o

diagramă. Aceste diagrame se utilizează în practică mai

ales pentru reprezentarea grafică a seriilor de distribuţie cu

caracteristica exprimată prin cuvinte (fig. 3.1.)

75

Page 76: statistica aplicata

Figura 3.1. Diagrama prin benzi

O formă specifică de diagramă prin coloane, utilizată

pentru reprezentarea distribuţiilor statice unidimensionale,

este histograma.

Figura 3.2. Histograma

Pentru construirea pe abscisă, se trece mărimea

intervalelor de variaţie a caracteristicii, respectându-se

76

Page 77: statistica aplicata

principiul ca intervale egale să fie repezentate prin distanţe

egale. Pe ordonată se construieşte scara frecvenţelor.

Pentru fiecare termen al seriei se ridică câte un dreptunghi

având baza pe axa absciselor egală cu mărimea

intervalului, iar înălţimea proporţională cu frecvenţa.

Coloanele se construiesc alăturat, iar laturile superioare

formează o linie frântă, în trepte, cu caracter de

continuitate, care oferă o imagine clară asupra formei

distribuţiei. Deoarece suprafeţele coloanelor sunt

proporţionale cu frecvenţe reprezentate, suprafaţa totală a

histogramei este proporţională cu volumul colectivităţii

cercetate.

Un aspect deosebit de important care apare la

ridicarea şi construirea histogramelor, este alegerea

scărilor pe cele două axe de coordonate, deoarece de

mărimea lor şi de raportul dintre ele depinde forma

graficului dar mai ales depinde expresivitatea lor şi

relevanţa pentru procesul sau fenomenul exprimat. Este

astfel necesar un plus de atenţie şi analază deoarece nu

există criterii general valabile şi bine conturate. Se ţine în

general seama de următorul principiu: cu cât mărimea

77

Page 78: statistica aplicata

intervalelor pe axa absciselor este mai mare, cu atât

variaţia fenomenului reprezentat apare mai uniformă. În

situaţia inversă intervalele prea mici fărămiţează

dezvoltarea fenomenelor evidenţiind şi variaţiile lor

nesemnificative. Evident, între aceste două situaţii extreme

există o variantă care este cea mai potrivită pentru fiecare

fenomen reprezentat.

La construirea histogramelor se diferenţiază două

cazuri distincte după cum seriile de repartiţie au

intervalele egale sau neegale astfel acestea pot lua forma

diagramelor în trepte.

Figura 3.3. Diagrama în trepte

Poligonul frecvenţelor este un alt tip de grafic

utilizat pentru reprezentarea seriilor de distribuţie cu

atribut cantitativ. El se poate construi în două feluri:

78

Page 79: statistica aplicata

Dacă se porneşte de la histograma seriei, atunci,

pentru a obţine poligonul frecvenţelor, se unesc succesiv

mijloacele capetelor de sus ale coloanelor histogramei prin

segmente de dreaptă (fig. 3.4.)

Aria poligonului frecvenţelor este egală cu aria

histogramei pe baza căreia a fost construit , deoarece linia

frântă a poligonului frecvenţelor lasă în afară, din

suprafaţa histogramei, o suprafaţă egală cu cea încorporată

de poligonul frecvenţelor din exteriorul histogramei.

Figura 3.4. Poligonul de frevcvenţe

Poligonul frecvenţelor poate fi construit şi direct pe

baza seriei. În acest scop, de pe axa absciselor, din

mijlocul intervalelor, se ridică perpendiculare (linii

79

Page 80: statistica aplicata

punctate) ale căror înălţimi sunt proporţionale cu

frecvenţele respective. Unind, succesiv, prin segmente de

dreapta, capetele de mai sus ale perpendicularelor, se

obţine poligonul frecvenţelor.

Diagramele de structură reprezintă forme speciale

de grafice construite cu ajutorul suprafeţelor

(dreptunghiuri, pătrate, cercuri, semicercuri etc.) şi se

utilizează pentru reprezentarea structurii colectivităţilor şi

a modificărilor structurale intervenite în timp sau în spaţiu.

Principiul de bază de care trebuie să se ţină seama la

construirea graficelor de structură este proporţionalitatea

între mărimea fenomenului cercetat şi mărimea suprafeţei

figurii geometrice folosită pentru reprezentare. Grupele

din cadrul colectivităţii se reprezintă prin porţiuni de

suprafaţă proporţionale cu volumul lor. Modalităţile

concrete de construire a acestor diagrame diferă în funcţie

de figura geometrică de bază.

În cazul folosirii diagramelor prin dreptunghiuri,

suprafaţa acestora trebuie să fie direct proporţională cu

volumul colectivităţilor cercetate, iar grupele din cadrul

colectivităţii se reprezintă prin porţiuni proporţionale din

suprafaţa dreptunchiurilor. Raportul dintre suprafeţele

80

Page 81: statistica aplicata

acestor porţiuni şi suprafaţa totală a dreptunghiului trebuie

să fie egal cu raportul dintre volumul fiecărei grupe şi

volumul total al colectivităţii.

Figura 3.5. Diagrame prin dreptunghiuri şi pătrate.

Diagramele de structură prin pătrate se constuiesc

pe baza respectării aceluiaşi principiu al proporţionalităţii

între suprafaţa pătratului şi volumul colectivităţii

prezentate. Pentru aceasta se consideră un pătrat care

reprezintă colectivitatea (100 %) şi apoi acesta se împarte

în 100 de pătrăţele, fiecare corespunzând unui procent. În

continuare, pentru fiecare grupă a colectivităţii, se separă

81

Page 82: statistica aplicata

unnumăr de pătrăţele egal cu ponderea prcentuală a grupei

în totalul colectivităţii.

Diagrama de structură prin cerc constă în

reprezentarea structurii colectivităţilor prin sectoare de

cerc. Suprafaţa cercului întreg va fi proporţională cu

volumul colectivităţii de reprezentat:

S = de unde R =

Figura 3.6. Diagrama de structură prin cerc

82

Page 83: statistica aplicata

3.3. Seriile de repartiţie multidimensionale

Alături de distribuţiile unidimensionale, în statistică

se utilizează numeroase distribuţii după două, trei sau mai

multe caracteristici. Deoarece frecvenţele în acest caz se

referă la mai multe caracteristici, distribuţiile respective se

numesc distribuţii multidimensionale sau serii de repar-

tiţie multidimensionale.

Cu toate că disribuţiile multidimensionale înglo-

bează, ca un caz particular, distribuţiile unidimensionale,

în studiul lor apar şi anumite probleme specifice care nu

au sens în cazul distribuţiilor unidimensionale, cum ar fi

analiza legăturilor dintre fenomene.

Ca şi seriile de repartiţie unidimensionale, seriile de

repartiţie multidimensionale pot fi teoretice şi empirice.

3.3.1. Seriile de repartiţie bidimensionale

În cazul studierii a două caracteristici ale unităţilor

statistice ale unei colectivităţi, distribuţiile obţinute se

numesc distribuţii bidimensionale sau serii de repartiţie

bidimensionale.

83

Page 84: statistica aplicata

Să considerăm o colectivitate formată din n unităţi

statistice, care poartă simultan două caracteristici X şi Y şi

să notăm cu x , x , x ,.....,x ,...., x cele k variante ale

caracteristicii X, cu y , y , y ,...., y ,...., y cele p variante

ale caracteristicii Y. Fie n numărul de unităţi ale

colectivităţii care poartă în acelaşi timp varianta x a

caracteristicii X şi varianta y a caracteristicii Y, deci n

este frecvenţa absolută, iar f frcvenţa relativă de la

intersecţia lui i cu j.

3.3.2. Reprezentarea grafică a seriilor de repartiţie bidimensionale

Distribuţia unităţilor statistice ale unei colectivităţi

după două caracteristici se poate reprezenta grafic în

spaţiul bidimensional sau în cel tridimensional, în timp ce

distribuţiile unidimensionale se reprezintă în plan.

Pentru reprezentarea grafică a distrubuţiilor

bidimensionale se pot utiliza diferite figuri geometrice, cu

scopul de a reda repartiţia în ansamblu prin puncte,

suprafeţe, cercuri, paralelipipede dreptunghiulare etc.

84

Page 85: statistica aplicata

Un grafic sugestiv, simplu de construit şi de aceea

des utilizat în practica statistică este diagrama prin puncte

(Figura 3.7a), numită şi diagrama sub forma unui „nor de

puncte”. Pentru construirea acestui grafic, se ia un sistem

de axe rectangulare pe care se înscriu cele două

caracteristici X şi Y, iar fiecare pereche de valori (x ; y )

se reprezintă printr-un punct. Dacă variaţia celor două

caracteristici se prezintă sub formă de intervale, atunci în

planul xoy se construieşte o reţea formată din

perpendicularele ridicate pe cele două axe din punctele

corespunzătoare limitelor intervalelor. Apoi în fiecare

pătrat (sau dreptunghi) al reţelei se construieşte un număr

de puncte egal cu frecvenţa corespunzătoare.

Concentrarea acestor puncte într-o anumită zonă din

planul axelor de coordonate ia forma unui nor, de unde

derivă şi denumirea de nor de puncte (3.7b).

85

Page 86: statistica aplicata

Figura 3.7a Diagrama prin puncte

Figura 3.7b

Cu ajutorul acestui grafic se poate aprecia existenţa

unei legături dintre cele două variabile X şi Y , iar în

funcţie de forma norului de puncte se apreciază forma şi

intensitatea acesteia. Astfel, dacă punctele se dispersează

fără nici o regulă în întreg planul xoy, înseamnă că

86

Page 87: statistica aplicata

informaţiile empirice pe care le-am reprezentat grafic nu

ne spun nimic cu privire la existenţa vreunei legături între

cele două variabile. Dimpotrivă, concentrarea punctelor

empirice într-o anumită zonă a graficului constituie un

argument în favoarea ipotezei că între variabilele

reprezentate poate exista o anumită legătură.

Un exemplu clasic de reprezentare grafică a

distribuţiilor bidimensionale îl constituie piramida

vârstelor. Cu ajutorul ei se poate reprezenta distribuţia

populaţiei pe vârste şi sexe la un anumit moment. Pentru a

construi un astfel de grafic pe axa verticală se trece vârsta

populaţiei de la 0 la 100 de ani, iar pe orizontală, numărul

populaţiei. Numărul populaţiei de diferite vârste sau grupe

de vârste se reprezintă printr-o bandă a cărei bază mică

corespunde intervalului de vârstă, iar lungimea ei este

proporţională cu numărul populaţiei. Se construiesc, de

fapt, două grafice (histograme) alăturate, câte unul pentru

fiecare sex. Pentru a se putea interpreta mai uşor este

indicat ca pe ambele părţi ale piramidei să se treacă şi anii

de naştere a populaţiei de diferite vârste (fig.3.8). Pentru

exemplificare se prezintă piramida vârstelor populaţiei.

87

Page 88: statistica aplicata

Figura 3.8. Piramida vârstelor

3.3.3. Repartiţii tridimensionale

Distribuţiile tridimensionale rezultă din considerarea

a trei caracteristici cantitative sau calitative şi calitative

pentru fiecare unitate statistică.

În cazul unui număr redus de unităţi statistice,

distribuţiile tridimensionale se prezintă sub forma a trei

şiruri de date paralele, câte unul pentru fiecare

caracteristică X, Y şi Z:

88

Page 89: statistica aplicata

X: (x , x ,.....,x ,.......,x )

Y: (y , y ,.....,y ,.......,y )

Z: (z ,z ,.....,z ,.......z )

Aceste şiruri de date pot fi eventual ordonate

crescător sau descrescător, după variantele uneia dintre

cele trei variabile.

Ca şi în cazul distribuţiilor bidimensionale, când

numărul unităţilor statistice n este suficient de mare, se

recomandă sistematizarea datelor iniţiale sub forma unei

distribuţii de frecvenţă a celor trei variabile pe variante sau

pe grupe de variante ale caracteristicilor. Se obţine, astfel,

un tabel statistic cu triplă intrare care cuprinde frecvenţele

n ale ansamblului de variante (x , y , z ), (i =1,2,...., p;

j = 1,2,..., q; k = 1,2,...., r) şi frecvenţele marginale n ,

n , n şi n .

3.4. Seriile dinamice

Cunoaşterea ştiinţifică a evoluţiei fenomenelor în

timp constituie o problemă complexă şi deosebit de

importantă. Acest lucru se explică prin faptul că

schimbările în timp care au loc în dezvoltarea

89

Page 90: statistica aplicata

colectivităţilor se referă la variaţia volumului şi structurii

lor, la variaţia caracteristicilor proprii diferitelor unităţi ale

lor şi la forma şi caracterul legăturii dintre aceste

caracteristici. Toate aceste schimbări sunt, la rândul lor,

interdependente.

Seriile dinamice, de timp sau cronologice se

caracterizează prin faptul că termenii lor se diferenţiază în

funcţie de o caracteristică de timp.

Ca orice serie statistică, şi cele dinamice se compun

din două şiruri paralele de date. Primul se referă la variaţia

caracteristicii t şi reprezintă diferite momente sau

intervale de timp şi al doilea la nivelurile fenomenului

studiat y .

O caracteristică esenţială a seriilor dinamice o

constituie faptul că ele sunt construite pentru colectivităţi

omogene. Aceasta asigură comparabilitatea indicatorilor

de la o perioadă la alta sau de la un moment la altul.

Seriile dinamice se pot construi pentru perioade de timp

mai lungi sau mai scurte cu condiţia ca, în aceste perioade

să nu fi avut loc modificări calitative importante în cadrul

colectivităţii şi ele servesc pentru caracterizarea evoluţiei

90

Page 91: statistica aplicata

fenomenelor individuale sau colective pe diferite trepte

sau etape din dezvoltarea lor.

O altă trăsătură caracteristică a seriilor dinamice

constă în faptul că fenomenele şi faptele sociale şi

economice, oglindite în indicatorii care formează seria,

sunt dependente între ele. Nivelul unui fenomen,

corespunzător unui anumit moment sau perioadă din

dezvoltarea lui, depinde şi de nivelul aceluiaşi fenomen

înregistrat în perioadele anterioare, ca şi de ambianţa în

care a avut loc dezvoltarea.

De aceea, schemele teoretice ale calculului

probabilităţilor – bazate, în general, pe independenţa

fenomenelor – nu sunt aplicate în analiza seriilor

dinamice.

La rândul lor seriile dinamice, după natura

colectivităţii la care se referă, se împart în două categorii

şi anume: serii de momente şi serii de intervale.

Seriile de momente caracterizează variaţia în timp a

colectivităţilor de stări, iar termenii lor reprezintă volumul

acestor colectivităţi înregistrat în diferite momente

succesive ale timpului. De exemplu: volumul stocurilor de

91

Page 92: statistica aplicata

produse existent în întreprinderi la începutul fiecărei luni,

numărul populaţiei obţinut cu ocazia diferitelor

recensăminte sau la data de 1 ianuarie a fiecărui an,

numărul animalelor domestice, obţinut pe baza

recensămintelor etc.

Din această serie dinamică se poate constata că

populaţia globului a înregistrat în era noastră un proces de

creştere continuă, mai lent la început, apoi din ce în ce mai

accelerat până în prezent.

Seriile de momente se caracterizează prin faptul că

indicatorii lor succesivi nu se pot însuma, o asemenea

operaţie nu ar avea un conţinut real. Astfel, ar fi lipsită de

conţinut şi în discordanţă cu realitatea însumarea

numărului populaţiei lumii la diferite momente, deoarece o

parte din populaţia care a fost luată în calcul, de exemplu,

în anul 1995, există şi în momentele precedente 1900,

1950, 1960, 1970, 1980 şi 1990.

O altă particularitate a seriilor dinamice de momente

este şi aceea că ele se întocmesc pentru fenomenele a căror

înregistrare nu este posibil să se facă în mod curent-

continuu. Momentele unei astfel de serii pot fi egal sau

92

Page 93: statistica aplicata

neegal distanţate între ele şi această particularitate prezintă

interes pentru alegerea celor mai potrivite metode şi

tehnici de calcul şi analiză a seriilor de momente.

Seriile dinamice de intervale se referă la fenomenele

care se înregistrează în mod curent şi cu caracter de

continuitate pe măsura producerii lor, totalizându-se

pentru anumite perioade de timp (zi, săptămână, lună,

trimestru, semestru, an, cinci ani, zece ani etc). De

exemplu, producţia industrială, producţia agricolă,

volumul vânzărilor de mărfuri, numărul născuţilor-vii,

numărul căsătoriilor, numărul divorţurilor, numărul

deceselor etc., se pot totaliza pe perioade de timp

calendaristice.

Deoarece seriile de intervale se obţin prin

înregistrarea curentă-continuă a fenomenelor, indicatorii

statistici care caracterizează nivelul dezvoltării lor pe o

anumită perioadă de timp, se pot cumula din aproape în

aproape, obţinându-se în felul acesta indicatori corespun-

zători unor intervale de timp mai mari.

93

Page 94: statistica aplicata

Mărimea intervalelor seriilor dinamice se stabileşte

în funcţie de natura colectivităţilor şi de necesităţile

practice ale analizei statistice.

Din punct de vedere al naturii indicatorilor, care

reprezintă variantele caracteristicii cercetate, seriile

dinamice pot fi de mai multe feluri: serii dinamice

construite din mărimi absolute, serii dinamice construite

din mărimirelative şi serii dinamice construite din mărimi

medii.

Seriile dinamice construite din mărimi absolute

caracrerizează variaţia nivelului absolut al fenomenelor la

anumite date sau pe anumite perioade de timp, mai mult

sau mai puţin îndelungate, ele pot fi de momente sau de

intervale.

Tabelul 3. 3. Populaţia României în anii 1891 – 1996

Data Numărul populaţiei12 februarie31 decembrie31 decembrie31 decembrie29 decembrie6 aprilie

10 000 00011 168 00012 898 000 (recensământ)12 419 00014 280 129 (recensământ) 16 126 063 (recensamânt)

94

Page 95: statistica aplicata

25 ianuarie21 februarie15 martie20 iunie5 ianuarie1 iulie3 decembrie1 iulie1 iulie7 ianuarie1 iulie1 iulie1 ianuarie

15 872 624 (recensământ) 17 489 450 (recensământ)19 103 163 (recensământ)20 000 00021 559 910 (recensământ)22 201 38723 000 00023 206 720 23 185 08422 810 035 (recensământ)22 755 26022 730 62222 656 145

Sursa: Recensământul populaţiei şi locuinţelor din 15 martie 1996, vol.I, Partea I-a, DCS, 1969, p.XVII; Anuarul statistic al României 1995, CNS, p.82

Seriile dinamice pot fi construite şi din mărimi

relative, în raport cu o anumită bază fixă sau variabilă a

fenomenelor în diferite momente sau perioade de timp.

Prin urmare şi aceste serii pot fi de intervale sau de

momente. De exemplu: dinamica produsului intern brut,

produsului social, dinamica venitului naţional, dinamica

productivităţii muncii pe un muncitor din industrie,

dinamica populaţiei ocupate, dinamica numărului mediu

scriptic al salariaţilor pentru diferite perioade de timp şi în

95

Page 96: statistica aplicata

funcţie de nivelul unui anumit indicator dintr-o anumită

perioadă sau moment considerat ca bază etc.

Prezentăm, pentru concretizare, în paralel două serii

dinamice ai căror termeni se exprimă în mărimi relative, şi

anume dinamica produsului social şi a venitului naţional

creat în România în perioada 1950-1990, în care nivelul

anului 1950 este considerat ca bază.

Seriile dinamice construite din mărimi medii

caracterizează dezvoltarea medie a fenomenelor pe diferite

trepte ale evoluţiei lor, de exemplu, evoluţia numărului

mediu scriptic al salariaţilor din economia ţării noastre în

perioada 1950-1995.

La elaborarea oricărei serii dinamice trebuie să se

respecte anumite condiţii esenţiale care ar putea fi

sistematizate astfel:

compararea nivelului de dezvoltare a fenomenelor

să se efectueze numai pentru perioade de timp egale;

stabilirea mărimii intervalului de timp, în cazul

seriilor de intervale, trebuie să se facă ţinând seama de

natura specifică de dezvoltare a fenomenului respectiv, de

schimbările calitative care se produc în cadrul

colectivităţilor ca şi de necesităţile practice;

96

Page 97: statistica aplicata

să se asigure comparabilitatea indicatorilor seriilor

dinamice din punct de vedere metodologic, teritorial, al

preţurilor etc;

orice serie dinamică trebuie să fie construită numai

din indicatori de acelaşi fel (mărimi absolute, mărimi

medii sau mărimi relative).

3.5. Seriile de spaţiu

Seriile de spaţiu sau teritoriale sunt acele serii

statistice în care criteriul de diferenţiere a termenilor lor

este teritoriul sau spaţiul (comuna, judeţul, ţara,

continentul etc.) în care fenomenele au apărut, au existat

sau au suferit un anumit eveniment. De exemplu:

distribuţia pe judeţe a numărului ţi densităţii populaţiei, a

numărului salariaţilor, a principalilor indicatori ai

industriei, a producţiei totale de fructe, a volumului

vânzărilor de mărfuri cu amănuntul, populaţia şi densitatea

ei pe continente, pe ţări, durata medie a vieţii pe tări etc.

Înregistrarea elementelor unei colectivităţi pe diferite

unităţi teritoriale se efectuează fie pentru o anumită

perioadă de timp sau la un moment dat, fie în funcţie de

97

Page 98: statistica aplicata

natura fenomenelor cercetate şi acest fapt trebuie precizat

în titlul tabelului care prezintă seria.

3.5.1 Reprezentarea grafică a seriilor de spaţiu

Distribuţia spaţială a fenomenelor se poate

reprezenta grafic cu ajutorul diagramelor prin benzi, care

scot în evidenţă variaţia volumului fenomenului în teritorii

diferite.

Caracterul de distribuţie teritorială a seriilor de

spaţiu nu poate fi scos în evidenţă, în mod clar, numai cu

ajutorul graficelor obţinute (diagrame), ci ci este necesar,

pentru localizarea fenomenelor cercetate, să se apeleze la

un tip special de grafice, construite cu ajutorul hărţilor de

contur a diviziunilor teritoriale.

Desigur, economistul nu este geograf şi

reprezentările sale spaţiale nu vizează acelaşi scop; în loc

de a încerca reproducerea detaliată a fenomenelor în

spaţiu, economistul consideră că introduce în lucrările sale

o variabilă suplimentară, spaţiul. Reprezentarea grafică cu

ajutorul hărţilor este tot atât de importantă pentru analiza

statistico-economică şi pentru testarea ipotezelor statistice,

ca şi diagramele. Scopul statisticii este şi deglobalizarea

98

Page 99: statistica aplicata

spaţială a colectivităţiilor, relevarea diversităţii care se

ignoră de către volumul acestora sau de către nivelul

mediu al diferitelor caracteristici. Spaţiul pentru economist

apare deci mult mai abstract decât pentru geograf.

Înainte de a prezenta unele modele ale diagramelor

spaţiale, se impun câteva precizări:

a) hărţile geografice sunt reprezentări prin suprafeţe:

fiecare unitate geografică este reprezentată printr-o

suprafaţă proporţională cu cea reală;

b) importanţa fiecărei zone geografice este foarte

diferită din mai multe puncte de vedere;

c) subzonele unui anumit teritoriu au o

individualitate proprie: caracteristicile geografice

(temperatură, precipitaţii); sociodemografice (regimul de

activitate, nivelul mortalităţii generale şi specifice,

numărul de locuinţe etc.); economice (mărimea şi forma

suprafeţei, dezvoltarea industriei şi structura ei, preţurile

produselor de sezon etc.)

d) analiza unei cartograme trebuie să vizeze cel

puţin două aspecte:

intensitatea luminoasă trebuie să fie în

concordanţă cu nivelul caracteristicii zonei

99

Page 100: statistica aplicata

luate în studiu (două zone geografice apropiate

sau chiar identice se reprezintă prin aceeaşi

tonalitate luminoasă, culoare sau haşurare);

numărul de tonalităţi diferite care se pot utiliza

într-o cartodiagramă este limitat de posibilită-

ţile de percepţie ale omului;

Pornind de la aceste precizări de ordin general, se

prezintă în continuare câteva modele de grafice ale

distribuţiilor spaţiale.

Graficele specifice utilizate pentru reprezentarea

distribuţiilor după o caracteristică teritorială sunt de două

tipuri: cartograme şi cartodiagrame.

Cartogramele, la fel ca oricare alte grafice, trebuie să

fie cât mai simple pentru a putea fi uşor de citit şi

interpretat. Uneori, din dorinţa unor reprezentări cât mai

precise şi mai complexe, se pierde din claritate. În astfel

de cazuri este preferabil să se descompună o cartogramă,

foarte încărcată, în două sau mai multe cartograme mai

simple, mai expresive şi, deci, mai eficace.

Cu ajutorul cartogramelor se reprezintănivelul atins

de către diferite fenomene în teritorii diferite sau variaţia

acestora de la o unitate teritorială la alta, cu scopul de a

100

Page 101: statistica aplicata

înlesni caracterizarea statistică a diferitelor zone din punct

de vedere al caracteristicii sau a caracteristicilor cercetate.

Cartogramele pot fi construite prin puncte, în culori sau în

nuanţe de culori, haşurate, cu izolinii (sau curbe de nivel)

etc.

Harta care stă la baza construcţiei cartogramei

trebuie să aibă bine conturate unităţile teritoriale, făra să se

precizeze formele de relief, apele, oraşele etc. decât în

măsura în care este nevoie de localizarea fenomenelor

cercetate, pentru a nu încărca în mod inutil cartograma.

Pentru reprezentarea pe hartă a variaţiei diferitelor

fenomene sau a intensităţii acestora în teritorii diferite, se

utilizează în practică cartograma prin puncte. În acest caz,

indicatorii se reprezintă printr-un anumit număr de puncte,

fiecare având o anumită mărime. Problema principală a

construcţiei acestor cartograme constă în alegerea

raţională a mărimii etalon a punctului (cerculeţului). Dacă

punctele vor reprezenta valori mai mari, ele se vor uni cu

cele învecinate şi vor da o nuanţă de gol teritoriului din

imediata apropiere. Dimpotrivă, dacă punctele vor

reprezenta valori prea mici, ele vor fi prea dese prea hartă

se vor contopi şi nu vor da o imagine clară. Cartogramele

101

Page 102: statistica aplicata

prin puncte se utilizează mai ales pentrureprezentarea

seriilor formate din mărimi absolute (populaţie, producţie,

vânzări etc.).

Mai răspândite în practică sunt cartogramele cu

culori diferite şi cele cu intensităţi diferite ale aceleiaşi

culori. Dacă se întrebuinţează culori diferite, apare

dificultatea reprezentării culorilor într-o progresie optică

cu scopul de a permite identificarea precisă şi logică a

variaţiei şi intensităţii fenomenelor. În literatura de

specialitate s-a propus următoarea scară de culori, în

ordine crescătoare a intemsităţii: alb, galben-deschis,

galben auriu, portocaliu, roz, maro-deschis, maro-închis,

verde-închis, roşu-închis şi negru. Din practică, s-a

constatat c`în locul utilizării mai multor culori, este

preferabilă utilizarea mai multor nuanţe ale aceleiaşi

culori. Intensitatea culorii este strâns legată de intensitatea

fenomenului în zonele respective, astfel încât, acolo unde

aceasta este mai mare, şi nuanţa culorii va fi mai

pronunţată şi invers.

Cartogramele haşurate pot înlocui cartogramele în

culori. Haşurarea diferitelor zone se face pe baza aceloraşi

principii ca şi în cazul cartogramelor în culori: cu cât

102

Page 103: statistica aplicata

intensitatea fenomenului este mai mare, cu atât haşurarea

are un fond mai închis, ce se realizează fie prin desimea

liniilor, fie prin grosimea lor şi invers.

Figura 3.9 Cartogramă haşurată

103

Page 104: statistica aplicata

Capitolul 4

ANALIZA RELAŢIILOR DINTRE PROCESELE ŞI FENOMENELE SOCIALE

4.1. Introducere

Statistica folosindu-se de metodele proprii de

cercetare, contribuie alături de celelalte ştiinţe la

descoperirea legilor, legităţilor şi regularităţilor care se

manifestă în interiorul şi între fenomenele colective. De

altfel, problema fundamentală a oricărei cunoaşteri

ştiinţifice, a oricărei ştiinţe este descoperirea legilor care

acţionează asupra fenomenelor care fac obiectul lor de

studiu.

Fenomenele şi procesele din natură şi societate iau

naştere şi se dezvoltă sub influenţa acţiunii unui mare

număr de factori principali şi secundari, esenţiali şi

neesenţiali, cuantificabili şi necuantificabili sau cuantifi-

cabili cu aproximaţie.

În această secţiune vom depăşi această primă fază

descriptivă de studiere a legăturilor dintre fenomene,

introducând elemente noi de măsurare mai precisă a lor.

104

Page 105: statistica aplicata

Fenomenele naturale, care iau naştere ca urmare a

mişcării mecanice, fizice, chimice şi biologice a materiei,

sunt legate între ele prin legături funcţionale.

De exemplu, fiind dată o bară metalică supusă unor

temperaturi diferite: t , ea se va dilata şi va lua

lungimile, respectiv: . De fiecare dată când

bara va fi supusă temperaturii t , va lua lungimea l .

Astfel, putem spune că unei temperaturi (dintr-un anumit

interval al temperaturilor) îi corespunde (sau i se poate

asocia) o anumită lungime a barei şi numai una. Legătura

dintre temperatură şi lungimea barei este o legătură

funcţională. Acest tip de legături, specific fenomenelor

naturii, nu este aplicabil fenomenelor sociale şi

economice.

Fenomenul social-economice le este caracteristic

faptul că asupra lor acţionează, alături de cauze

determinate pentru legătura sau dependenţa cercetată,

numeroşi alţi factori nu luaţi în calcul, accidentali, a căror

acţiune poate influenţa dezvoltarea lor. Acest fapt

determină existenţa unor legături de forme şi tipuri variate

între fenomene cu grade diferite de complexitate. Natura

105

Page 106: statistica aplicata

legăturii dintre fenomene se stabileşte pe baza unei analize

calitative multilaterale.

În unele cazuri, între fenomene există o legătură

cauzală, atunci când unul dintre fenomene joacă rolul de

cauză, iar celălalt de efect. De exemplu, creşterea

productivităţii muncii determină în mare măsură reducerea

costului producţiei.

Intre alte fenomene poate exista o legătură sau o

interacţiune reciprocă, când nici unul dintre fenomene nu

poate fi considerat cauză sau efect. Astfel, se constată cu

caracter de legitate, că vârsta la căsătorie a soţului

concordă cu cea a soţiei, deci se căsătoresc, în general,

persoane care au o vârstă apropiată. În acest caz, nici

vârsta soţului, nici cea a soţiei nu poate fi considerată

numai cauză sau numai efect.

În alte cazuri, variaţia paralelă a două fenomene nu

se datorează legăturii dintre ele, ci influenţei unui al

treilea factor, care le determină pe ambele. Aşa, de

exemplu, cererea de mărfuri şi economiile băneşti ale

populaţiei variază în acelaşi sens, cu toate acestea nici

unul dintre ele nu poate fi considerat cauză sau efect al

celuilalt. Ambele fenomene sunt influenţate de un al

106

Page 107: statistica aplicata

treilea factor şi anume, de mărimea veniturilor băneşti ale

populaţiei.

În cadrul fenomenelor sociale şi economice, legătura

nu se manifestă în fiecare caz în parte –aşa cum se

întâmplă în cadrul fenomenelor naturii – ci în general şi în

medie, într-un mare număr de cazuri. Fenomenul efect

este rezultatul conjugării influenţei mai multor fenomene-

cauză şi în acest sistem de legături nu toate raporturile de

dependenţă au aceeaşi importanţă, iar uneori acţiunea

unora dintre ele se compensează reciproc. Studierea

acestor fenomene, cunoaşterea legilor, legităţilor şi

regularităţilor de producere a lor nu se poate face pe cale

experimentală, ci folosind mai ales metoda abstractizării,

prin care se înlătură ceea ce este întâmlător şi neesenţial în

dezvoltarea lor, desprinzând astfel raporturile obviective

de cauzalitate şi descoperind condiţiile de formare şi

dezvoltare a acestora.

Variaţiile cantitative ale caracteristicii (variabilei)

efect Y pot fi mai mari sau mai mici decât variaţiile

cantitative determinate de caracteristicile cauzale

explicite. Unele valori ale caracteristicii efect (sau

rezultative) pot avea chiar sens contrar sensului de variaţie

107

Page 108: statistica aplicata

pe care-l au caracteristicile cauzale. O astfel de legătură

între caracteristicile fenomenelor sau proceselor sociale

colective poartă denumirea de dependenţă sau legătură

stohastică.

Legăturile statistice sau stohastice se caracterizează

prin faptul că o caracteristică X exercită o anumită

influenţă asupra altei caracteristici Y, îi determină într-o

anumită măsură variaţia, însă aupra caracteristicii Y mai

acţionează şi alţi factori în afară de X, care, din punct de

vedere al legăturii dintre X şi Y, se consideră întâmplători.

De exemplu, între gradul înzestrării tehnice a muncii

şi nivelul productivităţii muncii există o legătură bine

determinată în sensul că, pe măsura creşterii nivelului

înzestrării tehnice a muncii, creşte şi nivelul productivităţii

muncii; dar productivitatea muncii este influenţată şi de

alţi factori, în afară de înzestrarea tehnică, cum ar fi:

experienţa în producţie, nivelul de calificare, salarizarea,

forma de organizare, factori psihologici etc.

Legătura statistică dintre două sau mai multe

caracteristici exprimate numeric poartă denumirea de

corelaţie. În general, se poate spune că între două sau mai

108

Page 109: statistica aplicata

multe fenomene există corelaţie, dacă între ele există o

anumită legatură logică, cuantificabilă.

În opoziţie cu legăturile funcţionale, se pot întâlni în

realitate şi fenomene în care să nu existe nici un fel de

legătură, adică fenomenele respectice sunt independente

între ele. Deci, corelaţia este intermediară între

independenţă absolută dintre fenomene şi legăturile

funcţionale.

Studiul corelaţiei este îndreptat spre stabilirea

existenţei unei legături reale între fenomenele cercetate şi

apoi, cu ajutorul unor metode şi tehnici adecvate, se

caracterizează direcţia, forma şi intensitatea legăturii.

Mulţimea legăturilor statistice dintre fenomenele

colective se poate clasifica după mai multe criterii cum ar

fi: numărul variabilelor corelate, modul de exprimare a

caracteristicii, direcţia legăturii, forma legăturii şi

intensitatea ei.

a) După numărul caracteristicilor corelate,

legăturile dintre fenomene se pot împărţi în două grupe:

legături simple şi legături multiple. Legăturile simple se

stabilesc numai între două caracteristici, în timp ce

legăturile dintre trei sau mai multe caracteristici poartă

109

Page 110: statistica aplicata

denumirea de legături multiple. O astfel de legătură există

(de exemplu) între recolta medie la hectar, pe de o parte şi

calitatea solului, măsurile agrotehnice, condiţiile

meteorologice, pe de altă parte; legătura dintre producţia

industrială pe judeţe, capitalul fix şi numărul de personal

din industrie etc.

Dacă legăturile dintre fenomene sunt cauzale, atunci

caracteristicile care joacă rol de cauză poartă denumirea de

variabile sau caracteristici independente, factoriale sau

determinate şi se notează cu , iar

caracteristica efect sa mai numeşte şi caracteristică sau

variabilă determinată sau variabilă dependentă sau

variabilă rezultativă şi se notează cu Y.

b) După direcţia sau sensul lor, legăturile statistice

pot fi directe sau pozitive şi inverse sau negative.

Legăturile directe apar atunci când variabila (sau

variabilele) factorială, cât şi variabila rezultativă variază

mereu în acelaşi sens. Dacă variaţia caracteristicilor

factoriale are sens contrar variaţiei caracteristicii

rezultative, atunci legătura dintre ele este inversă. De

exemplu, între înregistrarea tehnică a muncii şi nivelul

productivităţii muncii există o legătură directă, iar între

110

Page 111: statistica aplicata

productivitatea muncii şi costul producţiei există o

legătură inversă.

c) După forma lor, legăturile dintre variabile pot fi

liniare sau curbilinii (hiperbolă, parabolă, exponenţială etc.).

Orice studiu statistic concret de corelaţie trebuie să

pornească de la identificarea existenţei unei legături reale

între fenomene şi apoi să treacă la măsurarea ei statistică.

De asemenea, trebuie să se ţină seama de faptul că orice

studiu concret se sprijină pe un număr limitat de observaţii

şi că, pe baza rezultatelor obţinute prin prelucrarea şi

analiza multilaterală a acestora, se încearcă apoi

caracterizarea colectivităţii generale. De aceea, rezultatele

calculelor de regresie şi corelaţie trebuie să fie interpretate

probalistic.

Pentru studierea legăturilor statistice dintre fenomene se

pot utiliza în practică metode elementare (metoda seriilor

paralele interdependente, metoda grupărilor, metoda tabelului

de corelaţie, metoda balanţelor, metoda grafică etc.) şi

metode analitice (regresie şi corelaţie simplă şi multiplă,

determinaţia simplă şi multiplă, verificarea ipotezei

existente şi formei legăturii, verificarea semnificaţiei

indicatorilor de regresie, corelaţie şi determinaţie).

111

Page 112: statistica aplicata

4.2. Metode de analiză

Metodele statistice elementare de studiere a

dependenţelor dintre fenomene sunt uşor de aplicat, se

bazează pe analiza calitativă a variabilelor corelate şi oferă

informaţii importante asupra naturii caracteristicilor legăturii

cercetate. Ele servesc ca punct de plecare în vederea

aplicării metodelor analitice mai complexe şi mai precise.

4.2.1. Metoda seriilor statistice interdependente

Această metodă constă în stabilirea existenţei şi

caracterizarea legăturilor dintre fenomene pe baza

comparării indicatorilor proveniţi din două serii paralele:

una care prezintă variaţia variabilei factoriale X şi alta

pentru variabila rezultativă Y. Se pot supune comparaţiei

două serii de timp, două serii de spaţiu sau două serii de

distribuţie. În primul caz, termenii celor două serii

dinamice se înscriu în ordine cronologică, iar în cazul al

doilea şi al treilea, se procedează la ordonarea termenilor

seriilor în ordine crescătoare sau descrescătoare a

variabilei factoriale X şi în paralel se înscriu termenii

corespunzători ai variabilei rezultative Y. Prin aplicarea

acestei metode este posibil să se obţină o primă imagine

112

Page 113: statistica aplicata

asupra existenţei şi direcţiei legăturii dintre variabile, dar

nu se poate aprecia forma şi intensitatea ei.

În cazul seriilor cronologice interdependente este

necesar ca, pe lângă identificarea legăturilor dintre

fenomene, să se precizeze şi perioada pentru care ar loc

legătura respectivă. Astfel, se pot evidenţia legături

sincrone dintre fenomene, când variaţia variabilei facto-

riale determină concomitent variaţia variabilei rezultative

şi legături asincrone în cazul în care variaţia variabilei

factoriale se exercită asupra variabilei rezultative, după o

anumită perioadă de timp, deci cu un anumit decalaj.

Procedeul seriilor paralele interedependente se poate

aplica atât în cazul legăturilor simple, cât şi în cazul

legăturilor multiple când este necesar ca, pe baza analizei

critice calitative, să se procedeze la ierarhizarea influenţei

factorilor cauzali în funcţie de mărimea influenţei lor

asupra variabilei rezultative. Dacă variabilele factoriale nu

sunt independente între ele, în cazul corelaţiei multiple,

apare fenomenul de multicoliniaritate, care trebuie diminuat

cât mai mult posibil înainte de a trece la calculul indica-

torilor de regresie şi corelaţie multiplă. Există în literatura

de specialitate metode de verificare a existenţei multico-

113

Page 114: statistica aplicata

liniarităţii şi de diminuare a efectelor ei în cazul corelaţiei

liniare multiple. Eliminarea ei totală nu este posibilă.

Aplicarea metodei seriilor paralele interdependente

devine mai dificilă în cazul seriilor formate dintr-un număr

foarte mare de termeni şi implică în mare măsură

subiectivismul cercetătorului. Pentru a înlătura acest

neajuns, se poate utiliza metoda grupărilor.

4.2.2. Metoda grupărilor

Metoda grupărilor reprezintă o metodă bazată în

analiza legăturilor dintre fenomene şi constă în împărţirea

unităţilor statistice după variaţia variabilei factoriale X şi

calcularea indicatorilor sintetici (mărimi medii, dispersii,

mărimi relative de structură) ai caracteristicii rezultative Y,

pentru fiecare grupă în care a fost împărţită colectivitatea.

Această metodă oferă posibilitatea aprecierii existenţei

legăturii şi sensul ei, dar, ca şi în cazul metodei anterioare,

aprecierea formei şi intensităţii legăturii este cu totul

subiectivă, depinzând în mare măsură de competenţa şi

experienţa cercetătorului.

114

Page 115: statistica aplicata

În cazul legăturilor simple se utilizează grupările

simple, iar în cazul legăturilor multiple se vor utiliza

grupările combinate.

4.2.3. Metoda grafică

Această metodă permite prezentarea întrşo formă

geometrica, expresivă şi vizuală a legăturilor dintre două

sau mai multe variabile.

În cazul a două variabile, metoda grafică se bazează

pe sistemul de axe rectangulare, în care valorile variabilei

factoriale se înscriu pe abscisă, iar cele ale variabilei

rezultative pe ordonată. Perechile de valori corelate ,

se reprezintă prin câte un punct în spaţiul xoy. Mulţimea

acestor puncte dispersate în grafic oferă imaginea

câmpului de corelaţie asemănătoare cu un „nor de

puncte”- de unde derivă şi denumirea acestui procedeu.

După forma şi poziţia norului de puncte în plan se

poate aprecia existenţa, forma, direcţia şi intensitatea

legăturii dintre variabile. Concentrarea punctelor în jurul

unei anumite drepte sau curbe ne va sugera faptul că între

variabile există o legătură.

115

Page 116: statistica aplicata

Capitolul 5

REZUMATUL ŞI DESCRIEREA INDICATORILOR CARACTERISTICILOR

STATISTICE UTILIZATE ÎN GEOGRAFIA UMANĂ

Una dintre funcţiile de bază ale statisticii aşa cum

amintem în primul capitol al acestei lucrări este funcţia

descriptivă. Aceasta presupune aplicarea principiului

descrierii statistice tehnică ce a dat naştere statisticii

descriptive al cărui scop principal şi specific este acela de

a sintetiza şi structura într-o manieră cât mai directă şi mai

intuitivă datele şi informaţia, inclusiv caracteristicile

acestora.

Valorile ataşate variabilelor statistice în special

cantitative, prin intermediul cărora informaţia conţinută în

îndistribuţia de frecvenţe respective este exprimată

sintetic, sunt desemnate prin termenul „indicator” .

Aceştia mai sunt întâlniţi sub o mare varietate de denumiri

precum: „indici” (Rateau, 2004) „valori reprezentative”

116

Page 117: statistica aplicata

(Novak, 1998), „parametri” (Moineagu, Negură şi Useanu,

1976) etc., în funcţie de de tipul de informaţie oferită,

aceşti indicatori se împart în două mari clase principale:

1. indicatori de poziţie (sau de nivel ori ai tendinţei

centrale);

2. indicatori de dispersie (sau de împrăştiere ori de

variaţie).

3. indicatori ai formei distribuţiei.

Această ultimă categorie constituind o categorie mai putin utilizata datorita calităţilor sale mai puţin expresive. Astfel aceată lucrare se va concentra asupra care apar mai frecvent în aplicaţiile statisticii în ştiinţele sociale în care se încadrează şi turismul.

5.1.Indicatorii de poziţie

Iindicatorii de poziţie reprezintă indicatorii ce redau

printr-o singură valoare numerică nivelul general al

valorilor seriei sau ordinul de mărime al acestor valori. De

exemplu variabila ce reprezintă distribuţia familiilor care

au optat pentru o destinaţie în străinătate dintr-o anumită

ţară după venitul lor lunar, exprimat în euro. Un indicator

de poziţie va fi o valoare, să zicem veuro, care va reda

nivelul de ansamblu al câştigului familiilor respective.

117

Page 118: statistica aplicata

Exprimarea exactă a semnificaţiei generale a indicatorilor

de poziţie este imposibilă pentru că, strict vorbind, o

asemenea semnificaţie generală acoperă un conţinut relativ

redus sau, altfel spus, fiecare indicator posedă o doză

specifică de semnificaţie care-l individualizează clar de

ceilalţi. O astfel de valoarea (cea mai des utilizată în

ştiinţele sociale) este media aritmetică.

5.1.1. Modul

Modul (şi nu modulul !) sau valoarea modală, se

notează cu Mo şi reprezintă valoarea sau caracteristica ce

apare sau este luată cu cea mai mare frecvenţă. Ca

interpretare, putem spune că aceasta este valoarea ce

caracterizează individul tipic al populaţiei.

Acest indicator este specific pentru variabilele

(caracteristicile) calitative nominale fiind singurul care

poate exprima nivelul general al unei populaţii alcătuite

din astfel de variabile. Se înţelege imediat că acest

indicator este specific cazului în care lucrăm cu frecvenţe.

(Vezi exerciţiul 1, anexa 2).

Pentru variabilele continue, despre mod se poate

vorbi doar dacă vom construi intervale de valori. În acest

118

Page 119: statistica aplicata

caz, este recomandabil ca lucrurile să se oprească la

găsirea intervalului modal, adică a intervalului cu cea mai

ridicată frecvenţă A merge aici mai departe, la a determina

o valoare modală, pentru distribuţii empirice, ni se pare, în

multe cazuri, un lucru foarte riscant.

De pildă, pentru distribuţia din tabelul 4.1.intervalul

modal este cel dat de limitele 25-29 ani. Pentru o

eventuală poziţionare a valorii modale pe acest interval, se

poate apela la frecvenţele din intervalele alăturate (din

stânga şi din dreapta celui modal). Astfel, notând cu k

frecvenţa intervalullui modal, cu k şi k frecvenţele

intervalelor premodal şi postmodal, cu x valoarea

inferioară a intervalului modal şi cu d lungimea acestuia,

o formulă de calculare a valorii modale este următoarea:

Mo = x +d

Pentru datele din tabelul 4.1., mărimile din formula

de mai sus sunt:

x =25 de ani; d = 5 ani; k = 4.411; şi ,

ceea ce conduce la valoarea:

119

Page 120: statistica aplicata

Mo = 27,75 ani.

Subliniem încă o dată artificialitatea acestei valori,

nu atât datorită ipotezelor folosite, cât faptului că

semnificţia valorii modale este aceea de valoare tipică,

cea mai frecventă. Or, este limpede că în cazurile reale,

când valorile, oricât de multe ar fi, sunt totuşi discrete, nu

se poate vorbi de o valoare modală, valoare la care se

ajunge doar în domeniul matematicii, în cazul variabilelor

aleatorii continue, printr-un proces de trecere la limită.

Ceea ce se poate eventual spune, invocând valoarea

calculată cu formula de mai sus, este, interpretând datele

exemplului nostru, că cele mai multe situaţii de turişti cu

diagnostic, în 1985, sunt ale persoanelor aflate în jurul

vârstei de 27,75 ani.

În concluzie modul este un indicator de poziţie

expresiv pentru caracteristicile calitative nominale sau

eventual ordinale şi mai puţin pentru cele intervale

indiferent de natura acestora din urmă.

5.1.2. Mediana

Prezentarea valorii mediane, notată Me, ca indicator

al poziţiei necesită o introducere în care se va defini

120

Page 121: statistica aplicata

individul median. Presupunând că cei n indivizi din

populaţie sunt aşezaţi în ordinea crescătoare sau

descrescătoare a valorilor pe care le iau, atunci individul

care se găseşte la mijlocul acestui şir, adică are în stânga

sa tot atâtea unităţi statistice câte şi în dreapta lui, se

numeşte individ median. Valoarea pe care o ia individul

median se numeşte valoare mediană sau, simplu, mediană.

Este evident că un individ median există, propriu-zis

vorbind, doar atunci când n este un număr fără soţ, căci

doar atunci fără el rămâne un efectiv cu soţ (n-1), care

poate fi împărţit în două părţi egale: câte (n-1)/2 în stânga

şi în dreapta. În caz contrar, vom considera un individ

median virtual, plasat între unitatea de rang n/2 şi cea de

rang n/2+1, individ căruia îi acordăm ca valoarea medie

aritmetică a valorilor celor două unităţi care-l încadrează.

(vezi exerciţiul 2, anexa 2)

Acest indicator al poziţiei este specific varibilelor

calitative ordinale fiind foarte expresiv. El se foloseşte

frecvent şi pentru stabilirea poziţiei poulaţiei pentru

variabile intervale.

Lucrurile se complică puţin atunci când ne găsim în

situaţia în care apar frecvenţe. Mai mult, această situaţie,

121

Page 122: statistica aplicata

la rândul său, are două forme diferite: a) când frecvenţele

corespund unor valori univoce şi b) când frecvenţele

corespund unor intervale de valori. În ambele cazuri,

iererhia presupune că indivizii afalaţi sub o aceeaşi valoare

sau sub acelaşi interval de valori ocupă un acelaşi rang.

Să ne oprim la primul caz. Dacă n este fără soţ, va

exista un individ median care se va găsi sub acea valoare

pentru care frecvenţa cumulată ascendentă depăşeşte 50%

din efectivul populaţiei. Iar acea valoare va fi valoarea

mediană. Dacă n este cu soţ, atunci indivizii de rang n/2 şi

n/2+1 pot fie să ia o aceeaşi valoare şi atunci aceasta este

chiar mediana, fie să ia două valori diferite şi consecutive,

x şi x , luate cu frecvenţele k , respectiv k şi atunci

mediana va fi:

Me =

adică media celor două valori, luate cu frecvenţele respective.

Cazul al doilea, cel cu intervale de valori, induce în

plus faţă de cel precedent căutarea medianei atunci când

se cunoaşte intervalul median, adică intervalul pe care se

găseşte individul median ( real sau virtual). Cu alte cuvinte,

122

Page 123: statistica aplicata

trebuie aleasă o metodă de a determina o valoare din

intervalul respectiv care să fie atribuită individului median.

Tabelul 5.1. Distribuţia turiştilor sosiţi în sejur balnear la Băile Herculane în 1985, având diagnostic anterior stabilit, în funcţie de vârsta la care s-a stabilit diagnosticul

Vârsta Frecvenţe Vârsta Frecvenţe cumulate

15-19 ani 253 Sub 15 ani 0

20-24 ani 2.269 Sub 20ani 253

25-29 ani 4.411 Sub 25 ani 2.522

30-34 ani 2.655 Sub 30 ani 6.933

35-39 ani 2.516 Sub 35 ani 9.588

40-44 ani 1.857 Sub 40 ani 12.104

45-49 ani 1.133 Sub 45 ani 13.961

50-54 ani 541 Sub 50 ani 15.094

55-59 ani 361 Sub 55 ani 15.635

60 şi peste 344 Sub 60 ani 15.996

Total 16.340 Total 16.340

Sursa: Direcţia Judeţeană pentru Statistică Caraş Severin

Se vede că efectivul total fiind un număr cu soţ,

16.340, vom avea un individ median virtual, cuprins între

cel cu rangul 8.170 şi 8.171, să zicem al 8.170,5-lea. Acest

123

Page 124: statistica aplicata

individ se va găsi în intervalul 30-34 de ani, dat fiind că

până la 30 de ani se stabilesc dignostice la 6.933 turişti şi

până la 35 de ani, 9.588. Vom presupune că cele 2.516

persoane se distribuie uniform pe acest interval. Pentru a

afla rangul individului nostru virtual în rândul celor 2.516

din intervalul median, vom face diferenţa:

8170,5 – 6933 = 1237,5

În continuare, aplicăm regula de trei simplă:

„dacă la 2216 persoane corespund 5 ani de vârstă,

atunci la 1237,5, corespund x ani”.

Deci: x =

valoare care, adăugată celei de la capătul din stânga

al intervalului, ne dă mediana. Adică, în 1995, vârsta

mediană a turiştilor sosiţi la Băile Herculane având un

diagnostic stabilit este de 32,46 ani.

O procedură echivalentă de a calcula mediana este

cea care face apel la reprezentarea grafică. Presupunând că

pe o hârtie gradată (milimetrică) se desenează o linie

poligonală a frecvenţelor cumulate ascendente, ducând o

dreaptă paralelă cu axa X, la înălţimea n/2, aceasta va

124

Page 125: statistica aplicata

intersecta graficul într-un punct a cărui abscisă este tocmai

mediana.

125

Page 126: statistica aplicata

5.1.3. Media (aritmetică)

După cum se ştie, există mai multe mărimi ce poartă

denumirea de „medie” , dintre care cea mai cunoscută este

aşa-numita „medie aritmetică”. Dat fiind faptul că în

lucrarea de faţă nu vom aborda şi celelalte genuri (media

geometrică şi cea armonică) în capitolul de faţă se va

utiliza simplu denumirea de medie sau valoare medie,

înţelegându-se prin aceasta media aritmetică.

Există mai multe modalităţi de a defini valoarea

medie. Pentru că se raportează direct la formula cea mai

cunoscută de calcul a mediei, vom alege ca definiţie

propoziţia conform căreia media este acea valoare care se

obţine împărţind suma valorilor tuturor indivizilor din

populaţie la numărul acestora, ceea ce semnifică, în fapt,

că ea este acea valoare comună pe care ar trebui să o ia

fiecare individ din populaţie astfel încât să se păstreze

neschimbată suma valorilor.

Notaţia clasică a mediei porneşte de la simbolul

variabilei statistice, căruia i se aplică o bară superioară.

Astfel, pentru o variabilă X , valoarea medie se notează

frecvent cu şi este dată de formula:

126

Page 127: statistica aplicata

=

Proprietăţi mai importante ale mediei sunt următoarele:

Media este o valoare cuprinsă în intervalul ale

cărui capete le constituie valoarea minimă şi cea

maximă a seriei de valori.

Media este o mărime exprimată în aceeaşi unitate

de măsură în care sunt exprimate şi valorile

variabilei respective.

Media aritmetică rămâne neschimbată dacă

frecvenţele se înmulţesc sau se împart cu un acelaşi

număr.

Valoarea medie poate fi calculată chiar dacă nu

cunoaştem distribuţia caracteristicii, ci numai

suma valorilor. De pildă, dacă o întreprindere are n

salariaţi şi într-o lună sunt cheltuiţi S lei pentru

fondul de salarii (suma valorilor), atunci, fără a

mai urmări ce salariu (valoare) are fiecare individ,

putem spune că salariul mediu este S/n.

Media este o mărime folosită foarte des pentru

ilustrarea nivelului general al valorilor unei

127

Page 128: statistica aplicata

caracteristici. Se întâmpă însă că semnificaţia ei nu

este clar înţeleasă. Mai exact, pornindu-se de la

proprietatea (1), conform căreia media este o

valoare din interiorul seriei, se absolutizează

considerăndu-se că este valoarea mijlocie sau

tipică a serei.

Important pentru cei ce folosesc indicatorii statistici

– media în cazul de faţă – este să înţeleagă exact

semnificaţia valorii calculate şi să o utilizeze exclusiv în

limitele ce corespund acestei semnificţii. Mediile nu au un

caracter fix, nu sunt lipsite de conţinut, nu sunt

neprezentative în situaţii ca aceea invocată anterior, aşa

cum sunt adeseacaracterizate. Ele pur şi simplu nu dau

ceea ce unii aşteaptă de la ele sau pretind că dau.

Media, ca orice indicator, nu poate reflecta decât o

parte din informaţia surprinsă în caracteristică şi este

evident că, cu cât populaţia este mai omogenă, cu atât

media va reproduce mai mult din această informaţie. La

limită, dacă toţi indivizii iau aceeaşi valoare, aceasta va fi

chiar media şi informaţia este completă. Faptul că

situaţiile reale sunt departe de acest caz – limită – şi doar

aşa devin interesante, căci nu redau situaţii omogene – nu

128

Page 129: statistica aplicata

trebuie să ducă la interzicerea calculului mediei, ci la

necesitatea de a determina şi alţi indicatori, cum sunt cei

de împrăştiere.

5.2. Indicatorii de dispersie

Statistica descriptivă operează cu indicatorii din

această categorie, indicatori ce vin să completeze

indicatorii de poziţie, pentru a îmbogăţi caracteristicile

variante ale variabilelor studiate. Cu alte cuvinte aceştia

măsoară gradul de împraştiere a indivizilor în cadrul seriei

de valori pe care le iau. Astfel indicatorii de dispersie

caracterizează o populaţie statistica din punctul de vedere

al omogenităţii/eterogenităţii, în raport cu o variabilă dată.

În anumite situaţii, în special când variabila reflectă

anumite ierarhii recunoscute sau valorizate între indivizii

statistici (adică în sensul că valori mai mari sunt

considerate ca fiind mai bune sau preferabile celor mai

mici, cum e cazul salariilor, de pildă), indicatorii de

dispersie reflectă gradul de inegalitate între indivizi, în

raport cu factorul social tradus în caracteristică.

Indicatorii de dispersie devin importanţi prin faptul

că li se atribuie semnificaţia de a reproduce gradul de

129

Page 130: statistica aplicata

nedeterminare, de variabilitate al unui fenomen. Or,

explicaţia, cel puţin din punct de vedere statistic, înseamnă

reducerea acestei nedeterminări sau variabilităţi, adică

sporirea posibilităţii de a prezice starea unui fenomen.

Într-adevăr, aşa cum am sugerat deja, un fenomen este

tradus într-o caracteristică de tip statistic, care, la rândul ei

este exprimată printr-un indicator de poziţie (să spunem

media). A afirma că, de pildă, media gradului de

satisfacţie al unui grup de turişti întorşi dintr-un sejur este

8,50 înseamnă a afla ceva despre nivelul gradului de

satisfacţie al grupului respectiv. Dispersia scorurilor din

care rezultă această valoare medie va indica măsura în care

valoarea individuală este reprodusă prin cea de grup sau

calitatea predicţiei situaţiilor indivizilor prin mărimea la

nivelul colectiv. Dacă în analiză se introduce o variabilă

nouă, cu rol explicativ pentru ca cea iniţială, atunci,

presupunând cunoscută poziţia indivizilor după această

caracteristică zisă independentă, se va reduce

nedeterminarea situaţiei lor după variabila de bază, în

măsura în care între cei doi factori există o legătură. Astfel

spus, indicatorul de dispersie va pune în evidenţă cât din

130

Page 131: statistica aplicata

nedeterminarea variabilei cercetate se poate reduce prin

introducerea în modelul explicativ a unei noi variabile.

Cei mai cunoscuţi ndicatori de dispersie sunt

prezenţaţi în această lucrare insistând mai ales asupra

logicii construcţiei lor, dar mai ales asupra semnificaţiei

pe care o posedă şi a limitelor în utilizarea lor.

5.2.1 Amplitudinea

In mod superficial se porneşte de la ideea că

problema dispersiei poate fi uşor rezolvată urmărind doar

întinderea scalei de valori a caracteristicii. Spre exemplu,

dacă media scorurilor de satisfacţie menţionată mai sus

rezultă dintr-un calcul în care valorile individuale sunt

cuprinse între nota 7 şi nota 9, atunci vom spune că

dispersia este mai redusă (grupul este mai omogen) decât

atunci când ea rezultă din scoruri cuprinse între 3 şi 10

(grupul este mai eterogen). Indicatorul de dispersie astfel

folosit poartă denumirea de amplitudine, notat cu A, şi se

calculează simplu, ca diferenţă între cea mai mare şi cea

mai mică valoare:

A = x - x

131

Page 132: statistica aplicata

Neajunsul fundamental al acestui indicator constă în

faptul că valoarea sa este determinată doar de două dintre

valorile variabilei, celei extreme. Acasta înseamnă că pot

apărea situaţii de genul:

a) valorile maximă şi respectiv minimă, pentru două

caracteristici, pot fi aceleaşi, dar distribuţia

indivizilor pe scala respectivă de valori este

diferită;

b) există o valoare maximă şi/sau una minimă care se

abat ( se abate) foarte mult de la seria celorlalte

valori.

Prima situaţie are evident nevoie de o atenţie sporită,

în ceea ce priveşte indicatorul de dispersie, şi această

împrăştiere a indivizilor pe setul celorlalte valori, aflate

între cea minimă şi cea maximă. În al doilea caz se

sugerează existenţa unor valori foarte îndepărtate de marea

masă, numite în statistică „valori aberante”, ultimul cuvânt

nesugerând neapărat imposibilitatea existenţei unui astfel

de caz şi apariţia lui printr-o eroare de măsurare (deşi nu

este exclusă şi această posibilitate), ci faptul că e vorba de

cazuri cu totul atipice, adică puţine la număr, şi care nu ar

trebui luate ca reflectând situaţia populaţiei.

132

Page 133: statistica aplicata

Pentru rafinarea procedurilorde construcţie a

indicatorilor de dispersie, se poate avansa pe calea

reducerii sau chiar a eliminării neajunsurilor sugerate fie

de situaţia (a), fie de cea de la punctul (b). Cei mai

cunoscuţi indicatori astfel construiţi sunt abaterile.

5.2.2. Abaterea standard

Abaterea standard cunoscută şi sub denumirea de

deviaţia standard reprezentând o variantă specială a

abaterii medii pătratice de la o valoare a care se

calculează, aşa cum arată şi denumirea, prin ridicarea la

pătrat a diferenţelor dintre valorile individuale şi o mărime

constantă, arbitrar aleasă, a, urmată de însumarea

pătratelor respective şi de raportarea la numărul cazurilor

observate, adică la n. Întrucât rezultatul acestei operaţie

de medie este o mărime pătratică, în sensul că se măsoară

în unităţi ale lui X ridicate la pătrat, pentru a reveni la

dimensiunea normală, deci la unităţile lui X, în final se

extrage radicalul din valoarea obţinută. Aşadar, abaterea

medie pătratică de la a, notată cu S(a), va fi dată de

formula:

133

Page 134: statistica aplicata

S(a) =

Pentru o caracteristică dată, mărimea S(a) este în

funcţie de valorile lui a. Aşa cum abaterea medie atinge

minimul pentru cazul când valoarea de reper este mediana,

tot aşa, se poate arăta ( vezi, de exemplu, Yule şi Kendall,

1969, p.147) că cea mai mică abatere medie pătratică este

cea faţă de medie. Această formă particulară a abaterii

medii pătratice poartă denumirea de abatere standard. Ea

se notează cu litera mică grecească sigma , şi se obţine

cu formula:

În lucrările de statistică sau în alte texte din

domeniul ştiinţelor sociale, unde se întâlneşte acest

indicator, el mai apare destul de frecvent şi sub alte

denumiri: deviaţie standard, ecart tip sau, pur şi simplu,

dispersie.

Aplicaţie: vezi anexa 2

134

Page 135: statistica aplicata

5.2.3. Coeficientul de variaţie

Indicatorii dispersiei se aplică şi se aleg pentru

expresivitate în funcţie de variabila aleasă şi, în general,

în funcţie de variabilele care se compară, iar criteriu

fundamental de aplicare ţine cont de faptul aceşti

indicatori se măsoară în unităţile de măsură ale variabilei

respecive şi că schimbarea unităţii de măsură a unei

variabile are drept consecinţă obţinerea unei valori, care,

în comparaţie cu prima, conduce la alt raport sau la altă

diferenţă. Spre exemplu, nu poate compara dispersia

veniturilor populaţei engleză (lire sterline) şi cea a celor

din România (lei), calculând, simplu, abaterile standard

pentru două distribuţii (ale veniturilor din ţările

respective).

Valoarea indicatorilor de dispersie este dependentă

şi de nivelul general al valorilor variabilei, exprimat, să

zicem, de valoarea medie. Pentru două variabile de aceeaşi

natură, evaluate în aceleeaşi unităţi de măsură, abaterea

standard va fi, mai mare pentru cea cu media mai mare.

Pentru relevanţă se poate apela la un exemplu

contrastant, să presupunem că ne interesează greutatea

135

Page 136: statistica aplicata

corporală la pentru două specii, una de insecte - libelula,

să zicem – şi alta de mamifere – de pildă rinocerii. În

primul caz, diferenţele dintre indivizi şi dintre valorile

acestora şi cea medie sunt de ordinul gramelor, pe când în

al doilea de ordinul kilogramelor sau chiar al zecilor de

kilograme. E limepede că oricât de omogenă ar fi

populaţia de elefanţi, abaterea standard obţinută aici va fi

de un cu totul alt ordin de mărime decât cea calculată la

nivelul albinelor, dacă se utilizează aceeaşi unitate de

măsură. Ridicarea nivelului mediu al valorilor „dilată”

practic scara de valori şi atrage, aşa cum spuneam, o

mărire şi a indicatorilor de dispersie.

Pentru a se înlătura aceste dificultăţi de comparaţie,

s-a propus (Pearson) un indicator numit coeficient de

variaţie notat cu v, şi dat de formula:

v =

Prin împărţirea abaterii standard la medie se înlătură

atât unitatea de măsură, cât şi diferenţa în nivelul valorilor.

Coeficientul de variaţie deşi aparent utilîn domeniul

ştiinţelor sociale, se aplică rareori, datorită capcanelor în

care se poate cădea deorece adesea se uită faptul că acest

136

Page 137: statistica aplicata

indicator este aplicabil doar în cazul variabilelor

măsurate pe scala de rapoarte, cu origine zero naturală.

Schimbarea originii scalei lasă diferenţele dintre valori

nemodificate, ceea ce însemnă că şi abaterea standard va

rămâne invariabilă (proprietatea a doua a abaterii standard

menţionată mai sus); în schimb media se modifică la

translaţia valorilor şi, drept urmare, şi raportul din formula

coeficientului de variaţie se schimbă. Mai mult, originea

poate fi astfel plasată încât media să fie zero şi atunci

raportul devine fără sens.

5.3. Indicatori ai formei distribuţiei

Aspecte privind formele intră în discuţie atunci când

avem de a face cu variabile continue, ce pot fi aranjate ca

distribuţii de frecvenţe, prin apelul la intervale de grupare,

deoarece, aşa cum am sugerat în capitolul anterior,

distribuţiile empirice se por raporta la nişte entităţi

perfecte (curbele matematice, constituite în condiţii ideale)

şi deci se va prelua de la aceste curbe ideea de formă a

acestora, care, presupune două aspecte:

1. În ce măsură distribuţia se abate de la cazul-limită

al simetriei în jurul valorilor centrale, caz de

137

Page 138: statistica aplicata

simetrie ilustrat, în statistica matematică, în modul

cel mai clar de distribuţia normală. Se introduc

astfel indicatori ai oblicităţii.

2. În ce măsură distribuţia este mai plată sau mai

boltită, comparativ cu o distribuţie normală de

abatere standard respectivă. Se exprimă prin

indicatori ai boltirii sau de exces.

138

Page 139: statistica aplicata

Anexa 2

Exerciţiul 1: Determinaţi destinaţia de vacanţă a unui

eşantion de 17 studenţi ai facultăţii dumneavoastră

utilizănd următoare întrebare cu variante de răspuns:

Unde v-aţi petrecut o parte din vacanţa de iarnă?

1 = la munte

2 = la mare

3 = acasă cu familia

4 = la bunici

5 = în străinătate

6 = în vizită la rude sau prieteni

7 = alte situaţii

Exemplu răspunsuri obţinute la nivelul fiecărui student:

Răspunsuri: S1 =3, S2 =1, S3 = 3,S4 = 2, S5 = 1, S6 = 3, S7 =

3, S8 = 4, S9 = 3, S10 = 5, S11 = 3, S12 = 3, S13 = 6, S14 = 3,

S15 = 6, S16 = 3, S17 = 3

139

Page 140: statistica aplicata

Mo = 3, acesta reprezentând răspunsul cel mai frecvent sau

cel care caracterizează populaţia respectivă, la nivel

general

Exerciţiul 2: Repetaţi sau utilizaţi răspunsurile de la

exerciţiul 1. Acestea sunt:

Rs = 3,1,3,2,1,3,3,4,3,5,3,3,6,3,6,3,3

Aranjaţi-le în ordine crescătoare sau descrescătoare

Rs = 1,1,2,3,3,3,3,3,3,3,3,3,3,4,5,6,6

Me = 3

Aplicaţie : abaterea standard

Pentru a realiza necesitatea şi rolul abaterii standard priviţi

cele două şiruri de date numerice (reprezentând numărul

de vizitatori la 2 muzee diferite într-o perioadă de 10 zile)

de mai jos:

140

Page 141: statistica aplicata

A) 34, 40, 37, 30, 35, 33, 38, 39, 32, 34

B)1, 6, 153, 10, 0, 100, 14, 5, 1, 60

Pasul 2: Calculaţi media aritmetică a fiecărui şir

A = 35

B = 35

Concluzie: media aritmetică nu exprimă variaţiile în

dispersie, lăsând la o parte aspecte importante.

Calculul abaterii standard prin aplicarea formulei

presupune 6 stadii după cum urmează:

Să presupunem că avem de calculat abaterea standard

pentru numărul de vizitatori ai Muzeului Naţional de

Istorie în perioada 1986 - 2000. Datele valorice fiind

următoarele:

Anul Număr vizitatori (mii)

Nv

1986 2

1987 2.8

1988 3.5

141

Page 142: statistica aplicata

1989 5.1

1990 6

1991 5.5

1992 5

1993 5

1994 5.3

1995 5.7

1996 4.9

1997 4.5

1998 4.5

1999 4.5

2000 4.5

Stadiul 1

Se calculează media aritmetică a şirului de date

= 4,59

142

Page 143: statistica aplicata

Stadiul 2

Se calculează diferenţa Nv - , pentru fiecare valoare a lui

Nv, adică diferenţa dintre fiecare valoare a numărului de

vizitatori şi media aritmetică obţinută la stadiul anterior

Nv Diferenţa Nv - , ( = 4.59)

2 -2.59

2.8 -1.79

3.5 -1.09

5.1 0.51

6 1.41

5.5 0.91

5 0.41

5 0.41

5.3 0.71

5.7 1.11

4.9 0.31

4.5 -0.09

4.5 -0.09

4.5 -0.09

4.5 -0.09

Stadiul 3

143

Page 144: statistica aplicata

Se ridică diferenţa la pătrat (Nv - )2 după cum urmează:

Nv Nv - (Nv - )2

2 -2.59 6.708

2.8 -1.79 3.20

3.5 -1.09 1.188

5.1 0.51 0.26

6 1.41 1.988

5.5 0.91 0.828

5 0.41 0.168

5 0.41 0.168

5.3 0.71 0.504

5.7 1.11 1.232

4.9 0.31 0.096

4.5 -0.09 0.008

4.5 -0.09 0.008

4.5 -0.09 0.008

4.5 -0.09 0.008

Stadiul 4

144

Page 145: statistica aplicata

Se calculează suma tuturor diferenţelor pătrate

(Nv - )2 = 16,372

Stadiul 5

Suma obţinută se divide la numărul total de valori

existente în şirul de date (15)

16,372 : 15 = 1, 0914

Stadiul 6

Se calculează radical din rezultatul obţinut. Acesta

reprezintă valoarea deviaţiei standard.

= 1,044

Semnificaţia acestei valori: în general cu cât

deviaţia standard are o valoare mai mare (în comparaţie cu

media aritmetică) cu atât dispersia, distribuţia datelor este

mai mare faţă de această medie cu cât deviaţia standard

are o valoare mai mică cu atât mai concentrate, mai

apropiate de medie sunt datele.

145

Page 146: statistica aplicata

146

Page 147: statistica aplicata

Capitolul 6

STATISTICA INFERENŢIALĂ – INTRODUCERE

6.1. Introducerea termenilor de populaţieşi eşantion

În introducerea acestui capitol este poate util să fie

trecute în revistă de data această în mod simplificat

elementele esenţiale studiate teoretic în primul capitol

dar cu care începând din acest punct se trece la aplicaţii.

Folosită în sensul obişnuit, noţiunea de populaţie

este foate adesea asociată cu aspectele demografice:

populaţia unei ţări, populaţia unui oraş etc. În statistică,

sensul dat noţiunii de populaţie este mai puţin restrictiv:

se numeşte populaţie mulţimea indivizilor care au în

comun cel puţin o caracteristică.

Urmează apoi noţiunea de individ trebuie şi ea

înţeleasă intr-un sens larg. Nu este vorba neapărat despre

indivizi umani, ci şi despre grupuri de persoane (familie,

grupuri

147

Page 148: statistica aplicata

Termenul de caracteristică este la rândul său foarte

vast după cum s-a putut constata, mai ales din punct de

vedere teoretic. Am amintit mai sus că o populaţie este

compusă din indivizi care pot fi orice element definit. O

populaţie poate fi caracteizată în orice fel, ceea ce

îndepărtează această noţiune de sensul ei obişnuit, care o

asociază unui număr mare. În statistică, populaţia nu

înseamnă mii de indivizi. Caracterul ei esenţial constă în

faptul că putem găsi toţi indivizii care răspund criteriului

ce defineşte populaţia. Astfel, toate femeile divorţate de

două ori, toţi bărbaţii născuţi în Patagonia în luna aprilie,

toate întreprinderile de microinformatică sunt tot atâtea

exemple de populaţii diferite, în sensul statistic al

termenului. Cu alte cuvinte, definirea caracteristicilor unei

populaţii nu este lilitată. Singura condiţie este ca aceste

caracteristici să fie perfect stăpânite, pentru a evita

includerea în populaţia care ne interesează a indivizilor

nepotriviţi. Nici mărimea populaţiei nu este limitată.

Eşantionul reprezintă un subansamblu al unei

populaţii. Pentru a trage concluzii asupra ansamblului

populaţiei, măsurătorile se vor efectua pe acest eşantion.

Sigur că felul în care se construieşte eşantionul (adică

148

Page 149: statistica aplicata

eşantionarea, sondajul) este crucial. Calitatea eşantionării

garantează că informaţia culeasă din eşantion poate fi

considerată ca fiind cea pe care am fi cules-o dacă am fi

interogat întreaga populaţie. Acest eşantion trebuie deci să

fie cât mai reprezentativ pentru populaţia de care aparţine.

Am văzut, de asemenea, că aplicarea metodei

experimentale implică adesea echivalenţa eşantioanelor

luate în considerare. Această echivalenţă este asigurată

dacă eşantioanele sunt la fel de reprezentative pentru

populaţia din care sunt extrase. Iată pe scurt câteva dintre

principalele metode de eşantionare, prezentate cu titlu

ilustrat.

Prelevarea eşsntioanelor

1) Metodele empirice

Acest termen reuneşte metodele legate de

cunoaşterea prealabilă a caracteristicilor populaţiei.

Metoda prin cote

Este frecvent citată în mass-media, întrucât este

folosită în cunoscutele sondaje politice. Îndivizii care

formează eşantionul sunt aleşi astfel încât caracteristicile

esenţiale ale populţiei (vârstă, sex, categorie socio-

149

Page 150: statistica aplicata

profesională, stare civilă etc.) se regăsesc în eşantion în

aceleaşi proporţii, conform anumitor cote. Proporţia

repartiţiei criteriilor în cadrul populaţiei este aşadar

respectată în cadrul eşantionului.

Metoda prin unităţi –tip

Această metodă constă în împărţirea populaţiei în

categorii, pornind de la variabilele considerate esenţiale

pentru problematica studiului respectiv.

2) Metodele probabiliste

Acest termen reuneşte metodele care fac apel la

extracţia aleatorie a indivizilor ce formează eşantionul.

Tragerea la sorţi elementară

Constă în numerotarea tuturor indivizilor care

formează populaţia studiată şi apoi extragerea, la

întâmplare, a unui număr definit de numere. Teoretic,

diferitele caractere ale populaţiei sunt identic reprezentate

în eşantion. Un exemplu clasic constă în a imagina o urnă

cu 100 de bile, dintre care 60 sunt roşii, 30 albastre şi 10

verzi. Dacă bilele sunt bine amestecate, extragerea

aleatorie a 10 bile trebuie să prezinte culorile în aceleaşi

proporţii, adică 6 bile roşii, 3 albastre şi una verde. La fel

150

Page 151: statistica aplicata

se întâmplă şi pentru caracterele umane. La sfârşitul unei

trageri la sorţi, dispunem astfel de indivizi care, teoretic,

prezintă totalitatea caracterelor populaţiei şi, drept urmare,

constituie un grup reprezentativ pentru această populaţie.

Metoda are însă un dezavantaj: necesită foarte mult

timp pentru recenzarea tuturor indivizilor care formează

populaţia şi găsirea indivizilor al căror număr a fost tras la

sorţi. Drept urmare, în majoritatea cazurilor, această

metodă se foloseşte pentru populaţii reduse, în care

indivizii care o compun pot fi evaluaţi şi recunoscuţi.

Tragerea la sorţi secvenţială

Este tragerea la sorţi dupa crirerii succesive. O

populaţie se defineşte print-un anumit criteriu, după care

se extrage aleatoriu un eşantion ce răspunde acestui

criteriu. Se defineşte apoi un alt criteriu şi, din interiorul

primilui eşantion, se treage din nou la sorţi pe baza acestui

nou criteriu etc. De exemplu, vrem să facem un studiu

asupra studenţilor din primul an de psihologie. Se

prelevează la întâmplare un anumit număr de studenţi, iar

dintre ei se reperează cei care sunt înscrişi la psihologie.

Se face o nouă tragere la sorţi dintre aceşti indivizi, după

care îi reperăm pe cei înscrişi în anul I şi facem şi facem a

151

Page 152: statistica aplicata

treia tragere la sorţi. Putem spori numărul de criterii, dar

fiecare criteriu suplimentar limitează numărul de indivizi

disponibili: probabilitatea de a întâlni indivizii care

răspund tuturor criteriilor scade pe măsură ce creşte

numărul de criterii.

Metoda stratificării

Populaţia se împarte în subpopulaţii numite straturi,

care au, fiecare, caracteristici proprii. Se trage apoi la sorţi

un eşantion din interiorul fiecărui strat. Mulţimea acestor

eşantioane constituie eşantionul de studiu.

Desigur, prezentarea metodelor de eşantionare ar

necesita o lucrare întreagă. Ce trebuie înţels aici este că

extrapolarea la ansamblul populaţiei a rezultatelor obţinute

pe un eşantion nu este fiabilă decât dacă acest eşantion

este cât mai reprezentativ pentru populaţia respectivă. Tot

aşa, compararea a două măsurători realizate pe două

eşantioane distincte nu este validă decât dacă acestea sunt

echivalente 1n planul reprezentativităţii. Vom vedea însă

că în statistică se ia o marjă de eroare la eşantionare, ceea

ce nu însemnă însă abandonarea măsurilor de precauţie

elementare în construirea eşantionului.

152

Page 153: statistica aplicata

O dată eşantionul construit, se procedează la diferite

măsurători cu scopul de a trage anumite concluzii despre

populaţia din care a fost extras. Este însă posibil şi să

efectuăm măsurătorile asupra mai multor eşantioane,

pentru ale compara mai ulterior. Aşa se întâmplă practic

întotdeauna în cadrul unei experienţe. În acest caz, este

foarte important să evaluăm dacă măsurătorile au fost

realizate asupra unor eşantioane distincte (eşantioane

independente) sau asupra aceloraşi indivizi ( eşantioane

perechi;).

6.2. Legea normală

Prezentarea aşa-numitei legi „normale” permite

înţelegerea mai clară a caracteristicilor noţiunii de

inferenţă statistică. Să luăm un exemplu fictiv: se

administrează un test cu scoruri al gradului de satisfacţie

unui eşantion de 30 de turişti care au avut aceeaşi

destinaţie de vacanţă. Pentru fiecare scor, se notează

efectivul obţinut:

153

Page 154: statistica aplicata

Scor la test Efectiv

3031323334353637383940

01235853210

Se efectuează apoi reprezentarea grafică a acestei

distribuţii printr-o diagrama cu beţe (Figura 6.1.):

Fig.6.1.

154

Page 155: statistica aplicata

Dacă rezumăm distribuţia cu ajutorul mediei şi

abaterii standard, se obţin o medie de 35 şi o abatere

standard de 1,87. Se constată o simetrie perfectă a curbei

distribuţiei, de o parte şi de cealaltă a mediei. Aceasta este

curba unei distribuţii numite normală (curba lui Gauss).

De ce „normală”? Pur şi simplu pentru că majoritatea

caracteristicilor fizice şi umane se repartizează astfel. De

exemplu, înălţimea: există mulţi oameni a căror înălţime

este apropiată de medie şi , cu cât ne apropiem de înălţimi

extreme, cu atât numărul indivizilor scade. La fel pentru

greutate, inteligenţă, numărul de copii, puls etc. Există o

mulţime de distribuţii normale, dar ele se deosebesc prin

valorile variabilei măsurate şi prin valorile mediilor şi

abaterilor standard. Toate aceste distribuţii sunt însă

identice în ceea ce priveşte repartiţia proporţiilor pe un

continuum de variaţii. Aceasta înseamnă că pentru o

anumită valoare a oricărei distribuţii care urmează legea

normală se poate şti proporţia de valori care îi sunt

superioare şi inferioare. În acest scop dispunem de o lege

standard numită legea normală centrată şi redusă, pentru

care valoarea mediei şi a abaterii standard au fost fixate o

dată pentru totdeauna.

155

Page 156: statistica aplicata

6.2.1. Legea normală centrată şi redusă

Definiţie

Orice distribuţie care urmează legea normală poate fi

transformată în distribuţie normală centrată şi redusă. În

acest scop, fiecare dintre valorile x ale distribuţiei se

transformă într-o valoare normală centrată şi redusă

(notată z) cu formula următoare:

z =

În exemplul precedent avem:

z1= z6=

z2= z7=

z3= z8=

z4= z9= =1,60

z5= z10=

156

Page 157: statistica aplicata

z11=

Obţinem deci o nouă distribuţie (distribuţie normală

centrată şi redusă) căreia îi putem calcula media şi

abaterea standard. Se observă că media este egală cu 0 şi

abaterea standard este egală cu 1. Această distribuţie fiind

standardizată, este uşor de alcătuit un tabel cu proporţiile

de valori care se găsesc de o parte şi de alta a unei valori z

date, tabelul legii normale centrate şi reduse. Se citeşte în

felul următor:

Să presupunem că vrem să găsim proporţiile asociate

lui z = 1,96 (care, datorită caracteristicilor legii normale

centrate şi reduse, înseamnă proporţiile de valori aflate la

o distanţă de 1,96 abateri standard de medie).

În prima coloană a tabelului, căutăm întregul şi

prima zecimală a valorii z (adică 1.9); pe prima linie

căutăm complementul, adică a doua zecimală (aici:0.06).

La intersecţia lor se află valoarea 0.05000), care

corespunde frecvenţei (exprimată pe o scală de la 0 la 1)

sumei probabilităţilor valorilor aflate de la o distanţă de

1,96 abateri standard de medie. Aceasta înseamnă pur şi

simplu că, în procente, 5% din valori sunt inferioare lui –

157

Page 158: statistica aplicata

1,96 şi superioare lui + 1,96. Sau, cu alte cuvinte, că 2,5%

din valori sunt inferioare lui –1,96 şi 2,5% - superioare lui

1,96.

Legea normală centrată şi redusă are numeroase

utilizări, pe care nu le vom enumera aici. Cea care ne ve

interesa este aceea care permite estimarea probabilităţii de

apariţie a diferitelor valori ale unei variabile.

De exemplu, un studiu asupra a 1.000 de copii mici

arată că primele cuvinte apar în medie la vârsta de 11,5

luni, cu o abatere standard de 3,2 luni, această distribuţie

fiind normală. Să presupunem că mama unui copil de 14

luni care nu a spus încă primul cuvânt vrea să ştie ce

proporţie de copii se află în aceeaşi situaţie cu al ei. Pentru

a-i răspunde, transformăm valoarea 14 în variabilă

normală centrată şi redusă, cu ajutorul formulei de mai

sus. Se obţine:

z =

Raportându-ne la tabel, observăm că proporţia

asociată lui z =0,78 este de 0,43539. Deci 43,53 % dintre

copii spun primele cuvinte după 14 luni şi înainte de

[11,5-(14-11,5)] = 9 luni. Dată fiind simetria strictă a legii,

158

Page 159: statistica aplicata

putem răspunde mamei că 21,76 % (43,53/2) dintre copii

spun primele cuvinte după vârsta de 14 luni şi că, prin

urmare copilul ei nu este un caz izolat.

De la descriere la inferenţă

Principiul general

Am văzut că legea normală centrată şi redusă

permite evaluarea frecvenţelor de apariţie a anumitor

valori într-un eşantion al unei populaţii date. Această lege

permite deci descrierea distribuţtiei eşantionului în funcţie

de medie şi de abaterea standard.

Foloasele ei merg însă mai departe. Plecând de la

cunoştiinţele asupra eşantionului (media, abaterea standard

şi mărimea lui), putem estima mai mult sau mai puţin

precis, parametri ce caracterizează populaţia din care s-a

extras acest eşantion. Plecând de la anumiţi parametri ai

eşantionului, încercăm extrapolarea lor la o populaţie.

Trecem astfel de la procedură descriptivă la una

inferenţială.

Se pune deci întrebarea următoare: putem deduce

media şi abaterea standard a unei populatii pornind de la

159

Page 160: statistica aplicata

media şi abaterea standard a unui eşantion de mărime n,

extras din această populaţie?

Ca să răspundem acestei întrebări trebuie să zăbovim

puţin asupra legii normale centrate şi reduse.

Fie o populaţie din care s-au prelevat un număr mare

de eşantioane. Facem aceeaşi măsurătoare pe toate aceste

eşantioane şi se calculează mediile şi abaterile standard

corespunzătoare. Putem deci să ne apropiem de distribuţia

respectivelor medii şi să-i calculăm media şi abaterea

standard. Observăm că această medie este egală cu aceea a

populaţiei şi că abaterea standard, numită eroare de

eşantionare (eroare de sondaj) pe medie, este egală cu

abaterea standard a populaţiei împărţită la .

Ori, în realitate, acest lucru este imposibil, întrucât

nu putem extrage un număr mare de eşantioane. Încercăm

atunci să evaluăm, pornind de la un singur eşantion,

valoarea probabilă a mediei populaţiei din care s-a extras.

Se demonstrează că, dacă distribuţia măsurătorilor

realizate pe eşantion urmează legea normală, media este

aproximativ egală cu cea a populaţiei din care a fost

extras, iar eroarea de eşantionare este egală cu abaterea

standard a eşantionului împărţită la .

160

Page 161: statistica aplicata

Noţiunea de prag de încredere

Aceasta mai apare în anumite lucrări de specialitate

şi sub denumirea de grad de confidenţă sau de certitudine.

Media populaţiei este doar aproximativ egală cu cea

a eşantionului deci nu poate fi dedusă strict. Se pot însă

calcula limitele între care se situează. Ele se numesc limite

de încredere ale mediei populaţiei şi vom vedea cum se

determină. Vom încerca, desigur, să definim aceste limite

cu cea mai mare certitudine. Ori, într-un fel, gradul de

certitudine se poate controla adoptând un risc de eroare:

media să nu se găsească între limitele calculate.

Principiul este uşor de înţeles: să ne imaginăm patru

studenţi care au dat un examen de statistică şi sunt

întrebaţi ce notă cred că vor lua. Primul estimează, fără

siguranţă, că va lua 10. Al doilea afirmă, ezitând, că va lua

între 9 şi 11. Al treilea spune că este rezonabil să ia între 7

şi 13. În sfârşit, al patrulea este absolut sigur că va lua

între 0 şi 20. Această poveste ilustrează bine că, pe măsură

ce intervalul de încredere creşte, creşte şi siguranţa

studentului. Invers, cu cât riscul asumat este mai mare, cu

atât intervalul este mai mic. Astfel, când afirmăm că,

ţinând cont de media şi de abaterea standard ale

161

Page 162: statistica aplicata

eşantionului, media populaţiei este strict egală cu o anume

valoare, precizia este mare, dar ne asumăm riscul enorm

de a înşela. Dacă estimăm însă că media populaţiei

fluctuează într-un interval foarte larg, riscul de a ne înşela

este mic, dar precizia este şi ea redusă. Trebuie deci să

găsim cel mai bun compromis între riscul de eroare şi

precizia inferenţei.

O convenţie a comunităţii ştiinţifice ne poate ajuta la

asumarea acestei grele responsabilităţi: toţi autorii sunt de

acord că nivelul maxim de risc trebuie plasat la 5% - ceea

ce înseamnă că media populaţiei are minimum 95 de şanse

din 100 să aparţină intrevalului calculat (şi deci 5% şanse

să nu aparţină acestui interval). Întrucât pragul de 95%

este un minimum acceptabil, el poate fi ridicat (99 şanse,

99,9 şanse...). Tot prin convenţie ştiinţifică valorile

acestora sunt precalculate şi se gasesc de regulă la sfârşitul

publicaţiei în care se utilizează.

162

Page 163: statistica aplicata

Aplicaţie

Să revenim la problema noastră. Am vazut că, dacă

distribuţia valorilor prelevate într-un eşantion urmează o

lege normală, atunci: Media eşantionului = Media

populaţiei şi

Eroarea de eşantionare =

.

Distribuţia fiind normală, media eşantionului poate fi

transformată în variabilă normală centrată şi redusă cu

formula

z = care, aici,

devine:

z =

Adică, după rezolvare:

Media populaţiei = Media eşantionului

Aici intervine gradul de certitudine pe care l-am

amintit. Valoarea z se va fixa conform pragului de

163

Page 164: statistica aplicata

încredere dorit (risc de eroare 5%, de 1%...). Dacă fixăm

ca prag de încredere maximul stabilit de comunitatea

stiinţifică (5%, adică 0,05), este suficient să ne raportăm la

tabelul legii normale centrate şi reduse şi să-l citim invers,

pentru a determina valoarea z corespunzătoare acestui

prag. Găsim z = 1,96. Astfel, cu un risc de eroare de 5%,

se poate afirma că media populaţiei se situează între:

Media eşantionului –(1,96

)

şi

Media eşantionului + (1,96

)

Aplicaţie

Gradul de satisfacţie al unui grup de 280 de copii de

aceeaşi vârstă aflaţi într-o tabără a fost examinat cu

ajutorul unei scale cu scoruri. Media scorurilor observate

a fost de 108, cu o abatere standard de 14,6. Dorim să

estimăm, la pragurile de 0.05 şi 0.01, media populaţiei din

care s-a extras acest eşantion.

In tabelul legii normale centrate şi reduse se observă

că, la pragul 0.05, z = 1,96. Se poate calcula acuma

164

Page 165: statistica aplicata

intervalul căruia îi aparţine media populaţiei din care s-a

extras acest eşantion:

- limita inferioară = 108 –(1,96 ) =106,28;

- limita superioară = 108 +(1,96 ) =109,71

Se estimează deci, cu un risc de eroare de 5%, că

media coeficienţilor ai copiilor de clasa a şasea este

cuprinsă între 106,28 şi 109,71.

La pragul de 0.01, valoarea z este 2,56. Formulele

devin:

- limita inferioară =

- limita superioară =

În consecinţă, cu un risc de eroare de 1%, se

estimează că media coeficienţilor intelectuali ai copiilor de

clasa a şasea este cuprinsă între 105,76 şi 110,23.

Observaţie. Se constată că intervalul se măreşte

cănd riscul de eroare este mai slab. Aceasta este o ilustrare

perfectă a gradului de certitudine amintit mai sus. Cu cât

165

Page 166: statistica aplicata

gradul de certitudine este mai slab, cu atât imprecizia este

mai mare, şi invers.

Eşantioane mici şi mari

Am văzut la începutul acestei secţiuni că repartiţia

mediilor posibile ale eşantioanelor extrase dintr-o

populaţie tinde să aibă alura unei curbe normale. La fel,

când dintr-o populaţie se extrage un număr suficient de

indivizi a căror distribuţie este normală, curba repartiţiei

valorilor eşantionului tinde să urmeze legea normală.

Această condiţie nu este însă îndeplinită decât dacă

efectivul eşantionului este suficient de numeros. În cazul

contrar, curba repartiţiei valorilor eşantionului tinde să

urmeze legea lui Student. Mulţi autori fixează acest efectiv

la 30. Cu alte cuvinte, când efectivul eşantionului este mai

mare de 30, distribuţia valorilor tinde să urmeze legea

normală; când efectivul eşantionului este mai mic sau egal

cu 30, distribuţia valorilor tinde să urmeze legea lui

Student.

Ca şi legea normală centrată şi redusă, legea lui

Student permite determinarea probabilităţii de apariţie a

unor abateri teoretice. Aceste abateri se desemnează prin

litera t (spre deosebire de z pentru legea normală centrată

166

Page 167: statistica aplicata

şi redusă). Ca şi distribuţia normală, distribuţia lui t este

simetrică. Şi ea are media egala cu 0, dar abaterea standard

depinde de gradul ei de libertate egal cu (efectivul

eşantionului-1).

Formula de determinare a intervalelor de fluctuaţie a

mediei populaţiei este, desigur, aceeaşi. Singura schimbare

reprezintă, în cazul eşantioanelor mai mici sau egale cu

30, valoarea z înlocuită printr-o valoare t dată de tabelul t a

lui Student.

Acest tabel se citeşte astfel:

- în prima coloană se află gradele de libertate (gdl);

- pe prima linie, pragurile de probabilitate;

- în interiorul tabelului, valorile lui t.

Aplicaţie

Un grup de 25 de copii de aceeaşi vârstă aflaţi într-o

tabără au fost rugaţi să-şi exprime atracţia pentru un set

de activităţi utilitând o scără cu scoruri . Media scorurilor

a fost de 98, cu o abatere standard de 10. Dorim să

estimăm, la pragul de 0.02, media populaţiei din care s-a

extras acest eşantion.

Avem un eşantion cu efectiv redus. În tabelul t a lui

Student, la pragul de probabilitate de 0.02 şi gradul de

167

Page 168: statistica aplicata

libertate gdl = 25 – 1 = 24, găsim t = 2,4. Se poate calcula

acum intervalul căruia îi aparţine media populaţiei din care

s-a extras acest eşantion:

- limita inferioară = 98 – (2,4 ;

- limita superioară = 98 + (2,4 .

În consecinţă, cu un risc de eroare de 2% se estimează că media coeficienţilor

intelectuali ai copiilor de clasa a şasea este cuprinsă între 93,2 şi 102,8.

6.2.2. Principiul testelor statistice

Reamintim că scopul colectării datelor îl reprezintă,

după analiză şi tratament, confirmarea sau infirmarea unei

ipoteze. În acest scop, dispunem în statistică de multe teste

care ne permit să răsundem unor ipoteze. Există, de

asemenea, teste care compară între ele medii, proporţii,

varianţe, teste care studiază corelaţiile între două variabile

etc. Folosirea oricărui tip de test este supusă unui

tratament prealabil: trebuie formulate două ipoteze, în

general contrare, care vor fi testate alternativ.

168

Page 169: statistica aplicata

Ipoteza nulă. Această ipoteză, notată Ho, presupune

că fenomenul studiat se datorează unor factori întâmpători,

şi nu unor factori sistematici. Cu alte cuvinte, a formula

ipoteza nulă înseamnă a afirma că toate măsurătorile pe

care dorim să le comparăm sunt strict egale sau că

diferenţele dintre ele se datorează numai întâmpării (adică

eşantionării aleatorii, faptului că eşantioanele comparate

nu sunt strict echivalente sau faptului că, prin definiţie, în

ştiinţele umane, fiecare individ dintr-un eşantion este

diferit de un altul etc.)

Ipoteza alternativă sau iniţială. Notată Hi, aceasta

corespunde în general ipotezei că fenomenul observat nu

se datorează fluctuaţiilor de eşantionare, ci unor factori

manipulaţi sau studiaţi. Această ipoteză presupune deci că

întâmplarea nu este suficientă pentru explicarea

diferenţelor obţinute între eşantioane.

Dintre aceste două ipoteze, cea verificată de testele

statistice este întotdeauna ipoteza nulă. Orice test este

construit pe baza absenţei de efect a unei variabile

oarecare. Sunt deci posibile două soluţii:

Ipoteza nulă fie se păstrează, fie se respinge, şi

atunci putem reţine ipoteza alternativă.

169

Page 170: statistica aplicata

Menţinerea sau respingerea Ho nu este dată totuşi de

rezultatul absolut al testului, ci este mai ales legată de

riscul de eroare pe care carcetătorul şi-l asumă atunci când

afirmă că una dintre cele două ipoteze este adevărată.

Acest risc de eroare se numeşte prag de semnificativitate,

prag de probabilitate sau prag de încredere, aşa cum l-am

numit mai sus. Valoarea lui fixează riscul pe care ni-l

asumăm atunci când afirmăm că fenomenul observat se

datorează mai degrabă unui factor sistematic decât unor

erori de eşantionare. Am văzut că, de obicei, pragul

acestui risc se fixează la 5%.

Cu alte cuvinte, testul ne spune că: potrivit datelor

colectate, dacă afirmaţi că se respinge ipoteza nula, vă

asumaţi un risc de 5% sau de 1%... să vă înşelaţi. Sau:

puteţi afirma că se respinge ipoteza nulă, dar aveţi 5% sau

1%... şanse să nu fie adevărat. În jargonul statistic, se

spune că un anumit rezultat este semnificativ la 0.05 sau

0.01.. Dincolo de pragul celor 0.05, despre acest rezultat

se spune că este nesemnificativ sau că riscul de a afirma

că HO este falsă este prea mare.

6.3. Teste parametrice şi teste neparametrice

170

Page 171: statistica aplicata

Se disting două familii de teste statistice: cele numite

teste parametrice, a căror formulare se sprijină pe legile

probabilităţii care cer ca distribuţiile studiate să aibă

anumite caracteristici, şi cele numite teste neparametrice,

care nu cer respectarea acestor caracteristici.

Pentru folosirea unui test parametric, este de dorit ca,

măcar într-o măsură aproximativă:

- distribuţia sau distribuţiile să urmeze o lege

normală;

- datele de care dispunem să provină dintr-o scală

de intervale;

- dacă dorim să comparăm mediile a două sau mai

multe distribuţii, varianţele acestora să fie

omogene (adică nu trebuie să existe

dezechilibre mari ale dispersiilor).

Înaintea folosirii oricărui test parametric, trebuie să

ne convingem că aceste condiţii sunt îndeplinite. În

realitate însă, majoritatea utilizatorilor efectuează foarte

rar o asemenea verificare. Riscul asociat acestei omisiuni

este că ipoteza nulă se respinge în mod greşit şi că se

constată diferenţe sau relaţii acolo unde ele nu există.

171

Page 172: statistica aplicata

Testele neparametrice nu impun condiţii de

normalitate şi omogenitate ale dispersiilor. Se spune că ele

sunt independente de distribuţie. Ar trebui deci ca ele să

fie folosite sistematic ori de câte ori datele culese pe o

scală de intervale nu se distribuie conform legii normale şi

sunt deosebit de indicate pentru măsurători efectuate pe

scale ordinale sau de tip „clasament”. Testele neparemetrice

au însă reputaţia de a fi mai puternice decât cele

parametrice, de unde frecvenţa excesiv de scăzută a

utilizării lor, consecinţele acestei pretinse slăbiciuni fiind

creşterea riscului de respingere greşită a ipotezei nule.

172

Page 173: statistica aplicata

Capitolul 7

TESTELE ÎN ANALIZA STATISTICĂ APLICATĂ

Analiza statistică presupune aplicarea unor metode de

calcul datelor sau şirurilor de date statistice în vederea:

testării anumitor calităţi, caracteristici ale acestora

stabilirii existenţei unei relaţii între acestea

determinarea tipului de relaţii dintre acestea

determinarea semnificaţiei relaţiei dintre date

Aminteam la sfârşitul capitolului precedent faptul că în

statisică există două categorii de teste: parametrice şi

neparametrice. Testele parametrice sunt teste care se

utilizează mai ales în ştiinţele exacte , aplicându-se în

general dalor intervale cu frecvenşe absolute. Datele

cărora li se aplică trebuie să aibă o distribuţie normală.

Sunt cunoscute ca fiind teste foarte riguroase, cu

“greutate” ştiinţifică. Datorită acurateţii privind calitatea

datelor aceste teste se utilizează mai rar în ştiinţele sociale

şi deci şi în turism sau geografia umană.

173

Page 174: statistica aplicata

Testele neparametrice. Acestea se aplică tuturor

categoriilor de caracteristici (nominale, ordinale sau

intervale). Distribuţia normală a datelor nu este o condiţie

pentru a putea fi utilizate în testele non parametrice.

Aceste teste sunt mai puţin pretenţioase în ceea ce

pviveşte calitatea datelor ca cele parametrice dar sunt mult

mai ‚robuste’ şi flexibile.

În turism aproape toate metodele aplicate sunt

neparametrice.

Cu alte cuvinte în acest curs de statistică aplicată se

vor utiliza numai metode şi tehnici neparametrice

7.1. Corelaţia

7.1.1. Introducere

Definiţii.

“Corelaţia... reprezintă un test utilizat pentru

exprimarea gradului de asociere sau a intensităţii unei

relaţii existente între două valori sau mai multe

variabile”(Goodall 1987)

174

Page 175: statistica aplicata

“Corelaţia ... este o metodă... de descriere a gradului

de asociere dintre 2 seturi de valori pereche” (Hammond

and McCullagh 1982)

Corelaţia este o metodă eficientă de a detecta şi

însuma relaţiile dintre două variabile. Aspectul cel mai

important privind corelaţia este acela privind „citirea” lor,

adică interpretarea rezultatului obţinut. Acest rezultat, de

fapt , măsoară legătura dintre variabile; stabileşte gradul

de legătură dintre ele. Această măsurătoare sau grad se

numeşte , coeficient.

Există un număr mare de coefcienţi de corelaţie în

statistică, în funcţie de natura variabilelor , a legăturii, a

modului de colectare a datelor etc. Toţi coeficienţii de

corelaţie în final detectează dacă valorile unor variabile

co-variază (variază împreună). Adică indică dacă

diferenţele apărute la nivelul valorilorilor unei variabile

tind să se asocieze cu diferenţele apărute la nivelul alteia.

Odată stabilită corelaţia, această NU presupune automat,

faptul că o variabilă este determinată sau cauzată de

cealaltă. Corelaţia stabileşte prezenţa de relaţii cauzale,

dar nu este suficintă pentru a demonstra cauzalitatea

175

Page 176: statistica aplicata

unei relaţiI. Cu alte cuvinte corelaţia poate indica prezenţa

unei relaţii de cauzalitate dar nu o demonstrează.

În afară de faptul că prin corelaţie se stabileşte co-

variaţia, coeficienţii de corelaţie pot furniza trei tipuri de

informaţie asupra relaţiei descoperite:

1. intensitatea relaţiei, indicată de valoarea

coeficentului de corelaţie; cu cât acesta este

mai mare cu atât relaţia este mai puternică

2. direcţia relaţiei (mai ales pentru datele

ordinale şi intervale), pozitivă sau negativă

3. linearitatea, tendinţa de distribuţia a datelor

variabile, liară sau non-lineară

Mai concret: în statistică corelaţia are un înţeles,

semnificaţie, specific/ă. Presupune automat faptul că , spre

exemplu ,”în timp ce o variabilă creşte sau descreşte ca

valoare a doua variabilă creşte sau descreşte şi ea”. Pentru

exemplificare priviţi figura de mai jos. ( Fig. 7.1.)

Ea reprezintă un exemplu de distribuţie a două variabile A

şi B. Vizual, se poate detecta vreo relaţie, corelaţie între

ele? Adică putem spune că se întâmplă ceva cu A în timp

ce cu B se întâmplă ceva sau altceva? Există o relaţie de

covariaţie?

176

Page 177: statistica aplicata

Fig. 7.1.

Răspuns corect: nu !

Dar în figura de mai jos?

Fig. 7.2.

177

Page 178: statistica aplicata

Răspuns corect: da! Mai mult observăm că atunci când

una creşte, cealaltă creşte şi ea. În limbaj statistic avem de

a face cu o corelaţie pozitivă între cele 2 variabile.

Repetăm jocul observaţei şi cu figura de mai jos!

(Figura 7.3.) Există vreo relaţie, corelaţie între variabilele

de mai jos?

Fig. 7.3.

Răspuns corect: da! Mai mult observăm că atunci când

una scade, cealaltă scade şi ea. În limbaj statistic avem de

a face cu o corelaţie negativă între cele 2 variabile.

Până în acest stadiu am putut determina doar vizual

existenţa sau inexistenţa unei co-variaţii şi direcţia.

Fireşte pentru a determina aspecte privind intensitatea

178

Page 179: statistica aplicata

relaţiei şi linearitatea ei este nevoie de mult mai mult

decât o observaţie vizuală. Este nevoie de obţinerea prin

calcul a coeficientului de corelaţie.

Corelaţia ca şi metodă de calcul statistic va avea

întotdeauna ca rezultat o valoare numerică cuprinsă între -

1 şi +1

Acesta poartă denumirea de coeficient de corelaţie şi

se notează cu r şi va avea precum aminteam mai sus valori

ce se pot înscrie/reprezenta pe axa de mai jos

-1____________ 0 ___________+1

Ca urmare în funcţie de valorile înregistrate de r, în

teoria modelelor de corelare apar situaţiile ideale şi

anume: corelaţia perfect negativă şi cea perfect pozitivă,

cu distribuţie perfect lineară ; adică valorile ambelor

variabile se distribuie perfect linear ascendent sau

descendent (cu inclusiv situaţia exccepţională când cele

două variabile se suprapun ca valoare). Priviţi figurile

7.4a, 7.4b.

179

Page 180: statistica aplicata

Fig. 7.4a : Corelaţia perfect negativă (r = -1)

Fig .7.4b: Corelaţie perfect pozitivă (r = +1)

Ele reprezintă modelele ideale, perfecte de corelare.

Acestea sunt evident situaţiile de exccepţie, în realitate,

relaţia dintre variabile înregistrând intensităţi, direcţii şi

linearităţi diferite comportându-se ca atare!

180

Page 181: statistica aplicata

Aşa cum aminteam anterior, există un număr foarte

mare de metode statistice de corelare ! Cele mai cunoscute

şi utilizate sunt:

1) Coeficientul de corelaţie produs-moment,

Person (Pearson’s Product Moment Correlation Coefficient).

Acesta este un coeficient de corelaţie parametric, adică

mai rar utilizat în ştiinţele sociale şi deci şi în turism

(prezentat în capitolul anterior, vezi capitolul 6).

2) Coeficientul de corelaţie cu rang, Spearman

(Spearman’s rank Correlation Coefficient). Formula

acestuia ca variantă simplă lineară este:

7.1.2. Coeficientul de corelaţie cu rang, Spearman: condiţii de aplicare

- date (variante) pentru 2 variabile.

- acelaşi număr de valori pentru ambele variabile.

- minimum 4 perechi de valori.

- date ordinale sau intervale.

Calculul formulei coeficientului de corelaţie presupune

12 stadii !

181

Page 182: statistica aplicata

Studiu de caz

Râmania, perioada 1991 - 2000

Variabila 1: PNB (per cap loc.)

Variabila 2: Număr vizitatori străini

An PNB(US$) Număr vizitatori

străini

1991 1243 5,359,000

1992 859 6,401,000

1993 1159 5,786,000

1994 1323 5,898,000

1995 1564 5,445,000

1996 1563 5,205,000

1997 1565 5,149,000

1998 1872 4,831,000

1999 1585 5,224,000

2000 1645 5,264,000

182

Page 183: statistica aplicata

Dorim să vedem dacă există vreo relaţie/corelaţie între

PNB şi numărul de vizitatori străini, adică dorim să

stabilim dacă cele două variabile co-variază.

Stadiul 1

Se întocmeşte reprezentarea grafică de distribuţie a

valorilor celor 2 variabile pentru analiză vizuală.

Dacă distribuţia nu pare să ia o formă corelativă

înseamnă că nu există o corelaţie şi calculul nu se mai

justifică. Adică : dacă aparent nu putem stabili că cele 2

variabile co-variază, că dezvoltă vreo relaţie atunci

calculul coeficientului de corelaţie este inutil!

Pentru studiul nostru de caz distribuţia valorilor se

prezintă ca în figura (fig. 7.5.) de mai jos:

Fig. 7.5.

183

Page 184: statistica aplicata

Aparent ele co-varieză, având o tendinţă

descendentă, direcţie negativă. adică pare să existe o

relaţie între cele două, o relaţie cu tendinţă neativă,

descrescătoare.

Stadiul 2

Observând datele şi distribuţia acestora situaţia este

aparentă şi neclară. În acest caz, se formulează o ipoteză.

aceasta de regulă se bazează pe observaţia efectuată. se

numeşte ipoteză iniţială şi se notează cu Hi. În cazul de

faţă o ipoteză Hi , evidentă. ar putea fi : „Există o relaţie

între PNB şi numărul de vizitatori străini în România

în perioada 1991 – 2000’”

Conform convenţiei statistice în rigoare această

ipoteză se exprimă întotdeauna negativ. Adică invers

decât pare să fie situaţia. .

Aceasta ipoteză se numeşte ipoteza nulă şi se notează

cu HO. Şi dacă aparent există o relaţie între cele două,

ipoteza nulă se va exprima: ‘ Nu există nici un fel de

relaţie între PNB şi numărul de vizitatori străini în

România în perioada 1991 – 2000’

184

Page 185: statistica aplicata

Stadiul 3

Se construieşte un tabel cu 6 coloane în care se înscriu

mai întâi datele exsitente, utilizându-se primele 2 coloane

(1 şi 2)

Variabila 1

(PNB)

Variabila 2

(vizitatori)

1243 5,359,000

859 6,401,000

1159 5,786,000

1323 5,898,000

1564 5,445,000

1563 5,205,000

1565 5,149,000

1872 4,831,000

1585 5,224,000

1645 5,264,000

185

Page 186: statistica aplicata

Stadiul 4

Se acordă rang de mărime valorilor variabilei 1 (i.e.

cea mai mare valoare =1, următoarea = 2 etc). Înscrieţi

rangul fiecărei valori în coloana 3.

Stadiul 5

În mod similar acordaţi rang de mărime valorilor

variabilei 2. Înscrieţi rangul fiecărei valori în coloana 4.

Tabelul va arăta acum aşa!

Variabila 1

(PNB)

Variabila 2

(număr

vizitatori)

Rang

Varia-

bila 1

Rang

Varia-

bila 2

1243 5,359,000 8 5

859 6,401,000 10 1

1159 5,786,000 9 3

1323 5,898,000 7 2

1564 5,445,000 5 4

1563 5,205,000 6 8

1565 5,149,000 4 9

186

Page 187: statistica aplicata

1872 4,831,000 1 10

1585 5,224,000 3 7

1645 5,264,000 2 6

Stadiul 6

Se calculează diferenţa dintre ranguri (rang 1 – rang

2). Adică din coloana 3 se scade coloana 4. Diferenţa de

rang se notează cu d şi se înscrie în coloana 5.

Variabi

la 1

(PNB)

Variabila 2

(număr

vizitatori)

Rang

Varia-

bila 1

Rang

Variabila

2

d

1243 5,359,000 8 5 3

859 6,401,000 10 1 9

1159 5,786,000 9 3 6

1323 5,898,000 7 2 5

1564 5,445,000 5 4 1

1563 5,205,000 6 8 -2

1565 5,149,000 4 9 -5

1872 4,831,000 1 10 -9

1585 5,224,000 3 7 -6

1645 5,264,000 2 6 -4

187

Page 188: statistica aplicata

Stadiul 7

Se ridică la pătrat d (diferenţa de rang). Aceasta se

notează cu d2 şi se înscrie în coloana 6.

Variabila

1 (PNB)

Variabila 2

(număr

vizitatori)

Rang

Variabila

1

Rang

Variabila 2

d d2

1243 5,359,000 8 5 3 9

859 6,401,000 10 1 9 81

1159 5,786,000 9 3 6 36

1323 5,898,000 7 2 5 25

1564 5,445,000 5 4 1 1

1563 5,205,000 6 8 -

2

4

1565 5,149,000 4 9 -

5

25

1872 4,831,000 1 10 -

9

81

1585 5,224,000 3 7 -

4

16

1645 5,264,000 2 6 -

4

16

Stadiul 8:

188

Page 189: statistica aplicata

Se calculează d2 adică suma tuturor valorilor d2.

d2 = 294

189

Page 190: statistica aplicata

Stadiul 9:

Utilizaţi datele obţinute în formula următoare:

unde

rs = este coeficientul de corelaţie)

n = numărul de perechi ale variabilelor 1şi 2 (sau A

şi B)

rs = - 0.78 (aceasta este Coeficientul de de corelaţie)

Stadiul 10:

Se analizează semnificaţia coeficientului de

corelaţie. Analiza semnificaţiei presupune în primul rând

testarea semnificaţiei. Testarea semnificaţiei presupune

siguranţa, corectidunea, încrederea în rezultatul obţinut.

190

Page 191: statistica aplicata

Aceasta se exprimă prin gradul de confidenţă al

coeficientului de corelaţie.

De regulă în ştiinţele sociale este nevoie de un grad

de confidenţă de cel puţin 95% înainte să se accepte un

coeficient. În statistică gradul de confienţă este notat cu p.

El este pre calculat şi se găseşte în tabele consacrate. Un

grad de confidenţă de 95% se notează în aceste tabele sub

forma de p = 0.05. Gradul de confidenţă este menţionat

întotdeauna în interpretare şi analiză şi înscris

obligatoriu în forma p = 0.05

Pentru o siguranţă şi o rigoare ştiinţifică mai mare se

poate merge la 99% grad de confidenţă asupra

rezultatului. Acesta se notează cu p = 0.01 Cu cât

valoarea lui p este mai mică cu atât gradul de confidenţă

este mai mare ceea ce implică o siguranţă mai mare şi

rigoare de calcul mai mare. Gradul de confidenţă cu

care se lucrează se stabileşte încă din stadiile incipiente

de calcul în funcţie de natura variabilelor şi numărul de

perechi de date disponibile. În general pentru studiul

proceselor, fenomene sociale cu caracter amplu, general

când sunt disponibile puţine perechi de date şi ne

raportăm la perioade de timp mari, se lucrează cu p =

191

Page 192: statistica aplicata

0,05. Când se studiază procese, fenomene de detaliu cu

număr mare de perechi de date,pe perioade mici de timp

se lucrează că cu p = 0,01.

Tabelul de mai jos reprezintă o variantă simplificată

a unui tabel consacrat cu grade de confidenţă.

Pentru stabilirea semnificaţiei din studiul nostru de

caz se utilizează coloana 1 în care se află N = numărul de

perechi de variabile. În studiul nostru de caz am utilizat 10

perechi. Astfel urmărim pentru N = 10, valorea de

semnificaţie pentru p = 0.05.

N(număr de perechi de variabile)

95%(p = 0.05)

99%(p= 0.01)

5 1.000 -6 0.886 1.0007 0.786 0.9298 0.738 0.8819 0.683 0.83310 0.648 0.79412 0.591 0.77714 0.544 0.71516 0.506 0.665

192

Page 193: statistica aplicata

Se raportează valoarea lui r la valorile p = 0.05 pentru

N =10.

Dacă coeficientul de corelaţie r este egal sau mai

mare decât valoarea lui p [se ignoră semnul lui r (plus sau

minus)] SE RESPINGE IPOTEZA NULĂ.

Coeficientul de corelaţie r, este 0.78, mai mare decât

valorea lui p = 0,05 ( de 95%) aceasta fiind de0.648. În

concluzie se respinge ipoteza nulă (Nu există nici un fel

de relaţie între PNB şi numărul de vizitatori străini în

România în perioada 1991 – 2000’) şi se acceptă ipoteza

iniţială, (Există o relaţie între PNB şi numărul de vizitatori

străini în România în perioada 1991 – 2000’”)

Dacă s-ar fi ales ca grad de confidenţă p = 0,01

situaţia ar fi fost coplect diferită. S-a stabilit ca grad de

confidenţă p = 0,05 deoarece: variabilele se referă la

indicatori destul de ampli, la nvel de ţară pe o perioadă

destul de limitată de timp cu valori la nivel anual.

În concluzie se poate spune că cele două variabile sunt

corelate cu un grad de confidenţă de 95%

193

Page 194: statistica aplicata

Stadiul 11

Cel mai important lucru din punct de vedere al

ştiinţelor sociale şi deci şi al turismului este interpretarea

şi analiza rezultatelor. Ce înseamnă valoarea lui rs şi

faptul că am acceptat Hi ?

În final oricine poate calcula un coeficient de

corelaţie. Important este cum este interpretat rezultatul şi

ce înseamnă el!

Până aici s-a stabilit (ce-i drept, ştiinţific) faptul că

există o relaţie. Care este, însă natura relaţiei dintre PNB şi

numărul vizitatorilor străini din România în perioada

1991-2000?

De ce numărul turiştilor străini pare să scadă în timp

ce al PNB-ului să crească?

Ce putem spune despre contribuţia turismului la

PNB-ul României?

194

Page 195: statistica aplicata

Stadiul 12:

Se scriu intepretările. Aici este locul şi momentul în

care se foloseşte coeficientul de corelaţie, pentru

interpretarea rezultatelor

De regulă se foloseşte formula:

“Există o puternică corelaţie negativă între PNB

şinumărul de vizitatori străini în România în perioada

1991 – 2000 (rs = -0.78, p = 0.05). Acest fapt se

datorează …”

7.2. Testele neparametrice de semnificaţie. Semnificaţia statistică .

Definiţie

Semnificaţia statistică reprezintă una dintre cele patru

funcţii de baza ale statisticii. În literatura de specialitate

această tema se mai găseşte şi sub denumirea de „testarea

semnificaţiei statistice” sau „testarea diferenţei la nivel de

set de date”

195

Page 196: statistica aplicata

7.2.1. Introducere

Pentru a pune întreaga temă într-un context clar şi

logic este necesară în acest moment o trecere în revistă a

teoriei funcţiilor statisticii.

Din punctul de vedere al ştiinţelor sociale (inclusiv a

turismului şi ) statistica devine utilă prin cele 4 funcţii de

bază ale sale:

funcţia descriptivă

funcţia deductivă

funcţia semnificaţiei

funcţia prognozării

În primele capitole ale cursului s-a insistant în mod

deosebit asupra teoriei datelor şi operaţiilor statistice

elementare sau a primelor stadiile de operare statistică. La

o privire mai atentă se poate concluziona că acestea

reprezintă de fapt „instrumente” ale funcţiei descriptive.

Ele nu fac altceva decât să descrie într-o măsură mai mică

sau mai mare, mai superficial sau mai profund elemente,

componente, procese sau fenomene ale activităţii sociale

sau .turistice în cazul nostru.

196

Page 197: statistica aplicata

A fost prezentat anterior şi o metodă de determinare

şi stabilrea existenţei unei relaţii între două variabile care

nu a reprezentat altceva decât un exemplu aplicativ al

funcţiei deductive . Astfel de metode se mai numesc şi

metode statistice deductive sau pur şi simplu statistici

deductive ca urmare a faptului că pornesc de la o supoziţie

(deducţie) stabilită (demonstrată) ulterior şi verificată

printr-un rezultat. În turism ca şi în geografie, specialiştii

lucrează preponderent cu date selective (obţinute prin

generare) şi care nu sunt exhaustive. Adică aceste date

reprezintă eşantioane (sunt obţinute eşantionat) dintr-

o populaţie întreagă; sunt şiruri finite; ”incomplete”

deoarece totalitatea lor absoluta este imposibil a fi

obţinută. Exemplu: comportamentul decizional în alegerea

destinaţiei de vacanţă pentru o anume grupă de vârstă de

turişti sau grupă socială”. A obţine datele statistice pentru

întreaga populaţie , adică toţi potenţialii turişti fie şi ai

unui oraş este aproape imposibil. Se selectează astfel un

eşantion reprezentativ asupra căruia se generează datele

statistice necesare iar cu datele respective se fac aprecieri,

deducţii, în funcţie de anumiţi factori sau situaţii luate în

calcul, pentru a se demonstra comportamentul decizional.

197

Page 198: statistica aplicata

Acest comportament poate fi corelat în evoluţia sau

desfăşurarea sa cu anumiţi alţi factori etc (co-variaţia).

Selectarea, eşantionarea presupune obligatoriu

probabilitatea existenţei unui anumit grad de eroare în

măsurătoare şi în deducţia finală (a se revedea toată teoria

cu gradul de confidenţă). Probabilitatea este conceptul

statistic care deosebeşte datele selective, (finite, obţinute

prin eşantionare) de cele exhaustive (absolute, complete,

obţinute în ştiinţele exacte din măsurătorile de laborator şi

care reprezintă toată populaţia nu un eşantion). Prin

urmare datele selective, eşantioanele, includ o

probabilitate de eroare în timp ce cele exhaustive NU

(acestea fiind cele folosite în metodele parametrice).

Metodele de analiză statistică precum coeficienţii de

corelaţie stabilesc o relaţie şi serie de caracteristici dar nu

dau posibilitatea aprofundării cauzalităţii sau a altor

aspecte relaţionale. În concluzie funcţia deductivă

presupune că: în condiţii specifice, probabilitatea unei

presupuneri/ipoteze (deducţii) efectuate pe baza unor

eşantioane de populaţie , să fie validă.

Profunzimea analizei statistice este dată în

continuare de îndeplinirea funcţiei semnificaţiei.

198

Page 199: statistica aplicata

7.2.2 Semnificaţia statistică

Aspectele privind semnificaţia statistică a unor

mărimi, valori, variabile sau – mai frecvent – cea a

semnificaţiei diferenţei dintre două mărimi, valori,

variabile atunci când se compară , presupune că cel puţin

una dintre ele se obţine prin eşantionare. Acest ultim fapt

presupune la rândul său ideea de probabilitate de eroare.

Semnificaţia statistică reprezintă una dintre cele mai

puternice funcţii din punct de vedere al ştiinţelor socio-

geografice şi deci şi turistice. Aceasta stabileşte dacă

diferenţa sau relaţia dintre două seturi de date selective

(eşantioane) este semnificativă.

Ea presupune în primul rând comparaţia între valori

(cel puţin una) determinate la nivel de eşantion, adică

acele valori care nu reproduc perfect şi absolut

caracteristicile populaţiei statistice. Aceste valori

presupun prin natura lor o marjă de variaţie adică un

interval pe care se găsesc valorile efective ale populaţiei.

Undeva apare o diferenţă!

Pentru a fi siguri că diferenţa dintre valorile în

eşantion reflectă o diferenţă reală de valori în populaţii,

distanţa dintre mărimile comparate trebuie să depăşească

199

Page 200: statistica aplicata

mărimea intervalului pe care se află , cu o anumită

probabilitate, valorile din populaţie. Cu alte cuvinte o

diferenţă este semnificativă dacă depăşeşte eroarea

maximă admisă, adică ea nu poate fi pusă (integral) pe

seama fluctuaţiilor fireşti de eşantionare.

În caz contrar se va spune că diferenţa nu este

semnificativă (exclus a se folosi nesemnificativă). O

diferenţă care nu este semnificativă reflectă o deosebire

despre care nu se poate spune cu o probabilitate suficient

de mare că este reală, acesta nu înseamnă că ea nu este

reală.

7.2.3. Testele de semnificaţie sau testarea diferenţei la seturi de date/eşantioane

Ce presupun testele de semnificaţie sau testarea unei

diferenţe la seturi de date/eşantioane? Obiectivul final al

acestora este acela de a explica diferenţa aparentă. Înainte

de a se căuta explicaţii cauzale, se doreşte a se determina

cât de mare este această diferenţă cât de semnificativă este

ea.

În domeniul turismului şi al studiilor privind

recreerea, în mod frecvent şi de regulă se folosesc date

200

Page 201: statistica aplicata

relevante pentru comparaţie ca de exemplu : locaţii

diferite, ori asupra unor grupe umane diferite sau înainte şi

după un anume eveniment.

În astfel de situaţii apare necesitatea determinării

semnificaţiei diferenţelor dintre valori, mărimi, variabile;

adică a se testa diferenţele presupuse, (incluse,

implementate ori induse) de seturile respective de

eşantioane de date.

Exemple de eşantioane de date utilizate:

Preţul mediu hotelier la cazare în 2 staţiuni

diferite.

Comportamentul decizional asupra

destinaţiei de vacanţă a 2 grupe sociale diferite.

Grupele de vârstă ale vizitatorilor unui

obiectiv din zilele ‚cu eveniment’ sau ‚fără eveniment’.

Atitudini ale turiştilor privind destinaţia de

vacanţă înainte şi după vizitarea acesteia.

Practic avem date asupra a 2 locaţii diferite sau

grupe umane, diferenţele presupuse de acestea pot fi

evidente strict valoric numeric dar nu indică nimic despre

semnificaţia diferenţei dintre ele prin prisma intervalului

201

Page 202: statistica aplicata

de raport la valorile probabile ale populaţiilor respective

(total necunoscute în cazul de faţă şi total lipsite de altfel

de relevanţă) în limitele maxime acceptabile de eroare. Cu

alte cuvinte dorim să testăm această diferenţa dintre ele şi

din punct de vedere al semnificaţiei statistice

(cuantificarea calităţii diferenţei).

Există 3 teste de semnificaţie statistică mai bine

cunoscute:

Testul „T”, un test parametric

Testul „U” sau Mann Whitney, un test

neparametric

Testul Wilcoxen sau testul ‚perechilor legate’

de asemenea un test neparametric sau

neparametric

7.2.4. Testul ‚U’sau Mann Whitney

Fiind un test de semnificaţie statistică va presupune

automat compararea a două eşantioane de date,

probabilitatea unei erori datorate de presupusa diferenţă

dintre caracteristicile acestora şi cele ale populaţiilor

respective, diferenţă arbitrată de o marjă de eroare

maximă, acceptată. Include în calcul mediile aritmetice

202

Page 203: statistica aplicata

sau medianele seturilor de date. Varianta cea mai

cunoscută de formulă pentru testul U este:

nanb +

Condiţii de aplicare:

a) Date ordinale sau intervale

b) 2 seturi de date necesar a fi comparate ( nu este

necesar un număr egal de perechi de variabile)

c) Minimum 4 valori din fiecare set de variabilă

d) IPOTEZE, Ho - ca punct de pornire, în replică

pentru Hi. Ipoteza nulă (H0) presupune

întotdeauna că; ‚nu există nici o diferenţă între

cele 2 seturi de date’. Cu alte cuvinte, diferenţa

dintre cele 2 seturi de date nu este semnificativă.

Obiectivul final al testului este acela de a

respinge H0. în ideea acceptării Hi care presupune

existenţa unei diferenţe semnificative,

acceptabilă în raport cu marja maxim acceptabilă

de eroare.

203

Page 204: statistica aplicata

Studiu de caz aplicativ pentru testul „U” sau

Mann-Whitney

Studiul de caz presupune testarea semnificaţiei

diferenţei pentru numărul de turişti români cazaţi în Băile

Herculane şi Drobeta Turnu Severin din 1991 până în

2000

Dorim deci să testăm dacă din punct de vedere

statistic există o diferenţă semnificativă la nivelul

numărului de vizitatori din cele 2 locaţii în aceeaşi

perioadă de timp.

Atenţie, nu este vorba despre diferenţă ca operaţie

aritmetică, aceasta nu are nici o semnificaţie, în afara

celei pur matematice. Semnificaţia statistică presupune la

un loc ideea de eşantion, de perioadă de timp ,de locaţii

diferite ce pot implica la nivelul raportării în populaţia

statistică respectivă anumite aspecte cu caracter social.

Observaţi tabelul de mai jos !

Sunt îndeplinite condiţiile de aplicare? Da iar

aplicarea testului poate continua chiar şi condiţiile

absenţei unei valori la ultima valoare a variabile 2,

204

Page 205: statistica aplicata

respectiv „turiştii români cazaţi la Drobeta Turnu

Severin”.

AnulTurişti români

cazaţi la Băile

Herculane

Turişti români cazaţi la

Drobeta Turnu Severin

1991 72211 64537

1992 42968 56566

1993 72352 39182

1994 113242 40989

1995 95085 46227

1996 96631 47271

1997 66268 48885

1998 75441 32293

1999 100606 31515

2000 110286 -

Stadiul 1:

În funcţie de tipul de date pe care le deţinem se

calculează media aritmetică sau mediana.

205

Page 206: statistica aplicata

În studiul de caz de mai sus dispunem de date

intervale; se calculează media aritmetică pentru fiecare

dintre cele două variabile.

Dacă

Am dispune de date ordinale se va calcula, mediana

pentru fiecare coloană de date.

Rezultatele se compară. În mod evident, dacă diferenţa

dintre medii/mediane nu este semnificativă continuarea

testului este inutilă.

Astfel:

Pentru variabla A (B. Herculane): media aritmetică =

84.509

Pentru variabla B (D.T.Severin): media aritmetică =

45.274

Diferenţă valorică semnificativă!

Stadiul 2:

Se stabileşte ipoteza nulă pe baza inversării uneia

iniţiale care presupune existenţa unei diferenţe

semnificative. Astfel:

206

Page 207: statistica aplicata

Ipoteza nulă este „nu există o diferenţă semnificativă

între numărul turiştilor cazaţi la Băile Herculane şi cei

cazaţi la D.T. Severin în perioada 1991 – 2000”

Stadiul 3:

Se întocmeşte un tabel cu 4 coloane. Variabila A se

înscrie în coloana 1 iar variabila B în coloana 3, după cum

urmează:.

Variabla A

(Turişti români

cazaţi la Băile

Herculane)

Variabla B

(Turişti români

cazaţi la Drobeta

Turnu Severin)

72211 64537

42968 56566

72352 39182

113242 40989

95085 46227

96631 47271

66268 48885

207

Page 208: statistica aplicata

75441 32293

100606 31515

110286

Stadiul 4:

Acordaţi ranguri de importanţă tuturor valorilor, în

ordine crescătoare. Pentru acordarea rangului de

importanţă se iau în consideraţie valorile ambelor

variabile. Cu alte cuvinte rangul NU se acorda separat pe

coloane ci la ambele împreună. Astfel valoarea cea mai

mică va primi rangul 1, următoarea ca mărime va primi

rangul 2 ...şamd.

Rangurile acordate pentru valorile variabilei A se

plasează în coloana 2. Acesta se notează cu ra

Rangurile acordate pentru valorile variabilei B se

plasează în coloana 4. Acesta se notează cu rb.

Variabla A(Turişti români cazaţi la Băile Herculane)

ra Variabla B(Turişti români cazaţi

la Drobeta Turnu Severin)

rb

72211 12 64537 10

42968 5 56566 9

72352 13 39182 3

208

Page 209: statistica aplicata

113242 19 40989 4

95085 15 46227 6

96631 16 47271 7

66268 11 48885 8

75441 14 32293 2

100606 17 31515 1

110286 18

În cazul în care apar valori identice se procedează

la calcularea mediei rangurilor acestora indiferent de

numărul lor. Vezi tabelul de mai jos (caz didactic ipotetic,

nu are nici o legătură cu studiul de caz, este folosit ca

exemplu). Valoarea 45 apare de 2 ori şi ar primi rangul 3

ca mărime de importanţă. Rangul următor, 4, nu se înscrie

niciunde şi se foloseşte la calculul mediei rangurilor. (3 +

4) : 2 = 3,5

VA ra VB rb

30 1 45 3,535 2 50 5,545 3,5 58 750 5,5 62 875 11 69 980 12 70 10

209

Page 210: statistica aplicata

Stadiul 5:

Se calculează separat suma ranguilor variabilei A,

notată cu ra.

ra = 140

Stadiul 6:

În mod similar se calculează suma rangilor variabilei

B, notată cu rb.

rb = 50

Stadiul 7:

Formula pentru testul U este:

nanb +

unde: na este numărul de valori al variabile A,

nb este numărul de valori al variabile B

Ea se aplică fiecărei variabile în parte!

În cazul nostru, pentru variabila A:

210

Page 211: statistica aplicata

Stadiul 8:

Variabila B:

nanb +

Stadiul 9:

Dintre cele două valori U se alege prin convenţie

valoarea cea mai mică. În cazul studiului de caz de mai

sus, este vorba despre Ua = 5

Stadiul 10:

Se decide nivelul gradului de confidenţă la care

dorim să avem rezultatul. De regulă în ştiinţele sociale se

lucrează cu cel puţin 95% adică p = 0.05

211

Page 212: statistica aplicata

Stadiul 11:

Se face apel la tabelele consacrate cu valori critice

ale gradului de confidenţă pentru testul U în vederea

stabilirii acestora la p = 0.05 (95%)

nb

na

1 2 3 4 5 6 7 8 9 10 11 12

12 0 0 0 0 13 0 1 1 2 2 3 3 44 0 1 2 3 4 4 5 6 75 0 1 2 3 5 6 7 8 9 116 1 2 3 5 6 8 10 11 13 147 1 3 5 6 8 10 12 14 16 188 0 2 4 6 8 10 13 15 17 19 229 0 2 4 7 10 12 15 17 20 23 26

10 0 3 5 8 11 14 17 20 23 26 2911 0 3 6 9 13 16 19 23 26 30 3312 1 4 7 11 14 18 22 26 29 33 37

Valoarea critică pentru un test cu 10 variante în

variabile unde p ‚ 005 = 20

212

Page 213: statistica aplicata

Stadiul 12:

Dacă valoarea de test U aleasă (cea mai mică dintre

cele două calculate) este mai mică sau egală cu valoarea

critică a gradului de confidenţă stabilit, p = 0,05 atrage

după sine RESPINGEREA ipotezei nule.

În acest caz valoarea critică este 20 iar valoarea de

test U = 5.

Ipoteza nulă = nu există o diferenţă semnificativă

între numărul turiştilor cazaţi la Băile Herculane şi cei

cazaţi la Dr.Tr. Severin în perioada 1991 – 2000’; se

respinge.

Se acceptă ipoteza iniţială, conform căreia există o

diferenţă semnificativă între numărul turiştilor cazaţi la

Băile Herculane şi cei cazaţi la Dr.Tr. Severin în perioada

1991 – 2000’

Stadiul 13:

Iportant! Interpretarea rezultatului final este mai

important decât faptul că după o serie de calcule am

respins o ipoteză nulă şi am acceptat una iniţială. În cazul

213

Page 214: statistica aplicata

de faţă rezultatul final este există o diferenţă între cele

două seturi de date.

Ce semnificaţie are această diferenţă? De ce există

această diferenţă semnificativă?

Stadiul 14

Interpretarea şi analiza rezultatului includ întotdeauna

argumente sau explicaţii. Exprimarea acestora se face de

regulă prin formula de debut: “Există o diferenţă statistică

semnificativă între numărul turiştilor români cazaţi la

Băile Herculane şi cei cazaţi la Drobeta Turnu Severin (U

= 5, p = 0,05), fapt datorat.......spre exemplu faptului că

cele două locaţii reprezintă atracţii diferite în care se

practică două tipuri diferite de turism: turimul balnear şi

respectiv cel de tranzit, de conferinţă şi week end.

În analiză şi argumentare se utilizează informaţie cât

mai exactă asupra celor două locaţii.

Testul U sau Mann Whitney mai este cunoscut şi sub

denumirea de test al nivelului de semnificaţie.

214

Page 215: statistica aplicata

7.2.5. Testul Wilcoxen sau testul ‚perechilor legate’

Acest test se aplică doar datelor intervale, fapt pentru

care este privit ca un test mai special. El se deosebeşte şi

prin condiţiile pe care le pune la nivelul datelor intervale

ce urmează a fi testate.

Constituie o metodă statistică utilă în testarea

diferenţelor la nivel de serii de date, deseori folosit în

ştiinţele sociale. Acest test este la fel de important ca cel

anterior mai ales prin faptul că testează semnificaţia

eşantionului. Pentru turism el este adesea crucial ca

importanţa, cu precădere în situaţiile de sondaje la scară

medie şi mică.

Condiţii de aplicare:

Obligatoriu numai date intervale.

Cel puţin 6 perechi de date.

Între cele două şiruri de date (sau variabile) trebuie

să existe o anume (presupusă, dedusă) ‚legătură’,

tendinţă’. Cu alte cuvinte să formeze un anume tip

215

Page 216: statistica aplicata

de ‚pereche’, să se cupleze conform unui criteriu

comun.

Între seriile de date sau între datele aceleiaşi

variabile trebuie să existe, cel puţin aparent, un anume gen

de relaţie, legătură.

Exemple:

Ex 1: Vizitatori europeni în România în anii 1999 şi 2000

1999 2000

Austria 63,000 66,000

Belgia 18,000 19,000

Danemarca 9,000 10,000

În acest caz relaţia este stabilită de cei 2 ani, caz în

care dacă pentru o ţară numărul de vizitatori a fost redus în

1999 este probabil să fie redus şi în 2000.

Ex 2 Gradul de ocupare al hotelurile de pe litoralul

românesc al Mării Negre (%)

216

Page 217: statistica aplicata

2000 2001

Ianuarie 25 20

Februarie 30 29

Martie 50 48

Dacă gradul de ocupare a fost redus în ianuarie al

unui an este foarte probabil să fie redus şi în alt an –

relaţia aparentă dintre seturile de date, suficientă pentru a

forma perechi.

Dacă

a) Între date nu există o relaţie aparentă prin prisma

căreia ele să poată forma perechi dintr-un anumit

punct de vedere sau de un anume tip

sau

b) Datele sunt nominale sau ordinale

217

Page 218: statistica aplicata

Testul Wilcoxen NU se poate aplica şi se apelează

în schimb la testul Mann-Whitney sau U

În aplicarea acestui test analiza teoretică a relaţiei

aparente dintre variabile este foarte imoprtantă.

Semnificaţia aparentă a relaţiei este ceea ce se cere de la la

testul U şi ce fel de diferenţă privim acolo în antiteză cu

perechea de la Wilcoxen. Astfel se poate concluziona că

felul datelor sau mai bine spus a relaţiilor aparente dintre

ele, dinamismul şi tendinţa evoluţiei acesteia determină

într-o oarecare măsură alegerea testului ce urmează a fi

utilizat.

Mod de calcul

Studiu de caz: serii de date privind gradul de

ocupare (%) al hotelurilor din Băile Herculane şi Drobeta

Turnu Severin în perioada 1991-2000

Băile Herculane Drobeta Turnu

Severin

1991 36 45

1992 31 30

1993 38 24

218

Page 219: statistica aplicata

1994 41 38

1995 43 32

1996 35 32

1997 29 54

1998 37 49

1999 41 44

2000 45 43

Există o relaţie aparentă între datele de aici? Evident!

Fiind vorba de 2 localităţii situate în aceeaşi zonă turistică

şi gradul de ocupare al hotelurilor acestora se presupune

că gradul de ocupare la nivelul amândurora are cam

acelaşi comportament pentru aceeaşi perioadă de timp.

Gradul de ocupare (în această situaţie) pentru aceeaşi

categorie de unitate de cazare, este criteriul de

„împerechere”

Presupusa relaţie de reprezintă punctul de plecare în

stabilirea ipotezei nule pe baza căreia se poate trece la

calculul acestui test

219

Page 220: statistica aplicata

Stadiul 1:

Se formulează ipoteza nulă (Ho) asupra seriilor de

date în concordanţă cu o ipoteză iniţială (.Hi). (Ho

întotdeauna exprimă negativul/inversul ipotezei iniţiale

Hi):

Ex. Nu există o diferenţă semnificativă în gradul de

ocupare al hotelurilor din Băile Herculane şi Drobeta

Turnu Severin în perioada 1991-2000

Stadiul 2:

Se construieşte un tabel cu 6 coloane. În coloanele 1

şi respectiv 2 se introduc seriile de date (denumite pentru

convenienţă variabile: A=Băile Herculane şi respectiv

B=Drobeta Turnu Severin)

A

(Herculane)

B

(Turnu

Severin)

36 45

31 30

38 24

220

Page 221: statistica aplicata

41 38

43 32

35 32

29 54

37 49

41 44

45 43

Stadiul 3

Se calculează diferenţa aritmetică dintre A şi B (A-

B). Rezultatul obţinut amplasează în coloana 3 ignorând

semnul (+;-)

A B A - B

36 45 9

31 30 1

38 24 14

41 38 3

43 32 11

35 32 3

29 54 25

221

Page 222: statistica aplicata

37 49 12

41 44 3

45 43 2

Stadiul 4

Dacă în coloana (A-B) avem valori egale cu 0,

acestea se exclud din analiză (se exclud şi perechile cu

totul, utilizându-se restul perechilor). Cu menţiunea că în

acest caz se reduce numărul de perechi luat în calcul!

În studiul de caz nu există astfel de situaţii, calculul

continuându-se fără alte modificări de condiţii.

Stadiul 5

Se acordă rang de importanţă valorilor din coloana

(A-B) pornindu-se de la valoarea cea mai mică căreia i se

atribuie rangul 1. Valorile rangurilor se înscriu în coloana 4.

În cazul valorilor identice se procedează la

calcularea mediei rangurilor valorilor variabilor identice

ca valoare indiferent de numărul acestora.

A B (A – B) Rang de

222

Page 223: statistica aplicata

(A-B)

36 45 9 6

31 30 1 1

38 24 14 9

41 38 3 4

43 32 11 7

35 32 3 4

29 54 25 10

37 49 12 8

41 44 3 4

45 43 2 2

Stadiul 6

Se compară pe rând valorile din perechile

variabilelor A şi B. Acolo unde valoarea lui A este mai

mare decât a lui B se înscrie rangul atribuit diferenţei (A-B)

în coloana 5. Unde valoarea lui B este mai mare decât a lui

A rangul atribuit diferenţei (A-B ) se înscrie în coloana 6.

A B A - B Rang de A>B B>A

223

Page 224: statistica aplicata

A-B

36 45 9 6 6

31 30 1 1 1

38 24 14 9 9

41 38 3 4 4

43 32 11 7 7

35 32 3 4 4

29 54 25 10 10

37 49 12 8 8

41 44 3 4 4

45 43 2 2 2

Stadiul 7

Se calculeazăi suma rangurilor pe fiecare coloană în

parte (A>B şi B>A din coloanele 5 şi 6).

A B A - B Rank

of A-B

A>B B>A

36 45 9 6 6

31 30 1 1 1

38 24 14 9 9

41 38 3 4 4

224

Page 225: statistica aplicata

43 32 11 7 7

35 32 3 4 4

29 54 25 10 10

37 49 12 8 8

41 44 3 4 4

45 43 2 2 2

Suma din coloana A>B (5) = 27

SUMA DIN COLOANA B>A (6)= 28

Stadiul 8

Se selectează valoarea cea mai mică dintre cele 2

sume şi se noteză cu T

T = 27

Stadiul 9

Se decide cu ce grad de confidenţă se lucrează (95%

sau 99%) pentru stabilirea semnificaţiei rezultatului.

Se continuă făcând apel la tabelele consacrate, ale

valorilor critice pentru testul Wilcoxen. În cazul în care a

fost redus numărul de perechi în timpul calcului el se

225

Page 226: statistica aplicata

reduce şi la interpretare. Exempl daca au fosrt eliminate 2

perechi din calcul la interpretare în loc de 10 perechi se va

urmări valoarea critică pentru 8 perechi.

Nr perechi A şi B P=0.05 P=0.01

6 0 -

7 2 -

8 4 0

9 6 2

10 8 3

11 11 5

12 14 7

13 17 10

14 21 13

15 25 16

16 30 20

17 35 23

18 40 28

19 46 32

20 52 38

226

Page 227: statistica aplicata

Dacă valoarea obţinută pentru T este mai mică decât

valoarea critică (pentru numărul corect de perechi şi la

gradul de confidenţă ales) se respinge ipoteza nulă. În

orice altă situaţie aceasta se acceptă.

Conform studiului de caz T = 27, valoare critică = 8

(95%) sau 3 (99%):

IPOTEZA NULĂ SE ACCEPTĂ! Adică nu există o

diferenţă semnificativă în gradul de ocupare al hotelurilor

celor 2 locaţii.

Stadiul 9

Interpretarea rezultatului obţinut:

În studiul de caz de mai sus s-a demonstrat

statistic faptul că nu există o ‚diferenţă’, semnificativă, în

gradul de ocupare al hotelurilor din Băile Herculane şi

Drobeta Turnu Severin în perioada .... (în ciuda faptului că

aparent exista o diferenţă valorică).

De ce?

227

Page 228: statistica aplicata

Stadiul 10

Analiza şi exprimarea rezultatului final:

Dacă ar fi existat o diferenţă semnificativă analiza ar

fi fost exprimată începându-se cu formularea:

“Există o diferenţă (relaţie) semnificativă între

gradul de ocupare din Băile Herculane şi Drobeta

Turnu Severin; T = 2, p = 0.01. Aceasta se

datorează......

În cazul nostru nu există o diferenţă semnificativă

între cele două pentru T = 2, p = 0.01. Această realitate

se datorează faptului că în calcul este luat gadul de

ocupare şi deşi cele două locaţii sunt diferite ca destinaţie

turistică, caracterizându-se prin tipuri dierite de turism ele

se află în aceeaşi zonă turistică, la distanţă relativ mica una

de cealaltă. Factorul care însă determină inexistenţă

diferenţei semnificative este raportul număr locuri cazare

– destinaţie turistică.

228

Page 229: statistica aplicata

7.2.6. Testarea semnificaţiei diferenţei la nivel de set de date absolut independente. Testul Χ2

229

Page 230: statistica aplicata

Aminteam anterior faptul că testarea semnificaţiei

statistice presupune în primul rând procesul de comparaţie.

Testele precedente de semnificaţie statistică au stabilit

semnificaţia diferenţei la nivelul datelor selective

(eşantioane) asemănătoare sau parte din aceeaşi mare

categorie. În general a fost vorba despre date

„asemănătoare”. Cu alte cuvinte s-a pornit de la ideea

comparării unor date asemănătoare (unii autori le

denumesc dependente) pentru a se determina diferenţa de

semnificaţie statistică dintre ele (în final demonstrată sau

nu prin acceptarea sau respingerea ipotezei nule).

Acelaşi proces de comparaţie statistică (atât de util în

îndeplinirea funcţiei de semnificaţie statistică) mai

presupune şi situaţia inversă: se compară/testează

semnificaţia statistică la nivelul datelor „ne asemănătoare”

sau independente pentru a se determina asemănarea lor.

Cu alte cuvinte pentru a se determina în ce măsură ele au

ceva în comun, şi ce presupune acest lucru (în final fapt

demonstrat sau nu prin acceptarea sau respingerea ipotezei

nule). Acest proces se efectuează prin ceea ce este

cunoscut şi sub denumirea de:

230

Page 231: statistica aplicata

Testul de contingenţă

Ce este contingenţa?

Contingenţa

Contingenţa măsoară gradul de relaţionare sau

intensitatea legăturii dintre două elemente, fenomene,

procese,în final dintre variabile/seturi de date

selective/eşantioane.

Cu alte cuvinte fiind vorba de date independente,

contingenţa măsoară modul în care un aspect, o variabilă,

un set de date influenţează sau este influenţat de un altul/a.

Astfel în limbajul de specialitate apar formulări de

genul: unele variabile sunt contingente cu altele sau deţin

un contingent asupra altora.

EX:

Clasa socială are contingent asupra

numărului de vacanţe pe care o familie şi le poate

permite.

Sezonalitatea este contingenţă cu gradul de

ocupare al unui hotel.

Contingenţa însă nu este acelaşi lucru cu corelaţia.

231

Page 232: statistica aplicata

Reamintim ce exprimă corelaţia şi aume o co-

variaţie. Aceasta indică pur şi simplu faptul că o variabilă

prezintă o anumită tendinţă sau are un anumit

comportament iar cealaltă sau celălalte prezintă şi ele o

anumită tendinţă sau are un anumit comportament.

Corelaţia nu spune nimic despre cauzalitate sau cum se

determină ori se influenţează variabilele între ele.

Cel mai cunoscut test pentru

investigarea/cunatificarea contingenţei este „testul chi2”

sau testul Χ2

Testul Χ2

Condiţii de utilizare:

În cazul necesităţii investigării tipului de

relaţie între două aspecte, fenomene, indici, indicatori

INDEPENDENŢI etc… (adică a modului în care

ceva/cum ceva, se leagă de altceva, influenţează.

În cazul în care avem la dispoziţie 2

variabile independente.

Avem la dispoziţie date nominale, ordinale

sau intervale.

232

Page 233: statistica aplicata

Testul Χ2 sau Chi2 este un test non-parametric ale

cărui câteva caracteristici implică aspecte precum:

Datele exprimă categorii numărabile de

elemente.

Chi2 este foarte util mai ales în analiza

statistică a datelor chestionarelor (unde sunt necesare

cel puţin 100 de chestionare pentru relevanţa analizei)

Mod de aplicare

Chi2 porneşte întotdeauna de la ipoteza

iniţială, Hi, conform căreia există o relaţie între datele

analizate fapt pentru care ipoteza nulă, Ho, va avea

întotdeauna forma conform căreia NU există nici o

relaţie între variabile analizate.

Îşi clasifică datele utilizate în:

OBSERVATE (notate cu O) – reprezintă datele

prezente, aflate la dispoziţie; şi PRESUPUSE (notate cu

P) - determinate pe baza celor observate.

Datele presupuse reprezintă datele la care

se aşteaptă testul , sau pe care testul le prognozează în

233

Page 234: statistica aplicata

cazul în care nu ar exista nici o legătură între ele sau cu

alte cuvinte în cazul în care ipoteza nulă ar fi adevărată.

Comparând datele, testul X2 stabileşte în

final dacă cele între cele două variabile există sau nu o

relaţie şi care este ea.

Elemente necesare pentru aplicarea testului X2

1) Date pentru 2 variabile.

2) Datele trebuie să exprime categorii de

elemente numărabile. NUMERE REALE.

3) Indiferent de forma în care se află datele acestea se

introduc într-un tabel de contingenţă.

4) Datele nu pot avea formă de procente

Studiu de caz

Date provenite de la Comisia Naţională pentru

Statistică privind numărul vizitatorilor străini în România

pentru anii 1985 şi respectiv 1995, în funcţie de motivaţia

vizitei.

234

Page 235: statistica aplicata

În acest caz se poate discuta despre o posibilă

relaţie existentă între date: dinamica motivelor pentru care

străinii doresc să viziteze România în perioada respectivă.

Datele sunt:

Mii turişti străini în vacanţă:

1985 = 2498

1995 = 2274

Mii turişti străini sosiţi în România pentru alte

motive:

1985 = 2607

1995 = 2838

Testul Χ2 sau Chi2 presupune pentru aplicare12

stadii

Stadiul 1

Formularea ipotezelor iniţială şi respectiv nule (Hi,

Ho) pentru datele luate ca bază de studiu. Reamintim ca :

Ipoteza nulă Ho exprimă întotdeauna negativul, inversul

ipotezei iniţiale Hi

În cazulacestui studiu de caz Ho este :”nu există

nici relaţie (din punct de vedere al semnificaţiei statistice

235

Page 236: statistica aplicata

aceasta este tot o diferenţă, diferenţa dintre date chemată

să arate o asemănare, aceeaşi dinamică a motivelor

vizitei) între numărul turiştilor străini veniţi în România

pentru o vacanţă şi cei sosiţi pentru alte motive atât în

timpul perioadei comuniste cât şi după încheierea

acesteia.

Stadiul 2

Construirea tabelului de contingenţă pentru cele

două variabile prin simpla introducere a datelor prezente şi

calcularea totalurilor coloanelor şi rândurilor tabelului

obţinut.

1985 1995 Total

Vizite pentru vacanţă 2498 2274 4772

Vizite pentru alte motive 2607 2838 5445

Total 5105 5112 10217

Aceste date se numesc datele cu valori OBSERVATE

236

Page 237: statistica aplicata

Stadiul 3

Se examinează valorile observate. În cazul în care

există valori egale cu 0 întregul test devine invalid!

Stadiul 4

Se calculează valorile PRESUPUSE. (adică valorile

AŞTEPTATE sau presupuse de test în cazul în care nu ar

exista nici o relaţie între cele 2 variabile)

În calculul valorilor presupuse se porneşte

întotdeauna de la valorile observate. Pentru fiecare dată

observată se calculează echivalentul presupus după cum

urmează :

Valoarea presupusă =

(Total rând) x (Total coloană )

Total general

237

Page 238: statistica aplicata

1985 1995 Total

O P O P

Vizite

pentru

vacanţă

2498 2384.4 2274 2387.6 4772

Vizite

pentru

alte

motive

2607 2720.6 2838 2724.4 5445

Total5105 5112 1021

7

Stadiul 5

Se examinează valorile presupuse. În cazul în care

există valori mai mici decât 5, testul devine invalid şi se

abandonează.

Stadiul 6

Se calculează X2 după formula:

238

Page 239: statistica aplicata

X2 =

Practic pentru fiecare valoare observată:

Se calculează diferenţa (O – P)

Se ridică la pătrat fiecare rezultat

Acesta se împarte la valoarea presupusă respectivă

Se calculează suma tuturor rezultatelor obţinute

1985 1995

O P 2 O P 2 Tot

al

Vizite pentru

vacanţă

249

8

2384.

4

5.

4

227

4

2387.

6

5.

4

477

2

Vizite pentru

alte motive

260

7

2720.

6

4.

7

283

8

2724.

4

4.

7

544

5

Total 510

5

511

2

102

17

Valoarea totală 2 = 5.4 + 4.7 + 5.4 + 4.7 = 20.2

239

Page 240: statistica aplicata

Stadiul 7

Se calculează gradul de libertate (gf), revenindu-se

la stadiul 2 (tabelul de contingenţă), ignorând totalurile.

Formula gradului de libertate este:

gf = (nr) - 1 x (nc) – 1

Unde : nr = număr de rânduri

nc = număr de coloane

Pentru acest studiu de caz :gf = (2-1) x (2-1) = 1

Stadiul 8

Se alege gradul de confidenţă.

95% (p= 0.05)

99% (p=0.01)

99.9%(p=0.001)

95% reprezintă gradul minim de confidenţă acceptat în

ştiinţele sociale .

240

Page 241: statistica aplicata

Stadiul 9

Se face apel la tabelul valorilor critice al gradului de

confidenţă pentru testul X2.

Grad de

libertate

95%

(p=0.05)

99%

(p=0.01)

99.9%

(p=0.001)

1 3.84 6.64 10.83

2 5.99 9.21 13.82

3 7.82 11.34 16.27

4 9.49 13.28 18.46

5 11.07 15.09 20.52

6 12.59 16.81 22.46

7 14.07 18.48 24.32

8 15.51 20.09 26.12

241

Page 242: statistica aplicata

Stadiul 10

Dacă valoarea 2 este mai mare decât valoarea

critică se respinge ipoteza nulă.

Dacă valoarea 2 este mai mică decât valoarea

critică se acceptă ipoteza nulă

În acest studiul de caz - 2 = 20.2 pentru o valoare

critică de 3,84 , l grad de libertate 1, cu grad de confidenţă

95%, fapt ce atrage după sine respingere ipotezei nule cu

grad de confidenţă 95%

Stadiul 11

Interpretarea rezultatului

Întotdeauna se face apel la tabelul cu valorile

observate şi presupuse dar şi la toate toate informaţiile

colaterale venite de acolo.

Ex: În 1985 numărul vizitatorilor străini pentru alte

motive, a fost mai mare decât al celor (O=2607 , P =

2720.6) dar mai mic decât al celor sosiţi în vacanţă…

În 1995 numărul vizitatorilor străini sosiţi pentru o

vacanţă a fost mai mare decât al celor (O=2274 , P =

2387.6) şi mai mic decât al celor sosiţi pentru alte motive

242

Page 243: statistica aplicata

Concluzia: odată cu căderea comunismului un număr

mai mare de vizitatori străini au sosit în România pentru

vacanţă decât pentru alte motive.

Stadiul 12

Se argumentează concluzia anterioară utilizându-se

ca bază de pornire expresii precum: “Există o relaţie

semnificativă între motivaţia vizitării României şi anul în

care are loc vizita (Χ2 = 20.2, p=0.001) deoarece...

Se poate observa că acest test este primul test cu o

dimensiune de prognozare. Este o formă incipientă şi

insuficientă pentru îndeplinirea funcţiei statistice de

prognoză. Această funcţie se îndeplineşte odată cu trecerea

la tehnici de regresie şi analiză factorială.

243

Page 244: statistica aplicata

BIBLIOGRAFIE

Clegg, F. (1985) Simple Statistics; A course book for social sciences, Cambridge University Press, Cambridge

Dickinson G.C. (1963) Statistical Mapping and the Presentaton of Statistics, Edward Arnold Publishers, London

Dumitrache, L. (2004) Starea de sănătate a populaţiei României. O abordare geografică, Editura Univers Enciclopedic, Bucureşti.

Ebdon, D (1977) Statistics in Geography. A practical approach, Blackwell, Oxford

Gregory, S (1973) Statistical Methods and the Geographer, Longman, London

Isaic-Maniu, A (2003) Statistică, Editura Universitară, Bucureşti

Kranzler, G.; Moursund, J Cliffs, (1995) Statistics for theTerrified, Prentice Hall. Englewood, New Jersey

Mathew, H.; Foster, I. (1992) Geographical Data; Sources, presentation and analysis, Oxford University Press, Oxford

Nocak, A. (2004) Statististica şi sondajul de opinie, Editura Universitară, Bucureşti

Rateau, P. (2004) Metodele şi statisticile experimentale în ştiinţele umane, Polirom, Burureşti

Rogerson, P. (2003) Statistical Methods for Geography, Sage Publication, London

244

Page 245: statistica aplicata

Rotaru, T şi colab. (1999) Metode statistice aplicate în ştiinţele sociale, Polirom, Bucureşti

Sauvain, P. (1974) Advances Techniques and Statistics, Hulton

Ţarcă, M. (1998), Tratat de statistică aplicată, Editura Didactică şi Pedagogică, Bucureşti

Vaus de, D. (2004) Analyzing Social Science Data, Sage Publications, London

245

Page 246: statistica aplicata

246

Page 247: statistica aplicata

247

Page 248: statistica aplicata

248

Page 249: statistica aplicata

249

Page 250: statistica aplicata

250

Page 251: statistica aplicata

251

Page 252: statistica aplicata

252

Page 253: statistica aplicata

253

Page 254: statistica aplicata

254

Page 255: statistica aplicata

255

Page 256: statistica aplicata

256

Page 257: statistica aplicata

CUPRINS

Capitolul 1........................................................................5

Cuantificarea ca metodă de studiu, cercetare şi cunoaştere a realităţii socio geografice........................5

1.1. Introducere........................................................51.2. Funcţiile statistice...........................................141.3. Noţiuni statistice fundamentale cu

semnificaţie în geografia umană......................22

Capitolul 2......................................................................45

Procesul de grupare a informaţiei geografice de ordin statistic..............................................................45

2.1. Gruparea informaţiei geografice statistice – concept teoretic..............................46

2.2. Tipurile de grupări ale informaţiei geografice statisice...........................................50

2.3. Intervalele utilizate în grupare........................56

Capitolul 3......................................................................63

Informaţia geografică de ordin statistic – prezentare şi reprezentare grafică..................................63

257

Page 258: statistica aplicata

3.1. Seriile de repartiţie - terminologie, importanţă şi tipologie.......................................63

3.2. Seriile de repartiţie unidimesionale.................653.3. Seriile de repartiţie multidimensionale...........82

3.3.1. Seriile de repartiţie bidimensionale.........823.3.2. Reprezentarea grafică a seriilor

de repartiţie bidimensionale.........................833.3.3. Repartiţii tridimensional..........................87

3.4. Seriile dinamice...............................................883.5. Seriile de spaţiu...............................................96

3.5.1 Reprezentarea grafică a seriilor de spaţiu........................................................97

Capitolul 4....................................................................103

Analiza relaţiilor dintre procesele şi fenomenele sociale ...................................................103

4.1. Introducere....................................................1034.2. Metode de analiză ........................................111

4.2.1. Metoda seriilor statistice interdependente...........................................111

4.2.2. Metoda grupărilor..................................1134.2.3. Metoda grafică.......................................114

Capitolul 5....................................................................115

Rezumatul şi descrierea indicatorilor caracteristicilor statistice utilizate în geografia umană.........................115

5.1.Indicatorii de poziţie......................................1165.1.1. Modul....................................................1175.1.2. Mediana.................................................1195.1.3. Media (aritmetică).................................124

258

Page 259: statistica aplicata

5.2. Indicatorii de dispersie..................................1275.2.1 Amplitudinea..........................................1295.2.2. Abaterea standard..................................1315.2.3. Coeficientul de variaţie.........................133

5.3. Indicatori ai formei distribuţiei.....................135

Capitolul 6....................................................................145

Statistica inferenţială – introducere.............................145

6.1. Introducerea termenilor de populaţieşi eşantion......................................................145

6.2. Legea normală...............................................1516.2.1. Legea normală centrată şi redusă..........1546.2.2. Principiul testelor statistice...................166

6.3. Teste parametrice şi teste neparametrice......169

Capitolul 7....................................................................171

Testele în analiza statistică aplicată.............................171

7.1. Corelaţia .......................................................1727.1.1. Introducere...........................................1727.1.2. 7.1.2. Coeficientul de corelaţie

cu rang, Spearman......................................179

7.2. Testele neparametrice de semnificaţie. Semnificaţia statistică....................................192 .7.2.1. Introducere............................................1937.2.2 Semnificaţia statistică.............................1967.2.3. Testele de semnificaţie sau testarea

diferenţei la seturi de date/eşantioane.........1977.2.4. Testul ‚U’sau Mann Whitney ...............199

259

Page 260: statistica aplicata

7.2.5. Testul Wilcoxen sau testul ‚perechilor legate’.........................................................212

7.2.6. Testarea semnificaţiei diferenţei la nivel de set de date absolut independente. Testul Χ2.............................226

Bibliografie...................................................................240

260