159

Click here to load reader

Suport Curs Statistica Ro

  • Upload
    privat

  • View
    311

  • Download
    45

Embed Size (px)

Citation preview

Page 1: Suport Curs Statistica Ro

SISTEME DE ANALIZA A DATELORSUPORT CURS

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 2: Suport Curs Statistica Ro

CUPRINS

CAPITOLUL 1 - NECESITATEA ANALIZEI DE DATE...................................................................6

1.1. INTRODUCERE........................................................................................................................................61.2. OBIECTIVELE CAPITOLULUI...................................................................................................................61.3. CONTINUT.............................................................................................................................................6

1.3.1. Observarea statistica....................................................................................................................61.3.2. Principalele concepte utilizate in analiza de date........................................................................71.3.3. Sistematizarea datelor statistice...................................................................................................71.3.4. Prezentarea datelor sub forma de tabele si grafice statistice.....................................................101.3.5. Crearea unui tabel de contingenta.............................................................................................131.3.6. Principalele fuctii utilizate in programul Microsoft Excel..........................................................15

1.4. SINTEZA..............................................................................................................................................161.5. EXERCITII SI APLICATII........................................................................................................................17

CAPITOLUL 2 –INDICATORII TENDINTEI CENTRALE.............................................................21

2.1. INTRODUCERE......................................................................................................................................212.2. OBIECTIVELE CAPITOLULUI.................................................................................................................212.3. COTINUT..............................................................................................................................................21

2.3.1. Introducere.................................................................................................................................212.3.2. Media aritmetica........................................................................................................................222.3.3. Media armonică.........................................................................................................................242.3.4. Media pătratică..........................................................................................................................252.3.5. Media geometrică.......................................................................................................................262.3.6. Mediana.....................................................................................................................................272.3.7. Modul.........................................................................................................................................282.3.8. Analiza indicatorilor medii cu ajutorul Microsoft Excel............................................................28

2.4. SINTEZA..............................................................................................................................................352.5. EXERCITII SI APLICATII........................................................................................................................35

CAPITOLUL 3 – ANALIZA VARIATIEI SI ASIMETRIEI..............................................................37

3.1. INTRODUCERE......................................................................................................................................373.2. OBIECTIVELE CAPITOLULUI.................................................................................................................373.3. COTINUT..............................................................................................................................................37

3.3.1. Indicatorii simpli ai variaţiei:....................................................................................................373.3.2. Indicatorii sintetici ai variaţiei...................................................................................................383.3.3. Indicatorii asimetriei si boltirii..................................................................................................393.3.4. Calculul indicatorilor variatiei, asimetriei si boltirii utilizand functiile Microsoft Excel...........40

3.4. SINTEZA..............................................................................................................................................45

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 3: Suport Curs Statistica Ro

3.5. EXERCITII SI APLICATII........................................................................................................................46

CAPITOLUL 4 – SONDAJUL STATISTIC........................................................................................49

4.1. INTRODUCERE......................................................................................................................................494.2. OBIECTIVELE CAPITOLULUI.................................................................................................................494.3. CONTINUT...........................................................................................................................................49

4.3.1. Definire, concepte utilizate si etapele cercetarii selective (prin sondaj).....................................494.3.2. Concepte utilizate.......................................................................................................................504.3.3. Tipuri de sondaj.........................................................................................................................514.3.4. Etapele cercetarii selective (prin sondaj)...................................................................................524.3.5. Calculul indicatorilor de sondaj. Esimarea intervalelor de incredere........................................534.3.6. Determinarea volumul eşantionului...........................................................................................57

4.4. SINTEZA..............................................................................................................................................584.5. EXERCITII SI APLICATII........................................................................................................................58

CAPITOLUL 5 – TESTAREA IPOTEZELOR STATISTICE...........................................................62

5.1. INTRODUCERE......................................................................................................................................625.2. OBIECTIVELE CAPITOLULUI.................................................................................................................625.3. CONTINUT...........................................................................................................................................62

5.3.1. Introducere in testrea ipotezelor statistice..................................................................................625.3.2. Etapele testarii ipotezelor statistice............................................................................................635.3.3. Testul HI-patrat..........................................................................................................................64

5.4. SINTEZA..............................................................................................................................................685.5. EXERCITII SI APLICATII........................................................................................................................69

CAPITOLUL 6 – ANALIZA LEGATURII DINTRE VARIABILELE STATISTICE.....................73

6.1. INTRODUCERE......................................................................................................................................736.2. OBIECTIVELE CAPITOLULUI.................................................................................................................736.3. COTINUT..............................................................................................................................................736.4. SINTEZA..............................................................................................................................................846.5. EXERCITII SI APLICATII........................................................................................................................85

Bibliografie.............................................................................................................................107

ANEXE.................................................................................................................................................... 108

ANEXA 1 - PREZENTAREA FUNCŢIILE EXCEL UTILIZATE MAI FRECVENT ÎN ANALIZE SOCIO-ECONOMICE..................................109Anexa 2 - Prezentarea componentelor Analysis Tool Pack, conform Microsoft Help.....................................113

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 4: Suport Curs Statistica Ro

LISTA de TABELE

Tabel nr. 1 - Categorii de funcţii Excel.................................................................................................16

Tabel nr. 2 – incasarile si profitul companiilor din top 100, conform fortune 500..............................17

Tabel nr. 3 - salariul brut si experienta angajatilor din esantion.........................................................19

Tabel nr. 4 - Output-ul descriptive statistics.......................................................................................34

Tabel nr. 5 - Output-ul descriptive statistics.......................................................................................45

TABEL NR. 6 - Distributia cifrei de afaceri a companiilor....................................................................46

Tabel nr. 7 – VALORILE OBSERVATE DIN TABELUL DE CONTINGENTA.................................................71

Tabel nr. 8 – VALORILE ASTEPTATE DIN TABELUL DE CONTINGENTA..................................................71

Tabel nr. 9 – Distributia duratei de viata a componentelor.................................................................72

Tabel nr. 10 – Salariul brut (RON) si experienta angajatilor din esantion............................................76

Tabel nr. 11 – Output-ul Optiunii Data Analysis/Regression................................................................81

Tabel nr. 12 – Exporturile si importurile celor 27 tari ale UE (miliarde Euro)......................................85

Tabel nr. 13 – CALCULUL VALORILOR INTERMEDIARE PENTRU...........................................................88

TABEL NR. 14 – CALCULUL VALORILOR INTERMEDIARE PENTRU DETERMINAREA COVARIANTEI (MILIARDE EURO)...................................................................................................................................................89

TABEL NR. 15 – CALCULUL VALORILOR TEORETICE ALE IMPORTURILOR PE BAZA FUNCTIEI DE REGRESIE (MILIARDE EURO).................................................................................................................................91

TABEL NR. 16 – COEFICIENTII DREPTEI DE REGRESE LINIARA CONFORM OUTPUT-ULUI EXCEL..........94

TABEL NR. 17 – INDICATORII DE REGRESE LINIARA SI CORELATIE CONFORM OUTPUT-ULUI EXCEL..95

TABEL NR. 18 – TABELUL ANOVA CONFORM OUTPUT-ULUI EXCEL.....................................................95

TABEL NR. 19 – COEFICIENTII DREPTEI DE REGRESE LINIARA CONFORM OUTPUT-ULUI EXCEL..........95

TABEL NR. 20 – CALCULUL VALORILOR INTEMEDIARE PENTRU TESTUL DURBIN-WATSON.................99

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 5: Suport Curs Statistica Ro

LIST de FIGURI

Fig. nr. 1 - Optiunea de sortare a datelor...............................................................................................8Fig. nr. 2 – Casuta de dialog de la sortarea datelor...............................................................................8Fig. nr. 3 – Sortarea dupa criterii multiple..............................................................................................9Fig. nr. 4 – Casuta de dialog a functiei frequency.................................................................................10Fig. nr. 5 – Alegerea tipului de grafic....................................................................................................11Fig. nr. 6 – Modificarea tipului de grafic...............................................................................................12Fig. nr. 7 – Selectarea sursei datelor a unui grafic................................................................................12Fig. nr. 8 – alegerea elementelor de identificare a graficului statistic..................................................13Fig. nr. 9 – Argumentele functiei VLookup...........................................................................................13Fig. nr. 10 – Crearea unui tabel de contingenta (pivot)........................................................................14Fig. nr. 11 – Instrumentele de creare a unui tabel de contingenta (pivot)...........................................15Fig. nr. 12 – Accesarea functiei average...............................................................................................28Fig. nr. 13 – Accesarea functiei Geomean............................................................................................29Fig. nr. 15 – Accesarea functiei Harmean.............................................................................................29Fig. nr. 16 – Accesarea functiei Median................................................................................................30Fig. nr. 17 – Accesarea functiei Mode..................................................................................................30Fig. nr. 18 – accesarea functiei sumproduct.........................................................................................31Fig. nr. 19 – accesarea Excel add-ins....................................................................................................32Fig. nr. 20 – Alegerea Instrumentelor de analiza..................................................................................33Fig. nr. 21 – Alegerea optiunii descriptive statistics..............................................................................33Fig. nr. 22 – Fereastra de dialog descriptive statistics..........................................................................34Fig. nr. 23 – Accesarea functieiilor max si min pentru calcularea amplitudinii variatiei.......................40Fig. nr. 24 – Accesarea functiei varp.....................................................................................................41Fig. nr. 25 – Accesarea functiei varp.....................................................................................................41Fig. nr. 26 – Accesarea functiei stdevp.................................................................................................42Fig. nr. 27 – Accesarea functiei stdev...................................................................................................42Fig. nr. 28 – Accesarea functiei skew....................................................................................................43Fig. nr. 29 – Accesarea funciei skew.....................................................................................................44Fig. nr. 30 – Fereastra de dialog descriptive statistics..........................................................................44Fig. nr. 31 – Accesarea functiei randbetween......................................................................................53Fig. nr. 32 – Construirea intervalelor de incredere...............................................................................55Fig. nr. 33 – distributia HI-patrat..........................................................................................................65Fig. nr. 34 – accesarea functiei CHIINV.................................................................................................67Fig. nr. 35 – Construirea graficului de tip nor de puncte (scatter)........................................................77Fig. nr. 36 – Interdependenta dintre salariul brut si experienta...........................................................77Fig. nr. 37 – selectarea functiei de regresie prin metoda grafica..........................................................78Fig. nr. 38 –alegerea tipului functiei de regresie..................................................................................78

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 6: Suport Curs Statistica Ro

Fig. nr. 39 – afisarea functiei de regresie pe graficul norului de puncte...............................................79Fig. nr. 40 –alegerea optiunii de regresie.............................................................................................80Fig. nr. 41 –fereastra de dialog a o[iunii regression..............................................................................80

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 7: Suport Curs Statistica Ro

CAPITOLUL 1 - NECESITATEA ANALIZEI DE DATE

1.1. Introducere

Prima etapa a cercetarii realitatii sosio-economice este cea a identificarii, obervarii si colectarii datelor ce caracterizeaza fenoomenul sau procesul analizat, etapa denumita observare statistica, un proces care, de regula, se desfasora conform unui plan al observarii, care precizeaza clar scopul observarii, colectivitatea statistica supusa observarii, unitatea de observare, programul observarii, perioada de inregistrare a datelor, locul realizarii observarii statistice, masurile organizatorice privind aspectele logistice ale desfasurarii procesului de observare statistica.

Dupa obtinerea datelor statistice in urma procesului de observare statistica, se trece la etapa de sistematizare a datelor, obtinandu-se un set de date statistice sau o baza de date care va intra in procesul de realizare de calcul si analiza de date si prezentare a datelor in tabele si grafice statistice adecvate.

1.2. Obiectivele capitolului

Capitolul isi propune sa analizeze principalele aspecte referitoare la necesitatea analizei de date in contextul unui management performant, modalitatile de obtinere a datelor, de prelucrare a acestora, de prezentare a rezultatelor in forme adecvate pentru a extrage cat mai rapid informatia necesara deciziei de afaceri, pentru a sustine cat mai convingator o opinie etc.

Culegerea, sistematizarea, prelucrarea, prezentarea si interpretarea rezultatelor va fi prezentata utilizand programul Microsoft Excel 2007.

1.3. Continut

1.3.1. Observarea statistica

Observarea statistica, ca prima etapa a procesului de analiza manageriala a datelor, poate urmari fie observarea directa, pe teren , fie indirecta, documentara.

Observarea directă poate fi, in funcţie de volumul colectivităţii cercetate, observarea directă totală sau parţială.

Principalele modalitatii de observare directa totala sunt recensamantul (cea mai veche forma a observarii totale), inventarierea, rapoartele statistice si monografia statistica.

Observarea directa partiala urmareste analizarea a unei parti din colectititatea statistica urmand ca, in urma procesului de inferenta statistica, sa se generalizeze rezultatele analizei pe intreaga colectivitate statistica.

Principalele tipuri de observare parţială sunt:

sondajul statistic (selecţia statistică) presupune extragerea din populaţia totală ce se doreşte a fi cercetată, a unei părţi, numită eşantion sau mostră.

Observarea părţii principale (observarea masivului de date) reprezintă o metodă ce se aplică colectivităţilor ce prezintă grupe de importanţă diferită, estimarea indicatorilor pe ansamblul colectivităţii facându-se pe baza datelor înregistrate pentru grupele semnificative, importante ca pon-dere în colectivitatea generală.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 8: Suport Curs Statistica Ro

Ancheta de opinie constă în culegerea de date de la o parte a populaţiei şi/sau completarea unor chestionare speciale pentru a se obţine unele informaţii orientative despre fenomenul supus cercetării, dar fără a se face demersuri speciale – ca în cazul sondajului statistic – pentru asigurarea re pre-zentativităţii eşantionului.

Observarea indirectă consta in preluarea datelor din alte surse de informare. In acest caz, insa, este important ca managerul sa nu preia în mod automatic datele ci sa verifice atent continutul informatiei preluate. Mai mult, in cazul coletarii datelor din mai multe surse, este absolut necesară verificarea compatibilităţii metodologiilor intre datele preluate.

1.3.2. Principalele concepte utilizate in analiza de date

Colectivitatea statistică (populaţia statistică) cuprinde totalitatea manifestărilor unui fenomen sau proces supus cercetării statistice. Colectivitatea statistică specifică vieţii economico-sociale are un caracter obiectiv, concret, finit, având o clară determinare în spaţiu şi timp, spre deosebire de colectivităţile teoretice, abstracte, infinite, cu care operează statistica matematică.

Unitatea statistică reprezintă elementul, manifestarea sau concretizarea colectivităţii cercetate. Fiecare unitate se înregistrează separat în timpul observării statistice întrucât ea este purtătoare atât a trăsăturilor comune ale colectivităţii statistice, cât şi a unor particularităţi care o fac să se deosebească de alte unităţi ale colectivităţii.

Varianta reprezintă nivelul observat al caracteristicii pentru fiecare unitate statistică înregistrată.

Frecvenţa de apariţie a unei variante distincte sau a unui grup de variante, poate fi absolută, ceea ce constă în numărul de înregistrări (apariţii) într-o colectivitate sau relativă adică, ponderea, greutatea specifică sau cota parte în totalul elementelor unei colectivităţi.

1.3.3. Sistematizarea datelor statistice

In procesul de analiza a performantei firmei sau a mediului de afaceri apre de multe ori necesitatea analizei unor volume mari de date.

De cele mai multe ori, dupa o prima etapa a culegerii de date se obtine un set de date – o serie simple de date - prezentata într-o formă aleatoare, neregulată, facand dificila extragerea informatiilor esentiale ce caraterizeaza colectivitatea analizata.

Prin urmare, apare necesitatea sistematizarii datelor, a organizarii acestora intr-o forma care sa permita extragerea a tot ce este esential si necesar in procesul decizional.

Prelucrarea initiala a unei serii simple de date

O situatie uzuala in practica de afaceri este cea iin care se doreste prelucrarea unei baze de date simple aflata in format Excel.

In Excel, baza de date este practic formata dintr-o lista, in care au fost introduse pe de o parte numele campului in randul de sus al bazei de date (formand variabilele de analiza) apoi datele propriu-zise in celulele urmatoare. Este necesar ca sa nu existe randuri goale intre numele campurilor si inregistrari.

Sortarea datelor

Sortarea datelor statistice prezentate in forma matriciala se realizeaza astfel:

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 9: Suport Curs Statistica Ro

o Din meniul Data, se alege din sectiunea Sort & Filter optiunea Sort. Daca selectarea datelor s-a

realizat inclusiv cu denumirea variabilelor analizate, se selecteaza optiunea My data has header. Se alege in cadrul optiunii Sort by denumirea variabilei dupa care se doreste realizarea sortarii primare a datelor

FIG. NR. 1 - OPTIUNEA DE SORTARE A DATELOR

o Daca datele s-au selectat fara includerea denumirii variabilelor analizate, se alege in cadrul optiunii

Sort by coloana in care se afla variabila dupa care se doreste realizarea sortarii primare a datelor.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 10: Suport Curs Statistica Ro

FIG. NR. 2 – CASUTA DE DIALOG DE LA SORTAREA DATELOR

Daca se dreste realizarea unei selectii multiple, se acceaseaza optiunea Add Level, si se adauga criterii suplimentare de sortare a datelor.

FIG. NR. 3 – SORTAREA DUPA CRITERII MULTIPLE

Crearea unei serii de frecvente (gruparea datelor)

Gruparea statistică este procedeul de sintetizare a datelor statistice, trecandu-se dintr-o serie de date simpla intr-o serie de distributie de frecvente. Variabila dupa care se grupeaza datele poate fi atat cantitativa cat si calitativa.

Daca gruparea se realizeaza dupa doua variabile statistice simultan se obtine o grupare combinata sau un tabel de contingenta.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 11: Suport Curs Statistica Ro

Gruparea datelor dupa o singura variabila statistica

Gruparea datelor după o singură variabilă se poate realiza atat pe intervale egale cat si pe intervale inegale, in functie de necesitatile de analiza ale managerului.

Gruparea datelor pe intervale egale după o singură variabilă presupune parcurgerea următoarelor etape:

Calculul amplitudinii variaţiei, ca diferenţă între valoarea maximă (xmax) şi, respectiv, valoarea minimă (xmin) înregistrată de variabila analizată: Ax = xmax – xmin;

Stabilirea numărului de grupe/intervale (k). – nu exista o regula unanim acceptata, insa numarul de grupe trebuie astfel ales incat, pe de o parte, sa nu se piarda din complexitatea informatiei continuta de seria simpla de data iar, pe de altă parte, suficient de mic pentru a permite o analiză rapidă, dar coerentă. De regulă, numărul de grupe/intervale folosit în analizele economice este cuprins între 5 şi 15 grupe. Una dintre regulile prezentate in literatura de specialitate

precizeaza ca numarul de grupe k se poate alege astfel: k este primul numar intreg pentru care , unde N

reprezinta numarul total de observatii cuprinse in seria simpla de date.

Determinarea mărimii (r) fiecărui interval de grupare:

[1.1]

unde: A = amplitudinea absolută a variaţiei; r = numărul de grupe/intervale de variaţie.

De obicei, în analizele economice se procedează la rotunjirea mărimii intervalului, astfel încât să permită o prezentare cât mai sugestivă a datelor, precum şi o prelucrare numerică simplă.

In Microsoft Excel, pentru a stabili amplitudinea variatie se face diferenta dintre maxim si minim, aplicand functiile:

MAX() – returnează argumentul cu valoarea maximă;

MIN() – returnează argumentul cu valoarea minimă;

Calculul frecventelor absolute corespunzatoare fiecarei grupe se realizeaza in Excel utilizand functia frequency.

FIG. NR. 4 – CASUTA DE DIALOG A FUNCTIEI FREQUENCY

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 12: Suport Curs Statistica Ro

Argumentele functiei Frequency sunt:

Data_array – reprezentand seria simpla de date initiale

Bins_array – reprezinta o coloana nou creata, prezentand limitele superioare ale fiecarui interval de grupare

1.3.4. Prezentarea datelor sub forma de tabele si grafice statistice

Tabelul statistic este o formă de prezentare ordonată şi completă a datelor, care trebuie sa includa urmatoarele elemente:

Titlul tabelului, trebuie să precizeze în puţine cuvinte natura datelor cuprinse în tabel, fixând, totodată, în spaţiu şi timp fenomenul/procesul analizat.

Macheta tabelului este alcatuita din liniile orizontale şi verticale a căror intersecţie conduce la formarea de celule si in care se vor prezenta datele analizate.

Subiectul tabelului – este format din componentele variabilei supuse analizei si se regasesc in capetele rândurilor tabelului

Predicatul tabelului – este format din aspectele cantitative/calitative ce caracterizeaza populatia statistica analizata si se regasesc in capetele coloanelor tabelului

Sursa datelor se trece într-o formă explicită imediat sub tabel.

Nota explicativă se trece fie imediat după sursa datelor, fie în subsolul paginii pe care se află tabelul

Graficul statistic prezinta datele sub formă de imagini spaţiale cu caracter convenţional, prezentand sintetic forma si caracteristicile principale ale setului de date analizat.

Elementele unui grafic statistic sunt:

Titlul graficului are aceleaşi caracteristici ca şi titlul tabelului statistic.

Axa sau axele de referinţă ale graficului.

Scara graficului se foloseşte pentru gradarea axei/axelor.

Legenda graficului explică simbolurile, diferitele culori sau haşuri folosite în grafic.

Graficul propriu-zis este reprezentat de puncte, linii, figuri geometrice în plan sau spaţiu, sau figuri natural-convenţionale construite la scară.

Sursa datelor se plasează imediat sub grafic.

Nota explicativă are aceleaşi caracteristici cu cele prezentate la tabelul statistic.

In Excel, pentru realizarea unui grafic se parcurg mai multe etape:

Se alege tipul graficului in functie de caracteristicile varibilei (variabilelor) ce urmeaza a fi reprezentate; alegerea tipului de grafic (diagrama prin coloane, diagrama de structura, linii etc) se poate face in mai multe moduri:

o Din meniul Insert, se alege din Charts, tipul de grafic dorit:

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 13: Suport Curs Statistica Ro

FIG. NR. 5 – ALEGEREA TIPULUI DE GRAFIC

o Din meniul Design, se alege din lista prezentata in Chart Type si, eventual, Charts Layout:

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 14: Suport Curs Statistica Ro

FIG. NR. 6 – MODIFICAREA TIPULUI DE GRAFIC

Se stabileste sursa de date:

o Din meniul Design, se alege din sectiunea Data, optiunea Select Data; selectarea valorilor prezentate

pe axa orizontala (de exemplu anii analizei, in cazul unei serii cronologice) se poate realiza cu apeland selectia Horizontal (Category) Axis Label, - Edit si selectarea efectiva a valorilor ce se doresc a fi evidentiate pe axa orizontala.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 15: Suport Curs Statistica Ro

FIG. NR. 7 – SELECTAREA SURSEI DATELOR A UNUI GRAFIC

Se precizeaza elementele de identificare a graficului statistic: titlul graficului, formatul si intervalele de variatie ale axelor verticale si/sau orizontale ale graficului, legenda, valorile observatiilor reprezentate grafic etc.

o Din meniul Layout se pot alege oricare din optiunile prezentate in sectiunile Labels and Axes

FIG. NR. 8 – ALEGEREA ELEMENTELOR DE IDENTIFICARE A GRAFICULUI STATISTIC

1.3.5. Crearea unui tabel de contingenta

De multe ori se doreste analiza simultana a doua sau chiar mai multe variabile, ceea ce presupune gruparea simultana a datelor dupa doua sau mai multe variabile statistice.

Pentru a analiza coerenta a datelor, variabilele de grupare trebuie sa fie variabile calitative sau variabile cantitative grupate pe intervale de variatie.

Cu alte cuvinte, daca avem o serie simpla de date corespunzatoare unei variabile cantitative, prima etapa o constituie impartirea variatiei pe un numar relativ redus de categorii sau de intervale de variatie. Spre exemplu, vechimea angajatilor prezentata pentru fiecare din cei 48 angajati cuprinsi intr-un esantion (vezi aplicatia 1.2) poate fi grupata pe trei intervale de variatie: vechime mica, vechime medie, vechime mare. O alta posibilitate ar fi prezentarea celor trei intervale de variatie sub forma: vechime sub 10 ani, vechime 10-20 ani si vechime de 20 si peste.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 16: Suport Curs Statistica Ro

Afisarea directa a categoriei de vecime intr-o foaie de lucru Excel se poate realiza utilizand functia VLOOKUP.

FIG. NR. 9 – ARGUMENTELE FUNCTIEI VLOOKUP

Functia VLOOKUP.are urmatoarele argumente

Lookup_value – reprezinta setul de date initiale pentru care se doreste defnirea categoriilor de variatiei;

Table_array – reprezinta matricea unui tabel care trebui construit separat, in are prima coloana corespunde valorii limitei inferioare a fiecarui interval de variatie, iar coloanele urmatoare denumirii fiecarei categorii/ intervalului definit de variatie;

Col_index_num – reprezinta coloana din tabelul predefinit anterior, ale carui valori se doresc a fi afisate in noua coloana creata in matricea de date;

Range_lookup – este un argument optional, boolean, cu doua posibile valori – TRUE sau 1 daca se doreste gasirea valorii celei mai apropiate de cea definita in setul de date initial, FALSE sau 0 daca se doreste valoarea exacta.

Utilizarea acestei functii permite definirea unei variabile suplimentare, ce va prezenta un numar redus de categorii/intervale de variatie, si care va permite realizara unui tabel de contingenta (tabel pivot sau tabel cu dubla intrare).

Tabelul pivot permite alegerea variabilelor prezentate pe coloanele/randurile tabelului.

Un tabel pivot are mai multe sectiuni importante:

1. Pivot Table Filed List – afiseaza variabilele cuprinse in matricea initiala de date;

2. Casutele din dreapta – jos – aceasta sectiune defineste unde si cum vor arata informatiile in foaia de calcul. Aici se poate specifica in ce forma sa fie prezentate datele analizate – ca suma, produc, filtrate, etc;

3. Area tabelara din foaia de calcul, care este rezultatul combinarii sectiunilor anterioare.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 17: Suport Curs Statistica Ro

Crearea unui Tabel Pivot

Crearea unui tabel pivot porneste de la pozitionarea cursorului pe oricare din celulele din aria care contine datele statistice ce trebuiesc grupate intr-un astfel de tabel. Se acceseaza din meniul Insert, sectiuneaTables/ Pivot Table.

FIG. NR. 10 – CREAREA UNUI TABEL DE CONTINGENTA (PIVOT)

Pozitionarea cursorului in campul de date va asigura selectarea implicita a setului de date. In caz contrar, se selecteaza manual setul de date dorit. In ambele cazuri se specifica daca tabelul pivot se va construi intr-o foaie de calcul separata (New worksheet) sau chiar in foaia de calcul cu datele primare.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 18: Suport Curs Statistica Ro

FIG. NR. 11 – INSTRUMENTELE DE CREARE A UNUI TABEL DE CONTINGENTA (PIVOT)

Pentru a stabili variabilele dupa care se face analiza, acestea se vor selecta si se vor insera fie direct in tabel (Drag and drop), in campurile Colum label si, respectiv, Row label.

Categoriile fiecarei variabile inserate pe rand sau coloana vor fi afisate in ordine alfabetica, de aceea uneori va fi necesara rearanjarea categoriilor in functie de ordinea logica a acestora.

Datele din interiorul tabelului vor fi obtinute fie ca numar al observatiilor calculate simultan dupa cele doua variabile fie dupa alte variabile (de exemplu vanzari totale, rate ale profitului etc).

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 19: Suport Curs Statistica Ro

1.3.6. Principalele fuctii utilizate in programul Microsoft Excel

Programul Excel oferă utilizatorului sute de funcţii care se pot apela pentru a calcula rezultate folosite în finanţe, contabilitate, statistică, matematică, inginerie sau în alte domenii ştiinţifice, economice, sociale.

TABEL NR. 1 - CATEGORII DE FUNCŢII EXCEL

Categorie Exemple

Financial (financiare) Calculează valoarea actualizataneta, rata dobânzii, rata lunară de rambursare a împrumutului, valoarea amortizarii

Date & Time (data şi ora) Determină ora curentă, ziua din săptamână sau din an, ora sau data

Math & Trig (matematică şi trigonometrie)

Calculează valoarea absolută, rădăcina pătratică, suma, funcţia exponenţială, funcţia logaritmică, funcţii trigonometrice, etc.

Statistical (statistică) Calculează medi aritmetice, geometrice, mediana, modul, abateri medii pătratice, cuantile, teste statistice etc.

Look & Reference (căutare şi referinţă)

Caută şi returnează valori dintr-un domeniu, creează hiperconexiuni în reţele sau documente din INTERNET

Database (bază de date) Prelucrează valori dintr-o bază de date (tabel) din Excel

Text (text) Converteşte text în majuscule sau minuscule, elimină caractere din dreapta sau stânga, concatenează şiruri de caractere, etc.

Logical (logic) Evaluează o expresie logică şi returnează o valoare TRUE (adevărat) sau FALSE (fals), folosită pentru diverse acţiuni sau pentru formatare (condiţionată)

Information (informaţie) Returnează informaţii din programul Excel sau Windows, referitoare la starea unei celule, a unui obiect sau mediu în ansamblu

Înainte de a apela o funcţie, utilizatorul trebuie să cunoască rezultatul afisat de funcţie, ce argumente trebuie sa aibă funcţia (tipul şi semnificaţia lor) şi modul de apelare al funcţiei.

O prezentare mai detaliata a functiilor celor mai uzuale, si a argumentelor acestora este prezentata in Anexa 1

1.4. Sinteza

In obtinerea datelor statistice necesare realizarii de analize, pot fi utilizate doua mari categorii de oservare statistica: observarea totala – in care sunt culese date privind toate elementele populatiei statistice si observarea partiala – in care se culeg date despre un subset al populatiei, numit esantion, urmand ca, prin procesul de inferenta statistica, sa se generalizeze rezultatele pentru intreaga colectivitate statistica, specificand un nivel de incredere in rezultat.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 20: Suport Curs Statistica Ro

Dupa culegerea datelor, este necesarea sistematizarea acestora. Datele primare, culese direct de catre analist, sunt prezentate, de regula, sub forma matriciala sub forma unei serii simple de date. In Microsoft Excel, pentru fiecare variabila analizata, se constituie un vector (lista) de date.

Trecerea dintr-o serie simpla de date intr-o serie de frecvente se face pornind de la definirea intervalelor de grupare, pentru care se vor calcula (utilizand, spre exemplu, functia Frequency) frecventele absolute corespunzatoare fiecarui interval de grupare.

Dupa culegerea si sitematizarea datelor, urmeaza etapa prezentarii datelor sub forma de tabele si grafice statistice. Este importanta realizarea in mod corect si complet a graficelor si tabelelor statistice, care sa includa numarul tabelului si/sau figurii, titlul, clara definire a variabilelor prezentate, inclusiv unitatea de masura precum si sursa datelor.

Urmatoarea etapa o reprezinta analiza datelor, prin calculul unor indicatori specifici –cum ar fi indicatorii medii, indicatorii variatiei, indicatorii asimetriei etc. Prezentati in capitolele urmatoare.

1.5. Exercitii si aplicatii

Aplicatia nr. 1.1

Conform datelor publicate de catre clasamantul anual al celor mai mari corporatii din Statele Unite ale Americii – Fortune 500, primele 100 de companii dupa incasarille otinute in anul 2009 prezinta urmatoarele valori ale incasarilor si profitului (exprimate in milioane dolari):

TABEL NR. 2 – INCASARILE SI PROFITUL COMPANIILOR DIN TOP 100, CONFORM FORTUNE 500

Nr crt

CompaniaIncasari (mil USD)

Profit (mil

USD)  

Nr crt

CompaniaIncasari

(mil USD)

Profit (mil

USD)

1 Exxon Mobil 442,851 45,220 51 Supervalu 44,048 593

2 Wal-Mart Stores 405,607 13,400 52 PepsiCo 43,251 5,142

3 Chevron 263,159 23,931 53 Kraft Foods 42,867 2,901

4 ConocoPhillips 230,764 -16,998 54 Lockheed Martin 42,731 3,217

5 General Electric 183,207 17,410 55 Hess 41,094 2,360

6 General Motors 148,979 -30,860 56 Best Buy 40,023 1,407

7 Ford Motor 146,277 -14,672 57 Cisco Systems 39,540 8,052

8 AT&T 124,028 12,867 58 Johnson Controls 38,062 979

9 Hewlett-Packard 118,364 8,329 59 FedEx 37,953 1,125

10 Valero Energy 118,298 -1,131 60 Walt Disney 37,843 4,427

11 Bank of America Corp. 113,106 4,008 61 Intel 37,586 5,292

12 Citigroup 112,372 -27,684 62 Sysco 37,522 1,106

13 Berkshire Hathaway 107,786 4,994 63 Honeywell International 36,556 2,792

14International Business Machines 103,630 12,334 64 Sprint Nextel 35,635 -2,796

15 McKesson 101,703 990 65 Enterprise GP Holdings 35,470 164

16 J.P. Morgan Chase& Co. 101,491 5,605 66 GMAC 35,445 1,868

17 VerizonCommunications 97,354 6,428 67 Ingram Micro 34,362 -395

18 Cardinal Health 91,091 1,301 68 Comcast 34,256 2,547

19 CVS Caremark 87,472 3,212 69 Northrop Grumman 33,940 -1,262

20 Procter & Gamble 83,503 12,075 70 News Corp. 32,996 5,387

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 21: Suport Curs Statistica Ro

Nr crt

CompaniaIncasari (mil USD)

Profit (mil

USD)  

Nr crt

CompaniaIncasari

(mil USD)

Profit (mil

USD)

21 UnitedHealth Group 81,186 2,977 71 Apple 32,479 -4,834

-22 Kroger 76,000 1,249 72 CHS 32,168 803

23 Marathon Oil 73,504 3,528 73 Coca-Cola 31,944 5,807

24 Costco Wholesale 72,483 1,283 74 American Express 31,877 2,699

25 Home Depot 71,288 2,260 75 DuPont 31,836 2,007

26 AmerisourceBergen 70,594 251 76 New York Life Insurance 31,416 -950

27 Archer Daniels Midland 69,816 1,802 77 Aetna 30,951 1,384

28 Target 64,948 2,214 78 Motorola 30,146 -4,244

29 Johnson & Johnson 63,747 12,949 79Plains All American Pipeline 30,061 437

30 Morgan Stanley 62,262 1,707 80 Abbott Laboratories 29,528 4,881

31State Farm Insurance Cos. 61,343 -542 81 Allstate 29,394 -1,679

32 WellPoint 61,251 2,491 82 TIAA-CREF 29,363 -3,345

33 Dell 61,101 2,478 83 General Dynamics 29,302 2,459

34 Boeing 60,909 2,672 84 Prudential Financial 29,275 -1,073

35 Microsoft 60,420 17,681 85 Humana 28,946 647

36 Walgreen 59,034 2,157 86Liberty Mutual Insurance Group 28,855 1,140

37 United Technologies 58,681 4,689 87 Deere 28,438 2,053

38 Dow Chemical 57,514 579 88 HCA 28,374 673

39 MetLife 55,085 3,209 89 Tyson Foods 28,130 86

40 Goldman Sachs Group 53,579 2,322 90 Alcoa 28,119 -74

41 Sunoco 51,652 776 91 Tesoro 28,031 278

41 Wells Fargo 51,652 2,655 92 Murphy Oil 27,513 1,740

43 United Parcel Service 51,486 3,003 93Philip Morris International 25,705 6,890

44 Caterpillar 51,324 3,557 94 Emerson Electric 25,281 2,412

45 Medco Health Solutions 51,258 1,103 95 3M 25,269 3,460

46 Pfizer 48,296 8,104 96 Macy's 24,892 -4,803

47 Lowe's 48,230 2,195 97 International Paper 24,829 -1,282

48 Time Warner 46,984 -13,402 98 Occidental Petroleum 24,480 6,857

49 Sears Holdings 46,770 53 99 Travelers Cos. 24,477 2,924

50 Safeway 44,104 965   100 Rite Aid 24,418 -1,079Sursa: http://money.cnn.com/magazines/fortune/fortune500/2009/

Se cere:

1. Sa se caracterizeze cele doua serii simple de date privind incasarile si profitul companiilor din top 100

2. Sa se grupeze seria simpla de data intr-o serie de frecvente cu interval egale

3. Sa se constriasca un tabel de contingenta (table pivot).

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 22: Suport Curs Statistica Ro

Aplicatia nr. 1.2.

Un esantion de 48 angajati ai unei companii prezinta urmatoarele valori ale salariului brut lunar si al experientei in domeniul in care activeaza fiecare angajat:

TABEL NR. 3 - SALARIUL BRUT SI EXPERIENTA ANGAJATILOR DIN ESANTION

Nr crtSalariul

brut lunar (RON)

Experienta (ani)

 Nr crt

Salariul brut lunar

(RON)

Experienta (ani)

1 1942 3   25 1833 7

2 3190 10   26 2207 14

3 3163 7   27 2533 16

4 3205 17   28 2123 13

5 3036 11   29 2096 8

6 2942 12   30 2373 8

7 1464 5   31 2306 11

8 1464 6   32 2413 9

9 2587 10   33 2393 7

10 1439 4   34 2533 24

11 3190 13   35 2207 12

12 3511 8   36 2207 9

13 3378 20   37 2500 11

14 2942 10   38 2306 6

15 2693 16   39 1014 1

16 12152 27   40 6523 18

17 10479 20   41 3166 11

18 6376 10   42 3578 33

19 7414 21   43 3849 14

20 4955 30   44 7062 22

21 6303 25   45 3727 10

22 7953 15   46 3874 9

23 6376 13   47 4201 10

24 2207 5   48 4215 25

Se cere:

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 23: Suport Curs Statistica Ro

1. Sa se caracterizeze cele doua serii simple de date

2. Sa se grupeze fiecare seria simpla de data intr-o serie de frecvente cu interval egale si inegale.

3. Sa se construiasca un tabel de contingenta luand in considerare ambele variabile

CAPITOLUL 2 –INDICATORII TENDINTEI CENTRALE

2.1. Introducere

Managerul unei companii doreste sa extraga cat mai rapid informatia in activitatea de management current al firmei. De cele mai multe ori, urmareste sa obtina un indicator care sa sintetizeze intr-o valoare unica ceeea ce este tipic, essential pentru un set de date analizat.

Valorile tendintei centrale sunt calculate pentru a furniza, intr-o singura valoare, locatia centrala a unui set de date, sau, altfel spus, un fel de centru de greutate al datelor care să permita exprimarea esenţei comune a tuturor sau a majorităţii manifestărilor individuale ce alcătuiesc populatia statistica sau esantionul de date analizat.

2.2. Obiectivele capitolului

Capitolul isi propune sa prezinta principalii indicatori ai tendintei centrale utilizati in activitatile curente de management. Astfel, sunt prezetate modalitatea de calcul si situatiile in care se recomanda utilizarea mediilor. Mediile sunt grupate in doua categorii - mediile calculate si mediile pozitionale – mediana si valoarea modala. Mediile calculate sunt analizate atat pentru seriile simple de date cat si pentru distributiile de frecvente.

2.3. Cotinut

2.3.1. Introducere

Mediile sunt indicatori statistici care au forma de calcul abstracta insa se exprima sub forma concretă, în aceleaşi unităţi de măsură ca şi variabila analizata pentru care se calculează.

Pentru ca valoarea medie să fie reprezentativă pentru întreaga colectivitate, trebuie să se ţină cont de următoarele cerinţe:

utilizarea unui număr suficient de mare de observaţii, astfel încât esenţa comună să poată fi evidenţiată;

aleagerea acelui tip de medie, care corespunde cât mai bine naturii variaţiei fenomenului analizat.

În funcţie de tipul datelor disponibile şi de necesităţile de analiză, poate fi folosită una din următoarele două categorii de mărimi medii:

medii calculate;

medii poziţionale.

Mediile calculate se determină pe baza intregului set de date inregistrat pentru variabila analizata. Dintre mediile calculate cele mai cunoscute sunt media aritmetica, media geometrica, media armonica, media patratica, media cubica, media parabolica, media cronologica.

Mediile pozitionale nu se calculeaza ci se indentifică în setul de date cu câte o variantă reală, care posedă o anume proprietate, în temeiul căreia respectiva variantă oferă o informaţie satisfăcătoare despre esenţialul, tipicul întregii colectivităţi. Dintre mediile poziţionale, mediana şi modul sunt cel mai frecvent utilizate în analiza economică.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 24: Suport Curs Statistica Ro

2.3.2. Media aritmetica

Media aritmetică ( ) este cea mai utilizată medie; se foloseşte atunci când datele fenomenului cercetat se prezintă sub formă de mărimi primare, direct însumbile.

Media aritmetică este acea valoare abstractă care, înlocuind toate variantele unei colectivităţi (toţi termenii seriei), nu modifică suma acestora.

Pentru o serie simpla de date, formula mediei aritmetice simple calculata la nivel de esantion se scrie::

, [2.1]

unde n reprezinta volumul esantionului

La nivelul populatiei totale, media arritmetica simpla se scrie similar:

, [2.2]

unde N reprezinta volumul populatiei generale

Pentru o serie de distribuţie (de frecvenţe) se calculeaza media aritmetica ponderata. Pentru a scurta procesul de calcul, se ţine seama de frecvenţe absolute (ni) înregistrate pentru fiecare variantă distinctă ( ) a seriei sau pentru fiecare interval de variaţie:

Pentru o serie de frecvente, formula mediei aritmetice ponderate calculata la nivel de esantion se scrie::

, [2.3]

Dacă se iau în considerare frecvenţele relative ( ), formula de mai sus se rescrie astfel:

[2.4]

Pentru o serie de frecvente, formula mediei aritmetice ponderate calculata la nivel de populatie generala se scrie::

, [2.5]

Media aritmetica are avantajul de a fi uşor de folosit şi totodată este uşor de înţeles, fiind cea mai frecvent folosită medie (este o medie populară). Media aritmetică are însă şi marele dezavantaj că este sensibilă la valorile extreme (valori fie foarte mici, fie foarte mari). Existenţa unor astfel de valori, în special în situaţia în care extremele sunt numai într-un singur sens (ceea ce nu duce la compensarea lor), va avea ca rezultat o medie aritmetică ce poate fi nereprezentativă pentru colectivitatea pentru care s-a calculat.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 25: Suport Curs Statistica Ro

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Caseta 1. Principalele proprietăţi ale mediei aritmeticeMedia aritmetică are mai multe proprietăţi. Unele dintre ele se încadrează în categoria

proprietăţilor de verificare a exactităţii, în timp ce altele se înscriu în categoria proprietăţilor de simplificare a calculului:

a) media aritmetică este cuprinsă între valorile minimă şi maximă ale caracteristicii:

b) suma abaterilor valorilor individuale de la medie este zero, media având, prin definiţie, proprietatea de a compensa abaterile pozitive cu cele negative:

Pentru seria simplă: Pentru seria de frecvenţe:

Observaţie: Această proprietate este echivalentă cu definiţia mediei. Într-adevăr, relaţia

se poate scrie: , ceea ce este o relaţie echivalentă cu ecuaţia

[2.9’] prezentată la definirea mediei.

c) dacă toţi termenii seriei sunt modificaţi (micşoraţi/măriţi) cu o constantă a, media noii serii se va modifica, în acelaşi sens, cu aceeaşi constantă a. Pentru seria simplă:

Pentru seria de frecvenţe:

d) dacă toţi termenii seriei sunt multiplicaţi/simplificaţi cu o constantă k, media noii serii va fi de k ori mai mare/mică:

Pentru seria simplă:

Pentru seria de frecvenţe:

Caseta 1. (continuare)

e) Pe baza proprietăţilor c) şi d) se obţine formula de calcul simplificat al mediei: Pentru seria simplă:

Pentru seria de frecvenţe:

f) dacă se multiplică/simplifică printr-o constantă c frecvenţa de apa-riţie (ni) a variantelor din colectivitate, media rămâne neschimbată:

g) media aritmetică este asociativă;

h) media aritmetică este translativă;

i) media sumei a două variabile independente X şi Y este egală cu suma mediilor celor două variabile;

j) media produsului a două variabile independente X şi Y este egală cu produsul mediilor celor două variabile.

Sursa: M. Korka, L.S. Begu, E. Tusa, Bazele statisticii pentru economicti, Ed Economica, 2006

Page 26: Suport Curs Statistica Ro

2.3.3. Media armonică

Media armonică se calculează din valorile inverse ale termenilor seriei. Se recomandă a fi folosită atunci când în colectivitate predomină valorile mici (seria este asimptotică către valorile mici).

Media armonică este, prin urmare acea valoare care nu modifică suma inverselor termenilor seriei.

Pentru serii simple, această afirmaţie poate fi formulată astfel:

[2.6]

Înlocuind fiecare variantă cu media armonică, relaţia [2.12] devine:

[2.7]

[2.8]

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 27: Suport Curs Statistica Ro

de unde formula mediei armonice simple:

[2.9]

Pentru serii de frecvenţe media armonică ponderată este:

[2.10]

Media armonică are următoarele proprietăţi:

media armonică este o valoare internă seriei din care a fost calculată;

media armonică este asociativă;

media armonică nu este translativă.

Observaţie: În analiza activităţii economice, media armonică se foloseşte la calculul anumitor tipuri de indici (indici cu ponderare curentă)

2.3.4. Media pătratică

Media pătratică se calculează din pătratele termenilor seriei. Se recomandă a fi folosită atunci când în colectivitate predomină valorile mari (serie asimptotică către valorile mari) sau atunci când termenii au atât valori pozitive, cât şi negative.

Cu alte cuvinte, media pătratică este aceea valoare care, înlocuind termenii înregistraţi ai seriei de date, nu modifică suma pătratelor acestora:

[2.11]

[2.12]

, [2.13]

de unde rezultă:

Pentru serii simple, media pătratică simplă:

[2.14]

Pentru serii de frecvenţe, media pătratică ponderată:

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 28: Suport Curs Statistica Ro

[2.15]

Media pătratică are proprietăţile următoare:

Este cuprinsă între valoarea minimă şi cea maximă a seriei de date;

Este influenţată într-o foarte mare măsură de variantele cu o valoare mare, deoarece, prin ridicare la pătrat aceste valori devin foarte mari.

2.3.5. Media geometrică.

Spre deosebire de mediile calculate anterior, această medie se bazează pe relaţia de produs a termenilor seriei. În analiza economică, se recomandă calculul ei atunci când termenii colectivităţii se prezintă sub formă de mărimi relative. De obicei, acestea nu sunt direct însumabile, dar admit operaţia de înmulţire.

Media geometrică este valoarea care, înlocuind termenii seriei, nu modifică produsul acestora:

[2.16]

[2.17]

sau

[2.18]

de unde:

media geometrică simplă:

[2.19]

media geometrică ponderată:

[2.20]

Observaţie: media geometrică ponderată este rar folosită în analiza economică.

Media geometrică se bucură de avantajul că nu este influenţată nici de valorile mici, nici de cele mari, fiind apreciată a fi o mărime medie mai exactă. Dezavantajul principal este acela că nu poate fi calculată dacă unele variante sunt negative sau nule.

Media geometrică are următoarele proprietăţi:Dezvoltare, inovare şi extindere a accesului la

învăţare în programe de master în administrarea afacerilor

Contract nr.: POSDRU /86/1.2/S/61086Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 29: Suport Curs Statistica Ro

media geometrică este o valoare internă seriei statistice din care a fost calculată;

media geometrică este asociativă;

suma abaterilor logaritmilor variantelor unei variabile faţă de logaritmul mediei lor geometrice este egală cu zero;

puterea “n” a mediei geometrice calculată din “k” valori pozitive este egală cu media geometrică a puterii “n” a celor “k” valori;

Comparând diferitele mărimi medii calculate pentru o aceeaşi serie de date se observă că între medii există următoarea relaţie:

[2.21]

2.3.6. Mediana

Valoarea mediană (mijlocie) a seriei este acea variantă care o împarte în două părţi egale.

Cu alte cuvinte, faţă de valoarea mediană, jumătate din observaţii au valori mai mici sau egale cu mediana, iar jumătate au valori mai mari sau egale cu mediana.

Pentru seria simpla de date

o Dacă seria are un număr impar de termeni, mediana este a (n+1)/2 valoarea din seria ordonată

(crescător sau descrescător).

o În cazul unei serii cu un număr impar de termeni, mediana va fi egală cu media aritmetică a celor doi

termeni centrali.

Pentru seria de frecvenţe:

În calculul medianei unei distribuţii de frecvenţe se parcurg următoarele etape:

o Se determina Locul medianei prin relaţia:

. [2.22]

o Se determina intervalul median.

Într-o serie organizată pe intervale de grupare, după aflarea locului medianei se procedează la identificarea intervalului ce conţine mediana. Adunând treptat frecvenţele ajungem la un număr mai mare sau egal cu cel al locului medianei. Astfel rezultă intervalul care conţine mediana.

o Se estimeaza Mediana (Me) cu următoarea relaţie de interpolare:

, [2.23]

în care:

kMe = mărimea intervalului median;

0,5 (n 1) = locul medianei;

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 30: Suport Curs Statistica Ro

npMe = suma frecvenţelor până la intervalul ce conţine mediana;

nMe = frecvenţa intervalului ce conţine mediana.

2.3.7. Modul

Modul sau dominanta este varianta cu frecvenţa cea mai mare.

Valoarea modală se utilizează ca indicator al tendinţei centrale atunci când media nu se poate calcula sau nu are sens să fie calculată. De exemplu, în loc de stabilirea mărimii medii la confecţii, a numărului mediu la pantofi etc. se preferă observarea variantei cele mai frecvente.

Pentru seria simplă Modul este valoare care care se înregistrează cel mai frecvent.

Într-o serie organizată pe intervale de grupare, valoarea modală se află, tot prin interpolare, în intervalul cu frecvenţa cea mai mare. Nu este obligatoriu ca intervalul modal să coincidă cu cel care conţine mediana.

Modul (Mo) se estimează după relaţia de interpolare în intervalul modal:

[2.26]

în care: x0 = limita inferioară a intervalului modal;

kMo = mărimea acestui interval;

1 = diferenţa dintre frecvenţa modală şi frecvenţa intervalului imediat anterior;

2 = diferenţa dintre frecvenţa modală şi frecvenţa intervalului imediat următor.

2.3.8. Analiza indicatorilor medii cu ajutorul Microsoft Excel

In Microsoft Excel, se utilizeaza urmatoarele functii:

pentru calculul mediei aritmetice se utilizeaza functia AVERAGE(NUMBER1, NUMBER2, ..)

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 31: Suport Curs Statistica Ro

FIG. NR. 12 – ACCESAREA FUNCTIEI AVERAGE

Argumentele functiei sunt:

Number1, number2, ... sunt de la 1 până la 255 de argumente numerice corespunzătoare unui eșantion dintr-o populație sau populatiei generale; selectarea datelor se poate realiza seletand un vector/matrice de date sau introducand ca si argument numele setului de date.

pentru calculul mediei geometrice se utilizeaza functia GEOMEAN (NUMBER1, NUMBER2, ..)

FIG. NR. 13 – ACCESAREA FUNCTIEI GEOMEAN

Argumentele functiei sunt:

Number1, number2, ... sunt de la 1 până la 255 de argumente numerice corespunzătoare unui eșantion dintr-o populație sau populatiei generale; selectarea datelor se poate realiza seletand un vector/matrice de date sau introducand ca si argument numele setului de date.

pentru calculul mediei armonice se utilizeaza functia HARMEAN (NUMBER1, NUMBER2, ..)

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 32: Suport Curs Statistica Ro

FIG. NR. 14 – ACCESAREA FUNCTIEI HARMEAN

Argumentele functiei sunt:

Number1, number2, ... sunt de la 1 până la 255 de argumente numerice corespunzătoare unui eșantion dintr-o populație sau populatiei generale; selectarea datelor se poate realiza seletand un vector/matrice de date sau introducand ca si argument numele setului de date.

pentru calculul medianei se utilizeaza functia MEDIAN (NUMBER1, NUMBER2, ..)

FIG. NR. 15 – ACCESAREA FUNCTIEI MEDIAN

Argumentele functiei sunt aceleasi ca si in cazul celorlalte valori medii.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 33: Suport Curs Statistica Ro

pentru calculul valorii modale se utilizeaza functia MODE (NUMBER1, NUMBER2, ..) sau MODE.SIGL (NUMBER1, NUMBER2, ..)

FIG. NR. 16 – ACCESAREA FUNCTIEI MODE

Argumentele functiei sunt aceleasi ca si in cazul celorlalte valori medii.

Calculul mediei ponderate se poate folosi si utilizand functia din excel SUMPRODUCT care inmulțește componentele corespondente din matricele date și întoarce suma acelor produse.

Sintaxa functiei este: SUMPRODUCT(array1;array2;array3; ...).

Argumentele functiei:

Array1, array2, array3, ... sunt de la 2 până la 255 de matrice ale căror componente doriți să le înmulțiți, apoi să adunați produsele.

Observații

Argumentele matrice trebuie să aibă aceleași dimensiuni. Dacă nu, SUMPRODUCT întoarce valoarea de eroare #VALUE!.

SUMPRODUCT tratează înregistrările din matrice care nu sunt numerice ca și cum ar fi egale cu zero.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 34: Suport Curs Statistica Ro

FIG. NR. 17 – ACCESAREA FUNCTIEI SUMPRODUCT

O alta varianta, este accesarea unei componente Excel denumita Analysis ToolPak  (Pachet de instrumente de analiză) ; instrumentul de analiză utilizează macro-funcțiile statistice și afișează rezultatele într-una sau mai multe matrice - rezultate.

In cadrul acestui instrument de analiza, exista optiunea Descriptive Statistics, care furnizeaza o serie de indicatori descriptivi, printre care se afla si media, mediana si modul.

Trebuie precizat faptul ca indicatorii calculati sunt considerati pentru serii de date obtinute prin selectie statistica (cu alte cuvinte la nivel de esantion). Din punct de vedere al calculului nivelurilor medii nu exista diferente intre mediile calculate pentru intreaga populatie statistica, dat la nivelul indicatorilor variatiei – dispersia si abaterea standard – utilizarea optiunii descriptive Statistics trebuie realizata numai la nivelul unui esantion.

De regula, componenta Analysis ToolPak nu este direct disponibila, si necesita parcurgerea urmatoarelor etape pentru instalarea initiala:

se acceseaza din Meniul principal File, optiunea Option, care va duce la afisarea urmatoarei ferestre de dialog:

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 35: Suport Curs Statistica Ro

FIG. NR. 18 – ACCESAREA EXCEL ADD-INS

se selecteaza optiunea Add – Ins si, in josul casutei de dialog, se selecteaza comanda GO aflata in dreptul optiunii Manage Excel Add-Ins. Se va deschide fereastra de dialog prezentata in figura urmatoare, din care se selecteaza optiunea Analysis ToolPack – Instrumente de Analiza.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 36: Suport Curs Statistica Ro

FIG. NR. 19 – ALEGEREA INSTRUMENTELOR DE ANALIZA

Dupa inchiderea ferestrei de dialog prin selectarea optiunii OK, in meniul principal, sectiunea Data, va aparea optiunea Data Analysis.

Se acceseaza Data analysis, ceea ce va duce la afisarea urmatoarei ferestre :

FIG. NR. 20 – ALEGEREA OPTIUNII DESCRIPTIVE STATISTICS

Se selecteaza Instrumentul de analiză Descriptive Statistics, care afiseaza o serie de indicatori descriptivi, printre care si media, mediana si modul.

Obtinerea acestor indicatori se face introducand la optiunea Input Range – setul de date analizat, cu optiunea Labels in First Row selectata in cazul in care prima celula selectata reprezinta denumirea variabilei analizate.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 37: Suport Curs Statistica Ro

FIG. NR. 21 – FEREASTRA DE DIALOG DESCRIPTIVE STATISTICS

Se va alege optiunea de livrare a datelor – fie in aceeasi foaie de calcul (prin selectarea Output options/ Output Range – si selectarea efectiva a celulei in care se va incepe prezentarea rezultatelor) fie intr-o foaie de calcul noua.

Se selecteaza cel putin optiunea Summary statistics.

Se obtine urmatorul output:

TABEL NR. 4 - OUTPUT-UL DESCRIPTIVE STATISTICS

Column1   Mean 3700Standard Error 335.0Median 2989Mode 2207Standard Deviation 2320.9Sample Variance 5386751.5Kurtosis 3.70Skewness 1.87Range 11138Minimum 1014Maximum 12152Sum 177600Count 48

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 38: Suport Curs Statistica Ro

Valorile obtinute sunt identice cu cele furnizate de functiile Average. Median si Mode.

2.4. Sinteza

In urma culegerii si sistematizarii datelor statistice, urmeaza etapa urmatoare de calcul al indicatorilor medii, care sa sintetizeze intr-o valoare unica tot ceea ce este tipic, essential pentru colectivitatea analizata.

Indicatorii medii determina fie prin calcul – medii calculate, fie prin identificarea unei valori in cadrul unei serii de date – medii pozitionale.

Din prima categorie, cele mai importante medii sunt media aritmetica, armonica si geometrica, iar din cea de-a doua categorie mediana si modul. Calculul indicatorilor medii se realizeaza diferit pentru seria simpla si seria de frecvente (unde se vor calcula medii ponderate).

Alegerea mediei cele mai potrivite depinde de particularitaile setului de date – spre exemplu de existenta unor valori extreme, de omogenitatea seriei de date etc.

In Microsoft Excel, calculul mediilor pentru o serie simpla se poate face fie utilizand functiile Average, Median sau Mode, fie apeland din optiunea Analysis ToolPack, optiunea Descriptive Statistics.

2.5. Exercitii si aplicatii

Aplicatia nr. 2.1.

Pornind de la datele prezentate in Aplicatia nr. 1.1 se cere:

a) Sa se calculeze si interpreteze indicatorii tendintei centrale (media, mediana si modul) pentru seria simpla de date privind veniturile companiei;

b) Sa se calculeze si interpreteze indicatorii tendintei centrale (media, mediana si modul) pentru seria de frecvente;

c) Sa se compare mediile calculate anterior. Sa se explice eventualele diferente.

Aplicatia nr. 2.2.

Ratele lunare ale inflatie pentru primele trei luni ale anului 2011 au inregistrat urmatoarele valori (calculate pe baza IPC, luna anterioara =100, sursa datelor – INS, Buletinul Statistic lunar nr 7): 0.77%, 0.77%, 0.60%.

Sa se calculeze:

a) Rata inflatiei corespunzatoare primului trimestru;

b) Rata mdie lunara a inflatiei;

c) Rata anualizata a inflatiei;

d) Stiind ca ratele lunare ale inflatiei in urmatoarele trei luni (aprilie, mai, iunie 2011) au fost: 0.66%, 0,21% si -0.29%. Sa se reia caclculele de la punctele 1-3. Sa se interpreteze diferentele dintre rezultate. Sa se calculeze rata anualizata a inflatiei pe baza datelor din preimul semestru al anului.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 39: Suport Curs Statistica Ro

Aplicatia nr. 2.3.

Angajatii unei intreprinderi mici au urmatoarele niveluri salariale (salariu brut la nivelul lunii septembrie 2011, RON): 1240, 1454. 654, 785, 810, 741. 1685 si 8742.Se cere:Calculati si comparati mediile cunoscute.Care dintre valorile medii caracterizeaza cel mai bine seria de date? Justificati raspunsul.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 40: Suport Curs Statistica Ro

CAPITOLUL 3 – ANALIZA VARIATIEI SI ASIMETRIEI

3.1. Introducere

In cazul celor mai multe variabile socio-economice analizate in activitatea curenta de catre un manager, apare variabilitatea termenilor seriei de date cauzată de faptul că, pe lângă factorii hotărâtori, esenţiali, acţionează şi alti factori - accidentali - care fac ca manifestarea individuală să fie diversă, distinctă de alte manifestări. In functie de raportul dintre cele doua tipuri de forte, seria va tinde fie catre o concentrare fie împrăştiere a termenilor seriei, facand, pe cale de consecinta, ca indicatorii tendintei centrale si ai asimetriei sa aiba un grad mai mare sau mai mic de reprezentativitate. In plus, pe langa determinarea gradului de variatie prin indicatori specifici, managerul trebuie sa identifice si inteleaga si tipul/forma distributiei.

3.2. Obiectivele capitolului

Capitolul isi propune sa prezinte cei mai utilizati indicatori de masura a variatiei si a asimetriei utilizati in analiza fenomenelor si proceselor socio-economice. Sunt prezentate modalitatile de calcul (inclusiv utilizand functiile Microsoft Excel) a amplitudinii absolute si relative a variatiei, dispersiei, abaterii standard si coeficientului de variatie, ca principali indicatori folositi in masurarea variatiei – masura a riscului - dintr-o serie de date.

3.3. Cotinut

Indicatorii variaţiei şi asimetriei. În funcţie de numărul de variante luate în calcul şi după rolul îndeplinit în analiza variaţiei, distingem:

• indicatori simpli ai variaţiei;

• indicatori sintetici ai variaţiei.

3.3.1. Indicatorii simpli ai variaţiei

Indicatorii simpli ai variatiei caracterizează poziţia fiecărui termen al seriei (xi) faţă de medie. Cei mai cunoscuti indicatori simpli ai variatiei sunt amplitudinea absoluta si relativa a variatiei, abaterile individuale ale termenilor seriei fata de medie, atat in valori absolute cat si relative.

Amplitudinea variaţiei exprimă mărimea câmpului de împrăştiere în jurul mediei. Se exprimă în mărime absolută:

[3.1]

şi în mărime relativă:

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 41: Suport Curs Statistica Ro

. [3.2]

În general, se apreciază că o amplitudine a variaţiei care se situează sub 100%, este specifică unor colectivităţi omogene. Pe măsură ce aceasta se îndepărtează de 100%, colectivitatea este din ce în ce mai eterogenă, iar media ei mai puţin semnificativă.

Abaterile individuale ale termenilor seriei fata de medie cuantifica diferentele dintre fiecare observatie in parte si valoarea medie. Se exprimă în mărime absolută:

. [3.3]

sau mărimi relative:

. [3.4]

Aceşti indicatori nu caracterizează variaţia în cadrul colectivităţii, ci poziţia fiecărui termen al seriei (x i) faţă de medie.

3.3.2. Indicatorii sintetici ai variaţiei

Indicatorii sintetici ai variaţiei urmresc masurarea variatiei centrului fiecarui interval de grupare xi fata de medie, pentru a exprima intensitatea împrăştierii în jurul mediei.

În funcţie de gradul de abstractizare şi de relaţia de calcul, distingem patru indicatori sintetici:

• abaterea medie liniară ;

• dispersia ;

• abaterea standard numită şi abatere medie pătratică ;

• coeficientul de variaţie .

Abaterea medie liniară este media aritmetică a abaterilor variantelor sau a centrelor de interval de grupare (xi) de la media colectivităţii. Pentru că abaterile de la media aritmetică se compensează, se iau în calcul valorile absolute ale diferenţelor .

Pentru o serie simpla, abaterea medie liniara la nivel de populatie generala se calculeaza astfel:

[3.5]

Pentru o serie de frecvente, abaterea medie liniara la nivel de populatie generala se calculeaza dupa formula:

[3.6]

Dispersia poate fi definită ca medie aritmetică a pătratelor abaterilor termenilor seriei de la media colectivităţii. Este o mărime abstractă, adimensională ce nu serveşte direct analizei variaţiei.

Pentru o serie simpla, abaterea medie liniara la nivel de esantion se calculeaza astfel:

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 42: Suport Curs Statistica Ro

[3.7]

Pentru o serie simpla, abaterea medie liniara la nivel de populatie generala se calculeaza dupa formula:

[3.8]

Pentru o serie de frecvente, formula dispersia calculata la nivel de esantion se scrie::

[3.9]

Pentru o serie de frecvente, formula dispersiei calculata la nivelul populatiei generale se scrie::

[3.10]

Abaterea standard sau abaterea medie pătratică este, aşa cum îi spune şi numele, o medie pătratică a abaterilor termenilor seriei de la medie.

Indiferent de nivelul la care este calculat – populatia generala sau esantion – abaterea standard se calculeaza ca radical din dispersie.

Pentru esantion abaterea standard se scrie:

[3.11]

La nivelul populatiei generale, abaterea standard este:

[3.12]

Coeficientul de variaţie este indicatorul sintetic care exprimă într-o formă abstractă intensitatea variaţiei. Se calculează astfel:

[3.13]

Coeficientul de variaţie se defineşte în domeniul numerelor pozitive. Din statistica experimentală s-a preluat aprecierea următoare: dacă coeficientul de variatie este mai mic de 35%, se consideră că intensitatea variaţiei este redusă, colectivitatea este omogenă şi în consecinţă media este reprezentativă. Cu cât se depăşeşte pragul de 35%, cu atât intensitatea variaţiei creşte, iar colectivitatea este mai eterogenă. În aceste condiţii, media tinde să fie o mărime nereprezentativă.

3.3.3. Indicatorii asimetriei si boltirii

Forma variaţiei în jurul mediei se exprimă statistic prin mai mulţi indicatori ai asimetriei, boltirii, excesului repartiţiei de frecvenţe etc. Cea mai simplă modalitate de descriere acceptabilă, chiar dacă incompletă a formei variaţiei este observarea diferenţei între medie şi mod care se numeşte asimetrie:

[3.14]

• Dacă atunci există simetrie perfectă;

• Dacă atunci există asimetrie pozitivă sau de stânga;Dezvoltare, inovare şi extindere a accesului la

învăţare în programe de master în administrarea afacerilor

Contract nr.: POSDRU /86/1.2/S/61086Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 43: Suport Curs Statistica Ro

• Dacă atunci există asimetrie negativă sau de dreapta.

Aprecierea „de stânga“ sau „de dreapta“ provine din observarea poziţiei în care se află modul (Mo) faţă de medie pe axa absciselor în cazul unei serii de repartiţie asimetrică.

Pentru a aprecia calitativ această situaţie, se recurge, în mod frec¬vent, la coeficientul de asimetrie propus de Karl Pearson:

[3.15]

Dacă seria de repartiţie este bi sau multimodală, dar tinde spre nor¬ma¬litate, se poate recurge şi la estimarea:

. [3.16]

Coeficientul de asimetrie ia valori în intervalul (–3; 3).

În măsura în care coeficientul de asimetrie se încadrează în intervalul (-0,3; 0,3) spunem că avem de-a face cu o asimetrie moderată şi, în consecinţă, indicatorii tendinţei centrale caracterizează corect colectivitatea (sunt reprezentativi).

Cu cât coeficientul de asimetrie depăşeşte limitele acestui interval, cu atât asimetria este mai puternică, iar indicatorii tendinţei centrale tind să fie nesemnificativi.

3.3.4. Calculul indicatorilor variatiei, asimetriei si boltirii utilizand functiile Microsoft Excel.

Microsoft Excel 2007 furnizeaza o serie de functii care urmaresc masurarea variatiei din cadrul unei serii de date. Aceste functii se utilizeaza numai in cazul seriilor simple de date. In cazul repartitiilor de frecvente, calculul indicatorilor variatiei se realizeaza utilizand o foaie de calcul si aplicand formulele de calcul prezentate mai sus.

Pentru seriile simple de date, fucntiile prezentate in excel, au de regula urmatoarea sintaxa:

Number1, number2, ... – corespunde setului de date pentru care se doreste calcularea variatiei; selectarea acestui set de date se poate face fie introducand fiecare argument numeric (maxim 255 observatii), fie selectand setul de date numerice (dispus, de regula, sub forma unei coloane sau linii de date) fie introducand referinta unui camp de date anterior denumit.

Indicatorii variatiei se calculeaza astfel:

Amplitudinea varatiei – se calculeaza ca diferenta dintre functiile MAX(number1;number2;...) si MIN(number1;number2;...).

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 44: Suport Curs Statistica Ro

FIG. NR. 22 – ACCESAREA FUNCTIEIILOR MAX SI MIN PENTRU CALCULAREA AMPLITUDINII VARIATIEI

Dispersia se calculeaza astfel:

In cazul in care datele sunt colectate la nivelul intregii populatii statistice se utilizeaza functia VARP(number1;number2;...)

FIG. NR. 23 – ACCESAREA FUNCTIEI VARP

In cazul in care datele sunt colectate la nivelul unui esanton statistic se utilizeaza functia VAR(number1;number2;...)

FIG. NR. 24 – ACCESAREA FUNCTIEI VARP

Abaterea medie patratica sau abaterea standard se calculeaza astfel:

In cazul in care datele sunt colectate la nivelul intregii populatii statistice se utilizeaza functia STDEVP(number1;number2;...)

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 45: Suport Curs Statistica Ro

FIG. NR. 25 – ACCESAREA FUNCTIEI STDEVP

In cazul in care datele sunt colectate la nivelul unui esanton statistic se utilizeaza functia STDEV(number1;number2;...)

FIG. NR. 26 – ACCESAREA FUNCTIEI STDEV

In cazul in care argumentul oricarei din functiile mentionate mai sus este un set de date sau o referință, sunt luate în calcul numai numerele din matrice sau din referință. Celulele goale, valorile logice, textele sau valorile de erori din matrice sau din referință sunt ignorate, orce tip de argumentele nenumerice fiind generatoare de erori. Pentru a include valori logice și reprezentări text ale numerelor într-o referință ca parte a unui calcul, se utilizeaza funcțiile VARPA si VARA (dispersii calculate pe date colectate la nivel de populatie statistica si, respectiv, esantion) si STDEVPA si STDEVPA (abateri standard calculate pe date colectate la nivel de populatie statistica si, respectiv, esantion).

Analiza asimetrie cu ajutorul functiilor Excel se face apland functia SKEW(Nmber 1, Number 2, …) avand ca argumente setul de date pentru care se doreste calculul coeficientului de asimetrie

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 46: Suport Curs Statistica Ro

FIG. NR. 27 – ACCESAREA FUNCTIEI SKEW

Microsoft Excel defineste calculeaza un pic diferite coeficientul de asimetrie, utilizand formula:

[3.17]

Unde:

n reprezinta volumul esantionului

xi sunt valorile individuale ale termenilor seriei unifactoriale analizate

reprezinta media esantionului

S este abaterea standard la nivelul esantionului

Asimetria pozitiva este specifica unei distributii cu o coada a distributiei prelungindu-se catre valorile mari (pozitive) iar o asimetrie negativa este specifica unei distributii cu o coada a distributiei prelungindu-se catre valorile mici (negative)

Diferentele fata de coeficientul de asimetrie Pearson exista, dar nu sunt foarte mari.

Boltirea/Aplatizarea (Kurtosis)

Kurtosisul sau Botirea/Aplatizarea masoara cat de boltita (‘ascutita’) sau neteda este distributia. Distributia normala are un coeficient de aplatizare de 3.

Coeficientul de aplatizare este:

[3.18]

In Microsoft Excel coeficientul de aplatizare compara aplatizarea relativa a distributiei analizate fata de distributia normala. Un Kurtosis pozitiv indica o distributie ‘ascutita’ in timp ce un Kurtosis negativ indica o distributie relativ neteda.

Functia folosita in calculul excel este:

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 47: Suport Curs Statistica Ro

[3.19]

Cele doua formule furnizeaza valori relativ diferite. In primul caz, spre exemplu, distributia normala va avea un coeficient de 3. In cazul formulei din Microsoft Excel, se calculeaza diferentele fata de distributia normala, prin urmare, un set de date corespunzatoare unei variabile cu o distributie normala va furniza un coeficient de aplatizare egal cu zero.

Accesarea coeficientului de aplatizare/boltire se face utilizand functia KURT (Number 1, Number 2,…) avand ca argument setul de date pentru care se realizeaza calculul coeficientului.

FIG. NR. 28 – ACCESAREA FUNCIEI SKEW

O alta varianta de obtinere a indicatorilor variatiei la nivel de esantion este utilizarea secventei Data Analysis/ Descriptive Statistics.

Se selecteaza Instrumentul de analiză Descriptive Statistics, care afiseaza o serie de indicatori descriptivi, printre care si valoarea minima, maxima, dispersia si abaterea standard.

Obtinerea acestor indicatori se face introducand la optiunea Input Range – setul de date analizat, cu optiunea Labels in First Row selectata in cazul in care prima celula selectata reprezinta denumirea variabilei analizate.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 48: Suport Curs Statistica Ro

FIG. NR. 29 – FEREASTRA DE DIALOG DESCRIPTIVE STATISTICS

Se va alege optiunea de livrare a datelor – fie in aceeasi foaie de calcul (prin selectarea Output options/ Output Range – si selectarea efectiva a celulei in care se va incepe prezentarea rezultatelor) fie intr-o foaie de calcul noua.

Se selecteaza cel putin optiunea Summary statistics.

Se obtine urmatorul output:

TABEL NR. 5 - OUTPUT-UL DESCRIPTIVE STATISTICS

Column1

Mean 3700

Standard Error 335.0

Median 2989

Mode 2207

Standard Deviation 2320.9

Sample Variance 5386751.5

Kurtosis 3.70

Skewness 1.87

Range 11138

Minimum 1014

Maximum 12152

Sum 177600

Count 48

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 49: Suport Curs Statistica Ro

Valorile obtinute sunt identice cu cele furnizate de functiile STDEV, VAR, KURT, SKEW, MIN, MAX. Amplitudinea variaiei (range) se calculeaza ca diferenta dintre valorile maxima si minima.

3.4. Sinteza

In analiza unei serii simple sau de frecvente, prima etapa este calcularea indicatorilor tendintei centrale – media, mediana si modul. Avand in vedere ca, pe de o parte, aceeasi medie poate proveni din diferite tipuri de distributii, iar pe de alta parte, este importanta intelegerea reprezentativitatii valorii medii calculate, apare necesitatea intelegerii imprastierii termenilor seriei, sau, cu alte cuvinte, calcularea indicatorilor variatiei.

Indicatorii variatiei se impart in doua categorii: indicatori simpli ai variatiei (amplitudinea absoluta sau relative, abaterile individuale fata de medie in valori absolute sau relative) si indicatorii sintetici ai variatiei (abaterea medie liniara, dispersia, abaterea standard si coeficientul de variatie).

Cei mai utilizati indicatori si variatiei sunt abaterea standard (care arata abaterea medie a termenilor seriei fata de medie) si coeficientul de variatie – care arata variatia relativa, recomandata fie pentru a testa omogenitatea seriei si reprezentativitatea mediei fie in comparatiile dintre serii de date cu valori medii diferite.

Formulele de calcul difera in functie de tipul seriei de date – serie simpla sau serie de frecventa. In plus, atat calculul direct precum si functiile din excel utilizate pentru calcularea indicatorilor variatiei difera in functie de modul de obtinere a datelor – prin observare totala la nivelul intregii populatii generale sau prin observare partiala pe baza de sondaj statistic (esantion).

3.5. Exercitii si aplicatii

Aplicatia 3.1

Distributia cifrei de afaceri ale celor 540 companii ce performeaza intr-o anumita industrie se prezinta in tabelul de mai jos:

TABEL NR. 6 - DISTRIBUTIA CIFREI DE AFACERI A COMPANIILOR

Intervale de variaţie a cifrei de afaceri

(mil lei)

Număr companii

până la 3,5*) 58

3,5 – 4,5 119

4,5 – 5,5 140

5,5 – 6,5 102

6,5 – 7,5 58

7,5 – 8,5 39

8,5 şi peste 24

Total 540

*) limita superioară nu este cuprinsă în interval

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 50: Suport Curs Statistica Ro

Se cere:

Să se determine indicatorii tendinţei centrale şi să se comenteze rezultatele folosind indicatorii variaţiei în jurul mediei şi indicatorii asimetriei.

Rezolvare

a) Indicatorii tendintei centrale – media, mediana si modul – sunt:

Media artmetica ponderata:

Cifra medie de afaceri a celor 540 companii este de 5.36 mil lei/an.

Mediana

Intervalul median este [4.5 – 5.5] mil lei, pentru un loc al medianei egal cu 270.5. Prin urmare, valoarea estimata a medianei este:

Astfel, jumatate dintre companii au inregistrat o cifra de afaceri peste 5.17 milioane lei, iar cealalta jumatate sub 5.17 milioane lei.

Modul sau valoarea modala

Intervalul modal este [4.5 – 5.5] mil lei, corespunzator celei mai mari frecvente – 140 companii. Valoarea estimata a modului este:

Cea mai des intalnita valoare a cifrei de afaceri este de 4.86 milioane lei

Deoarece , rezultă că seria prezintă o asimetrie de stânga (a se vedea mai jos intensitatea asimetriei).

Intervalele marginale sunt deschise, ceea ce impune o estimare a amplitudinii variaţiei cu cu ajutorul centrelor intervalelor de grupare:

Întrucât amplitudinea variaţiei comparată cu media colectivităţii depăşeşte 100%, se poate afirma că mărimea împrăştierii este destul de mare.

Dispersia se determină cu ajutorul formulei de calcul simplificat astfel:

,

iar abaterea medie pătratică este:

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 51: Suport Curs Statistica Ro

.

In medie, cifra de afacei a celor 540 companii analizate se abate in plus sau minus cu 1.58 mil lei fata de cifra medie de afaceri de 5.363 milioane lei.

Coeficientul de variaţie: .

Pentru că intensitatea împrăştierii este sub 35%, putem accepta că, pe total, colectivitatea salariaţilor este relativ omogenă din punct de vedere al salariului lunar.

Indicatorii asimetriei propuşi de Pearson sunt:

Asimetria absolută:

Coeficientul de asimetrie:

.

Valoarea coeficientului indică o asimetrie moderată de stânga (pozitivă).

Aplicatia 3.2

Pornind de la datele prezentate in aplicatia 2.2, calculati si interpretati urmatorii indicatori ai variatie si asimetriei:

a) Amplitudinea absoluta a variatiei

b) Amplitudinea relativa a variatiei

c) Abaterea medie liniara

d) Dispersia

e) Abaterea medie patratica (abaterea standard)

f) Coeficientul de variatie

g) Coeficientul de asimetrie

CAPITOLUL 4 – SONDAJUL STATISTIC

d.1. Introducere

Sondajul sau selectia statistica reprezinta unul dintre cele mai utilizate forme de observare statistica partiala, avand in vedere faptul ca cercetarea statistica exhaustiva poate implica resurse foarte mari atat in termeni financiari cat si de timp. In plus, exista situatii in care observarea totala sa nu fie posibila sau indicata (spre exemplu, verificarea controlului de calitate al produselor poate implica distrugerea acestora).

Prin sondajului statistic se realizeaza o analiza, investigare a unei părţi din populaţia statistică generală. Pe baza analizei datelor din esantion se urmareste, prin procedeul de inferenta statistica, sa se generalizeze rezultatele prelucrării datelor

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 52: Suport Curs Statistica Ro

de sondaj asupra intregii poplatii statistice, lunadu-se in acelasi timp in considerare erorile obiective de reprezentativitate ce apar in cadrul procesului de selectie statistica.

d.2. Obiectivele capitolului

Capitolul isi propune sa prezinte principalele avantajele şi inconvenientele sondajului statistic, etapele acestei forme de cercetare a realităţii economice, principalele procedee de eşantionare, precum şi modul de calcul al indicatorilor specifici celor mai frecvent utilizate tipuri de selecţie. Sunt arătate, de asemenea, modalităţile de extindere a rezultatelor sondajului asupra întregii colectivităţi supuse cercetării, precum şi căile de determinare a volumului necesar al eşantionului într-un sondaj statistic, pentru un nivel ales al marjei de eroare.

d.3. Continut

d.3.1. Definire, concepte utilizate si etapele cercetarii selective (prin sondaj)

Sondajul statistic sau selectia statistica consta in înregistrarea unor unităţi statistice cu scopul de a estima parametri populatiei generale pornind de la statisticile calculate la nivel de esantion.

Sondaj statistic permite analiza unui subset al populatiei generale iar rezultatele obţinute se vor generaliza, prin procesul de inferenta statistica, la nivelul întreagii populatii statistice.

Sondajul presupune două faze distincte:

Etapa descriptiva - observarea sau descrierea statistică constă în extragerea eşantionului şi calcularea indicatorilor descriptivi la nivel de esantion, numiti si statistici: media, abaterea medie pătratică, coeficientul de variaţie etc;

Inferenţă statistică - constă în extinderea rezultatelor obtinute la nivelul eşantionului asupra intregii populaţii statistice.

Din aceeaşi populatie statistica pot fi extrase un numar considerabil de mare de eşantioane, de volume diferite sau de acelaşi volum, dar cu structuri diferite, informaţiile obţinute în urma prelucrării datelor de selecţie nu sunt informaţii certe şi au un caracter incert datorită erorilor obiective de reprezentativitate.

Prin urmare, generalizarea rezultatelor obtinute la nivel de esantion asupra intregii populatii pornind de la prelucrării datelor de esantion se face în termeni probabilistici.

Sondajul statistic are mai multe avantaje, printre care:

Este mai putin costisitor fata de observarea totala;

Dureaza mai putin timp;

Poate oferi raspunsuri in situatiile in care cercetarea populaţiei generale este greu sau imposibil de realizat – de exemplu se poate folosi în testarea calităţii produselor fără să ducă la distrugerea întregului lot;

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 53: Suport Curs Statistica Ro

Avand in vedere ca informaţiile vor fi culese doar de la un numar relativ redus de unităţi statistice selectate în eşantion, este posibila obtinerea de informatii mult mai detaliate ceea ce permite o caracterizare mai profundă a fenomenelor analizate;

Avad in vedere volumul mult mai redus de munca si personalul mai bine instruit (de obicei specializat in analiza de sondaj) se reduc erorile de observare;

Poate fi utilizat in verificarea programului unei observări totale în vederea corectării eventualelor necorelări sau carenţe în organizare;

Poate fi utilizat in verificarea şi testarea unei ipoteze statistice.

Trebuie subliniat insa faptul ca, rezultatele obtinute prin sondaj sunt prezentate in termeni probabilistici fara a oferi valoarea exacta a parametrilor populatiei generale.

d.3.2. Concepte utilizate

Selecţia statistică reprezintă operaţia de extragere a unei părţi/subset din populatia generala numită şi eşantion (mostră sau colectivitate de selecţie).

Eşantionul reprezintă un subset de elemente extras dintr-o colectivitate statistică generală.

Volumul eşantionului este întotdeauna mai mic decât al colectivităţii totale sau generale.

De regula, se noteaza cu N volumul populatieii generale şi cu n volumul esantionului (colectivităţii de selecţie). Întotdeauna 1 n N-i.

In general, esantioanele de volum sub 30 observatii se considera esantioane de volum mic.

Indicatori statistici calculati la nvelul populatiei generale se numesc parametri.

Indicatori statistici calculati la nvelul eşantionului se numesc estimatori sau statistici. Estimatorul calculat pentru un eşantion va oferi o estimaţie a parametrului din populaţia generală. Estimatorul este întotdeauna o variabilă aleatoare, deoarece se bazează pe datele obţinute dintr-un eşantion aleator.

Eroarea de estimaţie reprezintă diferenţa dintre estimatorul obţinut pe eşantion şi valoarea parametrului de la nivelul populatiei generale.

Erorile cercetării prin sondaj pot fi: erori de înregistrare şi erori de reprezentativitate.

Erorile de înregistrare care intervin în cadrul unui sondaj datorită volumului mic, sunt mai puţin numeroase decât în cadrul unei observări totale şi pot fi înlăturate prin efectuarea controlului cantitativ obişnuit.

Erorile de reprezentativitate întâlnite sunt de 2 feluri: sistematice şi întâmplătoare. Erorile de reprezentativitate provin din nerespectarea strictă a principiului de bază al selecţiei întâmplătoare, care cere ca unităţile să fie incluse în eşantion fără nici un fel de preferinţă subiectivă din partea celui care efectuează sondajul.

In practica se intanesc doua tipuri de estimatori:

Estimatori punctuali

Estimator sub forma intervalelor de incredere

Estimatorii trebuie sa aiba mai multe caracteristici, sau, cu alte cuvinte, un estimator trebuie sa fie

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 54: Suport Curs Statistica Ro

Nedeplasat – sa aiba valoarea asteptata (media estimaţiilor din toate eşantioanele posibile) egala cu parametrul pe care il estimeaza

Consistent – un estimator nedeplasat este consistent daca diferenta dintre estimator si parametru scade pe masura ce volumul esantionului creste

Eficient – dintre doi estimatori nedeplasati, cel cu dispersia mai mica se spune ca este eficient.

d.3.3. Tipuri de sondaj

După modul de organizare a colectivităţii generale şi după modul de selecţie a unităţilor în eşantion, se disting mai multe tipuri de sondaj:

A. Sondaje aleatoare (probabiliste):

o sondajul simplu repetat şi nerepetat;

o sondajul tipic (stratificat);

o sondajul de serii;

o sondajul în mai multe trepte;

o sondajul secvenţional.

B. Sondaje cu extracţie nealeatoare:

o sondajul dirijat;

o sondajul sistematic (sau mecanic).

In practica, cele mai utilizate tipuri de sondaje il reprezinta sondajul aleator simplu, sondajul stratificat si sondajul de tip cluster

Sondajul aleator simplu se utilizeaza in situatia in care populatia generala este relativ omogena.

Procedeul consta in extragerea unui eşantion simplu aleator pentru care:- fiecare unitate statistică are aceeaşi şansă de a fi aleasă în eşantion - alegerea unei unităţi nu este influenţată de alegerea unei alte unităţi statistice

Sondajul aleator simplu se poate realiza utilizand mai multe procedee:

procedeul loteriei;

procedeul tabelului cu numere întâmplătoare sau un program pe calculator de generare de numere întâmplătoare (vezi descrierea functiei RANDBETWEEN);

procedeul mecanic sau al pasului de numărare.

Procedeul loteriei/tragerii la sorţi

o schema bilei revenite- eşantionul se numeşte eşantion aleator repetat, este procedeul de sondaj

implementat in Microsoft Excel

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 55: Suport Curs Statistica Ro

o schema bilei nerevenite - eşantionul se numeşte eşantion aleator nerepetat.- este procedeul de sondaj

implementat in SPSS

La fiecare extragere, probabilitatea unei unităţi (încă neextrase) de a fi aleasă în eşantion creşte, astfel încât la extragerea cu numărul i (1 i n), probabilitatea unei unităţi de a fi

selectată în eşantion este

Numărul eşantioanelor distincte, de volum n, ce pot fi extrase în sondajul aleator simplu fără revenire este

De exemplu, daca se doreste exragerea unui esantion de volum n=10 dintr-o populatiei statitics de 100, exista 17 310 309 456 440 eşantioane diferite.

Sondajul tipic (stratificat)

Dacă elementele colectivităţii generale sunt eterogene, constatându-se exitenta anumitori variabile de stratificare (de exemplu: sexul, varsta, mediul urban/rural, zona geografica, venitu, educatia etc) se recomandă utilizarea un sondaj dirijat (nealeator). Astfel se asigură pătrunderea în eşantion a unor elemente din toate straturile tipice.. După stabilirea volumului n al eşantionului, se stabileşte componenţa pe straturi (număr de elemente din fiecare strat), astfel încât structura eşantionului să corespundă structurii colectivităţii generale. Pentru extragerea separată din fiecare strat a numărului corespunzător de elemente, se utilizează selectia aleatoare.

Sondajul de serii

Sondajul de serii (tip cluster sau de unităţi complexe) se utilizeaza in cazul unei populatii generale structurate pe unităţi complexe (populaţia organizată pe familii sau personalul direct implicat în producţie/distribuţie organizat pe echipe sau loturile de mărfuri aranjate pe paleţi, în vederea facilităţii transportului), se recomandă să nu ignorăm aceste structuri pentru a extrage unităţi simple, ci să preferăm prelevarea de unităţi complexe (extragerea de serii).

d.3.4. Etapele cercetarii selective (prin sondaj)

Orice cercetare prin sondaj presupune o pregătire prealabilă pe baza unui plan numit şi dosarul unui sondaj, care necesită parcurgerea unor etape:

o Determinarea obiectivelor sondajului – pot consta fie in estimarea parametrilr populatiei generale (media,

proportia, dispersia popolatiei generale) sau verificarea unor ipoteze privind forma distribuţiilor statistice, legăturile dintre fenomene, evoluţia fenomenelor etc.;

o eşantionarea, care presupune alegerea bazei de sondaj, adică populaţia asupra căreia se extind rezultatele

obţinute prin sondaj, delimitarea populaţiei şi verificarea gradului de omogenitate; alegerea unităţilor statistice; alegerea tipului de sondaj şi a procedeelor de eşantionare etc

o elaborarea unui plan de culegere a datelor şi de prelucrare a informaţiilor cu precizarea indicatorilor

statistici care vor răspunde cel mai bine scopului de cunoaştere;

Rezultatele unui sondaj statistic depind de reprezentativitatea eşantionului. Un eşantion este reprezentativ dacă este o oglinda a structurii populatiei generale. O reprezentativitate perfectă nu se poate realiza decât cu totul întâmplător; de aceea se admite că reprezentativitatea este bună dacă greutăţile specifice ale fiecărei grupe nu diferă cu mai mult de ±5%, în raport cu structura colectivităţii generale.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 56: Suport Curs Statistica Ro

Asigurarea reprezentativităţii eşantionului presupune respectarea următoarelor condiţii:

– alegerea unităţilor care formează eşantionul să se realizeze aleator şi cu o posibilitate calculată anticipat diferită de zero;

– volumul eşantionului să fie suficient de mare pentru a reda trăsăturile esenţiale ale colectivităţii generale;

– selectarea unei unităţi de observare statistica în eşantion să se facă independent de alte unităţi.

Observatie: pentru a selecta in mod aleator un set de unitati de observare, in conditiile in care exista o lista a elementelor populatiei totale, prezentata in excel (evident, este vorba de populatii totale de volum relative redus, maxim in ordinal zecilor de mii de observatii) se utilizeaza functia RANBETWEEN.

FIG. NR. 30 – ACCESAREA FUNCTIEI RANDBETWEEN

Functia Randbetween are urmatoarele argumente:

Bottom – limita inferioara de la care se genereaza numarul aleator (de regula egala cu 1)

Top - limita superioara pana la care se genereaza numarul aleator (de regula egala cu volumul esantionului, n)

Rezultatul va fi un numar aleator cuprins intre 1 si n. Se vor genera un numar de valori cu 10%-20% mai mare decat volumul esantionului, pentru a elimina valorile repetitive. Odata numerele aleatoare generate, se recomanda copierea lor si utilizarea optiunii Paste Special/Values avand in vedere volatilitatea functiei Randbetween.

d.3.5. Calculul indicatorilor de sondaj. Esimarea intervalelor de incredere

Indicatorii de sondaj calculati in procesul de construire a intervalului de incredere pentru parametru populatiei generale sunt:

- media de sondaj,

- dispersia mediei de sondaj,

- eroroarea medie de reprezentativitate

- eroroarea limită maximă admisibilă.

Dispersia mediei de sondaj se calculează ca:

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 57: Suport Curs Statistica Ro

. [5.1]

Eroarea standard a mediei de sondaj este , adică abaterea medie pătratică a mediei de selecţie de la parametrul m:

. [5.2]

Teorema limita central stipuleaza ca, dacă variabila analizata urmeaza o distributie normala, atunci si mediile de esantionare urmeaza o distributie normala. Daca insa variabia analizata nu este normal distribuită, atunci si mediile de esantionare urmeaza o distributie normal doar pentru eşantioane57suficient de mari (volumul esantionului n>30).

In situatia in care dispresia populatiei totale nu este cunoscuta, estimatorul dispersiei mediei de sondaj ( ) se scrie:

[5.3]

şi estimatorul erorii medii a mediei de sondaj (adică eroarea medie de reprezentativitate):

. [5.4]

Construirea intervalelor de incredere

Analiza rezultatelor obtinute pe un eşantion are o o valoare relativă, avand in vedere ca esantionul extras se poate gasi in orice parte a distributiei esantioanelor in jurul parametrului (necunoscut) al populatiei generale

Construirea intervalelor de incredere presupune urmatorii pasi:

1. Identificarea datelor problemei: in principal daca este sau nu cunoscuta dispersia populatiei generale, volumul esantionului, indicatorii descriptive de la nivel de esantion – media esantionului, abaterea standard a esantionului

2. Calculul eroarii medii de reprezentativitate

3. Calculul erorii limita

4. Construirea intervalului de incredere

Calculul erorilor pentru selecţia aleatoare simplă repetată

1. Presupunem un esantion de volum n, cu media si abaterea standard , estimatorul dispersiei mediei de sondaj

( ) este

2. Calculul eroarii medii de reprezentativitate reprezinta abaterea medie pătratică a mediei de sondaj de la media colectivitatii generale.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 58: Suport Curs Statistica Ro

Daca dispersia/ abaterea standard a colectivitatii generale este cunoscuta, eroarea medie de reprezentativitate este:

[5.5]

Daca dispersia/ abaterea standard a colectivitatii generale nu este cunoscuta, eroarea medie de reprezentativitate este:

[5.6]

3. Calculul erorii limita (erorii maxim admisibile), pentru o probabilitate de garantare a rezultatelor de rezultatele

100(1-)%,:

Daca dispersia/ abaterea standard a colectivitatii generale este cunoscuta

, [5.7]

unde z este argumentul functiei Gauss-Laplace si depinde de probabilitatea de garantare a rezultatelor (valorile lui z sunt tabelate pentru diverse niveluri de semnificatie).

Daca dispersia/ abaterea standard a colectivitatii generale nu este cunoscuta:

, [5.8]

Cu alte cuvinte, în 100(1-)% din cazuri, media de sondaj ( ) se abate, in plus sau minus, de la media

colectivităţii generale, cu o marja de eroare data de eroarea limita (maxim admisibila).

4. Construirea intervalului de incredere – in care se va situa media reala, dar necunoscuta, a populatiei generale (parametrul populatiei generale):

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 59: Suport Curs Statistica Ro

FIG. NR. 31 – CONSTRUIREA INTERVALELOR DE INCREDERE

Deoarece eşantion de volum n a fost extras dintr-o colectivitate generală de N unităţi, nu putem fi siguri 100% în privinţa valorii adevărate a arametrului colectivităţii generale. De aceea, intervalul de incredere se defineste ca:

[5.9]

Calculul erorilor pentru selecţia aleatoare simplă nerepetată

In cazul selectiei aleatoare nerepetate, pasii sunt similari cu cei prezentati anterior. Astfel:

1. Esantionul se presupne a avea volumul egal cu n observatii, cu media si abaterea standard , estimatorul

dispersiei mediei de sondaj ( ) este

2. Calculul eroarii medii de reprezentativitate – abaterea între media de selecţie şi media colectivităţii generale – se va calcula utilizand este coeficient de corecţie a erorii medii de reprezentativitate, care are urmatoarea formula:

[5.10]

Daca dispersia/ abaterea standard a colectivitatii generale este cunoscuta, eroarea medie de reprezentativitate este:

[5.11]

Raportul n/N se mai numeste si fracţia de sondaj. Pentru o fracţie de sondaj sub 5% , în practica,, coeficientul de

corecţie în populaţie finită nu se ia în considerare. Prin urmare, erorile sondajelor bazate pe esantioane

de volum sub 5% din populatia generală, depind numai de volumul esantionului şi de împrăştierea datelor, împrăştiere măsurată prin abaterea medie pătratică.

Daca dispersia/ abaterea standard a colectivitatii generale nu este cunoscuta, eroarea medie de reprezentativitate este:

[5.12]

3. Calculul erorii limita (erorii maxim admisibile), pentru o probabilitate de garantare a rezultatelor de rezultatele

100(1-)%,:

Daca dispersia/ abaterea standard a colectivitatii generale este cunoscuta

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 60: Suport Curs Statistica Ro

, [5.13]

unde z este argumentul functiei Gauss-Laplace si depinde de probabilitatea de garantare a rezultatelor (valorile lui z sunt tabelate pentru diverse niveluri de semnificatie)

Daca dispersia/ abaterea standard a colectivitatii generale nu este cunoscuta

n

szsz x

xx 2/2/ , [5.14]

Cu alte cuvinte, în 100(1-)% din cazuri, media de sondaj ( ) se abate, in plus sau minus, de la media

colectivităţii generale, cu o marja de eroare data de eroarea limita (maxim admisibila).

4. Construirea intervalului de incredere – in care se va situa media reala, dar necunoscuta, a populatiei generale (parametrul populatiei generale)

[5.15]

d.3.6. Determinarea volumul eşantionului

Determinarea volumul eşantionului pentru sondaj aleator simplu repetat

De multe ori, marimea erorii limite admisibile poate fi prea mare ca furnizeze o valoare analitica semnificativa. De aceea, pentru a scadea aceasta eroare, avand in vedere ca ceilalti doi factori de influenta a erorii limita (abaterea standard din populatie/esantion si constanta z corespunzatoare nvelului de incredere ales) se mentine, de regula, constant, singura possibilitate ramane cresterea volumului esantionului.

Astfel, in practica se poate specifica eroarea limită maximă admisibilă ( ), sau lungimea totală a intervalului de

încredere, L=2 .

Cu aceste notatii:

sau [5.16]

Volumul esantionul se determina ca:

[5.17]

sau

. [5.18]

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 61: Suport Curs Statistica Ro

Daca dispersia populatiei generale este cunoscuta, in formulele prezentate anterior in loc de sx2 se foloseşte .

Volumul estimat al esantionului n astfel determinat se va exprima ca un numar intreg, prin rotunjirea la numărul întreg superior (fiind vorba de unităţi statistice), pentru a fi siguri că mărimea eşantionului este suficientă în scopul obţinerii preciziei dorite. (in acest scop se poate utiliza functia excel ROUNDUP)

Volumul eşantionului pentru sondaj aleator simplu nerepetat se poate calcula pornind de la acealeasi ipoteze:

[5.18]

Pe baza formulei:

. [5.19]

d.4. Sinteza

Capitolul prezinta principalele metode de selectie statistica, modalitatea de obtinere a estimatorilor punctuali si a intervalelor de incerdere pentru parametrii poplatiei generale.

Selectia statistica este un procedeu cu larga aplicabilitate practica, datorita numeroaselor avantaje date de analiza unui volum mult redus de date (avantaje de cost, timp, extindere a programului cercetarii, acuratete a rezultatelor etc).

Principalele procedee de selectie statistica sunt sondajul aleator repetat sau nerepetat, sondajul stratificat si sondajul de serii.

Pe baza rezultatelor analizei la nivel de esantion (estimatori) se urmareste aplicarea inferentei statistice, sau, cu alte cuvinte, generalizarea, in termini probabilistici, a rezultatelor cercetarii la nivelul populatiei generale.

Astfel, pentru a construi intervalul de incredere pentru parametrul (necunoscut) al populatiei generale, este necesara calculul eroarii medii de reprezentativitate (abaterea între media de selecţie şi media colectivităţii generale) si a erorii limita (sau eroarea maxim admisibila – ce reprezinta diferenţa între media unui eşantion (estimator) şi media colectivităţii generale (parametru) la estimarea acestuia cu o anumită probabilitate).

Intervalul de incredere se construieste prin adaugarea si substragerea (corespunzator limitei superioare si, respective, inferioare a intervalului de incredere) din media esantionului, a erorii limite.

d.5. Exercitii si aplicatii

Aplicatia 4.1.

Un utilaj de productie este astfel reglat încât să produca pungi cu chipsuri de greutate câte 20 de grame, cu o toleranţă de 1 gram.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 62: Suport Curs Statistica Ro

Controlul tehnic de calitate de rutina al companiei producatoare a obtinut, prin extragere mecanică, un eşantion de 150 pachete care cantareau în total 3015 grame. Din cercetarea eşantionului rezultă că 129 pachete cantareau exact 20 g, 12 pachete cantareau peste 20g, iar 9 pachete cantareau sub 20g.

Calculand indicatorii descriptivi la nivel de esantion, se constata ca media esantionului este de .20,1 grame/pachet, intensitatea împrăştierii era de 7,2%.

Se cere:

a) Să se estimeze cu o probabilitate (z) = 0,9973 (z = 3) greutatea totala a lotul de N = 3000 pachete realizate în cursul zilei şi să se observe dacă echipamentul se încadrează în toleranţa admisă;

b) Cât de mare ar trebui să fie un eşantion, dacă greutatea medie/pachet ar trebui estimat cu (z) = 0,9545 (z = 2) în limitele unui interval de 0,5 grame?

c) Să se observe în eşantionul de 150 pachete, cota de produse care nu îndeplinesc cerinţa de 20 grame/pachet şi să se estimeze cu (z) = 0,90 (z = 1,65) cota minimă şi maximă, precum şi numărul minim şi maxim de pachete necorespunzătoare din punct de vedere al greutatii în producţia unei zile;

d) Având în vedere că un client nu va reclama decât în situaţia în care greutatea pachetului de chipsuri este mai mica de 20 grame (care apare înscris pe pachet), se cere refacerea calculelor, considerând că m = 9 pachete din 150 verificate.

Rezolvare:

a) Din enunţul problemei rezultă că eşantionul se caracterizează prin:

Volumul n = 150 pachete;

Media = 20,1 grame/pachet;

Abaterea standard 1,4472 grame/pachet (din relaţia coeficientului de variaţie )

Pe baza acestor date, se poate estima eroarea medie de reprezentativitate, ştiind că în cazul extragerii mecanice se aplică relaţia de la sondajul simplu, aleator, repetat:

Un eşantion de 150 produse prelevate mecanic din producţia zilei, prezintă, în medie, o abatere cu 0,118 grame/pachet faţă de numărul mediu ( ) ce caracterizează întrega producţie.

Eroarea limită pentru (z) = 0,9973:

Greutatea medie/pachet pentru intreaga productie a zilei se situează, cu probabilitatea de 0,9973 în intervalul:

Prin urmare: , ceea ce, aplicat întregii producţii a zilei conduce (prin multiplicarea cu N = 3000) la o greutate totala (T) de:

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 63: Suport Curs Statistica Ro

, cu (z) = 0,9973, în condiţiile în care reglajul trebuia să încadreze acest număr între (20-1)3000 = 57.000 grame şi (20+1)3000 = 63.000 grame.

Întrucât intervalul de estimare (59.250, 61.350) este mult mai mic decât toleranţa admisă (57.000, 63.000), rezultă că reglajul este corespunzător.

b) .

Deci, pentru a răspunde unei astfel de exigenţe, ar fi suficient să se preleveze prin extragere mecanică doar 34

pachete, ceea ce la o producţie totală de 3000 pachete înseamnă un pas de numărare .

c) Din 150 pachete prelevate, 12+9 = 21 pachete conţin fie mai multe, fie mai puţine produse decât numărul standard de 20 grame/pachet.

În cadrul eşantionului, media (w) şi dispersia ( ) caracteristicii alternative sunt:

, ceea ce înseamnă că 14% din eşantion nu corespunde standardului de productie.

Eroarea medie de reprezentativitate a unui eşantion de volum 150 obţinut prin prelevare mecanică este de:

Un eşantion de volum 150 prelevat mecanic se caracterizează, în medie, printr-o cotă de produse necorespunzătoare cu 2,83% mai mare sau mai mică decât cota parte specifică întregii producţii a unei zile.

Eroarea limită pentru o probabilitate de 0,90 este de:

.

La probabilitatea menţionată, abaterea maximă a unui eşantion de volum 150 prelevat mecanic faţă de cota reală de produse necorespunzătoare din producţia unei zile este 4,7%.

În aceste condiţii, la (z) = 0,90, cota minimă şi maximă de defecte în producţia zilei este cuprinsă în intervalul:

, adică: sau:

, cu (z) = 0,90.

Numărul minim şi maxim de pachete necorespunzătoare (M) în producţia unei zile se obţine înmulţind cu N = 3000 limitele intervalului în care se încadrează cota de defecte:

pachete, cu (z) = 0,90.

Cel puţin 279 pachete şi cel mult 561 pachete din lotul fabricat de 3000, cuprinde mai mult sau mai puţin de 20 grame/pachet, cu o probabilitate de 0,90 (sau cu o marjă de eroare acceptată de 1-0,90 = 0,10 sau 10%).

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 64: Suport Curs Statistica Ro

d) În situaţia în care se consideră că un client nu va reclama decât în situaţia în care obţine mai puţine grame decât numărul de 20 (care apare înscris pe pachet (m = 9 pachete din 150 verificate).

w = 0,06; w(1-w) = 0,0564; ;

pachete, .

Aplicatia 4.2.

Managerul unui restaurant doreste sa estimeze suma medie cheltuita de clientii restaurantului in perioada aferenta pranzului weekend (Sambata si Duminica). Un esantion obtinut in urma unui proces de selectie aleatoare pe un esantion de 400 clienti arata ca nivel mediu de cheltuielilor pentru cei consumatori a fost de 620 lei cu o abatere standard de 250 lei.

Se cere sa se construiasca intervalul de incredere al populatiei generale, cu un nivel de incredere de 95%.

Care ar fi nivelul incasarilor resturantului intr-o zi cu in care vor servi masa de pranz 57 clienti?

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 65: Suport Curs Statistica Ro

Aplicatia 4.3.

Un esantion de 100 clienti ai unei salon de cosmetica a fost chestionat cu privire la satidfactia fata de serviciile oferite. Din cei 100 clienti intrebati, 75 au declarat ca sunt foarte multumiti de serviciile primite.

Se cere sa se construiasca construiasca intervalul de incredere al pentru procentul de satifactie l tuturor clientilor salonului de cosmetica, cu un nivel de incredere de 95%.

Un articol de ziar a prezentat rezultatele acestui sondaj astfel: Un esantion de 100 clienti a aratat ca 75% sunt foarte multumiti de serviciile salonului de cosmetica. Rezultatele au o marja de eroare de ±2,7 procente, in 19 cazuri din 20. Este aceasta afirmatie corecta?

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 66: Suport Curs Statistica Ro

CAPITOLUL 5 – TESTAREA IPOTEZELOR STATISTICE

5.1. Introducere

Testele statistice se impart in teste parametrice si neparametrice, in functie de cunoasterea sau nu a distributiei populatiei analizate. In prima categorie cele mai cunoscute teste sunt testul Student (testul t), testul z pentru distributia normal sau testul Hipatrat.

In cadrul testele neparametrice se incadreaza, spre exemplu, testul Wilcoxon (verifica existent unor diferente semnificative intre doua populatii, pebaza datelor din esantioane), testul Mann-Whitney (utilizat pentru verificarea existentei egalitatii dintre doua populatii), testul Kolmogorov-Smirnov (testeaza identitatea a doua functii de repartitie), etc

.

5.2. Obiectivele capitolului

Capitolul isi propune sa prezinte obiectivele si metodele de testare a ipotezelor statistice, in contexul procesului de inferenta statistica, in vederea confirmarii sau infirmarii unor presupuneri legate de parametrii unei populatii statistice, pornind de la datele obtinute in urma analizei datelor dintr-un esantion.

5.3. Continut

5.3.1. Introducere in testrea ipotezelor statistice

Prin ipoteza statistica se intelege “presupunerea” care se face cu privire la parametrul unei repartitii sau a legii de repartitie pe care o urmeaza anumite variabile aleatoare.

Exista doua ipoteze statistice:

• ipoteza nula este ipoteza care urmeaza a fi testata si este notata cu H0. Aceasta presupune ca nu exista deosebiri esentiale sau ca eventualele deosebiri au un caracter intamplator;

• ipoteza alternativa reprezinta negarea ipotezei nule si se noteaza cu H1.

Procedeul de verificare a unei ipoteze statistice se numeste test de semnificatie. Pentru cele mai multe testari statistice, testul este derivat din estimatorul punctual al parametrului ce va fi testat.

Concepte utilizate

Regiunea critica reprezinta valorile numerice ale testului statistic pentru care ipoteza nula va fi respinsa.

Eroarea pe care o facem eliminand o ipoteza nula, desi este adevarata, se numeste eroare de tip unu. Probabilitatea comiterii unei astfel de erori (α) si se numeste nivel sau prag sau nivel de semnificatie

Nivelul de incredere al unui test statistic este (1-α)Dezvoltare, inovare şi extindere a accesului la

învăţare în programe de master în administrarea afacerilor

Contract nr.: POSDRU /86/1.2/S/61086Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 67: Suport Curs Statistica Ro

Eroarea pe care o facem acceptand o ipoteza nula, desi este falsa, se numeste eroare de tipul al doilea, iar probabilitatea (riscul) comiterii unei astfel de erori se noteaza cu β. Puterea testului statistic este (1-β).

Regiunea critica reprezinta valorile numerice ale testului statistic pentru care ipoteza nula va fi respinsa.

Cele patru posibilitati ce deriva din combinarea celor doua ipoteze statistice (ipoteza nula si ipoteza alternative) cu cele doua posibile decizii (respingerea sau nu a ipotezei nule) sunt prezentate schematic in tabelul de mai jos:

Ipoteza adevarataDecizia de acceptare

Ho H1

Ho Decizie corecta Eroare de tip I

H1 Eroare de tip II Decizie corecta

5.3.2. Etapele testarii ipotezelor statistice

Testarea ipotezelor statistice poate fi realizata urmand urmatoarele etape:

1. formularea ipotezelor – ipotezele pot fi sub forma testului bilateral sau unilateral de stanga sau de dreapta;

in cazul testarii parametrul medie al unei colectivitati generale cu valoarea µ0, formularea ipotezei nule si alternative se realizeaza intr-una din urmatoarele forme:

test bilateral:

H0: μ = μ0

H1: μ ≠ μ0

test unilateral de dreapta:

H0: μ = μ0

H1: μ > μ0

test unilateral de stanga:

H0: μ = μ0

H1: μ < μ0

2. alegerea tipului de distributie coresunzatoare variabilei analizate – depinde tipul testarii, de volumul esantionului extras si de cunoasterea sau nu a dispersie populatiei statistice, etc

In cazul in care se cunoaste dispersia populatiei statistice se foloseste statistica Z (testul Gauss-Laplace)

[5.1]

In cazul in care nu se cunoaste dispersia populatiei statistice ci numai a esantionului (s) se observa vlumul esantionului (n):

o Daca volumul esantionului este mai mare de 30 observatii, se foloseste statistica Z (testul Gauss-

Laplace)

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 68: Suport Curs Statistica Ro

[5.2]

o Daca volumul esantionului este mai mare de 30 observatii, se foloseste statistica Z (testul Gauss-

Laplace)

[5.3]

3. specificarea unui prag de semnificatie α , altfel spus, riscul asumat in respingerea ipotezei nule cand aceasta este adevarata.

4. Definirea regiunii de acceptare/ de respingere

5. calcularea valorii statisticii test – folosind formulele

In cazul in care se cunoaste dispersia populatiei statistice se foloseste statistica Z (testul Gauss-Laplace)

[5.4]

In cazul in care nu se cunoaste dispersia populatiei statistice ci numai a esantionului (s) se observa vlumul esantionului (n):

a. Daca volumul esantionului este mai mare de 30 observatii, se foloseste statistica Z (testul Gauss-Laplace)

[5.5]

b. Daca volumul esantionului este mai mic de 30 observatii, se foloseste statistica t (testul Student)

[5.6]

6. Decizia statistica – se compara valoarea calculata a statisticii respective cu valoarea critica a lui Z sau t cu (n-1) grade de libertate pentru pragul de semnificatie α ales;

Daca valoarea calculata se gaseste in regiunea de acceptare, concluzia este ca nu exista suficienta evidenta statistica pentru a respinge ipoteza nula; daca valoarea calculata se afla in regiunea de respingere, se respinge ipoteza nula;

7. Interpretarea rezultatelor – se interpreteaza rezultatele in contextul explicit al problemei manageriale analizate.

5.3.3. Testul HI-patrat

Este un test de concordanţă, neparametrică, folosit pentru a testa gradul de „apropiere" dintre o distribuţie observata şi una teoretică. putand fi utilizat atît în cazul variabilelor cantitative cît şi calitative.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 69: Suport Curs Statistica Ro

Testul Hi-patrat poate fi utilizat in urmatoarele situtii:

1. Compararea a mai multor procente

2. Testul de independenta

Tabel de contingenta

Existenta unei legaturi intre 2 variabile calitative

3. ‘’Goodness of fit test’’ - daca o distributie data corespunde unei distributii teoretice (normala, uniforma, Poisson, Student, etc )

Distributia functie Hi patrat pentru diferite grade de libertate se prezinta in graficul de mai jos::

FIG. NR. 32 – DISTRIBUTIA HI-PATRAT

Etapele testatii in cazul testu;u Hi patrat sunt similare cu cele prezentate anterior:

1. Formularea ipotezei nule si ipotezei alternative;

2. Selectarea nivelului de semnificatie;

3. Stabilirea frecventelor absolute observate (din esantion) (oi);

4. Calcularea frecventelor asteptate (ei) pe baza distributiei din ipoteza nula;

5. Calcularea statisticii Hi-patrat:

[5.7]

Unde oi – reprezinta frecventele absolute observate (inregistrate in esantion)

ei – reprezinta frecventele asteptate, conform ipotezei nule

6. Compararea valorii calculate cu valorile din tabelele statistice cu distributia Hi-patrat, pentru un nivel (df) al gradelor de libertate (regiunea de acceptare /respingere);

7. Decizia statistica;

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 70: Suport Curs Statistica Ro

8. Interpretarea rezultatelor.

Ipotezele de lucru de la care se porneste in aplicarea acestui test sunt:

o Datele provin dintr-un esantion aleator;

o Volumul esantionului este 70ontingent de mare (cel putin 20 observatii);

o Frecvante absolute (nu relative – procente) ;

o Numarul minim de valori observate in fiecare categorie – cel putin 5;

o Observatii independente;

o Nu demonstreaza cauzalitatea;

1. Compararea mai multor procente

Sa presupunem ca doua companii competitoare, A si B, au realizat campanii publicitare agresive in ultimele 3 luni. Inaintea acestor campanii, cotele de piata au fost:

Compania A = 45%

Compania B = 40%

Alti 70ontingent= 15%.

Pentru a studia efectul campaniilor de publicitate asupra cotelor de piata, 200 de consumatori au fost intrebati despre preferintele de consum privind produsul 70ontingent

Rezultatele sondajului prezinta urmtoarea distributie a optiunii clientilor pentru fiecare din cele trei branduri ale celr 3 companii:

102 clienti 70ontin produsul companiei A

82 clienti 70ontin produsul companiei B

16 clienti 70ontin produsul altor companii.

Datele problemei pot fi sintetizate astfel:

Populatia 70ontingent70 este preferinta pentru un anumit produs/ brand

Date calitative (A, B, sau altele)

Experiment multinomial (trei sau mai multe categorii)

Obiectivul analizei: cotele de piata dinaintea campaniei sunt semnificativ diferite de cele dupa 70ontinge publicitara?

Gradele de libertate: d.f. = k-1 (3-1)

Formularea ipotezelor:

o H0: p1 = 0.45, p2 = 0.40, p3 =0.15

o H1: Cel putin unul dintre pi difera de valoarea specificata

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 71: Suport Curs Statistica Ro

Se selecteaza nivelul de semnificatie α = 5%

Se determina frecventele absolute observate: 102, 821 16

Se determina frecventele absolute asteptate (expected) – aplicand ponderile prezentate in ipoteza nula volumului totoal al esantionului de 200 observatii.

Se obtin astfel urmatoarele valori asteptate:

o 0.45*200 = 90 clienti ar cumpara produsul companiei A

o 0.40*200 = 80 clienti ar cumpara produsul companiei B

o 0.15*200 = 30 clienti ar cumpara produsul altor companii.

Statistica calculate este:

Regiunea de respingere este:

Valoarea calculate a statisticii este:

La 5% nivel de semnificatie se respinge ipoteza nula Ho.

In concluzie, cel putin o cota de piata s-a modificat semnificativ in urma campaniilor publicitare.

2. Testul de independenta

Testul de independent se aplica pentru a stabili daca doua variabile statistice prezinta o legatura statitica de dependent. Cu alte cuvinte, acest test se aplica unei serii de repartitie bidimensionale, prezentate sub frma un tabe de contingent.

Etapele testarii ipotezelor statistice se mentin 71onting etapelor prezentate anterior, cu urmatoarele particularitati:

1. Formularea ipotezelor statistice:

Ho – variabilele sunt independente

H1 – exista o relatie de dependent intre cele doa variabile analizate

2. Distributia este Hi – patrat

3. Nivelul de semnificatie – 5%, Gradele de libertate – d.f. = (r-1)*(c-1), unde r reprezinta numarul de variante inregistrate pe randurile tabelului de 71ontingent iar c reprezinta numarul de variante inregistrate pe coloanele tabelului de 71ontingent.

Valoarea din tabele statistice se poate obtine si in excel , utilizand functia CHIINV

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

18.830

)3016(80

)8082(90

)90102( 22k

1i

22

99147.5213,05.

21k,

Page 72: Suport Curs Statistica Ro

FIG. NR. 33 – ACCESAREA FUNCTIEI CHIINV

Argumentele functiei CHIINV sunt:

o Probability – reprezinta probabilitatea corespunzatoare nivelului (pragului) de semnificatie α;

o Deg_freedom – reprezinta gradele de libertate, d.f. = (r-1)*(c-1),

4. Valorile asteptate se calculeaza astfel:

[5.8]

5. Statistica calculate este:

[5.9]

6. Regiunea de respingere este:

[5.9]

7. Se ia decizia statistca de respingere sau nu a ipotezei nule si se interpreteaza rezultatele obtinute

3. Goodness of Fit Test

Verifica daca o anumita distributie (data) corespunde unei distributii teoretice (

Exemple:

- distributia uniforma (frecvente absolute egale)

- Distributia normala

- Distributia Student

- Distributia binomiala

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 73: Suport Curs Statistica Ro

- Distributia Poisson, etc

Se aplica etapele testarii de ipoteze, corespunzatoare testului Hi-patrat, in care ipoteza nula este ca distributia valorilor din esantion corespun distributiei teoretice

5.4. Sinteza

In analiza datelor obtinute printr-un eşantion, rezultat obţinute sunt estimatori, în sensul că datele respective nu numai că nu coincid cu parametrii populaţiei, dar nici măcar nu se poate şti cu certitudine care este diferenţa dintre estimator si parametru, de vreme ce starea populaţiei este, de regulă, necunoscută.

Prin urmare, asupra populaţiilor studiate selectiv se pot exprima numai supoziţii in termini probabilistici, denumirte ipoteze statistice. Prin testarea ipotezelor statistice, se urmareste obtinerea de suficienta evidenta statistica in urma studierii unui esantion, pentru a putea respinge sau nu ipoteza nula.

Testarea ipotezelor statostoce se poate realiza urmand o serie de pasi descrisi mai devreme, care se pot aplica oricarui tip de distributie a variabilei analizate – fie ea distributia normala (Gauss-Laplace), distributia Student (sau t), distributia Hi-patrat .

5.5. Exercitii si aplicatii

Aplicatia 5.1

Managementul unei filiale de banci doreşte să fluidizeze servirea clienţilor. Din studii anterioare realizate de banca, se cunoaste că timpul de servire a clienţilor este normal distribuit, de medie 10 de minute şi abatere medie pătratică 4 minute.

Din activitatea desfasurata, managerul are indoieli cu privire la timpul mediu de servire in cadrul filialei. In acest sens, înregistrează timpii de servire pentru 100 de clienţi selectati intr-un esantion aleator. Media esantionului este 12 minute. Sa se testeze la un nivel de semnificatie de 95%, că timpul mediu de servire al clientilor este diferit de 13 minute.

Parametrul ce ne interesează este timpul mediu în colectivitatea generală. Raspunsul la intrebarea managerului se poate obtine aplicand etapele testarii ipotezelor statistice, dupa cum urmeaza:

1. Formularea ipotezelor

Trebuie, aşadar, să răspundem la întrebarea: “Este media esantionului de 12 minute suficient de aproape/diferită de media persupusa de 13 minute a populatiei generale, pentru a oferi suficienta evidenta statistica in a concluziona că media populaţiei este egală cu 13 minute?”

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 74: Suport Curs Statistica Ro

2. Stabilirea formei distributiei

Avand in vedere ca se cunoaste dispersia populatiei generale si, in plus, volumul esantionului este mai mare de 30 observatii, se poate concluziona ca distributia este normal,

3. specificarea unui prag de semnificatie α

Conform datelor problemei, pragul de semnificatie este de 5%

În exemplul nostru,

4. Definirea regiunii de acceptare/ de respingere

Se respinge H0, dacă sau .

5. calcularea valorii statisticii test

Distribuţia de eşantionare a mediei este normală sau aproximativ normală, cu media şi abaterea medie pătratică

. Ca rezultat, putem standardiza şi calcula .

Cum testul statistic calculat are valoarea in regiunea de respingere, rezultă că sunt suficiente dovezi pentru a respinge ipoteza nulă H0 şi a accepta ipoteza alternativă, aceea că timpul mediu de servire a unui client este diferit de 13 minute.

Aplicatia 5.2

Managerul unei companii doreste sa afle daca numarul de absente ale angajatilor este distribuit uniform pe parcursul saptamanii de lucru. (altfel spus, numarul mediu de zile absentate este acelasi Luni, Marti, Miercuri, Joi si Vineri).

Un esantion aleator de 4 saptamani a aratat urmatoarea distributie a numarului de zile absentate de angajati in functie de ziua saptamanii:.

- Luni : 5

- Marti: 4

- Miercuri: 2

- Joi: 3

- Vineri: 6

Pentru populatia de angajati, se poate afirma ca absenteismul apare cu aceeasi frecventa in fiecare zi a saptamanii? (utilizati α = 5% )

Solutie: se parcurg pasii prezentati anterior.

Se specifica ipoteza nula si ipoteza alternative:

o Ho: abseteismul nu depinde de ziua saptamanii

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 75: Suport Curs Statistica Ro

o H1: nr de zile de asbsente apar cu frecvente inegale in diferite zile ale saptamanii (nu urmeaza

distributia uniforma)

Se specifica nivelul de semnificatie - 5%

Se identifica distributia - Hi patrat, cu gradele de libertate d.f.= 5-1 = 4

Valoarea din tabele (obtinuta cu funtia CHIINV) = 9,49

Se identifica frecventele absolute observate si se calculeaza frecventele absolute asteptate

Se calculeaza testul statistic χ2 = 2,5

Valoarea calculata se afla in regiunea de acceptare, prin urmare nu exista suficienta evdenta statistica sa respingem ipoteza nula

In concluzie, nu avem suficienta evidenta statistica pentru a demonstra ca absenteism nu apar cu frecvente egale pe parcursul saptamanii.

Aplicatia 5.3

Exemplu – Managerul unei companii doreste sa afle gradul de satisfactie a angajatilor la locul de munca. In acest sens, a extras un esantion aleator de angajati, pe care i-a rugat sa clasifice gradul lor de satisfactie in desfasurarea activitatii curente.. Distributia nivelului de interes in functie de sex se prezinta in tabelul de mai jos. Exista suficienta evidenta statistica pentru a concluziona ca nivelul de interes depinde de sexul? Utilizati α = 0.05 (valoarea tabelata a statisticii = 5,99)

TABEL NR. 7 – VALORILE OBSERVATE DIN TABELUL DE CONTINGENTA

Valori observate Raspuns: activitatea curenta este:

Gen Foarte interesanta Relativ interesanta NeinteresantaFeminin 40 60 20Masculin 20 40 20

Acesta este un exemplu classic in care se aplica testul de independent.

Valorile asteptate, in cazul care cele doua variabile – gradul de interes si genul - sunt independente (cu ate cuvinte, satisfactia la locul de munca este independent de genul angajatului) sunt:

TABEL NR. 8 – VALORILE ASTEPTATE DIN TABELUL DE CONTINGENTA

Valori asteptate Raspuns: activitatea curenta este:

Gen Foarte interesanta Relativ interesanta NeinteresantaFeminin 36 60 24

Masculin 24 40 16

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 76: Suport Curs Statistica Ro

Testul statistic Hi patrat calculate este:

Valoarea din tabele statistice pentru (2-1)*(3-1) =2 grade de libertate si un prag de semnificatie alfa de 5% este de 5.99.

Valoarea calculata a trstului este mai mica decat valoarea teoretica, prin urmare nu exista suficienta evidenta statistica pentru a se respinge ipoteza nula in favoarea celei alternative.

In concluzie, satisfactia muncii si sexul sunt independente.

Aplicatia 5.4

Presupunem ca doua monede sunt aruncate impreuna de 100 ori. Rezultatele sunt:

20 CC, 27 CP, 30 PC si 23 PP.

Testati pentru un nivel de semnificatie de 5% daca monedele sunt corecte.

Aplicatia 5.5

Durata de viata a unei componente electronice se considera a fi normal distribuita. Se observa 500 componente pentru care distributia duratei de viata este prezentata in tabelul de mai jos.

Urmeaza aceste date distributia normala?

TABEL NR. 9 – DISTRIBUTIA DURATEI DE VIATA A COMPONENTELOR

Aplicatia 5.6

Sase analisti bancari cu vasta experienţa sunt rugati sa furnizeze previziuni asupra ratei medi ale inflatiei pe anul curent. Valorile previzionate de experti au fost:: 4,60%; 3,50%; 5,0%; 4,80%; 4,00% si 4.50%.Ştiind că rata inflatiei în anul anterior a fost de 4.21% mld. lei, sunt suficiente dovezi pentru a concluziona că media previziunilor experţilor este semnificativ mai mare decât rata infatiei corespunzatoare anului anterior (pentru α = 0,05)?

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 77: Suport Curs Statistica Ro

CAPITOLUL 6 – ANALIZA LEGATURII DINTRE VARIABILELE STATISTICE

6.1. Introducere

În foarte multe situaţii, în analiza fenomenelor economico-sociale, două sau mai multe variabile trebuie studiate împreună. De exemplu, vânzările unei societăţi comerciale pot fi varia in functie de nivelul preturilor si/sau valoarea cheltuielilor cu publicitatea; cererea pentru un grup de produse poate fi studiată în funcţie de preţurile de vânzare şi/sau veniturile cumpărătorilor; produsul intern brut al unei tari este dependent de consumul final, investitiile brute si exporturile etc.

Cunoaşterea acestor fundamente ale analizei legăturii între variabilele economice poate fi de un real folos în înţelegerea raporturilor de cauzalitate sau de interdependenţă între caracteristicile unui sistem micro- sau macroeconomic. O astfel de analiză se întreprinde fie pentru a explica o evoluţie trecută sau o situaţie prezentă, fie pentru a proiecta modificarea viitoare a parametrilor sistemului condus.

Analiza corelatiei si regresiei reprezinta instrumente statistice de investigare a legaturilor dintre doua sau mai multe variabile, utilizate in a determina intensitatea si forma legaturii cauzale dintre variabile. Pentru a intelege aceste aspect, analistul va urmari identificarea clara a variabilelor supuse analizei, obtinerea setului de date si dezvoltarea unui model de regresie pentru a putea cuantifica efectele variabilelor cauzale, factoriale, asupra variabilei analizate, in conditiile unui grad de incredere ales in rezultatele analizei.

6.2. Obiectivele capitolului

Capitolul isi propune sa furnizeze instrumentele prin care analistul poate intelege natura si intensitatea legaturii dintre doua sau mai multe variabile statistice. Sunt prezentati cei mai utilizati indicatori de masurare a intensitatii legaturii dintre variabile – covarianta si coeficientul de corelatie liniara – precum si metodologia de construire si aplicare a unui model de regresie simpla si multipla, inclusiv folosind Microsoft Excel.

6.3. Cotinut

Termenul de regresie a aparut la finele secolului al XIX-lea, fiind propus de catre sir Francis Galton (1822 – 1911), care a realizat mai multe studii privind asocierea dintre variabile, cel mai cunoscut fiind acela in care a analizat legatura statistica dintre inaltimea parintilor si cea a copiilor. Contributii importante au mai avut K. Pearson (corelatia a trei variabile) G.U. Yule (corelatia multipla), Spearman si Kendal (corelatia neparametrica) sau Mosteller si Tukey (corelatia robusta).

Analiza interdependentelor dintre doua sau mai multe variabile socio-economice poate fi realizata utilizand mai multe concepte:

Regresia - permite identificarea formei lagaturii dintre doua sau mai multe variabile, cu ajutorul unei functii de regresie,

Corelatia – permite masurarea intensitatii legaturii dintre variabilele analizate,

Covariatia – masoara variatia simultana a doua variabile.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 78: Suport Curs Statistica Ro

In cadrul analizei dependentei dintre variabile se utilizeaza urmatoarele notatii:

Variabila dependenta – denumita si variabila rezultativa, este variabila analizata, notata cu Y

Variabila independenta – denumita si variabila factoriala, explicativa, notata cu X.

Variabila aleatoare eroare – denumita si variabila reziduala, sintetizeaza influenta tuturor factorilor nespecificati in model, din diferite motive (factori ce nu pot fi depistaţi, sunt greu de cuantificat, sunt nesemnificativi etc.)., notate cu e.Forma generică a funcţiei de regresie este:

= f (X1, X2,...., Xk) + e [6.1]

Regresia unifactoriala liniara

Acest model de regresie consideră că variabila dependentă (Y) se modifică liniar sub influenţa semnificativă a unei singure variabile independente (X).

Modelul liniar :

Yi =o + 1*xi + i, i=1,n [6.2]

Componenta determinista

Componenta reziduală (eroarea aleatoare)

In practica economica, de cele mai multe ori datele sunt obtinute dintr-un esantion (n perechi de observatii) pe baza carora se estimeaza parametrii ecuatiei de regresie liniară simplă, o şi 1.

In contextual actual al modelarii din domeniul socio-economic, realizarea de modele matematice care sa masoare dependenta dintre doua sau mai multe variabile se face in termeni probabilistici. Aceste modele sunt compuse atat dintr-o component determinista cat si una aleatoare, ce urmareste sa masoare impactul variabilelor care sunt greu de cuantificat cat si a factorilor accidentali, intamplatori.

Modelul de regresie liniara specifica la nivel de esantion se poate scrie:

yi = bo + b1 + ei [6.3]

unde:

bo + b1 sunt estimatorii parametrilor o si 1

ei este valoarea reziduala (pentru unitatea i) din esantion:

cu componenta predictibilă:

termen liber – bo - reprezintă ordonata la origine şi exprimă valoarea lui y când x = 0 (punctul în care linia intersectează axa Oy). Acest parametru nu are semnificaţie economică.

panta dreptei de regresie b1 - poartă denumirea de coeficient de regresie - arată cu câte unităţi se modifică variabila rezultativă (Y) la modificarea cu o unitate a variabilei factoriale (X).

Semnul coeficientului de regresie arată direcţia legăturii dintre cele două variabile cercetate. Astfel:

dacă b1 > 0 legătura între variabile este directă;

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 79: Suport Curs Statistica Ro

dacă b1 < 0 legătura între variabile este inversă (negativă);

dacă b1 = 0 nu există legătură între variabile.

Estimarea estimatorilor bo si b1 ai parametrilor populatiei generale se realizează, de regulă, prin metoda celor mai mici pătrate, care urmareste minimizarea sumei pătratelor erorilor - (ei)² = min (sau, cu alte cuvinte, minimizarea sumei distantelor dintre valorile empirice sau observate si valorile teoretice, date de functia de regresie.

Minimul funcţiei se obţine în punctele de anulare a derivatelor parţiale calculate în raport cu cei doi coeficienti (bo si b1) ai funcţiei liniare de regresie.

Se obtine urmatorul, sistem de ecuaţii normale:

[6.4]

Prin rezolvarea sistemului de ecuaţii se obţin coeficientii si :

[6.5]

Observatie : Calcularea coeficientilor functiei de regresie se realizeaza, mult mai simplu, cu ajutorul soft-urilor statistice. In Microsoft Excel, calculul coeficiemtilor de regresie poate fi realizat fie utilizand functii specifice, fie utilizand reprezentarea grafica, fie utilizand componenta Data Analysis, din care se alege optiunea Regression.După estimarea celor doi parametrii, se scrie funcţia de regresie. Pe baza ei se determină fiecare valoare teoretică (predicted value) prin înlocuirea in ecuaţia de regresie a valorilor inregistrate in setul de date ale caracteristicii factoriale.Spre exemplu, un manager de companie doreste sa inteleaga natura relatiei dintre salariile angajatilor si experienta lor profesionala in domeniul in care activeaza in cadrul companiei. Un esantion aleator de 48 angajati a fost selectat printr-un sondaj statistic aleator, nerepetat si prezinta urmatoarele valori ale celor doua variabile analizate – salariul brut si experienta – valori prezentate in TABELUL NR. 11

Este evidenta natura univoca a relatiei dintre cele doua variabile statistice, experienta (variabila independenta, factoriala, ale carei valori se noteaza cu xi) fiind cea care are o influeta asupra salariului brut (variabila dependenta ale carei valori se noteaza cu yi).

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 80: Suport Curs Statistica Ro

TABEL NR. 10 – SALARIUL BRUT (RON) SI EXPERIENTA ANGAJATILOR DIN ESANTION

Nr crtSalariul

brut lunar (RON)

Experienta (ani)

 

Nr crtSalariul

brut lunar (RON)

Experienta (ani)

1 1942 3   25 1833 72 3190 10   26 2207 143 3163 7   27 2533 164 3205 17   28 2123 135 3036 11   29 2096 86 2942 12   30 2373 87 1464 5   31 2306 118 1464 6   32 2413 99 2587 10   33 2393 710 1439 4   34 2533 2411 3190 13   35 2207 1212 3511 8   36 2207 913 3378 20   37 2500 1114 2942 10   38 2306 615 2693 16   39 1014 116 12152 27   40 6523 1817 10479 20   41 3166 1118 6376 10   42 3578 3319 7414 21   43 3849 1420 4955 30   44 7062 2221 6303 25   45 3727 1022 7953 15   46 3874 923 6376 13   47 4201 1024 2207 5   48 4215 25

Primul pas in identificarea unei eventuale interdependente intre cele doua variabile este reprezentarea grafica prin diagrama norului de puncte.

In Excel, pentru realizarea acestui tip de grafic, din meniul Insert, se alege din Charts, tipul de grafic potrivit evidentierii interdependentei dintre 2 variabile – si anume Scatter (Diagrama norului de puncte)

Observatie: Cand se selecteaza matricea de date statistice pentru intocmirea graficului de tip Scatter, este importanta trecerea variabilelor in urmatoarea ordine: intai variabila independenta (X) si apoi variabila dependenta (Y).

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 81: Suport Curs Statistica Ro

FIG. NR. 34 – CONSTRUIREA GRAFICULUI DE TIP NOR DE PUNCTE (SCATTER)

Se obtine urmatorul grafic :

FIG. NR. 35 – INTERDEPENDENTA DINTRE SALARIUL BRUT SI EXPERIENTA

Pentru a insera dreapta de regresie, se face click drepta pe oricare din punctele graficului, obtinandu-se urmaoarea fereastra de dialog :

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 82: Suport Curs Statistica Ro

FIG. NR. 36 – SELECTAREA FUNCTIEI DE REGRESIE PRIN METODA GRAFICA

Se alege Add trendlime, si va aparea urmatoarea fereastra de dialog :

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 83: Suport Curs Statistica Ro

FIG. NR. 37 –ALEGEREA TIPULUI FUNCTIEI DE REGRESIE

Alegerea tipului de functie/regresie se va face in functie de modul de dispunere a punctelor pe grafic. In exemplul nostru, graficul a aratat o imprastiere destul de mare a punctelor, sau, cu alte cuvinte, lipsa unei corelatii foarte puternice intre variabila dependenta si cea independenta.

Se va alege functia liniara, bifandu-se totodata si optiunile Display Equation on Chart si Display R-squared value on chart pentru a obtine ecuatia de regresie si coeficientul de determinatie.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 84: Suport Curs Statistica Ro

FIG. NR. 38 – AFISAREA FUNCTIEI DE REGRESIE PE GRAFICUL NORULUI DE PUNCTE

Prin urmare, ecuatia de regresie se scrie :

[6.6]

Ordonata la origine nu are interpretare economica.

Coeficientul de regresie (panta dreptei) are valoarea 187.63. Valoarea pozitiva arata o legatura directa intre cele doua variabile (altfel spus, in medie, o experienta mai mare conduce la un nivel al salariului brut mai mare). Valoarea de 187.63 poate fi interpretata astfel : pentru fiecare an suplimentar de experienta, nivelul salariului brut creste, in medie, cu 187.63 lei.

O a doua modalitate de realizare a analizei regresiei cu ajutorul functiei Excel LINEST.

Sintaxa funcţiei este :

LINEST (known y’s, known x’s, const, stat) - pentru varianta în care nu precizăm parametrii const şi stat, rezultatul consta in cei doi coeficienti ai dreptei de regresie.

parametrii de intrare, known y’s, known x’s, reprezintă datele sub forma de vector corespunzand valorilor cunoscute ale variabilei dependente si, respectiv, variabilei independente

parametrii de intrare, const şi stat, sunt parametri de tip logic care permit specificarea unor particularităţi în model respectiv afişarea suplimentară a unor indicatori de regresie.

O a treia varianta, este accesarea unei componente Excel denumita Analysis ToolPak  (Pachet de instrumente de analiză) ; instrumentul de analiză utilizează macro-funcțiile statistice și afișează rezultatele într-una sau mai multe matrice - rezultate.

Se acceseaza componenta Data Analysis, din cadrul careia se alege Regression.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 85: Suport Curs Statistica Ro

FIG. NR. 39 –ALEGEREA OPTIUNII DE REGRESIE

Instrumentul de analiză Regresie execută analiza de regresie liniară prin utilizarea metodei „pătratelor mici“ pentru a găsi o linie care corespunde unui set de observații. Aveți posibilitatea analizării modului în care o singură variabilă dependentă este afectată de valorile uneia sau a mai multor variabile independente.

Instrumentul Regresie utilizează funcția LINEST a foii de lucru.

FIG. NR. 40 –FEREASTRA DE DIALOG A O[IUNII REGRESSION

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 86: Suport Curs Statistica Ro

TABEL NR. 11 – OUTPUT-UL OPTIUNII DATA ANALYSIS/REGRESSION

SUMMARY OUTPUT

Regression Statistics

Multiple R 0.584

R Square 0.342Adjusted R Square 0.327

Standard Error 1903.75

Observations 48

ANOVA

  df SS MS F Significance F

Regression 1 86461097 86461097 23.86 0.000

Residual 46 166716225 3624266

Total 47 253177322

  CoefficientsStandard

Error t Stat P-value Lower 95% Upper 95%

Intercept 1252.98 571.41 2.19 0.033 102.80 2403.17

Experienta (ani) 187.63 38.42 4.88 0.000 110.30 264.96

În Excel, prognoza poate fi făcută fie cu funcţia FORECAST, fie cu funcţia TREND, cea de-a doua având avantajul că poate obţine previziunea pe mai multe valori ale lui X, în acelaşi timp. Sintaxele funcţiilor sunt :FORECAST(x; known y’s, known x’s), valoarea lui y corespunzătoare lui , dintr-o regresie liniară (valoarea previzionată pe baza unui model liniar).

o parametrii de intrare, known y’s, known x’s, reprezintă doi vectori de aceeaşi dimensiune, care conţin

valorile celor două variabile, pe baza cărora fundamentăm modelul de regresie;

o parametrul de intrare, x, reprezintă o nouă valoare a variabilei X, valoare pentru care dorim să previzionăm

valoarea lui Y corespunzătoare.

TREND (known y’s, known x’s, new x, const), adică un vector format cu valorile previzionate ale lui y din regresia liniară, corespunzatoare valorilor new x; vectorul este de aceeaşi dimensiune cu new x.

o parametrii de intrare, known y’s, known x’s, reprezintă doi vectori de aceeaşi dimensiune, care conţin

valorile celor două variabile, pe baza cărora fundamentăm modelul de regresie;

o parametrul de intrare new x, este un vector care conţine noile valori ale lui X, valori pentru care dorim să

facem previziunea;

o parametrul de intrare, const are aceeaşi semnificaţie ca şi în LINEST, prin urmare, pentru simplificare, vom

omite precizarea acestuia în fereastra de dialog a funcţiei.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 87: Suport Curs Statistica Ro

Observaţie: Dacă lucrăm cu modele de timp, deci cu variabilele Z şi t, atunci, în funcţiile LINEST, FORECAST şi TREND, vom avea Z şi t, în loc de X şi Y.

Pentru valorile variabilei t, fie vom preciza valorile convenţionale 1,2,3,…, fie vom omite precizarea lor. Se va proceda asemănător şi pentru noile valori pentru care dorim prognoza. Spre exemplu, dacă valorile vechi pentru t, au fost, 1, 2, 3, 4, 5, putem previziona valoarea lui Z, corespunzătoare lui , etc.

Validarea calitatii functiei de regresie

Calitatea funcţiei de regresie alese se poate aprecia prin analizarea domeniului de dispersie constituit de mulţimea patratelor diferenţelor dintre valorile observate si cele teoretice.

Cei mai utilizatii indicatori sunt:

Eroarea standard a estimatiei (standard error of the mean)- abaterea medie patratică a erorilor în esantion se poate calcula dupa formua:

[6.7]

unde: k reprezintă numărul variabilelor independente considerate, iar (n-k-1) reprezintă numărul gradelor de libertate.

Coeficientul de determinaţie – arată proporţia în care variabila independentă (X) explică variaţia caracteristicii dependente (Y), fiind o altă modalitate de apreciere calitativă a funcţiei de regresie:

. [6.8]

De această dată, cu cât valoarea acestui indicator este mai mare (mai apropiată de 100%), cu atât funcţia este o mai bună reprezentarea a legăturii dintre cele două variabile.

Validarea modelului de regresie se realizează pentru a verifica din punct de vedere statistic, în ce măsură valorile teoretice reconstituie valorile empirice. Această validare se realizează aplicând testul Fisher-Snedecor (testul F).

Valoarea testului se calculează pe baza relaţiei:

[6.9]

unde: k = numărul parametrilor modelului;

n = numărul de perechi de valori

Valoarea calculată a testului se compară cu valoarea teoretică, care se obţine din tabele statistice - , pentru un prag de semnificaţie şi k-1, n-k grade de libertate.

Condiţia necesară pentru validarea modelului de regresie este ca: .

Analiza corelatiei

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 88: Suport Curs Statistica Ro

Corelatia masoara intensitatea legăturii dintre variabile. Spre deosebire de regresie, însă, metoda corelaţiei nu ia în considerare relaţia cauzală între variabilele X şi Y, ci analizează simetric legătura între cele două variabile, corelaţia între X şi Y fiind egală cu cea între Y şi X.

Corelaţia poate fi pozitivă sau negativă, funcţie de natura legăturii dintre cele două variabile (legătură directă sau inversă).

Exista mai multi indicatori de masurare a corelatiti dintre variabile, dintre care cei mai cunoscuti sunt covrianta si coeficientul de corelatie liniara Pearson.

Covarianţa surprinde existenţa şi direcţia legăturii dintre variabilă depemdentă şi cea variabilă independentă; se determină ca o medie aritmetică simplă a produselor perechilor de abateri ale valorilor individuale ale celor două caracteristici analizate de la mediile lor:

[6.10]

unde n este numărul de perechi de date înregistrate.

Semnul covarianţei arată direcţia legăturii dintre variabile: covarianţa pozitivă denotă o legătură directă iar cea negativă o legătură inversă.

Covarianţa nu are un interval fix de variaţie. Limita sa inferioară este zero (situaţie ce arată lipsa legăturii dintre X şi Y), iar limita superioară de variaţiei, dată de de produsul abaterilor standard ale celor două variabile analizate ( ), apare în cazul unei legături deterministe, ceea ce face dificilă interpretarea directă a rezultatului.

Coeficientul de corelaţie liniară (coeficientul Pearson), ca expresie a direcţiei şi intensităţii legăturii dintre două variabile, se calculează ca raport între covarianţă şi produsul abaterilor standard ale variabilelor analizate:

[6.11]

În practică, este utilizată o altă formulă, echivalentă, a coeficientului de corelaţie liniară:

[6.12]

Când r este pozitiv relaţia între variabilele X şi Y este directa adică o creştere a lui X determină în general o creştere a lui X.

Când r este negativ relaţia între cele două variabile este invers proportionala adică o creştere a lui X are în general ca şi consecinţă o diminuare a lui Y.

Colton (1974) sugerează următoarele reguli empirice privind interpretarea coeficientului de corelaţie:

valoare a coeficientului de corelatie liniara cuprisa in intervalul (-0,25 la 0,25) reprezinta o corelaţie practic inexistenta

O valoare a coeficientului de corelatie liniara cuprisa in intervalul ǀ0,25 - 0,50ǀ reprezinta o corelaţie slaba

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 89: Suport Curs Statistica Ro

O valoare a coeficientului de corelatie liniara cuprisa in intervalul ǀ0,50 - 0,75ǀ corespunde unei legaturi de intensitate medie intre cele doua variabile analizate

O valoare a coeficientului de corelatie liniara peste ± 0,75 corespunde unei legaturi de intensitate medie intre cele doua variabile analizate

O valoare a coeficientului de corelatie liniara cuprisa in intervalul ǀ0,50 - 0,75ǀ corespunde unei corelatii intense

Valoarea (teoretica) de ± 1 reprezinta corelatia perfecta (pozitiva sau negativa)

Regresia liniara multipla

Coeficientii de regresie arată cu câte unitati se modifică variabila dependentă la modificarea cu o unitate a variabilei independentă, în condiţiile în care celelalte variabile independente rămân constante.

Observatie – In situatia in care variabilele (atat cea dependentă cat si cele independente) sunt exprimate sub forma de logaritmi naturali, atunci coeficienţii de regresie ai variabilelor independente pot fi interpretaţi ca elasticităţi. (prin urmare vor arata modificarea procentuala a variabilei dependentă la modificarea cu 1 procent a variabilei independente).

Pentru ca inferenţa bazată pe rezultatele regresiei liniare multiple să fie validă, este necesara indeplinireaa urmatoarelor conditii:.

1. Legătura dintre variabila dependentă şi variabilele independente este liniară.

2. Variabilele independente sunt aleatoare. De asemenea între variabileleindependente incluse într-o regresie nu există nici o relaţie liniară. Dacă variabilele independente sunt corelate atunci există multicoliniaritate.

3. Termenul eroare aleatoare are o distributie normala, de medie zero si dispersie constanta. In cazul in care dispersia termenului de eroare este variabilă, erorile se numesc heteroskedastice, şi trebuie utilizate metode diferite de estimare a regresiei.

4. Nu exista corelatie a termenilor eroare aleatoare.

6.4. Sinteza

In procesul de management curent al afacerilor, este foarte importanta intelegerea si cuatificarea interdependentelor dintre o variabila dependenta (variabila a carei modificare dorim sa o analizam) si una sau mai multe variabile dependente (variabile factoriale sau cauzale, care determina modificarea nivelurilor varibilei dependente).

Cele doua metode de analiza a interdependentelor dintre variabile sunt regresia si corelatia. In timp ce metoda regresiei urmareste sa stabileasca forma legaturii, urmand a folosi ecuatia de regresie pentru realizarea de predictii. metoda corelatiei urmareste cuantificarea intensitatii legaturii dintre variabile, pe baza covariantei si/sau coeficientului de corelatie.

Microsoft Excel prezinta mai multe functii utilizate in analiza regresiei, fie ea liniara sau neliniara, simpla sau multipla. Astfel, in analiza regresiei liniare se pot utiliza functiile LINEST, TREND, FORECAST, SLOPE sau STEYX, in analiza regresiei exponentiale se pot utiliza functiile LOGEST si GROWTH. Argumetele acestor functii constau in seturile de date corespunzatoare pe de o parte, variabilei dependente (sau rezultative) iar pe de alta parte variabilei (sau variabilelor – in cazul regresiei multiple) independente (sau explicative)

O varianta mai des utilizata este cea in care determinarea ecuatiei de regresie (insotita de valoarea coeficientului de determinatie) se realizeaza utilizand functia Add trendline in graficul de tip nor de puncte (scatter diagram).

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 90: Suport Curs Statistica Ro

6.5. Exercitii si aplicatii

Aplicatia 6.1.

Sa se analizeze interdependenta dntre exporurile si importurile tarilor din Uniunea Europeana in anul 2008.

SolutieExportul reprezinta o cheltuiala pe care strainatatea o face pentru achizitionarea de bunuri produse de economia nationala . De asemenea este o operatiune comerciala de vanzare a unor bunuri materiale si/sau servicii catre persoane fizice sau juridice dintr-o alta tara in schimbul unei sume dintr-o valuta convenita. Cuprinde exportul de marfuri (bunuri corporale, stabile) si exportul invizibil (de servicii). Exportul poate fi si de capital, reprezentand investitii directe si plasarea de titluri de valoare in alte tari.

Importul reprezinta o operatiune comerciala de cumparare din strainatate a unor bunuri materiale si/sau servicii contra unei cantitati de moneda convenita, implicand trecerea de catre acestea a frontierei vamale a importatorului. Importul poate fi: - direct sau indirect; - de bunuri materiale si/sau de servicii; - propriu-zis sau de completare; - temporar sau eprmanent; - cu plata imediata sau cu plata amanata, etc.

Intre cele doua variabile este o legatura directa si anume prin suma atrasa de catre economia nationala din exporturi, tara de referinta isi asigura nivelul de importuri necesar.

Sursa datelor o reprezinta Eurostat si anume „ Europe in figures” , 2010 prezent pe site-ul ec.europa.eu/eurostat. Variabilele alese sunt exprimate In miliarde Euro si reflecta valorile exporturilor si importurilor Inregistrate statele membre ale Uniunii europene In anul 2008.

Se identifica cele doua variabile:xi – variabila factoriala = exporturile (In 1000 milioane EUR) din statele membre UE 2008yi - variabila dependenta = importurile (In 1000 milioane EUR) din statele membre UE 2008

TABEL NR. 12 – EXPORTURILE SI IMPORTURILE CELOR 27 TARI ALE UE (MILIARDE EURO)

Nr crt. Tara Exporturi (xi) Importuri (yi )

1. Belgia 323.3 319.22. Bulgaria 15.3 25.3

3. Republica Ceha 99.4 96.24. Danemarca 79.5 75.6

5. Germania 993.9 818.56. Estonia 8.4 10.97. Irlanda 84.5 56.4

8. Grecia 17.2 52.9

9. Spania 182.4 272.9

10. Franta 411.7 479.7

11. Italia 365.8 377.3

12. Cipru 1.1 7.2

13. Letonia 6.9 10.9

14. Lituania 16.1 21.0

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 91: Suport Curs Statistica Ro

Nr crt. Tara Exporturi (xi) Importuri (yi )

15. Luxemburg 17.3 21.5

16. Ungaria 73.2 73.4

17. Malta 1.9 3.1

18. Olanda 430.4 389.8

19. Austria 123.0 124.7

20. Polonia 114.3 138.9

21. Portugalia 38.0 61.2

22. Romania 33.6 56.2

23. Slovenia 23.2 25.1

24. Slovacia 48.2 49.8

25. Finlanda 65.5 61.7

26. Suedia 124.6 113.5

27. Marea Britanie 311.7 429.7

Sursa : Eurostat (tet00002)

Definirea modelului de regresie simpla liniaraUrmatorul pas consta in constructia diagramei norului de puncte care poate indica forma si directia legaturii dintre cele doua variabile.

Din grafic se poate observa ca distributia celor doua variabile poate fi aproximata cu o dreapta, deci modelul econometric care descrie legatura dintre cele doua variabile este un model liniar.

Intre exportul si importul unei tari exista o legatura directa, de obicei de forma liniara. Incasarile din export determina nivelul importurilor, iar nevoia de a completa oferta interna cu marfuri din import determina fiecare tara sa stabileasca masuri de politica comerciala de promovare a exporturilor. Prin urmare, intre export si import exista o interdependenta.

Estimarea parametrilor modelului si interpretarea acestoraPentru analizarea legaturii dintre cele doua variabile, consideram exportul variabila independenta, iar importul variabila dependenta.Metoda regresiei liniare presupune analiza modului in care variabila dependenta Y evolueaza in raport cu modificarea variabilei independente X.Pentru a estima parametri functiei de regresie liniara Yi = a + b Xi + εi unde:

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 92: Suport Curs Statistica Ro

Yi = variabila dependenta (raspuns) Xi = variabila independenta (explicativa) εi = variabila de perturbatie a = termenul constant (intercept) b = panta de regresieVom continua prin minimizarea erorilor observate pornind de la ecuatia de baza: ei = yi - a - bxi .Astfel, vom urmari :

Se scrie sistemul de ecuatii normale:

Rezolvarea sistemului de ecuatii normale (ale carei etape intermediare sunt prezentate in urmatoru tabel) va furniza valorile celor doi coeficienti ai dreptei de :

Coeficientul de regresie – sau panta dreptei (b)

Ordonata la origine (a)

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 93: Suport Curs Statistica Ro

TABEL NR. 13 – CALCULUL VALORILOR INTERMEDIARE PENTRU SISTEMUL DE ECUATII (MILIARDE EURO)

Nr crt. Tara Exporturi (xi)

Importuri (yi )

xi2 xiyi yi

2

1 Belgia 323.3 319.2 104523 103197 101889

2 Bulgaria 15.3 25.3 234 387 640

3 Republica Ceha 99.4 96.2 9880 9562 92544 Danemarca 79.5 75.6 6320 6010 5715

5 Germania 993.9 818.5 987837 813507 669942

6 Estonia 8.4 10.9 71 92 119

7 Irlanda 84.5 56.4 7140 4766 3181

8 Grecia 17.2 52.9 296 910 2798

9 Spania 182.4 272.9 33270 49777 74474

10 Franta 411.7 479.7 169497 197492 230112

11 Italia 365.8 377.3 133810 138016 142355

12 Cipru 1.1 7.2 1 8 52

13 Letonia 6.9 10.9 48 75 119

14 Lituania 16.1 21 259 338 441

15 Luxemburg 17.3 21.5 299 372 462

16 Ungaria 73.2 73.4 5358 5373 5388

17 Malta 1.9 3.1 4 6 10

18 Olanda 430.4 389.8 185244 167770 151944

19 Austria 123 124.7 15129 15338 15550

20 Polonia 114.3 138.9 13064 15876 19293

21 Portugalia 38 61.2 1444 2326 3745

22 Romania 33.6 56.2 1129 1888 3158

23 Slovenia 23.2 25.1 538 582 630

24 Slovacia 48.2 49.8 2323 2400 2480

25 Finlanda 65.5 61.7 4290 4041 3807

26 Suedia 124.6 113.5 15525 14142 12882

27 Marea Britanie 311.7 429.7 97157 133937 184642

Total 4010.4 4172.6 1794691 1688191 1645084

Pe baza datelor din tabel sistemul de ecuatii devine:

Rezolvarea acestui sistem conduce la obtinerea urmatoarelor rezultate: a = 22,18 si b = 0,891

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 94: Suport Curs Statistica Ro

Prin urmare, dreapta care aproximeaza cel mai bine norul de puncte ce exprima relatia dintre exporturile si importurile statelor membre UE in anul de referinta 2008 este : y = 22.18 + 0.891x

Analizand rezultatele, b = 0,891 se constata ca, intre export si import exista o relatie directa deoarece parametrul este mai mare decat 0. De asemenea, panta dreptei de regresie este pozitiva, deci exista o legatura directa Intre nivelul exporturilor si cel al importurilor. In plus, daca nivelul exporturilor creste cu 1 unitate se poate aprecia ca valoarea exporturilor va creste cu cu 0.891 unitati.

Testarea semnificației corelației si a parametrilor modelului de regresieTABEL NR. 14 – CALCULUL VALORILOR INTERMEDIARE PENTRU DETERMINAREA

COVARIANTEI (MILIARDE EURO)

Nr crt.

1 174.8 164.7 28776.9 30543.4 27112.7

2 -133.2 -129.2 17219.2 17751.1 16703.2

3 -49.1 -58.3 2866.5 2414.1 3403.6

4 -69.0 -78.9 5449.5 4765.6 6231.6

5 845.4 664.0 561289.0 714644.8 440841.9

6 -140.1 -143.6 20128.9 19637.4 20632.7

7 -64.0 -98.1 6284.3 4100.3 9631.68 -131.3 -101.6 13348.8 17248.4 10330.8

9 33.9 118.4 4008.4 1147.0 14008.9

10 263.2 325.2 85571.1 69256.7 105728.5

11 217.3 222.8 48398.2 47204.8 49621.7

12 -147.4 -147.3 21722.9 21736.6 21709.3

13 -141.6 -143.6 20344.3 20060.0 20632.7

14 -132.4 -133.5 17685.2 17538.6 17833.1

15 -131.2 -133.0 17459.4 17222.2 17699.8

16 -75.3 -81.1 6112.6 5675.1 6583.8

17 -146.6 -151.4 22206.3 21501.3 22934.3

18 281.9 235.3 66311.7 79448.8 55346.9

19 -25.5 -29.8 761.9 652.0 890.5

20 -34.2 -15.6 535.4 1171.9 244.6

21 -110.5 -93.3 10317.3 12217.6 8712.5

22 -114.9 -98.3 11302.6 13209.7 9670.9

23 -125.3 -129.4 16223.2 15708.4 16754.9

24 -100.3 -104.7 10509.0 10066.8 10970.6

25 -83.0 -92.8 7708.9 6894.5 8619.4

26 -23.9 -41.0 982.2 572.8 1684.3

27 163.2 275.2 44896.8 26623.4 75712.6

TOTAL 0 0 1068420.7 1199013.2 1000247.6

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

xxi yyxx ii 2xxi 2yyi

Page 95: Suport Curs Statistica Ro

Unde = = = 148,5

= = = 154,5

Covarianta:

Coeficientul de corelatie r:

= 0.98

r > 0 ceea ce ne arata ca intre nivelul exporturilor si cel al importurilor exista o legatura directa si foarte puternica.

Testarea semnificației corelației1. Formularea ipotezelor:

H0: ρ = 0H1:ρ 0

2. Alegem un prag de semnificatie de 95% (α= 0.05)3. Deoarece numarul observatiilor este mai mic de 30 vom alege Testul Student (t) cu n-2 grade de libertate.

Unde coeficientul de corelatie poate fi calculat prin urmatoarea metoda:

= 0.98

Iar covarianta este :

4.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 96: Suport Curs Statistica Ro

5.

6. Construirea graficului pentru reprezentarea zonelor critice:

7. Concluzii : Avand in vedere ca > pentru un prag de semnificatie α = 0.05 vom respinge ipoteza nula

si vom accepta ipoteza alternativa, deci modelul este valid.

Pe baza functiei de regresie se determina fiecare valoare teoretica ( ), prin inlocuirea succesiva a argumentului din

ecuatia de regresie: cu valorile (xi) ale caracteristicii factoriale.

Dupa aflarea valorilor teoretice, se trece la verificarea corectitudinii estimarii parametrilor ecuatiei de regresie, utilizand una din urmatoarele relatii:

sau

TABEL NR. 15 – CALCULUL VALORILOR TEORETICE ALE IMPORTURILOR PE BAZA FUNCTIEI DE REGRESIE (MILIARDE EURO)

Nr crt. Tara Exporturi (xi)

Importuri (yi ) Valori teoretice

Y

Erorile/ Reduals

yi-Y(yi-Y)2=ε2

1 Belgia 323.3 319.2 310.3 8.9 79.6

2 Bulgaria 15.3 25.3 35.8 -10.5 110.6

3 Republica Ceha 99.4 96.2 110.8 -14.6 212.04 Danemarca 79.5 75.6 93.0 -17.4 303.7

5 Germania 993.9 818.5 907.8 -89.3 7983.3

6 Estonia 8.4 10.9 29.7 -18.8 352.3

7 Irlanda 84.5 56.4 97.5 -41.1 1687.88 Grecia 17.2 52.9 37.5 15.4 236.8

9 Spania 182.4 272.9 184.7 88.2 7775.4

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 97: Suport Curs Statistica Ro

Nr crt. Tara Exporturi (xi)

Importuri (yi ) Valori teoretice

Y

Erorile/ Reduals

yi-Y(yi-Y)2=ε2

10 Franta 411.7 479.7 389.1 90.6 8217.3

11 Italia 365.8 377.3 348.1 29.2 849.8

12 Cipru 1.1 7.2 23.2 -16.0 254.9

13 Letonia 6.9 10.9 28.3 -17.4 303.9

14 Lituania 16.1 21 36.5 -15.5 241.2

15 Luxemburg 17.3 21.5 37.6 -16.1 259.2

16 Ungaria 73.2 73.4 87.4 -14.0 196.4

17 Malta 1.9 3.1 23.9 -20.8 431.7

18 Olanda 430.4 389.8 405.7 -15.9 253.3

19 Austria 123 124.7 131.8 -7.1 50.3

20 Polonia 114.3 138.9 124.0 14.9 220.9

21 Portugalia 38 61.2 56.0 5.2 26.6

22 Romania 33.6 56.2 52.1 4.1 16.6

23 Slovenia 23.2 25.1 42.9 -17.8 315.4

24 Slovacia 48.2 49.8 65.1 -15.3 235.2

25 Finlanda 65.5 61.7 80.6 -18.9 355.4

26 Suedia 124.6 113.5 133.2 -19.7 388.7

27 Marea Britanie 311.7 429.7 299.9 129.8 16837.4TOTAL 4010.4 4172.6 4172.7 0 48195.7

Calitatea functiei de regresie:

SEM - eroarea standard a estimatiei

Rezultatul ne arata ca in anul de referinta 2008, intre valorile reale si cele estimate pe baza functiei liniare de regresie exista o diferenta medie de 43.91 (EUR 1 000 milioane).

Testarea coeficientilor de regresie:→Testarea semnificaţiei parametrului a:

1. Stabilirea ipotezelor :

ipoteza nula: H0: a = 0

ipoteza alternativa: H1: a 0

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 98: Suport Curs Statistica Ro

2. Deoarece numarul de observari este n= 27 vom alege prin urmare testul Student (t) cu n-2 grade de libertate (in cazul nostru 25 d.f)

3.

Unde Sa este eroarea standard a parametrului a:

Construirea graficului pentru reprezentarea zonelor critice:

Avand in vedere ca < pentru un prag de semnificatie α = 0.05 vom respinge ipoteza alternativa, deci

acceptam ipoteza nula. Vom concluziona ca este foarte probabil ca estimatorul a sa provina dintr-o populaţie cu α = 0.

Intervalul de incredere pentru parametrul α este:

→Testarea semnificaţiei parametrului b:1. Stabilirea ipotezelor :

ipoteza nulă: H0: b= 0

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 99: Suport Curs Statistica Ro

ipoteza alternativă: H1: b 0

2. Deoarece numarul de observari este n= 27 vom alege prin urmare testul Student (t) cu n-2 grade de libertate (in

cazul nostru 25 d.f)

3.

Unde Sb este eroarea standard a parametrului b:

4.Construirea graficului pentru reprezentarea zonelor critice:

5. Avand in vedere ca > pentru un prag de semnificatie α = 0.05 vom respinge ipoteza nula si vom

accepta ipoteza alternativa, vom concluziona că este foarte improbabil ca estimatorul b să provină dintr-o

populaţie cu = 0.

Intervalul de incredere pentru parametrul β este:

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 100: Suport Curs Statistica Ro

Rezultatele obtinute corespund celor calculate in Output-ul de regresie:

TABEL NR. 16 – COEFICIENTII DREPTEI DE REGRESE LINIARA CONFORM OUTPUT-ULUI EXCEL

  CoefficientsStandard

Errort

StatP-

valueLower 95%

Upper 95%

Lower 95.0%

Upper 95.0%

Intercept 22.19 10.34 2.15 0.042 0.89 43.48 0.89 43.48Exporturi (xi) 0.89 0.04

22.22 0.000 0.81 0.97 0.81 0.97

Aplicarea analizei de tip ANOVA si interpretarea rezultatelor

TABEL NR. 17 – INDICATORII DE REGRESE LINIARA SI CORELATIE CONFORM OUTPUT-ULUI EXCEL

Regression Statistics

Multiple R 0.98

R Square 0.95

Adjusted R Square 0.95

Standard Error 43.91

Observations 27

Exporturile explica 95% din variatia nivelului importurilor, prin modelul liniar, ce denota o legatura foarte puternica intre cele doua variabile . Astfel proportia variatiei explicata prin model fiind semnificativa, putem aprecia ca modelul este valid.De asemenea Multiple R – coeficientul de corelatie - care ia valori intre -1 si 1, observam ca in cazult acesta atinge valoarea de 0.98 ceea ce ne arata ca intre nivelul exporturilor si cel al importurilor exista o legatura directa si foarte puternica.Eroarea standard ne arata ca In anul de referinta 2008, Intre valorile reale si cele estimate pe baza functiei liniare de regresie exista o diferenta medie de 43.91 (miliarde Euro).

TABEL NR. 18 – TABELUL ANOVA CONFORM OUTPUT-ULUI EXCEL

ANOVA

df SS MS F Significance F

Regression 1 952051.9 952051.9 493.8 5.557E-18

Residual 25 48195.7 1927.8

Total 26 1000247.6

Acest tabel se refera la descompunerea variantei totale (SST) a variabilei dependente în doua componente: varianata explicata prin regresie (SSR) si varianta neexplicata (SSU) sau varianta reziduala.Aici identificam şi gradele de libertate asociate descompunerii, mai precis, dacă avem k regresori in model si n observatii, avem egalitatea .

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 101: Suport Curs Statistica Ro

Valorile din aceste celulele F şi Significance F ne dau elemente importante ce stau la baza validarii modelului de regresie (în totalitatea sa). Ele ne furnizeaza informaţii privind valoarea calculata a statisticii test F si erorii pe care putem s-o facem când respingem modelului de regresie ca fiind neadecvat. Deoarece F= 493.8, iar Significance F (pragul de semnificatie) este 5.557E-18 (valoare mai mica de 0,05), atunci modelul de regresie construit este valid si poate fi utilizat pentru analiza dependentei dintre cele doua variabile.

TABEL NR. 19 – COEFICIENTII DREPTEI DE REGRESE LINIARA CONFORM OUTPUT-ULUI EXCEL

 Coefficient

sStandard

Error t StatP-

valueLower 95%

Upper 95%

Lower 95.0%

Upper 95.0%

Intercept 22.19 10.34 2.15 0.042 0.89 43.48 0.89 43.48Exporturi (xi) 0.89 0.04

22.22 0.000 0.81 0.97 0.81 0.97

Acest tabel ne ofera informatii despre valorile estimate ale coeficientilor modelului de regresie in coloana Coefficients, erorile standard ale coeficientilor în coloana Standard Error, elemente pentru aplicarea testului de semnificatie t-Student pentru fiecare coeficient (coloanele t Stat şi P-value.). →Intercept este parametrul a cu valoarea 22.19. Acesta este punctul in care variabila explicativa este 0.

Adica nivelul importurilor daca valoarea exporturilor este 0 va fi 22.19 (1000 mil Eur) .

→Deoarece pragul de semnificatie P-value este 0.042 < 0,05 inseamna ca acest coeficient este semnificativ.

→Limita inferioara si superioara a intervalului de incredere pentru acest parametru este (0.89 43.48).

→Coeficientul b este 0.89, ceea ce insemna ca la cresterea exporturilor cu o unitate (1000 mil EUR), nivelul importurilor va creste cu 0.89 (100 mil EUR) .

→Deoarece pragul de semnificatie P-value este 0.00 < 0,05 inseamna ca acest coeficient este semnificativ.

→Intervalul de incredere pentru acest parametru este 081 0.97, mult mai restrans decat intervalul de incredere al parametrului .

Testarea ipotezelor clasice asupra modelului de regresie Ipoteze statistice clasice asupra modelului de regresie simpla

1. Forma functională: yi = + xi + i, i=1,n2. Normalitatea erorilor: i ~N(0, )3. Media zero a erorilor: μ(i)=0 "i4. Homoscedasticitatea: σ2(i)= constantă "i5. Non autocorelarea erorilor: Cov(i,j)=0 "ij6. Necorelarea între regresor şi erori: Cov(xi,j)=0 "i şi j

Testarea liniarității modelului propus:Coeficientul de corelatie r ne arata cat de puternica este legatura intre cele doua variabile. Acesta ia valori intre 0 si 1, iar cu cat r tinde spre valoarea 1 legatura este mai puternica.

1. Formularea ipotezelor:H0: ρ = 0 (nu exista legatura liniara)H1:ρ 0

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 102: Suport Curs Statistica Ro

2. Alegem un prag de semnificatie de 95% (α= 0.05)3. Deoarece numarul observatiilor este mai mic de 30 vom alege Testul Student (t) cu n-2 grade de libertate.4.

Unde coeficientul de corelatie poate fi calculat prin urmatoarea metoda:

= 0.98

unde covarianta este :

5.

6. Construirea graficului pentru reprezentarea zonelor critice:

7. Avand in vedere ca > pentru un prag de semnificatie α = 0.05 vom respinge ipoteza nula si vom

accepta ipoteza alternativa, deci modelul este valid.

Testarea normalității erorilorCorelograma pentru valorile variabilei independente (pe axa Ox) şi valorile erorilor (pe axa Oy):

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 103: Suport Curs Statistica Ro

Aceasta corelograma execuata in Excel ne arata o concentrare a erorilor la intersectia axei OX cu OY si o usoara dispersie a lor de alungul graficului. In prima faza am selectat un trend liniar ( dreapta rosie) si se pot observa cateva abateri.Corelograma pentru valorile variabilei independente (pe axa Ox) şi valorile erorilor (pe axa Oy):

In a doua faza am selectat un trend polinomial si se poate observa ca acesta reprezinta mai bine dispersia erorilor, abaterile acestora fiind mai mici decat in cazul unui trend liniar.

Putem afirma ca functia polinomiala reprezinta mai bine dispersia erorilor pe grafic, abaterile de la aceasta find aproape minime. De asemenea R2(coeficientul de determinatie) in cel de-al doilea caz este mai mare decat in primul ceea ce demonstreaza afirmatiile de mai sus.

Testarea ipotezei de homoscedasticitateO ipoteza de baza a modelului de regresie este ca dispersia erorilor este constanta. Daca aceasta ipoteza nu se verifica atunci putem afirma ca suntem in cazul de heteroscedasticitate. Astfel coeficientii obtinuti sunt afectati de eroare rezultand intervale de incredere incorecte.Etapele tastarii:

1. Se ordoneaza seria de date dupa valorile lui xi in ordine crescatoare;2. Se imparte seria de date in 3 intervale dupa urmatorul principiu:⇨prima si ultima serie sa aiba fiecare aproximativ 40% din numarul total de date ( in cazul de fata 11 date

statistice)⇨seria de mijloc va avea restul de 20% respectiv 5 in cazul nostru;

3. Se efectueaza 2 analize de regresie pentru setul 1 respectiv 3 de date:

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 104: Suport Curs Statistica Ro

ANOVA 1

df SS

Regression 1 3366,3441

Residual 9 880,9031

Total 10 4247,2473

4. Se vor extrage din tabele ANOVA pentru cele doua seturi valoarea SSE;5.

6. Avand in vedere ca > pentru un prag de semnificatie α = 0.05 vom respinge ipoteza nula si vom

accepta ipoteza alternativa, astfel variatia erorilor nu este constanta, deci avem heteroscedasticitate.

Testarea ipotezei de autocorelare a erorilor (Testul Durbin Watson)Se pleaca de la ipoteza clasica ce ne descrie ca erorile la momentul t sunt corelate cu erorile de la momentul t-1 , deci acestea nu sunt independente.

TABEL NR. 20 – CALCULUL VALORILOR INTEMEDIARE PENTRU TESTUL DURBIN-WATSON

Nr crt. 2

1 310,3 8,9 79,6

2 35,8 -10,5 110,6 8,9 -19,4 376,36

3 110,8 -14,6 212 -10,5 -4,1 16,81

4 93 -17,4 303,7 -14,6 -2,8 7,84

5 907,8 -89,3 7983,3 -17,4 -71,9 5169,61

6 29,7 -18,8 352,3 -89,3 70,5 4970,25

7 97,5 -41,1 1687,8 -18,8 -22,3 497,29

8 37,5 15,4 236,8 -41,1 56,5 3192,25

9 184,7 88,2 7775,4 15,4 72,8 5299,84

10 389,1 90,6 8217,3 88,2 2,4 5,76

11 348,1 29,2 849,8 90,6 -61,4 3769,96

12 23,2 -16 254,9 29,2 -45,2 2043,04

13 28,3 -17,4 303,9 -16 -1,4 1,96

14 36,5 -15,5 241,2 -17,4 1,9 3,61

15 37,6 -16,1 259,2 -15,5 -0,6 0,36

16 87,4 -14 196,4 -16,1 2,1 4,41

17 23,9 -20,8 431,7 -14 -6,8 46,24

18 405,7 -15,9 253,3 -20,8 4,9 24,01

19 131,8 -7,1 50,3 -15,9 8,8 77,44

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

ANOVA 2

Df SS

Regression 1 426567,8396

Residual 9 33366,58217

Total 10 459934,4218

Page 105: Suport Curs Statistica Ro

20 124 14,9 220,9 -7,1 22 484

21 56 5,2 26,6 14,9 -9,7 94,09

22 52,1 4,1 16,6 5,2 -1,1 1,21

23 42,9 -17,8 315,4 4,1 -21,9 479,61

24 65,1 -15,3 235,2 -17,8 2,5 6,25

25 80,6 -18,9 355,4 -15,3 -3,6 12,96

26 133,2 -19,7 388,7 -18,9 -0,8 0,64

27 299,9 129,8 16837,4 -19,7 149,5 22350,25

TOTAL 4172,7 0 48195,7 48936,05

1. Ipotezele de lucru sunt :Ho : nu exista autocorelare pozitivaHo*: nu exista autocorelare negativa

2. Verificarea se face prin Testul Durbin –Watson :

3. La un numar de date statistice n=27, extragem din tabelul Durbin-Watson dStatistic cei doi indicatori dU = 1.233 si dL= 1.089

4. Vom construi graficul pentru reprezentarea zonelor critice:

Asa cum reiese din grafic, la un prag de semnificatie de 0.01 vom respinge ipoteza nula si vom concluziona ca exista evidenta a unei autocorelari pozitive.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 106: Suport Curs Statistica Ro

Previziunea valorii variabilei Y daca variabila X creste cu 10% fata de ultima valoare înregistrataIn cazul in care variabila x cunoaste o crestere de 10% fata de ultima valoare inregistrata vom porni de la functia de regresie simpla:

Unde: = + 10% = 342,8

= 311.7

= 22.18 + 0.891 = 327,68 (1000 mld EUR).

De asemenea determinarea unui interval de incredere este necesar. Acesta se poate afla prin urmatoarea formula de calcul:

Putem concluziona ca nivelul importurilor in perioada t+1 la un nivel al exporturilor cu 10% mai mare decat perioada imediat anterioara se va incadra in intervalul :

273,68 < < 381(1000 mld EUR)

BIBLIOGRAFIE

T. Andrei, Statistică şi econometrie, Ed. Economică, 2003

Andrei Tudore, Stancu Stelian, Iacob Andrea, Erika Tusa, Introducere in econometrie utilizand

Eviews, Editura Economica, 2009

G. Keller and B. Warrack (2005) Statistics for Management and Economics, 5th Edition,

Duxbury Press.Dezvoltare, inovare şi extindere a accesului la

învăţare în programe de master în administrarea afacerilor

Contract nr.: POSDRU /86/1.2/S/61086Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 107: Suport Curs Statistica Ro

A. ISAIC-MANIU, C. MITRUŢ, V. VOINEAGU, STATISTICĂ, Ed. Universitară, Buc., 2004,

pag. 32-39

M. Korka, L.S. Begu, E. Tusa, Bazele statisticii pentru economicti, Ed Economica, 2006

Tusa Erika – Statistics for Economists, Editura ASE, Bucuresti, 2005

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 108: Suport Curs Statistica Ro

ANEXE

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 109: Suport Curs Statistica Ro

Anexa 1 - Prezentarea Funcţiile Excel utilizate mai frecvent în analize socio-economice

FUNCŢIA REZULTAT DESCRIERE�

AVERAGE (x1, x2,�, xn)Media aritmetică a numerelor

m = (x1+ x2 + +� xn) / n

SUM(x1, x2,�, xn)Suma aritmetică a numerelor

s = x1+ x2 + +� xn

PRODUCT(x1, x2, �, xn) Produsul arimetic al numerelor p = x1 x2 x� n

MIN (x1, x2,�, xn) Minimul dintre numerele x1, x2,�, xn

MAX (x1, x2, �, xn) Maximul dintre numerele x1, x2,�, xn

COUNT (val1, val2, , val� n) Numărul elementelor ce conţin valori numerice

COUNTA (val1, val2, , val� n) Numărul elementelor nevide

ABS (x) Valoarea absolută (modulul) numărului x

INT(x) Partea întreagă inferioră a numărului x

FLOOR (x,n) Partea întreagă inferioară sau superioră a numărului x

SQRT(x) Radăcina pătratică a numărului x

ROUND(x,n) Rotunjeşte valoarea numărului x la n zecimale

PI() Valoarea numărului = 3,14159265358979

RAND() Număr aleator uniform în intervalul (0,1)

VAR(x1, x2, �, xn)Dispersia estimată a valorilor x1, x2,�, xn

D= (xi � m)2/(n-1), unde m este media aritmetică a valorilor

STDEV(x1, x2,�, xn)Deviaţia standard estimată a valorilor x1, x2,�, xn (radăcina pătrată a dispersiei estimate)

VARP(x1, x2,�, xn)Dispersia calculată a valorilor x1, x2,�, xn

D= (xi � m)2 /n, unde m este media aritmetică a valorilor

STDEVP(x1, x2,�, xn)Deviaţia standard calculată a valorilor x1, x2,�, xn (radăcina pătrată a dispersiei calculate)

POWER(b,e) Puterea be

MOD(a,b) Modulo � restul împărţirii numerelor întregi a : b

AND(exp1, exp2, , exp� n)

Conjuncţia expresiiloe logice exp1, exp2, , exp� n .

Valoarea returnată este TRUE dacă fiecare expresie este TRUE, altfel este FALSE

OR(exp1, exp2, , exp� n) Disjuncţia expresiilor logice exp1, exp2, , exp� n .

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 110: Suport Curs Statistica Ro

Valoarea returnată este TRUE dacă cel puţin o expresie este TRUE, altfel este FALSE

NOT(exp)Negaţia expresiei exp. Valoarea returnată este TRUE dacă expresia este FALSE, altfel este FALSE

TRUE() Valoarea returnată este constanta logică TRUE

FALSE() Valoarea returnată este FALSE ; întotdeauna

IF(exp, exp1, exp2)

Se evaluează valoarea expresiei logice exp. Dacă valoarea expresiei exp este TRUE, atunci funcţia IF returnează valoarea specificată prin exp1, altfel returnează valoarea specificată prin exp2

CHOOSE(i, x1, x2,�, xn)Instrucţiune de ramificaţie multiplă. Selectarea unei valori dintr-o listă de valori, pe baza valorii unui indice i.

TODAY() Data calendaristică curentă

NOW() Data şi ora calendaristică curentă

VLOOKUP(val, reg, k)

Căutare verticală. Se caută o valoare în prima coloană a unei regiuni de date. Datele din această coloană sunt aşezate în ordine crescătoare. Se localizează primul element al coloanei care este mai mare sau egal cu elementul căutat. Dacă elementul localizat este în linia i, valoarea returnată de funcţie este conţinutul celulei din linia i şi coloana k a regiunii de date. Prima coloană are numărul de ordine 1.

HLOOKUP(val, reg, k)

Căutare orizontală. Se caută o valoare în prima linie a unei regiuni de date. Datele din această linie sunt aşezate în ordine crescătoare. Se localizează primul element al liniei care este mai mare sau egal cu elementul căutat. Dacă elementul localizat este în coloana i, valoarea returnată de funcţie este conţinutul celulei din coloana i şi linia k a regiunii de date. Prima linie are numărul de ordine 1.

OFSET(baza, lin, col, i, l)

Obţinerea unei referinţe la o celulă sau la o regiune de celule de dimensiune specificată (i=înălţime, l=lăţime). Argumentul baza reprezintă o referinţă la o celulă faţă de care se determină noua referinţă. Celula pentru care se generează noua referinţă este deplasată faţă de celula de bază cu lin linii şi col coloane

Funcţii pentru date de tip TEXT

CODE(s)Codul ASCII al primului caracter din şirul de caractere s (şirul de caractere s va fi delimitat de ghilimele)

CHAR(n) Caracterul al carui cod ASCII este numărul întreg n

VALUE(s) Valoarea numerică a şirului de caractere s

LEN(s) Numarul de caractere din şirul de caractere s

LEFT(s ,n) Primele n caractere din şirul de caractere s

RIGHT(s,n) Ultimele n caractere din şirul de caractere sDezvoltare, inovare şi extindere a accesului la

învăţare în programe de master în administrarea afacerilor

Contract nr.: POSDRU /86/1.2/S/61086Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 111: Suport Curs Statistica Ro

MID(s,n1,n2)Returnează n2 caractere din şirul de caractere s începând cu poziţia n1

REPT (s,n)Un şir de caractere obţinut prin repetarea de n ori a şirului de caractere s

TRIM(s)Un şir de caractere obţinut prin eliminarea tuturor spaţiilor, cu excepţia spaţiului care desparte cuvintele

LOWER(s) Transformă toate literele mari din şirul s în litere mici

UPPER(s) Transformă toate literele mici din şirul s în litere mari

PROPER(s)Un şir de caractere în care prima literă a fiecărui cuvânt este transformată în literă mare

CONCATENATE(s1,s2, , s� n)Un şir de caractere obţinut prin concatenarea şirurilor s1,s2, ,� sn

REPLACE(s1,n1,s2,n2)Şirul de caractere obţinut prin înlocuirea în şirul s1 a n2

caractere începând din poziţia n1 cu şirul de caractere s2

Functii financiare în Excel

FV(rate, nper, pmt, pv, type)

Valoarea viitoare (Future value) a unui împrumut într-un moment de timp viitor, după efectuarea tuturor plăţilor, unde rate = rata dobânzii, nper = numărul de perioade, pmt = suma plătită ca rată la împrumut, pv = valoarea actuală a împrumutului, type = 1 sau 0 după cum plata se face la începutul perioadei sau la sfârşitul peroadei

NPER(rate, pmt, pv, fv, type)Number of periods - Numărul de luni, ani, zile sau alte unităţi de timp necesare pentru un împrumut

PMT(rate, nper, pv, fv, type) Payment-Suma plătită periodic ca rată la împrumut

PV(rate, nper, pmt, fv, type) Present value Valoarea actuală a unui împrumut�RATE(nper, pmt, pv, fv,type, quess) Rate � Rata dobânzii la un împrumut

Funcţii pentru procesarea bazelor de date

DAVERAGE(db,col,crit)

Returnează media aritmetică a valorilor din coloana col a bazei de date db care verifică criteriul crit, unde db = referinţă la o regiune (domeniu) de celule care conţine baza de date, col = referinţă la un nume de câmp al bazei de date ( o celulă din prima linie a bazei de date) prin care se accesează coloana utilizată de funcţie, crit = referinţă la o regiune de celule care specifică criteriul utilizat (tabelul de condiţii)

DCOUNT(db,col,crit)

Returnează numărul celulelor cu valori numerice din coloana col a bazei de date db care verifică citeriul crit. Argumentul col este opţional. Dacă acest argument este omis, funcţia va determina numărul tuturor celulelor bazei de date care verifică criteriul

DCOUNTA(db,col,crit) Returnează numărul celulelor nevide din coloana col a bazei

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 112: Suport Curs Statistica Ro

de date db care verifică citeriul crit

DGET(db,col,crit)

Returnează conţinutul unei singure celule din baza de date db. Celula este situată în coloana col şi verifică criteriul crit. Dacă nici un articol nu verifică criteriul, se va returna valoarea de eroare #VALUE !, iar dacă mai multe articole verifică criteriul, se va returna #NUM !

DMAX(db,col,crit)Returnează valoarea maximă a numerelor din coloana col a bazei de date db care verifică criteriul crit

DMIN(db,col,crit)Returnează valoarea minimă a numerelor din coloana col a bazei de date db care verifică criteriul crit

DPRODUCT(db,col,crit)Returnează produsul valorilor din coloana col a bazei de date db care verifică criteriul crit

DVAR(db,col,crit)

Returnează dispersia estimată a valorilor din coloana col a bazei de date db care verifică criteriul crit. Dacă x1, x2,�, xn

sunt aceste valori, dispersia estimată a valorilor x1, x2,�, xn este

D= (xi � m)2/(n-1), unde m este media aritmetică a valorilor

DVARP(db,col,crit)

Returnează dispersia calculată a valorilor din coloana col a bazei de date db care verifică criteriul crit. Dacă x1, x2,�, xn

sunt aceste valori, dispersia calculata a valorilor x1, x2,�, xn este

D= (xi � m)2/n, unde m este media aritmetică a valorilor

DSTDEV(db,col,crit)Returnează deviaţia standard estimată (rădăcina pătrată a dispersiei estimate) a valorilor din coloana col a bazei de date db care verifică criteriul crit

DSTDEVP(db,col,crit)Returneaza deviatia standard calculata (radacina patrata a dispersiei calculate) a valorilor din coloana col a bazei de date db care verifica criteriul crit

DSUM(db,col,crit)Returnează suma volorilor din coloana col a bazei de date db care verifică citeriul crit

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 113: Suport Curs Statistica Ro

Anexa 2 - Prezentarea componentelor Analysis Tool Pack, conform Microsoft Help

Componenta inclusă la cerere Analysis ToolPak  Microsoft Excel furnizează un set de instrumente de analiză a datelor — denumit Analysis ToolPak (Pachet de instrumente de analiză) — care se utilizează pentru a economisi etape atunci când se dezvoltă analize complexe, statistice sau de inginerie. Se furnizează datele și parametrii pentru fiecare dintre analize; instrumentul de analiză utilizează macro-funcțiile statistice sau de inginerie corespunzătoare și afișează rezultatele într-un tabel de ieșire. Unele instrumente auxiliare generează și diagrame auxiliare tabelelor de ieșire.

Funcții relative la foaia de lucru.  Excel furnizează multe alte funcții statistice, financiare și inginerești pentru foile de lucru. Unele dintre funcțiile statistice sunt predefinite iar altele devin disponibile după instalarea Analysis ToolPak.

Accesarea instrumentelor de analizare a datelor. Analysis ToolPak include instrumentele descrise mai jos. Pentru a accesa aceste instrumente, faceți clic pe Analiză date din meniul Instrumente. În cazul în care comanda Analiză date nu este disponibilă, este necesar să încărcați programul de completare Analysis ToolPak.

Anova

Instrumentele de analiză Anova furnizează diferite tipuri de analiză de varianță. Instrumentul de utilizat depinde de numărul factorilor și de numărul eșantioanelor pe care le aveți din cadrul populațiilor pe care le testați.

Anova: Single Factor Acest instrument efectuează o analiză simplă de varianță asupra datelor pentru două sau mai multe eșantioane. Analiza furnizează o testare a ipotezei că fiecare eșantion este derivat din aceeași distribuție de probabilitate de bază față de ipoteza că distribuția de probabilitate de bază nu este aceeași pentru toate eșantioanele. Dacă sunt numai două eșantioane, se poate utiliza la fel de bine funcția foii de lucru, TTEST. Când sunt mai mult de două eșantioane, nu este adecvată generalizarea funcției TTEST, ci poate fi utilizat numai modelul Single Factor Anova.

Anova: Two-Factor With Replication Acest instrument de analiză este util când datele pot fi clasificate după două dimensiuni diferite. De exemplu, într-un experiment pentru măsurarea înălțimii plantelor, plantele pot fi tratate cu diferiți fertilizatori (de exemplu: A, B, C) și pot fi ținute la diferite temperaturi (de exemplu: joasă, înaltă). Pentru fiecare dintre cele 6 posibile perechi de {fertilizator, temperatură} avem un număr egal de observații ale înălțimii plantelor. Utilizând instrumentul Anova se poate testa:

1. Dacă înălțimea plantelor pentru diferite tipuri de fertilizatori derivă din aceeași populație de bază; temperatura este ignorată în această analiză.

2. Dacă înălțimea plantelor pentru diferite niveluri de temperatură derivă din aceeași populație de bază; tipul de fertilizator este ignorat în această analiză.

3. Dacă, ținând seama de efectele diferențelor dintre tipurile de fertilizatori aflate în prima etapă și diferențele de temperatură aflate la etapa a doua, cele 6 eșantioane reprezentând toate perechile de valori {fertilizator, temperatură} derivă din aceeași populație. Ipoteza alternativă este aceea că există efecte datorate unei anumite perechi {fertilizator, temperatură} în plus față de diferențele bazate numai pe fertilizator sau numai pe temperatură.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 114: Suport Curs Statistica Ro

Anova: Two-Factor Without Replication Acest instrument de analiză este util când datele sunt clasificate după două dimensiuni diferite, ca în cazul instrumentului Two-Factor case With Replication. Pentru acest instrument, însă, presupunem că există o singură observație pentru fiecare pereche (de exemplu, fiecare pereche {fertilizator, temperatură} din exemplul de mai sus. Utilizând acest instrument, se pot aplica testele din prima și a doua etapă a cazului Anova: Two-Factor With Replication, dar nu avem suficiente date pentru a aplica testul din a treia etapă.

Corelație

Funcțiile foii de lucru CORREL și PEARSON calculează ambele coeficientul de corelație dintre două variabile de măsurare când măsurarea fiecărei variabile este observată pentru fiecare dintre N subiecți. (Orice observație lipsă pentru oricare dintre subiecți provoacă ignorarea acelui subiect în analiză.) Instrumentul de analiză a corelației este în special util când există mai mult de două variabile de măsurare pentru fiecare dintre N subiecți. Acesta furnizează un tabel cu rezultate, o matrice de corelații, arătând valoarea funcției CORREL (sau PEARSON) aplicată fiecărei perechi posibile de variabile de măsurare.

Coeficientul de corelație, la fel ca cel de covarianță, este o măsură a gradului de variație comun al celor două variabile de măsurare. Spre deosebire de covarianță, coeficientul de corelație este măsurat pe o scară, astfel că valoarea sa este independentă de unitatea în care se exprimă variabilele. (De exemplu, dacă cele două variabile de măsurare sunt greutatea și înălțimea, valoarea coeficientului este neschimbată chiar dacă greutatea se măsoară în kilograme sau livre.) Valoarea oricărui coeficient de corelație trebuie să fie între -1 și +1 inclusiv.

Se poate utiliza instrumentul de Corelație pentru a examina fiecare pereche de variabile de măsurare și a determina dacă cele două variabile de măsurare tind să se mute împreună — aceasta însemnând, dacă valorile mari ale unei variabile tind să poată fi asociate cu valorile mari ale celeilalte variabile (corelație pozitivă), dacă valorile mici ale unei variabile tind să poată fi asociate cu valorile mici ale celeilalte variabile (corelație negativă) sau dacă valorile celor două variabile tind să fie necorelate (corelație aproape zero).

Covarianță

Instrumentele Corelație și Covarianță pot fi utilizate ambele în aceleași condiții, când aveți N diferite variabile de măsurare observate pe un set de indivizi. Instrumentele Corelație și Covarianță dau fiecare un tabel de rezultate, o matrice, care arată coeficientul de corelație sau, respectiv, de covarianță dintre fiecare pereche de variabile de măsurare. Deosebirea constă în aceea că în timp ce coeficientul de corelație este măsurat pe o scară de la -1 la +1 inclusiv, covarianța corespunzătoare nu este măsurată pe o scară. Atât coeficientul de corelație, cât și cel de covarianță sunt măsuri ale gradului de variație comun pentru cele două variabile.

Instrumentul Covarianță calculează valoarea funcției COVAR a foii de calcul, pentru fiecare pereche de variabile de măsurare. (Utilizarea directă a funcției COVAR în locul instrumentului Covarianță este o alternativă rezonabilă când există numai două variabile de măsurare, adică N=2.) Intrarea pe diagonala tabelului cu rezultate al instrumentului Covarianță din rândul i, coloana i este covarianța variabilei de măsurare i cu ea însăși; este exact varianța populației pentru acea variabilă, calculată cu funcția VARP a foii de lucru.

Se poate utiliza instrumentul Covarianță pentru a examina fiecare pereche de variabile de măsurare și a determina dacă cele două variabile de măsurare tind să se mute împreună — aceasta însemnând, dacă valorile mari ale unei variabile tind să poată fi asociate cu valorile mari ale celeilalte variabile (covarianță pozitivă), dacă valorile mici ale unei Dezvoltare, inovare şi extindere a accesului la

învăţare în programe de master în administrarea afacerilor

Contract nr.: POSDRU /86/1.2/S/61086Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 115: Suport Curs Statistica Ro

variabile tind să poată fi asociate cu valorile mici ale celeilalte variabile (covarianță negativă) sau dacă valorile celor două variabile tind să fie necorelate (covarianță aproape zero).

Statistici descriptive

Acest instrument de analiză generează un raport de statistici univariabile pentru datele din zona de intrare, furnizând informații despre tendința centrală și variabilitatea datelor.

Netezirea exponențială

Acest instrument de analiză și formula aferentă acestuia estimează o valoare bazată pe prognoza din perioada anterioară, ajustată cu eroarea din acea prognoză anterioară. Instrumentul utilizează constanta de netezire a, mărimea ce determină cât de puternic răspunde prognoza la erorile din prognoza anterioară.

 NOTĂ   Valori de la 0,2 la 0,3 sunt constante de netezire rezonabile. Aceste valori indică faptul că prognoza curentă ar trebui ajustată cu 20 până la 30 procente pentru eroarea din prognoza anterioară. Constante mai mari produc un răspuns mai rapid, dar pot produce proiecții nesigure. Constante mai mici pot determina o întârziere mai mare a valorilor prognozate.

Instrumentul de analiză Test F: Dublu-eșantion pentru varianțe

Instrumentul de analiză Test F Două eșantioane pentru varianțe efectuează un test F pe două eșantioane pentru a compara varianțele a două populații.

De exemplu, se poate utiliza instrumentul Test F pe eșantioane de timpuri realizate de două echipe într-un concurs de înot. Instrumentul furnizează rezultatul testării cu ipoteză nulă conform căreia cele două eșantioane provin din distribuții cu varianță egală față de ipoteza alternativă că varianțele nu sunt egale în distribuțiile de bază.

Instrumentul calculează valoarea f a unei statistici F (sau proporție F). O valoare f apropiată de 1 este dovadă a varianțelor egale ale populațiilor de bază. În tabelul cu rezultate, dacă f < 1 “P(F <= f) unilateral” dă probabilitatea observării unei valori a statisticii F mai mică decât f când varianțele populațiilor sunt egale și “F unilateral critic” dă valoarea critică mai mică decât 1 pentru nivelul de semnificație ales, Alfa. Dacă f > 1, “P(F <= f) unilateral” dă probabilitatea observării unei valori a statisticii F mai mare decât f când varianțele populațiilor sunt egale și “F unilateral critic” dă valoarea critică mai mare decât 1 pentru Alfa.

Instrumentul Analiză Fourier

Instrumentul Analiză Fourier rezolvă probleme în sisteme liniare și analizează periodic datele utilizând metoda Fast Fourier Transform (FFT) pentru transformarea datelor. Acest instrument suportă de asemenea transformări inverse, în care inversa datelor transformate returnează datele inițiale.

Histogramă

Instrumentul de analiză Histogramă calculează frecvențe individuale și cumulative pentru o zonă de celule de date. Acest instrument generează datele pentru numărul de apariții ale unei valori în setul de date.

De exemplu, într-o clasă de 20 de studenți, se poate determina distribuția punctajelor în categorii notate cu litere. Un tabel de tip histogramă prezintă limitele categoriilor și numărul de puncte între limita inferioară și limita curentă. Punctajul cel mai frecvent reprezintă modul datelor.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 116: Suport Curs Statistica Ro

Medie mobilă

Instrumentul de analiză Medie mobilă proiectează valorile în perioada de prognoză pe baza valorii medii a variabile după un anumit număr de perioade anterioare . O medie mobilă furnizează informații de tendință pe care o simplă medie a tuturor datelor istorice ar putea-o masca.. Utilizați acest instrument pentru prognozarea vânzărilor, a inventarului sau alte tendințe. Fiecare valoare prognozată se bazează pe formula următoare.

unde:

N este numărul de perioade anterioare pentru a le include în media mobilă

Aj este valoarea actuală la timpul j

Fj este valoarea prognozată la timpul j

Generator de numere aleatoare

Instrumentul de analiză Generator de numere aleatoare umple un interval cu numere independente aleatoare derivate din una dintre mai multe distribuții. Aveți posibilitatea să caracterizați subiectele unei populații cu o distribuție de probabilitate.

De exemplu, se poate utiliza o distribuție normală pentru a caracteriza populația înălțimii indivizilor sau se poate utiliza o distribuție Bernoulli a două posibile consecințe pentru a caracteriza populația rezultatelor experimentului cu banul.

Rang și percentilă

Instrumentul de analiză Rang și percentilă produce un tabel care conține rangul ordinal și procentual al fiecărei valori dintr-un set de date. Aveți posibilitatea să analizați poziția relativă a valorilor dintr-un set de date. Acest instrument utilizează funcțiile foii de lucru RANK și PERCENTRANK. RANK nu ține seama de valorile legate. Dacă doriți să țineți seama de valori legate, utilizați funcția foii de lucru, RANK, împreună cu factorul de corecție sugerat în fișierul de ajutor pentru RANK.

Regresie

Instrumentul de analiză Regresie execută analiza de regresie liniară prin utilizarea metodei „pătratelor mici“ pentru a găsi o linie care corespunde unui set de observații. Aveți posibilitatea analizării modului în care o singură variabilă dependentă este afectată de valorile uneia sau a mai multor variabile independente.

De exemplu, aveți posibilitatea să analizați modul în care performanța unui atlet este afectată de factori precum vârsta, înălțimea și greutatea. Aveți posibilitatea să repartizați pe porțiuni ale indicatorului performanță fiecăruia dintre acești trei factori pe baza unui set de date realizate, apoi de a utiliza rezultatele pentru a prevedea rezultatele unui atlet nou, netestat.

Instrumentul Regresie utilizează funcția LINEST a foii de lucru.

Eșantionare

Instrumentul de analiză Eșantionare creează un eșantion dintr-o populație prin tratarea intervalului de intrare ca pe o populație. Când populația este prea mare pentru a o procesa sau pentru a o înscrie într-o diagramă, aveți posibilitatea

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 117: Suport Curs Statistica Ro

utilizării unui eșantion reprezentativ. Aveți de asemenea posibilitatea creării unui eșantion care să conțină numai valori dintr-o anumită parte a unui ciclu în cazul în care considerați că datele de intrare sunt periodice.

De exemplu, dacă zona de intrare conține cifre privind vânzări trimestriale, eșantionați cu o rată periodică valorile de pe patru poziții din același trimestru în zona de intrare.

Test t

Instrumentele de analiză test t pentru două eșantioane testează egalitatea mediilor populațiilor de bază pentru fiecare dintre eșantioane. Cele trei instrumente folosesc ipoteze diferite: varianțele populațiilor sunt egale, varianțele populațiilor nu sunt egale și cele două eșantioane reprezintă observațiile înainte și după tratament asupra acelorași subiecți.

Pentru toate cele trei instrumente de mai jos, o valoare a statisticii t, t, este calculată și prezentată ca “t Stat” în tabelul cu rezultate. În funcție de date, această valoare, t, poate fi negativă sau pozitivă. Presupunând că mediile populațiilor de bază sunt egale, dacă t < 0, “P(T <= t) unilateral” dă probabilitatea ca o valoare a statisticii t observată să fie mai negativă decât t. Dacă t >=0, “P(T <= t) unilateral” dă probabilitatea ca o valoare a statisticii t observată să fie mai pozitivă decât t. “t unilateral critic” dă valoarea limită pentru care probabilitatea observării unei unei valori a statisticii t mai mare sau egală cu “t unilateral critic” să fie Alfa.

“P(T <= t) bilateral” dă probabilitatea ca o valoare a statisticii t observată să fie mai mare în valoare absolută decât t. “P bilateral critic” dă valoarea limită pentru care probabilitatea unei statistici t observate mai mari în valoare absolută decât “P bilateral critic” să fie Alfa.

Test t: Două eșantioane cu varianțe egale.  Acest instrument de analiză execută un test t pe două eșantioane de studenți. Acest test t presupune că cele două seturi de date provin din distribuții cu aceleași varianțe. I se spune test t homoscedastic. Aveți posibilitatea să utilizați acest test t pentru a determina dacă este probabil ca cele două eșantioane să provină din distribuții cu medii egale ale populațiilor.

Test t: Două eșantioane cu varianțe inegale.  Acest instrument de analiză execută un test t al lui Student pe două eșantioane. Acest test t presupune că cele două seturi de date provin din distribuții cu varianțe inegale; I se spune test t heteroscedastic . Ca și în cazul Varianțelor egale de mai sus, aveți posibilitatea să utilizați acest test t pentru a determina dacă este probabil ca cele două eșantioane să provină din distribuții cu medii egale ale populațiilor. Utilizați acest test atunci când sunt subiecți distincți în cele două eșantioane. Utilizați testul Pereche, descris mai jos, atunci când există un singur set de subiecți și cele două eșantioane reprezintă măsurători ale subiecților înainte și după un experiment.

Următoarea formulă este utilizată pentru a determina valoarea statistică a testului t.

Următoarea formulă se utilizează pentru a calcula gradele de libertate, df. Deoarece rezultatul calculului nu este, în general, un număr întreg, valoarea lui df este rotunjită la cel mai apropiat întreg pentru a obține o valoare critică din tabelul t. Funcția Excel pentru foi de lucru, TTEST, utilizează valoarea calculată df fără a rotunji, fiind deci posibilă calcularea unei valori pentru TTEST fără ca valoarea lui df să fie în mod necesar un întreg. Datorită acestor diferențe de abordare pentru determinarea gradelor de libertate, rezultatele lui TTEST și ale acestui instrument test t vor diferi în cazul varianțelor inegale.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 118: Suport Curs Statistica Ro

Test t: Două eșantioane pereche pentru medii. Utilizați testul pereche atunci când există o corespondență naturală a observațiilor din eșantioane, cum ar fi atunci când un grup eșantion este testat de două ori — înainte și după un experiment. Acest instrument de analiză și formula sa efectuează un test t al lui Student cu două eșantioane pereche pentru a determina dacă este probabil ca observațiile făcute înainte și după un experiment să provină din distribuții cu medii egale ale populațiilor. Această formă de test t nu presupune că varianțele celor două populații sunt egale.

 NOTĂ   Printre rezultatele generate de acest instrument se află varianța centralizată, o măsură de acumulare a împrăștierii datelor legate de medie, derivată din formula următoare.

Test z

Test z: Instrumentul de analiză Două eșantioane pentru medii execută un test z pe două eșantioane pentru medii cu varianțe cunoscute. Acest instrument este utilizat pentru a testa ipoteza nulului, că nu este nici o diferență între două medii ale unor populații, în comparație cu ipotezele alternative, fie cea unilaterală fie cea bilaterală. Dacă varianțele nu sunt cunoscute, trebuie utilizată funcția foii de lucru, ZTEST, în locul acestui instrument.

Când se utilizează instrumentul Test z, trebuie multă atenție pentru înțelegerea rezultatelor. “P(Z <= z) unilateral” este de fapt P(Z >= ABS(z)), probabilitatea unei valori z mai depărtate de 0 în aceeași direcție ca valoarea z observată, când nu sunt diferențe între mediile populațiilor. “P(Z <= z) bilateral” este de fapt P(Z >= ABS(z) sau Z <= -ABS(z)), probabilitatea unei valori z mai depărtate de 0 în oricare direcție față de valoarea observată z, când nu sunt diferențe între mediile populațiilor. Rezultatul bilateral este tocmai rezultatul unilateral multiplicat cu 2. Testul z poate să se utilizeze, de asemenea, pentru cazul când ipoteza nulă este că există o valoare specifică diferită de zero pentru diferența dintre mediile a două populații.

De exemplu, se poate utiliza acest test pentru a determina diferențele între performanțele a două modele de mașini.

Compararea mediilor

Softul statistic din excel, in procesul de testare, calculeaza direct valoarea p (p-value) a

ipotezei alternative, urmand ca analistul sa isi asume un nivel al riscului (nivelul de semnificatie ,) pentru a face comparatia intre cele doua nivele de probabilitate si a accepta sau respinge ipoteza alternativa.

In Excel se utilizeaza functia TTEST.care returneaza direct valoarea p a ipotezei alternative.

Functia are urmatoarele argumente:

Array1 –domeniu reprezintand setul de date corespunzatoare primului esantion;

Array2 – reprezinta setul de date corespunzatoare celui de-al doilea esantion;

Tails – parametru boolean cu valoarea egala cu 1 daca alternativa este unilaterala, respectiv 2 daca este bilaterala;

Type, parametru boolean cu valoarea egala cu 1 daca esantioanele sunt

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013

Page 119: Suport Curs Statistica Ro

„pereche”, 2 daca esantioanele nu sunt pereche dar sunt homoscedastice, si 3 daca se stie despre populatii ca sunt heteroscedastice.

In practica sunt extrem de putine situatiile in care sa se cunoasca homoscedasticitatea populatiilor. Pentru esantioane „nepereche” valoarea parametrului Type se recomanda a fi egal cu 3.

În contextul globalizării afacerilor, supravieţuirea şi prosperitatea firmelor este condiţionată de cunoaşterea şi respectarea cerinţelor mediului în care ele îşi desfăşoară activitatea. Lumea contemporană este caracterizată printr-un dinanism (o mobilitate) fără precedent cauzat, pe de o parte, de progresul tehnologic, de pătrunderea digitalizării în quasi-totalitatea domeniilor activităţii umane, iar pe de altă parte, de deschiderea tot mai netă a pieţelor naţionale faţă de competiţia internaţională.

Într-un astfel de mediu, întreprinderile trebuie să cunoască situaţia actuală, să sesizeze în timp real şi cu costuri minime oportunităţile şi riscurile de afaceri, să prevadă tendinţele şi să-şi ia măsurile adecvate pentru a face faţă schimbărilor (modificărilor) care le vor (putea) afecta pieţele de aprovizionare şi de desfacere, precum şi pentru a cunoaşte propria lor poziţie pe aceste pieţe.

Dezvoltare, inovare şi extindere a accesului la învăţare în programe de master în

administrarea afacerilorContract nr.: POSDRU /86/1.2/S/61086

Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013