27
FACULTATEA DE CIBERNETICA,STATISTICA SI INFORMATICA ECONOMICA,BUCURESTI PROIECT LA ANALIZA DATELOR

Proiect analiza datelor

Embed Size (px)

DESCRIPTION

analiza datelor

Citation preview

FACULTATEA DE CIBERNETICA,STATISTICA SI INFORMATICA ECONOMICA,BUCURESTI

PROIECT LA ANALIZA DATELOR

TRASCA ROXANA-MIHAELAGRUPA 1048SERIA INFORMATICA APROF COORDONATOR : ANDREEA MURARU

CUPRINS

PREZENTAREA DATELOR ANALIZA COMPONENTELOR PRINCIPALE ANALIZA CLUSTER ANALIZA DISCRIMINANTA BLIBLIOGRAFIE CONCLUZII

I.PREZENTAREA DATELOR

In vederea realizarii proiectului ,ceea ce implica utilizaea programelor Spss si Eviews pentru analiza componentelor principale si respective,pentru tehinicile de clasificare ierarhica,a fost consultat site-ul www.eurostat.ro ,de unde s-au extras un numar de 20 de tari pentru care au fost selectati 6 indicatori si anume : PIB pe cap de locuitor,Export de bunuri si servicii,Import de bunuri si servicii,Venit net national,Rata de crestere PIB si investitii.Anul de referinta este anul 2009.

PIB-ul pe cap de locuitor este PIB-ul impartit la numarul locuitorilor.Acesta este adesea dat ca ajustat,insemnand ca este astfel calculate incat nivelurile diferitelor preturi sunt mscate in diferite tari.Astfel poate fi comparata eficienta diferitelor tari.Exportul este o operatie cu caracter commercial prin care o parte din marfurile produse,prelucrate,completate sau reparate intr-o tara se vand pe piata altor tari.Importul constituie totalitatea operatiilor cu caracter commercial prin care se introdus intr-o tara marfuri/produse cumparate din alte tari.Venitul national reprezinta exprimarea in preturile factorilor a produsului national net si exprima suma veniturilor obtinute de proprietarii factorilor de productie.Rata reala de crestere a PIB-ului exprima cresterea economica a unei tari si reprezinta rata de crestere a produsului intern brut ajustata cu inflatia.Investitiile reprezinta plasarea de capitaluri in intreprinderi industriale, agricole, comerciale etc cu scopul obtinerii de profituri.II.ANALIZA COMPONENTELOR PRINCIPALE(ACP)

Analiza componentelor principale reprezinta o analiza multidimensionala care are ca scop sinetizarea informatiei continuta in variabilele initiale prin intermediul unor noi variabile in numar mai mic ,care sunt correlate doua cate doua,fara ca aceasta forma sa contina redundante informationale.Aceste componente exprima attribute noi si sunt construite in asa fel incat sa fie necorelate intre ele,fiecare fiind o combinatie liniara de variabile originale.Astfel,are loc reducerea dimensionalitatii spatiului causal initial si inlaturarea redundantei informationale.Caracteristicile rezultate in urma transformarii caracteristicilor initiale se nume component principale si sunt exprimate sub forma combinatiilor liniare de variabile originale ,ele ,de asemenea sunt caracterizate de o variablitate maxima.Scopul acestei analize este ca pentru matricea noastra de date sa se identifice noi variabile care sa exprime sintetic vechile variabile astfel incat cantitatea totala de informative sa nu se piarda decat in mod controlat.Astfel ,dupa incarcarea matricei de date in SPSS ,vom incepe analiza prin a remarca faptul ca toate caracteristicile urmarite sunt variabile continue,scara lor de masura fiind usor de identificat.Prin urmare pentru fiecare variabila in parte,pentru inceput,vom calcula indicatorii de centrare si de imprastiere cum ar fi media,valoarea minima,valoarea maxima,precum si abaterea standard.

Tabelul Descriptive Statistics contine informatii despre fiecare variabila analizata independent.Din table aflam ca pentru variabila PIB pe cap de locuitor valoarea maxima este 247 ,iar cea medie este de 96.70 de unde putem concluziona ca in medie PIB-ul este destul de ridicat.Gradul exportului de bunuri si servicii este destul de ridicat avand o valoare maxima de 168.2 ,precum si cel al importului de bunuri si servicii care are o valoare maxima de 135.3 destul de apropiata de cea a exportului.Venitul national net are o valoare maxima de 87.9,iar investitiile au o valoare maxima de 33.6.Valoarea medie a ratei de crestere a PIB-ului a tarilor analizate este de 1.56,aceasta variabila avand abaterea standard cea mai mica de 2.36,ceea ce ne arata ca este si cea mai omogena variabila,dar si cea mai stabila.Apoi pentru a vedea daca indicatorii calculate sunt independent sau nu vom analiza matricea coeficientilor de corelatie din tabelul urmator :

La prima vedere putem afirma faptul ca in matricea coeficientilor de corelatie exista corelatii atat in sens pozitiv,cat si in sens negativ.Astfel identificam in matricea de mai sus,un coefficient foarte mare de corelatie apropiat de valoarea 1,si anume intre indicatorul Export de bunuri si servicii si indicatorul Import de bunuri si servicii avand o valoare de 0.986.Totodata se mai identifica coeficienti de corelatie destul de mari intre indicatorul PIB pe locuitor si Export de bunuri si servicii avand o valoare de 0.656.Ca urmare a acestor constatari am putea totusi sa eliminam unii indicatori,dar problema este pe care sa-I eliminam;pentru a elimina subiectivismul decizie,vom folosi tehnicile de analiza a componentelor principale implementate in SPSS,si ne propunem sa identificam doi indicatori sintetici cu care ne-am multumi in atingerea scopului propus.Din acest table reiese faptul ca toate variabilele folosite contribuie major la explicarea variabilelor artificiale obtinute ulterior(cu exceptia variabilei 5 reprezentand rata de crestere a PIB-ului,fiecare dintre ele,in rest,avand o cantitate de infomatie recuperate de peste 40% dupa cum reiese din coloana Extraction.Din analiza acestuia se observa ca variabila 2 are o contributie majora la explicarea varabilelor atificiale care se obtin ulterior.Cantitatea de informative recuperate din aceasta varabila este de 0.969,urmata in aproape de a3-a variabila care recupereaza 0.935 din informative,dupa cum reiese din coloana Extraction din tabelul de mai sus.Pentru a stabili numarul de component principale necesare se folosesc informatiile din tabelul Total Variance Explained.Tabelul ne ofera informatii cu privire la valorile proprii ale matricei de corelatie,dar si informatii referitoare la componentele principale si cantitatea de informatie retinuta de acestea.O valoare proprie mai mare decat 1,pentru o component ,indica faptul ca acea component are o contributie mai mare decat a unei variabile initiale,deci este indicat a fi extrasa. Pentru inceput vom afisa si datele obtinute cu ajutorul programului Eviews,care sunt aceleasi cu cele obtinute in programul SPSS pentru analiza componentelor principale :

Output din SPSS:

Se observa ca pentru a recupera o cantitate cat mai mare de informative din datele initiale avem nevoie de doua component principale.Acestea corespund valorilor proprii cele mai mari,valori proprii peste 1,iar aceste valori reprezinta variantele corespunzatoare celor doua component retinute .Cele doua valori proprii retinute cu valori de peste 1,se afla in coloana Initial Eigenvalues si sunt,in oridine descrescatoare, 60.088 si 20.059.Utilizand doua component principale,cantitatea de informative total recuperate este de 80.147% din informatia intiala,asa cum se observa in coloana Cumulative%.Dintre cele doua componente principale ,prima acopera 60.088% din varianta finala,iar a doua component 20.059%.Pentru a stabili numarul de component principale necesare se mai poate folosi si metoda grafica.In Scree Plot ,graficul descresterii,se observa doua diferente semnificative de nivel intre segmentele ce indica reprezentarea grafica a valorilor proprii,cee ace ne idica necesitatea unui numar de 2 componente principale.Pe abscisa sunt reprezentate etichetele valorilor proprii,in timp ce pe ordonata se afla valorile efective ale acestora.Folosind criterial pantei si reprezentarea grafica a valorilor proprii se poate deterina numarul de component principale necesare reprezentarii spatiului initial.In urma identificarii numarului de diferente semnificative dintre valorile proprii reprezentate,deasupra ultimei diferente semnificative in reprezentarea grafica se duce o paralela la abscisa,iar numarul de valori proprii ramase deasupra paralelei da numarul de componente principale.

Prima componenta principala este puternic influentata de nivelul exportului si importului de bunuri si servicii,dar si de PIB-ul pe cap de locuitor.Dupa o ordonare descrescatoare se observa ca pe primul loc la nivelul exportului si importului de bunuri si servicii se afla Luxemburg,urmata de Slovacia,Estonia,Belgia,Ungaria ,iar cele mai slabe sunt Franta si Grecia.

A doua componenta principala este puternic influentata de Investii.Dupa o ordonare descrescatoare pe primul loc la nivelul de investitii se afla Germania,iar pe ultima pozitie se afla Bulgaria.

Tabelul Rotated Component Matrix foloseste tehnica rotirii axelor,tehnica Varimax,si are drept scop obtinerea unor coeficienti de corelatie cat mai mici pe una din componentele principale.In cazul nostrum interpretarea se poate face cu usurinta si pe prima matrice de corelatie dintre variabilele originale si componentele principale.Se observa ca prin tehnica Varimax obtinem aceeasi interpretare.Tehnica Varimax realizeaza o rotatie a axelor intiale pentru a facilita interpretarea factorilor astfel obtinuti:

Tabelul Component Transformation Matrix indica corelatia componentelor inainte si dupa rotatie.

Componenta Plot in Rotated Space ofera o reprezentare grafica a celor 2 componente principale.Fiecare variabila este reprezentata in functie de corelatia cu fiecare component.Este un mod grafic de a prezenta aceeasi informative ca in tabelul Rotated Component Matrix.

Componentele principale nu sunt altceva decat combinatii liniare ale variabilelor originale cu versorii noului spatiu redus.Acesti versori sunt dati de vectorii proprii corespunzatori valorilor proprii mai mari decat 1.Tabelul Component Score Coefficient Matrix reprezinta matricea versorilor,continand vectorii proprii corespunzatori valorilor proprii retinute.Datele sunt in tabelul de mai jos:

Matricea Component Score Covariance Matrix demonstreaza faptul ca covarianta dintre componentelor principale este 0,componentele fiind interpretate in functie de valori diferite.

III.ANALIZA CLUSTER

Vor fi supuse procesului de clusterizare toate cele 20 de state,variabilele pe baza carora se va face impartirea lor in clase fiind: PIB pe cap de locuitor; Export de bunuri si servicii; Import de bunuri si servicii; Venit net national; Rata de crestere PIB; Investitii; Metodele de analiza cluster au ca scop gruparea indivizilor,identificati printr-o serie de attribute,intr-un numar cat mai restrans de clase omogene.Aceste metode realizeaza o analiza globala a indivizlor ce sunt studiati printr-un numar mare de variabile si ipoteze cerute minime.Astfel se realizeaza clase in asa fel incat indivizii apartinand aceleiasi clase sa fie cat mai asemanatori intre ei prin variabilele lor in timp ce clasele constituite sa fie cat mai diferite.Clusterul reprezinta o submultime formata din obiecte care au proprietatea ca gradul de dismilaritate dintre oricare doua obiecte apartinand clusterului este mai mic decat gradul de disimilaritate dintre orice obiect care apartine clusterului si orice obiect care nu apartine clusterului respective. Analiza claselor ierarhice este o metoda de grupare ierarhica in care fiecare clasa este in totalitate continuta in alta clasa.Clasele grupeaza indivizi cat mai asemanatori intre ei prin valorile varibilelor lor,in timp ce clasele constituite sunt cat mai diferite. Pentru a masura distanta am ales distanta euclidiana simpla,iar metodele pentru care am optat sunt metoda celor mai apropiati vecini si metoda lui Ward,pentru a determina care dintre cele doua duc la rezultate mai bune in cazul de fata. In ambele cazuri s-au folosit variabile standardizate,unitatea de masura a variabilelor fiind diferita. Distanta dintre doua clustere este masurata ca distanta intre cele mai apropiate doua obiecte din cele doua clustere.Se bazeaza pe maximizarea gradului de omogenitate al clusterului (minimizarea variabilitatii intre cluster)si maximizarea variabilitatii intercluster. Rezultatele analizei cluster sunt diferite in functie de metoda aplicata,astfel,dupa cum se va putea observa din cele doua dendograme precum si din schemele de agregare,ordinea in care are loc gruparea obiectelor este diferita.

METODA CEI MAI APROPIATI VECINI

In primul pas se grupeaza tarile 4 si 15(clusterd combined) intre acestea existand cea mai mica distanta.Acestora li se adauga in etapa 2(coloana Next Stage) o noua tara(daca va uitati la pasul 2 vedeti ca se grupeaza 4 si 19).Logica gruparii este aceeasi si pentru pasii urmatori.

Dendograma:

Cluster 1: Danemarca,Austria,Finalnda,Cipru,Franta,Italia,Germania,Portugalia,BelgiaCluster 2: Olanda,Ungaria,Estonia,Slovenia,Bulgaria,Romania,Spania,Slovacia,CroatiaCluster 3:GreciaCluster 4:Luxemburg

METODA LUI WARDMetoda celor mai apropiati vecini nu ilustreaza foarte clar clustere de tari,motiv pentru care metoda lui Ward este cea care va furniza numarul de clustere in care vom imparti cele 20 de state.Dendograma sugereaza un numar mare de grupe.Schema de grupare este diferita fata de cea din cazul precedent.

In primul pas se grupeaza tarile 4 si 15 ,iar etapa urmatoare este cea diferita si anume va fi etapa 3 unde se vor grupa tarile 4 si 19.

Dendograma:

Cluster 1: Danemarca,Austria,Finlanda,Cipru,Franta,Italia,Germania,Olanda,PortugaliaCluster 2:Belgia,Ungaria,SlovaciaCluster 3:Grecia,Croatia,Estonia,Slovenia,Bulgaria,Romania,SpaniaCluster 4:Luxemburg

In cazul de fata metoda lui Ward a dus la obtinerea unor rezultate mai bune,permitand o diferentiere mai clasa a clusterelor.Folosind principiul minimizarii variantei in cadrul grupurilor,ilustreaza mai bine profilul tarilor.Pe de alta parte,metoda celor mai apropiati vecini duce uneori la constiutuirea de grupuri eterogene,variant din cadrul grupurilor putand inregistra valori mai ridicate.In analiza de fata,metoda lui Ward duce la izolarea unui singur stat Luxemburg.

IV.ANALIZA DISCRIMINANTA

Analiza discriminanta face parte din metodele de recunoastere supervizata a formelor.In cadrul acestor metode se cunoaste numarul de clase si apartenenta formelor dintr-un esantion la clase,si se urmareste predictia apartenentei formelor din afara esantionului la una dintre clase.In acest scop se construieste un clasficiator,functie de variabilele dupa care se face clasificarea.In functie de valoarea acestuia pentru fiecare obiect se stabileste daca el apartine unei forme sau alteia.Principala problema care trebuie rezolvata in cadrul analizei discriminante este aceea a construirii criteriilor sau regulilor de clasificare,pe baza carora se pot face predictii privind apartenenta unor forme noi,cu apartenenta initiala necunoscuta.Criteriile de clasificare mai sunt cunoscute si sub numele de clasificatori,iar deducerea acestor criterii se numeste formare a clasificatorului.Pentru a determina analiza discriminanta,am aplicat algoritmul celor k-medii care este cel mai utilizat algoritm de partitionare .

Analysis Case Processing Summary .Acest table rezuma setul de date de analiza in ceea ce priveste cazurile valabile si excluse.Motivele prin care SPSS ar putea exclude o observatie de analiza sunt listate aici,si sunt prezentate de numarul N si de procentul de cazuri care se incadreaza in fiecare categorie.In acest exemplu,toate observatiile din setul de date sunt valabile.

Group Statistics. Acest table prezinta distributia de observatii in cele trei grupuri.Putem vedea numarul de observatii ce se incadreaza in fiecare dintre cele doua grupuri.In acest exemplu,vom folosi greutatea implicita de 1 pentru fiecare observatie in setul de date,astfel incat numarul ponderat de observatii din fiecare grup este egal cu numarul neponderat de observatii din fiecare grup.

Eigen value . Acestea sunt valorile proprii ale matricei produsului inversului dintre grupuri si sume de patrate si matrice intre produse si intre grupuri sume de patrate si matricea indirecta a produsului. Aceste valori proprii sunt legate de corelatiile canonice si descrie cat de mult discriminarea capacitatii are o functie.Marimile valorilor proprii sunt informative de abilitati discriminatorii.

WilksLambda este o statistica multivariate calculate prin SPSS.In acest exemplu,corelatia canonica este 0.974,astfel testarea WilksLambda este(1- 0,7212) * (1 0.9742) = 0,52.

Primul cluster are valoarea -0.931 ,iar cel de-al doilea cluster are valoarea 17.694.Stim ca scorurile functionale au o medie de la zero,si putem verifica acest lucru uitandu-ne la suma de grup ce inseamna functia inmultita cu numarul de cazuri in fiecare grupa :(19*-0.931)+(1*17.694)=0.

Structure Matrix . Aceasta este structura canonica a functiilor discriminante.Ea reprezinta corelatiile dintre variabilele observate si dimensiunile create cu functiile discriminante neobservabile.

Classification Processing Summary. Acest lucru este similar cu rezumatul analiza dosarului de prelucrare. In acest tabel transformate sunt observatiile care au fost clasificate cu success pe baza analizei. Motivele pentru care o observatie nu a fost procesata sunt indicate aici. Putem vedea ca in acest exemplu,toate observatiile din setul de date au fost clasificate cu success.

Prior Probabilities for Groups. Aceasta este distributia de observatii in grupurile utilizate ca un punct de plecare in analiza. Distributia implicit prealabila este o alocare egala in grupuri,asa cum se vede in acest exemplu. SPSS permite utilizatorlor sa specific diferite antecedente.

V.BIBLIOGRAFIE

Gheorghe Ruxanda

www.eurostat.ro

www.ats.ucla.edu/stat/spss/output/SPSS_discrim.htm

VI.CONCLUZII

Pe baza analizei efectuate asupra celor 20 de tari ,si asupra celor 6 factori de influenta am putut sa concluzionam care sunt cele mai dezvoltate tari si ce caracteristici are fiecare.In cadrul analizei efectuate pe acest esantion s-a putut observa ca unele variabile erau puternic correlate intre ele astfel incat nu aduceau un plus de informative.In concluzie,analiza componentelor principale ne-a permis sa realizam o sintetizare informationala si sa caracterizam un sir de observatii .Astfel,am putut realiza compartii intre observatii.Metodele de analiza a datelor ne oferta tehnici foarte valoroase in contextual analizei fenomenelor socio-economice actuale,ajustand la simplificarea modelelor matematice si structurilor complexe ce incearca sa determine si sa clarifice relatiile dintre componentele acestui system.