204

Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

Embed Size (px)

DESCRIPTION

Ez a statisztika jegyzet elsősorban szociológus hallgatók számára készült és egy bevezetést kínál úgy a tárgy elméleti alapjaiba, mint annak gyakorlati felhasználásába. Azzal a céllal készült, hogy egyszerűen, lépésről-lépésre haladva ismertesse meg a diákokkal a legalapvetőbb statisztikai elemzési technikákat. A megoldott példákkal és SPSS alkalmazásokkal tarkított jegyzet végigvezet a statisztikában használatos alapfogalmakon (sokaság, változó, mérési szintek), az adatbázisokkal kapcsolatos alapvető műveleteken (létrehozás, címkézés, importálás, összekapcsolás, esetek leválogatása, változók átalakítása), majd rátér az egyváltozós elemzésekre (gyakorisági eloszlások, középértékek, szóródási mutatók, alak-mutatók).

Citation preview

Page 1: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat
Page 2: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

www.scientiakiado.ro

www.facebook.com/ScientiaKiado

Page 3: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

Bálint GyönGyvér

StatiSztika elmélet éS gyakorlat

Page 4: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

Sapientia erdélyi maGyar tudományeGyetemműSzaki éS tárSadalomtudományi kar, CSíkSzereda

tárSadalomtudományi tanSzék

Page 5: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

Scientia kiadókolozsvár · 2009

Bálint GyönGyvér

StatiSztikaelmélet éS gyakorlat

Page 6: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

Lektor: mezei elemér (kolozsvár)

Sorozatborító: miklósi dénes

Descrierea CIP a Bibliotecii Naþionale a României

BÁLINT GYÖNGYVÉRStatisztika / Bálint Gyöngyvér. - Cluj-napoca : Scientia, 2009Bibliogr.iSBn 978-973-1970-17-2

311:316004.42 SpSS

a kiadvány megjelenését támogatta:

első magyar nyelvű kiadás: 2009© Sapientia 2009minden jog fenntartva, beleértve a sokszorosítás, a nyilvános előadás, a rádió- éstelevízióadás, valamint a fordítás jogát, az egyes fejezeteket illetően is.

Page 7: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

TaRTaLom

Előszó 11

1. Bevezetés a társadalomstatisztikába 13

1.1. mi a statisztika? 13

1.2. alapfogalmak 16

1.3. mérési szintek 18

1.4. adatbázisok létrehozása, címkézés 21

1.5. az SpSS által kezelt adatállományok, adatbázisok összekapcsolása, esetek leválogatása 25

1.6. változók átalakítása 31

2. Egyváltozós elemzések 39

2.1. Statisztikai alapműveletek, egyszerű elemzések 39

2.2. Gyakorisági eloszlások 42

2.3. a centrális tendenciák mutatói: átlag, medián, módusz 50

2.4. Szórás és szóródás 62

2.5. momentumok, ferdeség és csúcsosság 69

3. mintavétel 77

3.1. elemi valószínűség-elmélet. várható érték 77

3.2. elemi mintavételi elmélet. Standard hiba 82

4. Kétváltozós elemzések 89

4.1. változók közötti kapcsolatok 89

4.2. minőségi változók közötti kapcsolat 93

4.3. vegyes kapcsolat 110

4.4. két mennyiségi változó közötti kapcsolat: korreláció 119

5. Többváltozós elemzések 129

5.1. a többváltozós elemzések fajtái 129

Page 8: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

5.2. a faktorelemzés 135

5.3. a klaszterelemzés 160

mellékletek 173

a 2-eloszlás táblázata (p=0,05, p=0,01 és p=0,001) 173

a t-eloszlás táblázata (p=0,05, p=0,01 és p=0,001) 174

az SpSS 9.0 program menüsor parancsainak rövid leírása 175

Bibliográfia 185

abstract 189

Rezumat 190

a szerzőről 191

tartalom6

Page 9: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

CoNTENTS

Foreword 11

1. Introduction to Social Statistics 13

1.1. What is Statistics? 13

1.2. Basic Concepts 16

1.3. levels of data measurement 18

1.4. Creating data Bases in SpSS, labelling 21

1.5. import data Bases, merge Files and Select Cases in SpSS 25

1.6. transform variables 31

2. Univariate analysis 39

2.1. Simple Statistical analysis 39

2.2. Frequency distribution 42

2.3. averages: mean, median, mode 50

2.4. measures of dispersion 62

2.5. Skewness and kurtosis 69

3. Sampling 77

3.1. introduction to probability theory. the expected value 77

3.2. the theory of Statistical Sampling. the Standard error 82

4. Bivariate analysis 89

4.1. relationships among variables 89

4.2. association between two Categorical variables. the Chi-square test 93

4.3. mean differences: t and F tests 110

4.4. Correlation 119

5. multivariate analysis 129

5.1. types of multivariate analysis 129

Page 10: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

5.2. Factor analysis 135

5.3. Cluster analysis 160

appendix 173

Chi-square distribution table (p=0,05, p=0,01 and p=0,001) 173

t-distribution table (p=0,05, p=0,01 and p=0,001) 174

a short description of SpSS menu Bar (version 9.0) 175

References 185

abstracts 189

about the author 191

ContentS8

Page 11: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

CUPRINS

Cuvânt înainte 11

1. Introducere în statistica socială 13

1.1. Ce este statistica? 13

1.2. Concepte de bază 16

1.3. tipuri de variabile 18

1.4. Crearea bazelor de date în SpSS, etichetarea 21

1.5. importarea şi legarea bazelor de date, selectarea cazurilor în SpSS 25

1.6. transformarea variabilelor 31

2. analiza univariată a datelor 39

2.1. analize statistice simple 39

2.2. distribuţia frecvenţelor 42

2.3. măsurarea tendinţei centrale: media aritmetică, mediana şi modulul 50

2.4. indicatori ai dispersiei 62

2.5. asimetria şi aplatizarea 69

3. Eşantionarea 77

3.1. introducere în noţiuni de probabilitate. Speranţa matematică 77

3.2. teoria selecţiei statistice. eroare Standard 82

4. analiza bivariată a datelor 89

4.1. tipuri de legături între variabile 89

4.2. asocierea variabilelor calitative. testul hi-pătrat 93

4.3. Compararea mediilor: testul t şi F 110

4.4. Corelaţia dintre două variabile 119

Page 12: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

5. analiza multivariată a datelor 129

5.1. tipuri de analize multivariate 129

5.2. analiza factorială 135

5.3. analiza cluster 160

anexe 173

tabelul distribuţiei hi-pătrat (p=0,05, p=0,01 şi p=0,001) 173

tabelul distribuţiei t (p=0,05, p=0,01 şi p=0,001) 174

descrierea meniului programului SpSS (versiunea 9.0) 175

Bibliografie 185

Rezumat 189

Despre autor 191

CuprinS10

Page 13: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

ELőSzó

ez a statisztikajegyzet elsősorban szociológus hallgatók számárakészült, és bevezetést kínál egyrészt a tárgy elméleti alapjaiba, másrésztpedig annak gyakorlati felhasználásába. azzal a céllal készült, hogy egy-szerűen, lépésről lépésre haladva ismertesse meg a diákokkal a legalap-vetőbb és legegyszerűbb statisztikai elemzési technikákat.

a jegyzet elméleti részeinek taglalása elsősorban a Hunyadi–mundruczó–vita szerzők nevével jelzett statisztikakönyvön alapszik, azSpSS alkalmazások pedig a budapesti nemzeti ifjúságkutató intézet általkoordinált, „mozaik 2001 – magyar fiatalok a kárpát-medencében”című kutatás (kutatásvezető: nemeskéri istván) székelyföldi adatbázisáratámaszkodnak. a 750 fős, 15–29 éves székelyföldi fiatalok reprezentatívmintáján készült, 2001-es kérdőíves vizsgálat adatbázisát a kam–regionális és antropológiai kutatások központja bocsátotta rendelkezé-semre, amelyet ezúton is köszönök. az adatbázis (adatbazisifjusSap.sav)letölthető az egyetem honlapjáról: www.csik.sapientia.ro/mttkar/.

a megoldott példákkal és SpSS alkalmazásokkal tarkított jegyzetvégigvezet a statisztikában használatos alapfogalmakon (sokaság, válto-zó, mérési szintek), az adatbázisokkal kapcsolatos alapvető műveleteken(létrehozás, címkézés, importálás, összekapcsolás, esetek leválogatása,változók átalakítása), majd rátér az egyváltozós elemzésekre (gyakoriságieloszlások, középértékek, szóródási mutatók, alak-mutatók). a kétválto-zós elemzések előtt, a harmadik fejezet keretében röviden összefoglalja avalószínűség-számítás, illetve a valószínűségi mintavétel alapvető ele-meit. a negyedik fejezet (kétváltozós elemzések) két minőségi, egy kate-goriális és egy mennyiségi, valamint két mennyiségi mérési szintű válto-zó közötti kapcsolatfajtákat taglalja (asszociáció, csoportátlagokösszehasonlítása, korreláció). az utolsó fejezet egy általános összefogla-lót kínál a többváltozós elemzésekről, majd egy gyakorlati példán keresz-tül végigvezet a főkomponens-elemzés és a k-közép klaszterelemzésfolyamatán az SpSS-ben. a mellékletben szerepel az SpSS program (9.0-ás verzió) menüsor parancsainak rövid leírása, amely a menühasználatelsajátítását könnyíti meg.

a jegyzetben szereplő SpSS alkalmazások során a syntax ablakbólfuttatandó parancsok helyett a gyorsabban elsajátítható, „klikkeléses”

Page 14: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

menühasználat mellett foglalok állást, ezért a megfelelő eljárásoknálalkalmazandó syntax leírások nem kerültek be a tananyagba. továbbá aszámos többváltozós elemzési technikákból csak a szociológusok általigen gyakran használt és talán legkönnyebben elsajátítható két adatre-dukciós módszer (főkomponens- és klaszterelemzés) alkalmazására térekki részletesen.

a jegyzet két alapvető üzenete már az első alfejezetben megfogalma-zódik: 1. a statisztikai ismeretek megértésének talán legjelentősebbösszetevője a módszerek alkalmazásának gyakorlása (az elméleti ismere-tek segítik a gyakorlást, ám a készségek effektív munka során alakíthatókki), és ebben nagy segítséget nyújtanak a számítógépes programcsoma-gok, valamint 2. a matematikai eszközök mechanikusan nem alkalmaz-hatók, szükség van szaktudásra (társadalomtudományi ismeretekre): alegbonyolultabb statisztikai elemzés sem tudja jóvá tenni a kutatás meg-tervezésekor elkövetett hibákat, és a kapott eredményeket is csak megfe-lelő szakmai ismerettel lehet hatékonyan felhasználni.

végezetül szeretnék köszönetet mondani mezei elemérnek a nagyonalapos és inspiráló lektorálásért. konstruktív kritikája sokat javított ajegyzet tartalmán.

a szerzőCsíkszereda, 2009. május 7.

előSzó12

Page 15: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

1. Fejezet

BEVEzETÉS a TÁRSaDaLomSTaTISzTIKÁBa

1.1. mi a statisztika?

a statisztika (általános statisztika, matematikai statisztika) a valóságszámszerű információinak megfigyelésére, összegzésére, elemzésére ésmodellezésére irányuló gyakorlati tevékenység és tudomány. a statiszti-ka tömegjelenségekkel foglalkozik. tehát módszeresen megfigyeli atömegjelenségek tulajdonságait, begyűjti a jellemző információkat, és fel-dolgozza, értékeli, elemzi ezeket.

a statisztika legfőbb érdeme, hogy:– információt szolgáltat a megfigyelt jelenségekről,– lehetőséget ad a tudományos elemzésekhez,– tájékoztat a fontosabb társadalmi-gazdasági folyamatokról (legfon-

tosabb az állami vagy hivatalos statisztika).a statisztika fogalmán az általános és az alkalmazási területhez kötő-

dő módszertannak, valamint a gyakorlati tevékenységnek a szorosanösszefüggő egységét értjük. a statisztika arra szolgál, hogy a valóságtényeinek valamely adott körét tömören, a számok nyelvén jellemezze.

1.1.1. a statisztika történeti kialakulása és fejlődése

a statisztika először mint gyakorlati, számbavételi tevékenység jelentmeg az ókorban. a legkorábbi statisztikai adatok az ókori államokbanvégrehajtott népszámlálásból származnak. a középkorban a hűbérurakföldbirtokával összefüggő leltározó jellegű összeírásokat végeztek,később, a polgári társadalmak kialakulásával pedig egyre nőtt az érdek-lődés a különböző országok földrajzi, politikai és gazdasági viszonyaiiránt. mindezek az úgynevezett német leíró iskola kifejlődéséhez vezet-tek. maga a statisztika szó is ebből az időből származik, a státus (állam)szóból ered.

a polgári társadalmak fejlődésével a leíró jellegű információk körebővült, a közöttük lévő számszerű összefüggések ismeretének igényepedig kikényszerítette az elemzések módszertani fejlesztését is. ebben az

Page 16: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

időben az államszámtant átnevezték politikai aritmetikának – ez lett atudományos elemző statisztika alapja.

a legnagyobb előrelépést az a tény képezte, hogy a Xviii–XiX. szá-zadban meghatározták a valószínűségszámítás tételeit, és ezen tudo-mányág fejlődésének hatására alakult ki a mai matematikai statisztika.

1.1.2. a statisztika ágazatai és kapcsolata más tudományokkal

miként ez köztudott, a statisztikának a matematikához való kötődé-se a legerősebb, hiszen a matematika elmélete (főként a valószínűségszá-mítás elmélete, lásd 3. mintavétel fejezet) a szakmai összefüggések leírá-sára megfelelő módszertani tárházat nyújt. a statisztika a matematikaeredményeit (amelyek alkalmasak a tömegjelenségekben rejlő törvény-szerűségek feltárására) és a szakmai jelenség természetét ismerve alakít-ja ki módszereit.

a statisztikai tevékenység sok irányba ágazik szét, így alakulnak ki aszakstatisztikák. a szakstatisztikák egy-egy terület szakmai összetevőitismerve olyan matematikai módszert választanak, amely az ott előfordu-ló jelenségeket szakmai szempontból is helyesen írja le. a szakstatiszti-ka nem más, mint a társadalmi-gazdasági élet egy-egy területének sta-tisztikai módszerekkel való vizsgálata (pl. gazdaságstatisztika,népességstatisztika stb.). a szakstatisztikán belül is további differenciá-lódás következik be, de egy szakterületen belül egységes alapelvek érvé-nyesülnek.

1.1.3. a társadalomstatisztika

a társadalomstatisztika az általános statisztika egy sajátos változata.a társadalomstatisztika is az általános statisztikán alapul, de a vizsgáltváltozók, mutatók és eljárások a társadalmi viszonyok sajátos mérésimódjához vannak igazítva, így egyes számítások matematikai értelembenvett pontossága magyarázatra szorul (mezei–veres 2001). a mérési szintmeghatározása, a mérési hibák befolyása sajátos jelleggel bír a társada-lomtudományokban. megtörténik, hogy egy módszert olyan adatokra isalkalmaznak, amelyek nincsenek kellő pontossággal mérve (pl. faktor-elemzést alkalmaznak ordinális mérési szintű változókon). a társada-lomstatisztika ezekkel a problémákkal is meg kell birkózzon.

1. BevezetéS a tárSadalomStatSztikáBa14

Page 17: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

1. ábra. a társadalomtudományi kutatás lépései

a statisztikai elemzés leginkább az adatelemzés lépcsőjéhez köthető(1. ábra). de a kutatás minden lépését a mögöttes elmélet határozza meg,és fordítva, minden lépés eredménye hatással lehet az elméletre.

ebből következnek a társadalomstatisztika legfontosabb korlátai:– az elemzések eredménye erősen függ a vizsgálatba bevont szem-

pontoktól, változóktól (elméleti kerettől);– a bevont szempontok kiválasztásának mindig szakmai döntésre

kell támaszkodnia, minden szakmailag releváns szempontot be kellvonni az elemzésbe;

– a matematikai eszközök mechanikusan nem alkalmazhatók, szük-ség van szaktudásra (társadalomtudományi ismeretekre).

tehát a statisztikai módszerekkel kapott eredményeket csak megfele-lő szakmai ismerettel lehet hatékonyan felhasználni, ugyanakkor a kor-szerű társadalomtudományi szakismeret elképzelhetetlen a mennyiségiösszefüggések ismerete nélkül. a különböző társadalomtudományokban,így a szociológiában is egyre nagyobb hangsúly tevődik az elemzésekmélységére, vagyis egyre szűkebb szakterületekről egyre több informáci-ót igyekszünk megszerezni. ez egyrészt komplex módszertani és statisz-tikai ismereteket, másrészt az egyes szakszociológiák elméleti vonatko-zásainak beható ismeretét feltételezi.

a statisztikai ismeretek megértésének talán legjelentősebb összete-vője a módszerek alkalmazásának gyakorlása. az elméleti ismeretek segí-tik a gyakorlást, ám a készségek effektív munka során alakíthatók ki (ezutóbbi jelentősen visszahat az elméleti ismeretek elmélyítésére is),amelyben nagy segítséget nyújtanak a számítógépes programcsomagok.a statisztikai programcsomagok közül a szociológusok által leginkábbhasznált SpSS (Statistical package for the Social Sciences) Windows alattfutó programjának 9.00-ás alkalmazását ismertetem.

151.1. mi a StatiSztika?

kutatási kérdés Hipotéziskészítés

Hipotézistesztelés adatgyűjtésadatelemzés

elmélet

Page 18: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

1.2. alapfogalmak

a szociológiában a társadalmi valóság tömör, számszerű jellemzésé-hez az operacionalizálás révén jutunk el. mindezt megelőzi a vizsgáltterületre vonatkozó szakismeret áttekintése, a kutatási kérdések és hipo-tézisek megfogalmazása és konceptualizálása (lásd társadalomtudo-mányi kutatási módszerek és technikák tárgy). ezeket a fázisokat követimaga az operacionalizálás, ami nem más, mint a vizsgált kutatási prob-léma különböző jellemzőinek megadása (kérdőíves adatfelvételek eseténa kérdőív kérdéseinek megfogalmazása képezi ezt a tevékenységet). azoperacionalizálás elképzelhetetlen a megfigyelési egységek definiálása (avizsgált sokaság beazonosítása), valamint a mérési eljárások kialakítása(az ismérvek vagy változók megfogalmazása) nélkül.

a vizsgálat tárgyát képező egységek összességét, halmazát statisztikaisokaságnak, vagy rövidebben sokaságnak, esetleg populációnak nevezzük.

a statisztikai sokaság egyedei a statisztikai egységek. ezek az egysé-gek lehetnek élőlények: emberek, pl. a népszámlálás esetén; állatok, amezőgazdasági összeírásoknál; tárgyak, pl. a személygépkocsi-állományállapotának felmérésénél; szervezetek, pl. a vállalkozások it-felszereltsé-gének felmérésekor, események, pl. a kulturális rendezvények vizsgálataesetén, de lehetnek képzett egységek is, pl. a Gdp alakulásának vizsgála-takor. azt, hogy mit tekintünk a statisztikai vizsgálatnál sokaságnak,mindig a vizsgálat célja dönti el. Ha pl. a Sapientia egyetem hallgatóinaktévénézési szokásait szeretnénk vizsgálni, akkor az alapsokaság nemmás, mint az abban az időpontban hallgatói jogviszonnyal rendelkeződiákok sokasága. mivel a valóságban legtöbbször nem áll módunkban apopuláció egészéről adatfelvételt készíteni, ezért mintát veszünk, és azily módon begyűjtött adatokon végzünk statisztikai elemzéseket.

a sokaság egységei különböző tulajdonságaik megadásával jellemez-hetőek. ezen tulajdonságok egy része a sokaság minden egyes egységérenézve közös, más részük azonban nem.

a sokaság tagjai, egységei a vizsgálat tárgyának ismeretében legtöbb-ször elég egyértelműen adódnak, de vannak olyan esetek is, amikor asokaság egységei nem különülnek jól el egymástól, hanem csak önké-nyesen definiálhatóak (vagy a valóságban nem is léteznek).

amikor a valóság jól elkülönülő egységekből áll (számolásnál), diszk-rét sokaságról beszélünk, ilyen pl. egy adott településen élő lakosokszáma. amikor valóságos, de csak önkényesen elkülöníthető egységekbőláll (két adott érték között elméletileg az összes értéket felveheti), akkor

1. BevezetéS a tárSadalomStatSztikáBa16

Page 19: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

folytonos sokaságról beszélünk, mint pl. a Sapientia egyetem diákjai általegy nap elfogyasztott ásványvíz mennyisége.

Ha a sokaság elképzelt egységekből áll, fiktív sokaságról beszélünk(pl. románia 2015. július 1-jei lakosainak száma).

amikor a sokaság csak egy adott időpontra vonatkozóan értelmezhe-tő, álló sokaságnak nevezzük (pl. a lakosság száma 2002. március 18-án),amikor csak valamely adott időtartamra vonatkoztatva értelmezhető,mozgó sokaságnak nevezzük (pl. a Hargita megyei munkanélküliekszáma a 2002-es év folyamán).

1.2.1. Ismérv vagy változó

az ismérvek olyan vizsgálati szempontok, amelyek alapján egy soka-ság egymást át nem fedő részekre bontható. a sokaság egyes egységeineke felbontásban való elhelyezkedését az egységek adott szempont szerintitulajdonságai határozzák meg. a valamely szempont szerint lehetségestulajdonságokat ismérv-változatoknak (attribútumnak) nevezzük. Ha azismérv változatai számszerűek, akkor azokat ismérvértékeknek, magát azismérvet pedig változónak (a logikailag egymáshoz tartozó attribútumokhalmazának) nevezzük. a mindössze két változattal rendelkező ismérve-ket alternatív ismérveknek (dumy vagy dichotóm változónak) nevezzük.

nézzük az alábbi példát (1. példa): kérdőíves kutatást készítettünk aSapientia egyetem diákjainak körében, amelynek néhány ismérve ésismérvváltozata a táblázatban található.

1. példa. az ismérvfajták által hordozott információk közötti különbségek

171.2. alapFoGalmak

Sokaság: a 2007/2008-as tanévben az egyetemmel hallgatói jogviszonyban álló diákok

Ismérvek Ismérvváltozatoknem férfi, nőSzületési év 1988, 1989 stb.állandó lakóhely (település neve) Csíkszentgyörgy, Sepsiszentgyörgy stb.C típusú nyelvvizsga alapfokú, középfokú, felsőfokúinternethasználat igen, nemmagasság (cm) 171, 168 stb.testsúly (kg) 48, 66 stb.Fizikai állapotával való elégedettség

elégedetlen, igen is, meg nem is, elégedett

Page 20: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

látható, hogy az 1. példában alkalmazott ismérvek nem ugyanolyanjellegű információt hordoznak. az életkor, magasság és testsúly ismérvekismérvváltozatai konkrét számértékek, amelyekkel akár műveleteket isvégezhetünk (például annak megállapítására, hogy a diák hány éves lesznégy év múlva, vagy átlagosan milyen magasak a diákok). ezzel szembena nyelvvizsga foka, valamint a fizikai állapotával való elégedettség olyanismérvek, amelyek ismérvváltozatai nem számértékek, de mégis fennállvalamiféle hierarchia az ismérvváltozatok között, hiszen tudjuk, hogy aközépfokú nyelvtudás magasabb szintű, mint az alapfokú stb. a nem, azinternethasználat, illetve az állandó lakóhely esetében azonban azismérvváltozatok egyrészt nem számértékek, másrészt nem áll fenn sem-miféle hierarchia sem az egyes ismérvváltozatok között, hiszen nemdönthető el, hogy Csíkszentgyörgyön lakni jobb vagy rosszabb, mintSepsiszentgyörgyön, és az sem egyértelműen eldönthető, hogy nőnekvagy férfinek lenni jobb stb. ezenkívül a nem és az internethasználatismérveknek csak két attribútuma lehet, míg a lakóhelynek jóval több.összefoglalva tehát azt mondhatjuk, hogy mivel a statisztikai egységektulajdonságainak észlelése és rögzítése adat formájában valamifélemérésnek tekinthető, a különböző ismérveknek más-más mérhetőségitulajdonságaik vannak. mindez jelentősen befolyásolhatja a statisztikaivizsgálatot. az ismérvek mérhetőségi tulajdonságainak egyik jellemzőjea hozzájuk tartozó mérési szint vagy mérési skála.

Bizonyos szabályok betartása mellett egy eredetileg nem mennyiségiismérv (valamilyen számlálás vagy mérés számszerű eredményeit rende-li hozzá a sokaság egységeihez) lehetséges változatai számértékké alakít-hatóak, „kódolhatók”. ilyen módon bármely észlelt tulajdonság szám for-májában történő rögzítése az egységek számokkal való jellemzésének,azaz mérésnek tekinthető. de miként a fenti példából is kitűnik, egyálta-lán nem mindegy, hogy a sokaság egységeihez ilyen módon hozzárendeltszámértékek mely tulajdonságai érvényesek a sokaság egységeinek a szá-mértékekkel jellemezni kívánt tulajdonságaira is. erről szólnak a mérésiskálák vagy mérési szintek.

1.3. mérési szintek

a szociológiában négy mérési skálát szokás használni:1. nominális, megnevezéses vagy névleges mérési szint,2. ordinális, rendezési vagy sorrendi mérési szint,

1. BevezetéS a tárSadalomStatSztikáBa18

Page 21: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

3. intervallum vagy különbségi mérési szint,4. arány-skála.ebből az első két skálát szokás még minőségi, a második kettőt pedig

mennyiségi mérési skáláknak nevezni.a nominális skála a legegyszerűbb és legkevésbé informatív mérési

fokozat. Csak az egységekhez rendelt számértékek egyező vagy különbö-ző voltát engedi meg az egységeket ténylegesen is jellemző tulajdonság-ként elfogadni. az egységekhez hozzátartozó számértékeknek nincs mér-tékegysége, tulajdonképpen csupán egy megkülönböztető címkérőlbeszélhetünk. a kódszámok közti különbségeknek, azok hányadosánakvagy a nagyságrendjének nincsen semmi értelme, viszont az egységekcsoportosítására kiválóan alkalmas. a fenti példánkban ilyen mérésiszintű változó a nem, az állandó lakhely és az internethasználat.

az ordinális skála esetében nemcsak a skálaértékek azonos vagy nemazonos volta, hanem azok sorrendisége is az egységek között fennállóvalós viszonyokat írja le. az egységekhez hozzárendelt számértékek sor-rendje az adott egységek valamilyen szempontból vett sorrendjét mutat-ja (az egyes attribútumok a vizsgált tulajdonsággal relatíve kisebb vagynagyobb mértékben rendelkeznek). a skálaértékek bármilyen, az egysé-gek adott sorrendjét megtartó számértékek lehetnek, hiszen maguk a szá-mértékek nem hordoznak információt, csak azok sorrendje. akár csak anominális mérési szintű változók esetében, ezeknek a számértékekneksincs mértékegysége, valamint a skálaértékek különbsége sem informatív,továbbá nincs értelme a skálaértékekkel végzett más műveleteknek sem.a fenti példánkban ilyen mérési szintű változó a nyelvvizsga, valamint afizikai állapottal való elégedettség.

az intervallum-skála a szó szoros értelmében is mérést jelent, ugyan-is a mennyivel nagyobb kérdésre is választ tudunk adni. a skálaértékekkülönbségei is valós információt nyújtanak a sokaság egységeiről, vala-mint e skálának már valamilyen mértékegység is a szerves tartozékátképezi. a skála kezdőpontja a 0-pont, azonban ez önkényes, illetve vala-milyen konvención alapszik – ez lehetetlenné teszi a skálaértékek egy-más közötti arányának meghatározását. a szociológiai adatfelvételekkorritkán találkozunk intervallum-skálával, a fenti példánk sem tartalmazilyen változót. a klasszikus példa intervallummérési szintű változóra aCelsius-fokban vagy Fahrenheit-fokban mért hőmérséklet, hiszen nincsabszolút 0 pont, a víz fagyáspontjának választása esetleges, függ az ala-pul vett hőmérsékleti skálától.

191.3. méréSi Szintek

Page 22: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

2. példa. az intervallummérési szintű változók és az alapul vett méré-si skála

1. a 10 ºC és 20 ºC hőmérséklet közötti különbség Fahrenheit-skálánmérve is ugyanannyi, mint a –5 ºC és 5 ºC közötti különbség (a különb-ségnek valós értelme van).

F = 9 . C/5 + 32

a. 10 ºC = 9 .10/5 + 32 = 50 ºFb. 20 ºC = 9 . 20/5 + 32 = 68 ºFc. –5 ºC = 9 . (–5)/5 + 32 = 23 ºFd. 5 ºC = 9 . 5/5 + 32 = 41 ºF

20 ºC – 10 ºC = 10 ºC 68 ºF – 50 ºF = 18 ºF5 ºC – (–5) ºC = 10 ºC 41 ºF – 23 ºF = 18 ºF

2. a 20 ºC és az 5 ºC hőmérséklet egymáshoz viszonyított arányanem független az alapul vett hőmérsékleti skálától (az arányoknak nincsértelme).

20 ºC = 68 ºF (b.) 5 ºC = 41 ºF (c.)68 ºF/41 ºF = 1,66 20 ºC/5 ºC = 4

az arány-skála a legtöbb információt nyújtó mérési szint. már a kez-dőpont is egyértelműen adott és rögzített, bármely két skálaérték egy-máshoz viszonyított aránya is egyértelműen meghatározható, azaz infor-mációt hordoz. az 1. és a 2. példánkban ilyen mérési szintű változó azéletkor, magasság és testsúly változók, illetve a hőmérséklet kelvin-fok-ban (két kelvin-fokban kifejezett hőmérsékleti érték aránya a molekulákmozgási energiájának arányával egyenlő).

1.3.1. a mérési szintek egymáshoz való viszonya

a mérési szintek bemutatott sorrendje a mérés egymást követő olyanfokozatainak tekinthetők, amelyek a mérés eredményeit kifejező számér-tékek egyre több tulajdonságának kihasználását teszi lehetővé. ilyen érte-lemben a nominális mérési szint a legalacsonyabb, az arány-skála pediga legmagasabb mérési szint, ugyanakkor egy adott mérési szintű változóalacsonyabb szintűként is kezelhető.

az ismérvfajták és mérési skálák egymástól való megkülönböztetéseazért lényeges, mert más-más fajta elemzést tesznek lehetővé. az ismér-

1. BevezetéS a tárSadalomStatSztikáBa20

Page 23: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

vek fajtája, illetve a mérés adott szintje mindig behatárolja az elemzésegy-egy adott esetben szóba jövő eszközeit, tehát különböző mérési szin-tű változók más-más típusú statisztikai elemzéseket tesznek vagy nemtesznek lehetővé.

a mérés adott szintje azonban kétféle értelemben is relatív: 1. sohasem függetleníthető el teljesen a vizsgálat célkitűzéseitől – a

magas mérési szintek „alacsonyabbakká” válhatnak; 2. bizonyos elemzési technikák a megkívántnál alacsonyabb mérési

szintű adatok elemzésére is jól használhatók (pl. faktorelemzés).

1.4. adatbázisok létrehozása, címkézés

az adatbázis (adatmátrix) nem más, mint a kutatás során a sokaság(vagy minta) elemeiről begyűjtött adatok halmaza. az adatokat kódolt ésrendszerezett formában szokás elektronikus formában rögzíteni, úgy,hogy minden egyes egységünk (esetünk, amely lehet egy megkérdezettszemély, szervezet stb.) külön sorba, minden egyes változónk (ismér-vünk, mért tulajdonságuk) pedig külön oszlopba kerüljön. az adatbázis-ban minden egyes cellában egyetlen érték szerepelhet. az operacionali-zálás során nyert fogalmak, tulajdonságok a mérés eredményekéntelvileg megfelelői lesznek a statisztikai adatbázist alkotó változóknak, deez a megfelelés nem teljes. vannak olyan tulajdonságok, amelyeknél amegfeleltetett kérdésből nem egy, hanem több változó is készül, ponto-san azért, hogy a statisztikai feldolgozhatóság kedvéért egy cellában csakegyetlen adat szerepeljen.

adatbázist több programban is létre lehet hozni: excelben, dBase-ben, SpSS-ben stb. a továbbiakban csak a szociológusok által leggyak-rabban használt SpSS programcsomagra (ennek is a 9.0-ás verziójára)fogok kitérni. a példákban és illusztrációkban használt adatbázis amozaik 2001 – magyar fiatalok a kárpát-medencében című szociológiaikutatás székelyföldi adatbázisa.

211.4. adatBáziSok létreHozáSa, CímkézéS

Page 24: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

2. ábra. az adatbázis formája az SPSS-ben

1.4.1. adatbázis létrehozása SPSS-selindítsuk el az SpSS programot! válasszuk a type in Data opciót és

kattintsunk az ok gombra. Ha már fut a program, akkor a File főmenü-pontban a New pontban válasszuk a Data-t. miként a fenti ábrából iskitűnik, az SpSS táblázata hasonlít az excelére. Számozott sorok vannak,ahova az egyes esetek/megkérdezettek (cases) adatai fognak kerülni, azoszlopokban (variables) pedig a változók szerepelnek.

első lépésben el kell neveznünk (definiálnunk) az egyes változókatés azok tulajdonságait. ezt úgy kezdjük, hogy a Data főmenüpont DefineVariable menüpontjára megyünk, vagy duplán klikkelünk az első oszlopvar (az első változó) mezőjére (a 10.0-s vagy ennél későbbi SpSS-ek ekkorátváltanak a Variable View nézetre). itt a Variable Name pontnál nevetadunk a változónak (max. 8 karakter hosszúságú lehet, nem kezdődhetszámmal), amely meg fog jelenni az adatbázis fejlécében (érdemes olyannevet adni, amivel könnyen beazonosítható, hogy melyik kérdésről isvan szó). a type pontnál beállítjuk a változó formátumát. legtöbb eset-ben numerikus adataink vannak, mivel a kódokat (számokat) sokkalkönnyebb bevezetni, mint a szöveget, így az SpSS is alapértelmezésbennumerikus adatbevitelre van beállítva. Sokszor azonban előfordul, hogypl. egy nyílt kérdést nem sikerült kódolni és a szöveget szeretnénk beve-zetni – ilyenkor a Define Variable type-nél a „string” gombra kattintunk.a labels pontnál felcímkézzük a változónkat, vagyis a Variable label-nélmegadjuk az ismérvünk maximum 255 karakterből álló nevét, a Valuelabel-nél pedig megadjuk a változóhoz tartozó egyes attribútumokat(minden egyes bevezetett címke után „add”-et nyomunk): pl. Variable

1. BevezetéS a tárSadalomStatSztikáBa22

Page 25: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

label: a megkérdezett neme, Value: 1, Value lable: nő, majd add, Value:2, Value lable: férfi (a remove gombbal törölhetjük, a Change gombbalmódosíthatjuk a korábban beírtakat), majd add és Continue (3. ábra).

3. ábra. Címkézés az SPSS-ben

visszatérve a Define Variable almenübe, a missing Values pontnálmegadhatjuk, hogy milyen kóddal szereplő eseteket kezeljen az SpSShiányzó adatként: pl. ha a 0 azt jelentette, hogy valaki „nem tud vála-szolni” és nem szeretnénk a számításainkba bevonni ezt az értéket, aDefine missing Values-nál a 0-t beírjuk a Discrete missing values pontnál,majd Continue-t nyomunk. a Define Variable almenüben még beállítha-tó az oszlopszélesség (Column Format) és az ismérvünk mérési szintje(nominális, ordinális vagy skála, azaz mennyiségi).

amikor több változónk ugyanazokkal az attribútumokkal rendelke-zik (pl. megkérdeztük a háztartásban élő összes személy foglalkozását,vagy több olyan kérdésünk van, amelyekre igen/nem válaszokat lehetadni), a Data főmenüből a templates almenüt választjuk. ezen belül aDefine menü segítségével beállíthatjuk a változó típusát, felcímkézhet-jük, megadhatjuk a hiányzó adatok kezelésére vonatkozó utasításokat (azelőzőek szerint), majd a Name-re kattintva nevet adunk a változónak (pl.iGen/nem) és add-et klikkelünk (4. ábra).

231.4. adatBáziSok létreHozáSa, CímkézéS

Page 26: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

4. ábra. a template létrehozása

a következő ilyen típusú változónknál nincs más dolgunk, mint atemplates almenüből kiválasztani a megfelelő változót (pl. iGen/nem)az apply funkcióval bejelöljük, hogy milyen beállításokat szeretnénk azúj változónkra alkalmazni, majd ok-t klikkelünk (5. ábra).

5. ábra. a template alkalmazása

ilyen módon tudunk létrehozni változókat, el tudjuk őket nevezni.miután megvan a keretfájlunk, nem marad más dolgunk, mint bevezetniaz adatokat a kódutasítás (az Utilities főmenü File info pontja segítségé-vel könnyen elkészíthető) szerint. adatbázisunkat a többi Windows alattfutó programokhoz hasonlóan a File főmenü Save vagy Save as… menü-pontjai segítségével menthetjük meg.

1. BevezetéS a tárSadalomStatSztikáBa24

Page 27: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

1.5. az SPSS által kezelt adatállományok, adatbázisokösszekapcsolása, esetek leválogatása

1.5.1. az SPSS által kezelt adatállományok

az excel programmal szemben egy SpSS-sajátosság az, hogy egy-szerre csak egy adatbázist lehet megnyitni. ezért nagyon fontos arrafigyelni, hogy amikor több adatbázissal dolgozunk, mindig a megfelelőváltozatot mentsük el.

miként a többi ismert programban is, a megnyitás a File főmenüopen almenüjéből történik. az SpSS több más, nem SpSS (.sav) formá-tumú adatbázist is be tud olvasni. ez nyilvánvalóan akkor igen hasznos,amikor nem saját adatbázisból szeretnénk dolgozni, ismerjük az SpSSprogramcsomagot, viszont a feldolgozandó adatfájlunk nem SpSS-benkészült. a legvalószínűbb eset, amikor az adatokat egy excel file-ba vit-ték be. ebben az esetben úgy járunk el, hogy az excel fájlt 4.0-ás verzió-ba elmentjük (mivel a magasabb verziók egyszerre több füzetlapot is tar-talmazó adatbázist tudnak kezelni, az SpSS pedig csak egyet), bezárjuk,majd SpSS-ben az open menüpontból (a Files of type mezőnél az *.xlskiterjesztésű fájlokat jelöljük meg) megnyitjuk az excel állományt.amennyiben az excel fájlunk fejléccel rendelkezik, az opcióknál beállít-juk, hogy az SpSS adatbázisban is maradjon meg a fejléc (read VariableNames), majd elmentjük SpSS adatbázisként.

1.5.2. adatfájlok összekapcsolása az SPSS-ben

a program lehetőséget ad különböző SpSS adatbázisok összekapcso-lására. adatmátrixról lévén szó, két lehetőségünk van:

1. olyan adatbázisokat ragasztunk össze, amelyek ugyanazokat a vál-tozókat tartalmazzák, de más-más esetekre vonatkoznak (pl. egy kérdőí-ves felmérés kitöltött kérdőíveit több személy vezette be számítógépbeúgy, hogy X az a településen lekérdezetteket, y pedig a B településenlekérdezetteket);

2. olyan adatbázisokat ragasztunk össze, amelyeknél ugyanazok amegfigyelési egységek/esetek, de különböző változók szerepelnek (pl. egykérdőíves felmérés kitöltött kérdőíveit több személy vezette be számító-gépbe úgy, hogy X minden kérdőív első 20 kérdését, y pedig minden kér-dőív utolsó 10 kérdését).

251.5. az SpSS által kezelt adatállományok, adatBáziSok...

Page 28: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

az első esetben a data főmenü merge Files, add Cases menüpont-jával, a második esetben a merge Files, add Variables menüponttal dol-gozunk. mindkét esetben a megnyíló ablakban kiválasztjuk a megnyitottadatbázishoz kapcsolni kívánt fájlt, majd az open gombra kattintunk.mindkét esetben az SpSS lehetőséget ad arra, hogy ellenőrizzük az új,összeragasztott adatbázis változóit és módosítsunk rajta (a megnyitottadatbázisunk változóit (*)-al, az importált adatbázis változóit pedig (+)-al jelöli), ahogyan ezt a 6. ábra mutatja.

6. ábra. Változók ellenőrzése az adatbázisok összekapcsolásakor

összekapcsolhatjuk a két adatállományt vakon (azaz semmi össze-kötő kulcs nélkül, csupán a sorok sorrendjére bízva azokat), és összeköt-hetjük azonosító kulcs (egy vagy több változó) segítségével. ez utóbbiesetben a különböző soroknak különböző azonosító kulcsa kell legyen(pl. a kérdőívek sorszáma), ellenkező esetben véletlenszerű az összekap-csolás, és itt kötelezően a kulcsváltozó(k) szerinti sorrendbe kell rendez-nünk mindkét adatállományunkat (a Data, Sort Cases segítségével).

1.5.3. megfigyelések leválogatása az SPSS-ben

a megfigyelések/esetek szelektálása SpSS-sajátosság. miként a neveis jelzi, olyankor használjuk, amikor nem a teljes adatbázissal, hanemcsak annak egy részével kívánunk dolgozni.

a leválogatásra több lehetőségünk is van a data főmenü SelectCases almenüjében.

a Select Cases.../if condition is satisfied/if mezőnél egy vagy több vál-tozó értékei szerinti feltételes leválogatást hajthatunk végre numerikus és

1. BevezetéS a tárSadalomStatSztikáBa26

Page 29: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

logikai műveletek segítségével. mint a legtöbb SpSS főablakban, ebben is(bal oldalon) megtalálható az összes változó, amivel jelenleg dolgozunk.jobb oldalon helyezkednek el (egy számológépre emlékeztető rész for-májában) a különböző műveleti és numerikus gombok. az ismerősműveleti jeleken kívül (+,-, *, /) vannak olyanok is, amelyek az egyszerűszámológépeken nem találhatók meg. ilyen pl. az &, a ~ stb., ezek logi-kai műveletek elvégzését teszik lehetővé, amelyekről az 1. táblázat nyújtösszefoglalót.

1. táblázat. a különböző logikai műveletek jelentése

a numerikus gombok mellett található még egy ablak, a Functions,amely előre elkészített utasításokat, függvényeket tartalmaz, egyszerűb-beket és bonyolultabbakat is (7. ábra).

7. ábra. az esetek leválogatása

271.5. az SpSS által kezelt adatállományok, adatBáziSok...

Jel Jelentése< „kisebb, mint…”> „nagyobb, mint…”

<= „kisebb vagy egyenlő, mint…”>= „nagyobb vagy egyenlő, mint…”= „egyenlő”

~= „egyenlőtlenség”& „és”│ „vagy”~ „nem”

Page 30: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

3. példa. esetleválogatás az SPSS-ben munkaadatbázisunkban (adatbazisifjusSap.sav) 14–30 éves fiatalo-

kon felvett adatok szerepelnek. Feltételezzük, hogy a továbbiakban csaka 20 éves és ennél idősebb fiatalokról szeretnénk elemzést készíteni,ezért a 14–19 éves fiatalokat „kiszűrjük”. ekkor a következőképpenjárunk el: a Data főmenü Select Cases almenüjében a Select Cases.../ifcondition is satisfied/if mezőre kattintva átvisszük a k2.1 (születési év)változót, majd megadjuk a leválogatás feltételét, vagyis hogy a változóértékei legyenek kisebbek, mint 1982. aki 1982-ben született, az 2001végén, vagyis az adatfelvételkor 19. életévét már betöltötte (minket az őkadataik nem érdekelnek, hiszen csak a 20–30 évesekről szeretnénk vala-mit mondani, ezért a „kisebb, mint…”, nem pedig a „kisebb vagy egyen-lő, mint…” feltételt adjuk meg), aki ennél korábban született, az 20 évesés ennél idősebb. miután megadtuk a leválogatás feltételét, tehát k2.1 <1982, Continue-t klikkelünk, majd visszaérve a Select Cases almenübe azok gombra kattintunk (8. ábra).

8. ábra. a 20 évnél fiatalabbak leválogatása

az SpSS választási lehetőséget kínál, hogy miként kezelje a leválo-gatott eseteket (a példánkban a 14–19 éveseket). alapértelmezésben a„Filtered”, vagyis a (meg)szűrt eset szerepel, ami azt jelenti, hogy bár aszámításainkban nem jelennek meg, fizikailag továbbra is minden ada-tunk az adatbázisban van és bármikor újra aktiválhatjuk őket. a másodiklehetőség, hogy kitöröltetünk minden olyan esetet, amelyikkel nem dol-gozunk – ebben az esetben nagyon kell figyelni arra, hogy a teljes adat-

1. BevezetéS a tárSadalomStatSztikáBa28

Page 31: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

bázisunk még valahol meglegyen, mivel mint tudjuk, ennek létrehozásarendkívül időigényes munka.

miként már korábban említésre került, több változó szerint is lehetfeltételes leválogatási parancsot adni. Ha tovább szeretnénk szűkíteni akört, és pl. csak Hargita megyei 20–30 éves fiatalokat szeretnénk vizsgál-ni, akkor a következőképpen adjuk meg a parancsot: „k2.1 < 1982 &megye = 1”. a „megye” nem más, mint a megkérdezett lakóhelyénekmegyék szerinti besorolására vonatkozó változó, az 1-es kód pedigHargita megyét jelöli. a logikai feltételek közül az „és” logikai feltételtalkalmazzuk, mivel azt szeretnénk, hogy feltételeink közül mindkettőteljesüljön. természetesen ugyanazt a leválogatási feltételt többfélekép-pen meg lehet adni, pl. az előzővel azonos értelmű a „k2.1 < 1982 &(megye ~= 2 & megye ~= 3 )” stb.

minden esetleválogatáskor nagyon figyeljünk arra (erre az SpSS Dataeditor ablak jobb alsó sarkában levő Filter on jelzés is figyelmeztet), hogyamikor befejeztük a részsokaságunk elemzését és újra a teljes adatbázis-sal szeretnénk dolgozni, mindig vegyük vissza a leválogatási feltételein-ket (Data / Select Cases ... / all cases), ahogyan ezt a 9. ábra mutatja.

9. ábra. Visszaállítás a teljes adatbázisra

1.5.4. mintavétel az SPSS-ben

a mintavétel is tulajdonképpen esetleválogatást jelent, hiszen akkorhasználjuk, amikor nem a teljes adatainkból, hanem azoknak csak egyvéletlen halmazából kívánunk dolgozni (a mintavételről lásd bővebben a3. fejezetet). az SpSS-ben két lehetőségünk van a mintavételre: vagy arra

291.5. az SpSS által kezelt adatállományok, adatBáziSok...

Page 32: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

utasítjuk a programot, hogy az összesetek bizonyos százalékának megfe-lelően alkosson véletlen mintát, vagy megadjuk a kívánt mintánk pontosesetszámát. mindezt szintén a Data főmenü Select Cases almenüjében, arandom sample of cases segítségével lehet megvalósítani.

Ha például adatbázisunkból egy 400 fős véletlen mintát szeretnénkvenni, a Data főmenü Select Cases almenüjében a random sample ofcases Sample mezőjére kattintunk, és utasítjuk az SpSS-t, hogy pontosanegy 400 fős véletlen mintát válasszon az első 750 (az összes) eset közül,majd Continue-t és végül ok-t kattintunk (10. ábra).

10. ábra. mintavétel az SPSS-ben

ennek a műveletnek a példaadatbázisunkban nyilvánvalóan csakszemléltető szerepe van, hiszen az SpSS gyakorlatilag ugyanolyan gyor-san elemez 750 esetet, mint 400-at. erre az eljárásra olyan esetben vanszükség, amikor van egy adatállományunk egy intézményen belül a sze-mélyekről (például a Sapientia egyetem diákjainak azonosító adataiból,ami alatt név, kar, szak, évfolyam, csoport értendő) vagy egy nagyvárosháztartásairól (a villamosművek vezetősége a fogyasztókról óhajt véle-ménykutatást végezni/végeztetni), és szükségünk van egy egyszerű vélet-len mintára, mivel a teljes sokaság igen nagyszámú esetből áll. ilyenkora mintautasítás eredményét lapra rendezve kinyomtatjuk és a kérdező-biztosokhoz eljuttatjuk.

1. BevezetéS a tárSadalomStatSztikáBa30

Page 33: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

1.6. Változók átalakítása

1.6.1. adatok transzformációja vagy változók átalakítása SPSS-ben

ahhoz, hogy az adatbázisunkban szereplő változóinkkal dolgoznitudjunk, legtöbb esetben módosítanunk, alakítanunk kell rajtuk. elég, hacsak arra gondolunk, hogy minden elemzés előtt meg kell tisztítanunkadatainkat a nem releváns válaszoktól, össze kell vonnunk, csoportosíta-nunk kell adatainkat. az SpSS-ben minden, a meglévő adatsokaságunkváltoztatásához (transzformációjához), új változók létrehozásához szük-séges alkalmazás a transform főmenüben található. a transform-on belülmegjelenő menüsor elemei közül a leggyakrabban használt négyet,vagyis a különböző számítások, matematikai műveletek elvégzésérehasználatos Compute, az egyes változóértékek többszöri előfordulásaösszegzésére használatos Count, az átkódolásra használt recode, vala-mint a szöveges adataink kezelésére használható automatic recode alkal-mazásokat ismertetem.

1.6.1.1. a Compute menü

mint a legtöbb SpSS főablakban, ebben is (bal oldalon) megtalálhatóaz összes változó, amivel jelenleg dolgozunk. az adatok különféle transz-formációinál (pl. a recode…-ban) lehetőség van választani, hogy a vál-toztatásokat ugyanabba a változóba vagy egy új, általunk létrehozott vál-tozóba kérjük. jelen esetben azonban erre nincs lehetőség. a programalapértelmezettnek veszi, hogy a változón/változókon a különböző algeb-rai műveleteket úgy akarjuk végrehajtani, hogy az eredeti változó/válto-zók „sértetlenek” maradjanak, vagyis nevet kell adnunk az új változónak,mely a már transzformált adatokat fogja tartalmazni. ezt az új nevetadhatjuk meg a target Variable mezőben, közvetlenül a változók neveittartalmazó ablak fölött. a Numeric expression elnevezésű ablakban fog-nak megjelenni a kért változtatások algebrai alakjai, ahogyan ezt már azesetek leválogatásánál (Select Cases.../if...) megismertük. a műveletijelek alatt található egy if… feliratú gomb. amennyiben szűkíteni akar-juk a változtatni kívánt adatok körét, ezt az if… -re kattintva megjelenőablak segítségével megtehetjük (ahogyan a Select Casese-nél).

311.6. változók átalakítáSa

Page 34: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

4. példa. az életkor kiszámításaadatbázisunkban szerepel a megkérdezettek születési éve, de mivel

ez intervallum mérési szintű változó, nagyon könnyen arányskálává tud-juk változtatni olyan módon, hogy életkorrá alakítjuk. mivel adataink2001-ből származnak, minket az érdekel, hogy a kérdezés időpontjában amegkérdezettek hány évesek voltak, így 2001-ből kivonjuk minden egyesmegkérdezettünk (esetünk) születési évét. ekkor a transform főmenüCompute almenüjében nevet adunk a létrehozni kívánt új változónknak(eletkor), a Numeric expression mezőbe beírjuk az algebrai műveletet:2001, majd átvisszük a születési év (k2.1) változót és az ok-ra kattintunk.ekkor adatbázisunk végén meg fog jelenni az új „eletkor” nevű változónk,amelynek a korább elmondottak szerint megadjuk a paramétereit. az újváltozónkban olyan értékek fognak szerepelni, mint 14, 15,…30, tehát amegkérdezettek életkora a kérdezés időpontjában (11. ábra).

11. ábra. a Compute almenü használata

1.6.1.2. a Count menü

a Count menüt akkor használjuk, amikor olyan új változót kívánunklétrehozni, amelyben a kijelölt változók együttes előfordulásait szeret-nénk regisztrálni. itt is a target Variable mezőnél nevet adunk az új vál-tozónknak, a target label mezőnél az új értékünk nevét adjuk meg, aVariables mezőbe átvisszük azokat a változókat, amelyeknek az együtteselőfordulásait vizsgáljuk, majd a Define Values-nál megadjuk a vizsgáltértéket/értékeket, amelyek érdekelnek. az if... segítségével itt is szűkít-hető a vizsgált esetek köre.

1. BevezetéS a tárSadalomStatSztikáBa32

Page 35: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

5. példa. az azonos válaszlehetőségek együttes előfordulásaadatbázisunkban a k58.1-k58.7 változók a háztartások infrastruktu-

rális felszereltségére vonatkoznak, a 2. táblázat szerint.

2. táblázat. Van-e ebben a lakásban….. (kérdőívrészlet, k58)

az ebben a formában szereplő adatok esetében egy egyszerű gyako-riság segítségével rögtön megtudhatjuk, hogy a háztartások hány száza-léka rendelkezik állandó melegvízellátással stb., viszont a különbözőszolgáltatások együttes előfordulásáról nincs információnk. amennyibenpl. azt szeretnénk megtudni, hogy az adatbázisunkban szereplő háztartá-soknak hány százaléka rendelkezik a felsorolt infrastrukturális szolgálta-tások közül legtöbb 3-mal, a Count menühöz folyamodunk. a targetVariable mezőnél az „infrastr” (max. 8 karakter) nevet adjuk az új válto-zónak, a target label mezőnél „a háztartások infrastrukturális ellátottsá-ga” nevet adjuk, a Variables mezőbe átvisszük a k58.1, k58.2, k58.3,…k58.7 változókat, majd a Define Values-nál megadjuk az 1 (a „van”kódja) értéket, mivel az érdekel, hogy az egyes háztartások a maximális 7szolgáltatásból hánnyal rendelkeznek. ezt követően add-et és Continue-t, majd visszatérve a főablakba ok-t klikkelünk (12. ábra).

ilyen módon tehát létrehoztuk az „infrastr” nevű változónkat, amely-ben 0 és 7 érték közötti számok szerepelnek. a 0 azt jelenti, hogy a 7 szol-gáltatás közül eggyel sem rendelkezik a háztartás, az 1, hogy a 7 közüleggyel, a 2, hogy a hét közül kettővel stb. tehát most már egy kumulált gya-korisággal (lásd 2. fejezet) meg tudjuk mondani, hogy pontosan 323 háztar-tás (a háztartások 43%-a) legtöbb három infrastrukturális szolgáltatássalrendelkezik a hét közül. ez nyilvánvalóan sokkal pontosabb képet mutat aháztartások infrastrukturális felszereltségéről, mint ha azt mondjuk, hogy amegkérdezettek közül összesen 5 személy lakásában nincs villany.

331.6. változók átalakítáSa

VaN NINCS1. vezetékes víz? 1 22. vízöblítéses WC? 1 23. vezetékes gáz? 1 24. villany? 1 25. szennyvízelvezető csatorna? 1 26. központi fűtés? 1 27. állandó melegvízellátás? 1 2

Page 36: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

12. ábra. a Count almenü használata

1.6.1.3. a recode menü

a recode menü a változók legegyszerűbb átkódolására használatosmenüpont. két lehetőségünk van erre: az into Same Variables…-el a kértváltoztatásokat új változó képzése nélkül hajthatjuk végre (pl. adattisztí-tásnál), az into Different Variables… -el értelemszerűen a kért változáso-kat egy új változó létrehozásával végezzük el (pl. csoportosítások esetén).mindkét esetben, ahogyan ezt már korábban is láttuk, bal oldalon leszfelsorolva az összes használt változó. a jobb oldali kis ablakba (Variables,illetve input Variable) kell áttenni azt a változót/változókat, amelyiken azátkódolást végre akarjuk hajtani. egyszerre egy vagy több változót egyen-ként vagy egyszerre is át lehet tenni a jobb oldali kis ablakba úgy, hogyduplán kattintunk a változóra, vagy kijelöljük és a középen találhatónyílra kattintunk. amikor új változóba kódolunk, az output Variable-benel kell nevezni az új változót, ahol már a képzett csoportok fognak szere-pelni. a Name mezőben kell megadni az új változó nevét, majd a Changegombra klikkelve aktiváljuk az új változó nevét. ahogy ez megvan, azablak legalján található old and New Values mezőben az old Value alatttalálható Value mezőbe kell beírni, hogy mi a kiválasztott változó(k) ere-deti értéke. jobb oldalon van a New Value alatt a másik Value mező, idekell beírni, hogy az eredeti értékből mi legyen. ezután az add gombra

1. BevezetéS a tárSadalomStatSztikáBa34

Page 37: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

kattintunk, és az old → New ablakban megjelenik a kért műveleti utasí-tás. ugyanígy kell eljárni a tétel összes értékével. Fontos, hogy mindenváltoztatás, amit végre szeretnénk hajtani, az old → New ablakban sze-repeljen. miután végeztünk, itt ellenőrizzük az utasításokat, mielőtt méga Continue-ra kattintanánk, majd a másik ablakban az ok-ra klikkelünk.

6. példa. Változók átkódolásanézzük az alábbi esetet. Szintén a már említett születési évet jelölő

k2.1-es változóval dolgozunk. azt szeretnénk, hogy a továbbiakban kétéletkorcsoportunk legyen, a 14–19 évesek és a 20–30 évesek csoportja.mivel semmiképpen nem szeretnénk elveszíteni az eredeti intervallummérési szintű változónkat, új változóba kódolunk. legegyszerűbben úgyjárunk el, hogy a Compute segítségével még egyszer létrehozzuk az élet-kor változót (2001-k2.1), majd a transform, recode into DifferentVariables-szel átkódoljuk. tehát átvisszük az „eletkor” változót, jobboldalon a Name mezőbe adunk egy új nevet (korcsop), majd Change, azold and New Values mezőnél pedig a 14–19 értékekből (old Values) 1-eskódszámút (jelölje ez a 14–19 éveseket) és add, a 20–30 értékekből pedig2-es kódszámú (jelölje a 2-es a 20–30 éveseket) értékeket gyártunk ésadd-et kattintunk. az egyes értékek egyenkénti bevitele helyett tanácsosa range (terjedelem) gombot használni ott, ahol több egymást követőértéknek azonos új kódja lesz. miután megnéztük, hogy így akartuk-ekódolni, Continue-t kattintunk, visszatérve az előző ablakba pedig ok-tklikkelünk (13. ábra).

13. ábra. Új változóba való átkódolás

351.6. változók átalakítáSa

Page 38: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

az új, átkódolt változónkat egy gyakorisággal vagy a Crosstabs utasí-tással leellenőrizzük, majd felcímkézzük és megadjuk a beállításait.

1.6.1.4. az automatic recode menü

ez a menüpont a szöveges (stringes) változók könnyed kezelésébennyújt segítséget. tulajdonképpen az történik, hogy az SpSS a változó szö-veges értékeit azok rangszámaival cseréli fel, tehát minden egymástólkülönböző jelölés (szó, kifejezés, mondat) mellé egy (rang)számot rendel.az automatikusan létrehozott új változó már nem a begépelt szövegeket,hanem az ezekhez tartozó kódszámokat tartalmazza, így lényegesen meg-könnyítve a csoportosítást és további elemzést. akár a többi alkalmazás-nál, itt is ki kell választani az adatbázisban szereplő változók közül azt,amelyiket át szeretnénk kódoltatni, majd a Variable → New Name mező-nél új nevet adunk a változónak és ok-t klikkelünk.

7. példa. Nyílt kérdésekre adott válaszok kezeléseadatbázisunkban a k53a változó alatt a külföldi munkavállalás hely-

színére (országnév) vonatkozó, nyílt kérdésre adott válaszok találhatóak.mivel meg szeretnénk mondani, hogy a megkérdezettek hány százalékaszeretne a különböző nagyobb földrajzi térségekben munkát vállalni,össze kell vonnunk adatainkat. ezt megoldhatnánk az egyszerű recodemenüvel is, viszont el szeretnénk kerülni az összes válaszlehetőség (pl.aea, amerika, amerikaieg, amerika stb.) begépelését, ezért az automaticrecode menüt választjuk. ebben a menüben átvisszük a k53a változót, aNew Name-nél „orszaguj” nevet adunk neki, majd ismét a New Name-reklikkelünk, végül ok-t kattintunk (14. ábra).

14. ábra. az automatic recode használata

1. BevezetéS a tárSadalomStatSztikáBa36

Page 39: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a létrehozott új változó értékeiről az output ablakban megjelenő táb-lázatból (15. ábra), vagy az átvitt értékcímkékből (dupla klikk az„orszaguj” változóra, majd a labels…-nél megnézzük a címkéket)kapunk információt.

15. ábra. az SPSS által generált kódszámok

tehát az „orszaguj” változónkban az 1-es érték azt jelenti, hogy adat-hiányunk van, a 2-es, hogy a megkérdezett nem tudta, hogy hol szeretnedolgozni, a 3–6 értékek, hogy amerikában szeretne dolgozni a megkér-dezett stb. ezek után már lényegesen egyszerűbb dolgunk van az átkó-dolással, hiszen a recode menüvel könnyen megoldhatjuk: transform,recode into DifferentVariables, output Variable Name „orszagCs”, oldand New Values, range: 1–2 → System missing, add, 3–6 →1 (amerika),add, 7–10 és 15–20 → 2 (nyugat-európai országok), add, 11–12 → 3 (másországok), add, majd Continue és ok (16. ábra). végül az „orszagCs” vál-tozót felcímkézzük, és a továbbiakban ezzel dolgozunk.

371.6. változók átalakítáSa

Page 40: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

16. ábra. Újrakódolás

1. BevezetéS a tárSadalomStatSztikáBa38

Page 41: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

2. Fejezet

EGYVÁLTozóS ELEmzÉSEK

2.1. Statisztikai alapműveletek, egyszerű elemzések

2.1.1. Statisztikai alapműveletek

a statisztikai alapműveletek – mint az összehasonlítás, csoportosítás– szinte minden statisztikai elemzés részét vagy kiindulópontját képezik.ezek közül egyik legfontosabb alapművelet a sokaság nagyságának meg-határozása. legfőbb előnye, hogy a valóságról nyújt igen tömör és lénye-ges számszerű információt (pl. népesség nagysága). egy megfelelően meg-határozott sokaság nagysága mindig valamilyen jelenségnek a valóságbanvaló elterjedtségét, egyfajta fontosságát jellemzi (pl. öngyilkosok száma).

diszkrét és véges sokaságok esetében ez a művelet egy egyszerű meg-számlálást igényel, folytonos és véges sokaságok esetében a sokaság meg-határozása valamilyen mérést igényel (pl. havi húsfogyasztás).nyilvánvaló, hogy a végtelen sokaságok nagysága nem adható meg szám-szerűen.

amikor két vagy több, azonos fajta egységekből álló sokaság nagysá-gát összeadjuk, általában egy nagyobb sokaság egységeihez jutunk (pl.különböző települések lakosságának összeadásával megkapjuk egynagyobb térség lakosságát). azt, hogy mit tekintünk tartalmilag homo-génnek, összeadhatónak, nem csak a vizsgált dolog vagy jelenség, hanemaz értékelési szempont is befolyásolja. amennyiben pl. vidéki gazdákmezőgazdasági tevékenységét vizsgáljuk, nem adjuk közvetlenül össze amegtermelt burgonya, répa stb. termékmennyiségeket, de a mezőgazda-sági kistermelés nagysága szempontjából ezek értéke a mérvadó, és ekkormár összeadhatjuk.

több sokaság nagyságát vagy más adatát nem csak összeadhatjuk,hanem egymással összehasonlíthatjuk, így szintén a sokaság egészét jel-lemző számszerű információt nyerünk. az összehasonlítás vagy az adottjelenség időbeli alakulásáról, vagy területileg eltérő megnyilvánulásairól,vagy pedig egymáshoz valamilyen módon kapcsolódó jelenségek viszo-nyáról ad tömör, számszerű információt.

Page 42: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

az összehasonlítás többféle lehet: egyszerű felsorolás (idősor vagyterületi sor, pl. a népesség száma két különböző évben vagy országban),különbség vagy hányados (viszonyszám) képzése.

Szemben az összeadással, ami kommutatív (a+B = B+a), a kivonásnem az (a–B B–a), és az sem igaz, hogy ahol a kivonásnak van értel-me, ott az összeadásnak is van. Ha például egy ország lakosságábólkivonjuk a városlakók számát, megkapjuk a vidéken élők számát, viszontha összeadjuk a teljes népességet a városon élők számával, az eredmény-nek sok értelme nincs.

különbséget csak akkor számíthatunk, ha az adatok mértékegységeazonos, viszont két adat hányadosa akkor is meghatározható, ha a kétadat mértékegysége eltérő. ilyen módon az osztás vagy hányados képzé-se az új adatok előállításának egyik legtermékenyebb módja (elég, hacsak a különböző relatív adatokra gondolunk). az összehasonlítóviszonyszámok és az indexszámok mértékegység nélküli, „tiszta” szá-mok. a 3. táblázat több sokaság nagyság- vagy más adatainak összeha-sonlítását szemlélteti.

3. táblázat. a sokaságok adatainak összehasonlítása

Forrás: Hunyadi–mundruczó–vita 2000. 39.

az intenzitási viszonyszámok mértékegysége mindig a megfelelő törtmértékegységeinek hányadosa, az összehasonlító viszonyszámokat ésindexszámokat leggyakrabban százalékként vagy ezrelékként adják meg.

2. eGyváltozóS elemzéSek40

a sokaságok jellege

a sokaságok nagyság- vagy más adatainak

a hányadosmértékegysége

felsorolására hányadosárahasznált elnevezés

időben és/vagytérben különböző

sokaságok

összehasonlítósor (idősor, terü-

leti sor)

Összehasonlítóviszonyszám,

index (dinamikusviszonyszám/terü-leti összehasonlító

viszonyszám)

–, illetve %,ezrelék

időben és/vagytérben azonos, dekülönböző fajtaegységekből álló

sokaságok

– Intenzitásiviszonyszám

a két adat mér-tékegységének a

hányadosa

Page 43: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

8. példa. Dinamikus viszonyszámok számításanézzük, hogy az alábbi fiktív adatok (amely egy iskola két tanévre

vonatkozó különböző adatait tartalmazza) alapján hogyan lehet dinami-kus viszonyszámokat számolni (4. táblázat).

4. táblázat. egy iskola két tanévre vonatkozó fiktív adatai

Ha intenzitási viszonyszámokat számolunk, megkaphatjuk pl. az1991-1992-es tanévre az egy tanárra jutó megtartott órák számát: 92 000/107=860 óra/tanár. Ha ezt az adatot összevetjük az 1997-1998-astanév adatával (71 000/100=710 óra/tanár), kiderül, hogy 6 év alatt17,4%-kal (710·100/860=82,6%) csökkent az egy tanárra jutó megtartottórák száma.

egy további gyakran használt alapművelet a valamely adott sokaságegy vagy több ismérv szerinti tagolása, osztályozása. az osztályozástgyakran csoportosításnak is szokás nevezni. az osztályozás során egy

412.1. StatiSztikai alapműveletek, eGySzerű elemzéSek

Ssz. megnevezés mérték-egység

1991-1992

1997-1998

Dinamikus viszonyszám,index (1991=100)

1 diákok átlagosévi száma

Fő 1000 750 750∙100/1000=75% ért.: az 1991-es évhez képesta diákok átlagos évi száma1997-re 25%-kal (100–75)csökkent

2 ebből i–viii.osztályos

Fő 800 600 600∙100/800=75% ért.: az i–viii. osztályosokszáma is 25%-kal csökkent

3 megírt dolgo-zatok száma

db(1000)

56 40 40∙100/56=71,4% ért.: a megírt dolgozatokszáma 28,6%-kal csökkent

4 10-es feleletekszáma

db(1000)

47 35 35∙100/47=74,5% ért.: a 10-es feleletek arányaközel 25%-kal csökkent

5 megtartottórák száma

db(1000)

92 71 71∙100/92=77,2% ért.: a megtartott órák száma22,8%-kal csökkent

6 alkalmazotttanárok száma

Fő 107 100 100∙100/107=93,5% ért.: a tanárok aránya csak6,5%-kal csökkent

Page 44: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

sokaság különböző ismérv(ek) szerinti szerkezetét lehet megismerni, ésleggyakoribb célja, hogy a sokaságot valamilyen szempontból homogé-nebb csoportokra bontsuk. az osztályok számát nem célszerű túl nagyraválasztani, mivel további kezelésük nehézkessé válik.

az osztályozás eredményeként kapott sokaság-részeket osztályoknak,az osztályok egymástól való elhatárolására használt ismérveket csoport-képző ismérveknek nevezzük. az osztályozás követelményei:

1. teljesség,2. átfedésmentesség,3. az eredmény homogén osztályok kialakítása legyen.

2.2. Gyakorisági eloszlások

az egy ismérv szerinti osztályozás eredménye csoportosító (gyakori-sági) sor formájában adható meg. a csoportosító sor általános formáját az5. táblázat szemlélteti.

5. táblázat. a gyakorisági sor általános formája

ahol: Ci – a csoportképző ismérv alapján képzett i-edik osztály azonosítója,fi – a sokaság Ci osztályába sorolt egységeinek száma, gyakorisága,k – a kialakított osztályok száma,n – a sokaság egységeinek a száma, a sokaság nagysága.

nyilvánvaló, hogy:

2. eGyváltozóS elemzéSek42

osztály Egységek számaC1 f1C2 f2. .. .

Ci fi. .. .

Ck fkösszesen n

,

Page 45: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

vagyis a sokaság nagysága egyenlő a sokaság különböző osztályaibasorolt egységei számának summájával (összegével). az fi gyakoriságokhelyett/mellett viszonyszámokat (relatív gyakoriságokat) is használha-tunk, például ha az előbbieket elosztjuk a sokaság egységeinek számával,arányszámokat kapunk, és ha ezeket 100-zal szorozzuk, százalékoseloszlásokat, 1000-rel szorozva ezrelékes eloszlásokat kapunk.

az osztályokat definiáló jelölést (pl. C1) osztályköznek nevezzük.amennyiben az osztályköz egy intervallum (pl. 15–19 évesek), a vég-pontokat osztályközhatároknak (15 és 19 év), a köztük lévő távolságotpedig osztályközhosszúságnak (5 év) nevezzük. amikor az osztályközneknincs alsó vagy felső határa, nyitott osztályközről beszélünk.

a sokaság osztályozással kialakított részeit külön-külön is továbblehet vizsgálni, ilyenkor az osztályokat részsokaságoknak nevezzük (pl.n1-el jelöljük), az egész sokaságot pedig fősokaságnak (n).

a sokaság több ismérv szerinti kombinatív osztályozása révén kom-binációs, kontingencia- vagy kereszttábla elnevezést viselő csoportosítástnyerünk. a kereszttábla belső rovatait celláknak (rovatoknak), az osztá-lyozási ismérvek számát pedig dimenziószámnak nevezzük. a kontin-genciatábla általános sémáját a 6. táblázat mutatja.

6. táblázat. a kereszttábla általános formája

Ci – az X ismérv szerint képzett i-edik osztály azonosítója (i = 1, 2, ..., r),rj – az y ismérv szerint képzett j-edik osztály azonosítója (j = 1, 2, ..., c),fij – az a gyakoriság, amelynek egyedei X szerint az i-edik, y szerint a j-

edik osztályba tartoznak,r – az X szerint képzett osztályok száma,c – az y szerint képzett osztályok száma,fi . , f . j – peremgyakoriságok.

432.2. GyakoriSáGi eloSzláSok

X ismérv szerin-ti osztályok

Y ismérv szerinti osztályokR1 R2 ... Rj ... Rc j

C1 f11 f12 ... f1j ... f1c f1 .C2 f21 f22 ... f2j ... f2c f2 .... ... ... ... ... ... ... ...Ci fi1 fi2 ... fij ... fic fi .... ... ... ... ... ... ... ...Cr fr1 fr2 ... frj ... frc fr .i f. 1 f. 2 ... f. j ... f. c n

Page 46: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

nyilvánvaló, hogy:

9. példa. a kereszttáblák értelmezésenézzük az alábbi kereszttáblát, amely egy új törvény bevezetésével kap-

csolatos véleményeket tartalmaz, nemek szerinti bontásban (7. táblázat).

7. táblázat. a vélemények nemek szerinti bontásban, abszolút gyakoriságok (fiktív adatok)

a relatív gyakoriságokat úgy számoljuk ki, hogy a nők esetében a 30egyetértő nőt viszonyítjuk az összes nő számához (30.100/100), a 70 nemegyetértő nő számát pedig szintén az összes nő számához (70.100/100).a férfiak esetében a 80 egyetértő férfit a 130 fő összes férfihez(80.100/130), az 50 nem egyetértő férfit pedig szintén a 130 fő összes férfiszámához arányítjuk (50.100/130). tehát kiszámolva a relatív gyakorisá-gokat a Nem változó szerint, a 8. táblázat adatait kapjuk.

8. táblázat. a vélemények nemek szerinti bontásban (relatív gyakoriságok)

a 8. számú kontingenciatábla alapján kijelenthetjük, hogy a 230 vála-szoló személy körében a nők 30%-a egyetért, 70%-a nem ért egyet, a férfiak61,5%-a egyetért, 38,5%-a pedig nem ért egyet az új törvény bevezetésével.

2. eGyváltozóS elemzéSek44

és

Nő Férfi ÖsszesenEgyetért 30 80 110Nem ért egyet 70 50 120Összesen 100 130 230

Nő FérfiEgyetért 30,0 61,5Nem ért egyet 70,0 38,5Összesen 100% 100%

Page 47: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

többet mondunk el akkor, ha így fogalmazunk: míg a törvény bevezetésévela férfiak jóval több mint fele (61,5%) egyetért, addig a nőknek csak 30%-a.

miként a fenti példában is, leggyakrabban a független változó szerint(a Nem változó szerint, mivel ez befolyásolhatja a kérdéssel való egye-tértést és nem fordítva) százalékolunk. Bár a fenti példánkban következ-tetésünk nyilvánvalónak tűnik az abszolút gyakoriságok alapján is,figyeljünk arra, hogy mindig relatív gyakoriságok alapján olvassuk akereszttáblákat (egyáltalán nem mindegy, hogy jelen esetben hány férfiés hány nő törvény bevezetésével való egyetértését ismerjük).

2.2.1. a gyakorisági eloszlások kiszámítása az SPSS segítségével

az elemezni kívánt változó eloszlásának, gyakorisági sorának megte-kintése minden elemzés első lépését képezi. kattintsunk az analyzefőmenü Descriptive Statistics almenüje Frequencies parancsára. ebben amenüben általános információlekérdező parancsok találhatóak, amelyeksegítségével a változók legfontosabb tulajdonságait (elemszám, terjede-lem, középértékek stb.) tudjuk megtekinteni. a megnyíló ablakban, baloldalon, minden változó szerepel, amelyek közül kiválaszthatjukazt/azokat, amelyekre gyakoriságot akarunk kérni. a változó kiválasztásaután egyszerűen ok-t klikkelünk, és az output ablakban máris megjele-nik a kért gyakorisági tábla.

10. példa. gyakoriságok lekérése az SPSS-benadatbázisunkban a k3.1-es változó a megkérdezettek nemét jelöli.

erre kérünk a fentiek szerint egy gyakorisági táblát (17. ábra).

17. ábra. a Frequencies menü

452.2. GyakoriSáGi eloSzláSok

Page 48: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a kért gyakoriságok a 18. ábrán szemléltetett formában jelennekmeg. az első táblázat azt mutatja, hogy a változóban hány érvényes adat(valid) és hány hiányzó adat (missing) szerepel. a tényleges gyakorisá-gok a második táblázatban vannak feltüntetve.

18. ábra. gyakorisági tábla az SPSS-ben

a gyakorisági tábla első oszlopában (18. ábra, második táblázat) aváltozó értékei jelennek meg, vagyis a „férfi” és „nő” (változónkat márkorábban felcímkéztük), a második oszlop az egyes változóértékek abszo-lút gyakoriságait mutatja (Frequency), a harmadik oszlopban a relatívgyakoriságok olvashatók (percent), a negyedik oszlopban az érvényesrelatív gyakoriságok (valid percent), az utolsó oszlopban pedig a kumu-lált százalékos gyakoriságok találhatóak (Cumulative percent). az érvé-nyes relatív gyakoriság nem más, mint az egyes értékek előfordulásainakaz érvényes adatokhoz való viszonyítása (amikor érvénytelen adataink isvannak, ezek nem kerülnek be az érvényes százalékok és a kumulált gya-koriságok számításába). a kumulált gyakoriság nem más, mint a valódirelatív gyakoriságok osztályonkénti összeadása.

értelmezvén a gyakorisági sorunkat elmondhatjuk, hogy egyetlenhiányzó adatunk sincs, a 750 megkérdezett 49,7%-a (373 fő) férfi, 50,3%-a (377 fő) nő.

az SpSS-ben lehetőségünk van a gyakorisági sorunk grafikus megje-lenítésére is. ez szintén az analyze főmenü Descriptive Statistics/Frequencies... menüben oldható meg, az ablak alján, középen találhatóChart menü segítségével. itt beállítható a kért diagram típusa (oszlop, kör

2. eGyváltozóS elemzéSek46

Page 49: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

vagy hisztogram), valamint megadható, hogy az adatok abszolút vagyszázalékos formában jelenjenek meg (gyakoribb a százalékos formábanvaló ábrázolás). mennyiségi változók esetében tanácsos hisztogramot,kategoriális változók esetében pedig kör- vagy oszlopdiagramot kérni.

19. ábra. a gyakorisági sor grafikus megjelenítése

a vizsgált változónk esetében kördiagramot kértünk (19. ábra). azábrára kétszer kattintva eljutunk a Chart editor ablakba, ahol kedvünkre„szépítgethetjük” diagramunkat, míg pl. a 20. ábrához hasonló formárahozzuk.

20. ábra. Nemek szerinti megoszlás (százalékban)

itt szükséges ugyanakkor megjegyezni, hogy a tanulmányokat szintekizárólag Word-ben írjuk, és az SpSS-ből átmásolt grafikonok a Word-ben csak igen kis mértékben engednek meg módosításokat. ezért ajánla-tos a grafikonokat nem SpSS-ben, hanem pl. eXCel-ben készíteni.

472.2. GyakoriSáGi eloSzláSok

Page 50: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

2.2.2. Kereszttábla készítése az SPSS-sel

akárcsak a gyakorisági táblákat, kontingenciatáblákat is az analyzefőmenü Descriptive Statistics almenüjében, viszont a Crosstabs... menü-pontnál készíthetünk. a bal oldalon szereplő változók közül kiválasztjukazt a kettőt (többet is lehet, de minél több dimenziós a kereszttáblánk,annál kevésbé áttekinthető), amelyikre kereszttáblát kérünk, majd a Cellsgombnál beállítjuk, hogy sorra vagy oszlopra százalékoljon a program ésContinue-t kattintunk. visszatérve a főablakba, a változók alatt, bal olda-lon beklikkelhetjük, hogy ábrázolja is adatainkat (Display Clustered BarCharts), majd ok-t kattintunk.

11. példa. kereszttábla készítése az SPSS-benkészítsünk egy kereszttáblát az adatbázisunkban szereplő Nem és

település típusok változók között, a fentiek szerint (21. ábra).

21. ábra. a Crosstabs menü

az SpSS által generált kereszttáblánkat a 22. ábra mutatja.a kereszttábla adatai (22. ábra) alapján elmondhatjuk, hogy a férfiak

39,4%-a városon, 33,2%-a községközpontban, 27,3%-a pedig falun él. anők 39,8%-a városon, 33,2%-a községközpontban és 27,1%-a falun él. amegkérdezett férfiak és nők hasonló arányban laknak városon, község-központban és falun is.

2. eGyváltozóS elemzéSek48

Page 51: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

22. ábra. a megkérdezettek nem és településtípus szerinti bontásban

Grafikus formában a 23. ábra szerint néznek ki az adataink.

23. ábra. a megkérdezettek nem és településtípus szerinti bontásban

2.2.3. Rangsorok

az ismérvértékek számszerű jellegében rejlő egyik legkézenfekvőbblehetőség a sokaság egységeinek sorbarendezése a változó nagysága sze-rint. ez akkor is igaz, ha a változó ordinális mérési szintű.

a változó értékeinek nagysága szerint növekvő vagy csökkenő sorbarendezhetjük a sokaságot, és ennek eredményét rangsornak nevezzük.általában monoton nemcsökkenő módon szokás rangsorolni.

492.2. GyakoriSáGi eloSzláSok

Page 52: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

míg a sokaságnak egy diszkrét ismérv azonos értékeivel bíró egysé-gei gyakorlatilag egyformák az adott ismérv szempontjából (ezért tetsző-leges sorrendbe állíthatóak), addig egy folytonos vagy folytonoskéntkezelt diszkrét ismérv azonos értékeivel jellemzett egységek nem feltét-lenül egyformák (csak kényszerűségből, a mérés adott pontossága miattállíthatóak egymás között tetszés szerinti sorrendbe). Ha példáulrománia megyéinek lakosságszámát vizsgáljuk és adatainkat ezer főbenadjuk meg (pl. 329,34), akkor egy elvileg diszkrét változót (amelynekértékei pozitív egész számok: 329 344) folytonosként kezelünk, hiszen aközölt formában a lakosok száma csak bizonyos pontosságra kerekítveadható meg. ebben az esetben csak kényszerűségből rangsorolhatjukadatainkat, hiszen nem tudhatjuk, hogy két 329,34 ezer fős lakosú megyeközül melyik a népesebb.

a rangsor igen gyakran kizárólag azon célból készül, hogy megköny-nyítse az osztályozást. Főként mennyiségi mérési szintű változók eseténhasználjuk.

2.3. a centrális tendenciák mutatói: átlag, medián,módusz

a középértékek vagy helyzet-mutatók olyan mutatószámok, amelyeka sokaság egészét vagy a vizsgált gyakorisági eloszlás helyzetét egyetlenszámértékkel jellemzik, így a sokaságok tulajdonságait a legtömörebb for-mában fejezik ki.

a középértékek legfőbb előnyei:– közepes helyzetűek (a minimum és maximum értékek között

helyezkednek el),– tipikusak (viszonylag szűk környezetében az összes ismérvérték-

nek nagy hányada található),– egyértelműen meghatározhatóak,– könnyen értelmezhetőek,– közérthetőek.a középértékeket két nagy csoportba szokás sorolni: vannak számí-

tott középértékek (különböző átlagok) és helyzeti középértékek (medián ésmódusz).

az átlagok matematikai számítások eredményei, az ismérvértékekkelmatematikai, számszerű összefüggésben állnak, és értéküket nem befo-

2. eGyváltozóS elemzéSek50

Page 53: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

lyásolja az észlelési adatok sorrendje. a számított középértékek: számta-ni átlag (egyszerű, súlyozott), harmonikus átlag (egyszerű és súlyozott),mértani átlag, négyzetes átlag.

a helyzeti középértékek az értékek nagysága szerint rendezett sta-tisztikai sorban, általában matematikai számítás nélkül jelölhetőek ki, ésaz ismérvértékek közötti elhelyezkedésüknél fogva jellemzik a sokaságot.a helyzeti középértékek: medián, módusz.

2.3.1. a számtani átlag

az egyszerű számtani átlag (röviden: átlag) az észlelési adatok (Xi)összegének és az átlagolandó adatok előfordulási számának hányadosa(n), képlete:

tehát egy mennyiségi változó átlaga a felvett összes érvényes értékszámtani középarányosa. az átlagot csupán mennyiségi változókra szá-mítjuk ki (az SpSS program bármilyen numerikus típusnak definiált vál-tozó esetén kiszámítja az átlagértéket, még akkor is, ha annak semmiértelme, pl. a Nem változóra is).

az átlag legfontosabb tulajdonságai

minden ismérvértéket a számtani átlaggal helyettesítve a sor összegeváltozatlan marad, vagyis megegyezik az eredeti sor összegével. Ha min-den ismérvértéket a számtani átlaggal helyettesítünk, akkor az is követ-kezik, hogy a helyettesítéssel elkövetett előjeles hibák pontosan kiegyen-lítik egymást:

az ismérvértékek számtani átlaggal való helyettesítése minimálissáteszi a helyettesítéssel elkövetett hibák négyzetösszegét:

512.3. a CentráliS tendenCiák mutatói: átlaG, medián, móduSz

.

.

.

Page 54: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

az átlag egyik legfontosabb sajátossága, hogy eltünteti az észlelt ada-tok értéknagyságbeli különbségét, viszont egyetlen értéknagyság változá-sa megváltoztatja az átlag értékét (függ minden egyes értéktől).

12. példa. az egyszerű számtani átlag kiszámításanézzük a következő szemléltető példát átlagszámításra. adott az

alábbi, monoton nem csökkenő módon rendezett értéksorunk: 0; 0; 0,5; 0,6; 0,8; 1; 1; 1; 3; 5; 10.a számtani átlagot a következőképpen számoljuk ki:

2.3.2. Súlyozott átlag

a számtani átlagot nagyon gyakran nem az egyenként ismert alap-adatokból számítjuk ki, hanem egy gyakorisági sor adataiból. ekkorsúlyozott számtani átlagról beszélünk.

a súlyozott átlagot úgy számoljuk ki, hogy az X ismérv szerint kép-zett Ci osztályok gyakoriságait (fi) szorozzuk a Ci osztály ismérvértéké-vel, majd ezen szorzatokat összeadjuk:

tehát egy súlyozott számtani átlag nagyságát mindig két tényezőhatározza meg: az átlagolandó értékek nagysága, azaz az Xi értékek soro-zata, valamint az átlagolandó értékekhez tartozó fi súlyszámok egymásközötti aránya, azaz relatív nagysága.

amikor egy ismérvnek a megfigyelt sokaság egységeinél fellépő érté-kei egyenként ismertek, akkor súlyozatlan esetet, ha pedig az ismérvneka megfigyelt sokaság egységeinél fellépő értékei gyakorisági sorba rende-zetten ismertek, akkor súlyozott esetet használunk. Súlyozott esetben azX ismérv szerint képzett osztályok gyakoriságait súlyoknak is nevezik. asúlyok összege mindig n.

2. eGyváltozóS elemzéSek52

.

.

Page 55: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

13. példa. a súlyozott számtani átlag kiszámításanézzünk két példát a súlyozott átlagszámításra. 1. egy diák 4 tárgyból az alábbi jegyeket kapja: 8, 9, 7, 10. azt is tud-

juk, hogy amiből 8-as és 10-es osztályzatot kapott, az két 3 kredites tárgy,7-est egy 5 kredites tárgyból, 9-est pedig egy 4 kredites tárgyból kapott. akérdés, hogy hányas lesz a tanulmányi átlaga.

miként már a Bevezetőben is említésre került, a társadalomstatiszti-kában sokszor előfordul, hogy egyes számítások matematikai értelembenvett pontossága magyarázatra szorul. ebben a példánkban is egy ilyenesettel találkozunk, hiszen az iskolai osztályzat egy ordinális mérési szin-tű változó (nem tudjuk azt mondani, hogy aki 10-est kap, az kétszerannyit tud, mint aki 5-öst kap), és átlagot csak mennyiségi változókbólszámítunk. viszont a mindennapi életben nagyon gyakran előfordul,hogy egyetlen számmal szükséges jellemezni egy személy teljesítményét,rangsort kell felállítanunk, és ilyenkor átlagot számolunk.

értelmezés. a diák négy tantárgyra számított tanulmányi átlaga 8,33(itt fontos megjegyezni azt, hogy az iskolai szabályzat szerint a féléves,éves, végleges tanulmányi átlagot 2 tizedesjegyre kell csonkítani, és nemkerekíteni, viszont a tudományos jellegű számításokban kerekíteni kellés akár több tizedesjegyre is).

2. egy iskolai osztályban a gyerekek közül 4-nek nincs testvére, 11-nek 1 testvére van, 5-nek 2 testvére, 1-nek pedig 4 testvére van. akkorátlagosan hány testvére van az osztályban a gyerekeknek?

értelmezés. az osztályban a gyerekeknek átlagosan 1,38 testvérük van.

a folytonos változók (pl. jövedelem) sokféle, egymástól eltérő értéketvehetnek fel. amennyiben az adatokat pontos értékükkel rögzítettük, azSpSS segítségével könnyedén kiszámíthatjuk az átlag pontos értékét.néha azonban előfordul, hogy adatainkat csoportosított formában rögzí-tettük (pl. jövedelemkategóriákat adtunk meg a nagyobb válaszolási

532.3. a CentráliS tendenCiák mutatói: átlaG, medián, móduSz

Page 56: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

arány kedvéért), vagy mások által gyűjtött adatokon dolgozunk, ahol afolytonos adatok csoportosított formában szerepelnek. ebben az esetbenaz átlagértéket pontosan nem tudjuk kiszámítani, csak jó becslést tudunkadni rá (nem tudjuk, hogy egy intervallumon belül a kisebb érték vagy anagyobb érték köré tömörülnek az adatok). alapvető, hogy adataink olymódon legyenek csoportosítva, hogy a változó legalább intervallum-mérési szintű legyen (nem feltétlenül egyenlő hosszúságú intervallu-mok). ilyenkor az átlag kiszámításakor az osztályközepeket kell súlyozni.az osztályközép nem más, mint az egy osztályba tartozó legkisebb és leg-nagyobb érték számtani átlaga: (Xmin + Xmax)/2.

14. példa. Átlagszámítás csoportosított adatokbólnézzük az alábbi gyakorisági sort. a 10. táblázat 40 diák feladat-

megoldási idejét tartalmazza, másodpercben kifejezve (3 diák 118–126másodperc közötti időintervallumban oldotta meg a feladatot stb.).

10. táblázat. gyakorisági sor

ért.: a diákok átlagosan 147 másodperc alatt oldottákmeg a feladatot.

a többi átlagfajtát a következő, 11. táblázat szemlélteti:

11. táblázat. az egyéb átlagfajták

2. eGyváltozóS elemzéSek54

idő (s) gy (fi)118–126127–135136–144145–153154–162163–171172–180

359

12542

Elnevezés Jelölés Számítássúlyozatlan súlyozott

Harmonikusátlag

Page 57: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

Forrás: Hunyadi–mundruczó–vita 2000. 107.

a harmonikus és mértani átlag általában olyan esetekben használha-tó, amikor nem az ismérvértékek összegének, hanem az azok reciproká-ból képzett összegnek vagy azok szorzatának van valamilyen értelme.ilyenkor közelítő értéket kapunk. négyzetes átlagot akkor számolunk,amikor ki akarjuk küszöbölni az átlagolni kívánt érték előjelét.

2.3.3. a medián

a medián ordinális skálán mért adatokból is meghatározható. amedián vagy középső érték az ismérvértékek nagyság szerint rendezettadatsorának közepén elhelyezkedő számérték, amelynél ugyanannyinagyobb, mint kisebb értékű esetünk van.

Ha n páratlan, akkor a medián értéke közvetlenül a középső értéklesz, amelynek a sorszáma az összes érték növekvő sorba rendezése ese-tében (n+1)/2 lesz. Ha n páros, akkor nincs egy pontosan beazonosítha-tó középső eset. ilyenkor konvenció szerint a medián értéke a két közép-ső érték számtani átlaga lesz.

az észlelési adatoknak bármely tetszőleges számtól számított (abszo-lút) eltéréseinek összege akkor minimális, ha az eltéréseket a mediántólvesszük. Ha a változó értékei közt nincsenek kirívóan kicsik vagy nagyokés eloszlásbeli aránytalanságok, a medián és az átlag közötti különbség álta-lában nem nagy. legfőbb előnye, hogy nem igényel számítást, ezért gyorsanmeghatározható. a medián, mint felezőérték, nagyszámú megfigyelés ese-tén az értékek eloszlásának megítélésében játszik szerepet, közvetlenülnem függ az összes rendelkezésre álló értéktől, de a szélsőséges értékektőlsem. ezért tekintik a legfontosabb pozicionális centrális mutatónak.

552.3. a CentráliS tendenCiák mutatói: átlaG, medián, móduSz

Elnevezés Jelölés Számítássúlyozatlan súlyozott

mértani (geometriai)

átlag

négyzetes(kvadratikus)

átlag

Page 58: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

15. példa. a medián meghatározásanézzük az előző szemléltető példánkat. adott az alábbi monoton,

nem csökkenő módon rendezett értéksorunk: 0; 0; 0,5; 0,6; 0,8; 1; 1; 1; 3; 5; 10.nagyon fontos arra figyelnünk, hogy az adataink monoton, nem csök-

kenő módon legyenek rendezve (ha nem ilyen formában szerepelnek, ren-dezzük sorba), hiszen pozicionális mutatót vizsgálunk. ebben az esetbenértéksorunk páratlan számú tagból áll, tehát a medián pontosan a közép-ső érték, azaz a (11+1)/2-ik esetnek megfelelő érték, vagyis 1.értelmezése, hogy a 11 esetünk fele 1 vagy ennél nagyobb értékű, fele 1vagy 1-nél kisebb értéket vesz fel.

abban az esetben, ha folytonos jellegű adatokból egyenlő hosszúságúintervallumokat hozunk létre, akkor számíthatunk mediánt, ha az eseteketúgy tekintjük, mintha az adott intervallumon belül egyenletesen oszlaná-nak meg. ilyenkor a mediánt az alábbi tapasztalati képlettel számítjuk ki:

ahol: l1 – a mediánt tartalmazó osztály valódi alsó határa,– a mediánt tartalmazó osztály előtt lévő osztályokhoz tartozógyakoriságok összege (kumulált gyakoriság),

fme – a mediánt tartalmazó osztály gyakorisága,c – osztályköz vagy osztályhosszúság.az eljárás a következő lépéseket tartalmazza: kiszámítjuk a kumulált

gyakorisági értékeket, kijelöljük a középső esetet tartalmazó osztályt,meghatározzuk a mediánt tartalmazó osztály valódi alsó határát, kiszá-mítjuk az osztályhosszúságot, majd kiszámítjuk a mediánt.

16. példa. a medián számítása egyenlő hosszúságú intervallumokbólnézzük a 40 diák feladatmegoldási idejét tartalmazó előző fiktív pél-

dánkat, átmásolva a 11. táblázatot, kiegészítve a kumulált gyakoriságok-kal (12. táblázat).

2. eGyváltozóS elemzéSek56

,

Page 59: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

12. táblázat. gyakorisági sor

Behelyettesítve a képletbe, megkapjuk a medián értékét:

értelmezés. a 40 diák fele 147,1 másodpercnél kevesebb, fele pedigennél több idő alatt oldotta meg a feladatot.

2.3.4. a módusz

a módusz a legnagyobb gyakoriságú (leggyakoribb, legvalószínűbb)érték az eloszlásban, csoportosított adatok esetében a legnagyobb gyako-riságú osztály osztályközepének értéke. a módusz megállapításához cél-szerű az adatokat gyakorisági sorba rendezni, így a módusz a sor legna-gyobb gyakorisággal előforduló értéke. vannak esetek, amikortöbbmóduszú gyakorisági sorokat észlelünk – ilyen esetekben akkor szo-kás használni, amikor értelmezhetőek az értékek. a módusz szabálytala-nul növekvő adatsor esetében sem jellemzi a sokaságot. de mivel a tény-legesen leggyakrabban előforduló érték, sokszor a jelenség természetétjobban kifejezi, mint a többi középérték. további előnye, hogy nominálisskálán mért alapadatokból is meghatározható.

572.3. a CentráliS tendenCiák mutatói: átlaG, medián, móduSz

idő (s) gy (fi)

118–126127–135136–144145–153154–162163–171172–180

359

12542

38

1729343840

1. kiszámoljuk a kumulált gyakoriságokat egyúj oszlopba;

2. (n+1)/2=20,5, tehát a medián a huszadik éshuszonegyedik esetet tartalmazó osztálybanvan (az értéke 145 és 153 között kell legyen);

3. a mediánt tartalmazó osztály valódi alsóhatára (l1)144,5 (mivel folytonos változónkvan, az értékek tizedesek is lehetnek);

4. az osztályhosszúság (c) a valódi felső és alsóhatárok különbsége, azaz 9 másodperc(153,5–144,5).

Page 60: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

17. példa. a módusz meghatározásaaz előző szemléltető példánk egy egyszerű értéksort tartalmaz. 0; 0; 0,5; 0,6; 0,8; 1; 1; 1; 3; 5; 10.ebből egyértelmű, hogy a módusz 1, hiszen ez a leggyakrabban elő-

forduló érték.

Folytonos ismérven mért, intervallummérési szintű csoportosítottadatokból az alábbi tapasztalati képlettel számítunk móduszt:

ahol: l1 – a móduszt tartalmazó osztály valódi alsó határa,d1 – a móduszt tartalmazó és az előtte lévő osztály gyakoriságainakkülönbsége,d2 – a móduszt tartalmazó és az utána lévő osztály gyakoriságainakkülönbsége,c – osztályköz vagy osztályhosszúság.

az eljárás a következő lépéseket tartalmazza: kijelöljük a legtöbb ese-tet tartalmazó osztályt, meghatározzuk a móduszt tartalmazó osztályvalódi alsó határát, kiszámítjuk a d1 és a d2 értékeit a gyakorisági sorból,kiszámítjuk az osztályhosszúságot, majd kiszámítjuk a mediánt.

18. példa. a módusz kiszámítása egyenlő hosszúságú intervallumokbólnézzük újra a 40 diák feladatmegoldási idejét tartalmazó példánkat

(13. táblázat).

13. táblázat. gyakorisági sor

2. eGyváltozóS elemzéSek58

idő (s) gy (fi)

118–126127–135136–144145–153154–162163–171172–180

359

12542

1. a legtöbb eset a 12 diákot tömörítő 4. osztálybanvan, tehát a módusz értéke 145–153 között kelllegyen;

2. a móduszt tartalmazó osztály valódi alsó határa(l1) 144,5 (mivel folytonos változónk van, az érté-kek tizedesek is lehetnek);

3. d1=12–9=3;4. d2=12–5=7;5. az osztályhosszúság (c) a valódi felső és alsó hatá-

rok különbsége, azaz 9 másodperc (153,5–144,5).

,

Page 61: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

értelmezés: a legtöbben a diákok közül 147 másodperc körül oldot-ták meg a feladatot.

2.3.5. Választás a középértékek között

Gyakorlati szempontból a három legfontosabb középérték az átlag,módusz és medián. annak eldöntése, hogy adott esetben melyiket hasz-náljuk, nem egyszerű kérdés. a középértékek közötti választást leggyak-rabban motiváló szempontok a következők:

– az adott középérték mindig egyértelműen meghatározható-e,– az összes rendelkezésre álló ismérvértéktől függ-e vagy nem,– mennyire érzékeny a szélsőséges ismérvértékekre,– mekkora és milyen módon értelmezhető hibával képes helyettesí-

teni az alapadatokat.a döntéshez a 14. táblázat nyújt segítséget.

14. táblázat. Választás a középértékek között

19. példa. Választás a középértékek közötta diákok feladatmegoldó képességéről szóló példánkban a három

középérték:= 146,975 me = 147,125 mo = 147,200.

592.3. a CentráliS tendenCiák mutatói: átlaG, medián, móduSz

Átlag módusz mediánegyértelműen meghatá-rozható

nem mindig határozhatómeg egyértelműen

mindig egyértelmű-en meghatározható

Függ az összes értéktől nem függ az összesértéktől

nem függ az összesértéktől

érzékeny a szélsőségesértékekre

nem érzékeny a szélső-séges értékekre

nem érzékeny a szél-sőséges értékekre

az előjeles hibák összes-ségükben kiegyenlítikegymást és minimálissáteszi a helyettesítésselelkövetett hibák négyzet-összegét

az ismérvértékek helyé-be téve ritkán és csak kishibát követünk el

a hibaösszeget mini-malizálva helyettesí-ti az ismérvértékeket

Page 62: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

látható, hogy mindhárom középérték egymáshoz nagyon közeliérték, így ebben az esetben mindhárom mutató jól jellemzi a 40 diákot.jelentősebb különbségek esetén az elemzés céljának a függvényében kelleldöntenünk, hogy melyik információ mond a legtöbbet a sokaságról. Hapl. több diákcsoport teljesítményét szeretnénk összehasonlítani, akkorátlaggal jellemezzük a sokaságot, ha azt szeretnénk eldönteni, hogymennyi idő alatt lehet egy ilyen típusú feladatot megoldani, akkormóduszt használunk stb.

2.3.6. a középértékek kiszámítása SPSS-sel

a centrális tendenciák kiszámítása nagyon egyszerű az SpSS-sel.ahogyan már korábban is említésre került, legfőképpen arra kell figyel-nünk, hogy a középértékekkel jellemezni kívánt változónk mérési szint-je megengedi-e a számítást.

akárcsak a gyakorisági tábla lekérése, a középértékek kiszámítása isaz analyze főmenü Descriptive Statistics/Frequencies... menüvel történik.miután átvittük az elemezni kívánt változónkat/változóinkat, az ablakalsó részén található Statistics mezőre kattintunk, és bejelöljük a kért sta-tisztikákat. a középértékek a Central tendency ablakrészben találhatóak,ahol az átlagot a mean, a mediánt a median, a móduszt pedig a modemellett szereplő mezőkre klikkelve lehet lekérni.

20. példa. középértékek lekérése az SPSS-benadatbázisunkban a k61-es változó a birtokolt személygépkocsik régi-

ségére vonatkozik (Hány éves az autó?). tehát arányskálánk van, mindenközépérték kiszámítható és értelmezhető. először azonban, a már ismertmódon, kérjünk a változóra egy gyakoriságot, hogy ellenőrizzük le ada-tainkat (kell-e tisztítani, vannak-e nem releváns adataink). a gyakoriságitábla azt mutatja, hogy 291 releváns válaszadónk van, és egyetlen érték-től sem kell megválnunk. az adattisztítás minden egyes elemzés eseténelengedhetetlen, hiszen néhány rosszul bevitt, vagy az elemzés szem-pontjából értelmetlen adat nagyon eltorzíthatja következtetéseinket.például ha a mi esetünkben szerepelt volna egy 1010-es érték és nemválunk meg tőle az elemzés előtt, teljesen hibás átlagéletkort számolunka birtokolt autókra. vagy ha pl. azokat, akiknek nincs autójuk, 0-valkódoltuk volna és őket is bevonjuk az elemzésbe, azt derítenénk ki, hogya legtöbb autó 0 éves, vagyis nemrégiben és újonnan vásárolt (az adatok

2. eGyváltozóS elemzéSek60

Page 63: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

rögzítésekor ugyanis a 0 érték az új autókat jelentette volna, de egyetlenilyen értékünk sem szerepel).

a gyakorisági tábla szemrevételezése után az előzőek szerint lekér-jük a középértékeket, majd Continue-t és visszatérve az előző ablakba ok-t kattintunk (24. ábra).

24. ábra. a centrális tendenciák mutatószámainak lekérése

az output ablakban rögtön megjelennek a kért statisztikák (25. ábra),amelyből kiolvasható, hogy 291 válaszadónk van, az általuk birtokoltautók átlagéletkora 12,33 év, az autók fele 12 évnél idősebb, fele pedigennél fiatalabb, és a legtöbb autótulajdonosnak 10 éves az autója.

25. ábra. az output-ban megjelenő statisztikák

612.3. a CentráliS tendenCiák mutatói: átlaG, medián, móduSz

Page 64: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

2.4. Szórás és szóródás

egy statisztikai sokaság elemei valamely tulajdonság értéknagyságatekintetében eltérnek egymástól, változatosak. míg a középérték alkal-mas arra, hogy e változatosság ellenére az adott tulajdonság értéknagysá-gát tömören, az egész sokaságra nézve kifejezze (a középérték a sokaságközös jellemzője), addig a szóródás a sokaság elemeinek valamely közép-értékhez vagy egymáshoz való viszonyulásának tömör jellemzője.

a szóródás egyes változók esetén nagyobb, a másiknál kisebb is lehetannak ellenére, hogy az átlaguk megegyezik. ugyanakkor a szóródás nagy-ságának a kifejezésére a középérték megfelelő bázist nyújt, mivel az egyesértékek nemcsak egymástól, hanem a középértéktől is különböznek.

az ismérvértékek egymás közötti különbségeiből számított szóródá-si mutatókat és a valamely kitüntetett értéktől számított eltéréseken ala-puló mutatókat abszolút szóródási mutatóknak nevezik. az abszolút szó-ródási mutatók mértékegysége mindig az ismérvértékek mértékegysége.

a szóródás relatív mutatószámai elvonatkoztatnak az ismérvérték ere-deti mértékegységétől, és elsősorban összehasonlítási célokat szolgálnak.

a szóródás kifejezésére használatos mutatószámok: – a szórás terjedelme,– a kvartilis eltérés,– átlagos különbség,– a középeltérés,– az abszolút átlageltérés,– a négyzetes átlageltérés (szórás) és a variancia,– szóródási együttható.

2.4.1. a szórás terjedelme (Range)

a szórás terjedelme annak a legkisebb intervallumnak a teljes hosz-sza, amelyet az ismérvértékek kitöltenek.

tehát a szóródás terjedelme az észlelési adatok közül a legnagyobbés a legkisebb értéknagyságú adat különbsége.

mivel a két legszélsőségesebb ismérvértéktől függ, csak kevéssé jel-lemzi a vizsgált jelenség valódi természetét. alkalmazása inkább homo-gén részsokaságoknál fejezi ki a szakmai szempontból elfogadható terje-

2. eGyváltozóS elemzéSek62

is = Xmax – X min

Page 65: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

delmet, osztályközös gyakorisági sorokból csak a két szélső kategóriafelezőpontjainak különbségéből becsülhető.

egyértelmű hátránya tehát az, hogy az értékskála közbeeső értékeirőlsemmit sem tudunk meg, viszont nagyon egyszerűen előállítható éskönnyen érthető adat. például ha egy háztartási adatbázisban a legkisebbbevétel 50 ron, a legnagyobb pedig 32 000 ron, akkor a terjedelem 31 950 ron.

2.4.2. a kvartilis eltérés vagy interkvartilis félterjedelem

a kvartilis eltérés számítására akkor van szükség, ha a sokaság ada-tainak szélső értékei nagymértékben eltérnek a többi adattól. Használataolyan gyakorisági soroknál a legindokoltabb, ahol nyitott osztályközökkelindul és zárul a statisztikai sor (a szórás terjedelme nem becsülhetőkiegészítő információk nélkül).

a nagyság szerint rendezett értéksort negyedelő értékek a kvartilisek.Három kvartilist szoktak megkülönböztetni:

– alsó kvartilis (Q1): az az érték, amely alatt a sokaság egynegyede ál-

tal felvett értékek találhatóak, az -edik esetnek megfelelő érték;

– középső kvartilis (Q2): az az érték, amely alatt a sokaság fele által

felvett értékek találhatóak, az -edik esetnek megfelelő érték,vagyis a medián;

– felső kvartilis (Q3): az az érték, amely alatt a sokaság háromnegyede

által felvett értékek találhatóak, az -edik esetnek megfele-lő érték.

akárcsak a medián esetében, intervallummérési szintű gyakoriságisoroknál a kvartilisek értéknagyságát becsléssel lehet meghatározni:

ahol: – a kvartilis adat sorszámának megfelelő osztály alsó határa,– az i-edik kvartilis adat sorszáma,

– a kvartilis osztályig terjedő kumulált gyakoriságok összege,

632.4. SzóráS éS SzóródáS

,

Page 66: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

– a kvartilist tartalmazó osztály gyakorisága,c – osztályköz vagy osztályhosszúság.az interkvartilis terjedelem mérőszáma – a szélső értékektől függetle-

nül – azt a távolságot adja meg, amelyen belül az észlelési adatok 50%-amegtalálható.

a kvartilis eltérés vagy interkvartilis félterjedelem a harmadik és azelső negyedelő értékek különbségének a fele:

21. példa. interkvartilis terjedelem kiszámítása csoportosított adatokbóladott az alábbi fiktív adatsor (15. táblázat), amelyen az interkvartilis

terjedelem kiszámítását mutatom be. a lépések hasonlóak a mediánnálleírtakkal.

15. táblázat. gyakorisági sor

2. eGyváltozóS elemzéSek64

Család évijövedelme(ezer RoN)

Csalá-dok

száma

Kumuláltgyakori-

ság2–3,9 5 54–5,9 13 186–7,9 18 368–9,9 17 53

10–11,9 14 6712–13,9 13 8014–15,9 7 8716–17,9 4 9118–19,9 4 95

1. kiszámítjuk a két kvartilis sorszámát:

2. kiszámoljuk a kumulált gyakoriságo-kat egy új oszlopba;

3. beazonosítjuk a kvartiliseket: az alsókvartilis a 3., a felső pedig a 6. osz-tályban van;

4. kiszámoljuk az osztályhoszzúságot:7,95–5,95=2.

.

.

;

Page 67: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

értelmezés. az alsó kvartilis értéke 6,616, tehát a vizsgált családokegynegyedének 6600 ron alatt van az évi jövedelme. a felső kvartilisértéke 12,719, tehát a családok háromnegyede 12 700 ron-nál kisebb,egynegyede pedig ennél nagyobb évi jövedelemmel rendelkezik. továbbáa családok fele 6600–12 700 ron közötti bevételre tesz szert évente. azinterkvartilis terjedelem értéke 6,103, azaz 6100 ron.

2.4.3. Átlagos (abszolút) különbség

ez a szóródási mutató minden lehetséges módon párba állítottismérvértékek különbségeinek abszolút értékéből számított átlag.

a Gini-féle mutató azt mutatja, hogy az X ismérv értékei átlagosanmennyire különböznek egymástól. Ha minden ismérvérték egyforma,azaz nincs szóródás, akkor G = 0.

az átlagos különbség számszerű meghatározása elég kényelmetlen,ezért a gyakorlatban ritkán használják. jelentőségét a koncentrációhozvaló szoros kapcsolódása adja.

2.4.4. a középeltérés

a középeltérés a sokaságelemek mediántól számított eltéréseinek azátlaga.

alkalmazása főként arra az esetre koncentrálódik, amikor a sokaságjellemzésére a medián a legalkalmasabb jellemző. Gyakorisági sorok ese-tében nem használható.

2.4.5. az abszolút átlageltérés vagy átlagos eltérés

a számtani átlag körüli elhelyezkedés egyik mutatója. mivel az érté-kek számtani átlagtól vett különbségeinek összege 0, ezért a különbségekabszolút értékeivel számolunk.

652.4. SzóráS éS SzóródáS

Page 68: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

az abszolút átlageltérés az ismérvértékek számított átlagtól való elté-réseinek számtani átlaga.

a gyakorlatban ritkán használják. Gyakorisági sorok esetén az Xihelyett az osztályközép kerül.

2.4.6. Szórás (négyzetes átlageltérés) és variancia

a szórás a szóródás legfontosabb mérőszáma. nagyon hasonlít azabszolút átlageltéréshez, csak az abszolút eltérés helyett négyzetre eme-léssel iktatja ki a különbségek előjelét. a négyzetre emelés az eltérésekabszolút értelemben vett nagyságát is jobban kiemeli. az utólagos gyök-vonás a négyzetre emelés tompítását és az alapadatok eredeti mértékegy-ségéhez való visszatérést is szolgálja.

a szórás az átlagtól vett eltérések négyzetes átlaga.a szórás azt mutatja, hogy az Xi ismérvértékek átlagosan mennyivel

térnek el a számtani átlagtól. Számításmódjából adódóan a szórás olyanátlagos hibaként is felfogható, amit abban az esetben követünk el, haminden alapadatot a számtani átlaggal helyettesítünk.

Sok esetben nem a szórás, hanem annak négyzete, a variancia vagyszórásnégyzet bír jelentőséggel.

22. példa. a szórás kiszámítása és értelmezésenézzük az előző példánkat és számoljuk ki a szórást (16. táblázat).

2. eGyváltozóS elemzéSek66

Page 69: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

16. táblázat. gyakorisági sor

értelmezés. a szórás 4066 ron, tehát a vizsgált családok évi jöve-delme átlagosan 4 ezer lejjel tér el a 9,75 ezer lejes átlagjövedelemtől.

2.4.7. Szóródási együttható vagy relatív szórás

a szóródási együttható (variációs koefficiens) a különböző átlagú éseltérő tulajdonságú sokaságok szórásának összehasonlítását teszi lehető-vé. elsősorban különböző ismérvek összehasonlítására használják, ésigazából csak az arányskálán mért ismérveknél van jelentősége.

a szóródási együttható az ismérvértékeknek az átlagtól vett átlagosrelatív (százalékos) eltérését mutatja. a közgazdasági vizsgálatoknál álta-lában a következő tapasztalati határokat tekintik mértékadónak:

– 0–10% állandóságot mutat,– 10–20% közepes változékonyságot mutat,– 20–30% erős változékonyságot mutat,

672.4. SzóráS éS SzóródáS

Család évijövedelme(ezer RoN)

Családokszáma

osztály-közép

2–3,9 5 2,954–5,9 13 4,956–7,9 18 6,958–9,9 17 8,95

10–11,9 14 10,9512–13,9 13 12,9514–15,9 7 14,9516–17,9 4 16,9518–19,9 4 18,95

1. első lépésként kiszámoljukaz osztályközepeket egy újoszlopba

2. kiszámítjuk az átlagot3. kiszámítjuk a szórást

Page 70: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

– 30%-on felüli együttható szélsőséges ingadozást fejez ki.a közölt határok általános érvényűek és tájékoztató jellegűek. a vizs-

gálat céljának, a jelenség természetének és a számításban részt vevő ele-mek számának figyelembevételével lehet a szóródás nagyságát szakmaiszempontból megítélni.

2.4.8. a kvartilisek és a szóródási mutatók kiszámítása az SPSS-sel

miként már korábban is említésre került, kvartilisek és szóródás csakmennyiségi adatokból számítható. akárcsak a többi egyváltozós statiszti-ka lekérése, a kvartilisek és szóródási mutatók is az analyze főmenüDescriptive Statistics, Frequencies parancsával számíthatóak ki. miutánátvittük az elemezni kívánt változónkat/változóinkat, az ablak alsó részéntalálható Statistics mezőre kattintunk, és bejelöljük a kért statisztikákat. aszóródási mutatók a Dispersion ablakrészben találhatóak, ahol a terjedel-met a range, a szórást a Std. Deviation, a varianciát a Variance mellett sze-replő mezőkre klikkelve lehet lekérni. a pozicionális mutatók a bal felsőrészben, a Percentile Values ablakrészben találhatóak, ahol a Quartilesmellett szereplő mezőkre klikkelve lehet őket lekérni.

23. példa. Szóródási mutatók lekérése az SPSS-benadatbázisunkban újra vizsgáljuk meg a k61-es változót (Hány éves

az autó?), ezúttal a szóródás szempontjából. tehát arányskálánk van, aszóródási mutatók kiszámíthatóak és értelmezhetőek. az előzőek szerintlekérjük a mutatókat, majd Continue-t, és visszatérve az előző ablakba,ok-t kattintunk (26. ábra).

26. ábra. a szóródási mutatók bejelölése

2. eGyváltozóS elemzéSek68

Page 71: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

az output ablakban megjelenő statisztikákat (27. ábra) értelmezzük.

27. ábra. az SPSS által számolt szóródási mutatók

a kérdésre 291 személy válaszolt, a legújabb autó 1 éves (egyetlenfiatal sem rendelkezik teljesen új autóval), a legrégibb 30 éves. a terje-delem tehát 29 év. a szórás 7 év, tehát az autók átlagosan 7 évvel térnekel az autók 12 éves átlagéletkorától. az autók egynegyede 6 évnél újabb,fele 12 évnél régebbi, egynegyede pedig 17 évnél öregebb.

2.5. momentumok, ferdeség és csúcsosság

2.5.1. a momentumok

a momentumok a különféle átlagok és a szórás általánosításánaktekinthetőek, mivel az Xi – eltérések helyett az Xi – a eltérések hatvá-nyait átlagolják (a egy tetszőleges állandó).

Súlyozatlan esetben a momentumokat az alábbi képlettel számoljuk,

súlyozott esetben pedig az alábbi képlet használatos:

692.5. momentumok, FerdeSéG éS CSúCSoSSáG

,

Page 72: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a képlettel meghatározott mennyiségeket az X ismérv vagy a gyako-risági eloszlás a körüli r-edik momentumainak nevezzük.

az a = 0 speciális esetben az általános képletek r-edik momentu-mokat adnak, amelyekre az egyszerű mr jelölést használjuk. az a = választás esetén az r-edik centrális momentumokhoz jutunk.

a momentumok több eddig megismert mutatószámot foglalnak egy-séges elméleti keretbe. Gyakorlati jelentőségüket a gyakorisági eloszlásokalakjának jellemzésekor való felhasználásuk adja. a 17. táblázat néhánynevezetes momentumot foglal össze.

17. táblázat. Nevezetes momentumok

Forrás: Hunyadi–mundruczó–vita 2000. 121.

24. példa. momentumok kiszámításaadott az alábbi 5 esetből álló értéksorunk:2; 3; 7; 8; 10.Határozzuk meg az első, második és harmadik momentumot (a=0)!

Határozzuk meg az átlag körüli első és második (centrális) momen-tumot (a= )!

2. eGyváltozóS elemzéSek70

r(hatvány)

a = 0 a =jelölés elnevezés jelölés, illetve érték elnevezés

1 számtani átlag 0 –

2négyzetes átlag

négyzete2 variancia

Page 73: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

2.5.2. a koncentráció elemzése

a koncentráció a sokasághoz tartozó értékösszeg jelentős részénekvagy egészének kevés egységre történő összpontosulása. a koncentrációfoka vagy a sokaság nagyságának megadásával, vagy a relatív gyakorisá-gok és relatív értékösszegek egybevetésével jellemezhető. Ha a vizsgáltsokaság mérete kicsi, abszolút koncentrációról, ha a sokaság nagy, relatívkoncentrációról beszélünk. amikor a teljes értékösszeg egyetlen egységrejut, értelemszerűen a lehető legnagyobb koncentrációról van szó, ameny-nyiben a teljes értékösszeg a sokaság egységei között egyenletesen oszlikmeg, a koncentráció hiányáról van szó.

a koncentrációt különböző mutatószámokkal szokták jellemezni:a) az abszolút koncentráció mutatószámai:

1. az egységek száma (n),2. valamilyen értelemben vett átlagos nagysága ( ),

b) a relatív koncentráció mutatószámai.a lorentz-görbe (egyenes szakaszokkal összekötött vonaldiagram)

által jelölt tc koncentrációs terület nagyságának viszonyítása a négyzetfelét képező háromszög területéhez:

az átlagos abszolút különbség Gini-féle mutatójából számított koncentrá-ciós együttható

az l nem más, mint a koncentrációs együttható, a szóródás és a rela-tív koncentráció korábbi összefüggését támasztja alá.

2.5.3. alak-mutatók

a gyakorisági eloszlások alak-mutatószámai azt jellemzik tömören,hogy milyen tekintetben és milyen mértékben térnek el a normális elosz-

712.5. momentumok, FerdeSéG éS CSúCSoSSáG

.

,

Page 74: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

lás gyakorisági görbéjétől (a Gauss-görbétől). mivel a normális eloszlásegymóduszú, csak egymóduszú gyakorisági görbék körében van értelme.

a gyakorisági eloszlás grafikus ábrája kétféle tekintetben térhet el anormális eloszlás görbéjétől (28. ábra):

1. valamilyen irányban hosszabban elnyúlhat, ekkor aszimmetriavagy ferdeség áll fenn,

2. az ábra csúcsa alacsonyabban vagy magasabban lehet, ilyenkorcsúcsosságról vagy lapultságról beszélünk.

28. ábra. a gyakorisági eloszlások gauss-görbétől való eltérései

2.5.4. aszimmetria: ferdeségi mutatók

az egymóduszú gyakorisági eloszlások szimmetrikus vagy aszim-metrikus volta többféleképpen is megragadható az eddig megismertmutatószámok segítségével.

bal oldali aszimmetria szimmetria jobb oldali aszimmetria

2. eGyváltozóS elemzéSek72

Page 75: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

2.5.4.1. az aszimmetria mutatószámai

a pearson-féle mutatószám (rendszerint a –1 és 1 határok közöttmozog) arra a tapasztalati megállapításra alapoz, amely szerint mérsékel-ten aszimmetrikus eloszlás esetében a medián az átlagtól az átlag és amódusz közötti különbség mintegy egyharmadával balra vagy jobbra esik:

a Pearson-féle mutatószám az alábbi képlettel számítható ki:

a két szélső kvartilis és a medián közötti eltéréseken alapul az aaszimmetria mérőszám. alapja, hogy szimmetria esetén Q3 – me = me –Q1. olyankor használjuk, ha a szóródást is a kvartilisek felhasználásávaljellemeztük.

az mutatószám a harmadik centrális momentum viselkedésénalapszik.

Szimmetria esetén α3 = 0, bal oldali aszimmetria esetén > 0, jobboldali aszimmetria esetén pedig < 0. az aszimmetria mértékének meg-ítélését nem könnyíti meg egy alsó és felső határ, ugyanakkor elég érzé-kenyen reagál az eloszlás alakjának kismértékű változására is.

az aszimmetria mindhárom mutatója szimmetrikus gyakoriságisorok esetén 0 vagy 0 körüli értéket vesz fel (sokszor becsüljük). a baloldali aszimmetriát a mutatók pozitív értékei, a jobb oldali aszimmetriáta mutatók negatív értékei jelzik.

2.5.5. Csúcsosság: csúcsossági mutatók

a csúcsosság mértékének megállapítására a két legismertebb mutatóa k és az α4.

a k mérőszám alapja: minél csúcsosabb egy eloszlás, annál kisebb afelső és alsó kvartilis különbségének a fele a két szélső decilis különbsé-géhez viszonyítva.

732.5. momentumok, FerdeSéG éS CSúCSoSSáG

.

Page 76: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

normális eloszlás esetében k » 0,263 (ehhez lehet viszonyítani a kértékét). minél csúcsosabb az eloszlás, k értéke annál kisebb lesz.

az mutatószám a negyedik centrális momentumhoz kötődik.alapja: a 0 várható értékű és 1 szórású normális eloszlás negyedik cent-rális momentuma egyenlő 3-mal.

a ferdeségi és csúcsossági mutatószámokat csak akkor ajánlatoshasználni, ha a gyakorisági poligon a gyakorisági görbe elég jó közelítésé-nek tekinthető. a megfigyelt sokaság ehhez szükséges minimális nagysá-ga 50–100 között van.

2.5.6. alak-mutatók és gyakorisági poligonok kiszámítása azSPSS-sel

az alak-mutatók is (akárcsak a többi egyváltozós statisztika) azanalyze főmenü Descriptive Statistics, Frequencies parancsával számít-tathatóak ki. miután átvittük az elemezni kívánt változónkat/változóin-kat, az ablak alsó részén található Statistics mezőre kattintunk, és beje-löljük a kért statisztikákat. a szóródási mutatók a Distributionablakrészben találhatóak, ahol a ferdeséget a Skewness, a csúcsosságotpedig a kurtosis mellett szereplő mezőkre klikkelve lehet lekérni. aContinue-val visszatérve a Frequencies ablakba, a Charts opciónál lelehet kérni a gyakorisági poligonnak a normális eloszlás görbéjévelegyütt való ábrázolását (Histograms with normal curve).

25. példa. alak-mutatók az SPSS-benadatbázisunkban újra vizsgáljuk meg a k61-es változót (Hány éves

az autó?), ezúttal az alak-mutatók szempontjából. az előzőek szerintlekérjük a ferdeségi és csúcsossági mutatókat, majd a gyakorisági poli-gonra ábrát kérünk (29. ábra).

2. eGyváltozóS elemzéSek74

Page 77: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

29. ábra. Ferdeségi és csúcsossági mutatók lekérése

alak-mutatóink értékét az output ablakban tekinthetjük meg (30. ábra).

30. ábra. alak-mutatók

a ferdeségi mutató 0,39, tehát nagyobb, mint 0. Bár a pozitív ferde-ségi értékek bal oldali aszimmetriát jeleznek, általában csak az 1-nélnagyobb értékek utalnak olyan eloszlásra, amely szignifikánsan külön-bözik a normális eloszlástól. ilyen módon a kapott értékünk alapján nembeszélünk bal oldali aszimmetriáról, vagyis nem mondhatjuk, hogy szig-nifikánsan több lenne az újabb autók száma, mint a régebbieké. a csú-

752.5. momentumok, FerdeSéG éS CSúCSoSSáG

Page 78: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

csossági mutatónk –0,43, tehát egy igen alacsony negatív érték. ekkor aztmondhatjuk, hogy a normális eloszláshoz képest az adataink egy nagyonkicsivel kisebb mértékben csoportosulnak a centrális értékek körül (egyhajszálnyit laposabb a görbénk), ahogyan ezt a 31. ábra is mutatja.

31. ábra. a hisztogram és a normál eloszlás görbéje

2. eGyváltozóS elemzéSek76

Page 79: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

3. Fejezet

mINTaVÉTEL

3.1. Elemi valószínűség-elmélet. Várható érték

a valószínűség definíciói: a klasszikus (eseményekre épülő) definíció

a kísérlet olyan jelenség, amely ugyanolyan körülmények közt akár-hányszor ismételhető (a valóságban nagyon hasonló körülmények között,mert két kockadobás alatt pár molekula különbség beállhat a dobókockaanyagában, pár ezrednyi Celsius-fok különbség a hőmérsékletében stb.).a kísérlet egyszeri ismétlése a próba, mely során egyértelműen eldönt-hetjük, hogy valamely, a kísérlet kimenetelére tett kijelentésünk bekö-vetkezett-e vagy nem. tehát eseménynek azt a kijelentést tekintjük,amelyről a próbák során egyértelműen eldönthető az, hogy bekövetke-zett-e vagy nem (pl. „a 6-os szám megjelenése a kockán”).

a próba lehetséges kimenetelei az elemi események (az egyetlenlehetséges esettel megvalósuló események), ezek sokasága pedig az e jelűhalmaz. minden egyes vizsgálat alkalmával bármely esemény megvaló-sulhat (bekövetkezik) vagy nem valósulhat meg (nem következik be), ésminden esemény meghatározható a kedvező esetek, kimenetelek valami-lyen halmazával, vagyis e-nek valamely részhalmazával.

Szélsőséges esetekben az esemény lehet biztos esemény és lehetetlenesemény: a biztos esemény minden vizsgálat során teljes bizonyossággalbekövetkezik, a lehetetlen esemény a kísérlet egyetlen ismétlésekor semkövetkezhet be. két vagy több esemény egymást kizáró (inkompatibilis)esemény, ha a kísérlet egyetlen ismétlése során sem valósulhatnak megegyszerre.

például legyen egy kísérlet a játékkocka dobása. a kísérlet leírásáhoztartozik még a megfigyelt véletlen jelenség leírása: a felső lapon levőpöttyök száma. egy próba előtt nem tudjuk biztosan, hogy hányastfogunk dobni, de abban biztosak lehetünk, hogy a felső lapon 1, 2, 3, 4,5 vagy 6 pötty lesz. az elemi események ekkor: a kocka felső lapján 1pötty van, a kocka felső lapján 2 pötty van, …, a kocka felső lapján 6pötty van. az elemi eseményeket minél egyszerűbben szokták jelölni,ebben az esetben erre legalkalmasabb a pöttyök számát adó számjegy:

Page 80: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

1, 2, …, 6. az eseménytér ekkor az e = {1, 2, 3, 4, 5, 6}. Biztos eseménylehet ilyenkor az a kijelentés, hogy 7-nél kevesebb pötty van a kocka felsőlapján, lehetetlen esemény pedig, hogy a kocka felső lapján 7 pötty van.az, hogy páros számú pötty lesz felül, kizárja azt, hogy páratlan számú.

az eseményekhez számszerű érték, az esemény valószínűsége ren-delhető és a valószínűségszámítás megmutatja, miként rendelhetünkhozzá eseményekhez valós számokat. Feltételezve, hogy egy tetszőlegesa esemény h-féleképpen következhet be az összes, egyformán lehetségesn kimenetelből, akkor az esemény előfordulásának (kedvező kimenetelé-nek) valószínűsége:

annak a valószínűsége, hogy az esemény nem következik be (kedve-zőtlen kimenetel):

ilyen módon p + q = 1, azaz pr{a} + pr{nem a} = 1. egy eseménybekövetkezésének valószínűsége mindig egy 0 és 1 közötti szám. Ha azesemény nem következhet be (lehetetlen esemény), akkor valószínűsége0, ha az eseménynek be kell következnie (biztos esemény), akkor való-színűsége 1.

Ha egy esemény bekövetkezésének valószínűsége p, akkor p : q („p aq-hoz”) annak az esélye, hogy bekövetkezik, és q : p annak az esélye,hogy nem következik be.

a valószínűség definíciói: a relatív gyakoriságra épülő definíció –statisztikai definíció

a valószínűség klasszikus definíciójának az a hátránya, hogy sokolyan kísérlet van, amelyben a lehetséges kimenetelek nem egyformánvalószínűek vagy nem vezethetők le olyan modellből, ahol a lehetségeskimenetelek egyformán valószínűek. ilyenkor az események valószínű-ségének megfelelő becslésére a relatív gyakoriságok használhatók.

nagyon nagy számú megfigyelés esetén egy esemény becsült vagytapasztalati valószínűsége az esemény bekövetkezésének relatív gyakori-sága. ekkor maga a valószínűség a relatív gyakoriság határértéke, amikor

3. mintavétel78

.

.

Page 81: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a megfigyelések száma korlátlanul nő. például ha egy érmét 1000-szerfeldobunk, 529-szer fej lesz az eredmény, így a relatív gyakoriság529/1000=0,529. Ha a következő 1000 dobás 493 fejet eredményez,akkor az összes 2000 dobásból a fej relatív gyakorisága(529+493)/2000=0,511. a statisztikai definíció szerint ilyen módon foly-tatva végül egyre közelebb jutunk ahhoz az értékhez, amely megmutatja,hogy mennyi a fej valószínűsége egy érme feldobása esetén.

ez a statisztikai megközelítés a gyakorlatban hasznos, viszont mate-matikai szempontból problémás, mivel a tényleges határérték nem biz-tos, hogy létezik. ezért a modern valószínűségelmélet axiomatikusan fel-épített, azaz a valószínűség fogalmát nem definiálja.

3.1.1. Feltételes valószínűség: független és nem független események

Ha a1 és a2 egy-egy esemény, akkor annak valószínűségét, hogy a2bekövetkezik, feltéve, hogy a1 már bekövetkezett, a2 a1-re vonatkozta-tott feltételes valószínűségének nevezzük.

pr{a2|a1} vagy pr{a2 feltéve a1}Ha a1 bekövetkezése vagy nem bekövetkezése nem befolyásolja a2

bekövetkezésének valószínűségét, akkor a1 és a2 független események.pr{a2|a1}= pr{a2}

Ha a1a2-vel jelöljük azt az eseményt, hogy „mind a1, mind a2 bekö-vetkezik” (összetett esemény):

pr{a1 a2} = pr{a1}. pr{a2|a1} – függő eseményekre,pr{a1 a2} = pr{a1}. pr{a2} – független eseményekre.

Három eseményre (a1, a2, a3):pr{a1a2a3} = pr{a1}. pr{a2|a1}. pr{a3|a1a2} – függő eseményekre,

pr{a1a2a3} = pr{a1}. pr{a2}. pr{a3} – független eseményekre.

általános esetben, ha a1, a2, a3, ...., an n számú független esemény,amelynek valószínűségei rendre p1, p2, p3, ..., pn, akkor a1 és a2 és a3és ...an együttes bekövetkezésének valószínűsége p1p2p3....pn.

26. példa. Függő és független eseményeknézzük az alábbi feladatot. egy jól megkevert, 52 lapos kártyacso-

magból 2 lapot húzunk ki. Határozzuk meg annak a valószínűségét, hogymindkét lap ász lesz, ha:

793.1. elemi valóSzínűSéG-elmélet. várHató érték

Page 82: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a) az első lapot visszatesszük,B) az első lapot nem tesszük vissza.az a) esetünkben két független eseményünk van: a1 – az első lap ásza2 – a második lap ászpr{a1 a2} = pr{a1}. pr{a2}=

a második esetben függő eseményekkel van dolgunk, hiszen a kétesemény együttes bekövetkezése függ attól, hogy elsőként milyen lapothúztunk.

pr{a1 a2} = pr{a1}. pr{a2|a1}=

3.1.2. Valószínűség-eloszlások

3.1.2.1. Diszkrét eloszlások

Ha egy X változó az X1, X2, ... Xk diszkrét értékeket veheti fel, rendrep1, p2, ... pk valószínűségekkel, ahol p1 + p2 + .... pn = 1, akkor ezzel X-hez egy diszkrét valószínűség-eloszlást definiáltunk. a p(X) függvényt,amelynek értékei X = X1, X2, ...Xk-ra rendre a p1, p2,.....pk értékek, X való-színűségi vagy gyakorisági függvényének nevezzük. mivel X csak bizonyosértékeket vehet fel előre meghatározott valószínűségekkel, ezért diszkrétvéletlen változónak szokták nevezni. a véletlen változót sztochasztikusváltozónak is szokták nevezni. a relatív gyakorisági eloszláshoz valóhasonlósága miatt a valószínűség-eloszlások a relatív gyakoriságeloszlásokideális határértékeként is felfoghatóak (amikor a megfigyelések számanagyon nagy). ilyen módon a valószínűség-eloszlások sokasági eloszlások,a relatív gyakorisági eloszlások a sokaságból vett minták eloszlásai.

a valószínűségek egymás utáni összeadásával kumulált valószínű-ség-eloszlásokat kapunk. a kumulált valószínűség-eloszlás hasonló akumulált relatív gyakorisági eloszláshoz, és a hozzá rendelt függvényteloszlásfüggvénynek nevezik.

3.1.2.2. Folytonos eloszlások

a folytonos eloszlás arra az esetre vonatkozik, amikor X változó foly-tonos halmazon vehet fel értékeket. a minta relatív gyakorisági poligon-ja sokaságra folytonos görbe lesz, melynek egyenlete y = p(X) (32. ábra).

3. mintavétel80

Page 83: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

32. ábra. a sűrűségfüggvény

a görbe alatti, az X tengely által határolt rész teljes területe 1. az X = a és az X = b egyenesek által határolt görbe alatti terület annak avalószínűségét adja meg, hogy X az a és b érték közé esik ( pr{a ≤ X <b}). a p(X) függvény neve valószínűségi sűrűségfüggvény vagy csak sűrű-ségfüggvény, és ezzel definiáljuk X folytonos valószínűség-eloszlását.ebben az esetben X folytonos véletlen változó.

3.1.3. Várható érték

Ha annak a valószínűsége, hogy valaki S összegű pénzt kap, akkor amatematikai várható érték vagy várható érték p.S. Ha X diszkrét valószí-nűségi változó Xk értékekkel és rendre pk valószínűségekkel, akkor X vár-ható értéke e(X):

amennyiben a pj valószínűségeket fj/n relatív gyakoriságokkalhelyettesítjük (n = fj), akkor a várható érték:

minél nagyobb az n, annál inkább közelítik a relatív gyakoriságok avalószínűségeket. ilyen módon e(X)-et úgy is tekinthetjük, mint annak asokaságnak az átlagát, amelyikből a mintát vettük. a várható érték foly-tonos valószínűségi változók esetén a matematikai analízis eszközeiveldefiniálható.

813.1. elemi valóSzínűSéG-elmélet. várHató érték

.

.

Page 84: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

27. példa. a várható érték kiszámításaa következő példánk egy üzleti vállalkozás helyzetét szemlélteti,

amelyben egy szerződés megkötése 60%-os valószínűséggel 300 dollárnyereséget, 40%-os valószínűséggel pedig 100 dollár veszteséget foghozni. a kérdés, hogy ebben a helyzetben érdemes-e megkötni az üzle-tet, vagyis mennyi a várható nyereség/veszteség összege.

tehát a szerződés várhatólag 140 dollár nyereséget fog hozni.

3.2. Elemi mintavételi elmélet. Standard hiba

3.2.1. Bevezetés a mintavételbe

a mintavétel a társadalomstatisztikában az adatokhoz való hozzáju-tás fő módja. a mintavétel melletti legfontosabb érv az, hogy a sokaságigen nagy számú egyedből áll, és ezek teljes körű lekérdezése egyrésztrendkívül idő- és energiaigényes, másrészt az ekkora adatfelvételbőladódó hiba minden bizonnyal felülmúlná a mintavételi hibákat. a min-tavétel célja olyan adatokat nyerni, amelyek segítségével megalapozottkövetkeztetéseket lehet levonni a sokaságra (populációra) vonatkozóan.egy mintából akkor vonhatunk le használható következtetéseket a soka-ságra nézve, ha a mintának lényegében (a kutatás szempontjából lénye-ges változók tekintetében) ugyanolyan az összetétele, mint a sokaságnak(reprezentativitás).

az adatfelvételek mindig tartalmaznak hibákat, viszont ezek egyrészét a statisztika segítségével meg lehet becsülni, a lehetőségek kereteiközött lehet csökkenteni. tehát az adatfelvételi hibák alapvetően kétfé-lék: nem mintavételi és mintavételi hibák (a hiba abból adódik, hogy nema teljes sokaságot figyeltük meg). Bizonyos mintavételi tervek esetén amintavételi hiba nagysága előre becsülhető, míg a nem mintavételi hibanagyságát sem előre, sem utólag nem lehet megadni.

a mintavételi tervek alapvető kérdése az, hogy hogyan választjuk ki amintát: véletlenszerűen – ekkor valószínűségi mintavételről beszélünk, vagynem véletlenszerűen – ekkor nem valószínűségi mintavétellel van dolgunk.

a reprezentatív mintavétel főként véletlen kiválasztáson alapul (asokaság minden egységének egyforma esélye van a mintába való bekerü-

3. mintavétel82

.

Page 85: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

lésre: p = 1/n), ilyen módon a valószínűségelmélet segítségével meg tud-juk becsülni, hogy a minta mennyire pontosan írja le a sokaságot.

a mintavételi tervek fajtái:i. véletlen mintavételi tervek

1. egyszerű véletlen minta (homogén, véges, visszatevés nélkül),2. független, azonos eloszlású minta (homogén, végtelen, nagyon

nagy vaGy véges, visszatevéses),3. szisztematikus minta (homogén, véges, visszatevés nélküli,

lépésköz alkalmazása),4. rétegzett minta (homogén rétegekbe sorolás, majd egyszerű

véletlen minta),5. csoportos minta (homogén, véges, nagyobb összetartozó cso-

portokból mindenkit),6. többlépcsős minta (több lépésben jutunk el a megfigyelt egy-

ségekhez).ii. nem véletlen mintavételi tervek

1. kvótás minta (előre megadott összetételű mintához való vélet-len hozzájutás),

2. önkényes vagy szakértői minta,3. hólabda-minta,4. egyszerűen elérhető alanyokra hagyatkozó minta.

3.2.2. a mintavétel elmélete

a jelenségeknél, ha azonos körülményeket biztosítunk és ugyanarra ajelenségre nézve ugyanazt a vizsgálatot többször elvégezzük, akkor „n”számú megfigyelésnél az esemény „k” számú előfordulása (relatív gyako-risága) valószínűségi változóként kezelhető. Bernoulli tétele alapján a rela-tív gyakoriság eltérése a vizsgált jelenség előfordulási valószínűségétől tet-szőleges valószínűséggel tetszőlegesen kis mértékűvé tehető, ha a mintanagysága (n) minden határon túl növekszik (nagy számok törvénye). a tör-vény szerint, ha a mintaelemek számát fokozatosan növeljük, a bizonyos-ság felé közeledik annak a valószínűsége, hogy a relatív gyakoriság és amatematikai valószínűség csak az általunk tetszőlegesen és előre megha-tározható mértékben tér el. nyilvánvaló ugyanakkor az is, hogy a társadal-mi élet területén a törvény érvényesülése korlátozott (a társadalmi jelensé-gek tulajdonságai változnak), de érvényes az a megállapítás, amely szerintminél nagyobb a minta, annál pontosabb az ebből nyert becslés.

833.2. elemi mintavételi elmélet. Standard HiBa

Page 86: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a véletlen tömegjelenségeknél a tapasztalatok szerint a normálisvagy arra visszavezethető eloszlás a leggyakoribb. a központi határelosz-lás tétele szerint (markov és ljapunov) minden véletlen esemény, amelysok egymástól független valószínűségi változó összegzéseként áll elő ésezek értéke összegükhöz mérten igen kicsi, jó megközelítéssel normáliseloszlású lesz.

3.2.3. a standard hiba

amennyiben tehát a mintavételnél biztosítottuk az alapsokaság min-den tagjának a mintába való bekerülését, akkor a központi határeloszlástételének megfelelően egy adott változó esetében ennek a mintabeliátlagértéke, mint valószínűségi változó, erősen megközelít egy n(m,σ)paraméterű normális eloszlású változót, ahol m és σ a teljes sokaságbeliátlagérték és szórás.

a normális eloszlás jellegzetességeiből az következik, hogy ha a való-színűségi változók normális eloszlást mutatnak, akkor meghatározható,hogy a várható érték (az alapsokaság átlaga) bizonyos határok közöttielhelyezkedésének milyen a valószínűsége. a határok kijelölésénél a szó-rást (vagy annak többszöröseit) vehetjük figyelembe. a szórás által kije-lölt határokat valószínűségi határoknak, a határok közé esés valószínű-ségét pedig valószínűségi szintnek nevezzük.

az alapsokaságból nyerhető lehetséges mintaátlagok szórása vagy amintaátlagok standard hibája egyenesen arányos az alapsokaság szórásá-val és fordítottan arányos a mintanagyság négyzetgyökével. tehát minélnagyobb a minta nagysága, annál kisebb a lehetséges mintaátlagok szó-rása, a standard hiba. Ha a minta nagysága egyenlő a sokaság nagyságá-val, a standard hiba = 0.

ez a standardhiba-meghatározás nyilvánvalóan a valószínűségszá-mítás elméletének arra az esetére vonatkozik, amikor a sokaságból nagyszámú véletlen mintát veszünk. Ha ismerjük a sokaság jellemzőit ésnagyon sok számú véletlen mintát veszünk, akkor meg lehet becsülni,hogy a mintákból számolt statisztikák közül hány fog a sokaság átlagakörüli meghatározott nagyságú intervallumokba esni.

azonban egy valós kutatásnál általában egészen más történik. miveláltalában azért végzünk kutatásokat, hogy a sokaság paraméterét megbe-csüljük, ezt előzőleg nem ismerjük. továbbá általában nem szokás nagyszámú mintát venni, csak egyet.

3. mintavétel84

Page 87: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a gyakorlatban tehát legtöbbször nem ismerjük az alapsokaságravonatkozó átlagot és szórást, ezért az egyetlen mintánkon mért adataink-ból becsüljük meg az alapsokaságra vonatkozó értékeket.

amennyiben az alapsokaságbeli átlagot akarjuk megbecsülni, azalábbi képlettel számoljuk a standard hibát:

ahol n a minta nagysága, σ a minta szórása és a standard hiba.a normális eloszlás a korábbiakban elmondottak alapján tehát lehe-

tővé teszi, hogy megállapítsuk becslésünk megbízhatóságát, valószínűsé-gi szintjét (a minta átlagától milyen valószínűséggel tér el az alapsokaságátlaga). továbbá így a standard hiba egy tetszőleges t többszörösével meg-adhatjuk a becslésünk hibahatárát, konfidencia (megbízhatósági) inter-vallumát. az átlag esetében ezt a képlettel számoljuk ki.

a t értékekhez tartozó leghasználatosabb valószínűségek a 18. táblá-zatban szerepelnek.

18. táblázat. a leghasználatosabb valószínűségi szinteknek megfelelő t értékek (n>120)

dichotóm ismérvek esetén a standard hibát könnyebb megbecsülni arelatív gyakoriságok (vagy valószínűségek szorozva 100) segítségével:

és ekkor a konfidencia-intervallumot az alábbi képletekkel számoljuk:

28. példa. a standard hiba és a konfidencia-intervallum kiszámítása1. a repülőtéri utasokból egy 100 elemű véletlen mintát veszünk. a

mintába bekerült utasok átlagos súlya 80 kg, a minta szórása 20 kg.állapítsuk meg 95%-os valószínűséggel (t=1,96) a repülőtéri utasok átla-gos súlyát.

853.2. elemi mintavételi elmélet. Standard HiBa

t értéke statisztikai biztonság1,96 0,952,58 0,993,29 0,999

,

Page 88: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

első lépésben kiszámítjuk a standard hibát:

második lépésben kiszámítjuk a két konfidencia-intervallumot:80±1,96·2 80+1,96·2=83,92 80–1,96·2=76,08

tehát 95%-os valószínűséggel (0,05-ös szignifikanciaszint mellett) akonfidencia-intervallum: (76,08 – 83,92). 95%-os valószínűséggel kije-lenthetjük, hogy a repülőtéri utasok átlagos súlya 76,08 és 83,92 kgközött van.

99,7%-os valószínűségi szint mellett (t=3) azt mondhatjuk, hogy arepülőtéri utasok átlagos súlya 74 és 86 kg között van (80±3,2). tehátnagyobb valószínűségi szint mellett szélesebb a megbízhatósági inter-vallum is.

2. X kisvárosban egy 1000 fős véletlen mintát vettek a 18 éven felülilakosságból. a mintába bekerült személyek 45%-a a-t, 55%-a pedig B-tválasztaná polgármesternek. Számítsuk ki, hogy 95%-os valószínűséggelki fog nyerni a választásokon.

45±1,96·1,57 45+3,08=48,08 45–3,08=41,92tehát 95%-os valószínűséggel (0,05-ös szignifikanciaszint mellett) a

kisváros választópolgárainak 41,92–48,08%-a fog a-ra szavazni, így 95%-os valószínűséggel állíthatjuk, hogy B fogja megnyerni a választásokat.egy kis fortéllyal még többet is tudunk mondani: a 41,92%-nál kisebb arány valószínűsége 0,025, tehát az a-ra szavazók aránya0,95+0,025=0,975 valószínűséggel kisebb lesz mint 48,08%, tehát az,hogy B nyeri a választást, legalább 97,5%-ra valószínű (az egyoldali szig-nifikanciaszint fele a 0,05-ös kétoldali szignifikanciaszintnek).

3.2.4. Konfidencia-intervallum kiszámítása az SPSS-sel

a megbízhatósági intervallumot SpSS-ben az analyze főmenüDescriptive Statistics, explore menüpontjánál lehet lekérni. itt a program95%-os megbízhatósági intervallumot számol az átlagra, de a valószínű-ségi szint a Statistics mezőben tetszőlegesre állítható.

3. mintavétel86

.

Page 89: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

29. példa. konfidencia-intervallum az SPSS-bennézzük a k140 (egy átlagos hétköznapon hány percet néz televíziót?)

változót. miután megtisztítottuk adatainkat (pl. a Define Variable →

missing Values → Discrete missing Values segítségével a 0 – nem néz tévétés 9999 – egész nap be van kapcsolva, a tévé kódszámokat kivesszük azelemzésből), az előzőek szerint lekérjük a 95%-os valószínűségnek meg-felelő konfidencia-intervallumot (33. ábra).

33. ábra. a konfidencia-intervallum lekérése

a kért adatok az output ablakban olvashatóak (34. ábra).

34. ábra. a konfidencia-intervallumok megjelenítése az output-ban

873.2. elemi mintavételi elmélet. Standard HiBa

Page 90: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

tehát p=0,05 megbízhatósági szint mellett állíthatjuk, hogy a hét-köznapokon – de nem egész nap – tévéző székelyföldi magyar fiatalokegy átlagos hétköznap 121–134 percet nézik a televíziót.

3. mintavétel88

Page 91: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

4. Fejezet

KÉTVÁLTozóS ELEmzÉSEK

4.1. Változók közötti kapcsolatok

az ismérvek közötti kapcsolatok vizsgálatának célja a valóság jelen-ségei között fennálló összefüggések tömör, számszerű jellemzése. ez aterület a statisztikai módszertan kiemelkedő részét képezi.

egy sokaság egységei különféle tulajdonságaik felsorolásával jellemez-hetőek. a tulajdonságok egy része a sokaság minden egységére nézveközös, másik része azonban egységről egységre változik, azaz egyedi.végső soron minden tulajdonság a vizsgált egységekre vonatkozó ismere-teket pontosítja valamilyen módon. Ha a vizsgált sokaság egységeinek vala-milyen nem közös tulajdonságát rögzítjük, akkor mindig egy részsokaság-hoz jutunk (leszűkül az egységek köre). egy ismérv/változó vizsgálatáraazért van szükség, mivel az egyes egységek különböző ismérvértékeketvesznek fel, tehát szóródó változókat elemzünk (a „szóródás” itt és a továb-biakban nagyon általánosan értendő: minőségi ismérvekre is vonatkozik).

4.1.1. az ismérvek közötti kapcsolat

egy sokaság (a továbbiakban fősokaság) egységeinek valamilyenismérv (y) szerinti megoszlását feltétel nélküli megoszlásnak nevezzük. afősokaságból egy más ismérv (X) alapján kijelölt részsokaságok előző (y)ismérv szerinti megoszlását feltételes megoszlásnak nevezzük. míg a fel-tétel nélküli megoszlások mindig (másképp nem lenne értelme az elem-zésnek), addig a feltételes megoszlások nem szükségképpen szóródóak(egy jó osztályozással néha el lehet érni, hogy egy-egy részsokaságba avizsgált ismérv szempontjából azonos vagy közel azonos elemek kerülje-nek). amennyiben például a kitűnő teljesítményt nyújtó sportolók jöve-delemkülönbségeit vizsgáljuk, egy jó, sportágakra alapuló csoportosítás-sal el lehet érni, hogy egy-egy kategóriába nagyon hasonló jövedelműsportolók kerüljenek.

a feltételes megoszlások szóródásának vizsgálata az ismérvek közöt-ti kapcsolatra világít rá.

Page 92: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a feltételes megoszlásoknak a feltétel nélküli megoszláshoz valóviszonyulása kétféle lehet.

1. minden feltételes megoszlás egyforma, így megegyezik a feltételnélküli megoszlással – ekkor függetlenség áll fenn. a részsokaságok kép-zésére használt csoportképző ismérvet (X) és a részsokaságon belülielemzésre használt ismérvet (y) egymástól függetlennek nevezzük, ami-kor az X szerinti csoportba való tartozásának ismerete nem ad semmifé-le többletinformációt a részsokaságon belül használt valamely másismérv, vagyis y szerinti hovatartozásáról, tulajdonságáról.

2. Nem minden feltételes megoszlás egyforma – a két változó közöttösszefüggés van:

a) a feltételes megoszlásokon belül van szóródás – sztochasztikus(statisztikus) kapcsolat,

b) a feltételes megoszlásokon belül nincs szóródás – determi-nisztikus, függvényszerű kapcsolat.

amikor a két változó között összefüggés van, biztosan tudjuk, hogylegalább egy feltételes megoszlás más, mint a feltétel nélküli megoszlás.ilyen módon nem mindegy, hogy egy részsokaság vagy a teljes sokaságmegoszlását vizsgáljuk, mivel a csoportosító ismérv (X) nem független amásik ismérvtől (y), a kettő között összefüggés van.

determinisztikus kapcsolat esetén a részsokaságon belüli ismérvér-tékek nem szóródnak, a csoportképző (X) ismérv egyértelműen meghatá-rozza a másik ismérv (y) nagyságát vagy értékét. ebben az esetben a kétismérv függvényszerű kapcsolatban áll egymással: az X értéke pontosanmegadja y-ét. például ha a Nem (X) és az alkoholfogyasztás (y) közöttiösszefüggést vizsgáljuk, determinisztikus kapcsolat esetén minden férfifogyaszt alkoholt és egyetlen nő sem iszik szeszesitalt. tehát ha ismerjüka személy nemét (az X változóra felvett értékét), egyértelműen meghatá-rozhatjuk, hogy fogyaszt vagy nem fogyaszt alkoholt (az y szerinti érté-két). nyilvánvalóan a determinisztikus kapcsolat a valóságban igen rit-kán fordul elő, sokkal gyakoribbak a sztochasztikus kapcsolatok.

a sztochasztikus kapcsolat a függetlenség és a determinisztikus kap-csolat között helyezkedik el: az ismérvek nem függetlenek, de nincs isközöttük függvényszerű kapcsolat. az egyik ismérv (X) hatással van amásikra (y), de annak értékeit nem határozza meg egyértelműen.Sztochasztikus kapcsolat esetén az X ismérv szerinti hovatartozás ismere-tében levonható valamilyen következtetés az egységek X szerinti hovatar-tozásáról, de ez a következtetés nem teljesen egyértelmű. az előző példánk

4. kétváltozóS elemzéSek90

Page 93: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

esetében a Nem ismeretében következtethetünk arra, hogy pl. a férfiaknagyobb arányban fogyasztanak alkoholt, mint a nők, de ha tudjuk, hogyvalaki férfi, az még nem jelenti egyértelműen, hogy szeszesitalt fogyaszt.

az eddigiek könnyen általánosíthatóak kettőnél több ismérv esetére is.több ismérv kapcsolatának vizsgálatakor az is elemezhető, hogy milyentermészetű kapcsolat van két vagy több ismérv között (y, z) egy másikismérv (X) szerint kialakított részsokaságon belül (parciális kapcsolat).

4.1.2. az ismérvek közötti kapcsolat fajtái

amikor két vagy több ismérv közötti kapcsolatot vizsgálunk, előszörmindig meg kell vizsgálnunk, hogy van-e kapcsolat a vizsgált ismérvekközött, amennyiben van kapcsolat, milyen szoros a kapcsolat (annál szo-rosabb, minél közelebb áll a determinisztikus kapcsolathoz), majd el kelldöntenünk, hogy hogyan lehet felhasználni a kapcsolat természeténekismeretét következtetések levonására. a kérdések megválaszolása függ azegyszerre vizsgált ismérvek számától és mérési szintjétől.

ebben a fejezetben csak két ismérv kapcsolatát vizsgáljuk.az ismérvek jellege szerint a következő eseteket szokás megkülön-

böztetni:– minőségi változók közötti kapcsolat, asszociáció (mindkét változó

nominális mérési szintű, vagy egyik változónk nominális, a másik pedigordinális mérési szintű, illetve mindkét változó ordinális mérési szintű),

– vegyes kapcsolat, átlagértékek összehasonlítása (egy nominális ésegy intervallum vagy arányskálán mért változó összefüggése),

– mennyiségi változók közötti kapcsolat, korreláció (két intervallumvagy arányskálán mért változó közötti kapcsolat).

ezt a három esetet kapcsolatfajtáknak nevezik. a statisztika kizárólag az ismérvek együttváltozásának számszerű

jellemzésére képes (az együttváltozás okát nem vizsgálja). amikor azismérvek között közvetlen okozati kapcsolat van, függő és független vál-tozókról beszélünk.

4.1.3. a kapcsolatvizsgálat általános eszközei

Ha a sokaság elég nagy, a két ismérv közötti kapcsolat vizsgálatánaklegegyszerűbb és legáltalánosabb eszköze a két ismérv szerinti kombina-tív osztályozás, kontingenciatábla vagy kereszttábla (19. táblázat).

914.1. változók közötti kapCSolatok

Page 94: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

19. táblázat. a kereszttábla általános formája

a két ismérv közötti kapcsolat fennállása konkrétan a feltételes ésfeltétel nélküli y megoszlások összehasonlításával mutatható ki. Ha min-den sorban azonos a megoszlás, függetlenségről beszélünk. Ha mindensor csak egy 0-tól különböző gyakoriságot tartalmaz, és ezek nem mindugyanabban az oszlopban találhatók, akkor függvényszerű kapcsolatrólbeszélünk.

a fentiek alapján a két ismérv közötti kapcsolat léte legegyszerűbbenvagy a soronként számított megoszlási viszonyszámokból (f11/f1. = f21/f2.stb.), vagy az fij tényleges, és f*ij feltételezett gyakoriságok összehasonlí-tása útján vizsgálható. a feltételezett gyakoriságokat a két ismérv függet-lenségének feltételezése melletti gyakoriságoknak szokás nevezni. a fel-tételezett vagy elméleti gyakoriság egyenlő a két változó szerinti feltételnélküli megoszlások (peremgyakoriságok) szorzatának és a sokaság nagy-ságának hányadosával:

a kapcsolat szorosságának mérésére ez az eljárás csak bizonyos ese-tekben használható, az egyik ismérv szerinti hovatartozásból a másikismérv szerinti hovatartozásra való következtetésre pedig egyáltalán.

a Pre eljárás a függőség oldaláról közelít. X és y között annál szo-rosabb a kapcsolat, minél nagyobb segítséget ad az egységek X szerintihovatartozásának ismerete az adott egységek y szerinti hovatartozásánakkitalálásához, tehát a többletinformáció mennyiségét próbálja mérni. apre minden sztochasztikus kapcsolat szorosságának mérésére alkalmas,azonban a képletben szereplő hibák értelmezése és számítási módja min-dig a következtetés konkrét módjától függ.

4. kétváltozóS elemzéSek92

X ismérv szerintiosztályok

y ismérv szerinti osztályokr1 r2 ... rj ... rc j

C1C2...Ci...Cr

f11f21...fi1...fr1

f12f22...fi2...fr2

...

...

...

...

...

...

f1jf2j...fij...frj

...

...

...

...

...

...

f1cf2c...fic...frc

f1 .f2 ....fi ....fr .

i f. 1 f. 2 ... f. j ... f. c N

.

Page 95: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a pre mutatószám mindig 0 és 1 közé esik és azt fejezi ki, hogy a vizs-gált egységek X szerinti hovatartozásának megtudása milyen mértékbencsökkenti az egységek y szerinti hovatartozásával kapcsolatos bizonyta-lanságot. Ha pre = 0, egyáltalán nem csökkenti a bizonytalanságot, vagyisa két változó független, ha pre = 1, akkor teljesen megszűnik a bizonyta-lanság, tehát a két változó függvényszerű kapcsolatban áll egymással.

a pre meghatározása:1. lépés: meghatározzuk, hogy összességében mekkora hibával járna,

ha az y szerinti hovatartozást kizárólag az y szerinti feltétel nélküli meg-oszlásra alapozva próbálnánk meg kitalálni (e1);

2. lépés: meghatározzuk az előző értelemben vett összes hibát azonfeltevés mellett is, hogy ismerjük az X szerinti hovatartozást és azok yszerinti hovatartozását mindig a megfelelő feltételes megoszlásra támasz-kodva próbáljuk megadni (e2);

3. lépés: meghatározzuk a hibacsökkenés relatív mértékét, amely azy szerinti feltételes megoszlások ismeretének tulajdonítható.

a mutatószám azt fejezi ki, hogy a vizsgált egységek X szerinti hova-tartozásának ismerete milyen mértékben csökkenti az egységek y szerin-ti hovatartozásával kapcsolatos bizonytalanságot.

4.2. minőségi változók közötti kapcsolat

a minőségi változók értékei között nincsenek egyértelmű mennyisé-gi különbségek, így a kapcsolatvizsgálat azt jelenti, hogy összehasonlít-juk a feltételes eloszlásokat, és ebből megállapítjuk, hogy van-e eltérés ésaz milyen jellegű. ezt a típusú kapcsolatot asszociációnak nevezzük. kétváltozó között akkor van asszociáció, ha az egyik értékeinek eloszlásaaszerint változik, hogy a másik változó különböző értékeket vesz fel.

4.2.1. asszociációszámítás feltételezett gyakoriságok használatával

az asszociációs kapcsolatot a feltételes és a feltétel nélküli megosz-lások összehasonlítása révén vizsgáljuk.

934.2. minőSéGi változók közötti kapCSolat

Page 96: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

először az fij tényleges és az f*ij feltételezett gyakoriságok szembesí-tése útján végezzük (a két eljárás ekvivalens) az összefüggés-vizsgálatot.

a 2 (khi-négyzet) mutató az fij és f*ij összehasonlítására szolgálóigen nevezetes mennyiség. a 2-próba azt vizsgálja, hogy egy mintán kétmért változó megfigyelt értékeinek feltételes gyakoriságai mennyire tér-nek el a függetlenség esetén várható elméleti gyakoriságoktól, azaz mek-kora valószínűséggel fordulnak elő ekkora eltérések.

a 2 tulajdonságai:– méri az fij és f*ij különbségét,– az (fij – f*ij)2 különbség-négyzet f*ij-vel való osztása révén relatív

értéket kapunk,– érvényesül a 0 £ 2 £ N·min{r – 1, c –1} egyenlőtlenség, ahol

min{r–1, c–1} az r (sorok száma) –1 és c (oszlopok száma) – 1 számokkisebbikét jelöli.

Ha a 2 = 0, akkor fij = f*ij i és j minden értékére, ekkor X és y füg-getlen egymástól. a valószínűségszámításból azonban tudjuk, hogy asztochasztikus összefüggésekre vonatkozó kijelentések csak bizonyosvalószínűséggel igazak. kézi számítások esetében mi választunk ki egyvagy több szignifikanciaszintet, és ehhez keressük a megfelelőértéket/értékeket. általában p=0,05-öt, azaz 95%-os valószínűségi szintet(vagy ennél kisebb szintet, p=0,01, p=0,001 stb.) szokás választani.annak eldöntésére, hogy a 2 értékünk a választott valószínűség mellettszignifikáns összefüggést mutat-e, az úgynevezett 2-eloszlás táblázatáthasználjuk. ebből a táblázatból egy szignifikanciaszintnek és egy szabad-ságfoknak (df=(r–1)(c–1), azaz „sorok száma mínusz 1 szorozva oszlopokszáma mínusz 1”) egyetlen 2 érték olvasható le. ezt az értéket küszöb-számnak tekintjük (jelöljük k-val), és ezzel hasonlítjuk össze az általunkszámított 2 értéket. Ha 2 < k, akkor X és y között nincs szignifikánskapcsolat a választott szignifikanciaszinten (p=0,05 esetében 95%-osvalószínűséggel állítható). ugyanakkor nagyon fontos megjegyezni, hogya küszöbszám alatti értéknél kicsivel kisebb 2 inkább azt jelenti, hogyösszefüggés van a két változó között, csupán a megvizsgált sokaság kicsiahhoz, hogy ez a kapcsolat statisztikailag szignifikánsnak látsszék.

Ha 2 ≥ k, akkor azt mondjuk, hogy 95%-os valószínűséggel állítha-tó, hogy az X és y változók között asszociációs kapcsolat van, azaz az

4. kétváltozóS elemzéSek94

Page 97: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

alcsoportokban észlelt eltérések nem csak a véletlennek tudhatók be. a2 próbával vizsgált összefüggés erősségét csak viszonylagosan tudjukmegállapítani. minél nagyobb a 2 értéke a neki megfelelő táblázatbeliértéknél, annál erősebb a kapcsolat.

az adatok számítógépes feldolgozásakor 2-eloszlás táblázat haszná-latára nincs szükség, hiszen az SpSS automatikusan kiszámolja az adottértéknek megfelelő szignifikanciaszintet is.

30. példa. a 2 kiszámításaa 2 kiszámítására nézzük az alábbi fiktív példát. a kereszttábla egy

ezer fős véletlen minta nem és tévénézési szokások szerinti megoszlásáttartalmazza (20. táblázat).

20. táblázat. Nem és tévénézési szokások szerinti megoszlások (abszolút gyakoriságok)

először dolgozzunk relatív gyakoriságokkal.mivel feltételezzük, hogy a nem változó határozza meg a tévénézési

szokásokat és nem fordítva, a nem-et tekintjük független változónak éseszerint százalékolunk (21. táblázat).

21. táblázat. Nem és tévénézési szokások szerinti megoszlások (relatív gyakoriságok)

a 21. táblázatot úgy kaptuk, hogy az egyes cellagyakoriságokat elosz-tottuk a peremgyakoriságokkal és megszoroztuk százzal. így a duna tévétnéző férfiak az összes férfi 50%-át jelentik (200·100/400=50,0%), azacasă tévét néző férfiak az összes férfi 12,5%-át (50·100/400=12,5%), a

954.2. minőSéGi változók közötti kapCSolat

Nem/Legtöbbetnézett tévéadó

Duna acasă Eurosport Összesen

Férfiaknők

200350

50200

15050

400600

összesen 550 250 200 1000

Nem/Legtöbbetnézett tévéadó

Duna acasă Eurosport Összesen

Férfiaknők

50,0%58,4%

12,5%33,3%

37,5%8,3%

100%100%

összesen 55,0% 25,0% 20,0% 100%

Page 98: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

duna tévét néző nők az összes nő 58,4%-át (350·100/600=58,4%), azösszes duna tévét néző a megkérdezettek 55%-át képezik(550·100/1000=55%) stb.

a soronként számított megoszlási viszonyszámok a két változó köztikapcsolatot mutatják, hiszen függetlenség esetén a táblázatunk a 22. táb-lázat képét mutatná.

22. táblázat. Nem és tévénézési szokások szerinti megoszlások függetlenség esetén (relatív gyakoriságok)

abszolút gyakoriságokban kifejezve, függetlenség esetén a tábláza-tunk a 23. táblázat formájában nézne ki.

23. táblázat. Nem és tévénézési szokások szerinti megoszlások függetlenség esetén (abszolút gyakoriságok)

a 23. táblázatot az előző, függetlenség esetén várt relatív gyakorisá-gokat tartalmazó táblázatból kaptuk, úgy, hogy az egyes peremgyakorisá-gokat megszoroztuk a független változó (nem) szerinti relatív gyakorisá-gokkal és visszaosztottuk 100-zal. így függetlenség esetén 220 duna tévétnéző férfi (400·55/100=220), 330 duna tévét néző nő (600·55/100=330),100 acasă tévét néző férfi (400·25/100=100), 150 acasă tévét néző nő(600·25/100=150) stb. kellene legyen.

mivel tehát az eredeti és a kiszámított abszolút gyakorisági tábláza-tunk egyértelműen eltér egymástól (elméletileg, ha a tévénézést nembefolyásolná a nem, 100 férfi kellene nézze az acasă tévét, ezzel szem-ben az adataink szerint csak 50 férfi nézi stb.), jó okunk van feltételezni,hogy a két változó között van kapcsolat.

4. kétváltozóS elemzéSek96

Nem/Legtöbbetnézett tévéadó

Duna acasă Eurosport Összesen

Férfiaknők

55%55%

25%25%

20%20%

100%100%

összesen 55% 25% 20% 100%

Nem/Legtöbbetnézett tévéadó

Duna acasă Eurosport Összesen

Férfiaknők

220330

100150

80120

400600

összesen 550 250 200 1000

Page 99: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

másodszor pedig mutassuk ki a kapcsolatot a 2 kiszámításával.ehhez első lépésben kiszámítjuk a két ismérv függetlenségének feltétele-zése mellett a várható gyakoriságokat (f*ij).

észrevehető, hogy mind a képlettel, mind a relatív gyakoriságoksegítségével ugyanazokat az adatokat kaptuk (23. táblázat).

ismervén az elméleti gyakoriságokat, a 2 képletébe behelyettesítjükőket és a tényleges gyakoriságokat, majd elvégezzük a számításokat.

ilyen módon látható, hogy 2 értéke 0-tól különböző, azaz a kétismérv között valószínűleg van kapcsolat. a kereszttáblákból az is kitűnik,hogy a kapcsolat nem függvényszerű, hanem sztochasztikus. példánkra afüggvényszerű kapcsolat egy lehetséges esete a 24. táblázat lenne.

24. táblázat. Nem és tévénézési szokások szerinti megoszlások függvényszerű kapcsolat esetén (abszolút gyakoriságok)

nézzük most a mellékletben szereplő 2-táblázatot. a szabadságfo-kunk: df=(2–1)(3–1)=2, a választott valószínűségi szint 0,05. a 2-táblá-zatból idevágó értékek a 26. táblázatban szerepelnek.

25. táblázat. a szabadságfoknak és szignifikanciaszinteknek megfelelő 2 értékek

974.2. minőSéGi változók közötti kapCSolat

Nem/Legtöbbetnézett tévéadó

Duna acasă Eurosport Összesen

Férfiaknők

00

0600

4000

400600

összesen 0 600 400 1000

SzabadságfokSzignifikanciaszint

p=0,05 p=0,01 p=0,0012 5,991 9,210 13,815

Page 100: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a táblázatból kiolvashatjuk, hogy az ezeknek a paramétereknek meg-felelő 2 érték 5,991. az általunk számított érték 146,8, így jóval nagyobba küszöbértéknél, tehát az összefüggés szignifikáns (99,9%-os valószínű-ség mellett is).

ezek alapján elmondható, hogy igen jelentősen eltérnek a férfiak ésnők tévénézési szokásai. a férfiak négyszer nagyobb arányban nézik asportadót, mint a nők, akik viszont háromszorosnál nagyobb arányban asorozatfilmeket sugárzó adót nevezik meg leginkább nézettnek. a dunatévé kedveltsége nagyon hasonló arányt mutat a két nem esetében, fele,illetve kicsivel több mint fele a megkérdezett férfiaknak és nőknek eztpreferálja a többi adó ellenében.

4.2.2. az asszociáció mérőszámai

a 2 mennyiséget valamilyen alkalmas viszonyítási alaphoz hason-lítva megkapjuk az asszociáció szorosságának különféle 2 alapú mérő-számait. a leghasználatosabb viszonyítási alap a 2 felső határaként defi-niált N·min{r–1, c–1} érték, ezt használva az asszociáció Cramer-féle Vasszociációs együtthatóját kapjuk meg.

a C mutatószám 0 és 1 határok között helyezkedik el. C = 0, ha 2 = 0, vagyis ha a két változó független, C = 1, ha a kapcsolat determi-nisztikus.

a gyakorlatban szintén gyakran használt asszociációs együttható aCsuprov-féle asszociációs együttható. ez a mutató azviszonyítási alapot használja, ahol a szabadságfok (df) az (r–1)·(c–1) szorzat:

Ha r ≠ c, akkor a t viszonyítási alapja nagyobb, mint a C viszonyí-tási alapja, ha r = c, akkor egyenlőek.

a Cramer-féle v és a Csuprov-féle t asszociációs együtthatón kívülmég számos más 2 alapú asszociációs együttható létezik.

31. példa. 2 alapú asszociációs mutatók kiszámításavisszatérve az előző, 30. példánkhoz, számoljuk ki a C és a t értékeit.

4. kétváltozóS elemzéSek98

Page 101: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

mindkét mutató azt jelzi, hogy a két változó közötti kapcsolat eléglaza (közepesnél gyengébb). a szignifikanciaszint alapján elmondhatjuk,hogy a nem befolyásolja a tévénézési szokásokat, a fenti mutatók alapjánpedig arra következtethetünk, hogy a nemen kívül még léteznie kell másmagyarázó tényező(k)nek is.

4.2.3. asszociációszámítás PRE (proportionate reduction oferror) eljárással

a pre-eljárás alkalmazásával szintén többféle asszociációs együttha-tó képezhető. a továbbiakban az úgynevezett l mutatókkal (lambda) fog-lalkozunk. a ly/X mutató azt méri, hogy az X szerinti hovatartozás isme-rete hány százalékkal csökkenti az y szerinti hovatartozás becslésekorelkövetett hibát.

Ha nem ismerjük az X szerinti hovatartozást, csak az egységek y sze-rinti megoszlását, akkor minden egység y szerinti hovatartozását legké-zenfekvőbb a legnagyobb (modális) gyakoriságú y-osztállyal becsülni.mivel ennek az osztálynak a gyakorisága maxj {f . j }, ilyen módon eljár-va összesen n – maxj {f . j} számú egység y szerinti besorolása eseténtévedünk, azaz hibázunk:

e1 = N – max j {f . j} (j szerinti oszlop max. peremeloszlása).egy olyan egység y szerinti hovatartozását, amelyről tudjuk, hogy X

szerint a Cxi osztályba tartozik, azzal az y osztállyal fogjuk becsülni,

amelyre nézve fij az i-edik sorban j szerint maximális. ilyen módon a Cxi

osztályba tartozó egységek y szerinti besorolásakor fi . – maxj {fij} számúesetben fogunk hibázni:

994.2. minőSéGi változók közötti kapCSolat

Page 102: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

ezek alapján kiszámítható a pre mutató:

Ha pre = 0, nem feltétlenül függetlenség áll fenn. pre = 0, ha mindaz y szerinti feltételes eloszlások, mind a feltétel nélküli eloszlásokmodális osztálya megegyezik, de az eloszlások egyébként eltérőek. a prevagy lambda (l) azt mutatja, hogy az egységek X szerinti hovatartozásá-nak ismerete hány százalékkal csökkenti az azok y szerinti hovatartozá-sát illető bizonytalanságot, ez az ismeret hogyan javítja az y szerintihovatartozás becsülhetőségét.

32. példa. a l kiszámításatérjünk vissza a 30. példánkhoz (20. táblázat), és számítsuk ki a l

értékét.Ha nem tudjuk a nemek szerinti megoszlást, csak azt ismerjük, hogy

hányan nézik a különböző tévéadókat, akkor hibázunk a legkevesebbet,ha arra tippelünk, hogy mindenki a duna tévét nézi, mivel ezt nézik leg-többen.

E1 = N – max j {f . j} = 1000 – 550 = 450

ismerve a nemek szerinti megoszlást is, minden nőt és minden férfitduna tévét nézőnek érdemes tippelni:

ezek alapján kiszámítható a l:

tehát a l értéke 0, mivel mind a nők, mind a férfiak közül is legtöb-ben a duna tévét nézik, és nem azért, mert a két változó független lenne.

4. kétváltozóS elemzéSek100

.

.

Page 103: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

4.2.4. asszociáció számítása az SPSS-sel

ahogyan már a gyakorisági megoszlások alfejezetben megismertük,kontingencia-táblákat az analyze főmenü Descriptive Statistics almenüjé-ben, a Crosstabs menüpontnál készíthetünk. a bal oldalon szereplő vál-tozók közül kiválasztjuk azt a kettőt (többet is lehet, de minél többdimenziós a kereszttáblánk, annál kevésbé áttekinthető), amelyikrekereszttáblát kérünk. a Cells gombnál beállítjuk, hogy sorra vagy osz-lopra százalékoljon a program (Percentages ablakrész), valamint a Countsablakrészben az elméletileg várt gyakoriságok megjelenítését (expectedCounts), majd Continue-t kattintunk.

visszatérve a főablakba, a Statistics gombnál lekérjük a 2-et (Chi-square) és a Nominal ablakrészben feltüntetett asszociációs mutatókat:

– kontingencia együttható (Contingency coefficient): 0 és 1 értékekközötti 2 alapú mutató,

– Phi és Cramer-féle V: 0 és 1 értékek közötti 2 alapú mutató,– lambda: 0 és 1 érték közötti pre-mutató,– bizonytalansági együttható (Uncertainty coefficient): 0 és 1 érték

közötti pre-mutató.végül a Crosstabs főablakban a változók alatt, bal oldalon beklikkel-

hetjük, hogy a program ábrázolja is adatainkat (Display Clustered BarCharts), majd ok-t kattintunk.

33. példa. asszociációs mutatók az SPSS-benadatbázisunkban a k117-es ismérv a dohányzási szokásokra vonat-

kozik (Szokott-e dohányozni? 1 – naponta, 2 – hetente néhányszor, 3 –hetente egyszer, 4 – ennél ritkábban, 5 – nem szokott). kódoljuk át a k117-es változót egy új változóba, hogy csak két kategóriánk legyen: 1. dohány-zik és 2. nem dohányzik, majd vizsgáljuk meg, hogy van-e összefüggés adohányzás és a nem (k3.1-es változó) között.

első lépésként kérünk egy gyakorisági megoszlást (analyze →

Descriptive Statistics → Frequencies) a k117-es változóra. a táblázat aztmutatja, hogy az 1, 2, 3, 4, 5 kódok mellett szerepel egy 0-ás értékünk is,amely a „nem tudja” válaszlehetőséget jelöli. tehát erre az átkódolásnálfigyelnünk kell.

második lépésben hozzuk létre az új változót (transforme recode →into Different Variables), a 35. ábra szerint.

1014.2. minőSéGi változók közötti kapCSolat

Page 104: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

35. ábra. a válaszlehetőségek átkódolása

Címkézzük fel a k117uj változónkat a megadottak szerint (Data →

Define Variable), majd kérjünk egy kereszttáblát a k3.1 és a k117uj válto-zókra, lekérve az asszociációs együtthatókat is, ahogyan a 36. ábra mutat-ja (a Nem változó szerint százalékoltassunk).

36. ábra. asszociációs mutatók lekérése

4. kétváltozóS elemzéSek102

Page 105: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a kért statisztikák az output ablakban tekinthetők meg. a 37. ábra akért kereszttáblát mutatja.

37. ábra. a kontingencia-tábla

kereszttáblánkra pillantva azt látjuk, hogy a megfigyelt és az elméle-tileg várt abszolút gyakoriságok között van különbség, a relatív gyakorisá-gok alapján pedig a férfiak nagyobb arányban dohányoznak, mint a nők.teszt nélkül azonban nem tudhatjuk, hogy a véletlen mintánkban tapasz-talt különbözőség mekkora valószínűséggel állhat elő egy olyan sokaság-ból, amelyben a férfiak és nők dohányzási szokásai azonosak lennének.

a 2 tesztünk erős szignifikáns összefüggést mutat, hiszen a pearson-féle 2 20,194-es értéke p=0,000 szignifikanciaszintű (sokkal kisebb,mint 0,05). ez a szignifikanciaszint nem 0, nem azt jelenti, hogy abszo-lút biztos az összefüggés, csupán a program számította szignifikancia-szint kisebb, mint 0,0005, tehát 3 tizedesjegyre kerekítve íródik 0,000-nak. a pontosabb érték elérhető, ha a Chi-Square tests táblázatra duplátkattintunk az egérrel és aztán duplát a .000 kijelzésre.

tehát igen nagy valószínűséggel állítható az, hogy a férfiak és nőkdohányzási szokásai különböznek (38. ábra).

a lambda értéke 0,161 (esetünkben a Nem a független változó) ésszintén szignifikáns érték (39. ábra). tehát a nem ismerete 16%-kal csök-kenti a dohányzási szokások ismeretével kapcsolatos bizonytalanságot.

1034.2. minőSéGi változók közötti kapCSolat

Page 106: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

38. ábra. a 2 statisztika

39. ábra. a lambda mutató

a Cramer-féle asszociációs együttható értéke 0,164 és szignifikáns(p=0,000), ahogyan a 40. ábrán láthatjuk. tehát a két változó közöttikapcsolat laza (nem csak a nem befolyásolja, hogy valaki dohányzikvagy nem).

40. ábra. a 2 alapú asszociációs mutatók

4. kétváltozóS elemzéSek104

Page 107: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

összességében tehát azt mondhatjuk, hogy a nem és a dohányzásközött szignifikáns összefüggés van (p=0,000): a férfiak nagyobb arány-ban dohányoznak (58,1%), mint a nők (41,6%).

4.2.5. Két ordinális mérési szintű változó közötti kapcsolat

arra az esetre vonatkozik, amikor mindkét változó sorrendi (ordiná-lis) skálán mérhető. a továbbiakban a kapcsolat szorosságának mérésérehasználható leggyakrabban alkalmazott mutatóval, a gamma (g) mérő-számmal foglalkozunk.

akárcsak a lambda, a gamma is azon alapul, hogy mennyire segíti azegyik változó szerinti hovatartozás ismerete a másik értékének becslését.ilyen módon szintén a pre-eljárás alapján dolgozunk.

tudjuk, hogy az ordinális mérési szintű változók értékeinek csak asorrendje jelent valamilyen információt, ezért nem a leggyakoribb érték-re, hanem az értékek ordinális elrendezésére, sorrendjére tippelünk.minden egyes esetpárnál azt tippeljük, hogy a két eset elrendezése azegyik változó szerint megfelel (pozitívan vagy negatívan) a másik válto-zó szerinti elrendezésnek: az egyik változó szerint „nagyobb” eset amásik változó szerint is mindig „nagyobb”, vagy pedig a másik változószerint mindig „kisebb”.

a gamma kiszámításánál két mennyiséget kell ismerni: – azon esetpároknak a számát, amelyeknél egyforma a két változó

szerinti nagyságviszony,– azon esetpárok számát, ahol az egyik változó szerint az egyik eset

a nagyobb, a másik változó szerint a másik eset a nagyobb.az egyező nagyságrendű számpárok kiszámítása: mindegyik cellá-

ban az elemek számát megszorozzuk az alatta és ugyanakkor tőle jobbrafekvő cellákban lévő elemek számának összegével, majd összeadjuk eze-ket a szorzatokat.

az ellentétes nagyságviszonyú számpárok kiszámítása: a kereszttáblamindegyik cellájában az elemek számát megszorozzuk az alatta és egy-ben tőle balra fekvő cellákban lévő elemek számának összegével, majdösszeadjuk a szorzatokat.

a gammát az egyező és az ellentétes rendezésű párok számából szá-mítjuk ki:

1054.2. minőSéGi változók közötti kapCSolat

Page 108: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a g értéke mindig –1 és 1 között van, így a kapcsolat szorosságánkívül annak irányát is megadja.

34. példa. a gamma mutató kézi számításaa 26. táblázat a saját munkaerő-piaci helyzet megítélését jelzi iskolai

végzettség szerinti bontásban (fiktív adatok).

26. táblázat. iskolai végzettség és munkaerő-piaci helyzet szerinti megoszlás

Számoljuk ki a g értékét.negyező = 200(400+150+20+70) + 50(20+70) + 50(150+70) +

+ 400(70) = 171500nellentétes = 80(400+80+10+20) + 150(10+20) + 50(50+10) +

+ 400(10) = 52300

a g értéke egy közepes erősségű, pozitív kapcsolatot mutat a két vál-tozó között: a magasabb iskolai végzettségű személyek elégedettebbek amunkaerő-piaci helyzetükkel, míg az alacsony iskolai végzettségűekkevésbé elégedettek saját munkaerő-piaci helyzetükkel.

4.2.6. Két ordinális változó kapcsolatának vizsgálata az SPSS-sel

akárcsak az asszociációs együtthatókat, a gammát is az analyzefőmenü Descriptive Statistics almenüjében, a Crosstabs menüpontnál kér-hetjük le. a bal oldalon szereplő változók közül kiválasztjuk azt a kettőt,amelyikre kereszttáblát kérünk. a Cells gombnál beállítjuk, hogy sorravagy oszlopra százalékoljon a program (Percentages ablakrész), majdContinue-t kattintunk.

visszatérve a főablakba, a Statistics gombnál lekérjük az ordinalablakrészben feltüntetett mutatókat:

4. kétváltozóS elemzéSek106

Isk. végz./munkaerő-piaci helyzet Rossz Közepes Jó Összesenalapfokúközépfokúfelsőfokú

2005010

5040020

5015070

300600100

összesen 260 470 270 1000

Page 109: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

– gamma: –1 és 1 értékek közé eső pre mutató,– Somer’s d: a gamma kiterjesztése (az elemzésbe bevonja a független

változóhoz nem kötődő esetpárokat is), értéke –1 és 1 közé esik,– kendall’s tau-b: –1 és 1 értékek közé eső pre mutató, figyelembe

veszi a kötődéseket,– kendall’s tau-c: –1 és 1 értékek közé eső pre mutató, nem veszi

figyelembe a kötődéseket.

35. példa. a gamma lekérése az SPSS-benadatbázisunkban a már ismert k117 változó a dohányzási szokások-

ra vonatkozik (Szokott-e dohányozni? 1 – naponta, 2 – hetente néhány-szor, 3 – hetente egyszer, 4 – ennél ritkábban, 5 – nem szokott), a k121.1-es ismérv pedig a feketekávé fogyasztásának gyakoriságát méri (milyengyakran fogyaszt kávét? 1 – soha, 2 – csak alkalmanként, 3 – hetente egy-szer, 4 – hetente néhányszor, 5 – naponta). vizsgáljuk meg a két ordinálismérési szintű változó közötti kapcsolatot.

első lépésként gyakoriságot kérünk mindkét változóra, és megtisztít-juk az adatokat a nem releváns válaszoktól. mindkét változónkban sze-repel a 0-s („nem tudja”) érték, amelyet kiszűrünk az elemzésünkből. aszűrést többféleképpen is megoldhatjuk:

– kétszer a változókra klikkelve a missing Values mezőben a 0-thiányzó adatnak jelöljük be,

– eredeti változóinkat átkódoljuk új változókba úgy, hogy a 0 értéketSistem missing-gé alakítjuk (transforme, recodeinto Different Variableparanccsal),

– esetleválogatással, a „k117 ~= 0 | k121.1 ~= 0” feltételes szű-rési paranccsal (Data, Select Cases, if…).

a tisztításhoz az első esetet használom, majd ugyanitt felcímkézema változókat a 41. ábra szerint.

az előzőekben leírtak szerint lekérjük a kereszttáblát és a gammát(42. ábra). a két változónk esetében most teljesen mindegy, hogy melyi-ket tesszük sorba vagy oszlopba, és hogy melyikre százalékoltatunk,hiszen nem tudjuk eldönteni, hogy melyik a függő és melyik a függetlenváltozónk.

1074.2. minőSéGi változók közötti kapCSolat

Page 110: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

41. ábra. adattisztítás a missing Values menüvel

42. ábra. a gamma mutató lekérése az SPSS-ben

mivel adataink 25 cellában oszlanak meg, a 736 fős elemszámunktúlságosan kevés a kereszttábla elemzésére. viszont a gamma értékénekértelmezésére jól használható.

4. kétváltozóS elemzéSek108

Page 111: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

kereszttáblánkat a 43. ábra mutatja.

43. ábra. a két ordinális mérési szintű változó kereszttáblája

a g értéke –0,535 és az összefüggés szignifikáns (p=0,000) – az érté-kek a 44. ábrán láthatóak. tehát a két változó között egy szignifikáns,közepes erősségű, negatív irányú kapcsolat van. értelmezéskor vegyükfigyelembe, hogy míg a dohányzás gyakoriságánál az 1-es kód a nagyongyakori (naponta) dohányzást jelölte, az 5-ös pedig a dohányzás hiányát,addig a kávéfogyasztásnál pontosan fordítva voltak kódolva az adataink:az 1-es a kávéfogyasztás hiányát, az 5-ös pedig a napi kávéfogyasztástjelölte. ebből adódik a fordított kapcsolat (negatív gamma érték).adatunk értelme tehát, hogy minél gyakrabban kávézik valaki, annálgyakrabban dohányzik is, és minél kevesebbet dohányzik, annál keve-sebbet kávézik.

44. ábra. a gamma értéke és szignifikanciaszintje

1094.2. minőSéGi változók közötti kapCSolat

Page 112: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

4.3. Vegyes kapcsolat

a vegyes kapcsolatot egy nominális és egy intervallum vagy arányskálán mért változó közötti kapcsolat vizsgálatára használjuk. a kapcso-lat szorosságának mérésére a pre-eljárást használjuk fel.

az egyszerre vizsgált két változó közül a mennyiségi ismérvet jelöl-jük y-nal, a nominálisat X-szel. Ha az y megoszláson kívül nem áll ren-delkezésünkre semmilyen információ, akkor a sokaság valamelyik (pl. g-edik) egységének y szerinti hovatartozását (yg-t) legcélszerűbb a feltételnélküli y megoszlás átlagával, -al becsülni. Ha az átlaggal becsüljük azyg-t, az ezzel összességében elkövetett hiba kisebb, mintha bármely másértéket használnánk erre a célra:

Ha valamely egységről ismertté válik, hogy az X ismérv szerint a Cxi

osztályba tartozik, akkor az y ismérv annál előforduló értékét az előbbi-eknek megfelelően a Cx

i osztályba tartozó egységek átlagos y értékével, -gal (részátlaggal) célszerű becsülni:

ahol yij – a Cxi osztály j-edik egyedének y értéke.

tehát a pre-mutató a következő lesz:

ahol: H2 – variancia-hányados,2 – a sokaság szórásnégyzete, teljes varianciája,2

B – belső variancia (a fősokaság yij értékei átlagosan mennyiveltérnek el saját részátlaguktól).

a H2 megadja, hogy az egységek X szerinti hovatartozásának isme-rete hogyan javítja az y szerinti hovatartozás becsülhetőségét, vagyis azy ismérv szórásnégyzetének az X ismérv által megmagyarázott hányadát.a H2 egy 0 és 1 közötti érték: 0 £ H2 £ 1. Ha H2 = 0, X és y független (az

4. kétváltozóS elemzéSek110

.

,

,

Page 113: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

X szerint képzett részátlagok mind egyformák), a feltételes és a feltételnélküli gyakorisági eloszlások mind egyformák. Ha H2 = 1, X és y függ-vényszerű, determinisztikus kapcsolatban áll egymással (az X szerinticsoportokon belül y nem szóródik), az X szerinti hovatartozás mindentelmond y-ról.

a gyakorlatban szokták használni a H = mutatót is, ez a szórás-hányados. a H szintén 0 és 1 között mozgó érték. Ha H = 0, függetlenségáll fenn, ha H = 1, a két változó között függvényszerű kapcsolat van. Hesetén kizárólag a 0-hoz, illetve 1-hez való közelségre alapozható a kap-csolat szorosságának megítélése, nem használható megoszlási viszony-számként.

36. példa. a variancia-hányados kiszámításanézzük az alábbi szemléltető példát. a 27. táblázatban szereplő fik-

tív adatok egyedülálló, vezető pozícióban levő nők (8) és férfiak (7) kere-setét jelölik (100 ron-ban):

27. táblázat. 15 személy jövedelme nemek szerinti bontásban

első lépésben kiszámoljuk a teljes sokaság átlagát, majd a férfiak ésa nők jövedelmeinek átlagát (a részátlagokat).

most kiszámoljuk, hogy mekkora hibát követnénk el, ha nem ismer-nénk a jövedelmek nemek szerinti megoszlását (akkor tévednénk a leg-kevesebbet, ha a sokaság átlagával helyettesítenénk):

Harmadik lépésben kiszámoljuk a férfiak és a nők jövedelmeinekátlagát (a részátlagokat):

1114.3. veGyeS kapCSolat

Nem (X) Jövedelem (100 RoN – Y) N S

1. Férfi2. nő

1; 2; 2; 3; 5; 10; 121; 1; 1; 2; 2; 2; 3; 4

78

3516

összesen 15 51

Page 114: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

most, mivel ebben a lépésben már ismerjük a nemek szerinti jöve-delem-eloszlásokat is, kiszámítjuk mindkét részsokaságra, hogy mekkorahibát követnénk el, ha a részátlagokkal becsülnénk meg adatainkat:

ezek után kiszámítható a variancia-hányados:

H » 0,47értelmezés szerint a két változó között közepes erősségű kapcsolat

van (H » 0,47). a nem ismerete 22%-át magyarázza meg a jövedelmekszórásnégyzetének, vagyis a nem ismerete 22%-kal csökkenti a jövedel-mek ismeretével kapcsolatos bizonytalanságot.

4.3.1. a t-teszt

a lényegesebb kapcsolatvizsgálat akkor kezdődik el, amikor nemismerjük a sokaságbeli eloszlást, és arra a kérdésre keressük a választ,hogy a mintánk két részsokaságában az átlagok között tapasztalható elté-rés annak tudható-e be, hogy az alsokaságokban is megvan a különböző-ség, vagy a kimutatott különbség csak a véletlen műve. a fenti példánkesetében azt akarjuk megtudni, hogy a nők és férfiak között kimutatottjövedelemkülönbség csak onnan adódik-e, hogy pont ezt a 15 embert kér-deztük meg, vagy a felsővezető nők és férfiak körében ténylegesen léte-zik ez a különbség. a t-teszttel tehát arra kapunk választ, hogy a minta-vétel során fellépő véletlen tényező mekkora valószínűséggel okozkülönbözőségeket.

a t eloszlás normális eloszlású változókra számolható, ugyanakkor ateljes sokaságban akár egyenletes eloszlás is lehet, hiszen már a 4–5elemű minták átlagértéke (mint valószínűségi változó) olyan eloszlástkövet, amelyik nagyon hasonlít a normális eloszláshoz (Student-féle t-eloszlás), csupán egy kicsit laposabb annál (a 120-as mintánál már egé-szen jól illik egy normális eloszlású változóhoz). a t eloszlás arra alapoz,

4. kétváltozóS elemzéSek112

Page 115: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

hogy n>30 elemszám vagy egymástól szignifikánsan eltérő szórások ese-tén, feltételezve, hogy a kétértékű kategoriális változónknál az átlagérté-kek a teljes sokaságban egyformák (a mintánkban kimutatható különbségcsak a véletlen műve), a két mintaátlag különbsége normális eloszlást

követ 0 várható értékkel és mintaszórással (s2 – mintavari-

ancia helyett a korábbiaknak megfelelően 2-val jelölöm). tehát

a t-teszt esetében nem a t értéke, hanem a neki megfelelő szignifi-kanciaszint érdekel bennünket. Ha a t értéknek megfelelő szignifikancia-szint kisebb, mint 0,05 (p <0,05), akkor 95%-os biztonsággal állíthatjuk,hogy a mintánkon (a megfigyelt adatainkon) számolt csoportátlagokközötti eltérések nem a véletlen művei.

Ha a mintánkon számolt két részátlag szórása nem különbözik szig-nifikánsan (p>0,05), vagy kicsi a mintanagyságunk (n<30), akkor a

képlettel számolunk. ebben az esetben is nem a t értéke, hanem aneki megfelelő szignifikanciaszint a fontos.

kézi számításokkor a t értékét az úgynevezett t-táblázat vagy a 3.mintavétel c. fejezetben már megadott t értékek segítségével (18. táblázat)értékeljük. tehát ha n>120, szignifikáns összefüggés esetén a t értékenagyobb vagy egyenlő kell legyen, mint 1,96.

Ha n<120, a t értékét a t-táblázat (lásd a mellékletben) segítségévelértékeljük és hasonlóan járunk el a khi-négyzet esetében leírtaknál: ha tértéke kisebb, mint a megfelelő szabadságfokoknál és valószínűségi szint-nél szereplő táblázati érték, akkor a két változó között nincs szignifikánskapcsolat a választott szignifikanciaszint mellett (nagyobb a valószínű-sége annak, hogy az összefüggés a véletlen műve). kétmintás t-próba ese-tén a t szabadságfoka:

df= n1 + n2 – 2.

1134.3. veGyeS kapCSolat

vagy

.

Page 116: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

4.3.2. az F-próba

az F próba azt mutatja meg, hogy két vagy több részmintában a szó-rások közti különbség mennyire a véletlen műve és mennyire annak tud-ható be, hogy különbözik a populáció alsokaságaiban is. dichotóm vál-tozók esetében az F értéke a két részsokaság szórásnégyzeténekhányadosa:

tehát két vagy több átlagértéket is össze lehetne hasonlítani F-teszt-tel, de a kissé hosszadalmasabb számítással kapott F érték éppen a tnégyzete, és mindkettő ugyanazt a szignifikanciaszintet eredményezi(akárcsak a khi-négyzet vagy a t értéke esetében, itt is nem az F értéke,hanem a neki megfelelő szignifikanciaszint bír jelentőséggel). ilyenmódon kézi számításnál előnyösebb a t képletével számolni (ezért isalkalmazták gyakrabban). a számítógépes program gyakorlatilag ugyan-annyi idő alatt szolgáltatja az eredményeket.

kézi számításokkor az F értékét az úgynevezett F-táblázat segítségé-vel értékeljük, és hasonlóan járunk el a khi-négyzet esetében részletesenleírtaknál (ha F értéke kisebb, mint a megfelelő szabadságfokoknál sze-replő táblázati érték, akkor a választott valószínűségi szint mellett azösszefüggés nem szignifikáns).

37. példa. a t értékének kézi számításanézzük a nők és férfiak kereseteit tartalmazó korábbi feladatunkat

(36. példa), és számítsuk ki a t értékét.először ki kell számítanunk a két alcsoportunk szórását (a csoportát-

lagokat már kiszámoltuk).

a t kiszámításakor a második képletet használjuk (n kisebb, mint 30).

4. kétváltozóS elemzéSek114

.

Page 117: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

kikeressük a t-eloszlás táblázatból az értéket, ha df=7+8–2=13 (28.táblázat).

28. táblázat. a t-eloszlás táblázatból idevágó értékek

összevetve értékünket (1,908) a küszöbértékekkel látjuk, hogy a kétváltozó közötti mintánkon megfigyelt összefüggés 95,0%-os valószínűsé-gi szint mellett sem szignifikáns. mivel az értékek (számított és küszöb-érték) közötti eltérés kicsi, azt mondhatjuk, hogy az alapsokaságra,vagyis a településen élő felsővezetők körére is elég nagy valószínűséggeligaz lehet, hogy a férfiak többet keresnek, mint a nők, csak az alacsonymintaelemszám miatt az összefüggés nem mutatható ki szignifikánsnak.

4.3.3. Vegyes kapcsolat kiszámítása az SPSS-sel

az SpSS segítségével három módszerrel vizsgálhatjuk meg egyminőségi és egy mennyiségi változó kapcsolatát.

1. a már ismert módon, az analyze főmenü Descriptive Statisticsalmenüjének Crosstabs parancsával lekérjük a Statistics mezőnél, aNominal by interval ablakrésznél található eta statisztikát. ez az asszoci-ációs mutató a H mutatóhoz hasonlóan egy 0 és 1 közötti érték, amely akét változó összefüggésének erősségét mutatja, amikor a független válto-zónk kategoriális mérési szintű, a függő változónk pedig mennyiségiskála. ebben az esetben az SpSS nem számol szignifikanciaszintet.

2. az analyze főmenü Compare means almenüjénél az independentSamples t test…(független mintás t-teszt) paranccsal lekérhetjük a t-elosz-lást és az ennek megfelelő szignifikanciaszintet. itt fontos még megjegyez-ni, hogy a mennyiségi változónk lesz a test Variable, a dichotóm változónkpedig a grouping Variable. a kategoriális változónknál minden egyes t-próba lefuttatásakor meg kell nevezni a két kategóriát (group1 – az első

1154.3. veGyeS kapCSolat

SzabadságfokSzignifikanciaszint

p=0,05 p=0,01 p=0,00113 2,160 3,012 4,221

Page 118: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

csoport vagy osztály kódja, group2 – a második csoport vagy osztálykódja), még akkor is, ha biztosan nem fordul elő az adatállományban ennéla változónál kettőnél több érték. utána Continue-t, majd ok-t kattintunk.

3. az analyze főmenü Compare means, means almenüjénél, azoptions ablakban, a Statistics for Firs layer (bal alsó rész) ablakrészben,az anova table and eta bejelölésével lekérhető az F-próba. a változókátvitelénél figyeljünk arra, hogy a kategoriális változónk mindig a füg-getlen, a mennyiségi változónk pedig a függő változó legyen. a kijelölésután Continue-t, majd ok-t kattintunk.

Bár csak kétértékű kategoriális változókká alakított formában alkal-mazható, mivel két átlagértéket hasonlítunk össze (ha több attribútum-mal rendelkezik egy ismérv, azt a t teszt előtt kétértékűvé kell kódolni),vegyes kapcsolatok elemzésekor leggyakrabban a t-tesztet szokás hasz-nálni (a kézi számítása egyszerűbb, ezért elterjedtebb, ahogyan már akorábbiakban említésre került).

38. példa. Átlagok összehasonlítása az SPSS segítségéveladatbázisunkban a k3.1-es változó a megkérdezettek nemét, a k135-

ös változó pedig az egy éven belül elolvasott könyvek számát jelöli.vizsgáljuk meg, hogy van-e szignifikáns összefüggés a nem és a könyv-olvasás gyakorisága között.

első lépésben gyakoriságot kérünk mindkét változóra. a gyakoriságitábla azt mutatja, hogy adataink nem igényelnek tisztítást.

a kapcsolatvizsgálatkor az 1. eljárás bemutatására nem térek ki,hiszen az F próbánál is megjelenik az eta értéke.

először nézzük a t-tesztet, az előzőekben leírtak szerint (45. ábra).

45. ábra. a t-teszt lekérése

4. kétváltozóS elemzéSek116

Page 119: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

az output ablakban megjelenik a csoportstatisztikákat jelölő táblázat(46. ábra), és a t-teszt (47. ábra).

46. ábra. a csoportstatisztikák

47. ábra. a független mintás t-teszt

először a t-teszt táblázatát értelmezzük. első lépésben megnézzük azF értékének szignifikanciaszintjét. mivel p<0,05, 95%-os valószínűség-gel állíthatjuk, hogy elvethető az eredeti feltételezésünk, amely szerint azelolvasott könyvek számának szórása egyenlő a két alsokaságban. teháta szóráskülönbség nem a véletlen műve, így nem igazolódott be az ere-deti feltételezésünk: ekkor az „equal variances not assumed”, vagyis azalsó sorban található t érték szignifikanciaszintjét vizsgáljuk. a szignifi-kanciaszint azt mutatja (p=0,001), hogy a két alcsoport átlaga közöttikülönbség 99%-os valószínűségi szint mellett is szignifikáns. tehát acsoportstatisztikákat szemléltető táblázat alapján elmondhatjuk, hogy anők átlagosan több könyvet olvasnak, mint a férfiak.

a 2. eljárással nyert anova (analyze of variance) táblázatunk (48.ábra) is ugyanezt az eredményt mutatja (49. ábra).

1174.3. veGyeS kapCSolat

Page 120: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

48. ábra. az aNoVa lekérése

49. ábra. az F statisztika

tehát a nem és a könyvolvasás gyakorisága között szignifikáns össze-függés van. a csoportátlagokat a „report” elnevezésű, output-ban megje-lenő táblázatból olvassuk ki (50. ábra).

50. ábra. Csoportátlagok

a férfiak átlagosan kevesebb könyvet olvasnak, mint a nők(p=0,001).

4. kétváltozóS elemzéSek118

Page 121: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

4.4. Két mennyiségi változó közötti kapcsolat: korreláció

a korreláció arra az esetre vonatkozik, amikor mindkét változómennyiségi (intervallum- vagy arányskálán mérhető). akárcsak a vegyeskapcsolat esetén, itt is megtehető, hogy az egyik ismérvet (X) csak osztá-lyozásra használjuk, a másikat pedig átlag- és varianciaszámítás segítsé-gével vizsgáljuk. két mennyiségi ismérv esetében azonban két vonatko-zásban tehetünk ennél többet:

1. kihasználhatjuk azt, hogy az X ismérv szerint képzett osztályok azX változó nagysága szerint egyértelműen sorrendbe állíthatóak,

2. nemcsak X, hanem y szerint is osztályozhatjuk a sokaságot, ésekkor X-et vizsgáljuk varianciaanalízis segítségével.

az X és y szerint képzett osztályok egyértelmű rendezhetősége azismérvek közötti kapcsolat irányának értelmezését teszi lehetővé (akárcsak g esetében):

a. ha X növekedésével párhuzamosan y is növekszik, a kapcsolatpozitív irányú,

b. ha X növekedésével párhuzamosan y csökken, a kapcsolat negatívirányú.

a kapcsolat iránya csak akkor értelmezhető, ha a két ismérv közöttikapcsolat monoton természetű.

az X szerint képzett osztályokhoz hozzárendelt yi részátlagok soro-zatát az y változó X változóra vonatkozó (X szerinti) empirikus regresz-sziófüggvényének nevezzük. az empirikus regressziófüggvény nemcsakannak jelzésére szolgál, hogy van-e kapcsolat a két változó között, hanema kapcsolat természetének tömör kifejezésére is. a kapcsolat létét itt is azjelzi, hogy az egyes X osztályokhoz különböző yi részátlagok tartoznak,ellenkező esetben az X ismerete nem adna semmiféle többletinformációtaz y szerinti hovatartozás becsléséhez.

az empirikus regressziófüggvény grafikusan is ábrázolható az (Xi,yi) pontokat összekötő vonaldiagram formájában, ahol Xi vagy egyediismérvérték, vagy az X szerint képzett osztályköz osztályközepe, vagy azadott osztályközbe tartozó X értékek átlaga. az empirikus regresszió-függvény önmagában nem mutatja meg, hogy a két változó közötti kap-csolat függvényszerű-e vagy nem, mert nem derül ki belőle, hogy az yirészátlagok körül van-e szóródás, ezért célszerűbb a pontdiagrammalközös ábrát használni.

1194.4. két mennyiSéGi változó közötti kapCSolat: korreláCió

Page 122: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

az eddig tárgyalt esethez rendelhető variancia-hányadosnak különneve és jelölése van: az X szerinti osztályokhoz rendelt részátlagoksorozatából számítható variancia-hányados y-nak X-re vonatkozó deter-minációs hányadosa, jelölése h2

y/x .

ekkor a hy/x a korrelációs hányados.teljesen hasonlóan értelmezhető X-nek y-ra vonatkozó empirikus

regressziófüggvénye és az ehhez tartozó determinációs hányados és kor-relációs hányados. Ha az X és y közötti kapcsolat sztochasztikus, általá-ban h2

y /x = h2x / y.

tapasztalati regressziófüggvényt és determinációs hányadost csakakkor ajánlott használni, ha a megfigyelt sokaság elég nagy ahhoz, hogyaz osztályokba 1-nél több egység tartozzon. Ha minden osztályban csakegy egység van, egyik osztályon belül sincs szóródás és így h2 = 1, amimegtévesztő. a determinációs hányados értéke mindig nagyon függ aszámításhoz használt osztályozás konkrét módjától. a korrelációs hánya-dos nem értelmezhető százalékként.

Ha azonban áttérünk a sokaság egységeinél együttesen fellépő (Xi, yi)értékpárok vizsgálatára, akkor továbbmehetünk a két mennyiségi változóközötti kapcsolat elemzésében. ebben az esetben az a kérdés, hogy az azinformáció, hogy a sokaság valamely egységénél az X ismérv értékeéppen Xi, felhasználható-e valahogyan az adott egységnél előforduló yibecslésére. e kérdés megválaszolása a regressziószámítás feladata,amelynek célja az X és y közötti sztochasztikus kapcsolat természeténekegy f(X) függvénnyel való leírása. az f(X) függvényt az empirikus reg-ressziófüggvénytől való megkülönböztetés céljából analitikus regresszió-függvénynek szokás nevezni, és elsősorban arra használjuk, hogy annakXi helyen vett f(Xi) helyettesítési értékével megbecsüljük az y változónakaz Xi értékével együtt előforduló értékét.

arról, hogy egy ilyen f(X) függvény létezésére lehet-e számítani, apontdiagram nyújt segítséget. Ha a pontdiagram pontjai nem véletlensze-rűen szóródnak, biztosak lehetünk az f(X) létezésében. a pontdiagramnemcsak a változók közötti kapcsolat létéről, hanem a kapcsolat jel-legéről is informál. leghasznosabb a pontdiagram és az empirikus reg-ressziófüggvény közös ábrázolása, mivel csak egy ilyen ábra segítségévellehet különbséget tenni a sztochasztikus és függvényszerű kapcsolat

4. kétváltozóS elemzéSek120

Page 123: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

között, és az empirikus regressziófüggvény a pontdiagram lényegét ismegjeleníti.

az 51. ábra néhány jellegzetes pontdiagram-sémát szemléltet.

Forrás: Hunyadi–mundruczó–vita 2000. 181.51. ábra. Néhány jellegzetes pontdiagram

amennyiben már ismert az f(X) függvény típusa, a következő lépés aparaméterek meghatározása, becslése a megfigyelt (Xi, yi) értékpárokalapján {f(X) = aX + b}.

a paraméterek meghatározása után a regressziófüggvény felhaszná-lásával megadható az y változónak az X változó Xi értékével együtt elő-forduló értékére az = f(Xi).

a következő lépésben alkalmazzuk a Pre eljárást az X és y közöttikorrelációs kapcsolat szorosságának mérésére, feltételezve, hogy a kétváltozó közötti sztochasztikus kapcsolat természetét leíró analitikus reg-ressziófüggvény lineáris.

e1 esetén nem ismerjük az X szerinti hovatartozást, így az -t nyil-vánvalóan az -al becsüljük, ha ismerjük az X szerinti hovatartozást, -taz f(Xi) felhasználásával becsüljük (e2).

ahol: r – lineáris korrelációs együttható,r2 – determinációs együttható, pre mutató,dx = Xi – , dy = yi –

a determinációs együttható (r2) azt mutatja, hogy az X változó egyesegységeknél előforduló Xi értékeinek ismerete hány százalékkal csök-

1214.4. két mennyiSéGi változó közötti kapCSolat: korreláCió

Page 124: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

kenti az y változó azokhoz tartozó yi értékeinek becslésekor elkövetetthibát, ha a becslés a lineáris analitikus regressziófüggvény segítségéveltörténik.

a korrelációs együttható (r) kifejezhető a kovariancia segítségével is,amely bár nem pre mutató, mégis alkalmas a két változó együtt-ingado-zásának mérésére:

Ha C = 0, X és y között nincs kapcsolat, ha C > 0, a két változó köztikapcsolat pozitív, ha C < 0, a két változó közti kapcsolat negatív irányú.a C önmagában nem alkalmas a kapcsolat szorosságának jellemzésére (aszorosság függ a szóródástól is). az r korrelációs együttható kiküszöbölia kovariancia e hátrányát (osztja a két változó szóródásával). az r vagy aPearson-féle korrelációs együttható egy [-1; 1] intervallumba eső érték,mérőszám. Ha r = 1 vagy r = –1, a két változó függvényszerű lineáriskapcsolatban áll egymással. az r értéke a kapcsolat szorosságát méri, ésminél nagyobb, annál szorosabb kapcsolatot jelez.

Ha a nullhipotézisünk az, hogy a teljes sokaságban az X és y válto-zók függetlenek (r=0), akkor az n elemű összes lehetséges minták soka-ságán a

valószínűségi változó n–2 paraméterű t-eloszlás (Student-eloszlás), amielég nagy n esetén (n>120) n(0,1) paraméterű normális eloszlás. így, haaz esetek száma nagy, a p=005, a p=0,01 és a p=0,001 szignifikancia-szinteknek megfelelő t-érték 1,96, 2,58 és 3,29. Ha viszont az esetekszáma kevesebb 100-nál, szükségünk van egy t-eloszlás táblázatra (lásd amellékletet).

39. példa. korrelációszámítása 29. táblázat (fiktív adatok) 10 véletlenszerűen kiválasztott nő élet-

korát és vérnyomását mutatja.

4. kétváltozóS elemzéSek122

.

Page 125: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

29. táblázat. két változóra felvett értékek és részszámítások

rajzoljuk fel a pontdiagramot, hogy lássuk, van-e értelme lineárisösszefüggést keresni (52. ábra).

a pontdiagramunk azt jelzi, hogy joggal feltételezhetjük egy pozitívlineáris kapcsolat létét.

52. ábra. a pontdiagram

Számítsuk ki és értelmezzük a korrelációs és determinációs együtt-hatókat!

első lépésben kiszámoljuk a két változó számtani átlagát.

1234.4. két mennyiSéGi változó közötti kapCSolat: korreláCió

Életkor(X)

Vérnyo-más (Y)

dx = Xi – dy = yi – dxdy dx2 dy

2

36 118 36–50=–14 118–137,7=–19,7 275,8 196 388,0938 115 38–50=–12 115–137,7=–22,7 272,4 144 515,2942 125 –8 –12,7 101,6 64 161,2942 140 –8 2,3 –18,4 64 5,2947 128 –3 –9,7 29,1 9 94,0949 145 –1 7,3 –7,3 1 53,2955 150 5 12,3 61,5 25 151,2956 147 6 9,3 55,8 36 86,4963 149 13 11,3 146,9 169 127,6972 160 22 22,3 490,6 484 497,29S 1408 1192 2080,1

Page 126: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

második lépésben egy-egy új oszlopba kiszámoljuk a dx és dykülönbségeket.

Harmadik lépésben összeszorozzuk a dx és dy értékeket, majd össze-adjuk őket (S).

negyedik lépésben négyzetre emeljük a dx értékeket és összeadjuk(S), majd ugyanezt elvégezzük dy-ra is (az eredmények a 29. táblázatbanszerepelnek).

ötödik lépésben kiszámítjuk a pearson-féle korrelációs együtthatót:

négyzetre emeléssel kiszámoljuk a determinációs együtthatót:r2=0,7995.

értelmezés szerint a korrelációs együttható értéke egy erős, pozitívkapcsolatot mutat. tehát minél idősebb egy nő, annál nagyobb a vérnyo-mása. a determinációs együttható azt jelzi, hogy az életkor ismerete 80%-kal csökkenti a vérnyomás ismeretével kapcsolatos bizonytalanságot.

most pedig számoljuk ki a t értékét, hogy alapsokaságunkra is tud-junk következtetni.

mivel elemszámunk 10 (n<120), a t-táblázatot használjuk (df=10–2=8). a t-táblázatból idevágó értékek a 30. táblázatban szerepelnek.

30. táblázat. a szabadságfoknak megfelelő t értékek

tehát a két változó közötti összefüggés 99,9%-os valószínűségi szintmellett szignifikáns (99,9%-os biztonsággal állíthatjuk, hogy alapsokasá-

4. kétváltozóS elemzéSek124

SzabadságfokSzignifikanciaszint

p=0,05 p=0,01 p=0,0018 2,306 3,355 5,041

.

Page 127: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

gunkban is a két változó összefügg egymással): minél idősebb egy nő,annál nagyobb a vérnyomása, és az életkorból mintegy 80%-ban kiszá-mítható a vérnyomás.

4.4.1. Korreláció kiszámítása az SPSS-sel

az SpSS segítségével kétféleképpen számolhatunk korrelációt:– a már ismert módon, az analyze főmenü Descriptive Statistics alme-

nüjének Crosstabs parancsával, a Statistics mezőnél a pearson-féle korrelá-ciós együttható (Correlations) lekérésével (a jobb felső sarokban található),

– az analyze főmenü Correlate almenüjénél a Bivariate opcióra klik-kelve.

az SpSS program mindkét esetben szignifikanciaszintet is számol,így csak arra kell figyelnünk, hogy releváns adatokkal dolgozzunk, vagyistisztítsuk meg adatainkat az érvénytelen válaszoktól.

40. példa. korreláció az SPSS-benadatbázisunkban a k140-es kérdés a hétköznapi tévénézési szoká-

sokra vonatkozik (egy átlagos hétköznapon hány percet néz televízi-ót?……..perc, 9999 – egész nap be van kapcsolva a tv), a k141-es kérdéspedig a hétvégi tévénézési szokásokra vonatkozik (egy átlagos hétvégén –szombaton és vasárnap együtt – hány percet néz televíziót?……..perc,9999 – egész nap be van kapcsolva a tv). vizsgáljuk meg a két mennyisé-gi változónk közötti összefüggést.

első lépésben, mint minden esetben, gyakorisági megoszlást kérünka két változóra. tudjuk, hogy egy hétköznap max. 1440, egy hétvégénpedig max. 2880 percet lehet tévét nézni. tehát az ezeknél nagyobb érté-kektől (beleértve azokat is, akik egész nap nézik a tévét – 9999 kód) megkell szabadulnunk, mivel nagyon eltorzítják a számolt statisztikákat.továbbá azok sem érdekelnek bennünket, akik 0 percet nézik a tévét (hétközben vagy hétvégén), hiszen most csak a tévénézőkkel foglalkozunk.

végignézve a gyakorisági táblákat azt látjuk, hogy mindkét változónkesetében szerepel mind a 0-ás, mind a 9999-es érték – tehát ezektől a márkorábban ismertetett módszerek valamelyikével (Select Cases, misindValues, recode) meg kell válnunk. a többi adatunk elvileg rendben van.

megtisztítva adatainkat, az első módszerrel lefuttatunk egy korrelá-ciót (53. ábra). Ha a főablakban a változók alatt beklikkeljük a Suppresstables-t, a kereszttábla nem fog megjelenni (erre most semmi szükség).

1254.4. két mennyiSéGi változó közötti kapCSolat: korreláCió

Page 128: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

53. ábra. a korrelációs együttható lekérése a Descriptive Statistics almenüből

az output ablakban megjelenik a kért statisztikánk (54. ábra).

54. ábra. a korrelációs együttható

a korrelációs együtthatónk szignifikáns, értéke közepesnél erősebbpozitív kapcsolatot jelez a két változó között. tehát 99,9%-os valószínű-ség mellett kijelenthetjük, hogy aki hétköznap sokat nézi a tévét (de nemegész nap), a hétvégén is sok időt fordít tévénézésre (de nem egész hét-végén tévézik).

természetesen, ha a Correlate almenüből kérjük le a korrelációsegyütthatót (55. ábra), akkor is ugyanezt az értéket kapjuk.

4. kétváltozóS elemzéSek126

Page 129: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

55. ábra. a korrelációs együttható lekérése a Correlate almenüből

ebben az esetben az értelmezést megkönnyíti a szignifikáns össze-függések csillagokkal való kiemelése (56. ábra).

56. ábra. a korrelációs együttható

ahogyan az SpSS is jelzi csillagokkal, az összefüggés p=0,01 (99%-os) valószínűségi szint mellett is szignifikáns.

1274.4. két mennyiSéGi változó közötti kapCSolat: korreláCió

Page 130: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat
Page 131: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

5. Fejezet

TÖBBVÁLTozóS ELEmzÉSEK

ebben a fejezetben a legismertebb többváltozós elemzések: regresz-szió, útelemzés, idősorok elemzése, faktorelemzés, klaszterelemzés, disz-kriminancia-analízis és logisztikus regresszió rövid, lényegi összegzéséretörekszem, majd rátérek a két legegyszerűbb módszer, a főkomponens-elemzés és a klaszterelemzés részletes bemutatására.

5.1. a többváltozós elemzések fajtái5.1.1. Regresszióelemzés

két mennyiségi változó közötti sztochasztikus kapcsolat leírása azy=f(X) függvénnyel történik. a konkrét függvény paramétereinek meg-határozása a regresszióelemzés módszerével történik. a regresszióelem-zés arra a kérdésre keres választ, hogy melyik az a függvény (lineárisvagy nem lineáris), amelynek segítségével az egyik változó (X) értékétmegismerve előrejelzést tehetünk egy másik változó (y) értékére.ahogyan a korrelációszámításnál már láttuk, két mennyiségi változópontdiagramjából leolvashatjuk, hogy van-e, és ha van, milyen jellegű akapcsolat. a regresszióelemzés fajtáit megkülönböztethetjük az elemzés-be bevont független változók száma szerint (egyváltozós, illetve két- éstöbbváltozós), a függvény típusa szerint (lineáris és nem lineáris) stb.

a regresszióelemzés alapvető fajtái:1. lineáris regresszió,2. többváltozós lineáris regresszió,3. parciális regresszió,4. nem lineáris regresszió.

5.1.1.1. lineáris regresszió

két mennyiségi változó közötti kapcsolat legegyszerűbb formája alineáris kapcsolati típus, amikor az összefüggést egy függvény írja le (gra-

Page 132: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

fikus képe egy egyenes). a lineáris regresszióanalízis az a statisztikaieljárás, amellyel megtalálhatjuk a két változóra együttesen felvett érté-kekhez (a pontdiagram pontjaira) legjobban illeszkedő egyenest (57.ábra). tehát a lineáris regresszióban a regressziós egyenes alkalmas a kétváltozó kapcsolatának grafikus ábrázolására, a regressziós egyenlet pediga kapcsolat összegzésére használható.

57. ábra. a lineáris regresszió tipikus modellje

a regressziós egyenlet leíró és következtetési szempontból is hasz-nos: megkapjuk a két változó közti kapcsolat matematikai leírását, vala-mint lehetőségünk van arra, hogy X ismeretében következtessünk y érté-kére. mivel a pontokra legjobban illeszkedő egyenest arra akarjukhasználni, hogy X értékeiből az y értékeire következtessünk, a legjobbegyenes az lesz, amellyel az előrejelzés hibája a legkisebb.

Ha a lineáris függvény alakja y = a + bX, akkor az Xi értékhezbecsült y-érték:

az a és b értékeit úgy számítják ki, hogy a tényleges y értékek és abecsült értékek (X alapján adott becslések) közötti eltérés minimálislegyen. a regressziós becslés jóságának mérésére a becsült és a valódiy érték varianciájának hányadosa használható, amely nem más, mint akorreláció kapcsán számolt determinációs együttható (r2).

5. töBBváltozóS elemzéSek130

Page 133: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

5.1.1.2. többváltozós regresszió

a valóságban előforduló jelenségek olyan bonyolultak, hogy leg-többször az egyszerű lineáris regresszió nem elég jó a leírásukra. Sokszorelőfordul, hogy egy adott függő változóra egyszerre több független válto-zó is hatással van (pl. a havi alkoholfogyasztás mennyiségét befolyásol-hatja az életkor, a különleges események száma, a hőmérséklet, a sza-badidő mennyisége stb). ilyen esetek kezelésére nyújt megoldást atöbbváltozós regresszió. ilyenkor a regressziós egyenletben több X válto-zó kerül az egyetlen X helyébe, és a b paraméterek száma is megváltozik,de a logika ugyanaz: minden egyes b érték megadja az egyes függetlenváltozók szerepét a végső érték meghatározásában. a többváltozós lineá-ris regressziót a többszörös korrelációs együttható értékével mérik (többfüggetlen változó együttes hatását méri).

5.1.1.3. Parciális regresszió

a parciális regresszió arra az esetre vonatkozik, amikor azt szeret-nénk vizsgálni, hogy milyen kapcsolat van két változó között akkor, haegy vagy több másik változót állandó szinten tartunk (az előző példánk-nál maradva, ha megegyezik az életkor, a szabadidő mennyisége és azalkoholfogyasztás között megmarad-e az összefüggés). a változók közöt-ti összefüggést leíró egyenletet úgy számoljuk ki, hogy állandó szintentartjuk a kontrollváltozókat, és az így kapott eredményt összevetjük a kétváltozó közötti eredeti kapcsolattal. a parciális regressziót a parciáliskorrelációs együtthatóval mérjük.

5.1.1.4. Nem lineáris regresszió

empirikus vizsgálatok esetén nem feltételezhetjük, hogy minden vál-tozócsoportban lineáris összefüggések volnának. Sokszor előfordul, hogyegy görbe vonalú regresszióval jobban magyarázhatóak az adatok, mintbármilyen lineáris modellel, ugyanakkor a regressziós modellek kettősfunkciójából következik az is, hogy bár egy bonyolult egyenlettel a kap-csolat tökéletesen leírhatóvá válik, de nem használható szinte semmifé-le következtetésre. általában a regresszióelemzés extrapolációra való fel-használása nem igazán megbízható.

1315.1. a töBBváltozóS elemzéSek Fajtái

Page 134: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

5.1.2. Útelemzés

az útelemzés oksági modell a változók közötti kapcsolatok megérté-séhez. a regressziószámításon alapul, de szemléletesebb képet ad többváltozó kapcsolatáról. abból indul ki, hogy egyik változó értékeit másváltozók értékei okozzák, tehát elengedhetetlen a függő és független vál-tozók megkülönböztetése. útelemzés révén grafikusan megjeleníthető aváltozók közötti összefüggések hálózata a kapcsolat erősségének feltün-tetésével. a kapcsolaterősségeket parciális regresszióelemzés alapján szá-mítják ki. az út-együtthatók (path coefficients) két változó kapcsolatátmutatják úgy, hogy a modellben szereplő összes többi változót konstansszinten tartjuk. az útelemzés kiváló módja a változók közötti komplexoksági láncok és hálózatok kezelésének, de az okság rendjét nem azútelemzés, hanem a kutató mondja meg. a kutató határozza meg a válto-zók közötti lehetséges kapcsolatok szerkezetét, a számítógép csak az út-együtthatókat számolja ki.

5.1.3. Idősorok elemzése

Gyakran használunk regressziószámítást idősoros adatok elemzésé-re, amikor az egyes változók időbeli alakulását, változását kívánjuk vizs-gálni. az idősor-elemzés hosszú távú trendek kifejezésére, egy trendmagyarázatára adott hipotézisek tesztelésére, valamint a jövőben várha-tó változások előrejelzésére is alkalmas. Szintén parciális regressziónalapszik, amikor az idő (év, hónap, perc stb.) változó az elemzési egység.az idősoros összefüggések sokszor nagyon bonyolultak, ilyenkor hasz-nálatos az időeltolásos regresszióelemzés, amikor az időváltozó egykorábbi értékét (pl. előző év) tekintjük alapnak, és ez alapján becsüljükvalamely változó alakulását. a társadalomban előforduló számos okságiviszonyt ilyen időeltolás jellemez. a különböző előforduló esetekbensokféle regressziós egyenlet képzelhető el, de az idősorok elemzésénél alényeg mindig az, hogy a kutatónak mennyire sikerült megmagyarázniaa függő változó megfigyelt értékeit.

5.1.4. Faktorelemzés

a faktoranalízis lényegesen eltér a regresszióelemzéstől. Statisztikaialapjai elég bonyolultak és különböznek az eddig tárgyaltakétól. a fak-

5. töBBváltozóS elemzéSek132

Page 135: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

torelemzés arra szolgál, hogy mintázatokat fedezzünk fel egy nagyobbváltozórendszerben. a faktoranalízis tulajdonképpen úgy történik, hogyolyan mesterséges dimenziókat, faktorokat hozunk létre, amelyek erősenkorrelálnak egy sor megfigyelt változóval, és amelyek egymástól függet-lenek. minden faktorhoz hozzátartoznak a megfelelő faktorsúlyok, ame-lyek az egyes változók és az egyes faktorok közötti korrelációk. a faktor-elemzés a gyakorlatban úgy történik, hogy számos változóból kapunknéhány faktort a megfelelő faktorsúlyokkal, majd a kutatónak kell meg-határoznia az egyes faktorok jelentését aszerint, hogy az illető faktornálmely változók szerepelnek nagy súllyal. a faktorok kialakításánál a szá-mítógép csak két szempontot vesz figyelembe: (1) a faktor magyarázzameg a vizsgált változók összes varianciájának viszonylag nagy hányadát,és (2) minden faktor legyen teljesen korrelálatlan a többi faktorral.

a módszer előnyei:– a faktorelemzés hatékony módszer nagyszámú változó fő összefüg-

géseinek vizsgálatára,– számos többszörös, egyszerű és parciális korreláció egybevetése

helyett a számítógép végzi el a faktorelemzést,– a faktorelemzés eredményei könnyen értelmezhetőek: az alapján,

hogy egy adott faktornál mely változók szerepelnek nagy súllyal, megál-lapítható, hogy hogyan csoportosulnak a változók,

– az is könnyen megállapítható, hogy egy adott változó mely fakto-rokkal korrelál jelentős mértékben és melyekkel nem.

a módszer hátrányai:– az elemzés a tényleges jelentésre való tekintet nélkül állítja elő a

faktorokat,– faktorokat mindig létre lehet hozni, de ezek létezése egyáltalán

nem garancia arra, hogy értelmük is van.

5.1.5. Klaszterelemzés

a társadalomtudományokban az egyének, intézmények, településekvagy országok hasonlósága általában nem egyetlen, hanem számosismérv/változó alapján állapítható meg (pl. országok esetén hasonlónagyságú az egy főre jutó Gdp, a gazdaság növekedése, a munkanélküli-ségi ráta, a születéskor várható átlagos élettartam, az iskolázottság stb.).a klaszterelemzés (klaszter = csoport, angolul: cluster) célja előre nemismert csoportok képzése, keresése, a keresés eredménye pedig a külön-

1335.1. a töBBváltozóS elemzéSek Fajtái

Page 136: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

böző homogén csoportok létrehozása. a klaszteranalízis tehát egy vizs-gált sokaság egyedeinek csoportokba való sorolását jelenti, figyelembevéve az egyes egyedeknek egy bizonyos ismérvrendszerben felvett érté-keit. az elemzés nem tesz különbséget függő és független változó között,és a változókon belüli kölcsönös összefüggést vizsgálja. a klaszterbehelyezés legelterjedtebben a megfigyelési egységek páronkénti távolságá-nak használatával történik. az egy csoportba került egységek értelmezé-se ennél az eljárásnál is a kutató feladata.

5.1.6. Diszkriminancia-analízis és logisztikus regresszió

a diszkriminancia-analízis olyan adatelemzési módszer, amelyet akategóriába tartozás előrejelzésére lehet használni, és amelynél alacsonymérési szintű függő változót magas mérési szintű független változók segít-ségével magyarázunk. azt vizsgáljuk, hogy a csoporthoz tartozás mekko-ra százalékban becsülhető a független változókkal (pl. azt, hogy valakialkoholista vagy nem, mekkora mértékben magyarázza az életkor, jövede-lem stb.). az előbb ismertetett lineáris regresszióhoz hasonlóan a diszkri-minancia-analízisben is egyenest illesztünk: olyan egyenest keresünk,amely a legjobban szétválasztja az elemzendő csoportokat (58. ábra).

58. ábra. a diszkriminancia-analízis tipikus modellje

a diszkriminanciaelemzés alternatívája az utóbbi időben elterjedtlogisztikus regresszió, amelynek alkalmazási előfeltételei sokkal kevésbészigorúak. logisztikus regressziót akkor használunk, ha a megmagyaráz-ni kívánt függő változónk kétértékű (dichotóm vagy dumy változó), a

5. töBBváltozóS elemzéSek134

Page 137: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

magyarázó, független változóink pedig mennyiségi vagy kategoriális vál-tozók (pl. azt, hogy valaki alkoholista vagy nem, milyen mértékbenmagyarázza a nem, a családi állapot, jövedelem, életkor stb.).

5.2. a faktorelemzés

a faktorelemzés egy gyűjtőfogalom, amely a többváltozós elemzésekegy csoportjára vonatkozik. a faktorelemzést arra használjuk, hogy adata-inkat tömörítsük, vagy hogy nagyszámú függő változó mintázatát, belsőstruktúráját feltárjuk. a faktorelemzés célja, hogy sok, általunk mért függőváltozót úgynevezett faktorváltozókba vonjon össze, amelyek közvetlenülnem figyelhetők meg. a vizsgálatba bevont változók legalább ordinálismérési szintűek kell legyenek, és egymással korrelálniuk kell (ha nincsközöttük összefüggés, multikollinearitás, nem érdemes tömöríteni őket).

a faktoranalízis tehát olyan adatredukciós eljárás, amellyel az egymás-sal lineáris összefüggésben lévő változók közös lényegét kifejező faktoroktárhatók fel. az elemzés azt feltételezi, hogy a változók hátterében olyannem mérhető, látens struktúrák állnak, melyeket e módszerrel kiragadvakis információveszteséggel leírható az adathalmaz. az analízis során kapottfaktorok száma lényegesen kevesebb, mint az eredeti változóké, és ha ezek-kel szeretnénk dolgozni, tudnunk kell, hogy milyen következményekkel járaz adatredukciónk. a két csoport illeszkedését két korrelációs mátrix össze-hasonlításával mérjük, melyek egyformaságának megítélésére kiválóanalkalmas a l2-próba. a faktoranalízisnek ez a variációja exploratív (feltáró)jellegű, hiszen sok mért változóból kevés ismeretlen aggregált változót hozlétre, míg a konfirmatív (megerősítő) elemzés egy előzetes hipotézis (koráb-ban talált faktorok) tesztelésére alkalmas. a konfirmatív faktorelemzés sok-kal komplexebb, ezért a továbbiakban ezzel nem foglalkozom.

az exploratív faktorelemzés folyamata:1. az elemzés céljának megfogalmazása, a vizsgálatba bevont változók,2. a faktorelemzés módszerének meghatározása,3. a faktorelemzés alkalmazhatóságának vizsgálata,4. a faktorok/főkomponensek számának meghatározása,5. a faktorok értelmezése,6. értelmezés rotálással,7. a faktorok elmentése,8. további felhasználás.

1355.2. a FaktorelemzéS

Page 138: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a faktorelemzés folyamatát egy konkrét példán keresztül, az SpSSprogramcsomag használatával mutatom be.

5.2.1. az elemzés céljának megfogalmazása, a vizsgálatbabevont változók

adatbázisunkban a k130.1-k130.17 kérdéscsoport alig különbözik aklasszikus rokeach-értékteszttől. vizsgálatunk célja a jelzett változóstruk-túrából kialakítható értékdimenziók, látens értékstruktúrák faktorelem-zéssel való feltárása. a faktorelemzéssel kialakítandó néhány új változólényegesen megkönnyítené a fiatalok értéktipológiájának felállítását.

a k130 kérdés: „most felolvasok néhány olyan értéket, ami az embe-rek életviteléhez kapcsolódik. kérem osztályozza 1–5-ig, hogy mennyirefontos az ön életében... (1 egyáltalán nem fontos, 5 nagyon fontos, a köz-bülső értékek átmeneteket jelölnek).”

1. belső harmónia (béke önmagammal),2. hatalom (ellenőrzés mások felett, dominancia),3. szabadság (a cselekvés és a gondolkodás szabadsága,4. társadalmi rend (stabilitás a társadalomban),5. érdekes élet (érdekes tapasztalatok),6. gazdagság (anyagi javak, pénz),7. nemzet szerepe (nemzetem védelme, megtartása),8. kreativitás (eredetiség, fantázia),9. békés világ (háborútól és konfliktusoktól mentes),10. a tradíciók tisztelete (a tiszteletre méltó szokások megőrzése),11. elszakadás az evilági terhektől (vallásos hit),12. családi biztonság (a szeretett személyek biztonsága),13. változatos élet (kihívásokkal, új dolgokkal és változásokkal),14. igaz barátság (szoros, támogató barátok, akik mindenben mellet-

tem állnak),15. szerelem/boldogság,16. szépség,17. a környezet állapota.tehát ordinális mérési szintű változóink vannak, amelyek a társada-

lomtudományokban alkalmazott kevésbé szigorú követelmények mellettmegengedik a faktorelemzést.

első lépésben a gyakoriságok alapján megtisztítjuk változóinkat anem releváns válaszoktól (a 0 kódú nem tudom válaszoktól, pl. a

5. töBBváltozóS elemzéSek136

Page 139: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

transform, recode vagy inkább a missing Value almenüvel). az elemzés-be bevont változók leíró statisztikáit a 31. táblázat mutatja.

31. táblázat. a faktorelemzésbe bevont változók leíró statisztikái

Faktorelemzést az analyze főmenü Data reduction, Factor menü-pontnál kérhetünk. ahogyan minden elemzésnél, a bal oldalról átvisz-szük a jobb oldalra a vizsgálatba bevont 17 változót (59. ábra).

1375.2. a FaktorelemzéS

N

Átlag Szórás min. max.Érvényesadatok

Hiányzóadatok

belső harmó-nia

732 18 4,665301 0,698834905 1 5

hatalom 725 25 2,713103 1,270318573 1 5

szabadság 728 22 4,57967 0,75223566 1 5

társadalmirend

714 36 4,207283 0,934999778 1 5

érdekes élet 730 20 4,034247 1,046349612 1 5

gazdagság 743 7 4,219381 0,903154785 1 5

nemzet szere-pe

734 16 4,216621 1,011905407 1 5

kreativitás 713 37 3,820477 1,117418925 1 5

békés világ 743 7 4,845222 0,550912669 1 5

tradíciók tisz-telete

731 19 4,186047 0,96137578 1 5

vallásos hit 730 20 3,409589 1,331548639 1 5

családi biz-tonság

742 8 4,865229 0,468325917 1 5

változatos élet 731 19 3,830369 1,114638464 1 5

igaz barátság 743 7 4,667564 0,681769035 1 5

boldogság 740 10 4,759459 0,578346043 1 5

szépség 738 12 3,841463 1,139193947 1 5

a környezetállapota

733 17 4,396999 0,880475372 1 5

Page 140: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

59. ábra. a faktorelemzésbe bevont változók kijelölése

5.2.2. a faktorelemzés módszerének meghatározása

a faktorelemzés menüben az extraction parancskötegnél adhatjukmeg a tömörítés módszerét. a faktorelemzés extrakciós módszerei:

– főkomponens-elemzés (principal components): ez a módszer (másnéven még Hotelling-módszer) első faktorként egy olyan standardizált(0-s átlagú, 1-es szórású) változót állít elő, amelyik a legjobban korrelálaz összes modellbe vitt változóval, második faktorként egy olyat, amelyikkorrelálatlan a már előállított faktorral és legjobban korrelál az összesmodellbe vitt változóval és így tovább;

– súlyozatlan legkisebb négyzetek módszere (unweighted least squa-res): minimalizálja a megfigyelt és az újonnan létrehozott korrelációsmátrixok közötti különbségek négyzeteinek összegét, előnye, hogy a vál-tozók eloszlása lényegtelen, viszont skálatranszformációt hajt végre,ezért standardizált változókkal érdemes végezni;

– általánosított legkisebb négyzetek módszere (generalized leastsquares): minimalizálja a megfigyelt és az újonnan létrehozott korreláci-ós mátrixok közötti különbségeket, de a korrelációk súlyozásra kerülnek;

– maximum-likelihood módszer (maximum liklehood): a megfigyeltkorrelációs mátrixból indul ki és olyan becsléseket ad, amelyek ezt a kor-relációs mátrixot a legnagyobb valószínűség mellett létrehozhatták, fel-tételezve a változók normáleloszlását;

– főtengely-elemzés (principal axis factoring): hasonlít a főkomponens-elemzéshez, viszont a kezdeti kommunalitásokként az eredeti korrelációsmátrix átlójában a többszörös korrelációs együtthatók négyzeteit használja;

5. töBBváltozóS elemzéSek138

Page 141: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

– alfa-eljárás (alpha factoring): feltételezi, hogy az elemzésbe bevontváltozók az összes lehetséges változónak csak egy mintáját képezik, afaktorok alfa-értékét maximalizálja;

– image eljárás (image factoring): a változókat egy lineáris regressziórészeként kezeli, nem egy mesterséges változó (faktor) függvényeként.

a főkomponens-, a főtengely-, az alfa- és a maximum liklehood elem-zés nagyon sok esetben ugyanahhoz az eredményhez vezet. Ha nagyonsok változóval dolgozunk, a maximum liklehood, az image- és az alfa-elemzés használata javasolt.

mivel a főkomponens-elemzés a faktorelemzési eljárások közül a leg-gyakrabban használt és legkönnyebben alkalmazható módszer, ismer-kedjünk meg vele és válasszuk ezt a tömörítési módszert (60. ábra).

60. ábra. a főkomponens-elemzés kiválasztása

a főkomponens módszere tulajdonképpen a vizsgálatba bevont vál-tozók közti korrelációs együtthatók mátrixából úgynevezett sajátértéketés sajátvektort számít közelítő (iterációs) módszerrel. alapértelmezés-ben az SpSS maximum 25 iterálást végez (60. ábra, maximum iterationfor Convergence ablak), amíg megkapja a sajátértékeket és faktorsúlyokat(a pontosabb értékek kiszámíttatása céljából a 25-ös szám átállítható egynagyobb értékre). a sajátvektor komponensei a faktorsúlyok, amelyekvalójában egy, a sajátértékhez tartozó faktornak a mért változókkal valókorrelációs együtthatói, a sajátérték pedig ezen faktorsúlyok négyzet-összege.

1395.2. a FaktorelemzéS

Page 142: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

5.2.3. a faktorelemzés alkalmazhatóságának vizsgálata

az alkalmazhatóság vizsgálatára három lehetőségünk van, ebből azanti-image mátrix elemzésétől eltekintünk, hiszen ez akkor hasznos,amikor a kmo azt mutatja, hogy a változók rendszere alkalmatlan fak-torelemzésre (példánkban ez az eset nem áll fenn). tulajdonképpen azanti-image mátrix világít rá az ok helyére: a változók mindegyikében vanvalami, ami miatt nem alkalmasak vagy csak egyik-másik nem alkalmasa faktorelemzésre (ez utóbbi esetben kihagyva az oda nem illő változótmár elemzésre alkalmas változórendszert kapunk).

az alkalmazhatóság egyik legkézenfekvőbb módszere a korrelációsmátrix elemzése. a szignifikáns korrelációk arra utalnak, hogy a változó-ink alkalmasak a faktorelemzésre, ugyanakkor a túlságosan magas korre-lációs együtthatók nem mindig jók, mert akkor minden változónk egyfaktorba tömörülne (ugyanakkor ez is lehet a faktorelemzés célja). a kor-relációs mátrix a faktoranalízis menüben, a Descriptives parancskötegnélkérhető le (61. ábra).

61. ábra. a korrelációs mátrix lekérése

a korrelációs mátrixunk azt mutatja, hogy a változóink többségeszignifikáns, közepesnél gyengébb összefüggést mutat egymással, tehátpróbálkozhatunk a faktorelemzéssel.

a módszer alkalmazhatóságának vizsgálatára felhasználhatjuk aBartlett-tesztet és a kmo (kaiser-meyer-olkin) mutatót. a Bartlett-teszt akorrelációkkal kapcsolatos teszt, amely azt vizsgálja, hogy a változók azalapsokaságban korrelálnak-e. Ha a szignifikanciaszint kisebb, mint 0,05,

5. töBBváltozóS elemzéSek140

Page 143: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

akkor 95%-os valószínűséggel állíthatjuk, hogy a változók közötti korre-láció nem a véletlen műve, tehát a változók között van összefüggés, ígyalkalmasak a faktorelemzésre. a kmo mutató az egyik legfontosabbmérőszám annak megítélésére, hogy a változók mennyire alkalmasak afaktorelemzésre (a már említett anti-image mátrix alapján számolják ki).Ha a: kmo ³ 0,9 – adataink kiválóak a faktorelemzésre, ha kmo ³0,7 –adataink megfelelőek, ha a kmo ³0,5 – adataink még elfogadhatóak afaktorelemzésre. Ha a kmo mutató értéke < 0,5, akkor a faktorelemzéselfogadhatatlan.

a Bartlett-teszt és a kmo mutató szintén a faktoranalízis menüben,a Descriptives parancskötegnél kérhető le (62. ábra).

62. ábra. a kmo mutató és a Bartlett-teszt lekérése

a kért statisztikáink az output ablakban olvashatóak (63. ábra).

63. ábra. a kmo mutató és a Bartlett-teszt értéke

a kmo mutatónk faktorelemzésre nagyon alkalmas változókat jelez,a Bartlett-teszt is szignifikáns összefüggést mutat a változók között, tehátnagy reményekkel foghatunk neki a faktorelemzésnek.

1415.2. a FaktorelemzéS

Page 144: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

5.2.4. a főkomponensek számának meghatározása

a létrehozni kívánt faktorok számának megállapítására több lehető-ségünk is van (a program lehetőséget ad, hogy mi határozzuk meg a fak-torok számát). a legkézenfekvőbb az, amikor a faktorok számát egy elmé-leti modell vagy korábbi vizsgálatok alapján határozzuk meg, ilyenkor afaktorelemzés főablakában, az extraction parancskötegnél az alapértel-mezett „eigenvalues over 1” helyett a Number of factors mezőnél beírjuka kívánt faktorok számát (a 64. ábra szerint pl. 4 db).

64. ábra. a főkomponensek számának megadása

Feltételezzük, hogy a vizsgált változóinkkal kapcsolatosan nem ren-delkezünk előzetes feltételezésekkel a látens dimenziók számáról.ilyenkor a legegyszerűbben a kaiser-kritérium alapján határozhatjuk mega faktorok számát (az SpSS alapértelmezésben ezt használja). a kaiser-kritérium azt mondja, hogy csak az 1 sajátérték feletti faktorokat vegyükfigyelembe. a sajátértéket (eigenvalue) viszonyítva a változók számáhozazt kapjuk, hogy a sajátértékhez tartozó faktor mennyit képes magyaráz-ni a mért változók varianciájából. a sajátértékek pozitívak, számukegyenlő a bemenő változók számával, és összegük is ugyanennyi. teháta sajátértékek átlaga 1, ezért lesznek közöttük 1-nél nagyobbak is és 1-nélkisebbek is (amikor minden sajátérték 1, akkor a bemenő változók egy-mással teljesen korrelálatlanok, tehát már faktorváltozók). abból, hogy asajátértékek pozitívak és átlaguk 1, az is következik, hogy általában több0 és 1 közötti lesz köztük, mint 1-nél nagyobb (ha van egy 4-nél isnagyobb sajátérték, akkor ehhez négy 1-nél kisebb sajátérték is kell, hogyátlagban 1-et hozzanak ki). amikor a változókban sok a közös informá-ció, akkor igen nagy sajátérték(ek) is előfordul(nak), és sok lesz a nagyon

5. töBBváltozóS elemzéSek142

Page 145: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

kicsi, tehát kevés faktor fog nagy magyarázó erővel és sok faktor fog kevésmagyarázó erővel bírni.

a kaiser-kritérium alkalmazását könnyíti az extraction menüpontnál, aDisplay ablakrészben található Scree Plot elnevezésű ábra lekérése, amely afaktorok által megtestesített sajátérték-nagyságát szemlélteti (65. ábra).

65. ábra. a kaiser-kritérium alkalmazásának lekérése

adatainkon a 66. ábrát kaptuk.

66. ábra. a sajátértékek grafikus megjelenítése

a Scree plot (66. ábra) azt mutatja, hogy 5 sajátérték feletti faktorunkvan, és ezeket érdemes megtartani (a függőleges tengelyen a sajátértéknagysága, a vízszintes tengelyen pedig a faktorok száma található).

egy másik alapvető módszer a faktorszám meghatározására aVarianciahányad-módszer. a faktorok számát meghatározhatjuk a varian-cia kumulált százaléka alapján is. társadalomtudományokban az elfoga-

1435.2. a FaktorelemzéS

Page 146: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

dott szabály, hogy főkomponens-elemzés esetén a faktorok által hordozottinformációérték ne legyen kevesebb, mint 50% (más faktorelemzési eljárá-soknál 33%). a faktorok által magyarázott varianciát az SpSS alapértel-mezésben megadja, a total Variance explained táblázatban (67. ábra).

67. ábra. a faktorok által magyarázott összvariancia

a 67. ábrán szereplő táblázatban az ötödik oszlop az 5 db egynélnagyobb sajátértékű faktorunk sajátértékeit, a hatodik oszlop pedig azegyes faktorok által magyarázott információmennyiséget mutatja.ahogyan ez a főkomponens-elemzéstől elvárható, az első faktornak vana legnagyobb magyarázó ereje, az 5 faktor által hordozott információ felétjeleníti meg.

az initial eigenvalues/Cumulative % oszlopában leolvasható, hogy 7faktor 66%-os magyarázóerővel bírna együtt stb. ahogyan az utolsó osz-lopunkban is látszik, az 5 faktorunk által hordozott információmennyiségaz eredeti 17 változó által megtestesített információ 55,3%-a, amely érték

5. töBBváltozóS elemzéSek144

Page 147: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

még elfogadható. tehát azáltal, hogy 17 változó helyett 5 változóval dol-gozunk, közel felére csökkentette a rendelkezésünkre álló információ-mennyiséget. Ha értelmezni tudjuk a faktorainkat, ez jó cserének tűnik.

miként az eddigiek alapján már nyilvánvaló, ha túl sok a faktorunk,nehezen tudjuk értelmezni, ha pedig túl kevés, akkor lényeges informá-ciókat veszíthetünk el.

5.2.5. a faktorok értelmezése

a faktorsúly nem más, mint az eredeti változó és az adott főkompo-nens közötti korrelációs együttható (értéke –1 és 1 közötti). a faktorokértelmezésére tehát a faktorsúlymátrixot használjuk. általános szabály,hogy a faktorsúly értéke legalább a 0,25 értéket el kell érje (abszolút érték-ben). kisebb mint 100 fős mintákon a faktorsúly értéke legalább 0,5 kelllegyen. minél magasabb egy faktorsúly értéke (abszolút értékben), annálnagyobb szerepet játszik az illető változó a faktor értelmezésében.továbbá egy változó akkor tartozik egyértelműen egyik faktorhoz, ha fak-torsúlya csak egy faktoron nagyobb, mint 0,25, vagy ha faktorsúlya azegyik faktoron nagyobb, mint bármelyik más faktoron lévő faktorsúlyaértékének kétszerese.

a táblázat elemzése előtt azonban még egy nagyon fontos feltétel telje-sülését kell megnéznünk, mégpedig azt, hogy minden változó hozzájárul-ea faktorstruktúra kialakításához. ebben a kommunalitások segítenek. akommunalitások a többszörös korrelációs együtthatók négyzetei, és aztmutatják meg, hogy a faktorok együtt milyen mértékben magyarázzák azadott változó szóródását. azt a változót tekintjük a főkomponens alkotóele-mének, amelynek a kommunalitása ³ 0,25, vagyis a főkomponens és az ere-deti változó közötti kapcsolat szorossága legalább 0,5 értékű korrelációvalírható le. amennyiben ez a feltétel nem teljesül, az illető változó nem járulhozzá a faktorstruktúra kialakításához és ki kell vennünk a modellből.

mind a kommunalitásokat, mind a rotálatlan faktorsúlymátrixot azSpSS alapértelmezésben kiszámolja. minden további beállítás nélküllefuttatunk egy főkomponens-elemzést.

miként már korábban megnéztük, a kmo mutatónk és a Bartlett-teszt azt mutatja, hogy változóink alkalmasak a faktorelemzésre. továbbáa faktorok számának megválasztásában a kaiser-kritériumot alkalmaz-tuk, és 5 faktorral dolgozunk. következő lépésben akkor nézzük a kom-munalitásokat (68. ábra).

1455.2. a FaktorelemzéS

Page 148: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

68. ábra. a kommunalitások

a 68. ábrán szereplő táblázat első oszlopában a felcímkézett válto-zóink szerepelnek, a második oszlopban a kezdeti kommunalitások(főkomponens-elemzésnél ez mindig 1), majd a faktorelemzés utánkapott kommunalitások. minden változó kommunalitása megfelelő, a0,25 küszöbérték fölött van.

a könnyebb értelmezés kedvéért a faktorelemzés főablakban, azoptions menünél állítsuk be, hogy adatainkat csökkenő sorrendbe jele-nítse meg az SpSS (69. ábra).

69. ábra. a faktorsúlyok értékeinek csökkenő sorba rendezése

5. töBBváltozóS elemzéSek146

Page 149: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

nézzük most a rotálatlan faktorsúlymátrixot (70. ábra).

70. ábra. a rotálatlan faktorsúlymátrix

a 70. ábra alapján az első változónk, a „környezet állapota” egyértel-műen az első faktorhoz kötődik, hiszen ezen a faktoron ül nagy súllyal(az e betűvel megjelenített értékek nagyon kicsi, 0,100-nál kisebb értéke-ket jelölnek). az „igaz barátság” szintén az első faktorhoz tartozik, mivelezen a faktoron 0,615 a faktorsúlya, a 3. faktoron pedig csak –0,274(0,274.2=0,548, tehát kisebb, mint 0,615). a „szépség” is az első faktor-hoz tartozik, a „társadalmi rend” viszont egyszerre két faktoron is elégmagas súllyal ül (1-es és 5-ös faktorok). Szintén egyszerre több faktorkialakításában játszik szerepet a „tradíciók tisztelete”, a „nemzet szere-pe”, a „szabadság”, a „belső harmónia”, a „családi biztonság”, az „érdekesélet”, a „változatos élet”, a „hatalom” stb., tehát minden további válto-zónk. tehát a rotálatlan faktorsúly-mátrix alapján nem tudjuk értelmez-ni a faktorainkat.

1475.2. a FaktorelemzéS

Page 150: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

5.2.6. a faktorok forgatása, rotálása

a faktoranalízis alapegyenletének végtelen sok matematikailaghelyes megoldása van, a főkomponens-módszer (de a többi is) valami-lyen közelítő módszerrel (számítógépen csak ilyen módszerekkel dolgoz-nak a programok) meghatároz egyet, majd ebből kiindulva, újra csakközelítő módszerrel, olyan megoldást szolgáltat, amelyik bizonyos szem-pontból optimálisabb, mint a többi megoldás. a faktoregyenlet egyikmegoldásából a többi megoldást úgynevezett mátrixtranszformációvallehet megkapni, és a geometriában ennek a transzformációnak a neve:forgatás (rotáció).

a társadalomkutató számára fő optimalizációs szempont az, hogy akülönböző faktorok a mért változók csak egy jól elkülönülő részével kor-reláljanak nagyon jól, a többiekkel pedig a legkorrelálatlanabbak legye-nek. a faktorelemzés során azonban (ahogy láttuk az előzőekben) nagyongyakran előfordul, hogy olyan változók korrelálnak ugyanazzal a faktor-ral (tartoznak ugyanahhoz a faktorhoz), amelyeknek semmi közük egy-máshoz, vagy egyszerre két faktorral is korrelálnak, és így nem tudjukőket értelmezni. ebben segít a forgatás vagy rotálás, ami a gyakorlatbanazt jelenti, hogy a faktorok tengelyeit elforgatjuk úgy, hogy egyszerűbb ésfőként értelmezhetőbb faktorokat nyerjünk. a rotálás nem változtatjameg sem a kommunalitásokat, sem pedig az összes magyarázott varian-ciát, csak a faktorok magyarázott varianciáit módosítja.

kétféle rotálási típust szokás megkülönböztetni: derékszögű vagyorthogonális, valamint hegyesszögű rotálást. a hegyesszögű rotálás ered-ményeképpen a faktorok korrelálni fognak egymással (a tengelyek tet-szőleges szöget zárnak be), a derékszögű forgatás eredményeként pedig afaktorok korrelálatlanok maradnak egymással (a tengelyek derékszögetzárnak be). Ha a faktorelemzés eredményeit további elemzésekbe kíván-juk bevonni, akkor az orthogonális, ha pedig csak értelmezni akarjuk afaktorokat, akkor a hegyesszögű forgatás ajánlott.

az SpSS által használt derékszögű forgatási módszerek a Varimax(csökkenti az egy faktorra eső magas faktorsúlyú változók számát),Quartimax (az egy változó megmagyarázásához szükséges faktorok szá-mát csökkenti) és equimax (az első kettő kombinálása), hegyesszögű for-gatási módszerek pedig a Direct oblimin és a Promax.

a rotálás a faktoranalízis menüben a rotation menüpontnál kérhetőle, a választott forgatási módszer bejelölésével. mivel értéktipológiánkat

5. töBBváltozóS elemzéSek148

Page 151: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

klaszterelemzésben is fel szeretnénk használni, ugyanakkor értelmezni isszeretnénk faktorainkat, a varimax módszert használjuk (71. ábra).

71. ábra. Varimax forgatás kérése

most akkor vizsgáljuk meg a rotált faktorsúlymátrixot (72. ábra).

72. ábra. a rotált faktorsúlymátrix

1495.2. a FaktorelemzéS

Page 152: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a rotált faktorsúlymátrixunk sem túlságosan biztató, hiszen tovább-ra is több olyan változónk van, amelyik egyszerre több faktorhoz is tar-tozik: a „környezet állapota”, az „igaz barátság”, a „belső harmónia”, a„szépség”, a „kreativitás”, a „nemzet szerepe”, a „tradíciók tisztelete” ésa „hatalom”.

ez azt jelenti, hogy ezek a változók gyakorlati szempontból nem jelen-tősek, tehát az értelmezéshez nem járulnak hozzá. ilyenkor több lehető-ség előtt állunk: 1. megvizsgáljuk, hogy több vagy kevesebb faktorszámesetén ezek a változók hogyan viselkednek, 2. kizárhatjuk az elemzésbőlezeket a változókat és újrafuttatjuk a faktorelemzést, vállalva, hogy lénye-ges információkat veszítettünk, 3. a változókat benne hagyjuk az elem-zésben, de az értelmezésnél nem vesszük figyelembe őket. mivel sokilyen változónk van, amellett döntünk (ez csak a lehetőségek egyike),hogy a rotálatlan faktorsúlymátrixunk alapján sem értelmezhető változókközül elsőként a legalacsonyabb kommunalitásútól válunk meg, hiszen eza változó nem játszik nagy szerepet a faktorstruktúra kialakításában. ez aváltozó a „belső harmónia”, hiszen egyszerre az első és a harmadik fak-torhoz is kapcsolódik, és a kommunalitása 0,342 (a legalacsonyabb).

újra lefuttatjuk a főkomponens-elemzést, kihagyva tehát ezt a válto-zót. a kmo mutató értéke kicsit lecsökkent, de továbbra is nagyon jó, aBartlett-teszt szignifikáns összefüggést mutat (73. ábra).

73. ábra. a kmo mutató és Bartlett-teszt értéke

a kommunalitások továbbra is rendben vannak (74. ábra), az össz-variancia 57,27%, tehát a faktormodellünk magyarázó ereje javult.

5. töBBváltozóS elemzéSek150

Page 153: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

74. ábra. a kommunalitások

75. ábra. a rotált faktorsúly-mátrix (16 változó)

1515.2. a FaktorelemzéS

Page 154: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a rotált faktormátrixunkban (75. ábra) továbbra is szerepel 7 olyanváltozónk, amit nem tudunk értelmezni: „igaz barátság”, „a környezetállapota”, „szépség”, „a nemzet szerepe”, „kreativitás”, „tradíciók tiszte-lete” és „hatalom”. most a „hatalom” változótól válunk meg, mert enneka legalacsonyabb a kommunalitása.

újra lefuttatjuk a faktorelemzést. továbbra is minden mutatónkrendben van, megmaradt az 5 faktorunk, de a rotált faktormátrixunk (76.ábra) továbbra sem egyértelmű.

76. ábra. a rotált faktorsúlymátrix (15 változó)

az „igaz barátság”, „a környezet állapota”, „békés világ”, „szépség”,„kreativitás”, „tradíciók tisztelete” és „nemzet szerepe” változók közül azelőző logika szerint a „békés világ” változótól válunk meg.

újra lefuttatjuk a faktorelemzést. továbbra is minden mutató rendbenvan, a kumulált variancia 61,9%-ra nőtt, tehát javult a magyarázóerő.

5. töBBváltozóS elemzéSek152

Page 155: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

77. ábra. a rotált faktorsúlymátrix (14 változó)

a rotált faktorsúlymátrixból (77. ábra) továbbra sem tudjuk eldönte-ni a „környezet állapota”, a „kreativitás”, „nemzet szerepe”, „tradícióktisztelete” és „szépség” változók hovatartozását. megválunk a „nemzetszerepe” változótól, és újra lefuttatjuk a faktorelemzést. minden muta-tónk rendben van, nézzük a rotált faktorsúlymátrixot (78. ábra).

a 78. ábra alapján most már csupán három változó hovatartozásábannem vagyunk biztosak: a „kreativitás”, a „tradíciók tisztelete” és a „szép-ség”. az alacsonyabb kommunalitású „kreativitás” változótól válunkmeg, és újra lefuttatjuk a főkomponens-elemzést.

1535.2. a FaktorelemzéS

Page 156: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

78. ábra. a rotált faktorsúlymátrix (13 változó)

ennél a pontnál érdemes megállnunk. a „kreativitás” változó kivéte-lével az eddigi öt faktorváltozó közül kettőnek megszűnik az 1 felettisajátértéke, a magyarázott variancia pedig lecsökken a kritikus 50% alá,továbbá a rotált faktorsúlymátrixunk további értelmezhetetlen változók-kal gyarapodik. lényegi döntés előtt állunk: vagy úgy döntünk, hogytovább folytatjuk a faktorelemzést ezen logika szerint, és további válto-zók megszabadulásával javítunk a modellünk magyarázóerején, vállalva,hogy lényeges információkat veszítünk, vagy változtatunk az értelmezé-si módszeren. ekkor az 1. lehetőség mellett döntünk, mert úgy gondol-juk, hogy két fontos dimenzió elveszítésével a faktoraink már nem az ere-deti változóstruktúrát írnák le (az eddig kivett négy változó még nemjátszott kulcsszerepet), így nem vesszük ki a „kreativitás” változót. tehátkövetkező lépésben megvizsgáljuk, hogy több vagy kevesebb faktorszámesetén ezek a változók hogyan viselkednek. Sajnos ez a módszer semvezet előbbre, hiszen a 4 faktoros modellünk sem értelmezhető. úgytűnik, a 13 változó 5 faktorba való csoportosulását kell választanunk.előtte még próbálkozunk modellünk másik két derékszögű forgatásával,reménykedve, hogy legalább még egy változót sikerül egyetlen faktorhoz

5. töBBváltozóS elemzéSek154

Page 157: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

társítanunk. előtte azonban a faktorsúlyok könnyebb értelmezhetőségekedvéért a faktorelemzés főmenüben az options mezőnél beállítjuk, hogycsak a 0,25 (küszöbérték) fölötti faktorsúlyokat jelenítse meg a program(79. ábra).

79. ábra. a 0,25 értéknél kisebb faktorsúlyok kiszűrése

a Quartimax forgatással a 80. ábrán szereplő rotált faktorsúlymátri-xot kapjuk.

80. ábra. a Quartimax forgatás eredménye

1555.2. a FaktorelemzéS

Page 158: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

látható, hogy a „kreativitás”, a „tradíciók tisztelete” és a „szépség”változónk ezzel a módszerrel sem értelmezhető, tehát ugyanazt az ered-ményt kaptuk, mint a Varimax rotálással. nézzük az equimax forgatáseredményét (81. ábra).

81. ábra. az equimax forgatás eredménye

ezzel a forgatással is a „szépség”, a „környezet állapota” és a „krea-tivitás” változókat nem tudjuk értelmezni (81. ábra). látható, hogy ezzela forgatással a „tradíciók tisztelete” változó besorolódott a 4. faktorba,viszont a „környezet állapota” változó egyik faktorhoz sem tartozikegyértelműen. mivel az equimax forgatással kapott mátrixot könnyebbentudjuk értelmezni és a „tradíciók tisztelete” változónak nagyobb a kom-munalitása, ezt a modellt fogadjuk el végső modellnek. tehát a 3. lehe-tőséggel élünk, elfogadjuk a faktormodellünket, hiszen statisztikai szem-pontból minden kritériumnak eleget tesz, viszont a jelzett háromváltozónkat kihagyjuk az értelmezésből.

a végső modellünk kmo mutatója nagyon jó (0,818), a Bartlett-tesztszignifikáns összefüggést mutat (p=0,000, 82. ábra), a kommunalitásainkmind nagyon jók (0,5 felettiek, 83. ábra), a faktorok által magyarázottvariancia pedig kellően magas (63,68%, 84. ábra).

5. töBBváltozóS elemzéSek156

Page 159: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

82. ábra. a kmo mutató és a Bartlett-teszt értékei a végső modellben

83. ábra. a végső modellben szereplő változók kommunalitásai

az equimax forgatással kapott faktorsúlymátrixunk alapján 5 faktortsikerült beazonosítani (81. ábra). a rotált (mivel ezt értelmezzük) fakto-raink által magyarázott variancia viszonylag egyenletesen oszlik meg afaktorok között (a total Variance explained táblázat utolsó előtti oszlopamutatja).

1575.2. a FaktorelemzéS

Page 160: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

84. ábra. a faktorok által magyarázott összvariancia a végső modellben

a faktorok értelmezése nyilvánvalóan szociológiai háttérismeretet ésképzelőerőt igényel. az egy faktorhoz tartozó változók alapján (81. ábra)az alábbi 5 főkomponenst/faktort kaptuk:

1. faktor (boldogság/szerelem, igaz barátság, családi biztonság érté-kek tartoznak hozzá): interperszonális értékek elnevezést kapta,

2. faktor (változatos élet, érdekes élet): individualista értékek,3. faktor (társadalmi rend/társadalmi stabilitás, szabadság): demokra-

tikus értékek,4. faktor (vallásos hit, tradíciók tisztelete): hagyományos közösségi

értékek,5. faktor (gazdagság): materialista értékek.ilyen módon tehát a főkomponens-elemzés segítségével 5 statisztika-

ilag releváns, gyakorlati szempontból pedig hasznos és értelmezhető fak-tort nyertünk az eredeti 17 változónkból, ami jó cserének tűnik.

5.2.7. a faktorok elmentése

az SpSS a létrehozott új változókhoz/faktorokhoz úgynevezett fak-torszkórokat rendel, ami azt jelenti, hogy minden megkérdezettünk kapegy számot az interperszonális, individualista, demokratikus, hagyomá-nyos közösségi és materialista értékorientációjának jellemzésére. a fak-

5. töBBváltozóS elemzéSek158

Page 161: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

torszkórokat tartalmazó faktorokat 3 módszerrel menthetjük el: regresz-sziós módszerrel, Bartlett-módszerrel és anderson–rubin-módszerrel. ahárom módszer közötti különbséget csak nagyon bonyolult matematikaiapparátus segítségével lehet megmagyarázni. elég, ha azt tudjuk, hogy ahárom módszerrel elmentett faktorszkórok között nincs lényeges különb-ség. azonban ha a faktorokat további elemzésre kívánjuk felhasználni, aregressziós módszer használata ajánlott. mentsük el tehát faktorainkatregressziós módszerrel a faktorelemzés menüben található Scores mező-nél (85. ábra).

85. ábra. a faktorok mentése regressziós módszerrel

az adatbázisunk végén ilyen módon megjelenik az öt új faktorváltozó.

5.2.8. További felhasználás

a létrehozott faktorainkat a továbbiakban klaszterelemzésbe kíván-juk bevonni, de kétváltozós elemzésekre is jól használható. a további fel-használáshoz azonban először címkézzünk fel faktorainkat az értelmezésszerint (1. faktor: interperszonális értékek stb.).

a faktorszkórok értelmezéséhez legcélszerűbb először leíró statiszti-kákat kérni, amelynek eredményét a 86. ábra foglalja össze.

86. ábra. az 5 faktor leíró statisztikái

1595.2. a FaktorelemzéS

Page 162: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

tehát a faktorok egységnyi szórású, 0 átlagú standardizált mennyi-ségi változók (a 0 körüli átlagérték a táblázatból a program által használt16–17 tizedesjegyre kerekítésből adódik, mind az 5 átlagértéknél azegész rész és további 15 tizedesjegy is 0). az eredeti változóink egy 1–5fokú skálán lettek mérve, ahol a maximális érték 5 volt. a faktorok ese-tében a maximális és minimális értékek a fenti táblázatban szerepelnek,tehát az adatok értékelésekor ehhez kell viszonyítsunk. általában apozitív értékek a magasabb, a negatív értékek pedig az alacsonyabb érté-ket jelölik.

mielőtt változóinkat bevonjuk a klaszterelemzésbe, vizsgáljuk meg,hogy van-e szignifikáns összefüggés a nem (k3.1 változó) és a faktorvál-tozóink között. Független mintás t-tesztet futtatunk le. a szignifikancia-szint azt jelzi, hogy az 5 faktor közül csak a „hagyományos közösségiértékek” és a „materialista értékek” tekintetében van szignifikáns különb-ség (p=0,01) a nemek között.

a csoportstatisztikák azt jelzik, hogy a nők számára fontosabbak ahagyományos közösségi értékek (vallás, hagyományok), mint a férfiakszámára, a férfiak pedig fontosabbnak tartják a materialista értékeket (agazdagságot), mint a nők (87. ábra).

87. ábra. a t-teszt csoportstatisztikái

5.3. a klaszterelemzés

miként a többváltozós elemzések rövid összefoglalásánál láttuk, aklaszterelemzés előre nem ismert csoportok képzésére használatos eljá-rás. tehát a klaszterelemzést arra használjuk, hogy a vizsgálatba bevontminden egyes ismérv szerint a hasonló egységek (egyének) azonos, akülönbözők pedig eltérő csoportokba (klaszterekbe) kerüljenek. ennél azeljárásnál sem kell megkülönböztetni a függő és a független változókat.

5. töBBváltozóS elemzéSek160

Page 163: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a módszer alapvetően feltáró jellegű, vagyis nem vonható le belőlekövetkeztetés az alapsokaságra nézve. akárcsak a faktorelemzés eseté-ben, a klasztereket létre lehet hozni, de a kutatónak kell eldöntenie, hogytudja-e értelmezni őket. a klaszterelemzésbe bevont változóknak magasmérési szintűeknek kell lenniük.

a klaszterelemzésnek két alapvető típusa van: hierarchikus és nemhierarchikus klaszterelemzés. mivel a hierarchikus klaszterelemzés nagyadatfájlokon (amelyekkel a szociológiai adatfelvételek nyomán dolgo-zunk) nem végezhető el, csak a nem hierarchikus klaszterelemzéssel (han >30) foglalkozom.

a nem hierarchikus klaszterelemzés folyamata:1. az elemzés célja, a vizsgálatba bevont változók,2. a klaszterelemzés feltételeinek vizsgálata,3. a klaszterelemzés folyamata, döntés a klaszterek számáról,4. a klaszterek értelmezése és jellemzése,5. a megbízhatóság és az érvényesség vizsgálata.akárcsak a faktorelemzés esetében, a klaszterelemzést is egy konkrét

példán keresztül mutatom be.

5.3.1. az elemzés céljának megfogalmazása, a vizsgálatbabevont változók

a klaszterelemzés során az SpSS minden esetben létrehoz klasztere-ket, függetlenül attól, hogy azok ténylegesen léteznek-e. mivel a klasz-termegoldások teljesen az elemzésbe bevont változóktól függenek,nagyon kell vigyáznunk, hogy milyen változókat választunk ki az elem-zésre. továbbá a gyakorlati tapasztalat azt mutatja, hogy amikor előzeteselgondolás nélkül vonjuk be a változókat, nem igazán reménykedhetünksikeres értelmezésben.

a migrációkutatások a migráció okait három változócsoportba szoktáksorolni: az elsőbe a szocioökonómiai tényezők tartoznak, a másodikba amigrációs burok kapcsolatai és az emberi tőke elemei, a harmadikba pedigolyan értékrendi és elégedettséget kifejező változók, amelyekről feltételez-ni lehet, hogy hatnak az egyén migrációs terveire. a szocioökonómiaitényezők közül a legfontosabbak: nem, kor, etnikai származás, iskolai vég-zettség, szegénység, gazdasági aktivitás és település. a migrációs burokkapcsolatai és az emberi tőke tényezői: kapcsolati tőke, az emberi tőketudáselemei és az emberi tőke pszichikai elemei. az értékrendhez, az elé-

1615.3. a klaSzterelemzéS

Page 164: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

gedettséghez tartozik mind a személyes, mind az általános viszonyok meg-ítélése. ezen elméleti háttérre alapozva adatbázisunkban, a székelyföldi fia-talok 750 fős reprezentatív mintáján keressük a választ arra, hogy a 15–29évesek körében milyen arányban találhatók meg azok a potenciális migrán-sok, akik olyan értékrendszerrel, életkorral és környezeti megítéléssel bír-nak, amelyekről feltehető, hogy hatnak az egyén migrációs terveire. Báradatbázisunk nagyon sok változót tartalmaz, a mennyiségi mérési szintűváltozók száma nagyon kevés, ezért csak néhány változó vonható be a klasz-terelemzésbe. ne feledkezzünk meg arról sem, hogy nem egy migrációselemzést végzünk, hanem egy valósághű módszertani leírást mutatunk be.

a főkomponens-elemzéssel már feltérképeztük a fiatalok értékorientá-cióit, az életkort a születési évből (k2.1 változó) könnyen ki tudjuk szá-molni. a felnőtt társadalom fiatalokhoz való viszonyulását a k165.1-k165.9változókból számított faktorszkórokkal mérjük (az előző fejezetben leírtakszerint főkomponens-elemzést használunk).

első lépésben hozzuk létre az „életkor” változót (a Compute menüsegítségével, a „2001-k2.1 feltétel megadásával).

második lépésben végezzünk főkomponens-elemzést a k165.1-k165.9 változó-szettre. a változók az alábbi kérdésekre adott válaszokattartalmazzák:

egyetért-e a következő kijelentésekkel? (osztályozza 1-től 7-ig, ahol az1-es azt jelenti, hogy egyáltalán nem ért egyet, a 7-es pedig azt jelenti, hogyteljesen egyetért a kijelentéssel. a közbülső számok átmenetet jelölnek.)

1. társadalmunkban mindenhol ellenségeskedést tapasztalsz a fiata-lokkal szemben.

2. a fiataloknak nem szabad mindent eltűrniük munkahelyükön,hanem vissza kell vágniuk.

3. tulajdonképpen sokat köszönhetek a szüleimnek.4. törekszem arra, hogy megértsem szüleimet, még ha ez időnként

nehezen is megy.5. a fiatalok problémáit valójában nagyon kevés felnőtt érti meg.6. nem sokat adok a felnőttek tapasztalataira, inkább a magaméra

hagyatkozom.7. a hasonló korú barátaimtól több tapasztalatot szerzek, többet

tanulok, mint szüleimtől.8. a szüleim állandóan beleszólnak olyan dolgokba, amik nem tar-

toznak rájuk.9. általában a rendőrök durván bánnak a fiatalokkal.

5. töBBváltozóS elemzéSek162

Page 165: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

először megtisztítjuk adatainkat a nem releváns válaszoktól (kiszűr-jük a 0 kódú, azaz „nem tudom” válaszokat), majd lefuttatjuk a főkom-ponens-elemzést. a kmo mutató értéke 0,65, a Bartlett-teszt szignifi-kanciaszintje jó (p=0,000), a kommunalitások értéke minden változóesetében nagyobb, mint a 0,25-ös küszöbérték, a faktorok által magyará-zott összvariancia 52,38%, tehát változóink alkalmasak a főkomponens-elemzésre. minden változó kellő mértékben járul hozzá a faktorok kiala-kításához, és a faktorok az eredeti változók információtartalmának többmint 50%-át megtartották. elvárásainknak megfelelően a rotálatlan fak-torsúly-mátrix nem értelmezhető, viszont a Varimax módszerrel rotáltfaktorsúly-mátrix igen (88. ábra). a 9 elemzésbe bevont változónkbólmindössze egy, a „fiatalok problémáit kevés felnőtt érti meg” változó nemértelmezhető a háromfaktoros modellünkben. úgy döntünk, hogy bár azelemzésben otthagyjuk, de az értelmezésbe nem vonjuk be ezt a változót.

88. ábra. a rotált faktorsúlymátrix

1635.3. a klaSzterelemzéS

Page 166: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

az 1. faktorunkhoz a „nem sokat adok a felnőttek tapasztalatára”, „abarátoktól többet tanulok, mint a szülőktől” és „a fiataloknak nem szabadmindent eltűrniük” változók tartoznak, ezért a lázadás elnevezést kapta.a 2. faktorunkhoz a „törekszem szüleim megértésére” és „sokat köszön-hetek a szülőknek” változók tartoznak, tehát a család húzóereje elneve-zést kapta. a 3. faktorhoz „a rendőrök durván bánnak a fiatalokkal”, a„fiatalokkal szembeni ellenségeskedés” és „a szüleim állandóan beleszól-nak a dolgaimba” változók tartoznak, így a taszító környezet elnevezéstkapta. a faktorszkórokat regressziós módszerrel mentjük meg.

mivel az értékdimenziókat leíró 5 faktorunk közül az egyik a demok-ratikus értékorientációt fejezi ki, a potenciális migránsok csoportjánakfeltárásra irányuló klaszterelemzésünkbe nincs sok értelme bevonnunk.tehát a klaszterelemzést a 4 értékváltozó (az előző fejezetben nyert fak-torok), az életkor és a három új faktorváltozó bevonásával végezzük.

5.3.2. a klaszterelemzés feltételeinek vizsgálata

miként már korábban is említésre került, klaszterelemzést csakmennyiségi változók bevonásával végezhetünk. továbbá a klaszterelem-zés szempontjából rendkívül fontos, hogy ne legyenek túlságosan kiugróadataink (outliers), ezért nagyon figyeljünk az adattisztításra. mi mostezzel nem kell foglalkozzunk, hiszen adataink „tiszták” (a faktorelemzés-be bevont változóinkat már megtisztítottuk, az életkor változót szintén).

mivel a klaszterelemzés a távolságra alapszik, nem mindegy, hogymilyen nagyságrendű adataink vannak. Ha a változóink nem egyformaskálán lettek mérve, akkor nagyon torz adatokat kapunk, ezért a változó-kat standardizált formában kell bevinnünk a klaszterelemzésbe. mivel afaktorváltozóink már eleve standardizáltak (0 átlagú és egységnyi szórá-súak), így az „életkor” változóhoz képest jóval kisebb értékeket vesznekfel, ezért az „életkor” változót is standardizálnunk kell. a standardizálástulajdonképpen azt jelenti, hogy az átlagot kivonjuk az egyes értékekbőlés a különbséget elosztjuk a szórással. természetesen ezt nem kézzel,hanem az SpSS-sel számoltatjuk ki úgy, hogy az analyze főmenüDescriptive Statistics, Descriptives menüjében bal oldalon, a változókalatt szereplő Save standardized values as variables parancsot bejelöljüka standardizálni kívánt változóra (89. ábra). tehát standardizáljuk azéletkort.

5. töBBváltozóS elemzéSek164

Page 167: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

89. ábra. Standardizálás kérése

a standardizálás eredményeként megkapjuk a zscore(eletkor)nevű változót.

a klaszterelemzés lefuttatásának utolsó kritériuma az elemzésbebevont változók közötti korrelációk vizsgálata. Ha az eljárásban szereplőváltozók között erős korreláció van, ezek a változók nagyobb szerepetfognak kapni az elemzésben és így az eredményekben is. amennyibenkét változó közötti korrelációs együttható értéke nagyon nagy (ez társa-dalmi jelenségeknél ritkán fordul elő), a két változó egyikét ki kell zárniaz elemzésből, mivel a redundáns információk torzításhoz vezetnek (aklaszterelemzésben minden változónak azonos a súlya). lefuttatunk egykorrelációt a 8 változónkra (analyze, Correlate, Bivariate) és azt tapasz-taljuk, hogy egyetlen korrelációs együtthatónk értéke sem nagyobb, mint0,3. tehát változóink nem hordoznak redundáns információkat.

most már elmondhatjuk, hogy mind a nyolc változónk készen áll aklaszterelemzésre.

5.3.3. a klaszterelemzés folyamata, döntés a klaszterek számáról

a nem hierarchikus vagy dinamikus klaszterelemzést a k-közép (k-means) módszerrel végezzük. a k-közép klaszterezés algoritmusa az eukli-deszi távolságszámításon (az egyes változók közötti különbségek négyzet-összegének a négyzetgyöke) alapszik. a k-közép eljárás a kiinduláskormegadott klaszterszám alapján választ ki kezdeti klaszterközéppontokat (ini-tial cluster centers), vagyis minden klaszterhez egy középpontot rendel. akezdeti klaszterközéppontok tulajdonképpen az adatfájl első k (k a kértklaszterek száma) elemének adatait jelentik (ezek a kezdőpontok nem látha-tóak, mivel a „valódi” kezdeti középpontokat egy algoritmussal alakítja ki aprogram), és ezek után kerül behelyezésre a többi elem. tehát a klaszter-elemzésben fontos lehet az esetek sorrendje. a program akkor cserél ki egy

1655.3. a klaSzterelemzéS

Page 168: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

már kiválasztott klaszterközéppontot, ha az új eset távolsága (euklideszi) ahozzá legközelebb eső klaszterközépponthoz képest nagyobb, mint a kétegymáshoz legközelebb eső klaszterközéppont távolsága. a klaszterbe soro-lás kritériuma pedig az, hogy egy elem abba a klaszterbe kerül, amelynek aközéppontjához a legközelebb van. amennyiben az összes eset besorolódott,a klaszterképző változók átlagai alapján kiszámítja az új klaszterközéppon-tokat, és minden esetet újra behelyez. mindez a folyamat több iterálás(ismétlés) révén addig folytatódik, míg kialakul egy stabil klaszterstruktúra,vagyis a klaszterközéppontok tovább nem változnak. a klaszterek értelme-zése a végső klaszterközéppontok (final cluster centers) alapján történik.

mielőtt azonban lefuttatnák a klaszterelemzést, meg kell adnunk aklaszterek számát. ez azt jelenti, hogy vagy előzetes elvárásokra támasz-kodva, vagy „vakon” kell eldöntsük, hogy hány klaszterbe kívánjuk beso-rolni eseteinket. mivel mi a potenciális migránsok csoportját kívánjukfeltérképezni, előzetes elvárásainknak megfelelően 2 klasztert szeret-nénk kapni: a potenciális migránsok és a potenciálisan nem migránsokcsoportját. tehát próbálkozzunk a két klaszteres modellel.

klaszterelemzést az analyze főmenü Classify, k-means Clustermenüpont alatt kérhetünk. a megszokott módon átvisszük az elemzésbebevont változókat, majd a változók alatt szereplő Number of Clustersmezőnél megadjuk, hogy 2 klasztert szeretnénk. az iterate mezőben átál-lítjuk az ismétlések számát 10-ről 100-ra, mivel feltételezzük, hogy 10ismétlés nem vezet végleges klaszterstruktúrához, és lefuttatjuk a klasz-terelemzést (90. ábra).

90. ábra. a klaszterelemzés lefuttatása

az output ablakban megtekinthetjük a kezdeti klaszterközépponto-kat tartalmazó táblázatot, az iteration History tábla azt jelzi, hogy a prog-ram 9 iterálás után jutott el a végső klaszterstruktúrához (91. ábra).

5. töBBváltozóS elemzéSek166

Page 169: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

91. ábra. az iterálások száma

a Final Cluster Centers táblázat a végleges klaszterközéppontokattartalmazza, a Number of Cases in each Cluster táblázatban pedig azegyes klaszterekhez tartozó esetszámok vannak feltüntetve. mielőttazonban ezeket megvizsgálnánk, nézzük meg, hogy a klaszterközéppon-tok mind a nyolc klaszterképző változó mentén szignifikánsan külön-böznek-e. Bár az SpSS arra törekedett, hogy olyan csoportokat hozzonlétre, amelyek egymástól jól elkülönülnek, mégis érdemes megvizsgálnia k-közép klaszterelemzés menü options almenüjében lekérhető (nemklasszikus) anova táblát (92. ábra).

92. ábra. az aNoVa tábla lekérése

1675.3. a klaSzterelemzéS

Page 170: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

Bár a gyakorlatban ritkán fordul elő, az egyutas variancia-analízistáblázata (93. ábra) azt jelzi, hogy sem a „taszító környezet”, sem az„individualista értékek”, sem a „materialista értékek” változók menténkialakított klaszterközéppontok nem különböznek szignifikánsan.(p>0,05). a táblázatban szereplő F-statisztika azt mutatja, hogy melyikváltozó mentén sikerült homogénebb csoportokat kialakítani. minélnagyobb az F értéke, annál fontosabb szerepet játszik az illető változó aklaszterstruktúra kialakításában.

93. ábra. az aNoVa tábla (kétklaszteres modell)

tehát a kétklaszteres struktúránk nem jó, 8 változó mentén mind-össze két, egymástól jól elkülönülő csoport kialakítás túlságosan opti-mista elképzelésnek bizonyult.

próbálkozzunk a háromklaszteres struktúrával az előzőek szerint. aháromklaszteres struktúra anova táblázata szerint a klaszterközéppon-tok minden változó mentén szignifikánsan különböznek, a klaszter-struktúra kialakításában pedig a legnagyobb szerepe a „család húzóereje”és a „taszító környezet” változóknak van (94. ábra).

5. töBBváltozóS elemzéSek168

Page 171: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

94. ábra. az aNoVa tábla (háromklaszteres modell)

az SpSS 25 iterálás után jutott el a végleges klaszterközéppontokig.most már értelmezhetjük a végső klaszterközéppontokat tartalmazó táb-lázatot.

5.3.4. a klaszterek értelmezése és jellemzése

a klasztereket tehát az euklideszi távolság alapján számolt véglegesklaszterközéppontok alapján jellemezzük (95. ábra).

95. ábra. Végleges klaszterközéppontok

1695.3. a klaSzterelemzéS

Page 172: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

az egyes klaszretekbe tartozó megkérdezettek számát az SpSS általszintén automatikusan számolt, a 96. ábrán szereplő táblázat szemlélteti.

96. ábra. az egyes klaszterekbe tartozó esetek száma

az első klaszterbe tartoznak azok a megkérdezettek, akik lázadótípusúak, a család húzóerejét nem tartják fontosnak, különösebben nemérzékelik a felnőtt társadalom részéről megnyilvánuló taszítást, a korosz-tályon belül idősebbek, számukra nem fontosak az interperszonális érté-kek (család, barátok, szerelem), nem individualista értékorientáltságúak,a hagyományos közösségi értékeket nem tartják fontosnak, ám az anya-giakat viszonylag fontosnak tartják. ebben a klaszterben egy olyan cso-portot azonosítottunk be, amely elégedetlennek tűnik saját életével. aklaszter a „gyökértelenek” elnevezést kapta, hiszen a mindenfajta imma-teriális érték elutasítását, az emberi kapcsolatok iránti passzivitást, azelégedetlenséget fejezi ki. ez az a csoport, amelynek migrációs terveivelkapcsolatosan nehéz feltételezni, hiszen míg az „értéknihilizmus”, alázadás és az anyagiak fontossága a migrációs döntés meghozatala mel-lett szólhat, addig az individualista értékorientáció és a taszító környezethiánya a migrációs döntések meghozatala ellen szólhat. a bármilyenfajta kötődés hiánya, az erős elégedetlenség és az alapvető emberi érté-kektől való elfordulás inkább egy kilátástalan, bizonytalanságban élő éskiszámíthatatlansággal jellemző fiatal csoportot ír körül, mintsem egypotenciális migráns csoportot. ez a klaszter, fiatalokról lévén szó, elégszámos, a releváns válaszadók (575) közel egyhatodát (94) tömöríti.

a második klaszterbe azok a nagyon fiatalok tartoznak (tizenévesek),akik nem lázadóak, akik számára a család húzóerőt képvisel, hisznek aközösségi értékekben, viszont a felnőtt társadalom részéről nagyon erő-teljes taszítóerőt érzékelnek, fontosak számukra az individualista értékek(érdekes élet, változatos élet), és főként nagyon fontosak a materiálisértékek. az „egészséges” értékorientáció és családi kötődés az erőteljes,változatos és érdekes élet iránti vágyakozással, erős környezeti taszítóe-

5. töBBváltozóS elemzéSek170

Page 173: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

rőkkel és materiális értékorientáltsággal társulva feltehetően a migrációstervek kialakulásának esélyét erősíti, ezért ezt a csoportot „potenciálismigránsoknak” neveztem el. a potenciális migránsok még nagyobb arány-ban képviseltetik magukat, a releváns válaszadók 41,2%-át teszik ki.

végül a harmadik klaszterbe azok a fiatalok kerültek, akik megértikegymást szüleikkel, fontos számukra a családi harmónia, nem érzékelnektaszító környezetet, fontosak számukra az interperszonális kapcsolatok,nem vágynak érdekes és változatos élet után, nagyon fontosnak tartják avallást és a hagyományokat, az anyagi javak pedig nem értékesek számuk-ra. ez az a csoport, aki nagy valószínűséggel nem fog elvándorolni, hiszensem egyéni ambíciói, sem a környezete, sem értékrendszere nem erre kész-teti. ezért ez a klaszter a „helyhez kötöttek” elnevezést kapta. ez a legszá-mosabb csoportunk, a releváns válaszadók 42,4%-át foglalja magába.

5.3.5. a megbízhatóság és az érvényesség vizsgálata

mielőtt elmentenénk klaszterváltozónkat, még egyszer ellenőrizzükle a kapott klaszterstruktúrát. miként már korábban említésre került, aklaszterstruktúra kialakítását befolyásolja az adatbázisban szereplő ese-tek sorrendje, mivel a használt klaszterezési eljárás az adatfile első kdarab elemének adataiból kiindulva határozta meg az iniciális klaszter-középpontokat. ezért ellenőrizni kell, hogy az elemzési egységek mássorba rendezése után (más iniciális klaszterközéppontok) is ugyanezt avégső klaszterstruktúrát adják-e.

rendezési kritériumként jelöljük meg pl. a megkérdezettel közösháztartásban élő első személy életkorát (k2.2 változó). a lényeg egy olyanváltozó szerinti sorbarendezés, amivel a klaszterstruktúra változói gyen-gén korrelálnak. először tehát a Data, Sort Cases menüponttal a jelzettváltozó szerint sorba rendeztetjük eseteinket, majd pearson-féle korrelá-ciós együtthatókat kérünk a k2.2 és a klaszterképző változókra.

várakozásainknak megfelelően egyetlen szignifikáns összefüggéstsem találtunk a k2.2 és a klaszterképző változók között. most tehát fut-tassuk le még egyszer a klaszterelemzést (természetesen 3 klaszter kiala-kítását kérve). az ilyen módon kapott iniciális klaszterközéppontok tény-legesen megváltoztak, a végső klaszterközéppontok viszont hasonlítanakegymásra, az F szignifikanciaszintje minden változó esetében megfelelő(p=0,000), és szintén 25 iteráció után stabilizálódtak. a három csoportmost is nagyon szépen kirajzolódik a klaszterközéppontok alapján.

1715.3. a klaSzterelemzéS

Page 174: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

egyedül a klaszterek sorrendje változott, valamint az egyes klaszterekbesorolt egyének száma változott egy keveset (97. ábra).

97. ábra. az egyes klaszterekbe tartozó esetek száma (ellenőrző modell)

tehát sikerült egy valóságos klaszterstruktúrát feltárnunk, és beazo-nosítanunk az értékrendszer, környezeti megítéltség és életkor alapjánkirajzolódó migránsok csoportját.

amennyiben a klaszterváltozóinkat további elemzésekbe kívánjukbevonni, akárcsak a faktorok, a klaszterkódokat tartalmazó változó iselmenthető. ezt a k-közép klaszterelemzés Save menüpontja segítségéveltehetjük meg (98. ábra). a Save New Variable as Cluster membershiprévén egy kategoriális változót kapunk, amelyben az 1-es érték az elsőklaszterhez, a 2-es a második, a 3-as pedig a harmadik klaszterhez valótartozást jelzi. a Save New Variable as Distance from cluster center utasí-tással a klaszterváltozó egy mennyiségi ismérv lesz, amely a klaszterkö-zépponttól való távolságot (euklideszi) jelzi.

98. ábra. a klaszterek mentése

a gyakorlatban a könnyebb értelmezhetősége miatt a klaszterbe tar-tozás szerint szokás menteni a kapott klaszterváltozót.

5. töBBváltozóS elemzéSek172

Page 175: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

mELLÉKLETEK

a 2-eloszlás táblázata (p=0,05, p=0,01 és p=0,001)

Szabadságfok Szignifikanciaszintp=0,05 p=0,01 p=0,001

1 3,841 6,635 10,8272 5,991 9,210 13,8153 7,815 11,345 16,2684 9,488 13,277 18,4655 11,070 15,086 20,5176 12,592 16,812 22,4577 14,067 18,475 24,3228 15,507 20,090 26,1259 16,919 21,666 27,877

10 18,307 23,209 29,58811 19,675 24,725 31,26412 21,026 26,217 32,90913 22,362 27,688 34,52814 23,685 29,141 36,12315 24,996 30,578 37,69716 26,296 32,000 39,25217 27,587 33,409 40,79018 28,869 34,805 42,31219 30,144 36,191 43,82020 31,410 37,566 45,31521 32,671 38,932 46,79722 33,924 40,289 48,26823 35,172 41,638 49,72824 36,415 42,980 51,17925 37,652 44,314 52,62026 38,885 45,642 54,05227 40,113 46,963 55,47628 41,337 48,278 56,79329 42,557 49,588 58,30230 43,773 50,892 59,703

Page 176: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a t-eloszlás táblázata (p=0,05, p=0,01 és p=0,001)

mellékletek174

Szabadságfok Szignifikanciaszintp=0,05 p=0,01 p=0,001

1 12,706 63,657 636,6192 4,303 9,925 31,5983 3,182 5,841 12,9414 2,776 4,604 8,6105 2,571 4,032 6,8596 2,447 3,707 5,9597 2,365 3,499 5,4058 2,306 3,355 5,0419 2,262 3,250 4,781

10 2,228 3,169 4,58711 2,201 3,106 4,43712 2,179 3,055 4,31813 2,160 3,012 4,22114 2,145 2,977 4,14015 2,131 2,947 4,07316 2,120 2,921 4,01517 2,110 2,898 3,96518 2,101 2,878 3,92219 2,093 2,861 3,88320 2,086 2,845 3,85021 2,080 2,831 3,81922 2,074 2,819 3,79223 2,069 2,807 3,76724 2,064 2,797 3,74525 2,060 2,787 3,72526 2,056 2,779 3,70727 2,052 2,771 3,69028 2,048 2,763 3,67429 2,045 2,756 3,65930 2,042 2,750 3,64640 2,021 2,704 3,55160 2,000 2,660 3,460

120 1,980 2,617 3,373 1,960 2,576 3,291

Page 177: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

az SPSS 9.0 program menüsor parancsainak rövidleírása

a File menü

innen történnek a fájlkezelő műveletek, az adatbázisok megnyitása,elmentése, nyomtatása és az adatfájlok alapinformációinak lekérdezése.

New – Data: új adatfájlok létrehozása.New – Syntax: egy új parancseditor ablak megnyitása (SpSS parancs-

sorok beírása).New – output: megnyit egy új fájlt az output ablakban.New – Script: egy új, parancssor-együttes, „script” lehívása (a szkript

bizonyos helyzetekhez vagy feltételekhez kapcsolódó programrészlet,amely a helyzet vagy a feltétel változásakor lefut).

open: megnyit egy háttértárolón fekvő (már meglévő) SpSS vagy másformátumú adatfájlt.

Database Capture: meglévő adatbázisok megnyitása és lehetőség akülönböző változók szelektív beolvasására (database Query – adatbázis-lekérdezés, *.spq formátum).

read text Data: egy szöveg formátumú (*.txt, *.dat formátumú) fájlolvasható be. ez lehet fix vagy szabad formátumú.

Save: az aktív ablakban lévő adatot vagy szöveget elmenti az aktuá-lis néven és a régebbi változatot felülírja.

Save as...: az aktív ablakban található adat vagy szöveg új névenmenthető el.

Display Data info: az SpSS formátumú (*.sav kiterjesztésű) adatfáj-lokról és annak változóiról ad információt, a legfontosabb attribútumok-nak az output ablakban való kiírásával.

apply Data Dictionary: a tárolt formában lévő SpSS formátumú adat-fájlok változói közül átveszi és a megfelelő változóra alkalmazza azoknakaz attribútumait, amelyek ugyanolyan névvel szerepelnek az aktív adat-editor ablakban is megtalálhatóakkal.

Print: a program által használt objektumok kinyomtatása.exit: kilépés az SpSS alkalmazásból. a megnyitott fájlok elmentésé-

re rákérdez.

175mellékletek

Page 178: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

az Edit menü

ebben a menüpontban található a másolás, beillesztés, csere, törlés,keresés parancs.

Undo: visszaállítja az utoljára kiadott szerkesztési parancsot. Cut: az aktív ablakban kiválasztott szövegrészt vagy adatrészletet

kivágja és a vágólapra elrakja. innen a Paste segítségével lehet visszahozniugyanide vagy egy másik helyre.

Copy: másolat készítéséhez a kiválasztott szövegrészt vagy adatrészletetfelrakja a vágóasztalra, hogy onnan más alkalmazásoknál elő lehessen hívni.

Paste: a kijelölt ponttól bemásolja a vágóasztalon lévő tartalmat.Clear: a kijelölt terület törlését végzi és a törlés következtében nem

keletkeznek üres sorok vagy oszlopok.Find: a kiválasztott változónál egy specifikált értéket megkeres és az

aktív adatkeretet ráviszi az első ilyen értékre és megáll.options: az SpSS működését előzetesen szabályozó parancsok talál-

hatók meg itt. Beállítható a munkaterület a háttértárolón, a journal doku-mentációs fájl, a műveletek végrehajtásának a módjai, a grafikus megje-lenítés módjai.

a View menü

ebben a menüpontban a megjelenítést vezérlő parancsok találhatók.Status Bar: kijelzi az editor ablak jobb alsó sarkában a számításoknál

figyelembe vett esetek számát, jelzi, ha csak bizonyos esetekkel dolgo-zunk, ha az adatfájlt több csoportra osztottuk vagy esetleg súlyozott adat-bázissal dolgozunk.

toolbars: a leggyakrabban használatos parancsok ikon-formátumbanvaló megjelenítése.

Fonts: a betűtípus és betűméret beállítása.grid lines: az adatbázis oszlopait és sorait elválasztó vonalak megje-

lenítése.Value labels: az ismérvértékek szöveges vagy numerikus (kódolt) for-

mában való megjelenítése.

a Data menü

ebben a menüpontban lehet a változók attribútumain (változónév,leíró címkék, formátum és típus stb.) változtatásokat eszközölni, itt lehet

mellékletek176

Page 179: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

új változót vagy esetet beszúrni, változókat törölni, adatfájlokat összera-gasztani, egy fájlt részekre szabdalni, eseteket kiválasztani.

Define Variable: a kiválasztott változó attribútumait itt lehet megad-ni vagy megváltoztatni.

Define Dates: az időbeállítás formátumát lehet megadni, olyan idő-változók generálására alkalmas, amelyekkel megadható az idősorok peri-odicitása.

tamplates: akkor használjuk, ha több változónak egyszerre akarjukbeállítani a leíró fejlécét.

insert Variable: egy új változó beszúrását végzi az aktív változó elé.insert Case: egy új eset (sor) beszúrását végzi az aktív eset elé.go to Case: az adateditor táblázatot a kívánt esetig futtatja.Sort Cases: a kiválasztott változók esetei értékeinek nagyság szerinti

sorrendjébe rendezhetők az adatmátrix sorai. megadható, hogy a rende-zéskor melyik legyen az elsődleges, a másodlagos stb. ismérv.

transpose: az adatmátrix sorainak és oszlopainak megcserélésével azesetek és változók szerepei is felcserélődnek.

merge Files: add Cases: hozzáfűzi egy vagy több fájl eseteit az adate-ditorban álló adatfájl eseteihez.

merge Files: add Variables: hozzáfűzi egy vagy több fájl új változóitaz adateditorban álló adatfájl változóihoz.

aggregate: adattömörítést lehet végrehajtani, esetek összevonásarévén. az összevont eseteket különféleképpen reprezentálhatjuk: átlag-gal, legkisebb értékkel, legnagyobb értékkel stb.

orthogonal Design: új adatbázist hoz létre, amely néhány változóvagy változó-együttes statisztikai tesztelését teszi lehetővé (függetlenleképzésen alapuló minta).

Split File: az adatmátrixot egy megadott változó értékei szerintrészekre lehet bontani, hogy a részeken külön-külön statisztikai analízistvagy grafikus megjelenítést lehessen végezni.

Select Cases: az adatmátrixnak csak előírt feltételt teljesítő eseteitjelöljük ki, és a további számításokat csak ezeken az eseteken végeztetjük.

Weight Cases: az eseteket átsúlyozhatjuk anélkül, hogy ténylegesenmegsokszoroznánk őket az adatmátrixban (az alulreprezentált eseteketnagyobb, a túlreprezentált eseteket kisebb értékkel súlyozzuk).

177mellékletek

Page 180: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a Transform menü

ebben a menüpontban az adatmátrix adatait lehet megváltoztatni,illetve új változókat lehet előállítani a régi változók segítségével, itt leheta változókra felvett értékeket átkódolni.

Compute: egy új változó, vagy egy már létező régi változó eseteinekértékeit számolja ki, a többi változók esetei értékeinek különféle függvé-nyeiként. lehetőség van arra is, hogy valamilyen logikai feltételt is beál-lítsunk. ilyenkor csak azoknál az eseteknél képződik számított érték,amelyekhez a beállított logikai kifejezés igaz (a többi helyre system mis-sing value kerül).

random Number Seed: a számítógéppel generált úgynevezett pszeu-do-véletlen számok előállításakor a kiindulási szám adható meg (ha sok-szor generáltunk véletlen számokat, érdemes időnként átállítani).

Count: egy olyan új változó hozható létre itt, amelyben a változólis-tára felvitt változók együttes előfordulásait lehet regisztrálni.

recode – into Same Variable: egy létező változó értékeit lehet átkó-dolni ugyanabban a változóban.

recode – into Different Variable: egy létező változó értékeit átkódol-juk egy új változóba.

Categorize Variables: folytonos numérikus változók csoportosításáraalkalmas (megadható a létrehozandó csoportok száma).

rank Cases: egy olyan új változó hozható létre, amelyben az esetek-nek nagyság szerinti sorrendben elfoglalt helyzetének megfelelő külön-féle rangszámai találhatók.

automatic recode: egy adott változó értékeit azok rangszámaivalcseréli fel.

Create time Series: új idősor változó létrehozását teszi lehetővé,amely idősor-elemzéseknél használható.

replace missing Values: szintén új idősor változó létrehozására alkal-mas, a hiányzó adatok becsült adatokkal való helyettesítése révén.

az analyze menü

a legösszetettebb menü, az egész programrendszer törzse, itt végez-hetők el a tényleges statisztikai vizsgálatok.

reports – olaP Cubes: online analytical processing, vagyis egyvál-tozós statisztikákat számol folytonos változókra.

mellékletek178

Page 181: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

reports – Case Summaries: kiszámolja a megadott változók különbö-ző leíró statisztikáit, összegzi a számításba bevont esetek számát, vala-mint megjeleníti az illető változókra felvett egyes értékeket.

reports – report Summaries in rows: tömörített formában írja ki astatisztikákat, csoportosított adatokból számít leíró statisztikákat.

reports – report Summaries in Columns: egy-egy változóra végezösszesítést, akár csoportosított adatokból is.

Descriptive Statistics – Frequencies: egy vagy több változóhoz gyakori-sági táblázatokat és leíró statisztikákat, valamint az eloszlást szemléltetőábrákat készít.

Descriptive Statistics – Descriptives: az egyváltozós statisztikákat szá-molja (átlag, szórás, ferdeség, csúcsosság stb.) és ezek standard hibáit (azelméleti értékektől való eltérések becslései). a statisztikákat a változók átlag-értékei szerinti csökkenő vagy növekvő sorrendben írathatjuk ki. lehetőségvan egy-egy változó standardizáltjának új változóként való előállítására is.

Descriptive Statistics – explore: az eloszlást jellemző további statiszti-kákat számol, illetve grafikonokat rajzol. az adatok közepét, az esetlegesadathibákat kiszűrve, úgynevezett robosztus becslésekkel (m-estimators)közelíti, megkeresi és kijelzi a tipikustól jelentősen elütő eseteket (outli-ers), kiszámolja a kvartiliseket és a mediánt. Gyors grafikus normalitás-vizsgálat végezhető el, ha a hisztogramra kikérjük a Gauss-görbét. a vál-tozók eseteit csoportképző változók segítségével részcsoportokbaoszthatjuk, és a részcsoportok statisztikáit különböző grafikonokkal együttelkészíttethetjük.

Descriptive Statistics – Crosstabs: kereszttáblák készíthetőek itt kétvagy három diszkrét változó eseteinek együttes előfordulásainak szem-léltetésére. a táblázatból különféle, a függetlenség ellenőrzésére szolgálóstatisztikák kérhetőek ki (khi-négyzet statisztikák, asszociációs mérőszá-mok, korrelációs együttható stb.).

Compare means – egymástól független vagy páros minták várható érté-keinek egyezését vizsgáló paraméteres statisztikai próbák tartoznak ide.

Compare means – means: egy vagy több csoportképző változó segít-ségével kialakított alcsoportok leíró statisztikáit számolja.

Compare means – one-Sample t test: egymintás t-próba számításá-ra alkalmas, amikor egy hipotetikus várható értékhez hasonlítjuk azeloszlás átlagát.

Compare means – independent Samples t test: egy t-próbát hajtvégre egy változó két független csoportra tördelt részei átlagának egyezé-sére vonatkozólag.

179mellékletek

Page 182: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

Compare means – Paired Samples t test: a program egy mintánhasonlít össze két változót, ezek általában egy előteszt (preteszt) és egyutóteszt (posztteszt) során felvett változópárok (az összehasonlítás lénye-ge, hogy minden egyes mintabeli esetre kiszámítódik a két változó érté-keiben beállt változás).

Compare means – one-Way aNoVa: egyszeres szórásanalízist hajtvégre a különböző csoportok átlagai eltéréseinek ellenőrzésére.

general linear model – segítségével ellenőrizhetjük a változók cso-portjai közötti szignifikáns különbségekre vonatkozó statisztikai hipoté-ziseket, és modelleket állíthatunk fel mind az állandó, mind a véletlen-szerű hatások elemzésére. az általánosított lineáris modell (Glm)rugalmas statisztikai eszköz a normális eloszlású célváltozók vagy függőváltozók (dependents) és a független változók (factors) összefüggésénekelemzésére. Ha több faktorváltozónk van, akkor az egyes faktorok közöt-ti kölcsönhatások is figyelembe vehetőek. lehetőségünk van a függővál-tozóból kiszűrni bizonyos változók hatásait, ha a mellékváltozók (cova-riates) listában azokat a numerikus változókat felvesszük.

glm – Univariate: regresszióelemzést és varianciaanalízist végezhe-tünk, azt vizsgáljuk, hogy egyetlen függő változót hogyan befolyásol egyvagy több faktorváltozó.

glm – multivariate: a faktorváltozókkal széttördelt mintát nem egy,hanem több függőváltozóval jellemezzük, többváltozós regresszióelem-zést és varianciaanalízist végezhetünk, azt vizsgáljuk, hogy több függőváltozót hogyan befolyásol egy vagy több faktorváltozó.

glm – repeated measures: többszörös méréses modelleket is illeszt-hetünk, amikor minden egyes időponthoz, illetve a feltételek tetszőlegeskombinációjához többszörös mérés (többelemű minta) tartozik (pl. ajövedelmet több időpontban mértük).

glm – Variance Components: a véletlen hatásoknak a függő változóvarianciájára gyakorolt hatását becsülhetjük meg.

Correlate – több változó között fennálló kapcsolat erősségét lehet ittvizsgálni.

Correlate – Bivariate: két változó közötti sztochasztikus kapcsolaterősségét méri. lehetőség van a pearson-féle közönséges korrelációsegyüttható és a kendall- és Spearman-féle rangkorrelációs együtthatókkiszámítására. a korrelációs együtthatók nagyságára vonatkozó statiszti-kai próba is elvégezhető.

Correlate – Partial: ha kettőnél több változónk van, akkor azok közülkettőnek a parciális korrelációs együtthatóját lehet kiszámolni (a két válto-

mellékletek180

Page 183: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

zónak az összes többire vett lineáris regresszióinak és a változók különb-ségéből képzett maradék változó pearson-féle korrelációs együtthatója).

Correlate – Distances: különböző hasonlósági, különbözőségi éstávolság-mértékeket számol két változó között.

regression – egy változónak egy vagy több vele sztochasztikusanösszefüggő változó segítségével való kifejezése, egy alkalmas függvény-kapcsolattal való közelítése.

regression – linear: egy- és többváltozós lineáris regressziót hajtvégre. a célváltozót vagy függő változót (dependent variable) egy vagytöbb független változó (independents) lineáris függvényeként írja le. azegyütthatókat a legkisebb négyzetek elvével határozza meg, amelyek afüggetlen változó és a függő változó parciális korrelációs együtthatóivalarányosak. az összefüggésben részt vevő változók kiválasztására külön-böző modellépítési stratégiák vehetők igénybe.

regression – logistic és regression – Probit: a regressziónak azon speci-ális estei, amikor a függőváltozó dichotóm, azaz csak két értéket vehet fel.

regression – Nonlinear: tetszőleges többparaméteres függvény bead-ható, a paraméterek kiindulási értékeinek beállítása mellett. az algorit-mus úgy határozza meg a beadott függvénykapcsolat végső paramétereit,hogy közben gradiens módszerrel minimalizálja a közelítő függvényérté-kek és a függőváltozó értékei közötti különbségek négyzetösszegét.

loglinear – general: a program maximum likelihood módszerrel pró-bát végez el és megbecsüli az általános loglineáris modell paramétereit,ahol a független változók között nominális mérési szintűek is lehetnek.

loglinear – logit: a függő nominális változó és több független kate-góriaváltozó közötti kapcsolat feltárására szolgáló modell.

loglinear – model Selection: a loglineáris modell építésében megad-ható, hogy legtöbb hány lépés nyomán alakuljon ki a véglegesen elfo-gadható modell.

Classify – k-means Cluster: nagy adatfájlokon alkalmazható klaszter-képző, osztályozó eljárás. a klaszterstruktúrához nem-hierarchikus útonjutunk, azaz előre megadott számú klaszterbe csoportosítjuk az eseteketa klaszterközéppontok alapján.

Classify – Hierarchical Cluster: azon az elgondoláson alapul, hogyelső lépésben valamennyi klaszterezésre váró esetet külön-külön egysze-mélyes klaszterekben képzelünk el, majd az egymáshoz legközelebb állóeseteket ugyanahhoz a klaszterhez soroljuk (hierarchikusan építjük ki azosztályokat).

181mellékletek

Page 184: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

Classify – Discriminant: a diszkriminancia-analízis arra szolgál, hogykorrelációszámítás felhasználásával alacsony mérési szintű függő válto-zót magas mérési szintű független változókkal magyarázzunk.

Data reduction – Factor: a faktorelemzés segítségével olyan látensdimenziókat tudunk feltárni a változóhalmazban, amelyek közvetlenülegyetlen változóval sem mérhetőek.

Scale – reliability analysis: a különböző skálák megbízhatóságánaktesztelése leíró statisztikák és belső korrelációs együtthatók segítségével.

Scale – multidimensional Scaling: a többdimenziós skálázás mód-szerei arra szolgálnak, hogy segítségükkel valamilyen adott objektumok-ra vonatkozó észlelt hasonlósági vagy különbözőségi adatokból sziszte-matikus módon létrehozhassunk olyan geometriai reprezentációkat,amelyek ezen objektumok észlelt viszonyát egy megfelelő dimenziószá-mú geometriai térben a lehetőség szerinti legkisebb torzítással tükrözikvissza. az eljárás eredménye tehát mindig egy ponthalmaz „térképe” egyelőre meghatározott típusú geometriai térben, amelyben az egyes pontokúgy helyezkednek el, hogy egymás közötti távolságaik ismert pontosság-gal megfelelnek azon objektumok észlelt tulajdonságai közötti különbö-zőségeknek, amelyekhez ezek a pontok tartoznak.

Nonparametric tests – Chi-Square: diszkrét változók illeszkedésvizs-gálatát lehet vele elvégezni.

Nonparametric tests – Binominal: annak ellenőrzésére alkalmas,hogy az olyan változó, amelynek csak két különböző értéke van, az elő-írt arányban veszi-e fel értékeit.

Nonparametric tests – runs: annak ellenőrzésére szolgál, hogy egykétértékű változóban tekinthető-e véletlenszerűnek az értékek váltakozá-sa, vagy pedig tendenciózusság figyelhető meg a mintában.

Nonparametric tests – 1-sample kolmogorov-Smirnov: egy változóeloszlását ellenőrzi.

Nonparametric tests – 2 independent samples: egy változó két részé-nek az eloszlását lehet összehasonlítani több különböző módszerrel.

Nonparametric tests – k independent samples: az egyszeres szórás-analízishez hasonló, de annál általánosabb feltett kérdést vizsgál: egyváltozónak a faktorváltozók által tördelt részeinek eloszlásai homogén-nek tekinthetőek-e?

Nonparametric tests – 2 related Samples: az input adatmátrixrólleválasztott két összetartozó változó homogenitását ellenőrzi (3 eltérőmódon).

mellékletek182

Page 185: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

Nonparametric tests – k related Samples: kettőnél több összetartozóváltozó homogenitásának ellenőrzését végzi.

time Series: idősorok elemzése.Survival: a cenzorált mintákat (olyan adatrendszereket, amelyben

olyan esetek is szerepelnek, amelyeknél a mérés még nem fejeződhetettbe a feldolgozás pillanatáig) kezelő statisztikai módszer szerinti adatfel-dolgozást tesz lehetővé.

multiple response: dichotóm változók csoportba rendezésére és ezekelemzésére szolgál.

missing Value analysis: három alapvető funkciója van: leírja a hiány-zó eseteket, ezek szerkezetét; átlagokat, szórásokat, kovarianciákat, kor-relációkat becsül; regresszióval vagy em (a várható értékek maximalizá-lásával) módszerrel helyettesíti a hiányzó eseteket.

a Graphs menü

ebben a menüpontban történik az adatok grafikus megjelenítése,gyors, szemléletes elemzést tesz lehetővé.

Bar: egyedülálló vagy csoportokba szervezett oszlop-diagramok meg-szerkesztését teszi lehetővé.

line: vonalas grafikonok megszerkesztését teszi lehetővé.area: egy vagy több görbe által lefedett tartomány megjelenítését

szolgálja.Pie: kör-diagramok elkészítésére szolgál.High-low: értékpárok vagy -hármasok grafikonját lehet itt elkészíteni.Pareto: olyan oszlop-diagram egymásra pozicionált egyenessel,

amely a kumulált összegeket mutatja.Control: segítségével közönséges folyamatirányítási grafikonokat

készíthetünk.Boxplot: a változók eseteinek elhelyezkedését szemlélteti oly módon,

hogy az esetek túlnyomó többsége a doboz által kijelölt intevallumbaesik, be vannak jelölve a medián és a kvartilisek helyei is.

error bar: a boxplothoz hasonló grafikont készít, melyen a változókegymáshoz képesti térbeli elhelyezkedése szemléltethető.

Scatter: pontszerűen jeleníthető meg két- vagy három dimenzióbanváltozópárok vagy változóhármasok halmaza.

Histogram: egy változó eloszlását szemléltető hisztogram kirajzolásátteszi lehetővé.

183mellékletek

Page 186: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

Normal P-P: egy változó empirikus eloszlásfüggvényét a normáliseloszlás eloszlásfüggvényével együtt lehet kirajzoltatni.

Normal Q-Q: egy változó empirikus kvartiliseit és a normális elosz-lás elméleti kvartiliseit lehet összehasonlítani ezen az ábrán.

Sequence: szekvenciális idősor-elemzés grafikus megjelenítését teszilehetővé.

roC Curves: logisztikus regresszió vagy diszkriminancia-analíziseredményeit szemléltető ábra.

time Series: idősoros adatok különböző korrelációs kapcsolatainakábrázolását teszi lehetővé.

az Utilities menü

ebben a menüpontban néhány hasznos kiegészítő szolgáltatást lehettalálni.

Variables: a megnyitott adatfájl változóiról kérhetünk le gyors infor-mációt.

File info: az adatfájlról és a változókról listát kérhetünk az outputablakba.

Define Sets: nagyszámú változó esetén a vizsgálatot leszűkíthetjük azitt definiált változócsoportra.

Use Sets: itt szűkíthető le a vizsgálat a változók egy adott részhal-mazára.

auto New Cases: ha be van kapcsolva, az utolsó eset mögé újabb ese-tek vihetők be.

run Script: a megírt parancssor-együttes (script) futtatása.menu editor: menüszerkesztő segédprogram.

a Help menü

általános és részletes információkat lehet lekérni az SpSS működé-séről és használatáról, strukturált formában, keresési funkcióval ellátva.

mellékletek184

Page 187: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

BIBLIoGRÁFIa

anderSen, erling B.–jenSen, niels erik–kouSGaard, nils1987 Statistics for economics. Business administration and the SocialSciencies. [gazdaságstatisztika. a vállalatvezetés és a társadalomtu-dományok]. Springer-verlag, new york, llC.

anGHelaCHe, Constantin 1999 Statistică generală. Bucureşti, editura economică

anGHelaCHe, Constantin–niCuleSCu, emanuela2001 Statistică. indicatori, formule de calcul şi sinteze. Bucureşti,editura economică

BaBBie, earl1996 a társadalomtudományi kutatás gyakorlata. Budapest, Balassikiadó

BuiGa, anuţa2001 metodologii de sondaj şi analiza datelor în studiile de piaţă.Cluj-napoca, presa universitară Clujeană

FaluS iván–ollé jános2000 Statisztikai módszerek pedagógusok számára. Budapest, okkerkiadó zrt.

FÜStöS lászló1988 az exploratív faktorelemzés módszerei. Budapest, mtaSzociológiai kutató intézet, értékszociológiai és társadalomtudo-mányi elemzések műhelye

Gupta, vijay1999 SPSS for Beginners. [SPSS kezdőknek]. vjBooks inc.

Hajdu ottó2003 többváltozós matematikai számítások. Statisztikai módszerek a

Page 188: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

társadalmi és gazdasági elemzésekben. Budapest, központiStatisztikai Hivatal

HoWitt, dennis–Cramer, duncan2006 introducere în SPSS pentru psihologie: Versiunile SPSS 10, 11,12 şi 13. iaşi, editura polirom

Hunyadi lászló–mundruCzó György–vita lászló2000 Statisztika. Budapest, aula kiadó

HuzSvai lászló2004 Biometriai módszerek az SPSS-ben. SPSS alkalmazások.debreceni egyetem, mezőgazdaságtudományi kar

ketSkeméty lászló–izSó lajos, dr.1996 az SPSS for Windows programrendszer alapjai. Budapest, SpSSpartner Bt.

korpáS attiláné (szerk.)1996 Általános statisztika i. Budapest, nemzeti tankönyvkiadó 1997 Általános statisztika ii. Budapest, nemzeti tankönyvkiadó

köveSi jános–erdei jános–tótH zsuzsanna eszter–naGy jenő Bence2007 gazdaságstatisztika. Budapest, Budapesti műszaki ésGazdaságtudományi egyetem, Üzleti tudományok intézet,menedzsment és vállalatgazdaságtan tanszék http://www.uti.bme.hu/data/segedanyag/12/gazdstat_jegyzet_1resz_063553.pdf

lukáCS ottó2002 matematikai statisztika. Budapest, műszaki könyvkiadó

mezei elemér–vereS valér2001 társadalomstatisztka. kolozsvár, egyetemi kiadó

mokSony Ferenc1999 gondolatok és adatok. társadalomtudományi elméletek empiri-kus ellenőrzése. Budapest, osiris

BiBlioGráFia186

Page 189: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

molnár d. lászló2000 Statisztika. http://www.sociomed.hu/includes/stat_met-hodm2.pdf

paH, iulian2004 tehnici de analiză a datelor cu SPSS. Cluj-napoca, presauniversitară Clujeană

rotariu, traian–BĂdeSCu, Gabriel–CuliC, irina–mezei elemér–mureŞan, Cornelia1999 metode statistice aplicate în ştiinţele sociale. iaşi, editurapolirom

SajtoS lászló–mitev ariel2007 SPSS kutatási és adatelemzési kézikönyv. Budapest, alineakiadó

Sandu, dumitru1992 Statistica în ştiinţele sociale. Bucureşti, universitatea dinBucureşti

SinCiCH, terry1989 Business Statistics by example. [gazdaságstatisztika példákonkeresztül]. dellen publishing Company, Collier macmillanpublishers

SpieGel, murray r.1995 Statisztika. elmélet és gyakorlat. Budapest, panem–mcGraw-Hill

Székelyi mária–Barna ildikó2002 túlélőkészlet az SPSS-hez. Budapest, typotex

Székelyi mária–örkény antal1998 Statistical methods in Social research – adv. ii. Budapest,elte-uneSCo minority Studies program

varGHa andrás2000 matematikai statisztika pszichológiai, nyelvészeti és biológiaialkalmazásokkal. Budapest, pólya

187BiBlioGráFia

Page 190: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat
Page 191: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

aBSTRaCT

this course of statistics has been prepared mainly for sociology stu-dents and offers an introduction into both the theoretical bases of thediscipline and into practical deployment of this discipline as well. it hasbeen prepared with the aim of introducing to students simply, step bystep, the most indispensable techniques of statistic analysis. this course,illustrated by solved examples and SpSS applications, guides usthroughout the basic concepts employed in statistics (statistical popula-tion, variable, levels of data measurement), through the basic operationsdealing with databases (creating, labelling, importing, merge, selectingcases, transforming variables), then moves to univariate analyses (fre-quency distribution, averages, measures of dispersion, skewness andkurtosis). Before discussing bivariate analyses, we summarize briefly inthe third chapter the basic elements of both of probability theory and ofstatistical sampling. in the fourth chapter (Bivariate analyses) we con-sider types of relationships between two kinds of variables, namelybetween two qualitative, then a categorical and a quantitative, respec-tively two quantitative variables (contingency analysis, comparison ofgroup means, correlation). the last chapter offers a general summary ofmultivariate analyses, then by the means of a practical instance leads usthroughout the process of principal components analysis and of k-meanscluster analyses in the SpSS. We have formed two of the basic messagesof the present course already in the first subchapter: 1. the most consid-erable component of comprehending statistics probably may be practic-ing to apply these techniques (theoretical knowledge helps practice,however these skills can be achieved through an effective work) andcomputer programme packs provide a large support in this, respectively2. mathematical methods cannot be applied mechanically, they requireexpertise (sociology knowledge): even the most elaborate statisticalanalysis can not recompense the errors committed in the planification ofa research and the acquired results also can be utilised efficiently onlywith appropriate professional knowledge.

Page 192: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

REzUmaT

acest curs se adresează în primul rând studenţilor la sociologie, ofe-rându-le o introducere atât în bazele teoretice ale disciplinei, cât şi înaplicarea practică a acesteia. Cursul s-a întocmit cu scopul de a prezentastudenţilor în mod cel mai simplu, pas cu pas, tehnicile fundamentale aleanalizei statistice. Cursul, ilustrat cu probleme rezolvate şi aplicaţii SpSS,ne ghidează prin noţiunile fundamentale de statistică (populaţie statisti-că, variabilă, nivele de măsurare), prin operaţiuni legate de bazele de date(creare, etichetare, importare, selectarea cazurilor, transformarea variabi-lelor), după aceea abordă analizele univariate (distribuţia de frecvenţă,indicatori ale măsurării tendinţei centrale, a dispersiei şi a asimetriei).Înaintea analizelor bivariate, în capitolul trei rezumăm pe scurt elemen-tele fundamentale ale teoriei probabilităţilor, cât şi ale eşantionării statis-tice. Capitolul patru (analiza bivariată) detaliază tipurile de legături din-tre doi variabile, adică dintre două calitative, una categorială şi unacantitativă, respectiv între două cantitative (testul hi-pătrat, comparareamediilor, corelaţia). ultimul capitol oferă un rezumat general al analize-lor multivariate, după care printr-un exemplu aplicativ ne ghidează prindouă tipuri de analize: analiza componentelor principale şi analiza clus-ter k-means în SpSS. am formulat cele două mesaje fundamentale alecursului deja în primul subcapitol: 1. componentul probabil cel maiimportant al însuşirii cunoştinţelor statistice este exersarea aplicăriimetodelor (cunoştinţele teoretice înlesnesc exersarea, însă aceste înde-mânări pot fi formate numai prin muncă efectivă) şi pachetele de progra-me de calculator furnizează un sprijin considerabil în acest proces; toto-dată 2. metodele matematice nu pot fi aplicate în mod mecanic, cinecesită expertiza (cunoştinţe de sociologie): chiar şi analizele statisticecele mai multe desăvârşite nu pot recompensa erorile comise în planifi-carea cercetării, şi rezultatele obţinute de asemenea pot fi utilizate efi-cient doar dacă dispunem de cunoştinţe profesionale corespunzătoare.

Page 193: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a SzERzőRőL

Bálint gyöngyvér marosvásárhelyen született 1975-ben. a csíkszere-dai márton áron Gimnáziumban érettségizett 1993-ban, matematika–fizi-ka szakon. Felsőfokú tanulmányait a kolozsvári Babeş–Bolyaitudományegyetem szociológia szakán végezte és 1997-ben diplomázott.jelenleg a Budapesti Corvinus egyetem doktorjelöltje, a „Foglalkoztatásistratégiák Hargita megyében” című doktori értekezése 2009 májusábankerül nyilvános védésre.

a szerző az egyetem elvégzése óta Csíkszeredában él. 1997–2002között humánerőforrás-szakértőként, majd ügyvezető igazgatóként dolgo-zott, miközben a kam–regionális és antropológiai kutatások központ-jának külső munkatársaként több szociológiai vizsgálatban kutatókéntvett részt. 2002-től a csíkszeredai Sapientia emte főállású oktatója. Főkutatási területe a munkaerő-piaci folyamatokhoz és a társadalmi tőkekérdésköréhez fűződik.

Page 194: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat
Page 195: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a SaPIENTIa ERDÉLYI maGYaR TUDomÁNYEGYETEm JEGYzETEI

megjelent: BeGe antal

Számelméleti feladatgyûjtemény. marosvásárhely, mûszaki ésHumán tudományok kar, matematika–informatika tanszék, 2002.

BeGe antal

Számelmélet. Bevezetés a számelméletbe. marosvásárhely,mûszaki és Humán tudományok kar, matematika–informatikatanszék. 2002.

voFkori láSzló

Gazdasági földrajz. Csíkszereda, Csíkszeredai kar,Gazdaságtan tanszék. 2002.

tõkéS Béla–dónátH-naGy GaBriella

kémiai elõadások és laboratóriumi gyakorlatok.marosvásárhely, mûszaki és Humán tudományok kar,Gépészmérnöki tanszék. 2002.

irimiaŞ, GeorGe

noþiuni de foneticã ºi fonologie. Csíkszereda, Csíkszeredai kar,Humán tudományok tanszék. 2002.

SziláGyi józSeF

mezõgazdasági termékek áruismerete. Csíkszereda,Csíkszeredai kar, Gazdaságtan tanszék. 2002.

naGy imola katalin

a practical Course in english. marosvásárhely, mûszaki ésHumán tudományok kar, Humán tudományok tanszék. 2002.

BalázS lajoS

Folclor. noþiuni generale de folclor ºi poeticã popularã.Csíkszereda, Csíkszeredai kar, Humán tudományok tanszék.2003.

popa-mÜller izolda

mûszaki rajz. marosvásárhely, mûszaki és Humán tudományokkar, Gépészmérnöki tanszék. 2004.

Page 196: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

Fodorpataki láSzló–SziGyártó lídia–BartHa CSaBa

növénytani ismeretek. kolozsvár, természettudományi ésművészeti kar, környezettudományi tanszék. 2004.

marCuŞ, andrei–Szántó CSaBa–tótH láSzló

logika és halmazelmélet. marosvásárhely, műszaki és Humántudományok kar, matematika–informatika tanszék. 2004.

kakuCS andráS

műszaki hőtan. marosvásárhely, műszaki és Humántudományok kar, Gépészmérnöki tanszék. 2004.

Biró Béla

drámaelmélet. Csíkszereda, Gazdasági és Humántudományokkar, Humántudományi tanszék. 2004.

Biró Béla

narratológia. Csíkszereda, Gazdasági és Humántudományokkar, Humántudományi tanszék. 2004.

márkoS zoltán

anyagtechnológia. marosvásárhely. műszaki és Humántudományok kar, Gépészmérnöki tanszék. 2004.

GreCu, viCtor

istoria limbii române. Csíkszereda, Gazdasági ésHumántudományok kar, Humántudományi tanszék. 2004.

varGa iBolya

adatbázis-kezelő rendszerek elméleti alapjai. marosvásárhely,műszaki és Humántudományok kar, matematika–informatikatanszék. 2004.

CSapó jánoS

Biokémia. Csíkszereda, műszaki és társadalomtudományi kar,műszaki és természettudományi tanszék. 2004.

CSapó jánoS–CSapóné kiSS zSuzSanna

élelmiszerkémia. Csíkszereda, műszaki és társadalomtudo-mányi kar, műszaki és természettudományi tanszék. 2004.

kátai zoltán

programozás C nyelven. marosvásárhely, műszaki ésHumántudományok kar, matematika–informatika tanszék.2004.

Page 197: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

WeSzely tiBor

analitikus geometria és differenciálgeometria. marosvásárhely,műszaki és Humántudományok kar, matematika–informatikatanszék. 2005.

GyörFi jenő

a matematikai analízis elemei. Csíkszereda, Gazdaság- ésHumántudományok kar, matematika–informatika tanszék.2005.

Finta Béla–kiSS elemér–BartHa zSolt

algebrai struktúrák – feladatgyűjtemény. marosvásárhely,műszaki és Humántudományok kar, matematika–informatikatanszék. 2006.

antal marGit

Fejlett programozási technikák. marosvásárhely, műszaki ésHumántudományok kar, matematika–informatika tanszék.2006.

CSapó jánoS–Salamon rozália

tejipari technológia és minőségellenőrzés. Csíkszereda,műszaki és társadalomtudományok kar, élelmiszertudományitanszék. 2006.

oláH-Gál róBert

az informatika alapjai közgazdász- és mérnökhallgatóknak.Csíkszereda, Gazdaság- és Humántudományok kar,matematika–informatika tanszék. 2006.

józon mónika

általános jogelméleti és polgári jogi ismeretek. Csíkszereda,Gazdaság- és Humántudományok kar, Üzleti tudományoktanszék. 2007.

kátai zoltán

algoritmusok felülnézetből. marosvásárhely, műszaki ésHumántudományok kar, matematika–informatika tanszék.2007.

CSapó jánoS–CSapóné kiSS zSuzSanna–alBert CSilla

élelmiszer-fehérjék minősítése. Csíkszereda, műszaki éstársadalomtudományi kar, élelmiszertudományi tanszék.2007.

Page 198: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

áGoSton katalin–domokoS józSeF–márton lőrinC

érzékelők és jelátalakítók. laboratóriumi útmutató.marosvásárhely, műszaki és Humántudományok kar,villamosmérnöki tanszék. 2007.

SzáSz róBert

komplex függvénytan. marosvásárhely, műszaki ésHumántudományok kar, matematika–informatika tanszék.2007.

kakuCS andráS

a végeselem-módszer alapjai. marosvásárhely, műszaki ésHumántudományok kar, Gépészmérnöki tanszék. 2007.

antal marGit

objektumorientált programozás. marosvásárhely, műszaki ésHumántudományok kar, matematika–informatika tanszék.2007.

majdik kornélia–tonk Szende-áGneS

Biokémiai alkalmazások. kémiai laboratóriumi jegyzet.kolozsvár, természettudományi és művészeti kar,környezettudományi tanszék. 2007.

GyörFi jenő–andráS Szilárd

valószínűségszámítás és lineáris programozás. a játékelméletalapjai. Csíkszereda, Gazdaság- és Humántudományok kar,matematika és informatika tanszék. 2007.

dimény GáBor

minőségirányítási rendszerek. marosvásárhely, műszaki ésHumántudományok kar, kertészmérnöki tanszék. 2008.

zSiGmond andrea

minőségi és mennyiségi analitikai kémia laborkönyv. kolozsvár,természettudományi és művészeti kar, környezettudományitanszék. 2008.

kátai zoltán

Gráfelméleti algoritmusok. marosvásárhely, műszaki ésHumántudományok kar, matematika–informatika tanszék.2008.

Page 199: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

CSapó jánoS–alBert CSilla–CSapóné kiSS zSuzSanna

élelmiszer-analitika. válogatott fejezetek. Csíkszereda, műszakiés társadalomtudományi kar, élelmiszertudományi tanszék.2008.

márton GyönGyvér

kriptográfiai alapismeretek. marosvásárhely, műszaki ésHumántudományok kar, matematika–informatika tanszék.2008.

naGy imola katalin

a guidebook to language exams. english for Human Sciences.marosvásárhely, műszaki és Humántudományok kar,Humántudományok tanszék. 2008.

GaGyi józSeF

örökség és közkapcsolatok (pr). marosvásárhely, műszaki ésHumántudományok kar, Humántudományok tanszék. 2008.

Fodor láSzló

Szociálpedagógia. marosvásárhely, műszaki és Humántudo-mányok kar, Humántudományok tanszék. 2008.

Fodorpataki láSzló–SziGyártó lídia–BartHa CSaBa

növénytani ismeretek. kolozsvár, természettudományi ésművészeti kar, környezettudományi tanszék. 2009.

Page 200: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat
Page 201: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

a PaRTIUmI KERESzTÉNY EGYETEm JEGYzETEI

megjelent:kováCS adalBert

alkalmazott matematika a közgazdaságtanban. lineáris algebra.nagyvárad, alkalmazott tudományok kar, közgazdaságtantanszék, 2002.

HorvátH Gizella

a vitatechnika alapjai. nagyvárad, Bölcsészettudományi kar,Filozófia tanszék. 2002.

anGi iStván

zeneesztétikai elõadások. nagyvárad, alkalmazott tudományokkar, zenepedagógiai tanszék. 2003.

péter GyörGy–kinter tÜnde–pajzoS CSaBa

makroökonómia. Feladatok. nagyvárad, alkalmazotttudományok és mûvészetek kar, közgazdaságtan tanszék. 2003.

anGi iStván

zeneesztétikai előadások. ii. nagyvárad, alkalmazotttudományok kar, zenepedagógiai tanszék. 2005.

tonk márton

Bevezetés a középkori filozófia történetébe. nagyvárad,Bölcsészettudományi kar, Filozófia tanszék. 2005.

Page 202: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

Scientia Kiadó400112 kolozsvár (Cluj-napoca)mátyás király (matei Corvin) u. 4. sz. tel./fax: +40-264-593694e-mail: [email protected]

Korrektúra:Szenkovics enikő

mûszaki szerkesztés:dobos piroska

Tipográfia:könczey elemér

Készült a kolozsvári Gloria nyomdában100 példánybanigazgató: nagy péter

Page 203: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat

www.scientiakiado.ro

www.facebook.com/ScientiaKiado

Page 204: Bálint Gyöngyvér: Statisztika. Elmélet és gyakorlat