18
AKD II. / III. Data management v SPSS/PSPP (2): Vybrané speciality a vychytávky Jiří Šafr jiri.safr(AT)seznam.cz UK FHS Historická sociologie, Řízení a supervize (LS 2012, 2013, 2014)

AKD II. / III

  • Upload
    orde

  • View
    69

  • Download
    0

Embed Size (px)

DESCRIPTION

UK FHS Historická sociologie, Řízení a supervize (LS 2012, 2013, 2014). AKD II. / III. Data management v SPSS/PSPP (2): Vybrané speciality a vychytávky Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 12/4/2014. Informace o souboru: Data File Comments. - PowerPoint PPT Presentation

Citation preview

Page 1: AKD II. / III

AKD II. / III.

Data management v SPSS/PSPP (2): Vybrané speciality a vychytávky

Jiří Šafrjiri.safr(AT)seznam.cz

Poslední aktualizace 12/4/2014

UK FHSHistorická sociologie, Řízení a supervize

(LS 2012, 2013, 2014)

Page 2: AKD II. / III

2

Informace o souboru: Data File Comments

Příkaz v syntaxu k vypsání dříve vložené informace o datech:DISPLAY DOCUMENTS.

Page 3: AKD II. / III

3

Data File Comments: zápis v Syntaxu

* Data File Comments.PRESERVE.SET PRINT OFF.DROP DOCUMENTS.ADD DOCUMENT'Výzkum studentů FHS HiSo a KŘS, LS 2011, únor-březen

2011, subpopulace:''1. HISO AKD I. - denní, n=17''2. HISO AKD I. - kombi, n=1''3. KŘS Praktikum - Elem. analýzy dat, n=7''Poslední úpravy 15/3/2011'.DISPLAY DOCUMENTS.RESTORE.

Page 4: AKD II. / III

4

DISPLAY: Informace o proměnnýchDISPLAY DICTIONARY /VARIABLES=vek pohlavi.

DISPLAY LABELS /VARIABLES=all.

DICTIONARY → vypíše označení hodnot proměnné (Value Labels), názvy proměnných (Variable Labels), formáty a Missingové hodnoty

LABELS → vypíše označení názvu proměnných (Variable Labels)

Page 5: AKD II. / III

DATASET Práce s více datovými soubory

otevřenými najednou(pouze v SPSS)

Page 6: AKD II. / III

6

DATASET - Práce s více datovými soubory otevřenými najednou (pouze v SPSS)

• V SPSS od verze 14 lze pracovat s více soubory otevřenými najednou pomocí DATASET příkazů (DATASET NAME, DATASET ACTIVATE, DATASET DECLARE, DATASET COPY, DATASET CLOSE)

• Umožňují mít otevřeno vícero souborů najednou a pomocí jejich relativních jmen je ovládat – postupně aktivovat. Můžeme tak spojovat data, kopírovat případy, proměnné nebo vlastnosti proměnných mezi soubory.

• Pro ovládání v syntaxu nejprve definujeme jejich pracovní jméno: DATASET NAME jméno souboru.

• Takto můžeme otevřít a pojmenovat více souborů.• Ty pak můžeme vyvolávat pro určitou operaci pomocí:

DATASET ACTIVATE jméno souboru.• A také je zavírat pomocí: DATASET CLOSE jméno

souboru.

Page 7: AKD II. / III

7

DATASET v menu

Mezi více otevřenými soubory lze přepínat → na aktivním budou provedeny analýzy

Nebo v syntaxu: DATASET ACTIVATE Knihy_FHS.

Nebo v syntaxu: DATASET NAME Knihy_FHS.

Po otevření souboru mu můžeme přiřadit

pracovní jméno.

Page 8: AKD II. / III

8

Využití DATASET NAME při spojování souborů (MATCH FILES)

GET FILE='data1.sav'. DATASET NAME Soubor1. SORT CASES BY ID. GET FILE 'data2.sav' SORT CASES BY ID. DATASET NAME Soubor2. GET DATA /TYPE=XLS /FILE='data3excel.xls'. /* varianta otevírání dat

při exportu z Excelu.

SORT CASES BY ID.MATCH FILES FILE=* /FILE=Soubor1 /FILE=Soubor2

/BY ID. /* hvězdičkou (*) je označen aktivní soubor 3 do nějž se přihrávají soubory 1 a 2.

SAVE OUTFILE='data123.sav'.Princip je, že postupně otevřeme a pojmenujeme více souborů, které pak

přihrajeme-spojíme do jednoho aktivního (např. posledního otevřeného).Ale propojování souborů lze provádět i pomocí jejich načítání z adresáře, tj.

odkazem přímo na soubor(y) a jeho cestu v adresářích.

Page 9: AKD II. / III

9

DATASET DECLARE• DATASET DECLARE vytvoří pracovní jméno pro

nový datový soubor (dataset name) v součinnosti s příkazy, které vytváří jako output nové datové soubory (PASW Statistics data files)

• Užitečné, tam kde nám stačí vytvoření pouze prozatímního (temporary) souboru dat (jenom v průběhu běhu programu), nejčastěji jako mezistupeň nějaké analýzy, např. matice distancí, s níž vstupujeme do MDS (tento soubor pak můžeme, ale nemusíme pojmenovat a uložit).

DATASET DECLARE corrmatrix. REGRESSION /DEPENDENT=var1 /METHOD=ENTER= var2 to var10 /OUTFILE=CORB(corrmatrix).

Page 10: AKD II. / III

10

DATASET COPY• DATASET COPY vytvoří - nový datový soubor,

který zkopíruje data z aktivního (otevřeného) souboru.

• Užitečné při vytváření vícenásobných podsouborů dat z jednoho základního - původního souboru.

• Příklad:DATASET NAME studenti_AKD. /*všichni (denní i kombinované studium).DATASET COPY denni.DATASET ACTIVATE denni. /*denní studium = 1.SELECT IF studium=1. /*odmaže všechny případy mimo denní studium.DATASET ACTIVATE studenti_AKD. DATASET COPY kombi. DATASET ACTIVATE kombi. /*kombinované studium = 2.SELECT IF studium=2. /*odmaže všechny případy mimo kombinované studium.

• Pozor, neuložíte-li je, tak po zavření SPSS soubory zmizí.

Page 11: AKD II. / III

11

FILE LABEL

• FILE LABEL uvádí jméno souboru v outputech.

• Pokud jsou data v SPSS formátu (PASW Statistics format), tak se label uloží do Dictionary.

• File label se bude objevovat v outputech v „Notes tables“.

Page 12: AKD II. / III

12

Postup pořízení dat v MS Excel s následným převodem do SPSS

1. Vytvořit názvy proměnných v prvním řádku (jméno začíná písmenem)2. Vytvořit si kódový klíč → maximálně se vyvarovat záznamu pomocí

slov, k čemuž Excel láká (např. místo „muž“ → 1), jinak bude v SPSS stringová proměnná (tu lze převést na numerický záznam, viz dále, ale je to obtížné)

3. Prohlédnout celou hotovou matici v Excelu, zda někde není prázdný řádek apod. Kurzor nesmí být na konci (jinak se pak v SPSS objeví prázdné řádky plné missingů).

4. Po uložení dat v XLS (musí být soubor XLS zavřený!), v SPSS dáme otevřít data a rozklikneme dolní roletku pro formát XLS.

5. V průvodci exportu dat vybereme, že v prvním řádku jsou názvy proměnných a zvolíme excelovskou záložku, kde data jsou.

6. Zkontrolujeme kraje datové matice: spodní část a pravou na konci, zda nejsou prázdné buňky pro proměnné či případy. Pokus ano, odstraníme.

7. Alternativně lze použít formát CSV. K jeho importu viz návod PSPP/SPSS na http://metodykv.wz.cz/PSPP_navod_1_uvod.pdf (str. 19-20)

8. Data nově uložíme ve formátu SPSS tj. *.SAV9. Nyní můžeme labelovat jak názvy proměnných tak jejich hodnoty.

Page 13: AKD II. / III

13

V SPSS se tak lze setkat se 4 typy dat (připomenutí)

• Mikrodata – individuální data, tj. případy v řádcích (nejčastěji respondenti, ale např. také novinové články, země nebo regiony)

• Agregovaná data – analytické/strukturní proměnné = individuální údaje sumované za určitou jednotku (např. území jako regiony/ státy nebo časová období) Vznikají agregací mikrodat (sumování, průměrování).

• Kombinovaná mikrodata s kontextuálními daty buď na agregované úrovni nebo jako kontext společný určité skupině individuí. Např. individuální mikrodata: žáci a informace o jejich rodičích, kontextuální data: informace o typu školy společná pro žáky ze stejných škol a případně také analytické/strukturní data na agregované úrovni: průměrný prospěch ve třídě (agregováno z individuálních dat žáků konkrétní třídy).

• Tabelární data – agregovaná do tabulek (kontingenční tabulky) Např. dříve publikované výsledky mobilitní tabulky.

Page 14: AKD II. / III

Odlišný typ dat (úrovně měření) vyžaduje použití odlišných

přístupů k analýze,ale také odlišný způsob interpretace výsledků

(a její možnosti resp. limity)!

Page 15: AKD II. / III

Načtení dat ze syntaxu (pro menší datové soubory)

& tabulární (agregovaná) data

(pro data publikovaná například v nějakém textu)

Page 16: AKD II. / III

16

Načtení (mikro)dat ze syntaxu (vhodné pro menší datové soubory nebo tabulární data)

*hypotetická data: hodnoty proměnných odděleny mezerou, stringové znaky v " ".DATA LIST LIST / okres (A15) progr domduch vek obyv.BEGIN DATA."Benešov" 1 3 52 40990"Kladno" 0 4 61 67490"M. Boleslav" 1 6 50 6099"Příbram" 0 2 45 4816"Dobříš" 1 1 49 7827END DATA.*Labely.VAR LAB progr "Program pro seniory".VAR LAB domduch "Domovy důchodců – počet".VAR LAB vek "Průměrný věk".VAR LAB obyv "Počet obyvatel".VAL LAB progr 0 "Ne"1 "Ano".*formát čísel (bez desetinného místa) a typ proměnné.FORMATS progr domduch vek obyv (f8).VARIABLE LEVEL domduch vek obyv (scale).

Page 17: AKD II. / III

17

Načtení tabelárních dat z agregované existující kontingenční tabulky (→ vážení procenty)

****nacteni kontingencni tabulky aneb sekundarni analyza (ČR, ISSP 2007).DATA LIST LIST/vek vzdel volil freq.VAL LAB vzdel 1 "ZŠ+VY" 2 "SŠ+VŠ" / vek 1 "<49" 2 ">50" / volil 1 "nevolil" 2 "volil".BEGIN DATA1 1 1 1381 1 2 921 2 1 1061 2 2 2182 1 1 1432 1 2 2572 2 1 562 2 2 175END DATA.FORMATS vek vzdel volil freq (f8).WEIGHT by freq.CROSS vzdel by volil by vek. CROSS vzdel by volil.

volil

věk vzdělání 1 nevolil 2 volil

1 <49 1 ZŠ+VY 138 92

  2 SŠ+VŠ 106 218

2 >50 1 ZŠ+VY 143 257

  2 SŠ+VŠ 56 175

volilvěk vzdělání 0 nevolil 1 volil

1 <49 0 ZŠ+VY 111 112  1 SŠ+VŠ 121 1222 >50 0 ZŠ+VY 211 212  1 SŠ+VŠ 221 222

Pozice pole v tabulce např. 121 znamená: 1. panel, 2. řádek, 1. sloupec

Viz syntax: crosstab_data_input.sps

Page 18: AKD II. / III

Pokračování někdy příště …