Upload
orde
View
69
Download
0
Embed Size (px)
DESCRIPTION
UK FHS Historická sociologie, Řízení a supervize (LS 2012, 2013, 2014). AKD II. / III. Data management v SPSS/PSPP (2): Vybrané speciality a vychytávky Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 12/4/2014. Informace o souboru: Data File Comments. - PowerPoint PPT Presentation
Citation preview
AKD II. / III.
Data management v SPSS/PSPP (2): Vybrané speciality a vychytávky
Jiří Šafrjiri.safr(AT)seznam.cz
Poslední aktualizace 12/4/2014
UK FHSHistorická sociologie, Řízení a supervize
(LS 2012, 2013, 2014)
2
Informace o souboru: Data File Comments
Příkaz v syntaxu k vypsání dříve vložené informace o datech:DISPLAY DOCUMENTS.
3
Data File Comments: zápis v Syntaxu
* Data File Comments.PRESERVE.SET PRINT OFF.DROP DOCUMENTS.ADD DOCUMENT'Výzkum studentů FHS HiSo a KŘS, LS 2011, únor-březen
2011, subpopulace:''1. HISO AKD I. - denní, n=17''2. HISO AKD I. - kombi, n=1''3. KŘS Praktikum - Elem. analýzy dat, n=7''Poslední úpravy 15/3/2011'.DISPLAY DOCUMENTS.RESTORE.
4
DISPLAY: Informace o proměnnýchDISPLAY DICTIONARY /VARIABLES=vek pohlavi.
DISPLAY LABELS /VARIABLES=all.
DICTIONARY → vypíše označení hodnot proměnné (Value Labels), názvy proměnných (Variable Labels), formáty a Missingové hodnoty
LABELS → vypíše označení názvu proměnných (Variable Labels)
DATASET Práce s více datovými soubory
otevřenými najednou(pouze v SPSS)
6
DATASET - Práce s více datovými soubory otevřenými najednou (pouze v SPSS)
• V SPSS od verze 14 lze pracovat s více soubory otevřenými najednou pomocí DATASET příkazů (DATASET NAME, DATASET ACTIVATE, DATASET DECLARE, DATASET COPY, DATASET CLOSE)
• Umožňují mít otevřeno vícero souborů najednou a pomocí jejich relativních jmen je ovládat – postupně aktivovat. Můžeme tak spojovat data, kopírovat případy, proměnné nebo vlastnosti proměnných mezi soubory.
• Pro ovládání v syntaxu nejprve definujeme jejich pracovní jméno: DATASET NAME jméno souboru.
• Takto můžeme otevřít a pojmenovat více souborů.• Ty pak můžeme vyvolávat pro určitou operaci pomocí:
DATASET ACTIVATE jméno souboru.• A také je zavírat pomocí: DATASET CLOSE jméno
souboru.
7
DATASET v menu
Mezi více otevřenými soubory lze přepínat → na aktivním budou provedeny analýzy
Nebo v syntaxu: DATASET ACTIVATE Knihy_FHS.
Nebo v syntaxu: DATASET NAME Knihy_FHS.
Po otevření souboru mu můžeme přiřadit
pracovní jméno.
8
Využití DATASET NAME při spojování souborů (MATCH FILES)
GET FILE='data1.sav'. DATASET NAME Soubor1. SORT CASES BY ID. GET FILE 'data2.sav' SORT CASES BY ID. DATASET NAME Soubor2. GET DATA /TYPE=XLS /FILE='data3excel.xls'. /* varianta otevírání dat
při exportu z Excelu.
SORT CASES BY ID.MATCH FILES FILE=* /FILE=Soubor1 /FILE=Soubor2
/BY ID. /* hvězdičkou (*) je označen aktivní soubor 3 do nějž se přihrávají soubory 1 a 2.
SAVE OUTFILE='data123.sav'.Princip je, že postupně otevřeme a pojmenujeme více souborů, které pak
přihrajeme-spojíme do jednoho aktivního (např. posledního otevřeného).Ale propojování souborů lze provádět i pomocí jejich načítání z adresáře, tj.
odkazem přímo na soubor(y) a jeho cestu v adresářích.
9
DATASET DECLARE• DATASET DECLARE vytvoří pracovní jméno pro
nový datový soubor (dataset name) v součinnosti s příkazy, které vytváří jako output nové datové soubory (PASW Statistics data files)
• Užitečné, tam kde nám stačí vytvoření pouze prozatímního (temporary) souboru dat (jenom v průběhu běhu programu), nejčastěji jako mezistupeň nějaké analýzy, např. matice distancí, s níž vstupujeme do MDS (tento soubor pak můžeme, ale nemusíme pojmenovat a uložit).
DATASET DECLARE corrmatrix. REGRESSION /DEPENDENT=var1 /METHOD=ENTER= var2 to var10 /OUTFILE=CORB(corrmatrix).
10
DATASET COPY• DATASET COPY vytvoří - nový datový soubor,
který zkopíruje data z aktivního (otevřeného) souboru.
• Užitečné při vytváření vícenásobných podsouborů dat z jednoho základního - původního souboru.
• Příklad:DATASET NAME studenti_AKD. /*všichni (denní i kombinované studium).DATASET COPY denni.DATASET ACTIVATE denni. /*denní studium = 1.SELECT IF studium=1. /*odmaže všechny případy mimo denní studium.DATASET ACTIVATE studenti_AKD. DATASET COPY kombi. DATASET ACTIVATE kombi. /*kombinované studium = 2.SELECT IF studium=2. /*odmaže všechny případy mimo kombinované studium.
• Pozor, neuložíte-li je, tak po zavření SPSS soubory zmizí.
11
FILE LABEL
• FILE LABEL uvádí jméno souboru v outputech.
• Pokud jsou data v SPSS formátu (PASW Statistics format), tak se label uloží do Dictionary.
• File label se bude objevovat v outputech v „Notes tables“.
12
Postup pořízení dat v MS Excel s následným převodem do SPSS
1. Vytvořit názvy proměnných v prvním řádku (jméno začíná písmenem)2. Vytvořit si kódový klíč → maximálně se vyvarovat záznamu pomocí
slov, k čemuž Excel láká (např. místo „muž“ → 1), jinak bude v SPSS stringová proměnná (tu lze převést na numerický záznam, viz dále, ale je to obtížné)
3. Prohlédnout celou hotovou matici v Excelu, zda někde není prázdný řádek apod. Kurzor nesmí být na konci (jinak se pak v SPSS objeví prázdné řádky plné missingů).
4. Po uložení dat v XLS (musí být soubor XLS zavřený!), v SPSS dáme otevřít data a rozklikneme dolní roletku pro formát XLS.
5. V průvodci exportu dat vybereme, že v prvním řádku jsou názvy proměnných a zvolíme excelovskou záložku, kde data jsou.
6. Zkontrolujeme kraje datové matice: spodní část a pravou na konci, zda nejsou prázdné buňky pro proměnné či případy. Pokus ano, odstraníme.
7. Alternativně lze použít formát CSV. K jeho importu viz návod PSPP/SPSS na http://metodykv.wz.cz/PSPP_navod_1_uvod.pdf (str. 19-20)
8. Data nově uložíme ve formátu SPSS tj. *.SAV9. Nyní můžeme labelovat jak názvy proměnných tak jejich hodnoty.
13
V SPSS se tak lze setkat se 4 typy dat (připomenutí)
• Mikrodata – individuální data, tj. případy v řádcích (nejčastěji respondenti, ale např. také novinové články, země nebo regiony)
• Agregovaná data – analytické/strukturní proměnné = individuální údaje sumované za určitou jednotku (např. území jako regiony/ státy nebo časová období) Vznikají agregací mikrodat (sumování, průměrování).
• Kombinovaná mikrodata s kontextuálními daty buď na agregované úrovni nebo jako kontext společný určité skupině individuí. Např. individuální mikrodata: žáci a informace o jejich rodičích, kontextuální data: informace o typu školy společná pro žáky ze stejných škol a případně také analytické/strukturní data na agregované úrovni: průměrný prospěch ve třídě (agregováno z individuálních dat žáků konkrétní třídy).
• Tabelární data – agregovaná do tabulek (kontingenční tabulky) Např. dříve publikované výsledky mobilitní tabulky.
Odlišný typ dat (úrovně měření) vyžaduje použití odlišných
přístupů k analýze,ale také odlišný způsob interpretace výsledků
(a její možnosti resp. limity)!
Načtení dat ze syntaxu (pro menší datové soubory)
& tabulární (agregovaná) data
(pro data publikovaná například v nějakém textu)
16
Načtení (mikro)dat ze syntaxu (vhodné pro menší datové soubory nebo tabulární data)
*hypotetická data: hodnoty proměnných odděleny mezerou, stringové znaky v " ".DATA LIST LIST / okres (A15) progr domduch vek obyv.BEGIN DATA."Benešov" 1 3 52 40990"Kladno" 0 4 61 67490"M. Boleslav" 1 6 50 6099"Příbram" 0 2 45 4816"Dobříš" 1 1 49 7827END DATA.*Labely.VAR LAB progr "Program pro seniory".VAR LAB domduch "Domovy důchodců – počet".VAR LAB vek "Průměrný věk".VAR LAB obyv "Počet obyvatel".VAL LAB progr 0 "Ne"1 "Ano".*formát čísel (bez desetinného místa) a typ proměnné.FORMATS progr domduch vek obyv (f8).VARIABLE LEVEL domduch vek obyv (scale).
17
Načtení tabelárních dat z agregované existující kontingenční tabulky (→ vážení procenty)
****nacteni kontingencni tabulky aneb sekundarni analyza (ČR, ISSP 2007).DATA LIST LIST/vek vzdel volil freq.VAL LAB vzdel 1 "ZŠ+VY" 2 "SŠ+VŠ" / vek 1 "<49" 2 ">50" / volil 1 "nevolil" 2 "volil".BEGIN DATA1 1 1 1381 1 2 921 2 1 1061 2 2 2182 1 1 1432 1 2 2572 2 1 562 2 2 175END DATA.FORMATS vek vzdel volil freq (f8).WEIGHT by freq.CROSS vzdel by volil by vek. CROSS vzdel by volil.
volil
věk vzdělání 1 nevolil 2 volil
1 <49 1 ZŠ+VY 138 92
2 SŠ+VŠ 106 218
2 >50 1 ZŠ+VY 143 257
2 SŠ+VŠ 56 175
volilvěk vzdělání 0 nevolil 1 volil
1 <49 0 ZŠ+VY 111 112 1 SŠ+VŠ 121 1222 >50 0 ZŠ+VY 211 212 1 SŠ+VŠ 221 222
Pozice pole v tabulce např. 121 znamená: 1. panel, 2. řádek, 1. sloupec
Viz syntax: crosstab_data_input.sps
Pokračování někdy příště …