12
-1- データ解析入門 -集めたデータをSPSSで有効に分析しよう- 神戸大学発達科学部人間科学研究センター 小田 利勝

データ解析入門 - Kobe Universityoda/spss1.pdf-2-統計解析 をしたい、統計解析の手法を身につけることは大事だと思っていても、どのようにした

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: データ解析入門 - Kobe Universityoda/spss1.pdf-2-統計解析 をしたい、統計解析の手法を身につけることは大事だと思っていても、どのようにした

- 1 -

デ ー タ 解 析 入 門

-集めたデータをSPSSで有効に分析しよう-

神戸大学発達科学部人間科学研究センター

小 田 利 勝

Page 2: データ解析入門 - Kobe Universityoda/spss1.pdf-2-統計解析 をしたい、統計解析の手法を身につけることは大事だと思っていても、どのようにした

- 2 -

をしたい、統計解析の手法を身につけることは大事だと思っていても、どのようにした統計解析統計解析に関して全くの初心らよいかわからないという人は少なくない。この冊子は、そうした

(Statistical Package for者(ウルトラ・ビギナー)が、ごく短時間の練習で統計解析ソフトSPSS

:社会科学のための統計 計算ソフト 詰め合わせ)を使うことができるようになるこSocial Sciences < >

とを願って作られたものである。

統計解析や統計解析ソフトに関する解説書やマニュアルは数多く売られている。どれも似たり寄っ

たりであるからから、目を通してみて、自分にわかりやすいものを求めればよい。この冊子は、そう

した市販本を手にする前に、実際にSPSSを使ってみて、それがどんな解析ソフトで、それを使う

と何ができるのかを実感するための入門書である。

午前中に、この冊子に書かれた通りに練習すれば、午後には自由自在にとはいえないまでも、統計

解析ソフトSPSSを難なく使うことができるようになることは間違いがない。これは、初学者への

無責任な励ましの言葉ではない。かつて私自身が初めて統計解析ソフトを利用したときの経験から、

確信をもって、そう言えるのである。

本来ならば、統計学の基礎知識や各種の分析手法の詳細について学んだ後に統計解析ソフトを用い

ることが望ましいが、この冊子は、専ら統計解析ソフトを使う方法を身につけることを目的にしてい

るので、統計学そのものは扱わない。統計理論や各種の分析手法のアルゴリズム(算法)について

は、統計解析ソフトを使いながら学んでいく方が理解しやすいだろう。

もっとも、統計解析ソフトの利用者の多くが統計理論や分析手法のアルゴリズムについて熟知して

いるかというと、そんなことはない。むしろ、その逆であるとった方が事実に近いであろう。統計解

析ソフトは ことを目的に開、「 」統計理論やアルゴリズムを知らなくても統計解析ができる

発されてきたからである。そうはいっても、統計理論やアルゴリズムを知らないよりは、知っていた

方がよいことは言うまでもない。統計解析ソフトを使い慣れていくと、次第に統計理論やアルゴリズ

ムに関心が向いていき、それらについて知りたいと思うようになる。

スポーツや芸術活動でも同じであるが、初心者にとって大事なことは、形から入っていく、あるい

は、その通りに真似をしていくことである。統計解析ソフトを利用するということは、データ解析の

方法を身につけようとする際に、形から入っていくことを意味する。

そのメカニズムがわからないままに自動車を運転し、ワープロを使い、デジカメで撮影するよう

に、統計解析ソフトをデータ解析の手段として、道具として活用することができるようになれば、こ

の冊子の目的は達成されたことになる。道具を上手に使えるようになる秘訣は 「習うより慣れろ」、

であることは誰でもが経験的に知っていることであろう。これを機会に、統計解析ソフトを使いこな

してデータを有効に分析する方法を身につけてほしい。

この冊子は、今後とも多くの人の協力を得て改訂を続け、内容を充実していく予定である。利用し

てみて気がついたことや意見があれば、遠慮なく寄せてもらいたい。

改訂版 年 月 日2001 6 19

小 田 利 勝

Page 3: データ解析入門 - Kobe Universityoda/spss1.pdf-2-統計解析 をしたい、統計解析の手法を身につけることは大事だと思っていても、どのようにした

- 3 -

は、手にした(集めた) を することによって、データそのものから統計解析のねらい データ 解析

はうかがい知ることができない(データそのものは伝えていない)多くの を引き出すことにあ情報る。たとえば、ある集団(グループ)に関するデータを入手して次のような表に整理したとする。こ

の表からどんな情報を引き出すことができるだろうか。

表1.データの整理

名前(名簿番号) 年齢 性別 職業 書籍代(円/月) 参加度 …

1 30 男 画家 3,000 5 …

2 41 女 運転手 4,500 2 …

3 28 女 経理事務 2,500 4 …

4 55 男 飲食店経営 8,000 3 …

5 46 女 無職(主婦) 6,000 1 …

6 61 男 弁護士 1,000 5 …

7 38 女 教師 3,500 2 …

8 72 女 不動産業 9,000 5 …

9 25 男 自動車販売 10,000 4 …

10 48 男 総務課長 4,000 3 …

11 51 女 医師 2,000 1 …

… … … … … … …

… … … … … … …

356 63 男 将棋棋士 6,000 4 …

この表からは、Aさんは年齢が 歳の男性で、職業は画家、1か月の書籍代が 円で ・・・で30 3,000 、

あり、Bさんは年齢が 歳の女性で、職業は運転手で、1か月の書籍代は 円で ・・・というよ41 4,500 、

うに、各個人の各項目について詳しく知ることができる。しかし、この表を用いて統計解析を施せ

ば、このグループのことについて、もっと多くの情報を引き出すことができる。逆に、何の統計解析

も施さなかったとしたら、苦労して集めて見栄えよく整理したデータも十分に生かされることなく、

ゴミになってしまう。

各項目の や 、 などの は、紙と鉛筆、そろばんや電卓を用いれば容易に算頻度 合計 平均 基本統計量

出できる。もうちょっと時間をかければ、 や 、 や も算出できるだろ最頻値 中央値 分散 標準偏差

う。そうしたところまでは、統計解析になじみがない人でも一度くらいは試みたことがあるだろう。

この表でいえば、 代が何人、 代が何人 ・・・、最低年齢と最高年齢、平均年齢、年齢の分散や20 30 、

標準偏差、男性と女性の人数、職業別人数、書籍代の最高と最低、平均、分散や標準偏差などを計算

してみれば、何もしないときよりは、このグループのことについてはるかに多くのことを知ることが

できるであろう。

ところが、この表には、そうしたことだけではなく、この集団における年齢や性別、職業と書籍代

あるいは参加度との 、書籍代や参加度を規定している など、数多くの情報が含まれているの関連 要因

である。この表を一目見てそのことに気がつき、そうした情報を引き出してやろうと考える人はデー

タ解析のセンスがあると自認してよいであろう。しかし、そうしたせっかくのセンスも、統計解析の

Page 4: データ解析入門 - Kobe Universityoda/spss1.pdf-2-統計解析 をしたい、統計解析の手法を身につけることは大事だと思っていても、どのようにした

- 4 -

方法を知らなければ生かすことができないのである。

ところで、集めたデータを上で例示したような行( )と列( )の表(行列表: )row column matrix

に整理するところから統計解析は始まる。言い換えると、統計解析を念頭においてデータを整理する

と、そうした表になるということである。こうして「データの整理が終わった」ら、次に、それをコ

ンピュータに読み込ませることになる。その方法は幾つかあるが、この実習では、上で例示した表と

全く同じ形式で整理した表を読み込ませる方法を用いることにする。

用語集(広辞苑より)

【解析】

物事をこまかく解き開き、理論に基づいて研究すること 「データを―する」。

(information)【情報】

或ることがらについてのしらせ。判断を下したり行動を起したりするために必要な知識。

【データ 】data

立論・計算の基礎となる既知の或いは認容された事実・数値。資料。与件。

【データ処理】

必要な情報を得るためにデータに対して行う一連の作業。例えばコンピューターによって、大量の

資料について集計・分類・照合・翻訳などの算術的・論理的処理を行うこと。

【統計】 集団における個々の要素の分布を調べ、その集団の傾向・性質などを数量的に統(statistics)

一的に明らかにすること。また、その結果として得られた数値。

を使って統計解析を行う手順SPSSに入っている「チュートリアル」からSPSS

Page 5: データ解析入門 - Kobe Universityoda/spss1.pdf-2-統計解析 をしたい、統計解析の手法を身につけることは大事だと思っていても、どのようにした

- 5 -

起動(立ち上げ) 入力ステップ1 SPSSの とデータの

初期画面図1.SPSSを起動した時の

などの表計算用のソフトを 使ったことのある人には馴染みの表。こうした行と列で構成エクセル

されているデータ入力用の表を という。左側に1から順に番号が打ってあるスプレッド・シート

のが行で、上側に と書いてあるのが列。各行はケースの番号で、各列は変数。この表にデータをvar

入力していく。行の数も列の数ファイル サイズ もほとんど無制限であるので、何万というケース( )

について千を超える数の変数を入力することも可能である。エクセルの場合は、行数は まで許65,536

されるが、列数の上限は であるから、変数の数が を超えるようなときには使えない。256 256

図2は、データを入力したところ。ケース番号と変数名がくっきりと表示されるようになる。

図2.データを入力しているところ

Page 6: データ解析入門 - Kobe Universityoda/spss1.pdf-2-統計解析 をしたい、統計解析の手法を身につけることは大事だと思っていても、どのようにした

- 6 -

自分で変数名をつけない場合は、自動的に から順に通し番号がつけられる。コンピュータvar00001

でデータを処理するときには、このように左側に縦にケースを並べ(各行にケースを順番に並べ 、)

同一列に同一の変数の値を入力したデータ行列を作成する。

すでに作成して保存してあったデータ・シート(ファイル)を読み込むには 「ファイル」ボタン、

をクリックしてメニューを表示させ 「開く」ボタン→「データ」ボタンを順にクリックする。保存、

されていたファイル名の一覧が表示されるので、必要なファイル名の上にカーソルをもっていってダ

ブルクリックするか 「開く」ボタンをクリックする。、

のデータ・ファイルは、 が という名で保存されるが、読み込ませたいファイルは、SPSS sav拡張子

のファイル ( )でも、 でもかまわない。テキスト・ファイルでエクセル テキスト・ファイル***.xls

あれば、ワープロ(ソフト)を使ってデータを整理しておけばよいが、その場合は、各変数をスペー

スかカンマ( )で区切って、各変数ともに列の位置と列幅を同一にしておくと読み込みが簡単に,

なる。

下の図3は、 に見本として保存されている という名のファイルを開いたとこSPSS World95.sav

ろ。

図3.ファイルを読み込んだところ

この表には、世界 か国に関する 年の各種データが記載されている。第1列にはアフガニス109 1995

タン、アルゼンチンとアルファベット順に国名が記されている。第2列には、人口が というpopulatn

変数 変数名の で、第3列には人口密度が という変数名で・・・、というように入力されている。density

Page 7: データ解析入門 - Kobe Universityoda/spss1.pdf-2-統計解析 をしたい、統計解析の手法を身につけることは大事だと思っていても、どのようにした

- 7 -

という制約があるから、人口は を略して としている。変数名は半角で8文字以内 population populatn

名は、それが何かを自分でわかればよいから、 ・・・ といったように簡略化してもかV1, V2, V3, , V500

まわない。上の例でいえば、 ・・・ の代わりに、 ・・・ とpopulatn, density, urban, , babymort V1,V2,V3, , V9

つけても同じである。コンピュータには、それぞれの変数の違いを示してやるだけでよい。第1列の

も変数であるが、これはそれぞれのケースを表すから、そのことが自分でわかりやすいようcountry

に、他の変数と区別して、この場合のように とか とか、 などと工夫して名付けたらよcountry case name

い。

それぞれの変数に関する詳細を知るには、表の下側に「 」とかかれた場所をクリックし変数ビュー

て、下の図4に示す表を表示させる。データを入力するときには、この画面でデータの詳細を記述す

る。

図4.変数ビュー

変数名は英数半角8文字以内であったが 「 」欄にあるように、その変数が何であるかをわ、 ラベル

かりやすいように説明書き(ラベル)をつけることができる。たとえば、変数名「 」は、都市urban

口の割合 と説明してある。ラベルは統計解析そのものには関係なく、解析結people living in cities(%)

果を出力(表示)したときに、その変数が何なのかをわかりやすくするためのものにすぎないから、

自分が必要だと思えば付ければよいし、必要ないと思えば、あえて付けなくてもよい。

「 」は変数の型のことで 「文字型」というのは、たとえば、男性、女性といった性や、神戸、型 、

15.23大阪などのような地名を文字で記述した変数のことで 「数値型」というのは、1とか5とか、、

といったように数値で記述される変数である。どちらを使ってもかまわない。男性を1,女性を2,

神戸を1,大阪を2として入力すれば、これは数値型変数となる。

「 」は、その変数を入力するのに必要なカラム数である。1カラム(幅)は半角1文字分であ幅

る。性を文字型変数にして男という値を入力するには2カラム必要で、ある数値型変数の値の最大幅

が、 のように9桁の場合は「幅」が9となる。123456789

「 」は、数値型変数の小数点以下の桁数である。これを、たとえば2にすると、整数値3小数桁数

を入力すると と表示される。小数点以下の数字を表示したくないときには 「小数桁数」を0に3.00 、

する。たとえば、 万円のような万単位で入力したいときには、この小数桁数の数値に注意するこ12.5

Page 8: データ解析入門 - Kobe Universityoda/spss1.pdf-2-統計解析 をしたい、統計解析の手法を身につけることは大事だと思っていても、どのようにした

- 8 -

とが必要である。小数桁数を0にしたままで と入力すると “親切にも” と四捨五入してくれ12.5 13、

る。何も指定しないときには、 は 「幅」8 「小数桁数」2とみなす。SPSS 、 、

「 」は、変数の値につけるラベルである。性別を数値型変数にして、男を1、女を2として入力値

したときに、解析結果を出力(表示)すると、ラベルを付けていないと1と2の数字しか表示されな

いが、1という値に「男 、2という値に「女」というラベルを付けておくと、1、2の代わりに」

男、女と表示される。このラベルも変数ラベルと同じで解析そのものには関係がないので、必要と思

えば付ければよいし、必要がないと思えば付けなくてもよい。

SPSSを使って 。できること通常の統計解析ならSPSSに含まれている手法で十分に間に合う。ただし、日本で開発された数

量化理論に関しては別に組み込むことが必要である。もっとも、数量化理論を使わなくても、それに

代わる解析手法があるので困ることはない。

図5.解析手法の選択

データの入力(読み込み)やデータの修正など分析の準備が整ったら、いよいよ分析を実行する。

図3で見たように、画面の最上欄にはメニューが色々並んでいる。分析を開始するには 「分析」ボ、

タンをクリックして 「記述統計」から「欠損、

値分析」まで書かれている一覧表を表示させ

る。各項目は、さらに細かく分類されているの

で、その中から使用するものを選択する。図5

ではクロス集計を行おうとしている。

左の図6では、ある変数に関してグループ間

の平均値を比較するプログラムを実行しようと

している 「グループの平均」~「一元配置分。

散分析」のどれか一つを選択する。

図6.平均の比較を実行

Page 9: データ解析入門 - Kobe Universityoda/spss1.pdf-2-統計解析 をしたい、統計解析の手法を身につけることは大事だと思っていても、どのようにした

- 9 -

同様にして、いろいろな分析ができる(図7 。)

図7.いろいろな分析ができる

先ほどの図3のデータを用いて、識字率、人口増加率、国内総生産、出生率、乳幼児死亡率の5つ

の変数に関して相関係数を算出してみよう。手続きは図8のように 「分析」をクリックしてから、、

カーソルを順に「相関 「2変量」と動かしていって 「2変量」をクリックすると図9の画面にな」、 、

る。

Page 10: データ解析入門 - Kobe Universityoda/spss1.pdf-2-統計解析 をしたい、統計解析の手法を身につけることは大事だと思っていても、どのようにした

- 1 0 -

図8.相関係数の算出

図9.変数の選択

全部の変数がラベル付きで左側の四角の欄に並んでいる。それらの中から、識字率、人口増加率、

国内総生産、出生率、乳幼児死亡率を選んで右側の欄に移す。カーソルを当ててクリックすると反転

表示されるので、中ほどにある矢印ボタン をクリックすると、選択された変数が右側に移

動する。一度に複数の変数を選択して移動させたいときには、キーボードの「ctrl」キーを押し

たままで一つ一つクリックしていく。複数の変数が反転表示されるので、矢印ボタンをクリックする

と、選択した変数がまとめて移動する。この例では、変数にラベルが付けられていて、そのラベルが

表示されている。変数を選択し終わると図 の画面になる。10

Page 11: データ解析入門 - Kobe Universityoda/spss1.pdf-2-統計解析 をしたい、統計解析の手法を身につけることは大事だと思っていても、どのようにした

- 1 1 -

図10.変数を選択し終えた

ところ

ここで算出するのは通常

の数値データの相関係数で

あるから の積率相関係Peason

数を選ぶ。データが順位

(序)データの場合は、

のタウ や をKendall b Spearman

クリックしてチェックマー

クを表示させる。有意性の

検定は両側検定とし、計算

結果の相関係数が有意な場合に星印を付けることにする。

ここまでできたら、あとは「OK」ボタンを押すだけである。コンピュータは瞬時に相関係数を算

出して結果を出力する。出力画面は「ビューア」と名付けられている。それが、図 である。11

図11.計算結果の出力

平均値や標準偏差、ケース数(N)といった記述統計量とともに、相関係数が表示されている。記

述統計量からわかることは、 か国(識字率に関しては2か国のデータが欠損しているので か国107 107

Page 12: データ解析入門 - Kobe Universityoda/spss1.pdf-2-統計解析 をしたい、統計解析の手法を身につけることは大事だと思っていても、どのようにした

- 1 2 -

で計算している)の平均識字率は で、標準偏差は である。これは、 ± の中78.34% 22.88% 78.34 22.88%

に か国の約 が含まれていることを表している。識字率以外は か国のデータで計算されてい107 70% 109

る。

相関係数の出力には、相関係数と有意確率(両側 、ケース数(N 、それに相関係数の右肩に有) )

意水準を示す星印(アスタリスク)が付けられている。表の下に「 相関係数は 水準で有意(両** 1%

側)です」と注記がある。 水準であれば星印は1個だけつく。この星印と有意確率が意味すると5%

ころは同じである。たとえば 「 ( 」と「 ( )の相関係、 )People who read % Population increase % per year

数は で、有意確率が となっている。 は、 ( )未満であることを意味する-0.699 0.000 0.000 0.001 0.1%

が、それは当然 未満であるから、 に がつくことになる1% -0.699 **

Gross取り上げた変数はどれも相互に高い相関があることがわかるが、1人当たり国内総生産(

)と正(プラス)の相関が見られるのは識字率だけで、他の変数はすべて負domestic product/capita

(マイナス)の相関を示している。この結果からわかることは、識字率が高い国は経済水準も高いと

いうことである。相関係数それ自体は因果関係を示すものではないから、何らかの論理的因果関係が

想定されない限り、相関係数だけで因果関係を論じることはできない。この場合も、経済水準が高く

なると教育が普及して識字率が高くなると考えることもできれば、識字率が高くなると労働力の質が

高まって1人当たりの国内総生産が上昇するともいえる。

識字率と人口千人当たりの出生率および出生千人当たりの乳幼児死亡率との間には、それぞれ

と と、極めて高い逆相関が見られる。識字率の高い国では出生率も乳幼児死亡率も低い-0.869 -0.900

(出生率も乳幼児死亡率も低い国では識字率が高い)が、識字率の低い国では、そのどちらも高い

(そのどちらも高い国では識字率が低い)ことがわかる。極めて高い相関係数の値から、この関係に

はほとんど例外がないことがわかる。

人口増加率と出生率の高さが高い相関関係( )にあることは常識的に理解できるだろうが、0.861

乳幼児死亡率も人口増加率と高い相関関係( )にある。乳幼児死亡率の高い国では人口増加率0.607

も高い(人口増加率の高い国では乳幼児死亡率も高い)ということである。乳幼児死亡率は、人口増

加率よりも出生率との関係が強い( 。乳幼児死亡率の高い国では出生率も高く(出生率の高い0.866)

国では乳幼児死亡率も高く 、この関係には例外が少ないことがわかる。)

【有意確率】 値とも呼ばれる。帰無仮説を棄却するかどうかを決める値。帰無仮説が正しいと仮定p

したときに、観測された結果と同じか、あるいはそれ以上外れた結果が起こる確率のこと。有意確率

が十分に 通常 あるいは よりも小さい場合、帰無仮説は棄却される。社会的データで問( 0.05 0.01 )

題にする有意確率(水準)は一般に か (時には )である。5% 1% 10%

----------------------------------------------------------------------------------------------------------------------------------

この冊子では、今回はここまでの説明にしておく。あとは、各自があれこれと試してみてほしい。

わからなくなったら、以下のように「ヘルプ(H 」をクリックして 「トピック」や「チュートリ) 、

成功を祈る!!アル」を参照してほしい。では、