Upload
others
View
11
Download
0
Embed Size (px)
Citation preview
データ分析(SPSS) 第 02-03 回講義ノート p.1講義担当:佐々木康成([email protected])
【前回の復習】
尺度について 数字には情報量に応じて 4段階の種類がある 名義尺度 順序尺度 :質的データ 間隔尺度 比例尺度 :量的データ
尺度によって利用できる分析方法に差異がある
SPSSでの入力の練習と簡単な操作の説明 変数ビューで変数を設定(型や尺度に注意)
fig. 変数ビュー
データビューでデータを入力
fig.データビュー
データ分析(SPSS) 第 02-03 回講義ノート p.2講義担当:佐々木康成([email protected])
データの視覚化 ヒストグラムの作成 直感的な把握のために重要 入力間違いがないか確認する データの分布を把握する
fig.ヒストグラムの作成
fig.ヒストグラムの出力例
度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利
fig.度数分布表の作成
データ分析(SPSS) 第 02-03 回講義ノート p.3講義担当:佐々木康成([email protected])
fig.度数分布表の出力例
基本統計量の算出 度数分布表のオプションで「統計量」を選ぶ
fig.基本統計量の算出
中心傾向(代表値) 散らばり(散布度) 分布 前回のサンプルデータを用いて整理する 手元に無い人はダウンロードしておくこと
データ分析(SPSS) 第 02-03 回講義ノート p.4講義担当:佐々木康成([email protected])
ばらつき具合とその指標 Excel を用いた基本統計量の理解 代表値(中心傾向) 平均値(=average 関数) 中央値(=median 関数) 散布度(散らばり) 分散 標準偏差
本日の内容 ばらつき具合とその指標 散布度の求め方 Z スコアと偏差値
使用するデータの特徴 代表値 代表値として「平均値」を用いる 数学的に最も高度な代表値 分布の全ての値を使って求める 分布の形 いわゆる「正規分布」を前提とする
正規分布の特徴を確認してみよう 正規分布の特徴 ・左右対称 ・中央部分が最も値が多い ・極端な値は少ない ・釣り鐘型
fig.正規分布の例
}今日はここを理解する
データ分析(SPSS) 第 02-03 回講義ノート p.5講義担当:佐々木康成([email protected])
正規分布の比較と標準正規分布 平均値が等しい正規分布の比較 平均値が等しいからといっても同じ正規分布ではない 平均値が等しい正規分布の比較 下の二つの図は何が違うのか?
fig.平均値の等しい 2種類の正規分布の例
解答:
ばらつき具合の違いの表現 なだらかな分布 データがばらついている 尖った分布 データがばらついていない 「尖度」という指標で確認可能 SPSSでは 0を基準としている プラスの値は尖った分布を意味する データのばらつきが分布の形を決める
ばらつき具合を他人に伝えるためには? 視覚的に把握する 簡潔には伝えられない 数値で表現する 「散布度」という指標を用いる 「代表値」と「散布度」で分布の特徴を表現する
「代表値」とは何か、簡潔に説明できるようになっておこう!
データ分析(SPSS) 第 02-03 回講義ノート p.6講義担当:佐々木康成([email protected])
簡単な散布度 範囲(〈分析〉→〈記述統計〉→〈度数分布表〉の「統計量」) 最大値と最小値から求める値 極端な値に弱い 2 つの値しか使っていないので、情報量が少ない 平均値のように「全てのデータ」を使いたい より高度なばらつき具合の表現へ
ばらつき具合の表現 ばらつきとは「何からの」ばらつきか? 代表値(平均値)からどれだけ離れているか それぞれの値が平均値からどれだけ離れているかを計算して集計すれば良い 以下の表の空欄を埋める。CourceN@vi からファイルをダウンロードし、Excel で実習する SPSS で値だけ求めても無意味 それが何の意味なのか理解しておく必要がある
散布度の計算過程
名前 得点 得点-平均値 (得点-平均値)^2
A 2
B 2
C 3
D 3
E 5
F 6
G 6
H 7
I 8
J 8
平均値 合計値 合計値 = 偏差平方和
5
分散 = 偏差平方和/データ数
標準偏差 = √分散
データ分析(SPSS) 第 02-03 回講義ノート p.7講義担当:佐々木康成([email protected])
偏差 代表値からどれだけ離れているか 偏差=個々の値-平均値 計算結果を p.6 の表に書き入れること 偏差の合計 偏差を出し終えたら合計する 0 になる 証明は以下の通り 偏差の平均 =偏差の合計 /データ数 =((それぞれのデータから平均値を引いたもの)の合計)÷データ数 =(全データの合計から平均値 ×データ数を引いたもの)÷データ数 =(全データの合計 ÷データ数)ー(平均値 ×データ数 ÷データ数) = 平均値ー平均値 =0 従ってそのままでは立ち行かなくなる偏差二乗和 なぜ偏差の合計は 0になるかは上の証明通り ならば全てを正の数にすればいい 二乗すれば正の数になる(単位も二乗になる) 全て計算したら合計する 計算結果を p.6 の表に書き入れること 偏差二乗和(SumofSquares=SS) 「偏差二乗和」 「偏差自乗和」 「偏差平方和」 どれも同じものを指す 最も基本となる散布度の指標 データ数が増えると値が大きくなる分散 偏差二乗和をデータ数で調整した値 不偏分散=偏差二乗和 ÷自由度(データ数 -1) 調整してあるので、ばらつき具合の評価が比較しやすい 自由度で割っているので母集団の性質を求めている ただし単位は二乗のまま
不偏標準偏差(本来は「標本標準偏差」と言われるが、混乱を避けるために「不偏標準偏差」とする) 不偏分散の単位を元の単位に戻したもの 不偏分散の平方根(ルート)を取る 不偏標準偏差=√不偏分散 p.6 のサンプルデータの不偏標準偏差 √ 5.56≒2.36 「このテストの結果は平均 5.0 点で、おおよそのばらつき 具合は平均点を中心にしてを 2.36 点である」といえる
データ分析(SPSS) 第 02-03 回講義ノート p.8講義担当:佐々木康成([email protected])
散布度についてのまとめ 代表値と散布度でデータのおおまかな性質を捉えられる 代表値 平均値・中央値・最頻値 散布度 偏差二乗和・分散・標準偏差
データを比較する 「異なる科目のテストで同じ点数を取ったとする。 それぞれの科目の平均値が同じなら成績は等しくなるか?」 実は散布度を考慮していない設問 「各科目の成績はどの程度ばらついているか」の情報が必要
平均 50点のテストで 60点を取った場合 標準偏差 10点の分布 60 点は標準偏差 1つ分上回っているといえる 標準偏差 5点の(10点よりもばらつきが少ない)分布 60 点は標準偏差 2つ分上回っているといえる 標準偏差を単位として個々の得点がどれだけ平均値から離れて いるかが数値化できる 偏差÷標準偏差=標準得点 データを全て標準得点に直した分布を「標準正規分布」と呼ぶ 標準正規分布の形に変換することを「標準化」という
0.0
0.1
0.2
0.3
0.4
0.5
-4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0
0.0
0.1
0.2
0.3
0.4
0.5
-4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0
0.0
0.1
0.2
0.3
0.4
0.5
-4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0
fig.標準化の模式図
Zスコア (個々の得点ー平均値)÷標準偏差=Z スコア(標準得点) 標準正規分布の形に変換すればどんなデータでも比較可能 異なる科目間 身長と体重
データ分析(SPSS) 第 02-03 回講義ノート p.9講義担当:佐々木康成([email protected])
以下の表を埋めてみよう
データの標準化(Zスコア)と偏差値
名前 得点 偏差Zスコア(偏差/標準偏
差)
A 2
B 2
C 3
D 3
E 5
F 6
G 6
H 7
I 8
J 8
Zスコアの意味 E くん(平均値と完全に一致した成績) 0÷2.36=0 F くん(平均値 +1.0SDの成績) 1÷2.36≒0.42 データの個々の位置を表すのに役立つ
偏差値 Zスコアには小数点以下の値もマイナスの値もある Zスコアを 10倍して 50を足した値が「偏差値」 偏差値 60は、標準偏差 1つ分プラスである、という意味
上側確率 標準正規分布の特徴 全体の面積を 1とした際の「ある値より上」の面積が既に計算済み
斜線の部分の面積は全体の 2.5% 標準偏差 ±1の範囲に、 全体の 68.26%が入る 「このテストの結果は平均 5.0 点で、平均点を中心とした ±2.36 点の範囲に 全体の 68.26%のデータが入る」といえる
データ分析(SPSS) 第 02-03 回講義ノート p.10講義担当:佐々木康成([email protected])
SPSSでの Zスコアと偏差値の求め方 ただし、SPSSでは不偏標準偏差(不偏分散の平方根)を用いて計算される
データビューに Excel のデータをコピーする
fig.Excel のデータをコピー&貼り付け
変数ビューを編集する
fig.変数ビューの「名前」と「尺度」を編集
〈分析〉→〈記述統計〉→〈記述統計〉を選択
fig.メニューから分析方法を選択
データ分析(SPSS) 第 02-03 回講義ノート p.11講義担当:佐々木康成([email protected])
Z スコアに変換する変数の指定 「標準化された値を変数として保存」にチェック
fig.変数の指定
必要なら記述統計のオプションを指定
fig.記述統計のオプションを指定
続行ボタンを押すと、結果と共にデータビューにZスコアの値が自動的に入力される
fig.Z スコアの出力結果
データ分析(SPSS) 第 02-03 回講義ノート p.12講義担当:佐々木康成([email protected])
Zスコアと偏差値 いわゆる「偏差値」はZスコアを 10倍し、50を加算するという線形変換をした値である
偏差値 =Zスコア *10+50
SPSS では以下のようにして算出することが可能である 前提として Zスコアを算出しておく
〈変換〉→〈変数の計算〉を選択
fig.変数の計算を選択
出現した「変数の計算」ダイアログボックスで「Zスコアの変数」を選択する 「数式」欄で、その変数名に 10を乗算し、50を加算する 「Z成績 *10+50」となる 目標変数の名称を入力する (ここでは「偏差値」とした)
fig.目標変数と数式を入力
OKボタンを押すと、全データの偏差値が出力される
データ分析(SPSS) 第 02-03 回講義ノート p.13講義担当:佐々木康成([email protected])
fig.偏差値の出力
Excel での偏差値の求め方 各 Zスコアのセルを指定し、「=セル番地 *10+50」として算出する
練習問題 以下のサンプルデータの菓子Aと菓子Bについて、それぞれ基本統計量とZスコアを求めなさい。 名前 性別 菓子 A 菓子 B安藤 1 7 9石井 2 7 10今井 2 6 7上田 1 6 10遠藤 1 8 7大塚 2 7 6大和田 1 5 7香山 2 9 6桑原 2 7 6近藤 2 10 10佐藤 1 8 5島村 1 8 8杉田 2 6 4立川 1 4 9戸田 2 9 9新倉 1 2 4深町 2 8 2町田 1 7 8山田 1 8 8横川 2 6 3
データ分析(SPSS) 第 02-03 回講義ノート p.14講義担当:佐々木康成([email protected])
【第 2-3 回課題(次々回授業前までを提出期限とする)】なお、計算には Excel を用いても SPSSを用いても良いが、どちらの環境で算出したかを明記すること。
問 1あるテストを 10人に課したところ、得点が以下のようなものになった。 a:22 b:24 c:55 d:46 e:47 f:38 g:53 h:60 i:74 j:51
1-1平均値を求めなさい。1-2偏差平方和を求めなさい。1-3分散を求めなさい。1-4標準偏差を求めなさい。1-5f と i の z スコアを求めなさい。1-6g の偏差値を求めなさい。
問 2データ数が 25、分散が 16.0 であったとき、標準偏差と偏差二乗和を求めなさい。
問 3以下のデータから平均値、偏差二乗和、分散、標準偏差を求めなさい。また j の偏差値を求めなさい。 a:48 b:42 c:49 d:43 e:51 f:59 g:65 h:68 i:78 j:84平均値は小数点以下第 1位まで求め、散布度は小数点以下第 2位まで求めなさい。偏差値は整数位までで良いものとする。
問 410人のデータの値が全て同じものであった場合、標準偏差を求めることはできるかどうか考察しなさい。