Upload
doquynh
View
218
Download
0
Embed Size (px)
Citation preview
Behavioral Economics <1> by S. Yane
本日の課題
R & Rstudio 自主トレ演習用教材 by 矢根 真二 ([email protected])
資料URL http://rio.andrew.ac.jp/~yane/class/S34/
< TR1 分析の道具と方法のイメージ >
統計学もRも知らない完全初心者用2016年版 イメージがある方には,いきなり<TR2>が効率的かも?
■ 探偵気分になりきれれば,誰でも6日でデータマイニング?
○便益: インストール,統計やRの必要性・考え方から解説
○費用: 石田基広(2015)『新米探偵,データ分析に挑む』
キンドル版,¥2160 + 数日の知的努力
Slide
基本コンセプト と メリット
Rや計量経済学・統計学の知識が不要でも,
1. 物語を読めば,科学的分析が掴める
2. 特にインストール・データ読み込みから
躓くPC初心者にも,読みやすい
3. 帰無仮説・有意水準を知らない統計学初心者にも,分析の考え方がイメージできる
4. それでも自分で回帰分析をできる等,本
演習には十分実用的な共通教養を修得可能
∴ 開講時には,全員俵太君レベルでスタート
2
Behavioral Economics <1> by S. Yane
Slide 3
以下の理解度診断の自主トレ6課題の目次
前頁の石田(2015)を読みながらこなす<6>課題
0. 番外編を読む R と RStudioのインストール
1. 事件ファイル01を読む 1 サイコロ と ヒストグラム
2. 事件ファイル02を読む 2 コイン と t検定
3. 事件ファイル03を読む 3 分割表 と χ2検定
4. 事件ファイル04を読む 4 散布図 と 単回帰分析
5. 事件ファイル05を読む 5 主成分得点 と 単回帰
6. 事件ファイル06を読む 6 ロジスティック回帰
Slide
1日目 サイコロ と ヒストグラム4
サイの目の
平均値の
期待値はいくら?
Behavioral Economics <1> by S. Yane
Slide
1日目の 理解度診断 10分間チェック
1. PCにサイコロを 1 回振らせてみた時の出目は?
2. サイコロを10回振らせてみた時,すべての出目が出た?
3. サイコロを10回振らせた時と,1万回振らせた時の度数分布表やヒストクラムを作れる? 読み取れる相違は?
4. 前問3の各々の期待値は? いずれが理論値に近い?
5. 前問4の10回振った期待値を1万回繰り返し記録した場合
のヒストグラムを作ると,何が分かる?
5
Slide
Rのコード例 と 補足
解答のためのRのコード (テキストファイル)
サイの目は確率変数 相対度数分布(ヒストグラム)は確率分布
3分間補足: 確率 と 行動経済学・ゲーム理論
1. ルーレットの結果を4回見ていたら,黒,赤、赤,赤という結果,アナタなら次はどっちに賭ける?
ギャンブラーの錯誤 カーネマン (15) 『ファスト&スロー』
2. アナタなら3万円のサイコロの賭(pp.51-55)にのる? セントピーターズバーグの逆説 期待効用仮説
6
Behavioral Economics <1> by S. Yane
Slide
2日目 コイン と t 検定7
ヒストグラム(度数分布図)や散布図( 4)の実際の使用例
自主トレでのデータ保存フォルダ(Project or WD)の作成例
1. Rをインストールすると,ドキュメントの下にRフォルダが自動的に作成
確認: C: ¥ユーザー ¥(ユーザー名) ¥ドキュメント ¥R
2. このRフォルダの下に,自主トレ用の TR1 フォルダを作成します
ココに保存したデータcoin.csvは,”~/R/TR1/coin.csv“ でアクセス
Slide
2日目の 理解度診断 10分間チェック8
1. PCにコインを20回トスさせた場合の表(0)と裏(1)の数の比率を直感的に確かめるために,表やグラフで作れる?
2. 200回トスさせた場合には,その比率はどう変化?
3. 友人が彼のコインで20回トスしたら,2coin.csvに見られるように,表(0)が7回,裏(1)が14回出た。このコインは歪みがない(という
帰無仮説が5%の有意水準で棄却できない)フェアーな硬貨?
2coin.csv ファイルのトス結果の変数名: toss
4. 2coin2.csvのtoss2のように,200回中裏が140回出る場合は?
Behavioral Economics <1> by S. Yane
Slide
Rのコード例 と 補足
解答のためRのコード (テキストファイル)
大数の法則 サンプル数が 20 と 200 では大違い?
3分間補足: データの保存場所とそのデータの3読み込み法
1. Rstudioなら,右上の Import Dataset のクリックでOK さらに,From Text File をクリック OK
2. coin <- read.csv(file.choose()) は,Rでも使える
3. ドキュメントの下のRの下,TR1フォルダを作って保存した場合
coin <- read.csv(“~/R/TR1/2coin.csv")
9
Slide
3日目 分割表 と χ2 検定
データ作成の基礎: エクセルでのデータ作成の基本形
3sex.xlsx 第1行に変数名: id, sex, smoke
id は個体識別の通し番号,sexとsmokeは質的データhead() 文字,str() factor, summary()
データ利用の基礎: エクセルからCSVファイルを作成
1. エクセルで開いたファイルを,名前を付けて保存する時に,
2. ファイルの種類で CSVを選択 はい,でOK
3. 準備: 3sex.xlsx と 3sex2.xlsx をCSVで保存しよう
10
Behavioral Economics <1> by S. Yane
Slide
3日目の 理解度診断 10分間チェック
1. CSVにした 3sex.csv と 3sex2.csvをRに読み込み,それぞれ dats と dats2 という名(の行列)にしよう
2. dats と dats2 の分割表(クロス表)を作成し,男女や喫煙者の比率を比べると?
3. それぞれの分割表において,男女間で喫煙パターンの相違がない(という帰無仮説を5%の有意水準で棄却できない)と言える? カイ二乗(独立性)検定によって説明しよう
11
Slide
Rのコード例 と 補足
解答のためRのコード (テキストファイル)
大数の法則 サンプル数が増えるほど精度も上がる
3分間補足: データ(行列) dats からの変数 sex, smoke の指定
table()にdats データの2列目のsexと3列目のsmokeを使う
1. 名前を指定 table(dats$sex,dats$smoke)
2. 個々の列を指定 table(dats[c(2,3)])
3. 列から列までを指定 table(dats[c(2:3)])
12
Behavioral Economics <1> by S. Yane
Slide
4日目 散布図 と 回帰分析13
アイスが売れれば
事故が増える?
Slide
4日目の 理解度診断 10分間チェック
1. 4ice.csv を読み込み,要約(summary)して,日本語の変数名が表示できるか確かめましょう( 番外編に説明)
2. 販売数,気温,水難事故数の散布図や相関係数は?どのような相関関係や因果関係がある?
3. 販売数や水難事故数を気温で単回帰した結果(回帰係数,t値,有意性,決定係数)は? 水難事故数を販売数で回帰してもフィットは悪くないのに,なぜ有意味でない?
14
Behavioral Economics <1> by S. Yane
Slide
Rのコード例 と 補足
解答のためRのコード (テキストファイル)
Rstudioで日本語を使うには,ホームディレクトリにRprofileを置く
3分間補足: 回帰分析結果を見るポイント
1. 変数間の因果関係を説明する理論・仮説は明確か?
2. 全体の説明力 決定係数×100 %
3. 各変数の有意性 t値は約2以上で5%有意か?
4. 散布図と回帰直線 曲線の方がフィットが良い?
外れ値(アウトライヤー)が多い特徴はないか?
15
Slide
小休止: 「勉強」から「研究」へ
ここまできたら(1-4日目),サクセス!
分析の方法(統計学)と道具(R)の具体的イメージができた?
研究: これらの道具を使って,何か面白い問題を主張できる?
例: 内閣支持に関する「TVの街角20人アンケート」はあてになる?
∴ これからは(5-6日目),自分の研究に使える道具箱を整備
すべてを広く均等にではなく,自分に必要な道具を深く練習興味がわき研究に使えそうなパッケージや手法中心に学習
例: テキストマイニング や WEBスクレイピング ?
16
Behavioral Economics <1> by S. Yane
Slide
5日目 主成分得点 を使った単回帰
様々なパッケージと手法のうち,次の3つの黄色部分の練習
1. グラフ(ggplot2)やデータ処理(dplyr)
2. テキストマイニングやWEBスクレイピング
3. 主成分分析,クラスター分析,コレスポンデンス分析
3道具のここでの選択理由
1. 主成分分析 説明変数が多い場合に利用するため
2. dplyr 俵太君の,パイプやselectの使い方を理解するため
3. ggplot2 俵太君の,グラフの微修正を理解するため
17
Slide
5日目の 理解度診断 10分間チェック
1. 世界191カ国のdale(平均余命)に関するデータ5who.csv を読み込み,内容をチェック(head や summary. str)しよう
2. daleと他の量的変数 hexp(保健支出), hsc3(教育), gdpc(1人当たり所得), hgini(不平等度)との相関係数や
散布図を使って要約・視覚化すると?
3. 3変数 hexp, hsc3, gdpc の第1主成分とその寄与度は?
4. この第1主成分得点PCを使って,daleを単回帰できる?このPCを元データに加えた5whoPC.csvを書き出しておこう
18
Behavioral Economics <1> by S. Yane
Slide
Rのコード例 と 補足
解答のためRのコード (テキストファイル)
どのパッケージがお気に入り? 興味 練習 技術
3分間補足: 主成分分析の「結果」を利用して分析を続ける
「 結果 <- prcomp(データ) 」 等の分析を行うと, summary(結果) で,結果の要約を確認できる
結果という名前の下に,自動的に分析結果が格納される
1. 結果$rotation 主成分
2. 結果$x 主成分得点
x の第1列 x[,1] を指定する: 第1主成分得点
19
Slide
6日目 データ処理とロジスティック回帰分析
様々なパッケージと手法のうち,次の3つの黄色部分の練習
1. グラフ(ggplot2)やデータ処理(dplyr)
2. テキストマイニングやWEBス例ピング
3. 主成分分析,クラスター分析,コレスポンデンス分析
3道具のここでの選択理由
1. 主成分分析 説明変数が多い場合に利用するため
2. dplyr 俵太君の,パイプやselectの使い方を理解するため
3. ggplot2 俵太君の,グラフの微修正を理解するため
20
Behavioral Economics <1> by S. Yane
Slide
6日目の 理解度診断 10分間チェック
1. 6baby.csvを読み込み,low(赤子の低体重),smoke(喫煙), ptl(早産経験),ht(高血圧),ui(子宮過敏)が1(Yes)か0(No)の値し
かとらず,量的変数はage(年齢)とlwt(体重)のみなことを確かめよう
2. lowを他の全変数でロジスティック回帰すると,5%有意な要因のうち最も危険な要因は?
3. ageとlwtも0と1のカテゴリ変数(例:軽い・重い)に変換して,上記のロジスティック回帰をできる?
4. これらのデータを書き出せば,何に使える?
21
Slide
Rのコード例 と 補足
解答のためRのコード (テキストファイル)
3分間補足: 学習成果を今後の研究に活用するポイント
1. ExcelやCSVデータを読み込めるようになった?
2. Yesなら,たいていのコードをコピペで動かせる!
3. ただし,好みのデータ・変数に置き換えられる? データや変数の指定の仕方の理解が最も重油になります
4. さらに,加工した変数をCSVデータで書き出せる? RStudioでprojectを保存する人には,不要かもしれませんが。
22
Behavioral Economics <1> by S. Yane
Slide
お疲れ様! の効果?23
1. 俵太君の学習姿勢をまねることが最も大事!
分からないことは質問,分かれば要約,そして積極的に実践
初めてのこともホウレンソウができればスキルアップ
2. 論文・発表のテーマは原則自由 but 分析方法は共有
Rによる科学的分析方法の基礎は,互いに共有できたハズ
実際にいかに使えるかを報告し合うことで創造力アップ
3. その中核になる効率性測定のためには,皆でTR2 に挑戦!