<TR1分析の道具と方法の - rio.andrew.ac.jprio.andrew.ac.jp/~yane/class/S34/Training1.pdf · 例：テキストマイニングやWEBスクレイピング? 16. BehavioralEconomics

Behavioral Economics <1> by S. Yane

本日の課題

R & Rstudio 自主トレ演習用教材 by 矢根真二（[email protected]）

資料URL http://rio.andrew.ac.jp/~yane/class/S34/

< TR1 分析の道具と方法のイメージ >

統計学もRも知らない完全初心者用2016年版イメージがある方には，いきなり<TR2>が効率的かも？

■ 探偵気分になりきれれば，誰でも６日でデータマイニング？

○便益：インストール，統計やＲの必要性・考え方から解説

○費用：石田基広(2015)『新米探偵，データ分析に挑む』

キンドル版，¥2160 ＋数日の知的努力

Slide

基本コンセプトとメリット

Rや計量経済学・統計学の知識が不要でも，

1. 物語を読めば，科学的分析が掴める

2. 特にインストール・データ読み込みから

躓くＰＣ初心者にも，読みやすい

3. 帰無仮説・有意水準を知らない統計学初心者にも，分析の考え方がイメージできる

4. それでも自分で回帰分析をできる等，本

演習には十分実用的な共通教養を修得可能

∴ 開講時には，全員俵太君レベルでスタート

2


Slide 3

以下の理解度診断の自主トレ６課題の目次

前頁の石田(2015)を読みながらこなす＜６＞課題

0. 番外編を読む R と RStudioのインストール

1. 事件ファイル０１を読む 1 サイコロとヒストグラム

2. 事件ファイル０2を読む 2 コインと t検定

3. 事件ファイル０3を読む 3 分割表と χ2検定

4. 事件ファイル０4を読む 4 散布図と単回帰分析

5. 事件ファイル０5を読む 5 主成分得点と単回帰

6. 事件ファイル０6を読む 6 ロジスティック回帰

Slide

1日目サイコロとヒストグラム4

サイの目の

平均値の

期待値はいくら？


Slide

1日目の理解度診断１０分間チェック

1. PCにサイコロを１回振らせてみた時の出目は？

2. サイコロを１0回振らせてみた時，すべての出目が出た？

3. サイコロを１0回振らせた時と，1万回振らせた時の度数分布表やヒストクラムを作れる？読み取れる相違は？

4. 前問３の各々の期待値は？いずれが理論値に近い？

5. 前問４の１０回振った期待値を１万回繰り返し記録した場合

のヒストグラムを作ると，何が分かる？

5

Slide

Rのコード例と補足

解答のためのＲのコード（テキストファイル）

サイの目は確率変数相対度数分布（ヒストグラム）は確率分布

３分間補足：確率と行動経済学・ゲーム理論

1. ルーレットの結果を４回見ていたら，黒，赤、赤，赤という結果，アナタなら次はどっちに賭ける？

ギャンブラーの錯誤カーネマン (15) 『ファスト&スロー』

2. アナタなら３万円のサイコロの賭（pp.51-55）にのる？セントピーターズバーグの逆説期待効用仮説

6


Slide

２日目コインと t 検定7

ヒストグラム（度数分布図）や散布図（ 4）の実際の使用例

自主トレでのデータ保存フォルダ（Project or WD）の作成例

1. Rをインストールすると，ドキュメントの下にＲフォルダが自動的に作成

確認： C: ¥ユーザー ¥（ユーザー名） ¥ドキュメント ¥R

2. このＲフォルダの下に，自主トレ用の TR1 フォルダを作成します

ココに保存したデータcoin.csvは，”~/R/TR1/coin.csv“ でアクセス

Slide

２日目の理解度診断１０分間チェック8

1. ＰＣにコインを20回トスさせた場合の表(0)と裏(1)の数の比率を直感的に確かめるために，表やグラフで作れる？

2. 200回トスさせた場合には，その比率はどう変化？

3. 友人が彼のコインで20回トスしたら，2coin.csvに見られるように，表(0)が7回，裏(1)が14回出た。このコインは歪みがない（という

帰無仮説が５％の有意水準で棄却できない）フェアーな硬貨？

2coin.csv ファイルのトス結果の変数名： toss

4. 2coin２.csvのtoss２のように，２００回中裏が１４０回出る場合は？


Slide


解答のためＲのコード（テキストファイル）

大数の法則サンプル数が 20 と 200 では大違い？

３分間補足：データの保存場所とそのデータの３読み込み法

1. Rstudioなら，右上の Import Dataset のクリックでOK さらに，From Text File をクリック OK

2. coin <- read.csv(file.choose()) は，Rでも使える

3. ドキュメントの下のＲの下，TR1フォルダを作って保存した場合

coin <- read.csv(“~/R/TR1/2coin.csv")

9

Slide

３日目分割表と χ2 検定

データ作成の基礎：エクセルでのデータ作成の基本形

3sex.xlsx 第１行に変数名： id, sex, smoke

id は個体識別の通し番号，sexとsmokeは質的データhead() 文字，str() factor, summary()

データ利用の基礎：エクセルからCSVファイルを作成

1. エクセルで開いたファイルを，名前を付けて保存する時に，

2. ファイルの種類でＣＳＶを選択はい，でOK

3. 準備： 3sex.xlsx と 3sex2.xlsx をＣＳＶで保存しよう

10


Slide

３日目の理解度診断１０分間チェック

1. ＣＳＶにした 3sex.csv と 3sex2.csvをＲに読み込み，それぞれ dats と dats2 という名（の行列）にしよう

2. dats と dats2 の分割表（クロス表）を作成し，男女や喫煙者の比率を比べると？

3. それぞれの分割表において，男女間で喫煙パターンの相違がない（という帰無仮説を５％の有意水準で棄却できない）と言える？カイ二乗（独立性）検定によって説明しよう

11

Slide



大数の法則サンプル数が増えるほど精度も上がる

３分間補足：データ（行列） dats からの変数 sex, smoke の指定

table()にdats データの２列目のsexと３列目のsmokeを使う

1. 名前を指定 table(dats$sex,dats$smoke)

2. 個々の列を指定 table(dats[c(2,3)])

3. 列から列までを指定 table(dats[c(2:3)])

12


Slide

４日目散布図と回帰分析13

アイスが売れれば

事故が増える？

Slide

４日目の理解度診断１０分間チェック

1. 4ice.csv を読み込み，要約（summary）して，日本語の変数名が表示できるか確かめましょう（番外編に説明）

2. 販売数，気温，水難事故数の散布図や相関係数は？どのような相関関係や因果関係がある？

3. 販売数や水難事故数を気温で単回帰した結果（回帰係数，ｔ値，有意性，決定係数）は？水難事故数を販売数で回帰してもフィットは悪くないのに，なぜ有意味でない？

14


Slide



Rstudioで日本語を使うには，ホームディレクトリにRprofileを置く

３分間補足：回帰分析結果を見るポイント

1. 変数間の因果関係を説明する理論・仮説は明確か？

2. 全体の説明力決定係数×100 %

3. 各変数の有意性 t値は約２以上で5%有意か？

4. 散布図と回帰直線曲線の方がフィットが良い？

外れ値（アウトライヤー）が多い特徴はないか？

15

Slide

小休止：「勉強」から「研究」へ

ここまできたら（1-4日目），サクセス！

分析の方法（統計学）と道具（Ｒ）の具体的イメージができた？

研究：これらの道具を使って，何か面白い問題を主張できる？

例：内閣支持に関する「ＴＶの街角20人アンケート」はあてになる？

∴ これからは（5-6日目），自分の研究に使える道具箱を整備

すべてを広く均等にではなく，自分に必要な道具を深く練習興味がわき研究に使えそうなパッケージや手法中心に学習

例：テキストマイニングや WEBスクレイピング ?

16


Slide

５日目主成分得点を使った単回帰

様々なパッケージと手法のうち，次の３つの黄色部分の練習

1. グラフ(ggplot2)やデータ処理（dplyr）

2. テキストマイニングやWEBスクレイピング

3. 主成分分析，クラスター分析，コレスポンデンス分析

３道具のここでの選択理由

1. 主成分分析説明変数が多い場合に利用するため

2. dplyr 俵太君の，パイプやselectの使い方を理解するため

3. ggplot2 俵太君の，グラフの微修正を理解するため

17

Slide

5日目の理解度診断１０分間チェック

1. 世界191カ国のdale(平均余命)に関するデータ5who.csv を読み込み，内容をチェック（head や summary. str）しよう

2. daleと他の量的変数 hexp（保健支出）, hsc3(教育), gdpc(1人当たり所得), hgini(不平等度)との相関係数や

散布図を使って要約・視覚化すると？

3. 3変数 hexp, hsc3, gdpc の第１主成分とその寄与度は？

4. この第１主成分得点PCを使って，daleを単回帰できる？このPCを元データに加えた5whoPC.csvを書き出しておこう

18


Slide



どのパッケージがお気に入り？興味練習技術

３分間補足：主成分分析の「結果」を利用して分析を続ける

「結果 <- prcomp(データ) 」等の分析を行うと， summary(結果) で，結果の要約を確認できる

結果という名前の下に，自動的に分析結果が格納される

1. 結果$rotation 主成分

2. 結果$x 主成分得点

x の第１列 x[,1] を指定する：第１主成分得点

19

Slide

６日目データ処理とロジスティック回帰分析

様々なパッケージと手法のうち，次の３つの黄色部分の練習

1. グラフ(ggplot2)やデータ処理（dplyr）

2. テキストマイニングやWEBス例ピング

3. 主成分分析，クラスター分析，コレスポンデンス分析

３道具のここでの選択理由

1. 主成分分析説明変数が多い場合に利用するため

2. dplyr 俵太君の，パイプやselectの使い方を理解するため

3. ggplot2 俵太君の，グラフの微修正を理解するため

20


Slide

６日目の理解度診断１０分間チェック

1. 6baby.csvを読み込み，low(赤子の低体重),smoke(喫煙), ptl(早産経験),ht(高血圧),ui(子宮過敏)が１(Yes)か０（No）の値し

かとらず，量的変数はage(年齢)とlwt(体重)のみなことを確かめよう

2. lowを他の全変数でロジスティック回帰すると，5%有意な要因のうち最も危険な要因は？

3. ageとlwtも0と1のカテゴリ変数（例：軽い・重い）に変換して，上記のロジスティック回帰をできる？

4. これらのデータを書き出せば，何に使える？

21

Slide



３分間補足：学習成果を今後の研究に活用するポイント

1. ExcelやCSVデータを読み込めるようになった？

2. Yesなら，たいていのコードをコピペで動かせる！

3. ただし，好みのデータ・変数に置き換えられる？データや変数の指定の仕方の理解が最も重油になります

4. さらに，加工した変数をCSVデータで書き出せる？ RStudioでprojectを保存する人には，不要かもしれませんが。

22


Slide

お疲れ様！の効果？23

1. 俵太君の学習姿勢をまねることが最も大事！

分からないことは質問，分かれば要約，そして積極的に実践

初めてのこともホウレンソウができればスキルアップ

2. 論文・発表のテーマは原則自由 but 分析方法は共有

Rによる科学的分析方法の基礎は，互いに共有できたハズ

実際にいかに使えるかを報告し合うことで創造力アップ

3. その中核になる効率性測定のためには，皆でＴＲ２に挑戦！

Documents

<TR1分析 の道具と方法の - rio.andrew.ac.jprio.andrew.ac.jp/~yane/class/S34/Training1.pdf · 例：テキストマイニングやWEBスクレイピング? 16. BehavioralEconomics

<TR1分析の道具と方法の - rio.andrew.ac.jprio.andrew.ac.jp/~yane/class/S34/Training1.pdf · 例：テキストマイニングやWEBスクレイピング? 16. BehavioralEconomics