22
20 20 1 1 0 0 年年 年年 年年年年年年年 年年年年年年年 年年年 年年年年 年年年 年年年年 E-mail E-mail [email protected] [email protected]

20 1 0年度 統計学講義内容

  • Upload
    doris

  • View
    64

  • Download
    5

Embed Size (px)

DESCRIPTION

20 1 0年度 統計学講義内容. 担当者 河田正樹 E-mail [email protected]. このスライドの内容. 統計学とはどのようなものか   データの収集、分析をおこなう統計学は、学問として存在しているばかりでなく、日常生活の中で無意識のうちにその考え方が用いられているものである。 経済学と統計学   経済学部という文系の学部で、統計学という数学のようなものはあまり関係ないように思われる。しかし、経済学を学ぶ上で、統計学は非常に重要なものであり、現実経済の把握や将来の予測には統計学が必ず用いられる。. 統計学とはどのようなものか. - PowerPoint PPT Presentation

Citation preview

Page 1: 20 1 0年度 統計学講義内容

20201100 年度年度統計学講義内容統計学講義内容

担当者 河田正樹担当者 河田正樹E-mailE-mail    [email protected]@tokuyama-u.ac.jp

Page 2: 20 1 0年度 統計学講義内容

このスライドの内容このスライドの内容

• 統計学とはどのようなものか  データの収集、分析をおこなう統計学は、学問とし

て存在しているばかりでなく、日常生活の中で無意識のうちにその考え方が用いられているものである。

• 経済学と統計学  経済学部という文系の学部で、統計学という数学の

ようなものはあまり関係ないように思われる。しかし、経済学を学ぶ上で、統計学は非常に重要なものであり、現実経済の把握や将来の予測には統計学が必ず用いられる。

Page 3: 20 1 0年度 統計学講義内容

統計学とはどのようなものか統計学とはどのようなものか

• 日常生活において、われわれは不確実なことがらにさまざまな情報を用いて、予測し、意思決定をおこなっている。

(例) 駅までバスでいくときには、  〇 通常の所要時間の情報 に加え  〇 曜日、季節、時間帯、天候などによる混雑度の情報 を用いて、所要時間を予測し、行動する。

a)  統計学の考え方

経験の浅い者が、豊富な経験を持つものに対抗しようとするとき、統計学の必要性が生じる。

Page 4: 20 1 0年度 統計学講義内容

• 通常の所要時間の情報、混雑度の情報をどのように入手し、どのように利用しているのであろうか?

– 普段からよく乗るバスであれば、大体の所要時間を記録(多くの人は脳の中で)している。

– 平均所要時間と最大所要時間を大まかに計算している。– さらに、曜日・時間帯・天候などで場合分けし、それぞれ

の場合の平均所要時間と最大所要時間を大まかに計算している。

 ⇒ 普段の「経験」は、無意識のうちに「統計学的なものの考え方」を用いているのである。

Page 5: 20 1 0年度 統計学講義内容

• 統計学とは、分析目的に対応してデータを収集し、分析することによって、予測や意思決定のための材料を提供する学問である。

• 人間の記憶にはあいまいな所がある。事実を正確にとらえるためには、きちんとデータを収集して、平均所要時間を求める(簡単な分析)などの統計学の手法を用いる必要がある。

データの収集

分析予測・

意思決定分析目的

統計学

Page 6: 20 1 0年度 統計学講義内容

 データを収集し、分析する統計学の立場には次の2 種類が考えられる。

• まず、得られたデータの特徴を何らかの数値(例えば平均)や表・グラフにまとめたりすることが考えられる。

  ⇒ 記述統計(または統計的記述)という。

• 次に、データの記述にもとづき、そのデータを生成した集団や構造(これを母集団という)についての推論をおこなうことが考えられる。

  ⇒ 推測統計という。

b)  記述統計と推測統計

Page 7: 20 1 0年度 統計学講義内容

• 左のグラフは主要死因別死亡数の推移を折れ線グラフであらわしたもの。

• これらから、死因別死亡数が時代とともにどのように変化したかを見ることができる。

1)  記述統計の例

( )主要死因別死亡率の推移 男

 0

20 000

40 000

60 000

80 000

100 000

120 000

140 000

160 000

180 000

200 000

45昭和 年 50年 55年 60年 平成2年 7年 12年 17年

悪性新生物

(心疾患 高血圧)性を除く

脳血管疾患

肺炎

不慮の事故

自殺

( )主要死因別死亡率の推移 女

 0

20 000

40 000

60 000

80 000

100 000

120 000

140 000

160 000

180 000

200 000

45

昭和

年50

年55

年60

平成

2年 7年12年

17年 年

悪性新生物

(心疾患 高血圧)性を除く

脳血管疾患

肺炎

不慮の事故

自殺

「経験」をきちんと整理する

Page 8: 20 1 0年度 統計学講義内容

母平均 μ

母比率 p

標本平均

標本比率

推論 x

母数  θ 標本統計量 t

      ×

   ×      ×

      ×     ×

   ×      ×

      ×

    ×

  ×    ×

    ×  

母集団(個体数N )

標本(個体数n )

母集団 - 知りたい対象の母集団 - 知りたい対象の集まり集まり標本 - 母集団から抜き出標本 - 母集団から抜き出されたその一部されたその一部

全数調査 - 母集団の全て全数調査 - 母集団の全てについて調査をおこなうことについて調査をおこなうこと標本調査 - 母集団から抜標本調査 - 母集団から抜き出された一部について調査き出された一部について調査をおこなうことをおこなうこと

2)  推測統計の例

標本統計量をもとに、母数についての推論をおこなうのが推測統計である。

Page 9: 20 1 0年度 統計学講義内容

 晴れた日の夕方のバスの所要時間を知りたいとする。 晴れた日の夕方に走るすべてのバスについて、所要時間

のデータを収集することは不可能である。このとき、たとえば 10 日間に乗ったバスを標本(サンプル)として考える。

      ×

   ×      ×

      ×     ×

   ×      ×

      ×

   ×

  ×    

母集団(晴れた日の夕方のバス全体)

標本(乗ったバス 10回) 

平均所要時間 x平均所要時間 μ

推論

少ない「経験」をもとに、多くを経験した場合のことを推論する。

Page 10: 20 1 0年度 統計学講義内容

• 標本から得た母集団についての情報は、誤差を持っている。

• たとえば、晴れた平日の夕方に A さんと B さんがそれぞれ別の日にバスに乗ってデータ収集をおこなう。

– A さんは 10 回乗ったところ、目的地まで平均 15 分でついた。– B さんは運の悪い人で、乗ったバスが信号に何度もつかま

り、 10 回乗ったところ平均時間は 20 分であった。

3)  推測統計の注意点

      ×

   ×      ×

      ×     ×

   ×      ×

      ×

   ×

  ×    

母集団(晴れた日の夕方のバス全体)

標本 1 ( A さんの乗ったバス 10回) 平均 15 分

  ×

   ×    

標本 2 ( B さんの乗ったバス 10回) 平均 20 分

Page 11: 20 1 0年度 統計学講義内容

 ⇒ 選んだ標本 ( サンプル ) から求めた平均所要時間には誤差がある。

 ⇒ 標本誤差(標本の偏り)の問題  ※ 内閣発足直後、新聞各社は支持率調査をおこなうが、各社ごとにその結果が異なる。それはこの標本誤差(標本の偏り)の問題による。

• 推測統計では、標本から得られる情報にもとに、確率を用いて、誤差の大きさを評価し、母集団についての情報を推論する。

Page 12: 20 1 0年度 統計学講義内容

      ×

   ×      ×

      ×     ×

   ×      ×

      ×

   ×

  ×    

母集団(有権者 1 億人) 標本 1 (朝日 1054

人)  71%

   ×

  ×    

  ×

   ×       ×

  ×    

  ×

   ×    

標本 2 (読売 1087人)  75%

標本 3 (毎日 1014人)  77%

標本 4 (日経 857 人)  75%

標本 5 (共同 1032人)  72%

2009 年 9 月 18 日付の朝刊各紙に掲載された鳩山内閣支持率を見ると、異なった結果になっている。

同じ対象に同じ調査をおこなっても、標本によってその結果が異なる。

これが、標本の偏りである。

<鳩山内閣発足直後の支持率の例>

Page 13: 20 1 0年度 統計学講義内容

推測統計の例 推測統計の例 -視聴率--視聴率-• ドラマやスポーツなどのテレビ番組の視聴率は、ビデオリサーチ社が調査している。

• 全国を各地区に分け、視聴率を調べているが、新聞などで大きく取り上げられるのは、関東地区の結果である。

• 関東地区の場合、約 1580 万世帯のうち、 600 世帯を標本(サンプル)として選び調査している。

      ×

   ×      ×

      ×     ×

   ×      ×

      ×

    ×

  ×    ×

    ×  

母集団( 1580万世帯)

標本( 600世帯)

Page 14: 20 1 0年度 統計学講義内容

(例) 2010 年 4 月 4 日放送の「龍馬伝」第 14回の視聴率は 18.5% であった。

– テレビ局の論理  1580 万世帯 ×0.185 = 292 万世帯が視聴している。 視聴率が 1% 増えるということは、関東地区だけで  1580 万世帯 ×0.01 = 15 万世帯増加 全国では 4700 万世帯 ×0.01 = 47 万世帯(その世帯

に住む人数を考えると約 100 万人の増加)

⇒  標本誤差を考慮せず、標本から求めた視聴率が母集団から求めた視聴率に等しいとしている。

Page 15: 20 1 0年度 統計学講義内容

– 統計学の論理 標本の 600 世帯 ×0.185 = 111 世帯が視聴していると

いうこと。 視聴率が 1% 増えるということは、 600 世帯 ×0.01

= 6 世帯がたまたまその番組を見ていたことである。  1% 程度の視聴率は標本誤差によって変わる可能性

がある。

Page 16: 20 1 0年度 統計学講義内容

• では、標本調査で 36.4% という結果を得た場合、母集団の視聴率はどの程度なのだろうか?

  ⇒ これに答えるのが統計的推定

• 視聴率 35% 以上の番組を作った場合、プロデューサーの査定にプラスになるという内規があったとする。しかし、この番組は本当に 35%を超えたのだろうか?

  ⇒ これに答えるのが統計的検定※   2003 年 10 月に発覚した、視聴率操作事件をおこした日本テレ

ビプロデューサーは、視聴率のわずかな差にこだわっていたが、統計学の立場からすると、わずかな差にこだわるのはバカバカしい。

Page 17: 20 1 0年度 統計学講義内容

経済学と統計学経済学と統計学

• 経済学を学ぶ場合、マクロ経済学やミクロ経済学などの経済理論を学ぶとともに、それらが現実経済と一致するかを検証しなくてはならない。

経済理論 現実経済一致 ?

Page 18: 20 1 0年度 統計学講義内容

• 現実経済の状態を把握するために、記述統計が用いられる。– 完全失業率を算出する– 株価の動きをグラフ化する– 所得税減税効果と、消費増大の関係について、回帰分

析をおこなう。 → 所得税を○○%引き下げることによって、消費

が△△%増大する

• さらに、現状把握をもとに予測し、意思決定をおこなうためには、推測統計が用いられる。

Page 19: 20 1 0年度 統計学講義内容

– 完全失業率は、これは日本全国 15 歳以上(1億人)から 10 万人を標本として選んだ調査の結果である。この数値が前月と比べて 0.1% 増えたところで、誤差の範囲内ではないだろうか?

– 所得税を○○%引き下げることによって、消費が△△%増大することが回帰分析によってわかった。しかし、この分析は標本にもとづいて分析されたものであり、実際には ± □ % の誤差がある。

 ⇒ 誤差をふまえたうえでの意思決定が必要

Page 20: 20 1 0年度 統計学講義内容

マーケティングと統計学マーケティングと統計学

• マーケティングと統計学は密接な関係がある。– コンビニなどの POS システムのデータは、天候、

時間、年齢、性別などによってどのような商品が売れるのかを解析するために用いられている。

– 市場調査のためにアンケートをおこなう場合には、調査対象者をどのぐらいの規模でどのようにして選ぶかなどには統計学の知識が必要不可欠である。(統計的推定に含まれるサンプリング ( 標本抽出法 )の話)

Page 21: 20 1 0年度 統計学講義内容

スポーツと統計学スポーツと統計学

• スポーツの戦術、トレーニング方法などを科学的に解明する場合、統計学の助けが必要となる。– 野球の戦術において、打率、防御率などはどの選手をどのよう

に起用するか(打順、登板順など)に用いられるし、投手の配球を読む上で統計学は非常に役に立つ。選手の起用に際して、メジャーリーグのアスレチックスを起源とするでは「セイバーメトリクス」という統計的分析手法が出てきており、 OPS ( On-base Plus Slugging )という出塁率+長打率で求められる指標が、得点との関連が高いことがいわれている。

– トレーニングの面では、 2 つのトレーニング方法があった場合、どちらがより効果的なトレーニング方法であるかなどは、統計的検定によって検証される。

Page 22: 20 1 0年度 統計学講義内容

講義内容講義内容

第 1 章 記述統計の復習

第 2 章 確率と確率分布

第 3 章 統計的推定

第 4 章 統計的検定

第 5 章 回帰分析入門