14
質問にお答えします (Q) 演習問題2の解説がほしいです。僕の考えでは、答えが 1/2 になります。 (A) 2 人の到着時刻を (, ) として 50×50 の正方形の点と考えてみてください。 遭遇できるのは | − | ≤ 10 を満たすときですね。 (Q) 数理統計学、難しかったけれど「こんなことに役立つのか~!!!」という発見がたくさん あって、履修してよかったと思いました。 (A) 多くの発見をお手伝いできてうれしく思います。意欲があれば、さらに先を学習してく ださい。 (Q) 先生の講義を受けることができてよかったです。あとは単位をくれれば神!! (A) 私は神ではありません。。。がっかりしないでくださいね。 (Q) 最小二乗法は1セメの自然科学総合実験でたくさん使った気がするけど、全く理解しな いでやっていた。おおまかな考え方がわかってよかったです。(類似意見多数) (A) 原理的なことが分かってもらえればうれしいです。 (Q) ホームラン数やゴール数がポアソン分布に従う程度のランダムさ、ないし希少さが野球 やサッカーの面白さにつながっていると思われる。 (Q) サッカーのゴール数や野球のホームラン数がポアソン分布になっているのは驚いた。サ ッカーの方がポアソン分布に近いのは、関わる人が多いほうがランダムっぽくなるのかと 思った。 (A) そういう見方もあるのですね。サッカーにせよ、野球にせよ、作戦やフォーメーション がかなり細かく決められていますが、それを超えてランダムさが支配しているということ でしょうか。 (Q) HW22 の分布が違っているのではないか? (A) 母平均 = 250 母分散 2 = 2.25 2 の母集団から = 25 個の標本をとって、その標 本平均値を としますね。一般論で, ~ (, 2 ) = (250, 2.25 2 25 ) = (250, ( 2.25 5 ) 2 ) = (250, 0.45 2 ) となります。

質問にお答えします - Tohoku University Official English Websiteobata/student/faq/file/2017_QA.pdf · 2017-07-05 · 質問にお答えします (q) 演習問題2の解説がほしいです。僕の考えでは、答えが

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

質問にお答えします

(Q) 演習問題2の解説がほしいです。僕の考えでは、答えが 1/2 になります。

(A) 2 人の到着時刻を (𝑥, 𝑦) として 50×50 の正方形の点と考えてみてください。

遭遇できるのは |𝑥 − 𝑦| ≤ 10 を満たすときですね。

(Q) 数理統計学、難しかったけれど「こんなことに役立つのか~!!!」という発見がたくさん

あって、履修してよかったと思いました。

(A) 多くの発見をお手伝いできてうれしく思います。意欲があれば、さらに先を学習してく

ださい。

(Q) 先生の講義を受けることができてよかったです。あとは単位をくれれば神!!

(A) 私は神ではありません。。。がっかりしないでくださいね。

(Q) 最小二乗法は1セメの自然科学総合実験でたくさん使った気がするけど、全く理解しな

いでやっていた。おおまかな考え方がわかってよかったです。(類似意見多数)

(A) 原理的なことが分かってもらえればうれしいです。

(Q) ホームラン数やゴール数がポアソン分布に従う程度のランダムさ、ないし希少さが野球

やサッカーの面白さにつながっていると思われる。

(Q) サッカーのゴール数や野球のホームラン数がポアソン分布になっているのは驚いた。サ

ッカーの方がポアソン分布に近いのは、関わる人が多いほうがランダムっぽくなるのかと

思った。

(A) そういう見方もあるのですね。サッカーにせよ、野球にせよ、作戦やフォーメーション

がかなり細かく決められていますが、それを超えてランダムさが支配しているということ

でしょうか。

(Q) HW22 で �̅� の分布が違っているのではないか?

(A) 母平均 𝑚 = 250 母分散 𝜎2 = 2.252 の母集団から 𝑛 = 25 個の標本をとって、その標

本平均値を �̅� としますね。一般論で,

𝑋~𝑁 (𝑚,𝜎2

𝑛) = 𝑁 (250,

2.252

25) = 𝑁 (250, (

2.25

5)

2

) = 𝑁(250, 0.452)

となります。

(Q) t 分布やカイ 2 乗分布のような複雑な密度関数を発見した人が、どのようにして見つけ

たのか興味を持ったので調べてみたい。

(A) 初めに物事を成し遂げたり、発見した人は偉い。後の人は、それを見本にすればよく、

乗り越えてゆくにせよ、先人の偉業は尊いと思う。

(Q) やはり統計学はどうしてもギャンブルに結び付くなという印象でした。元々がそうなの

で仕方ないですが。

(A) はい、確率を現実に応用する段階でそれはギャンブルです。降水確率 10%で傘を持っ

てゆくかどうか、だってギャンブルですものね。単純な応用では、確率の高いほうに賭ける

のが常套手段。なので、降水確率 10%なら持ってゆかない。降水確率 70%なら持ってゆく。

しかし、雨に濡れた時の損失を考慮すれば、閾値は 50%よりさがるでしょうね。イチロー

だって高々4 割弱の打率だし。。。

(Q) 先日、先生が最初のプリントに書かれていた統計に関する本の中の「統計学は最強の学

問である」を購入してみました。近年話題になっている「データ分析の重要性」を実感する

ようなわかりやすい例が多く統計学を学ぶモチベーションが上がりました。

(Q) 週刊東洋経済 6 月 3 日号の特集の中で仮説検定が取り上げられていました(平均値の

差が確からしいか調べていました)ほかにもデータに関する考え方やデータを活用して成

功した事業が取り上げられていて面白かったです。

(A) ビッグデータ利活用は、国から民間までみんなが謳っています。しばらくはこの流れが

続くでしょう。皆さんの時代ですね。ビッグデータからどのようにして有用な情報を取り出

すかが、統計学の役割でしょう。おそらく、従来の推測統計では不足で、新しい数理の導入

が起こるのではないかと思っています。

(Q) HW11 の答に納得ができません。値が正しいかどうか、間違っていたら正しい値を教え

てください。

(A) 申し訳ありません。修正済みです。0.51 ± 0.024 ⟹ 0.51 ± 0.027

(Q) P 値や T-検定など、実践的にデータを解析できるように学べるので、将来生かしていき

たいと感じている。

(A) 数理統計学では、個別のノウハウではなく、その原理的な考え方を強調しています。原

理を知ることで、新しい個別事項にも対応できる柔軟性が身につくことを期待しています。

(Q) B(100,0.5) ≈ 𝑁(50, 52) の 52 がどういうことかわかりません。

(A) B(𝑛, 𝑝) の平均値は 𝑚 = 𝑛𝑝 分散は 𝜎2 = 𝑛𝑝(1 − 𝑝) となります。さらに, 𝑛 が大きい

ときは, B(𝑛, 𝑝) を同じ平均値と同じ分散をもつ正規分布で近似してよく、そのことを

B(𝑛, 𝑝) ≈ 𝑁(𝑛𝑝, 𝑛𝑝(1 − 𝑝)) と書いています。二項分布の正規分布近似は基本ですからよく

復習してください。

ベイズ推定

(Q) 健康診断は健康であることをかなりの確率で保証してくれるということですね。

(A) うまいこと言いますね。そうですね、異常を発見するのは難しいものです。

(Q) 例題のように、エラーが 2%なのに、陽性反応が誤って出てしまう確率が思いのほか大

きくて驚いた。

(Q) ベイズの公式の例はとても興味深いと思った。

(A) ベイズの後、ラプラスも徹底的に研究しました。20 世紀初頭までは、ラプラスの権威

も相まって、ベイズ推定は極めて重用されました。そのあと、フィッシャーたちの推測統計

学から徹底的に攻撃されました。現代では、機械学習などともからんで蘇ってさらに発展し

て多用されています。

(Q) 例題では、感染者の割合を 2/500 としていましたが、実際には、これは明らかにする

ことができることなのでしょうか。

(Q) 事前にわかっていなければならない事前確率は操作によって、結果を変化させることが

できるのは問題だと思いました。

(A) これが事前確率でして、ベイズの公式を実用するときにネックになるところです。例題

では、事前確率が別の調査で分かっているとして話を進めました。実際問題として、1/10 な

のか 5/10 なのか 9/10 なのかくらいの違いは判るとは思います。事前確率の違いが

P(A|B) にどのくらい効いてくるかは、グラフでも書けばわかるので、全く実用できないと

いうことはなく、むしろ、そういうことに注意しながら利用されています。

仮説検定

(Q) もし有意水準を α → 0 としたとき、棄却域が限りなく小さくなりますが、これは「ど

んな実現値も棄却されず、また誤り確率は限りなく 0 に近い」という意味になりませんか?

こんがらかってしまって。。。

(A) おっしゃる通りで正しいです。有意水準は「棄却することで結論を誤る確率」ですから、

棄却しないのであれば間違いようがありません。問題は、有意水準を小さくすることで大概

のものが採択されてしまい「採択することで結論を誤る確率(第 2 種誤り確率)」がどんど

ん大きくなり、β → 1 となってしまいます。なので、有意水準は適当な落としどころで考え

ます。日常的な場面では、0.05 くらいがよいようです。

(Q) 第 2 種誤りの部分は「疑わしきは罰せず」の原則の根拠のようで面白いです。

(A) 確かに、場合分けを見ると、第 2 種誤り確率はコントロールが困難なのでその通りです

ね。第 2 種誤りを避けるために、「証拠不十分で釈放」という判断でしょうか。α と β は

同時に小さくできないので、β を小さく保つため α は大きくてもやむを得ないと考えると、

辻褄はあっていますね。

H0が真(真犯人) H0が偽(犯人でない)

仮説 H0 を採択

(有罪判決) 正しい判断

第 2 種の誤り

β

仮説 H0 を棄却

(無罪判決)

第 1 種の誤り

α 正しい判断

(Q) 第 1 種誤り確率に比べて第 2 種誤り確率が非常に大きいことがあるのに驚きました。

(Q) 仮説検定の限界の部分がとても面白かった。

(A) 仮説検定では、想定される平均値との差が「偶然の揺らぎ」の結果なのか、「何か特別

な要因」があって出たのかを判別しようとするものです。その論理構成上、後者については

誤り確率(有意水準)つきで判定しますがが、前者についてはなかなか自信がもてないわけ

です。

母数の推定

(Q) 「完全に公平なコインであれば、100 回投げた時にもっとも出る可能性の高い表の回数

は 50 回である」は正しいですか?

(A) はい。正しいです。𝐵(100,0.5) は 50 にピークがある分布ですから。ただし、表が 50

回出る確率そのものは小さいですね。

(Q) たくさん出てくる公式は覚えたほうが良いですか?

(A) いろいろなことを記憶していれば、役に立つことも増えるでしょう。が、この講義では、

公式を覚えていることを重視せず、公式の意味や使い方に重点を置きます。なので、最も基

礎的な概念を理解して、いろいろなことをそこからどのようにして導くかの筋道の理解を

深めてください。数学的に高度なところはブラックボックスですが(たとえば、中心極限定

理の証明)、それはそれと理解しておけばよろしいです。

(Q) 標本調査で信頼係数を大きくすると信頼区間が大きくなる。信頼区間が 1/10 に小さく

するためには、標本数が 100 倍になり、サンプルを集めるのが大変だと思った。

(A) そうなんですね。信頼区間を狭くする、例えば視聴率調査で 1 の位くらいは当てになる

ようにしたいと思うと、万単位のサンプルが必要となってしまうのですね。

(Q) データをたくさん集めたほうが正確でも、集めることが困難なとき、小さな標本でも扱

うことを考えた数学者はすごいと思った。また、この授業は数学の中でも一番実際の生活に

関わっているように思った。

(A) はい、20 世紀の初めころから小標本でよい推定を行う方式の探求が盛んになりました。

様々な分布が発見されて、応用が広がりました。それ以前は、母集団と標本の区別もあいま

いだったのですね。ところで、最近はビッグデータ時代ということで、大標本主義が別の形

で再来しているように感じています。皆さんの時代は、次なる飛躍の最中ではないでしょう

か。

(Q) 母集団と二項母集団の違いがわかりません。

(A) 二項母集団は母集団の特別なもの。観測値が 0 と 1 の 2 種類しかないような母集団を

二項母集団と言います。たとえば、仙台市の全世帯に対して、ある番組を見たかどうかを調

べるのなら、全世帯は二項母集団になります。一方、同居人の人数を調査するのならいろい

ろな値が出てくるので二項母集団ではなく、一般の母集団として扱います。

(Q) 統計学で、相乗平均ではなく相加平均を使う理由がわかりました。色々な式が出てきま

したが、複雑で難しいです。

(Q) いまだに √𝑋1𝑋2 のようなものが平均と呼べる感覚がつかめません。

(A) では、(𝑋1 + 𝑋2)/2 は「平均」と呼ぶべきものである感覚とはいったい何でしょう?こ

の場合、感覚というのは学習過程で身についたものでしょうか?さもなくば、生まれ落ちて

本能的に持ち合わせているものですか?感覚や直感も大事ですが、限界もあるように思い

ます。相乗平均は、長方形を同じ面積の正方形で表すようなものとも言えますね。

(Q) 区間推定とは、標本平均に±の幅を持たせて信頼区間を求めることである。前回の授業

では、何を求めているのか、よく分からなかったが、今回の授業で自分の中で分かった。数

直線や図の説明が視覚的でわかりやすかった。

(A) 区間推定の優れているところは、幅の中に知りたい母数をつかまえている確率(信頼係

数)が計算されているところにあります。信頼係数によって、より合理的な判断につながる

ことが想定されるのですね。

(Q) 統計学が視聴率調査に使われていることに驚いた。例題を解いてみて、意外にあてにな

らないと感じた。

(Q) 視聴率の話が興味深かったです。今まで視聴率が 1%高い!!と一喜一憂していた自分は

何だったんでしょう。数理統計学の考え方を学ぶことで、そういったものの見方が変わって

ゆくのが興味深いです。

(A) 特に、社会的な調査結果を数値化すると、その曖昧さや誤差を忘れて、数字だけが独り

歩きすることがよくありますね。1000 人程度の標本調査のときは、±2% 程度の幅をもっ

て受け取る科学的な態度が重要です。なので、最近は、統計学を高校や中学でも教えるよう

になってきたのだと思います。

(Q) 信頼区間も高校の授業でやったが、全く意味が分からなかった思い出が蘇りました。

(A) 近年は、高校によっては統計を学習しているのですね。同じことの繰り返しですが、よ

り深く理解できることを期待しています。

(Q) 信頼係数をどのように決めているのかが気になりました。

(A) 信頼係数 95%というのは、同じ形式の推定を 100 回実行するとき、95 回は母平均を信

頼区間の中に捕まえ、5 回は外しているという程度の信頼度ですよ、という意味である。信

頼度は、その推定を行ったときに間違って生じるリスクとの兼ね合いで決めることになり、

数理統計学の理論的根拠があるわけではない。

確率変数・確率分布

(Q) この前、ふと思ったのですが、9 時から 11 時に宅配便を指定しておいて、その最中に

トイレに行きたくなった。トイレの時間を 5 分として、トイレ中に宅配便が来てしまう確

率、なんてものは、求まりますか?

(A) 宅配便が、9 時から 11 時の間の 120 分のうち、偏りなく、どの時刻にも同程度に到着

するものと仮定すれば、ある特定の 5 分間に到着する確率は 5/120=0.04 となります。め

ったに起こりませんが、すごく稀というほどではないですね。

(Q) 標準正規分布は原子周囲における電子の存在確率で見ましたが、ほかにどのような分野

や題材で使われていますか?

(A) 熱伝導を記述する熱方程式というのがありますが、その解を表すのに使われます。気体

分子運動論で、分子の速度分布も正規分布です。この分野ではマックスウェル分布と呼ぶこ

とが多いですが、正規分布と同じものです。

(Q) 平均から標準偏差の 3 倍を超えるとほとんど起こらないというのは経験則ですか?

(A) 正規分布では、平均から標準偏差の 3 倍を超える確率は 0.0026 ほどですから、1000

回のうち 2-3 回です。かなり僅少でしょう?ただし、これは正規分布の場合です。もちろん

分布によって異なります。身の回りでは、考えている対象が正規分布に近い場合が多いので、

経験的に、平均から標準偏差の 3 倍を超えるとほとんど起こらないとみなしてよいとなり

ます。正規分布が現れる理由は、中心極限定理によって説明されますが、これはあとでやり

ます。

(Q) 正規分布の原始関数が初等関数で表せないということでしたが、実際、どういうことな

のでしょうか?

(Q) 初等関数の範囲にないものはどのように扱えばよいのでしょうか?また、他にはどのよ

うなものがありますか?

(Q) 正規分布は初等関数で表せないのなら、どうやってコンピュータの中で計算しているの

でしょうか?

(A) 数学的な用語を復習すると、

𝐹′(𝑥) = 𝑒−𝑥2

となる関数 𝐹(𝑥) を 𝑒−𝑥2 の原始関数と言います。この𝐹(𝑥) の具体形が初等関数では書

けないということです。便利さのために定数倍をつけて、

𝐹(𝑥) =2

√𝜋∫ 𝑒−𝑡2

𝑑𝑡𝑥

0

とおいたものを「ガウスの誤差関数」と呼んでいます。微分積分の基本定理で

𝐹′(𝑥) =2

√𝜋 𝑒−𝑥2

が成り立ちます。言い換えると、初等関数の枠を超えたので、表示をあきらめて、新しい関

数が生まれたと考えればよいのです。なお、𝐹(𝑥) が初等関数ではないことを証明するのは、

微積分の深い知識が必要です。確率計算で数値が必要なときは、

𝑃(𝑎 ≤ 𝑍 ≤ 𝑏) =1

√2𝜋∫ 𝑒−𝑡2/2𝑑𝑡

𝑏

𝑎

=1

√2𝜋∫ 𝑒−𝑡2

√2𝑑𝑡𝑏/√2

𝑎/√2

=1

2{𝐹 (

𝑏

√2) − 𝐹 (

𝑎

√2)}

であることから、𝐹(𝑥) を数値的に知ればよいことがわかります。定積分は、リーマン和で

近似して数値計算します。近似の精度を上げる工夫は、さまざまあって、台形公式やシンプ

ソンの公式等々の名前を聞いたことがあると思います。

初等関数ではない関数の例としては、ガンマ関数があります。定義は

𝛤(𝑥) = ∫ 𝑡𝑥−1𝑒−𝑡𝑑𝑡∞

0

ですが、この積分を初等関数で実行することはできません。なので、新しい関数として扱い

ます。

(Q) バイト先で豚汁をつくることがあるのですが、先日、「豚肉の量が少ない」というクレ

ームを受けました。そのとき、豚汁1杯の豚肉の量もポアソン分布に従うなと思いました。

(もちろん、謝罪は最初にしましたよ、笑)でも、大鍋の豚汁の具の量は変わっているよう

に思いました。たとえば、残量が少なければ、汁ばかりで具があまりありません。こうなる

と確率は変わってしまうのでしょうか?

(A) 講義の甲斐がありました。素晴らしい反応でしたね。ところで、大鍋の具材の比率がポ

アソン分布のパラメータλですから、時間の経過とともに、λが小さくなってゆくことを観

察したのですね。そうすると、残量が少ないときは、λを取り替えて確率計算することにな

るでしょう。なので、確率は変化することになります。こういう事柄は、確率変数1個では

表現できず、時間とともに変化する確率変数を扱います。この分野を確率過程論と言います。

(Q) なぜ 𝑍 =𝑋−𝑚

𝜎 とおくと標準化できるのか、よく理解できなかった。

(A) まず、平均値を計算してみましょう。

E[𝑍] = 𝐸 [𝑋 − 𝑚

𝜎] =

1

𝜎𝐸[𝑋 − 𝑚] =

1

𝜎{𝐸[𝑋] − 𝐸[𝑚]} =

1

𝜎{𝑚 − 𝑚} = 0.

次に分散ですが, E[𝑍] = 0 に注意して,

V[𝑍] = 𝐸[𝑍2] − 𝐸[𝑍]2 = E [(𝑋 − 𝑚)2

𝜎2] =

1

𝜎2𝐸[(𝑋 − 𝑚)2] =

1

𝜎2𝑉[𝑋] = 1

(Q) 標準化は Z = ±𝑋−𝑚

𝜎 ではないのでしょうか?

(A) マイナスの方を採用すると、𝑋 が増加するとき、Z は減少するので、不便なケースがあ

ります。+の方を採用してくださいね。

(Q) ポアソン分布の証明のきれいさに驚いた。

(Q) ポアソン分布が二項分布から導かれること、正規分布が面白いと思った。

(A) 正規分布も二項分布から導かれることが、数値計算から直感的にわかります。そのうち

やります。

(Q) ポアソン分布では、偶数の値の方が出やすいとありますが、 1

2𝑒−2𝜆 の項が有意に大き

くなるのはどのような状況でしょうか?

(A) λ が小さいときですね。λ は平均値なので、単位時間や単位体積当たりのイヴェント数

が小さいときです。

(Q) 5 月 5 日生まれの話で、2 月 29 日生まれの人はどうすればよいのかわからないです。

(A) 考えている対象全員が、例えば、2016 年生まれなら、1/366 とすればよいですね。

生まれ年が特定できないケースなら、5 月 5 日生まれの確率は 4

3×365+366 , 2 月 29 日生まれ

の確率は 1

3×365+366 とすればよいでしょう。

(Q) 誕生日の問題ですが、ポアソン近似ができる理由がわからなかった。

(A) 二項分布 B (𝑛,𝜆

𝑛) からパラメータ λ のポアソン分布を導出したところで、𝑝 =

𝜆

𝑛 で

𝑛 → ∞ を思い出してください。このことから、二項分布 B(𝑛, 𝑝) は、𝑝 が小さいときは、

パラメータ n𝑝 のポアソン分布で近似できるのです。なので、B (40,1

365) はパラメータ λ =

40×1

365= 0.1096 のポアソン分布で近似します。

(Q) 確率を面積で考えることに面白さを感じました。𝑃(𝑋 = 𝑎) = 0 になる理由が最後にわ

かって、すっきりしました。

(Q) 確率を面積でみる見方は新しいと思いました。

(A) 確率を面積で与えることで、確率論や数理統計学に微積分が導入され、単なる組合せ確

率ではカバーできない広い応用が生まれたのです。

(Q) 離散型と連続型の違いは、試行した後に出てくるデータがどれも正確に書き表されるも

のとそうでないもという認識でよいでしょうか?

(A) いいえ。データが正確に誤差なく得られるかどうかと、離散型・連続型の違いは関係あ

りません。離散型確率変数はデータが整数値のようにとびとびの値として得られるもの、

連続型はデータが連続量で得られるものに対応します。たとえば、毎日、8 時に仙台駅構内

にいる人の数を観測するとします。人の数ですから、理論的にそれは整数値なので、離散型

となります。しかしながら、正確に人数を数え上げられるかどうかは別問題ですね。

(Q) 離散型確率変数でも、その取りうる値の個数が大きければ、連続型確率変数のように扱

えるのではないかと思いました。

(A) はい、その通りです。離散分布の図示として、ヒストグラムを使いますが、取りうる値

の個数が大きくなれば、必然的にヒストグラムの 1 本 1 本の長方形は細く書くしかなく、

究極的には、それらが密集して、密度関数のグラフのように見えてきます。このことから、

離散型確率変数に対しても密度関数で近似するというアイデアが出てきます。二項分布の

正規分布近似で、そのことを具体的にみてゆきます。

(Q) 確率の導出は考え方が難しいことがしばしばだが、身近な問題を扱える点が非常に興味

深く、学習のモチベーションとなっている。

(A) できるだけ身近に感じられる話題を取り上げて、数理統計学の基本を学べるように工夫

してゆくつもりです。

記述統計など

(Q) あえて約分せずに板書していましたが、問題を解くときは約分したほうがよいでしょう

か?

(A) 最終的な解答では、約分して簡単な形で示してください。あえて約分しないのは、計算

の途中経過を確認しやすいためと、複数の数値を比較しやすいためです。

(Q) 私は確率やデータの分野に苦手意識があり、実験をした後の分析(特に有意差)への理

解が不十分に感じるため、この授業に参加しました。よろしくお願いします。

(A) そうですね。実験結果の整理には数理統計学の知識が必須ですね。適当な統計ソフトを

用いれば、自動で何でもやってくれますが、それが何を意味しているかを読み取るためには

理論を知っておく必要があります。

(Q) 高校では分布や統計に関する授業は少なく、今回の講義のように分布に対する関数につ

いて知る機会はほとんど無かった。密度関数なども全く知らなかったので復習をしっかり

して、なんとか理解を深めたい。

(A) 最近は、高等学校で統計を学習する機会が増えました。きちんとやれば、この講義の半

分くらいはそれでカバーされます。が、受験勉強という観点からは除外されがちなので、統

計を学んだことは前提にしていません。この講義では、数理統計学の基本的なアイデアを扱

いますので、しっかり学習してください。実務としても教養としても役に立つはずです。

(Q) 先生はたからくじなどを買ったりなさいますか?

(A) いいえ。あまりにも期待値が低すぎます。100 円でたしか 35 円前後。宝くじを買う人

たちは、税金を余分に納めたい奇特な方々だと思っています。

(Q) 分散は、なぜ 1

𝑛∑ |𝑥𝑘 − �̅�|𝑛

𝑘=1 ではなく、1

𝑛∑ (𝑥𝑘 − �̅�)2𝑛

𝑘=1 を用いたのですか?平均値か

らのばらつきの大きさならば絶対値でもよい気がします。

(A) はい、平均値からのばらつきを比較するためだけならば、どちらでもよいですね。しか

しながら、講義の本題である「母数の推定」のために必須となる標本平均の分布に関する基

本定理 �̅� ~ 𝑁 (𝑚,𝜎2

𝑛) のためには、二乗平均で定義される分散を使わなくてはなりません。

このほかにも、二乗平均で定義された分散を用いた重要な定理や公式があります。絶対値で

定義されたばらつきでは、このような理論がうまく組み立てられないのです。

(Q) ナポレオンは砲術士官であったので科学の重要性をわかっていたのだと思います。

(A) 同意。太平洋戦争時の日本陸軍には科学技術の重要性がわかっていたとは思えません。

今の日本でも、口先だけの人たちが多そうなのが将来への気がかりです。

(Q) 昔読んだ「数学ガール」の統計編は面白かったです。

(A) ほー。

(Q) ランダムに選ぶというところの説明で、確率に数学的な定義があるというのが気になっ

た。

(A) 数学で扱う確率は, 事象に対して 0 から 1 の数値を対応させる関数として定義しま

す。そして、事象は根源事象とよばれるこれ以上細分できない事象の集まりであらわすこと

とします。根源事象をすべて集めると集合ができますが、これを標本空間または全事象と言

います。たとえば、サイコロ振りなら全事象は、{1,2,3,4,5,6} となります。一般の事象は、

全事象の部分集合になります。たとえば、偶数が出る事象は、{2,4,6} となります。このよ

うな事象に対して確率を与えるわけです。このように定式化することで、理論がすっきりし

て大きな発展につながったのです。

(Q) 分散は、なぜ

1

𝑛∑ |𝑥𝑘 − �̅�|𝑛

𝑘=1 ではなく、1

𝑛∑ (𝑥𝑘 − �̅�)2𝑛

𝑘=1 を用いたのですか?平均値か

らのばらつきの大きさならば絶対値でもよい気がします。

(A) はい、平均値からのばらつきを比較するためだけならば、どちらでもよいですね。しか

しながら、標本平均の分布に関する基本定理 �̅� ~ 𝑁 (𝑚,𝜎2

𝑛) のためには、二乗平均で定義さ

れる分散を使わなくてはなりません。このほかにも、二乗平均で定義された分散を用いた重

要な定理や公式があります。絶対値で定義されたばらつきでは、このような理論がうまく組

み立てられないのです。

(Q) ケトレーの考えた「平均人」についてもう少し知りたい。

(A) 後日。

(Q) モードは物理の振動に出てくるモードと何か関連はあるのでしょうか?

(A) 英語綴りは mode で同じです。mode は本来、様式、形態という意味ですね。なので、

振動のモードは意味が取れますが、統計のモード(最頻値)はちょっと違う気がする。フラ

ンス語起源で à la mode(流行の)からきているのではないかと思う。

雑談

(Q) 救ってください。

(A) 重量制限があります。

(Q) まず、謝らなくてはいけないことがあります。前回まで続けていたラーメンパンチのレ

ビューですが、今週は行くことができず、お休みになってしまいます。

(A) 無理しないでください。

(Q) ラーメンパンチに行ってきました。ごはんというより、スナックを食べているような感

じがしました(おいしかったです)。

(Q) 先週の木曜日にラーメンパンチに行ってきました。前回注文した「台湾混ぜそば」でし

たが、今回は普通の「混ぜそば」をいただきました。台湾混ぜそばはメニューと一緒に辛さ

控えめも有るという旨の注意書きがあり、実際、翌日、自分のケツの痛みに苦しみました。

ただ、普通の混ぜそばには何も書かれていなかったため、完全になめきっていました。その

ままだとたいして辛くないだろうと高を括って、パンチ玉をダブルで注文しました。今思う

と、あの時の自分は浅はかでした。それは、まるで前夜の夜にならないとテスト勉強をしな

い学生のように。自分は見落としていました。運ばれてきた麺の上には、粉状の黒コショウ

がたっぷりとかけられていたのです。完食するまでに一体何杯の水を飲んだことでしょう

か。ほかのお客さんと 2 人で使っていたのですが、ピッチャーの水を店員さんに 2 回も継

ぎ足してもらいました。翌日、ケツの痛みに襲われたことは言うまでもありません。そこま

で激しい痛みではなかったのが、不幸中の幸いでした。混ぜそば、そして台湾混ぜそば。2

つともまさに「パンチ」の効いている一品でした。ぜひとも食べてみてください。ただし、

ケツには十分注意して。

(A) 再び「ラーメンパンチ」ネタ。興味津々。混ぜそばと台湾混ぜそばの本質的な違いは如

何に?

(Q) 天気は 1 週間周期と聞きましたが、本当なのですね。水曜日は雨が多いような気がしま

す。

(A) そういえば、三寒四温というのもありますね。

(Q) 先週の木曜日、バイトの終わりにラーメンパンチへ行ってきました。今回はパンチでバ

イトをしている友人から勧められた「台湾混ぜそば」を注文しました。通常のラーメンを注

文すると、トッピングはヤサイ、ニンニク、アブラ、パンチ玉ですが、今回はヤサイはあり

ません。その代り「追い飯」として小さな茶碗でご飯をもらうことが可能です。ほかのお客

さんを見ていると、その制度に気が付いていない方が多そうなので注意してください。また、

店内にも書いてありますが、想像以上に味が辛かったです。辛さ控えめで頼むこともできる

そうなので、初めて食べるときはそちらで注文してはどうでしょうか?

(A) 詳細なレポートをありがとう。なんだか、おなかがすいてきました。広瀬通ですね、ぜ

ひ試します。

(Q) 確率は何割以上から考慮に入れたらいいですか?僕は 3 割を超えると不安になります。

(A) 野球のピッチャーですか?3 割バッターはやはり怖いのか。どのくらいの降水確率で傘

を持ってゆくかというアンケートを目にしたことがある。1 位は 50%だったように思う。

この基準では、頻繁に「雨だ、傘がない」という状況かと思われる。コンビニで傘がよく売

れるのもうなずける。ちなみに、私は天気予報をあまり見ないので、出がけに降っていなけ

れば、傘を持ち歩かないことが多い。東京出張で何度も悲しい思いをした。仙台で降ってい

なくても、東京は大雨ということがある。

(Q) おとといは 24 日なので、節つけめんの「おんのじ」に行きました。ぶし=24にちな

んで、24 日はぶしつけめんが 500 円になります。久々でしたが、チャーシューが変わった

のか、とてもおいしかったです。ただ、つけ汁がめちゃくちゃ濃いので、並でも飽きる。

(A) 美味しく頂けたようでよかったです。最後は褒めてるのかどうなのか微妙。

(Q) 3 限の授業ということでとても眠かった。寝ている人もいましたね。ところで、眠気を

さますためにコーヒーを飲んだりしますが、クモに飲ませてみるとデタラメな巣を作るそ

うですね。様々な薬物に反応して、そうなってしまうようですが、その中でもカフェインが

最も顕著に効果が出るみたいです。

(A) 昼下がりは確かに眠いでしょう。私もしゃべり続けなければ寝てしまいそうです。コー

ヒーは好きでかなり飲みますが、眠気さましにはならないですね。それよりも、脳が錯乱し

て、新奇なアイデアが生まれるらしいことを知ってうれしいです。

(Q) 八幡にある玄武は何を食べてもおいしいです(中華)。

(A) 病院のほうですね。方角的にテリトリではないのですが、機会をみつけてぜひ。

(Q) 初めまして。野球はよく「究極の確率スポーツ」であると言われます。相手ピッチャー

が次に変化球を投げる確率、相手監督がバントのサインを出す確率、、、すべてのプレーが確

率の下で成り立っていると思います。(以下略)

(A) 私は野球観戦に興味を失って久しいですが、最近のプロ野球ではまさにそうらしいです

ね。情報科学研究科では、楽天球団でデータ解析をしている専門家をお招きして、大学院講

義をしています。野球の作戦から、選手の年俸まで、すべてデータに基づいているようで興

味深いです。

(Q) 長町にある「田中そば」の山形辛みそがうまいです。

(Q) 長町にある「角屋」というラーメン屋がおいしいです。

(A) 長町は地元ですが不知。

(Q) コスパが良いラーメンは「二郎」です。なにかガツンと食べたいときに有効です。

(Q) 美味しいラーメン屋は上杉の農学部の道路をはさんだ向かいにある「純連」という店で

す。味噌ラーメンが非常においしいです。

(Q) 六丁の目にある「山神山人」というラーメン屋がおすすめです。

(Q) 鶴ケ谷にある「くまがい」というラーメン屋は本当においしいです。つけ麺が特によい

です。

(Q) 僕のおすすめのラーメン屋は荒町の「こいけ屋」です。

(A) なんやらたくさんの情報をありがとうございました。機会をとらえて試しますね。

(Q) ラーメン「火山」が私は好きです。石焼ラーメンがおいしいお店です。ドロドロのラー

メンがお好きならおすすめです。

(A) 知ってますよ。適度に辛いのが好きです。286 沿いにある店は、私の圏内です。

(Q) 「社会物理学」「経済物理学」の言葉には驚いた。文系+理系を表すような分野だ。

(A) 昨今、文系・理系をもっと融合して学際的な研究を推し進めるべきという流れがありま

す。その中では、よく聞くし、さもありなんと思っていましたが、実は最近の言葉ではなく、

ずっと昔からあったんですね。私も驚きました。

(Q) 今日はお弁当を作りました。妻がほしいです。

(A) 妻はお弁当を作ってくれますかね? 君が 2 人分作る羽目になるかも。