37
目次 1. はじめに・・・・・・・・・・・・・・・・・・・・・・・・・・・1 2. データマイニング・・・・・・・・・・・・・・・・・・・・・・・2 3. データマイニングの手法・・・・・・・・・・・・・・・・・・・・ 7 3.1 クラスタリング・・・・・・・・・・・・・・・・・・・・・・・・ 7 3.2 K-means 法・・・・・・・・・・・・・・・・・・・・・・・・・ 9 3.3 最適解の決定・・・・・・・・・・・・・・・・・・・・・・・・・ 9 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス タリング~・・・・・・・・・・・・・・・・・・・・・・・・・・・・11 4.1 野球データの現状・・・・・・・・・・・・・・・・・・・・・・11 4.2 使用したデータ・・・・・・・・・・・・・・・・・・・・・・・ 11 4.3 予備実験・・・・・・・・・・・・・・・・・・・・・・・・・・15 4.4 実験条件・・・・・・・・・・・・・・・・・・・・・・・・・・ 18 4.5 実験・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 20 4.5.1 全選手を全属性によるクラスタリング・・・・・・・・・・・ 20 4.5.2 データの洗浄後での全属性によるクラスタリング・・・・・・ 21 4.5.3 配属クラスタと所属チームの構成・・・・・・・・・・・・・ 25 4.5.4 個人能力に関する属性のクラスタリング・・・・・・・・・・ 27 4.5.5 相関性の発見・・・・・・・・・・・・・・・・・・・・・・ 29 4.6 考察・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 32 5. まとめ・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 33 謝辞 参考資料 付録 1

1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

目次

1. はじめに・・・・・・・・・・・・・・・・・・・・・・・・・・・1 2. データマイニング・・・・・・・・・・・・・・・・・・・・・・・2 3. データマイニングの手法・・・・・・・・・・・・・・・・・・・・

7 3.1 クラスタリング・・・・・・・・・・・・・・・・・・・・・・・・ 7 3.2 K-means 法・・・・・・・・・・・・・・・・・・・・・・・・・ 9 3.3 適解の決定・・・・・・・・・・・・・・・・・・・・・・・・・ 9

4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス

タリング~・・・・・・・・・・・・・・・・・・・・・・・・・・・・11 4.1 野球データの現状・・・・・・・・・・・・・・・・・・・・・・11 4.2 使用したデータ・・・・・・・・・・・・・・・・・・・・・・・ 11 4.3 予備実験・・・・・・・・・・・・・・・・・・・・・・・・・・15 4.4 実験条件・・・・・・・・・・・・・・・・・・・・・・・・・・ 18 4.5 実験・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 20 4.5.1 全選手を全属性によるクラスタリング・・・・・・・・・・・ 20

4.5.2 データの洗浄後での全属性によるクラスタリング・・・・・・ 21 4.5.3 配属クラスタと所属チームの構成・・・・・・・・・・・・・ 25 4.5.4 個人能力に関する属性のクラスタリング・・・・・・・・・・

27 4.5.5 相関性の発見・・・・・・・・・・・・・・・・・・・・・・ 29 4.6 考察・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 32 5. まとめ・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 33 謝辞 参考資料 付録

1

Page 2: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

1.はじめに 情報化社会が進み,データの蓄積と運用というものが非常に重要視されるよ

うになった。貴重なデータを「宝の持ち腐れ」になり,膨大なデータに振り回

されて「船頭多くして船山に登る」状態になってしまうことが少なくないだろ

う。いわばデータは宝の山なのだが,巨大なデータをうまく使って「宝」を掘

り出すためには数々の技術が必要になってくる。このためにデータマイニング

というものが発達してきた。 本研究では,この「宝」の対象として,プロ野球選手の年間成績に目をつけ

た。現在のプロ野球界においては,スコアラーや記録員といったデータ収集の

スペシャリスト達がいる。彼らが集めたデータを監督やコーチがこれまでの経

験をもとに選手起用法の参考にしている。本研究では,この収集されたデータ

を K-means 法によるクラスタリングを行うことにした。そこからパターンを発

見し,新たな選手起用法への応用,そして,意思決定の 終支援につなげられ

ないかと考えた。 第 2 章でまず,データマイニングの基本を紹介する。第 3 章では,クラスタ

リングを紹介した後,その代表的手法である K-means 法の説明をして,その問

題と対策について述べる。第 4 章では,実際使用したデータを,クラスタリン

グを行うための下準備を行い,実験に入る。3 つのケースでクラスタリングを行

い,その結果から,あるパターンに分けられた選手を,どの場面で起用してい

くのかを考えた。第 5 章では,論文の全体についてまとめる。

2

Page 3: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

2.データマイニングとは データマイニングとは,データの中に潜んである価値ある情報を掘り出す

(MINE:掘る)ことを目的としたデータ解析手法の 1 つである。何も定義され

ていない生のデータを様々な手法でマイニング(今回の研究ではクラスタリン

グということになる)することによって,新たな情報を導き出そうというのだ。

データマイニングが用いられるようになったのは,昨今のビジネス環境の変化

にあるといえる。 大の要素は「市場の飽和」である。モノを作れば売れる,

というわけではない。商品の類似化,ライフサイクルの短縮,ユーザーニーズ

の多様化に代表されるように飽和したビジネス環境では従来までのノウハウは

通用しなくなったのだ。そこで必要になったのが,顧客の行動データを分析し

たり,お得意様に対するサービス,新規顧客の開拓すること,他社との差別化

をはかるためのマーケット戦略やニーズの分析,新製品の予測,競合会社との

客層把握,自社の在庫管理や危険要素を把握,社内蓄積データから法則を見つ

けていくなど,あらゆる場面でデータを有効に活用することが求められる様に

なった。 例えば,データマイニングの手法の 1 つとして,「バスケット解析」というも

のがある。 ある 2 つの商品の関連性を見つけることによって,より売り上げを出せるよ

うにする。また割引などによってどれくらいの販売の促進が期待できるかなど

を調べる。この有名な話として,「ビールとおむつ」という逸話がある。つまり,

スーパーマーケットで買い物をする人の行動を調査することによって,おむつ

を買うお客さんはビールも一緒に買うという傾向にあるということが確認され

た。それならば,ビール売り場の近くにおむつコーナーを設ければ,さらに販

売促進が期待出来る,という話である。 他にも,データマイニングで応用できる分野の例としては以下の 3 つが挙げ

られる。

●製造業:コストや品質管理にかかわる原因を分析 ○品質管理:製造工程の不良原因を分析し,不良多発原因を排除 ●金融・保険業:リスクや顧客特性の情報を採取 ○リスク分析:過去の実績や契約者の属性データから,契約のリスク

を分析し,上限値等を決定 ○特性分析:顧客属性と契約商品の関係を分析し,顧客ごとに効果の

ある商品を紹介 ●医療・バイオ産業:要因や効果に関する情報を採取 ○要因分析:病気の原因を分析,また薬の改善効果を調査

3

Page 4: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

また,変化したのはビジネス環境だけでなく,情報技術も急成長した。 データマイニングに必要な 4 つの環境が整ったからである。それは以下の 4 つ

である。 ● データ収集力←ネットワークの整備 ● データ蓄積力←データベースの大規模化 ● データ処理力←計算機の高性能化 ● データ発掘力←解析技術の向上 ようやく膨大なデータを解析することが可能になったのだ。 「テキストマイニング」「Web マイニング」という言葉もある。「データ」と

いっても,色々種類がある。これらは「マイニング」という言葉がついている

だけであって,「知識の発掘」を意味することに変わりは無い。 「テキストマイニング」はテキストデータからのマイニング,「Web マイニング」

は Web データからマイニングといったように,データ元の分野を特定してデー

タマイニングすることを指す。 データマイニングに用いられるデータタイプをまとめてみると,以下の 4 つ

がある。

● 多変量データ ○一般的な複数個の計測変換を持つデータ

● 時系列データ ○連続観測による時系列データ

● テキストデータ ○文章などのテキストデータ

● 画像データ ○地図や写真といった画像データ

本研究においては,あるサンプルと各個別のサンプルが持つ属性によって定

められる「多変量データ」を用いている。

4

Page 5: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

表 2-1 多変量データの例

選手名 勝ち 負け ・・・ 奪三振 井川慶 13 9 ・・・ 145 下柳剛 15 3 ・・・ 90 福原忍 8 14 ・・・ 124 藤川球児 7 1 ・・・ 139

表 2-1 のようにサンプルを“行”,属性を“列”として表現することから,多

変量データは「テーブルデータ」とも呼ばれる。 特に断りが無ければ「データマイニング」は,この多変量データを対象とし

た解析を示す。 この解析手法として,「多変量解析」「統計解析」「ニューラルネットワーク」

「決定木」と数多くの解析手法が適用でき,このうちの 1 つが「クラスタリン

グ」である。 データマイニングをするにあたって,まず大事なのが「データ」を揃えるこ

とである。例えば,「地球」の例で挙げると, 「青い」 「球体」 「1周 4 万 km」 「表面の 70%は水で覆われている」 「5 つの大陸がある」 といった性質が地球を表す「データ」とする。しかし,逆はどうだろうか。

この性質だけを見て,これが地球であると判断できるのは,私たちが「地球」

というものを知っているからこそできる「先入観」のせいである。実は,この

「先入観」がデータマイニングの曲者であり,解析を偏った方向に導いてしま

うのだ。例えば,今回はプロ野球選手の年間成績をマイニングする。 その時,ある投手の年間成績が

「10 勝 5 敗」 であったとすると,野球を知っているものならば,ふと頭にこの投手は先発投

手なのだなと考えてしまう。しかし,実際この投手は中日ドラゴンズの岡本投

手で,チームでの起用のされ方は中継投手のものであったのだ。 データマイニングと言えば「データ」があり,そこからデータ加工(クレン

ジング)して知識を発見するものと思われている。だが実際は, 初に考える

ことは「データ自体」であり,「データ」を公平に見えるようにしなければいけ

5

Page 6: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

ない。そのためには,「データ」の品揃えを十分に行う必要があるのだ。もちろ

ん,ただ闇雲にデータを集めればいいというわけではない。データマイニング

の良し悪しは,良質なデータによって決まるといわれ,実は大半の作業が,こ

のデータの良し悪しの選別に割けられるのだ。ちなみに良質なデータとはどう

いうものか考えたとき,以下の 4 つが挙げられる。

● 大事なデータが抜けていないか ○ポイントとなるデータが抜けてしまっていないかの確認。

● データが大まかすぎないか ○分類が大雑把ではないか。例えば一言「青」といっても信号の「青」,海

の「青」,空の「青」などを同じに扱っていいものかどうか。 ● データが偏っていないか

○データにどれだけの重みがあってどんな価値があるのか,データの発生条

件を考慮することが重要 ● 手元にあるデータについて

○このデータを集めて先入観なしに復元させようとすると何が見えてくる

だろうか,ということを考えてみることの大切さ こうして集められたデータをもとにして,マイニングを行う。

しかし,ただデータを集めるだけでは逆効果な面もある。品揃えが出来たら絞

る作業をしてこそ意味があるのだ。 闇雲に集められたデータは,厳選して集めたデータというより,「集まってき

てしまった」データなのである。これでは解析に不向きであると言えよう。 悪いデータの例は以下の 3 つである。 ●大規模

○コンピュータにだって限界はあるから,大規模データ対策を考えなけ

ればいけない ●質が悪い

○データ採取不足で抜け項目があったり,不正データ,特異的なデータ

が存在すると,正しいマイニングが行えない。そこで悪質データを処

理する除去(クレンジング)する作業が必要となる。 ●バラバラ ○集められたデータは実に様々な顔を持ち,データ毎に単位が異なっ

ていたりする。マイニングをするためには統一したデータ形式が必要 だからこそ,生データを解析に耐えうるようにするために除去する作業が必

6

Page 7: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

要なのだ。実際,この作業をすることによって良質のデータを作ることこそが, マイニング成功の鍵になる。 こうして厳選されたデータによってマイニングを行うわけだが,ここでコン

ピュータが登場する。なんといっても,コンピュータの良さは「疲れが無く,

処理速度が速く,かつ計算ミスがない」ことだ。本研究においても,ある実験

を 5000 回もしくは 20000 回繰り返して行ったのだが,これを手動でやるとな

ると,かなりの労力と時間が費やされていたであろう。しかし,コンピュータ

に任せておけば,こちらが寝ている間にもその実験が終了しているのだ。こち

らが,ちゃんとしたプログラムさえ与えてあげれば,それ通り実行してくれる

優秀なサポーターだといえよう。こうしたコンピュータの発達によって,デー

タマイニングが使用されるようになってきたことに納得した。 だが,コンピュータにも欠点はあり,「自発性がなく,経験から学ばず,新し

いことはしない」のだ。結局,その結果の検証を行うのは人間である。そのと

き,ちゃんとした検証能力がないと,せっかくの解析結果は水の泡となってし

まうのだ。人間とコンピュータ,どちらが欠けてもデータマイニングは成立し

ないのだ。 今までの流れからデータマイニングとは, ① マイニング方針決め ⇒ 人間 ② データ前処理 ⇒ 人間が前処理の方針を決め,コンピュータが実行 ③ マイニング処理 ⇒ コンピュータ ④ 結果の検証 ⇒ 人間 グラフに表示する等の作業はコンピュータ となり,コンピュータはもちろん用いるのだが,データマイニングにおける

初と 後にでてくるのは人間であり,大切なのはこれを扱う人間なのだという

ことがわかるだろう。 とくに,今回の実験は,「データマイニング」をすることによって,判明した

過去のデータを分類する。こうして分かったパターンから,もしアクシデント

などが発生した場合,その状況を打開する策を発見することを目的としている。 そのとき,自分の持つ野球知識に捉われず,(多少は捉われてもいいのだが),

データをそのまま見ることによって,公平な判断をすることに注意を払った。

7

Page 8: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

3. データマイニングの手法

3.1 クラスタリング

クラスタリングとは多次元データの集合をある尺度(類似度や相違度)に基づ

いて類似度の高い部分集合にわける作業のことである。この部分集合のことを

「クラスタ」と呼ぶ。 クラスタリングを行うのにはデータレコードの相違度(dissimilarity)が何ら

かの数値として計算できている必要がある。ここでは,たとえばデータレコー

ド AとデータレコードB がどのくらい異なっているのかを非負の数値(相違度)

で表すテーブルがあるとしよう。 )Bf ,(A自分自身との相違度は 0 であるように設定する。さらに,相違度 たちが

三角不等式(triangular inequality)とよばれる次の式が成り立つとき,相違度

はデータレコード間の距離(metric)になるという。

),( BAf

),(),(),( cAfcBfBAf ≥+ (3.1)

また、であるとき対称,そうでないとき非対称な相違度,あるいは距離とい

う。 距離の中で一番親しみやすいのはユークリッド距離(Euclidean distance)であ

るが,これは数値データに対してのみ定義でき,また,与えられたデータレコ

ードの集合を記述するのにもっとも良い相違度であるとは限らない。相違度を

測る代表的な距離には,「編集距離」,「キーワード距離」などがある。さらに属

性間のクラスタリングではく確信度的距離などが用いられる。編集距離(editing distance)はたとえば遺伝子データベースなど,記号列のデータの相違度を計算

するためによく使われ,記号列 Aを記号の置き換え,削除,追加などで記号列 Bに変更する手順の操作数を とする。キーワード距離(keyword distance)は文書データベースなどに使われ,あらかじめ定められたキーワード集合から

文書

)(f , BA

Aと文書 B に入っているキーワードの集合の相違度を用いて距離を計算す

るものである。また,属性のクラスタリングを行うことも実用上多いが,この

ときは「 Aならば B 」の相関ルールの確信度を用いて属性 Aと属性 B の距離を

定義する(たとえば確信度の逆数の対数をとる)ことが一般的である。これは

非対称的な距離になる。相違度一般には距離の性質をもたず,あるいは相違度

のテーブルに欠落(相違度を測れない)場合も実用上多い。 日常的には,相違度よりも,その反対的概念である「類似度(similarity)」

のほうが耳慣れた言葉かもしれない。類似度として,似ているデータに大きな

8

Page 9: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

数値が与えられる関数で相関が与えられている場合は,それに見合ったクラス

タリングアルゴリズムを設計することもできる。しかしながら,本研究での距

離を用いた議論を適用するためには,逆数の対数をとり正規化するなどの変換

をして相違度に変換しておく必要がある。 クラスタリング手法は大きく, 短距離法などの階層的手法(hierarchical)と,

K-means 法などの分割 適化手法(partitioning-optimization)に分けられる。 ① 階層的クラスタリング この手法は,N 個の対象からなるデータが与えられたとき,1 個の対象だけを含

む N 個のクラスタがある初期状態を作る。この状態から始めて,対象 と の

間の距離 からクラスタ間の距離 を計算し, もこの距離の近

い二つのクラスタを逐次的に併合する。そして,この併合を,全ての対象が一

つのクラスタに併合されるまで繰り返すことで階層構造を獲得する。クラスタ

と の距離関数 の違いにより,以下のような手法がある。

1x 2x),( 21 xxD ),( 21 CCD

1C 2C ), 21 CDC 短距離法

),(min),( 21,21 xxDCCDCxCx ∈∈ 2211

= (3.2)

長距離法:

),(max),( 21,21 xxDCCDCxCx ∈∈ 2211

= (3.3)

群平均法:

),(max),( 21,212211

xxDCCDCxCx ∈∈

= (3.4)

ウォード法:

)()()(),( CECECCECCD 212121 −−∪= (3.5)

ただし、

∑ ∈= 21 )),(()( cxDCE Cxi i

(3.6)

ウォード法は,各対象からその対象を含むクラスタの重心までの距離の二乗

の総和を 小化する。 短距離法・ 長距離法・群平均法は任意の対象間の距

離が与えられえている場合に適用できる。もし,対象が数値ベクトルで記述さ

れている場合は,ベクトル間のユークリッド距離などで求めて適用する。ウォ

ード法は対象が数値ベクトルで与えられている場合にのみ適用できる。

② 分割 適化クラスタリング

分割 適化手法は,非階層的手法とも呼ばれる。この手法は,分割の良さの評

9

Page 10: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

価関数を定め,その評価関数を 適にする分割を探索する。可能な分割の総数

は N に対して指数的なので,実際は準 適解を求めることになる。代表的な手

法として,K-means法があり,本研究ではこれを用いている。

3.2 K-means 法

非階層的な手法の代表例である K-means 法は,あらかじめ固定された数(こ

こでは K 個)のクラスタを反復的な重心計算と、データの分割から求める方法

で得ある。以下がそのアルゴリズムである。 1. 適当なクラスタを初期状態としてつくる。 2. 各クラスタの重心を計算し,クラスタのコア点とする。 3. 各点に対し も近いコア点を計算し,その点のクラスタに配属する。 4. クラスタリングを更新し,2 に戻る。 もしも 4 で計算したクラスタリングが直前のクラスタと一致すれば, 適な

クラスタリングとなっている。ループを1回まわすごとに分散和は必ず減って

いくので,有限回のループで 適解に落ち着く。 ● 問題と対策

K-means 法には 2 つの問題がある。1 つは,解が初期値に影響されるため, 適解が保証されないことである。もう 1 つは K が未知の場合, 適な K の判

断が難しいということである。 前者の解決策の 1 つとして誤差関数の導入という手段がある。それは次で詳

しく説明をすることにする。簡単に言うと,ある1回のクラスタリングが終了

した時,各クラスタのバラツキ具合を求め,それを全て足し合わせた数値を求

める。それを多数回の繰り返しの中で, もこの誤差関数が低かった時のクラ

スタリングを 適な解として採用するというものである。 後者の解決策としては,広い範囲の K で試行を行い,クラスタ内標準偏を求

めて,意味の無い分割を発見したり,もしくは要素数 1 のクラスタの出現など

をチェックすることで 適値を求めることが出来る。

3.3 適解の決定

K-means 法では,クラスタリングをするに当たって,初期値(クラスタの重

心)をランダムに決めるという問題がある。この初期値次第では,雑なクラス

タが出来てしまうことは,よくある。

10

Page 11: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

出来上がったクラスタ結果が 適であるかどうかの判断基準の1つに誤差関

数というものがある。その定義は以下の通りである。

2

})({ ∑∑∈

−=k

i Xxii

i

xxXErr (3.7)

X はデータポイント x の集合である。 ix は の重心を示す。式 3.7 は,各ク

ラスタでの広がり具合を求めて,それを全て足し合わせるというものである。

こうして得られた数値が低ければ低いほど,良いクラスタであるといえる。

iX

K のそれぞれのクラスタ結果に対して,この誤差関数の値を求める。そして

何度も繰り返し実験を行い,この値が収束を迎えるようになった時, も低か

った回の結果を, 適なクラスタリングとすればよい。

11

Page 12: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

4. プロ野球投手年間成績のデータマイニング~K-means

法によるクラスタリング~

4.1 野球データの現状

スポーツの分野でも選手の実績や,特徴のデータが収集・利用されるように

なっている。プロ野球界においては,現・東北楽天監督である野村克也氏の「ID野球」が特に知られている。 近では 2005 年,アジアチャンピオンに輝いた千

葉ロッテマリーンズのバレンタイン監督もデータを駆使していた。猫の目打線

といって,対戦相手との相性や,自チームの選手の状態をきめ細やかに分析し,

日替わりの打線を組んでいた。これもデータから,あるパターンを編み出して

選手起用の参考にしている例である。しかし,このパターンの編み出しは,監

督やコーチなどの経験にもとづいたものである。そこにコンピュータでの分析

を加えることによって,意思決定の支援に,今回のクラスタリングが役に立た

ないかと考えた。

4.2 使用したデータ

今回使用したデータは,ベースボール•レコードブック[3]より,2005 年度のセ

•リーグ投手 144 人が持つ 28 の属性と,そして本研究のために新たに追加した

2つの属性を合わせた 30 の属性で実験を行った。他にも各球団に所属している

選手はいるのだが,この投手 144 人というのは,少なくとも1試合以上,1軍

の試合に出場(登板)した選手に限られる。 この属性を大きく2つに分けると,登板試合数や対戦打者数など,チーム内

での起用のされ方を示す 17 の属性と,奪三振数や被打率など,その選手個人が

持つ能力に関する 13 の属性に分けられる。 このデータでクラスタリングを行うわけだが,前述したように,まずデータ

の単位を揃えなければならない。例えば,ある選手 A とある選手 B の与四球が

ともに「5」であったとしよう。この数字だけを見れば,同じ与四球の数なので

能力は等しいということになってしまう。しかし,選手 A の対戦打者数は「50」人,選手 B の対戦打者数は「500」人であったとしよう。すると,選手 A は打

者「10」人当たり与四球「1」に対して,選手 B は打者「100」人当たり与四球

「1」ということがわかる。こうすると,どちらの選手の方の能力が上かは一

12

Page 13: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

目瞭然だろう。

表 4-1 各属性の意味と正規化のための母数 *は実験のため新たに追加した属性

属性 意味 正規化のための母数

登板 試合に出場した数 総試合数(146 試合)

完投 先発して,1 人で 後まで投げた試合数 登板 完了 先発でなく,試合の 後に投げた試合数 登板 当初 試合の 1 番 初に投げた試合数 登板 補回 1 試合で9イニング以上投げた試合数 登板 完封 完投かつ失点しなかった試合数 登板 無四球 完投かつ四死球を出さなかった試合数 登板 勝利 勝ち投手となった試合数 登板 敗戦 負け投手となった試合数 登板 引分 引き分けになった試合で 後に投げた

試合数 登板

セーブ セーブをあげた試合数 登板 HP HP をあげた試合数 登板 勝率1 勝利数÷(勝利数+敗北数) 必要なし *勝率2 (勝利+HP+セーブ)÷登板数 必要なし 打者 対戦した打者の打席数 投球回×3 打数 打者数から四死球・犠打・犠飛を除く 投球回×3 投球回 投球したイニング数 登板数×9 被安打 安打を打たれた人数 打者 被本塁打 本塁打を打たれた人数 打者 犠打 犠打を打たれた人数 打者 犠飛 犠飛を打たれた人数 打者 四球 四球を与えた人数 打者 死球 死球を与えた人数 打者 奪三振 三振を取った人数 打者 *打ち取り 奪三振以外でアウトをとった人数 打者 暴投 暴投した回数 打者 ボーク ボークをした回数 打者 失点 失点した点数 打者

13

Page 14: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

自責点 失点から,自分に責任のなかったもの

(エラーなどで)を引いた失点数 打者

防御率 9イニング中に失点する割合 必要なし 各属性の表す意味と,その正規化のための母数を表 4-1 にまとめてみた。「勝

率 2」と「打ち取り」の 2 つが,今回新たに追加した属性である。表 4-1 で示し

た正規化のための母数によって,各属性の単位を揃えることができた。そして,

この正規化されたデータを,さらに各属性について平均値と標準偏差を調べる。

これをもとに,もう1度正規化をし直すことによって,属性間のバラつきを極

力抑えることが出来た。

属性 の正規化の式は以下の通りである。 ix

ix

iii

xxx

σ−

=' (4.1)

ここで、 ix はデータの平均値を,ixσ はデータの標準偏差を示す。

図 4.1 に,黒田投手の例を用いて,グラフの見方を説明する。 ちなみに,チームの起用に関する上位 17 の属性(右回りで登板〜投球回)に

関しては,値が高ければ高いほど良い。(敗戦の項目は逆) そして個人の能力

に関する下位 13 の属性(被安打〜防御率)に関しては低ければ低いほど良い。

(奪三振,打ち取りは逆)

失点 自責点

ボーク 暴投

打ち取り

奪三振

死球

四球

犠飛

投球回被安打

被本塁打 犠打

打数打者

勝率2

勝率1

HP

セーブ

引き分け

敗戦

完投登板

-1

0

1

2

3

4

5完了

当初

補回

完封

無四球

勝利

防御率

黒田投手

14

Page 15: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

図 4.1 黒田投手(広島)のデータ 属性が放射線状に並んでいる。下線付き

の属性は低いほど良い。下線無しは高いほど良い。 これは既に正規化が行われた後のデータで,平均を示すのは「0」である。 「-1~1」は標準偏差の範囲内である。チームの起用法に関すると,完投•無

四球は平均の 4 倍,補回•完封•勝利•敗戦•投球回などは平均の 2~3 倍もある。

個人の能力では,打ち取りが多く,与四球が少ないということが分かる。つま

り黒田選手の特徴は,「試合の 1 番 初に投げる投手で,かつ 後まで投げきる

ことが多く, も勝敗に関わっている投手」ということが分かる。こういった

投手は通称「エース」と呼ばれ,チームの大黒柱である。 一昔前のプロ野球界では,黒田選手のようなタイプがほとんどで,むしろそ

れが投手の証といえる時代であった。しかし,今日のプロ野球においては「分

業制」というものが確立され,必ずしも 1 人でその試合を投げきる必要はなく

なっている。先発投手も1人で投げきろうとするタイプも入れば,勝利投手の

権利が得られるまで投げ,後は次の投手に任せるというタイプもいる。

そこで生まれたのが「中継投手」という役割である。その中継投手にも「抑え

の切り札」「中継エース」「敗戦処理」など様々な役割がある。図 4.2 に役割と登

板イニングの関係をまとめる。これからのクラスタ結果でのラベル付けの際,

このような呼び方をすることにする。では実際にこのデータをもとにクラスタ

を行った結果がどうなるか見ていこう。

回 役目

1 2 3 4 5 6 7 8 9

先発 (普通)

先発 (エース)

先発& 中継

中継 (普通)

中継 (HP)

中継 (抑え)

15

Page 16: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

図 4.2 役割と登板イニングの関係 「オレンジ」がその投手が主に任される回

で,「黄」は状況に応じて,登板する可能性がある回を示している。

4.3 予備実験

K-means 法のアルゴリズムは,3 章で述べたが,有限回のループで 適解に

落ち着く。今回の実験では,どの試行実験の場合でも 20 回もすれば,十分 適

解に落ち着くことが確認されている。 また、初期値によって 適解が保障されないという問題は次の方法で解決す

る。 例えば、全選手を全属性でクラスタリングした時,各 K について何度実験を

行えば十分信頼できるものが得られるか,検証してみよう。K の数は 3〜9 まで

としている。

誤差関数の収束を調べる

1800

2300

2800

3300

3800

4300

4800

1 501 1001 1501 2001 2501 3001 3501 4001 4501 5001

値の低い順

K=3

K=4

K=5

K=6

K=7

K=8

K=9

図 3.1 5000 回試行した時の評価関数の推移(K=3~9) 横軸が繰り返し回数

で誤差関数が低かった順。縦軸はそのときの誤差関数値を示す。

16

Page 17: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

上位50ケース

1500

1700

1900

2100

2300

2500

2700

2900

3100

3300

1 11 21 31 41

順位

K=3

K=4

K=5

K=6

K=7

K=8

K=9

図 3.2 図 3.1 のときの上位 50 ケース 横軸が繰り返し回数で誤差関数が低か

図 3.1 ではまだ収束の可能性があるが,図 3.2 を見ると,K=3~6 に関しては

った順。縦軸はそのときの誤差関数値を示す。

収束しているように見える。しかし,K=7~9 に関してはまだ収束の可能性があ

るかもしれない。(とは言っても変動の割合は,1%にも満たないのだが) そこで,念のために K=7~9 に関して 2 万回繰り返し実験を行うことにした

17

Page 18: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

誤差関数の収束を調べる

1900

2100

2300

2500

2700

2900

3100

3300

3500

1 5001 10001 15001

値の低い順

K=7

K=8

K=9

図 3.3 20000 回試行した時の評価関数の推移(K=7~9) 横軸が繰り返し回数

で誤差関数が低かった順。縦軸はそのときの誤差関数値を示す。

上位50ケース

1500

1700

1900

2100

2300

2500

2700

2900

3100

3300

1 11 21 31 41

値の低い順

K=7

K=8

K=9

図 3.4 図 3.3 の時の上位 50 ケース 横軸が繰り返し回数で誤差関数が低かっ

た順。縦軸はそのときの誤差関数値を示す。 上のグラフだと,まだ下に落ちていきそうなグラフではあるが,上位 50 ケー

スの場合では収束しているように見える。

18

Page 19: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

表 3-2 に誤差関数 小のものから 5 番目までを示す。 表 3-2 語差関数 小値の比較(K=9 の時)

繰り返し回数 順位

5000 回 20000 回

1 1930.28 1930.66 2 1947.14 1930.68 3 1954.55 1931.24 4 1957.19 1931.55 5 1957.26 1932.31

K=9 の時,5000 回繰り返した時と 2 万回繰り返した時の誤差関数の低かった 上位 5 ケースだけを見比べてみると,驚いたことに,5000 回繰り返しようが,

2 万回繰り返しようが,その誤差関数の 小値だけに関しては 0.01%程度の誤差

しか無かった。K=7,8 の場合も同じ結果が出ている。つまり,繰り返し回数を

増やしても, 小値は変わらず,その次に出てくる値の間が縮まるだけだった

ということが言える。 どれだけ繰り返し回数を増やしても, 小値に関してはほぼ同じであること

が言えた。よって,今回のクラスタリングにおいては各 K とも 5000 回繰り返

して出て来た誤差関数の値が も低かったものが, 適なクラスタ結果である

とした。 この後,データの数や属性の数を変えたりしてクラスタリングを行う時も,

同様の確認作業をして繰り返し回数を決定している。結局,全ての実験パター

ンで 5000 回で十分であることが分かった。 ここで求まった各 K の 適なクラスタ結果を比較して, 適な K の判別をし

ていく。

4.4 実験条件

本研究では,全部で3パターンのクラスタリングを行った。それぞれの実験条

件は以下の表で示してある。またどの case においても,繰り返し回数は 5000回行い,その時の誤差関数が 小だったときの解を選択している。

19

Page 20: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

表 4-2 各ケースでの実験条件

case 属性(属性数) データ数(人) K(クラスタ数) 1 全属性(30) 144 3〜9 2 全属性(30) 137 3〜12

3 個人の能力に関する

属性(13) 137 2〜13

以下に各 case の説明を記す。 case1: セリーグ投手 144 人を全ての属性についてクラスタリングしたもの。 K を 3〜9 まで試行してみると,K=8 の時に要素数「1」のクラスタが発生した

ため,この case での 適な K は「8」と判断した。 case2: case1 の結果の中で,登板数が少なく(1~4 試合程度)データとして不十分

な選手が発見された。データマイニングでは,このようなデータは除いておく

必要があるので,これに該当した 7 人を除外してセリーグ投手 144 人中 137 人

を全ての属性についてクラスタリングしたものである。K を 3~12 まで試行して

みると,K=11 で要素数「1」のクラスタが発生したため,この case での 適

な K は「11」とした。 case3: case2 の時と同じデータ数で,個人の能力に関する属性でクラスタリング

したもの。K を 2~13 まで試行してみると,K=13 の時に要素数「1」のクラス

タが2つ発生したため,この case での 適な K は「13」とした。 表 4-3 各ケースでの 適な K の数

case 適な K 1 8 2 11 3 13

それでは次から,各 case での結果と考察に入る。

20

Page 21: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

4.5 実験

4.5.1 全選手を全属性でクラスタリング

表 4-3 より,今回の K の数は「8」である。K を「8」と定めた理由は,要素

数が1つしかないクラスタの発生による。

各属性の平均値(K=8)

-6

-4

-2

0

2

4

6

8

10登板

完投完了

当初

補回

完封

無四球

勝利

敗戦

引き分け

セーブ

HP

勝率1

勝率2打者

打数投球回

被安打

被本塁打

犠打

犠飛

四球

死球

奪三振

打ち取り

暴投

ボーク

失点

自責点防御率

クラスタ-0 1人

クラスタ-1 37人

クラスタ-2 38人

クラスタ-3 6人

クラスタ-4 6人

クラスタ-5 7人

クラスタ-6 32人

クラスタ-7 17人

図 4.3 ケース1でのクラスタリング結果 図 4.3 に各クラスタの重心の分布を示している。この特徴を見て,ラベル付け

を行ったのが表 4-4 である。 ほとんどのクラスタが個人の能力よりも,チームの起用のされ方に強く反映

した結果となっているのが分かる。 そこで注目したいのが,8 つのクラスタのうち,2 つのクラスタが,登板数が

少なく,また失点や防御率が悪いという特性を持つものであった。そのほかの

項目もほとんど性質を持っていなかった。各クラスタの要素数は「1 人」と「6人」であった。

21

Page 22: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

表 4-4 各クラスタのラベル付け

クラスタ ラベル 人数 0 登板数少なく,防御率悪い 1 1 先発投手(完投なし) 37 2 中継投手,登板数少ない 38 3 登板数少なく,防御率悪い 6 4 先発投手(エース) 6 5 中継投手(抑え) 7 6 中継投手(中継エース) 32 7 中継投手,登板数多い 17

各属性の平均値(K=8)

-6

-4

-2

0

2

4

6

8

10登板

完投完了

当初

補回

完封

無四球

勝利

敗戦

引き分け

セーブ

HP

勝率1

勝率2打者

打数投球回

被安打

被本塁打

犠打

犠飛

四球

死球

奪三振

打ち取り

暴投

ボーク

失点

自責点防御率

クラスタ-0 1人

クラスタ-3 6人

図 4.4 ケース 1 でのクラスタ 0 とクラスタ 3 の平均値 全選手でクラスタリングしたことによって,あまり意味の無いデータにクラ

スタリングが引っぱられることが問題である。ならば,ここは 初からこの選

手のデータは除いておくべきだったのだろう。より詳しいクラスタリングを行

うために,この7人を除いてもう1度クラスタリングをし直した。

4.5.2 データの洗浄後,全属性でクラスタリング

表 4-3 より,今回の K は「11」である。これも要素数「1」のクラスタが発生

22

Page 23: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

したからである。 図 4.2 よりも,各クラスタの広がり具合がおさえられているように見える。デ

ータの範囲が狭まったためであろう。K の数が前回よりも増えているせいもあ

ると思うが,各クラスタにおのおの特徴が見られる。 まずは,また各クラスタにラベル付けをすることから始める。

K=11

-4

-2

0

2

4

6

8

10登板

完投完了

当初

補回

完封

無四球

勝利

敗戦

引き分け

セーブ

HP

勝率1

勝率2打者

打数投球回

被安打

被本塁打

犠打

犠飛

四球

死球

奪三振

打ち取り

暴投

ボーク

失点

自責点防御率

クラスタ0 29人

クラスタ1 5人

クラスタ2 12人

クラスタ3 15人

クラスタ4 7人

クラスタ5 22人

クラスタ6 4人

クラスタ7 1人

クラスタ8 25人

クラスタ9 5人

クラスタ10 12人

図 4.5 ケース2でのクラスタリング結果(K=11)

23

Page 24: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

表 4-5 データの洗浄後のクラスタのラベル付け

クラスタ ラベル 人数 0 先発(完投能力なし) 29 1 先発(エース) 5 2 先発(準エース) 12 3 先発・中継投手 15 4 中継(抑え) 7 5 中継(エース) 22 6 中継(準エース) 4 7 中継(暴投多い) 1 8 中継(被打率高い) 25 9 中継(四球多い) 5 10 中継(犠飛多い) 12

先発タイプの投手が3つに分かれ,中継タイプも3つ,どちらにも起用され

る可能性がある1つ,そして起用のされ方よりも,個人の能力に特徴をもつク

ラスタが4つ出て来た。全てをまとめたグラフだと見にくいので,タイプに別

にグラフを載せる。 図 4.6 は他に比べて,「当初」(試合の1番 初に投げる投手)の項目が高い。

よってこの4つのクラスタは「先発タイプ」と呼ぶことができる。「クラスタ 0」はいわゆる平均的な先発投手と呼べる。この中で もスケールの大きい「クラ

スタ 1」は,完投•完封•無四球の数が高く,その結果 も勝敗に関わっている。

この投手の集まりを「エース」といえる。「クラスタ 2」はその「エース」より

若干スケールは落ちるが,似た特徴をもっているので「準エース」とした。「ク

ラスタ 3」は,主に中継ぎで使われるのだが,チームの事情によって,時々先発

をする可能性がある選手達の集まりだった。このレーダーグラフを見ると,右

側の,チームの起用のされ方に関する属性でクラスタリングが行われているよ

うに見える。個人能力では,紫が少し特徴を持ってはいるが,右側のスケール

に比べると,どのクラスタもあまり大きな差はなかった。

24

Page 25: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

各クラスタの平均値(K=11)

-2

-1

0

1

2

3

4

5登板

完投完了

当初

補回

完封

無四球

勝利

敗戦

引き分け

セーブ

HP

勝率1

勝率2打者

打数投球回

被安打

被本塁打

犠打

犠飛

四球

死球

奪三振

打ち取り

暴投

ボーク

失点

自責点防御率

クラスタ0 29人

クラスタ1 5人

クラスタ2 12人

クラスタ3 15人

図 4.6 先発タイプと呼べる投手達のクラスタ結果(クラスタ 0,1,2,3)

各クラスタの平均値(K=11)

-2

-1

0

1

2

3

4

5登板

完投完了

当初

補回

完封

無四球

勝利

敗戦

引き分け

セーブ

HP

勝率1

勝率2打者

打数投球回

被安打

被本塁打

犠打

犠飛

四球

死球

奪三振

打ち取り

暴投

ボーク

失点

自責点防御率

クラスタ3 15人

クラスタ4 7人

クラスタ5 22人

クラスタ6 4人

図 4.7 中継タイプと呼べる投手達のクラスタ結果(クラスタ 3,4,5,6) 図 4.7 には中継タイプと呼べる投手達のクラスタ結果を示す。図 4.7 の特徴は

まず「当初」の項目が低いことから,「中継投手」であると判断した。オレンジ

25

Page 26: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

のクラスタは「登板」「完了」「引分」「セーブ」に大きな特徴を持っている。よ

ってこのクラスタは「抑え投手」とよべる。この選手達の能力は,「奪三振が多

い」ということが分かる。茶色のクラスタは「登板」「HP」に大きな特徴があ

る。このクラスタは「中継エース」の集まりであるといえる。赤のクラスタは,

起用のされ方は「抑え投手」とよく似たスケールを持つ。しかし,それに結果

が無かったのと,個人能力の「打ち取り」が高かったので,違うものと判断さ

れたのであろう。このクラスタは「準中継エース」と呼ぶことにした。 中継タイプも,クラスタリングの結果,チームでの起用のされ方に強く反映

したものであるといえる。しかし先発タイプのクラスタよりは,個人の能力で

の違いは見られる。 後に,図 4.8 に上記の2つに当てはまらなかった「クラスタ 7」から「クラ

スタ 10」をまとめて紹介する。右側,つまりチームの起用のされ方に関する項

目がどれも低い。よってあまり起用されなかった選手の集まりであるといえる。

各クラスタ,個人の能力にどれか1つ飛びぬけた特徴をもっている。しかし,

これは高いと良くない能力なので,試合で起用されなかったのにも納得がいく。

各クラスタの平均値(K=11)

-4

-2

0

2

4

6

8

10登板

完投完了

当初

補回

完封

無四球

勝利

敗戦

引き分け

セーブ

HP

勝率1

勝率2打者

打数投球回

被安打

被本塁打

犠打

犠飛

四球

死球

奪三振

打ち取り

暴投

ボーク

失点

自責点防御率

クラスタ7 1人

クラスタ8 25人

クラスタ9 5人

クラスタ10 12人

図 4.8 個人能力に特徴のある投手達のクラスタ結果(クラスタ 7,8,9,10)

4.5.3 配属クラスタと所属チームの構成

では,ラベル付けされたクラスタ内にいる選手達が,各チームどのように分布

しているのかを見てみる。 図 4.9 に各クラスタに属する選手達のチームごとの分布を示す。このシーズン

26

Page 27: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

の順位が良かった順に並べてある。縦軸が各チームの人数を表している。左か

ら,先発タイプ, 先発•中継タイプ, 中継タイプと並んでいる。

(人)

(クラスタ id)

中継

先発

3.

ヤクルト(4)

巨人(5) 広島(6)

阪神(1) 中日(2) 横浜(3)

多い

犠飛

10.

多い

与四球

9.

多い

失点

8.

多い

暴投

7.

エース

中継

6.準

エース

中継

5.

4.

エ-ス

2.準

エ-ス

1. 0.

10 9 8 7 6 5 4 3 2 1 0

図 4.9 各クラスタに配属された選手がどのチームに所属しているのかを示

したヒストグラム 横軸が各クラスタのラベル。縦軸が人数。 たとえば,優勝した阪神の分布を見ると,「先発」が 3 人,「エース」が 1 人

「準エース」が3人いて,先発•中継投手が 5 人と,どのチームよりも多い。ま

た右側のマイナスの能力を持つ選手の数は格段に少ない。先発投手が揃ってい

るのに加え,どんな場面でも柔軟にこなす選手も多く,かつマイナス能力をも

つ選手がほとんどいない,というのがこの年優勝した阪神の特徴です。逆に巨

人や広島の場合は先発投手が少ない。トレード•ドラフト•FA などで。先発投手

の補強を図るべきである。また,よく失点をする投手たちは非常に多い。この 2チームはこうした投手の起用の仕方を考え直すべきと考えられる。 他には,クラスタ 4「抑え投手」とされる投手はどの球団にも1人ずついる。

(巨人だけは 2 人いるが) その選手達の成績はまちまちで,15 セーブしかな

い者もいれば,40 セーブを記録している選手もいる。これは,クラスタが起用

のされ方によって行われているので当然の結果である。だが,実際の試合では,

そういった記録よりも,現実に「勝利」を目指すことが目標である。例えば,

本来は「先発投手」の能力を兼ね備えているにもかかわらず,監督•コーチによ

る判断で,「抑え投手」を任されている選手がいるかもしれない。同様に,本来

の能力は「抑え投手」であるのに,「先発投手」を任されている選手がいるかも

27

Page 28: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

しれない。監督などの独自な判断で起用された選手が,本来はどの場面で起用

されるのがベストなのか。それを調べるために,個人の能力だけでクラスタリ

ングをしてはどうだろうかと考えた。

4.5.4 個人能力に関する属性によるクラスタリング

各クラスタの平均値(K=13)

-4

-2

0

2

4

6

8

10被安打

被本塁打

犠打

犠飛

四球

死球

奪三振打ち取り

暴投

ボーク

失点

自責点

防御率クラスタP0 46人

クラスタP1 3人

クラスタP2 17人

クラスタP3 27人

クラスタP4 7人

クラスタP5 3人

クラスタP6 4人

クラスタP7 1人

クラスタP8 5人

クラスタP9 4人

クラスタP10 7人

クラスタP11 12人

クラスタP12 1人

図 4.9 ケース3でのクラスタリング結果(K=13) 図 4.9に個人能力についての属性だけで行ったクラスタリング(case3)で得ら

れたクラスタ重心をレーダーグラフで示す(全属性でのクラスタと区別するた

めに、各クラスタ ID の先頭には P をつける)。 その特徴から表 4-6 の通りのラベル付けを行った。大きく分けると,失点が

少なく,よい能力の項目が高い 3 つ(クラスタ 0~2)のグループ,平均的な能力

をもつ 2 つ(クラスタ 3,4)のグループ,どれか1つ悪い能力に飛び抜けた特徴を

持つ 8 つ(クラスタ 5~13)のグループとなった。欠点の方が細かく分類されたと

いう点は着目すべきだろう。 グラフの中で,右上はバットにあてられるかどうかを示し,右下はコントロ

ールに関する項目を,真下はアウトを取るための方法の違いを示す。左下は精

神面の問題,つまり冷静に投げられるかどうかを示す。左上は失点する度合を

示す。真下の項目を除き,どの項目も低ければ低いほど良い能力を持った選手

であると言える。 各クラスタの失点の値を見比べる。その値が「0」以下,「0〜1」,「1」以上の 3タイプで並べてみる。 良い能力を持つクラスタ P0~P2 の投手は,セリーグ投手 137 人中 77 人と約

28

Page 29: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

半数しかおらず,意外と少なかった。この 77 人がどういう起用のされ方をして

いたのかを調べ,新たな起用法の応用につなげたいと考えた。そして,能力が

低いとされた選手は起用すべきでないという逆の発想でも考えてみることにす

る。

表 4-6 個人能力でのクラスタのラベル付け

クラスタ ID ラベル 人数 P0 四球が少なく,失点少ない 46 P1 打ち取り多く,失点少ない 3 P2 奪三振多く,失点少ない 17 P3 ほぼ平均 27 P4 ほぼ平均で,打ち取り多い 7 P5 死球多い 3 P6 四球多い 4 P7 暴投多い 1 P8 犠飛多い 5 P9 ボーク多い 4 P10 奪三振少なく,失点多い 7 P11 被打率高い 12 P12 全て平均を上回る(能力が低い) 1

29

Page 30: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

4.5.5 相関性の発見

表 4.7 に全属性でのクラスタリングと個人能力でのクラスタリングの間の相

関性を示す。ここでは全属性によるクラスタと個人能力によるクラスタのそれ

ぞれの組み合わせに属した投手の人数の分布を示している。 まず、全属性による先発投手のクラスタ(0,1,2)に着目する。この中では

全 46 人のうち 30 名が個人能力によるクラスタリングでは「P0.四球が少なく失

点少ない」に属していた。なかでも、クラスタ「1. 先発(エース)」に属した選

手は、個人能力によるクラスタリングでは、すべてクラスタ「P0」に属してい

ることがわかった。一方、クラスタ「2(先発準エース)」、「クラスタ 0(普通

の先発)」に属した選手は、多くが「P0」に属しているものの、中には平均的な

能力をもつクラスタ(P3,P4)や、特徴的な欠点をもつクラスタ(P9,P10)に

属しているものもあった。 この結果から、先発投手として重要な能力は“四球が少なく失点も少ない”

という点であることがわかる。また、先発投手の数が足りなくなったときは,

個人能力クラスタ「P0」の選手を起用すればよいということが言える。エース

を除く先発投手 25 名は監督やチームの方針で完投しなかっただけで,もしかし

たらエースになれる可能性もあるのではないかということが言える。 また、その他に、「3 先発・中継」、「5 中継ぎ(エース)」、「10 犠飛多」とラ

ベル付けされた選手の中にも、このような能力を持つ選手がいることがわかっ

た。特に「5 中継ぎ(エース)」のうち、半数は先発投手としての能力を持って

いることが示唆されていることは、注目すべきである。 次に、欠点の少ない中継ぎの投手(クラスタ 4~6)についても同様の考察を

行なう。中継ぎの選手は、個人能力でのクラスタでは「P2.奪三振多く失点少な

い」に圧倒的に多く属していた(全 33 人のうち 23 名)。中でも全属性でのクラ

スタ結果「4.抑え投手」の投手はすべて個人能力ではクラスタ「P2」に属した。 よって,もし全属性クラスタ結果「4.抑え投手」がケガや病気で不在になった

ときは,例えば全属性クラスタ結果「5.中継エース」から個人能力クラスタ「P2」の選手を起用すればよいと言える。 また、個人能力クラスタ「P1. 打ち取り多く,失点少ない」 は,「1. 中継

ぎ(準エース)」にだけ現れた特異なグループであった。 ただ,この結果からは「先発投手」から「抑え投手」,そして「抑え投手」か

ら「先発投手」への発見には繋がらなかった。この理由としては、2 つの可能性

が考えられる。一つは、もともと能力として異質なものであるため、本質的 にみつからなかったという可能性である。もう 1 つは、起用のされ方によって、

投手はその役割に答えようとして特異な投球の戦略を実施し、その結果個人能

力に関する属性に偏りが生じたという可能性が考えられる。この点については

30

Page 31: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

今後の検討が必要であろう。 表 4-7 全属性でのクラスタ ID と個人能力でのクラスタ ID との相関性。個人

能力でのクラスタ ID のラベルは表 4-6 参照のこと。表中の数字は両者の組み合

わせに属した投手の人数。

個人

全属性 P0. P1. P2. P3. P4. P5. P6. P7. P8. P9. P10. P11 P12 All

0.先発 15 0 0 10 1 0 0 0 0 2 1 0 0 29

1.先発

(エース) 5 0 0 0 0 0 0 0 0 0 0 0 0 5

2.先発

(準エース) 10 0 0 2 0 0 0 0 0 0 0 0 0 12

3.先発・

中継 6 0 0 1 3 2 3 0 0 0 0 0 0 15

4.中継

(抑え) 0 0 7 0 0 0 0 0 0 0 0 0 0 7

5.中継

(エース) 9 0 9 2 1 0 0 0 0 1 0 0 0 22

6.中継

(準エース) 0 3 1 0 0 0 0 0 0 0 0 0 0 4

7.暴投多い

0 0 0 0 0 0 0 1 0 0 0 0 0 1

8.被打率

高い 0 0 0 8 1 0 0 0 1 1 3 10 1 25

9.四球多い

0 0 0 0 0 0 1 0 0 0 2 2 0 5

10.犠飛多い 1 0 0 4 1 1 0 0 4 0 1 0 0 12

All 46 3 17 27 7 3 4 1 5 4 7 12 1 137

その他としては以下のような点がある。全属性クラスタ結果「0.先発投手」と

なった選手のうち,個人能力でのクラスタ結果「P3.ほぼ平均」が 10 名いた。

この 10 名の起用を考え直してみるのもいいかもしれない。また、全属性クラス

タ「8.被打率高い」であった投手のうち8名は「P3.ほぼ平均」に属し、能力自

31

Page 32: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

体それほど低くないと言える。この選手達は少し辛抱して起用することで良い

結果が生まれる可能性もあるだろう。なお、全属性でのクラスタ「8.被打率高い」

であった選手のうち 10 名が個人能力クラスタ「P11.被打率高い」であった。こ

れらの選手は、能力も低く,その結果も悪いという選手達であるので,この投

手を起用するのはリスクが高い。練習し,能力が向上するまでは起用をさける

べきであることが分かる。

32

Page 33: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

4.6 考察

全属性でのクラスタリングの場合,先発•中継•抑えなど,チーム内での起用

法に強く反映されたラベル付けが出来た。そして,そのチーム内での各クラス

タの頻度分布を見比べることで,各チームの選手起用法の違いが発見できた。

中でも,この年優勝した阪神タイガースのチーム構成は理想的であったといえ

る。そして,巨人や広島には,先発投手の不足が見られるので,補強の優先順

位として,先発投手の獲得を目指すべき,ということが言える。 個人能力の属性に絞った場合,欠点のほうがより細かく分けられた。分かっ

たことは,失点が少ない投手は,必ず四球が少ないということが見えた。 この2つのクラスタ結果の相関性をしらべることで分かったこともある。先

発投手に関しては打たせて取るタイプ(P0.四球が少なく失点少ない)の選手が多

かった。逆に抑え投手は奪三振を取るタイプ(P2.奪三振多く失点少ない)ばかり

であった。これは長いイニングを投げる先発投手はスタミナを考えて,ある程

度力をセーブして投げなければいけないためである。逆に抑え投手は,短いイ

ニングを完璧に抑えることが仕事なので,そこに全力を注げる。こういった違

いから,能力に差が出てしまっているのだろう。 今回のクラスタリングでは,先発投手から抑え投手の発見には繋がらなかっ

た。しかし,現実の世界では,前年,先発投手だった選手が,急に抑え投手と

して起用されることは稀にある。監督のひらめきによるものかもしれないが,

違う観点でクラスタリングを行うことで,この起用の仕方を見つけられるかも

しれない。 先発投手候補や抑え投手候補を中継投手から起用するということはできそう

である。アウトの取り方によって,どちらかに分けられるということが確認で

きた。またチームの事情や方針によって,完投することが無かったためにエー

スになり損ねた選手もいるはずだ。この選手達はもしかしたら完投させること

によって,エースとなりうる可能性あるかもしれない。もちろん無理に完投さ

せようとして,ペースが狂い能力が下がるという問題も考えなければいけない。 また成績は悪かったが能力に関していうと欠点のない選手を発見することが

出来た。この選手の場合は,緊迫した場面でなければ長い目で起用することで,

もしかしたら期待に応えてくれる可能性もあるだろう。そして,成績が悪く,

個人能力に欠点が多い選手の発見も出来た。リスク回避の起用という点で,こ

の選手達は能力が向上するまでは起用を控えるべきという結論が出せる。 K-means 法は 適解の選択や,クラスタ数 K が未知であるという問題はある

が,簡潔なアルゴリズムであるので,その問題が解決されるならば非常に有効

33

Page 34: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

な手法であった。

5. まとめ 本研究では,プロ野球選手の年間成績を収集し,K-means 法によるクラスタ

リングを行った。 本格的な実験に入る前に,データの属性の追加や絞り込み,データの正規化

を行った。多数回の繰り返しによる誤差関数 小の解の決定の時には,1 つの Kで多くの時間を要した。さらに,正確なクラスタリングをするために,データ

不足の選手を除去するなど,さまざまな作業に時間を要した。2 章のデータマイ

ニングで,「データマイニングの大半はデータの選別」によって決まるというこ

とが身をもって体感できた。 自分の持っている野球知識が役に立つことが多かった。逆に,その知識にと

らわれて正しくデータを見ることが出来ない時もあった。クラスタリングによ

る分類で,これまでの知識に加え,先発投手とはどういう能力なのか,また抑

え投手にはどういう能力なのかの発見につながった。興味深い結果としては,

阪神の藤川球児投手のように,現実に今回の実験の応用性が確認されたという

ことである。 より正確なクラスタをするために,今回使用した属性をもっと詳しくするこ

とが考えられる。例えば,握力や持久力など,その選手が持つさらに具体的な

要素を導入してみたい。また他にも年齢や出身地,家族構成など,実際に成績

には見えないが,クラスタリングを行うことによって,もしかしたら何らかの

パターンが見えてくるかもしれない。目的に応じた細かな属性を追加するなど

して,より完璧な起用法の発見につなげたいと考えている。

34

Page 35: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

謝辞 本研究に際して、数々の丁寧なご指導をして頂いた本田理恵助教授に感謝の意

を表し、心からお礼申し上げます。また、研究に関して様々な相談や協力をし

ていただいた同研究室の皆様にもここでお礼申し上げます。ここに謹んで謝辞

を申し上げます。

35

Page 36: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

参考文献 1. 福田 剛志&森本 康彦&徳山 豪:データマイニング 共立出版 2001 年 2. 安居院 猛&長尾 智晴:画像の処理と認識 昭晃堂 1992 年 3. ベースボール•マガジン社:ベースボール•レコードブック 2006 2006 年

36

Page 37: 1. - Kochi Uhonda/studentarc/06_mori.pdf · 4. プロ野球投手年間成績のデータマイニング~K-means 法によるクラス ... 「テキストマイニング」「Web

37