Machine learning

独断と偏見による機械学習のまとめ

yoneken (@k_yone)

https://twitter.com/k_yone

最近ホットな話題

2011年：音声認識の精度を従来手法に比べ 10%程度改善．2012年：画像認識のコンテストで，従来手法を使用したチームに　　　　 10%のエラー差をつけて大勝．2013年： Google, Baidu, Yahoo, Facebookが投資と人材争奪合戦．

Deep Learning

たくさんの画像出力結果特徴生成

http://googleblog.blogspot.jp/2012/06/using-large-scale-brain-simulations-for.html





機械学習使えたらモテる？

わかんね人工知能は 1940年代からあるけど，何度もブームが来ては，停滞するというサイクルを繰り返している．

1985

1987

1989

1991

1993

1995

1997

1999

2001

2003

2005

2007

2009

2011

2013

0

500

1000

1500

2000

2500

3000

3500

4000

4500

日本人工知能学会の会員数推移

日本人工知能学会総会資料より： http://www.ai-gakkai.or.jp/about-us/activity/

第 5世代コンピュータプロジェクト終了

AIの冬

http://www.ai-gakkai.or.jp/about-us/activity/



今回は何が違うん？新たな学習方式

これまで

前処理学習器

　　　元データ（文章，音声，画像・・・）

結果DNN

(Deep Neural Network)

新しいの

低次元化された特徴量

今回は何が違うん？ 2学習に用いる大規模データの収集と扱いが容易に

• インターネットの普及• UGC等による情報拡散の敷居の低減• IoTにより，さらに大量の情報が．• ロボットによる生の情報の収集．

情報が生成されるスピードに，人類が追いつけなくなってきた．

ここから先は，既存の機械学習についてのおさらい．

閑話休題

(改めて )機械学習って何？

機械学習（Machine Learning）とは，大量のデータから規則やルールを抽出し，自動的に人のような柔軟な判断を実現するための手法．

≒ 統計

ファジイエキスパートシステム

人がルールを作り込む方法とは違う．

機械学習で何ができる？

• 関数近似• 領域分割• クラスタリング• 最適解探索　など

具体的に何やねん？

• スパムフィルタ• IME，かな漢字変換• 製鉄プラントの自動運転• 融資先の信用リスク評価• 手書き文字認識

機械学習の強み• 人が扱うよりも大量の情報からルールを抽出して，高速に判断できる！

機械学習が実現できるのは，人間にとっては簡単なこと．だから，速度と量で勝負！

機械学習の (ビジネス上の )競合

• クラウドソーシング• 新興国の安い人件費

オリジナル（人）には，精度が全然及ばない・・

機械学習分野の見かた

• 典型的な問題

• 学習器

• 学習方策

• テクニック

• アヤメの分類• クラスタリング• n本腕バンディット

• ニューラルネット (NN)• サポートベクターマシン (SVM)• k-means

• ニュートン法• 強化学習• モンテカルロ法• 遺伝的アルゴリズム (GA)

• ブースティング• ソフトマックス手法

他にも色々あるよ

2種類の標本の分類問題例

適した学習器 SVM

問題の特徴• 1本線を引いて， 2つに分割できそうなとき

線形カーネル：分類

Support Vector Machine (SVM)の仕組み

2群を分かつ線に最も近接したデータに等距離で垂直な線を引く（繰り返し）

k種類の標本の分類問題例

適した学習器 k-means

問題の特徴• 種類の数が既知で，それぞれの分散の大きさが近いとき

k = 3

k-meansの仕組み

全てのデータが唯一の最も近い点を持つよう， k個の点を配置する．

関数近似問題問題例

適した学習器 NN， ( 最小自乗法，ニュートン法，強化学習 )

問題の特徴• 期待される出力が一意のときモデル式が

ある場合

sin(x)-cos(y)+random()/10 2-1-1 全結合 NN

Neural Network (NN)の仕組み

・・・

人の神経回路素子（パーセプトロン）を模擬した素子を結合してネットワークを構成する．誤差逆伝搬法（バックプロパゲーション）等を用いて重みと閾値を学習する．

閾値重み

n本腕バンディット問題問題例

適した学習器強化学習

問題の特徴• 状況に対応する正解が与えられない• 結果を得るためにコストが発生する

スロットマシーンは片側にレバーが付いているので，「片腕のバンディット」と呼ばれる． n個のそれぞれ当たる確率が異なるスロットマシーンを使って，利益を最速で最大にせよ．

強化学習の仕組み

sの行動価値

実際に sの行動を行って得られた価値

漸近するためのステップサイズパラメータ

最終的に得られる行動価値が最大になるよう，貪欲に探索を続ける．（グリーディ手法）ランダム性を入れる ε-グリーディ手法，収束に近くなるとαを小さくするソフトマックス手法などの工夫がある．

行動するたびに，s の行動価値を更新する．

学習の分類教師あり学習

教師なし学習

学習するテストセットに対して，期待される出力が陽に与えられ，系のモデル式を推測する学習．

期待される出力が陽に与えられず，行動の結果から系のルールを推測する学習．

NN， SVM， GA，モンテカルロ法など

強化学習， k-meansなど

前処理について学習器に実際のデータを食わせるための泥臭い処理．

前処理学習器

低次元化された特徴量

元データ結果

スパムフィルタで用いられる特徴量の例．　・ URLリンクの数　・お金に関する単語の数

実装者（人）が決める．前処理によって，問題の難易度は大きく変わる．

前処理のトリック本来は解けないはずの問題でも，

うまく前処理すれば解ける場合がある．

SVMでは分離できない問題

特徴量を“座標 (3,2)からの距離”にしたら，問題が簡単になった！

こうした，人の経験やカンで特徴量を作成することを，” ヒューリスティックな処理”とカッコつけて言う．

コレを多用する報告は，斜に構えて聞こう！

機械学習の使い方

1.色々な学習器があることを知る．2.それぞれの学習器の得意・不得意を知る．3.普段から，機械学習ならどう解くか思考する．

準備段階

利用段階1.とりあえずデータを人間用に可視化する．2.使えそうな学習器にアタリをつける．3.解きやすいようにデータを加工する (前処理 )．4.学習パラメータのチューニング．

機械学習の限界

基本的に，可視化してみて人が解けない問題は，解けないです．

学習器の選択も学習パラメータのチューニングもできなければ，

手も足も出ない．

まとめ

• 機械学習が流行るかどうかは，分からん．• 機械学習を使うと解きやすい問題が存在する．• 学習器にも学習方法にも，いっぱい種類がある．• 色々知って引き出しを増やしておくのが良い．• 色々な問題を，機械学習で解く方策を考えよう．• 人が解けない問題は，だいたい解けない．

人物画像引用

photo by pakutaso.com

http://www.pakutaso.com/

http://www.pakutaso.com/

Engineering

Machine learning