Upload
kenta-yonekura
View
660
Download
6
Embed Size (px)
DESCRIPTION
世の中の機械学習に関する情報は数式ばかりでよくわからん! 結局,機械学習では何ができて何ができないんよ?! ・・と,お嘆きのオシャレエンジニアの皆さんのために,『用例から入る機械学習の解説』を作りました.
Citation preview
最近ホットな話題
2011年:音声認識の精度を従来手法に比べ 10%程度改善.2012年:画像認識のコンテストで,従来手法を使用したチームに 10%のエラー差をつけて大勝.2013年: Google, Baidu, Yahoo, Facebookが投資と人材争奪合戦.
Deep Learning
たくさんの画像出力結果特徴生成
http://googleblog.blogspot.jp/2012/06/using-large-scale-brain-simulations-for.html
機械学習使えたらモテる?
わかんね人工知能は 1940年代からあるけど,何度もブームが来ては,停滞するというサイクルを繰り返している.
1985
1987
1989
1991
1993
1995
1997
1999
2001
2003
2005
2007
2009
2011
2013
0
500
1000
1500
2000
2500
3000
3500
4000
4500
日本人工知能学会の会員数推移
日本人工知能学会総会資料より: http://www.ai-gakkai.or.jp/about-us/activity/
第 5世代コンピュータプロジェクト終了
AIの冬
今回は何が違うん?新たな学習方式
これまで
前処理 学習器
元データ(文章,音声,画像・・・)
結果DNN
(Deep Neural Network)
新しいの
低次元化された特徴量
今回は何が違うん? 2学習に用いる大規模データの収集と扱いが容易に
• インターネットの普及• UGC等による情報拡散の敷居の低減• IoTにより,さらに大量の情報が.• ロボットによる生の情報の収集.
情報が生成されるスピードに,人類が追いつけなくなってきた.
ここから先は,既存の機械学習についてのおさらい.
閑話休題
(改めて )機械学習って何?
機械学習(Machine Learning)とは,大量のデータから規則やルールを抽出し,自動的に人のような柔軟な判断を実現するための手法.
≒ 統計
ファジイエキスパートシステム
人がルールを作り込む方法とは違う.
機械学習で何ができる?
• 関数近似• 領域分割• クラスタリング• 最適解探索 など
具体的に何やねん?
• スパムフィルタ• IME,かな漢字変換• 製鉄プラントの自動運転• 融資先の信用リスク評価• 手書き文字認識
機械学習の強み• 人が扱うよりも大量の情報からルールを抽出して,高速に判断できる!
機械学習が実現できるのは,人間にとっては簡単なこと.だから,速度と量で勝負!
機械学習の (ビジネス上の )競合
• クラウドソーシング• 新興国の安い人件費
オリジナル(人)には,精度が全然及ばない・・
機械学習分野の見かた
• 典型的な問題
• 学習器
• 学習方策
• テクニック
• アヤメの分類• クラスタリング• n本腕バンディット
• ニューラルネット (NN)• サポートベクターマシン (SVM)• k-means
• ニュートン法• 強化学習• モンテカルロ法• 遺伝的アルゴリズム (GA)
• ブースティング• ソフトマックス手法
他にも色々あるよ
2種類の標本の分類問題例
適した学習器 SVM
問題の特徴• 1本線を引いて, 2つに分割できそうなとき
線形カーネル:分類
Support Vector Machine (SVM)の仕組み
2群を分かつ線に最も近接したデータに等距離で垂直な線を引く(繰り返し)
k種類の標本の分類問題例
適した学習器 k-means
問題の特徴• 種類の数が既知で,それぞれの分散の大きさが近いとき
k = 3
k-meansの仕組み
全てのデータが唯一の最も近い点を持つよう, k個の点を配置する.
関数近似問題問題例
適した学習器 NN, ( 最小自乗法,ニュートン法,強化学習 )
問題の特徴• 期待される出力が一意のとき モデル式が
ある場合
sin(x)-cos(y)+random()/10 2-1-1 全結合 NN
Neural Network (NN)の仕組み
・・・
人の神経回路素子(パーセプトロン)を模擬した素子を結合してネットワークを構成する.誤差逆伝搬法(バックプロパゲーション)等を用いて重みと閾値を学習する.
閾値重み
n本腕バンディット問題問題例
適した学習器 強化学習
問題の特徴• 状況に対応する正解が与えられない• 結果を得るためにコストが発生する
スロットマシーンは片側にレバーが付いているので,「片腕のバンディット」と呼ばれる. n個のそれぞれ当たる確率が異なるスロットマシーンを使って,利益を最速で最大にせよ.
強化学習の仕組み
sの行動価値
実際に sの行動を行って得られた価値
漸近するためのステップサイズパラメータ
最終的に得られる行動価値が最大になるよう,貪欲に探索を続ける.(グリーディ手法)ランダム性を入れる ε-グリーディ手法,収束に近くなるとαを小さくするソフトマックス手法などの工夫がある.
行動するたびに,s の行動価値を更新する.
学習の分類教師あり学習
教師なし学習
学習するテストセットに対して,期待される出力が陽に与えられ,系のモデル式を推測する学習.
期待される出力が陽に与えられず,行動の結果から系のルールを推測する学習.
NN, SVM, GA,モンテカルロ法など
強化学習, k-meansなど
前処理について学習器に実際のデータを食わせるための泥臭い処理.
前処理 学習器
低次元化された特徴量
元データ 結果
スパムフィルタで用いられる特徴量の例. ・ URLリンクの数 ・お金に関する単語の数
実装者(人)が決める.前処理によって,問題の難易度は大きく変わる.
前処理のトリック本来は解けないはずの問題でも,
うまく前処理すれば解ける場合がある.
SVMでは分離できない問題
特徴量を“座標 (3,2)からの距離”にしたら,問題が簡単になった!
こうした,人の経験やカンで特徴量を作成することを,” ヒューリスティックな処理”とカッコつけて言う.
コレを多用する報告は,斜に構えて聞こう!
機械学習の使い方
1.色々な学習器があることを知る.2.それぞれの学習器の得意・不得意を知る.3.普段から,機械学習ならどう解くか思考する.
準備段階
利用段階1.とりあえずデータを人間用に可視化する.2.使えそうな学習器にアタリをつける.3.解きやすいようにデータを加工する (前処理 ).4.学習パラメータのチューニング.
機械学習の限界
基本的に,可視化してみて人が解けない問題は,解けないです.
学習器の選択も学習パラメータのチューニングもできなければ,
手も足も出ない.
まとめ
• 機械学習が流行るかどうかは,分からん.• 機械学習を使うと解きやすい問題が存在する.• 学習器にも学習方法にも,いっぱい種類がある.• 色々知って引き出しを増やしておくのが良い.• 色々な問題を,機械学習で解く方策を考えよう.• 人が解けない問題は,だいたい解けない.