Upload
tetsuro-ito
View
1.490
Download
0
Embed Size (px)
Citation preview
集合知プログラミング勉強会2012年10月3日
自己紹介•名前 伊藤 徹郎 (@tetsuroito)
• 所属 株式会社ALBERT
• お仕事 データマイニングとか最適化とか
• Python初心者ですが、今回勉強会企画しました!よろしくお願いします!
開催にあたって
•集合知プログラミングは2008年刊行の書籍 →最新の知識というわけではありません
•内容の理解を最優先します →不明点などは議論などで解決できればOK
• 本のサンプルコードが古い →現在のVerに適したコードレビューをしたい
1章 集合知への招待アジェンダ
•集合知とは何か?
•機械学習とは何か?
•機械学習の限界
•実生活における例
•学習アルゴリズムのその他の使用
1.集合知とは何か集合知はWeb以前から利用されている。
ex1)世論調査→膨大な回答から個々人が知らない統計的な 結論を引き出すことが出来る
ex2)経済市場→多くの独立した人間によりマーケット プライスが決定されていく
1.集合知とは何かWebを通じて数千、数百万の情報を収集可能に
・Wikipedia→誰でも作成、編集が可能 誤った情報もすぐに最新の正しい情報に
・Googleの検索エンジン→ページランクアルゴリズム
情報を知的に処理し、新たな情報を生み出す
1.集合知とは何か
集合知プログラミングで学ぶこと
オープンなAPIを通じてデータを集める方法
機械学習のアルゴリズムと統計学の手法
様々なデータを集め、手法を適用可能になる!
2.機械学習とは何か?機械学習は人工知能(AI)の一分野
ほとんどすべてのデータは何らかのパターンを含んでおり、機械的に一般化が可能。
データのどの面が重要か決定づけるモデルをトレーニングする
2.機械学習とは何か?ex)E-Mailのフィルタリング特定単語をスパム認定するスパムフィルタ
ex)決定木→人の理解が可能で透明性がある
ex)ニューラルネットワーク→ブラックボックス
3.機械学習の限界機械学習の弱点・パターン化の性能は各アルゴリズム依存・データにないパターンの誤判断・既知のデータのみの一般化(不完全)
本書のスパムフィルタ→単語やフレーズの出現だけを想定 (意味や文の構造は解析していない)
4.実生活における例・Googleページランク‥4章
・Amazon、Netflix、Pandora、Last.fm などの購入履歴を基にした推薦‥2章
・予測市場 (Hollywood Stock Exchange)
・eHarmonyのようなマッチングサイト
5.学習アルゴリズムのその他の使用
バイオテクノロジー
シークエンシング、スクリーニング技術→DNA配列、タンパク質構造、化合物スク リーニング、RNA発現 etc‥
最近では、マイクロアレイなど。
5.学習アルゴリズムのその他の使用
クレジットカードの詐欺発見
クレジットカードの取引履歴から詐欺の取引を検知する方法を模索している。
アルゴリズム決定木やニューラルネットワーク
5.学習アルゴリズムのその他の使用
マシンビジョン
軍事、調査目的の映像解析パターン認識技術などを活用している
巨大データセットから特徴量抽出のために、独立成分分析のような教師なし学習を使用
5.学習アルゴリズムのその他の使用
製品のマーケティング
市場に存在する自然な区分を理解将来についてよりよい予測を行う
アルゴリズム→クラスタリング
5.学習アルゴリズムのその他の使用
サプライチェーン
サプライチェーンを効果的にする各地の製品需要を予測し、コストを節約
アルゴリズム最適化と学習
5.学習アルゴリズムのその他の使用
株式市場の分析
国防
などなど‥
集合知プログラミングで機械学習とPythonを
学習(復習)しましょう!
よろしくお願いします!