Upload
masahiro-yamaguchi
View
1.635
Download
6
Embed Size (px)
DESCRIPTION
テキストマイニング・機械学習を初めてやってみようかという人が、プログラミングやアルゴリズムの理解なしに、まずは結果を出してたのしめるようなデモを用意しました。
Citation preview
第一回つくばデータマイニング勉強会
プログラムもアルゴリズム理解も不要な機械学習テキストマイニング
from2001KNIME 及び Tiny Text Miner を利用
2014/01/11
今日利用する機械学習アルゴリズムサポートベクターマシン、ニューラルネットワーク、ランダムフォレストをネットで調べると
2
この段階で、なんだか挫折しそう。。。
今回の機械学習テキストマイニング LT の概要
ブログの文章を
テキストマイニングし
誰のブログかを判別する
今回対象とするのは
3
4
今日利用する機械学習アルゴリズムサポートベクターマシン、ニューラルネットワーク、ランダムフォレストをネットで調べると
難しいことが書いてあってくじけそうになる
5
今日はプログラムは一切使わず
KNIME(the Konstanz Information Miner)
TTM(Tiny Text Miner)
6
理解しておくべき概念1 - 機械学習
ブログの本文データ
7
理解しておくべき概念1 - 機械学習
ブログの本文データ
人間がタグを付けます
加藤茶
加藤茶
安倍晋三
安倍晋三
大島優子
教師データといいます8
理解しておくべき概念1 - 機械学習
加藤茶
加藤茶
安倍晋三
安倍晋三
大島優子
分類器
学習させる
パターンを学習する 9
理解しておくべき概念1 - 機械学習
分類器
コレハオオシマユウコ
ノ ブログ
未知のブログ文章を分類できるようになる
10
理解しておくべき概念 2- 形態素解析
分類器
歯磨けよ!風邪引くなよ!また明日!
! 歯 明日 引く 風邪 磨ける歯磨けよ!風邪引くなよ!また明日! 3 1 1 1 1 1
コンピューターが理解しやすいような形式に日本語を変換
11
では実際にやってみる
12
① カンマ区切りデータを用意
1 列名:タグ(誰のブログか)2 列目:本文(改行削除)
13
② 形態素解析する
TTM にデータを渡すと後は自動でやってくれます
14
各語の出現件数表が出力されます
15
不必要な行・列を消します
16
このデータを KNIME で機械学習させます
17
タグ付きCSV データを読み込む
データを分割
学習させる
分類 評価
下記のフローを実装します
150 件のデータ
75 件を教師データに
のこり 75 件のタグ無しデータ
学習済みモデル
18
簡単なので
実際に一緒にやってみましょう
19
20
KNIME を使えば、簡単
21
サポートベクターマシン用 Node
ニューラルネットワーク用 Node
他のアルゴリズムに切り替えるのも簡単
3 人のブログは機械学習で識別可能!
では、
22
政治家お笑い アイドル
加藤茶 安倍晋三 大島優子 指原莉乃
AKB が二人混ざっていても分類可能なのか?23
AKB 二人もきっちり識別!!!Random Forest 利用
24
おしまい
25