View
1
Download
0
Category
Preview:
Citation preview
株式会社富士通研究所知識情報処理研究所人工知能研究センター梅田裕平
データ空間の解析と学習
Coryright 2017 FUJITSU LABORATORIES LTD.
第1回設計情報駆動研究会@葉山湘洋閣2017/3/5
人・企業・社会センシング アクチュエーション
知覚・認識
画像処理
音声処理
感情・状況認識
知識化
自然言語処理
知識処理・発見
パターン発見
判断・支援
推論、計画
予測、最適化
対話、推薦
先端研究
社会受容性 シミュレーション脳科学
学習 機械学習 強化学習Deep Learning
Coryright 2017 FUJITSU LABORATORIES LTD.
Zinrai: 富士通が保有するAI技術を体系化
1
人工知能といっても
対象となるのは・・・
結局はデータ処理⇒データについて見直してみよう
まずは教師ありの機械学習を対象として見直してみます
Coryright 2017 FUJITSU LABORATORIES LTD.2
データ空間
Coryright 2017 FUJITSU LABORATORIES LTD.
分類したいデータの空間Ex.:画像
データを構成するデータの空間Ex.:各ピクセルの値
圏対象
まずはこちらの話
4
データ空間は距離空間なのか?
たとえば時系列データ
よく使われる距離:DTW(=Dynamic Time Warping)
DTWは一方の時系列から見た,その他の時系列の類似度⇒順番があり,対称性がない
三角不等式が成り立たない例は多く存在
正定値・非退化性のみ・・・
Coryright 2017 FUJITSU LABORATORIES LTD.
DTW
• 2系列の点の対応の距離の合計で最小となるもの
• 時間方向のサイズや位相のずれを吸収して計測できる
距離空間が前提にある統計解析は使ってはいけない!
7
距離とは
距離の定義
2点x,y,zに対して
正定値性:
非退化性:
対称性 :
三角不等式:
正定値/非退化性程度の仮定でやれるのか?
coarse幾何学
Coryright 2017 FUJITSU LABORATORIES LTD.
満たさないデータは数多い
8
距離空間と機械学習
機械学習はデータ空間が距離空間が前提
SVM
決定木/ランダムフォレスト
Coryright 2017 FUJITSU LABORATORIES LTD.
サポートベクターからの距離の中間に直線を引く⇒距離空間であることが必要
データがラベルに従って分離し固まっている⇒距離空間であることが必要
9
距離空間でない場合
最近傍法・k-Nearest Neighbor
ただし,データ間の距離が大きくなると,問題が出てくる
Coryright 2017 FUJITSU LABORATORIES LTD.
一番近いデータと同じラベルにする
正定値性・(弱い)非退化性だけで成立する
10
Deep Learning
Deep Learningは特徴量を自動抽出するというけれど・・・
Coryright 2017 FUJITSU LABORATORIES LTD.
例えばSVMは Deep Learningは
例:交差エントロピー
正解ラベル
データの距離空間で目的関数を定義
ラベル空間で目的関数を定義
データ空間の距離を考えるのではなく,汎用的なラベル空間の距離を使っているのがポイント
11
Deep Learningならいいのか?
何でDeep Learningがうまくいった例は画像くらいなのか?
Convolutional Neural Networkがはまっただけ?
仮説
少し回転/拡大縮小/平行移動はあるけど,同じ種類のデータ自体だいたい同じような位置に同じ形がある→実際に画像はDLの前にうまくクリッピングする必要がある!
入力データにもある程度基準がそろっている必要はあるということでは?→DLもある種の数理モデルである以上,基準が必要
Coryright 2017 FUJITSU LABORATORIES LTD.12
データ空間
Coryright 2017 FUJITSU LABORATORIES LTD.
分類したいデータの空間Ex.:画像
データを構成するデータの空間Ex.:各ピクセルの値
圏対象
つまりこちらの話
13
データの基準をどうそろえるのか?
1つのデータの中にある情報の基準をそろえる方法は?
キーとなるいくつかの点をそろえることが多いのでは?
•画像であれば対象がきれいに入るように四隅を決定
•スマホを見比べるとき画面が正面を向くように・・・
基準をそろえる方法として,特徴的な”形”をそろえることでうまく比べられることが多い→データの”形”を見ることができればうまくいくかも→“幾何学”を利用する
Coryright 2017 FUJITSU LABORATORIES LTD.
Shape of DATA
14
Shape of Data
近年一部で流行しているTopological Data Analysis
位相幾何学の手法を利用してデータの形状を把握
位相幾何学の手法だけでなく微分幾何学の手法も使えるはず
Coryright 2017 FUJITSU LABORATORIES LTD.15
「時系列データ」の種類と対象とする領域
ある対象の時間変化•画像の時間変化≒動画
•文字・単語の時間変化≒自然言語(文章など)
値の時間変化
動きの軌跡
•文字を書く際のペンの位置の変化
•目的地までの移動経路
•音声
ある自然法則などルールに基づく変化
•心拍・脈拍・血圧などの生体データ
•ジャイロセンサーなど各種センサーデータ
•環境センサー(震度計など)
•株価など経済指標
Coryright 2017 FUJITSU LABORATORIES LTD.
50
70
90
110
1
16
31
46
61
76
91
106
121
136
心拍数
今回の技術の対象領域
17
時系列解析
時系列データの生のデータは基準がそろっていない
位相ずれが存在
ベクトルとして違うように見えても,同じものとして認識しなければならない
画像でいえば…
Coryright 2017 FUJITSU LABORATORIES LTD.
1 2 1 0 1 2 1 0 1 2
2 1 2 1 0 1 2 1 0 1
位相が1
ずれている
①
②
①
②
この2つを同じものと認識する必要があるということと同じ.画像のDLでもまだ困難
「基準」が必要
18
開発した技術
力学系理論と位相幾何学の概念を活用し,時系列データの幾何学的な特徴を抽出することで時系列データを高度に分類
Coryright 2017 FUJITSU LABORATORIES LTD.
ルールを基準とする
19
「グラフ」データとは
Coryright 2017 FUJITSU LABORATORIES LTD.
棒グラフ、折れ線グラフ… 数学のグラフ理論の「グラフ」
「頂点」と「辺」の集合
人、モノ、コトのつながりを抽象的に表現したもの(関係を表現)
頂点 辺
21
Deep Learningはグラフの入力が困難
Coryright 2017 FUJITSU LABORATORIES LTD.
1
0
1
0
~
~
0
1
0
1
0 1 1 1 1 0
1 0 0 0 0 1
1 1 1 1 1 1
1 0 1 1 0 1
1 1 1 1 1 1
0 1 0 0 1 0
0 1 0 1 0 0
1 0 1 1 0 0
0 1 0 0 1 1
1 1 0 0 0 0
0 0 1 0 0 0
0 0 1 0 0 0
0 0 1 0 1 1
0 0 1 0 0 0
1 1 0 1 0 0
0 0 1 0 0 0
1 0 0 0 0 1
1 0 0 0 1 0
座標番号の振り方で結果が異なる
画像データ
グラフデータ
3
61
5
2
4
3
46
2
1
5
入力
入力
入力
座標番号の振り方が数多く存在
画素の座標番号は固定
3
6
1
5
2
4
3
6
1
5
2
4
3 61 52 4
3 61 52 4
1
2
3
4
5
6
1 2 3 4 5 60
1
1
1
~
(1,1)
(1,2)
(1,3)
(1,4)
21
31
41
51
21
31
41
51
~
… … …
ノード数が10なら362万通りノード数が100なら9×10157通り
22
グラフデータの学習:新技術「Deep Tensor」
Coryright 2017 FUJITSU LABORATORIES LTD.
【独自技術1】構造マッピング技術
グラフ全体構造を含んだ統一的表現テンソル表現
グラフデータを直接入力し、自動で特徴を抽出する新技術
従来の誤差逆伝搬法拡張誤差逆伝搬法
【独自技術2】コアテンソル学習技術
23
Recommended