doctor thesis kamada - Hiroshima Universityharp.lib.hiroshima-u.ac.jp/hiroshima-cu/file/12450/... · 2.7.1 深層学習におけるネットワーク ... 第5章学習済み構造適応型dbnネットワークからの知識獲得

広島市立大学審査博士学位論文

Deep Belief Networkの構造適応型学習に関する研究

2019年3月

鎌田　真

Studies on Adaptive Structural Learning of

Deep Belief Networks

Shin Kamada

Abstract

Recently, the widespread use of Internet of Things (IoT) enabled the collection of various

kinds of big data through the Internet in many fields such as industrial, agricultural, and

medical fields. The collected big data using IoT technologies is analyzed by Artificial

Intelligence (AI) and the analyzed results are utilized to make our life more abundant.

Especially, the recent advances in deep learning methods enabled higher classification

capability for these big data compared to traditional methods.

Deep learning is applied to deep network architectures such as multi-layered artificial

neural networks, to effectively represent multiple features of input patterns. Deep learning

first builds a hierarchical network of pre-trained networks, then fine-tunes the connected

deep network, enabling the deep network architecture’s high classification capability. In

the trained deep architecture, the lower layers (closer to input) can represent abstract

features, while the higher layers (closer to output) can represent concrete features.

Deep Belief Network (DBN) is a well-known method in deep learning. By constructing

two or more pre-trained Restricted Boltzmann Machines (RBMs), a DBN forms a hierar-

chical network of RBMs that can achieve high classification capability. A RBM uses an

energy-based model for unsupervised learning. Convolutional Neural Network (CNN) is

another deep learning method for feed forward neural networks. Particularly, CNN shows

high performance in image recognition tasks by constructing the network structure of

convolutional layers and pooling layers. The convolutional layer extracts features of input

patterns and the pooling layer extracts a representative pattern from the convolutional

computation. AlexNet, VGG16, GoogLeNet, and ResNet are famous trained CNN models

with high classification capability for ILSVRC (ImageNet Large Scale Visual Recognition

Competition).

In deep learning, trial and error to find the optimal network structure for given input

data will be a difficult task even for experienced designers. The classification accuracy

depends on the network structure such as the number of hidden neurons and hidden layers.

Due to the computational cost or resource for big data analysis of deep leaning, testing

all possible parameter sets is usually impossible. Especially training a CNN takes much

computational costs since it has a very large scale architecture.

Transfer learning is the reuse method of a pre-trained model on a new problem. By

using a deep network with high classification capability such as VGG16, GoogLeNet, or

ResNet, it is easier to construct network structure for a new data. Transfer learning is

currently very popular in deep learning. However, construction of a new network structure

for the new data without using the pre-trained model is highly recommended to achieve

powerful classification capability, because the training target of the pre-trained model is

ILSVRC, not for the new data.

To solve the problem with respect to the discovery of the optimal network structure

in deep learning, in this paper, (1) the adaptive structural learning method of RBM and

DBN was developed by monitoring change of the parameters in the training process.

The adaptive structural learning was developed in the traditional multi-layered neural

networks, which can automatically discover the optimal number of hidden neurons and

hidden layers for given input in training. The basic idea of the neuron generation and

annihilation in the multi-layered artificial neural networks was applied to RBM. After the

suitable numbers of neurons are generated in RBM, the suitable numbers of hidden layers

are generated in DBN. The reason that we focus RBM and DBN is they are stochastic

models.

In order to verify the proposed method, we tested the classification accuracy of the

proposed method by the 10-fold cross validation for several image benchmark data sets.

The classification accuracy for training set was almost 100%. For test set, 99.9% for

MNIST, 98.4% and 84.4% for CIFAR-10 and CIFAR-100, and 97.8% for ILSVRC 2012.

Those classification accuracies are the highest values among the other methods including

well-known CNN methods.

Recent deep learning is expected to analyze not only image data, but also the other

kinds of data such as numerical data, text data, and time-series data. In this paper, (2)

a fast learning method for multi-modal data which consists of two or more kinds of data

such as medical data, was developed by using the Adaptive DBN. The data arrangement

is modified according to the similarity of input-output pattern in Adaptive DBN. In the

experiment results, the proposed method improved computational time by about 30%

without decreasing the classification accuracy for two kinds of multi-modal data set, the

sightseeing data and comprehensive medical examination data. Moreover, (3) the learning

algorithm of Adaptive RBM and Adaptive DBN was extended to the time-series analysis

by using the idea of LSTM (Long Short Term Memory). The proposed method was

applied to two kinds of time-series benchmark data sets, Nottingham (MIDI) and CMU

(Motion Capture). The prediction accuracy of the proposed method was higher than the

traditional methods.

(4) The method of knowledge acquisition from the trained Adaptive RBM and Adaptive

DBN was also developed in this paper. Although Adaptive RBM and Adaptive DBN

showed high classification capability, the method was not able to classify the unknown

pattern perfectly, since an input data with ambiguous patterns leads wrong classification.

In such a case, a fine-tuning method that modifies a part of network signal flow based on

the knowledge will be helpful in terms of both the improvement of classification capability

and the reduction of computational cost by re-learning. The network signal flow means

which neurons are fired in each layer for given input data.　 In this paper, network signal

patterns, which lead the wrong classification, were analyzed for knowledge acquisition. By

fine-tuning the trained network with the acquired knowledge, the classification capability

was improved. Moreover, the explicit knowledge with respect to the relation between input

and output patterns was extracted from the network signal flow of the trained Adaptive

DBN. The extracted knowledge can realize fast inference of pre-trained deep network

such as IF-THEN based prediction for given input data. Some experiment results with

time-series benchmark data sets showed the proposed method improved computational

time by about 1/40.

(5) The proposed methods from (1) to (4) were applied to the comprehensive medical

examination data for the cancer prediction. The prediction system showed higher classi-

fication accuracy (99.8% for training and 95.5% for test) than some traditional methods.

By using the knowledge acquisition method, the interesting knowledge was extracted in

the form of IF-THEN rules to find a cancer at an early stage. Moreover, the effectiveness

of Adaptive DBN was verified on the Chest X-ray image benchmark data set (CXR8).

CXR8 is one of the most commonly accessible radiological examination for screening and

diagnosis of many lung diseases. The proposed method showed highest classification ratio

for eight diseases and detection ratio for Bounding-Box of localization (more than 90%

for all categories).

In this paper, we proposed the adaptive structural learning methods of RBM and DBN

and showed the effectiveness of our methods for not only the several benchmark data

sets but also the medical data in (1)-(5). Adaptive RBM and Adaptive DBN will be a

helpful solution for IoT data analysis in industrial world, because the neuron generation-

annihilation and layer generation can automatically discover the suitable number of hidden

neurons and hidden layers for the various data, and then decrease computational cost and

personnel expenses for finding the optimal network structure. In addition, our methods

are practical because they can be also applied to not only image data but also multi-

modal data or time-series data. In the data collection through IoT, it will be happened

a situation that the collected data contains unknown patterns. Usually, re-training the

model for adapting to such patterns will be required if the patterns cause wrong classi-

fication. The fine-tuning method can help such a situation because the trained network

can be fine-tuned for the unknown patterns without re-training. Moreover, the knowledge

acquisition method can make the spread of our developed methods. The extracted knowl-

edge enables a device to do knowledge based prediction with both high prediction speed

and high prediction accuracy. Our proposed methods will be further improved for better

classification capability by improving them and will be evaluated on the other large big

data sets.

目次

第 1章はじめに 1

第 2章構造適応型Deep Belief Network 6

2.1 Restricted Boltzmann Machine . . . . . . . . . . . . . . . . . . . . . . . . 6

2.1.1 ニューロンの独立性の説明 . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.2 RBMの学習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2 リップシッツ連続によるRBM学習の収束性 . . . . . . . . . . . . . . . . . 12

2.2.1 リップシッツ連続の定義 . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2.2 LSE関数における収束性 . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.3 RBMにおける収束性 . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.3 Deep Belief Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.4 関連研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.5 構造適応型RBMによるニューロン生成／消滅アルゴリズム . . . . . . . . 18

2.5.1 階層型ニューラルネットワークにおけるWalking Distance . . . . . 18

2.5.2 ニューロン生成／消滅アルゴリズム . . . . . . . . . . . . . . . . . . 19

2.6 構造適応型DBNによる層の生成条件 . . . . . . . . . . . . . . . . . . . . . 22

2.7 実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.7.1 深層学習におけるネットワーク構造の評価方法 . . . . . . . . . . . 24

2.7.2 画像ベンチマークデータセット . . . . . . . . . . . . . . . . . . . . 25

2.7.3 実験の環境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.7.4 実験 1: 学習中のWDの観測 . . . . . . . . . . . . . . . . . . . . . . 30

2.7.5 実験 2: 画像データに対する構造適応型RBMの分類精度 . . . . . . 32

2.7.6 実験 3: 画像データに対する構造適応型DBNの分類精度 . . . . . . 43

2.8 まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

第 3章構造適応型DBNによるマルチモーダルデータ学習法 48

3.1 マルチモーダルデータ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.2 構造適応型DBNによるマルチモーダルデータ学習法 . . . . . . . . . . . . 49

3.2.1 マルチモーダルデータの処理方法 . . . . . . . . . . . . . . . . . . . 50

3.2.2 ニューロン生成に基づいたマルチモーダルデータの入れ替えアルゴリズム . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.3 実験 1: 観光情報データに対する構造適応型 DBNによるマルチモーダルデータ学習法の分類精度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.3.1 ひろしま観光マップ . . . . . . . . . . . . . . . . . . . . . . . . . . 55

i

3.3.2 ひろしま観光マップに対するマルチモーダルデータ学習法の分類精度 58

3.4 実験 2: 医療検診データに対する構造適応型 DBNによるマルチモーダルデータ学習法の分類精度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.4.1 医療検診データ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.4.2 医療検診データに対する構造適応型DBNの分類精度 . . . . . . . . 64

3.4.3 医療検診データに対するマルチモーダルデータ学習法の分類精度 . 65

3.5 まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

第 4章リカレント構造適応型DBNによる時系列データの学習 71

4.1 RBMにおける時系列データ学習モデル . . . . . . . . . . . . . . . . . . . . 71

4.2 リカレント構造適応型RBMとリカレント構造適応型DBN . . . . . . . . . 74

4.3 学習係数調整によるネットワークの再学習 . . . . . . . . . . . . . . . . . . 76

4.4 実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4.4.1 時系列ベンチマークデータセット . . . . . . . . . . . . . . . . . . . 78

4.4.2 実験 1: リカレント構造適応型RBMの予測精度 . . . . . . . . . . . 80

4.4.3 実験 2: リカレント構造適応型DBN及び学習率調整による再学習に対する予測精度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

4.5 まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

第 5章学習済み構造適応型DBNネットワークからの知識獲得 93

5.1 忘却学習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

5.2 構造適応型DBNによるニューロンの重み修正法 . . . . . . . . . . . . . . . 94

5.3 構造適応型DBNによる推論ルールの抽出 . . . . . . . . . . . . . . . . . . 96

5.4 実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

5.4.1 実験 1: 忘却学習による構造学習 . . . . . . . . . . . . . . . . . . . . 97

5.4.2 実験 2: 構造適応型 RBMのニューロン生成アルゴリズムにおける入出力パタンの調査 . . . . . . . . . . . . . . . . . . . . . . . . . . 100

5.4.3 実験 3: 学習済み構造適応型DBNに対する重み修正法による分類精度の向上 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

5.4.4 実験 4: 学習済み構造適応型DBNからの推論ルール抽出 . . . . . . 110

5.5 まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

第 6章医療検診ビッグデータを用いた医療診断支援システムの構築 114

6.1 医療診断支援システムの構築 . . . . . . . . . . . . . . . . . . . . . . . . . 115

6.1.1 実験 1: リカレント構造適応型DBNによる医療検診データの経年変化予測 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

6.1.2 医療診断支援システムの構築 . . . . . . . . . . . . . . . . . . . . . 117

6.1.3 実験 2: 医療診断システムの出力結果と知識獲得手法による評価 . . 119

6.2 構造適応型DBNを用いた胸部X線画像CXR8の分類 . . . . . . . . . . . . 123

6.2.1 胸部X線画像ベンチマークデータセットCXR8 . . . . . . . . . . . 123

6.2.2 CXR8に対する構造適応型DBNの分類精度 . . . . . . . . . . . . . 125

6.2.3 構造適応型DBNの重み修正法の改良 . . . . . . . . . . . . . . . . . 125

ii

6.3 構造適応型DBNを用いた胸部X線画像CXR8の物体検出 . . . . . . . . . 130

6.3.1 畳み込みニューラルネットワークによる物体検出 . . . . . . . . . . 130

6.3.2 構造適応型DBNによる物体検出 . . . . . . . . . . . . . . . . . . . 131

6.3.3 CXR8に対する構造適応型DBNの物体検出法による検出精度 . . . 133

6.3.4 ヒートマップによる可視化 . . . . . . . . . . . . . . . . . . . . . . . 133

6.4 まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

第 7章おわりに 138

iii

第1章はじめに

近年の情報技術の進歩に伴い，多種多様なデータベースの収集と分析が行われている．第 4次産業革命と称されるように，様々な場面で IoT(Internet of Things)機器によるビッグデータがクラウドサーバ上で収集され，人工知能 (Artificial Intelligence; AI)によるデータ分析が行われている．さらに，分析結果に基づいた経営革新や自動化処理等によるプロセス改善が実現されようとしている [1, 2, 3, 4]．例えば，産業分野では，工場内の検査装置から計測データをクラウド上で収集し，部品の欠陥検出を実現する人工知能による学習システムが開発されている [5, 6]．農業分野では，様々なセンサーからデータを取得することで，温室内の温度管理，水やりや農薬の散布，収穫，仕分け等の自動化が行われ[7, 8]，医療分野では，患者の医療検診データから異常や経年変化を予測するシステムや医療福祉介護ロボットが開発され [9, 10]，人工知能の実用化が期待されている．このような学習システムの実現のため，機械学習手法 [11, 12, 13]やソフトコンピューティング手法 [14, 15, 16, 17]を始めとする様々な手法が用いられているが，その中でもとりわけ深層学習 (Deep Learning)[18, 19, 20]と呼ばれる人工知能手法が高い学習能力を持ち，注目を集めている．深層学習は，階層型ニューラルネットワーク (Multi-Layered Neural Network)を用いた機械学習手法の一つと言われている．階層型ニューラルネットワークとは，脳における神経回路網を模した数理モデルである [21]．複数の層で構成されたネットワーク内において，シナプスと呼ばれるニューロン間の結合荷重 (重み)を学習し，この学習法として誤差逆伝搬法 (Back Propagation; BP)[22, 23]が知られている．従来の階層型ニューラルネットワークと異なり，深層学習は非常に大規模で深い層のニューラルネットワークを形成する，階層構造を持った学習システムである．さらに，各層においてそれぞれのレベルで学習を行う事前学習 [24, 25]の仕組みがある．事前学習とは，ネットワーク全体を学習する前に，各層ごとに教師なし学習を行うことで，入力データに含まれる確率分布を事前知識として学習する手法である．事前学習により表現された複数の特徴を階層的に組み合わせることで，入力層に近い下位層では，入力データの抽象的な特徴を表現し，出力層に近い上位層では，下位層で学習した抽象的な特徴を多段的に組み合わせ，推論することで，具体的な特徴を表現することができる．また，事前学習により，従来の階層型ニューラルネットワークの誤差逆伝搬法において，上位層で生じた誤差を下位層に逆伝搬する際，下位層の誤差がなくなり，学習できないという勾配消失の問題を解決した [26, 27, 28]．深層学習手法の一つとして，画像圧縮で知られる自己符号化器 (Auto Encoder; AE)[29]

がある．AE自体は入力データを 1つの隠れ層内のニューロンに情報圧縮する教師なし学習法であるが，学習済みのAEネットワークを多段的に組み合わせ，推論を行うモデルとして，Stacked Auto Encoder(SAE)[30]が知られている．Deep Belief Network(DBN)[31]

は，尤度の概念を取り入れた教師なし学習のRestricted Boltzmann Machine(RBM)[32]を

1

階層的に積み重ねる手法である．DBNは SAEと異なり，統計的なモデルとして考えることができ，各層を構成するRBMの各ニューロンの素子が 2値 (0 or 1)で確率的に表現されている．畳み込みニューラルネットワーク (Convolutional Neural Network; CNN)[33, 34]は，階

層型ニューラルネットワークの一種で，最も有名な深層学習手法の一つである．データの特徴抽出を行う畳み込み層と，情報圧縮を行うプーリング層を多段的に積み重ねることで，特に画像データに対して高性能な分類精度を示している．2012年には，ILSVRC(ImageNet

Large Scale Visual Recognition Competition)[35, 36]と呼ばれる画像認識の世界大会で，Hinton等のCNNモデルであるAlexNet[37]が他の手法と比較して圧倒的な精度を示し優勝した．このことをきっかけに，深層学習はより一層注目されるようになった．ILSVRC

は，年に 1度開催され，ここから高い分類精度を持ったCNNモデルとして，2014年にはVGG16[38]，GoogLeNet[39]，2015年にはResNet[40]が登場した．これらの深層学習モデルは，画像分類を行う識別モデルとして使用されるだけでなく，

時系列データの予測や，画像内の物体検出にも応用されている．時系列予測を行うためには，リカレントニューラルネットワーク (Recurrent Neural Network; RNN)[41]の考えを用いた拡張が行われている．一般的なRNNでは，ネットワークの隠れ層にループ構造をもたせ，BPTT(Backpropagation through time)[42]により時間によって遷移する時系列データの特徴を学習している．しかしながら，文献 [43]に記述されているように，データの長期にわたる系列を上手く取り扱うことができず，短期的な記憶のみしか表現できないことが問題であった．RNNの隠れ層のループ構造を展開すると非常に深い多層ニューラルネットワークと見なすことができるが，これにより長期的に学習した記憶を再認識できる期間に限界があったためである．これに対し，RNNの一種である Long Short Term

Memory(LSTM)[44]では，RNNのループ構造に入出力ゲート，忘却ゲートと呼ばれる特殊なゲートを組み込むことでこの問題を解決し，長期的な記憶を表現できるようになった．このように，深層学習は様々な分野において優れた性能を示しているが，学習するデー

タに応じて最適なネットワーク構造は異なるため，このネットワーク構造の設計や関連するパラメタの調整が非常に難しいことが問題となっている．一般的に，ネットワーク構造は経験的に与えられ，最適なネットワーク構造を得るためには試行錯誤的な反復計算が必要である．CNNのように，大規模な構造を持ったネットワークは莫大な数のパラメタを持ち，これらの全ての組み合わせを探索することは，一度の学習にかかる計算コストを考慮すると，一般的に困難である．そのため，独自に収集したデータに対して深層学習を適用する際に，モデルを試行錯誤的に設計し，構築するのではなく，上記で述べたAlexNet，VGG16，GoogLeNet，ResNetのような高い分類能力を持った既存の学習済みモデルを応用する転移学習 (Transfer Learning)と呼ばれる方法が研究されている [45]．転移学習では，高い分類能力を持った深層学習モデルが出力層に近づくにつれて，入力データの抽象的な特徴から具体的な特徴を表現していることを利用し，具体的な特徴を表す上位層の重みやパラメタを，目的のデータセットに合わせて修正する．しかしながら，既存の学習済みモデルの学習で用いられている ILSVRCの画像データと，独自に収集したデータでは，そもそもの学習ターゲットが異なるため，より高い分類能力を実現するためには，転移学習ではなく，独自のモデルを構築し，学習することが不可欠である．本論文では，このような深層学習における最適なネットワーク構造の問題を解決するた

2

めに，入力データに応じて適切なネットワーク構造を探索する構造適応型学習法を，確率的モデルであるRBM及びDBNにおいて開発した [A1]．構造適応型学習法とは，入力データの確率分布に応じて，ネットワークの構造を学習中に自動で求める学習法であり，従来の階層型ニューラルネットワークにおいて提案されている [46, 47, 48]．文献 [49, 50, 51]

では階層型ニューラルネットワークにおいて学習中の重みの変化を監視することで，最適な数の隠れニューロンを生成し，推論に不要なニューロンを自動で削除するニューロン生成／消滅アルゴリズムを提案している．本論文では，この考えをRBMに適用した構造適応型RBMを開発した [B1, B2]．文献 [49, 50, 51]の構造適応型学習法では，重みの変化を用いたニューロン生成条件が提案されているが，RBMでは，重みだけでなく入力と隠れニューロンに関するパラメタを同時に更新する必要があるため，新しいニューロンの統合的な生成条件を究明した．さらに，この考えに基づき，入力データに対して最適なRBM

の数 (隠れ層数)を求める構造適応型DBNを開発した [B3]．なお，CNNではなく，RBM

及びDBNに着目した理由は，RBM及びDBNは尤度に基づいた数理モデルであることから，確率分布モデルに基づいた深層学習の構造適応型学習法を提案できると考えたためである．開発した構造適応型RBM及び構造適応型DBNを様々な画像ベンチマークデータセッ

トを用いて性能評価したところ，各データセットに応じて適切なネットワーク構造が自動で構築され，CNNを含む既存の手法よりも高い分類精度を示した．学習用の訓練データに対してはほぼ 100%の分類精度を示し，評価用のテストデータに対しては，画像ベンチマークデータセットMNIST[52, 53]に対し 99.9%，CIFAR-10，CIFAR-100[54]に対し，それぞれ 98.4%，84.4%，ILSVRC2012に対し 97.8%，胸部X線画像CXR8[55]の全ての疾病カテゴリに対し 90%以上の分類精度を示し，現在公開されている手法 (既存の CNN

モデルも含む)の中で最も高い値となった．近年の深層学習は単なる画像だけでなく，多種多様なデータの分析が期待されている．

このため，医療検診データのように，血液検査データの数値，問診，カルテの自然言語，X線，CT，MRI等の医療画像から構成されるマルチモーダルデータに対する構造適応型DBNの学習法を開発し [A2]，また経年変化のように，時間によって変化する時系列データの予測を行う構造適応型DBNの学習法を開発した [A3]．前者では，構造適応型RBM

の学習中における入出力パタンに応じて，最終的な学習時間を短縮できるようにマルチモーダルデータの並びを入れ替える手法を開発した．この学習法により，マルチモーダルデータとして，実際の検査機関により収集された医療検診ビッグデータ [56]やスマートフォンにより収集された観光情報データ [57, 58]の学習に対して，分類精度を維持したまま，計算時間を約 30%短縮することに成功した [B4]．後者では，構造適応型DBNにリカレントニューラルネットワークにおける LSTMの考えを利用し，時系列データの予測をできるよう改良した．時系列ベンチマークデータセットとして音素列の Nottingham[59]

やモーションキャプチャのCMU[60]に対して，従来手法より高い予測精度を示した [B5]．また，構造適応型RBM及び構造適応型DBNの学習後のネットワークからの知識獲得

に関する研究を行った [A4]．上記で述べたように，構造適応型RBM及び構造適応型DBN

は高い分類精度を示したが，テストデータに対して 100%分類できるまでには至っていない．一般的に，学習済みの深層学習ネットワークはブラックボックスであり，ネットワーク内部に蓄積された知識の抽出に関する研究が行われている．本論文ではDBNの各層の

3

ニューロンが 2値 (0 or 1)のパタンで表現されていることを利用し，実行可能な 2値のパタンを学習後のDBNに与えることで，入力層から出力層に至るまでの信号の流れ (ニューロンの発火パタン)を分析し，特徴的なパタンを抽出する方法を用いて，ネットワーク内部に蓄積された知識を抽出した．抽出された信号のパタンから，誤った出力を生じる信号の流れを発見し，正しく出力するように信号の流れを変換 (調整)する重み修正法を開発した．重み修正法により，テストデータに対する分類精度が再学習することなく向上した [B6]．さらに，上記の信号の流れに基づいて，構造適応型DBNの入出力に関する推論ルールを IF-THENルール形式で抽出する手法を開発した [B7]．本論文で述べる構造適応型RBM及び構造適応型DBNは，上記のベンチマークデータ

セットだけでなく，実世界から収集されたビッグデータである医療検診データに対しても有効性を示している [B8]．構造適応型RBM及び構造適応型DBNにより，高い分類精度を持った深層学習ネットワークをデータに応じて自動で構築できるため，IoT等によって収集された独自データの分析を行う際，ネットワーク構造の調整を試行錯誤的に求める計算コスト，人的コストを削減できることが期待される．このことは，画像データだけでなく，マルチモーダルデータ，時系列データのように，IoT機器によって収集される多種多様なデータに対しても有効であるため，実用性が高い．また，このようなデータは連続的かつ逐次的に収集されるが，この中に学習パタンには含まれなかった未知なパタンが収集される場合がある．未知なパタンに対して誤分類を引き起こしている場合は，再学習し，ネットワークを再構築することが求められるが，重み修正法では，再学習することなく，未知なパタンに適応することが可能となり，その学習時間を短縮できる．さらに，構造適応型DBNが行う入出力パタンを IF-THENルール形式の知識として表現できる．これにより，知識ベースの推論が可能となる．一般的に，学習済み深層学習ネットワークを用いた推論を高速に行う場合，GPU機器を装備した PCが必要となるが，この知識を利用することにより，安価なPCやタブレット端末等においても深層学習と同程度の性能を持った推論が可能となり，産業界における深層学習の利活用の幅をさらに広げることが期待される．本論文の構成は次の通りである．2章では，開発した構造適応型RBM，構造適応型DBN

の手法について述べる．まず，2.1節で，従来のRBMについて概要を述べる．2.2節では，リップシッツ連続を用いてRBM学習の収束性を証明する．2.3節でDBNの概要を述べ，2.4節ではRBMやDBN，構造適応型学習法の関連研究について述べる．2.5節で従来の階層型ニューラルネットワークにおいて提案されている構造適応型学習法について述べ，この仕組みをRBMへ適用したニューロン生成／消滅アルゴリズムを述べる．2.6節では，層生成アルゴリズムによる構造適応型DBNについて述べる．2.7節で，いくつかの画像ベンチマークデータセットを用いて，構造適応型RBMと構造適応型DBNの分類精度を評価し，2章を締めくくる．3章では，画像データ，数値データ等の複数種類のデータが混在したマルチモーダルデータに対する構造適応型DBNの学習法を述べる．3.1節で本論文で述べるマルチモーダルデータの定義及び従来の学習法について述べ，3.2節で構造適応型DBNにおけるマルチモーダルデータの学習法について述べる．手法の性能評価のため，3.3節で観光情報データを用いた学習，3.4節で医療検診データを用いた学習を行う．4章では，構造適応型 DBNにおける時系列データの学習法について述べる．4.1節で

4

は，従来のRBMにおける時系列学習モデルについて述べ，4.2節で提案する構造適応型RBM及び構造適応型DBNの時系列データ学習法について述べる．4.3節では，学習パラメタの一つである学習係数の自動調整方法について述べる．4.4節では，いくつかの時系列ベンチマークデータセットを用いた評価実験を行う．5章では，学習後の構造適応型DBNのネットワークからの知識獲得手法について述べる．5.1節では，学習後のネットワーク構造からの知識獲得を容易にするために，ネットワークの出力を多くの 0と 1のパタンで表現するための忘却学習について述べる．5.2節では，学習後に与えられた入力に対する信号の流れに基づいて，誤分類を引き起こすデータを正しく修正する重み修正法について述べ，5.3節では，ネットワークの入出力に関する推論ルールを知識として抽出する方法について述べる．5.4節において，2章や 4章において学習した構造適応型DBNのネットワークを用いて提案手法の性能評価を行う．6章では，2章から 4章にかけて提案した手法を実際の検査機関から収集された医療検診ビッグデータに適用する．得られた学習結果を用いて，医師の診断を支援する深層学習システムを開発した．6.1節では，開発したシステムの概要について述べる．システムの性能評価として，得られた結果から知識獲得を行ったところ，癌に関連性があると考えられる血液検査項目に関する推論ルールをいくつか発見できた．さらに，胸部X線画像ベンチマークデータセットCXR8に提案手法を適用した．CXR8には，異常の場合における8種類の疾病に関する分類ラベルと画像内の異常箇所を示す矩形 (Bounding-Box; B-Box)

が与えられている．6.2節，6.3節において，それぞれ CXR8の画像分類と疾病箇所の物体検出を行う．最後に，7章において，これらの提案手法と得られた成果についてまとめ，本論文を締めくくる．

5

第2章構造適応型Deep Belief

Network

本章では，本論文で提案する構造適応型 Restricted Boltzmann Machine(RBM)及びDeep Belief Network(DBN)について述べる [A1]．2.1節では，一般的なRBMの概要を述べ，RBMの隠れニューロンが独立であることを説明する．2.2節では，RBM学習の収束性について，リップシッツ連続を用いて証明する．2.3節では，DBNの概要を述べる．2.4

節では提案手法の関連研究について述べ，2.5節で，提案する構造適応型RBMのニューロン生成／消滅アルゴリズムを述べる．2.6節では，ニューロン生成アルゴリズムに基づいた構造適応型DBNの層生成アルゴリズムを述べる．2.7節において，いくつかの画像ベンチマークデータセットを用いて提案手法の評価を行い，2.8節で本章のまとめを述べる．

2.1 Restricted Boltzmann Machine

RBM[32]は，相互結合型モデルであるボルツマンマシン (Boltzmann Machine)[61]において，各ニューロン間の接続が限定された特別なモデルである．ボルツマンマシンでは，図 2.1のように，全てのニューロン間に接続があるが，RBMでは，図 2.2のように，可視層と隠れ層の 2層から構成されるネットワーク構造があり，各層のニューロン間に結合はない．RBMの各ニューロン間の接続に方向はなく，無向グラフである．式 (2.1)のエネルギー関数E(v,h;θ)に基づき，入力データの確率分布を隠れニューロン上で学習する教師なし学習モデルである．ここで，v ∈ {0, 1}I と h ∈ {0, 1}J はそれぞれ可視層と隠れ層の状態ベクトルであり，Iと Jは，それぞれ可視ニューロンの数，隠れニューロンの数である．また，学習パラメタとして，可視ニューロン viに対するバイアス bi，隠れニューロン hjに対するバイアス cj，viと hjの間の結合荷重として重みWijの 3つのパラメタ θ = {b, c,W }がある．これらのパラメタは，観測された入力データに対して，エネルギー関数に基づく尤度を最大化することで求められる．式 (2.1)のエネルギー関数は，式 (2.2)のように，入力 vと hに対する確率分布 p(v, h;θ)に変形できる．

E(v,h; θ) = −∑i

bivi −∑j

cjhj −∑i

∑j

viWijhj, (2.1)

p(v,h; θ) =1

Z(θ)exp(−E(v,h;θ)), (2.2)

Z(θ) =∑v

∑h

exp(−E(v,h;θ)), (2.3)

ここで，Z(θ)は分配関数 (partition function)であり，vと hの全ての可能な 2値の組み合わせに対するエネルギーを示す．

6

h0 h5

h1

h2 h3

h4

図 2.1: ボルツマンマシンのネットワーク構造

visible neurons

hidden neurons

v0

Wij

h0...

...v1 v2vI

h1 hJ

図 2.2: RBMのネットワーク構造

7

2.1.1 ニューロンの独立性の説明図 2.2に示すように，RBMには可視ニューロンと隠れニューロン間のみ接続がある．このため，隠れ層の各隠れニューロン hjは，可視層に与えられた状態ベクトル vに対する条件付き確率により求められ，独立である．またこの逆として，可視層の各可視ニューロン viは，隠れ層に与えられた状態ベクトル hに対する条件付き確率により求められ，独立である [62, 63]．前者の証明を，下記に示す．可視層に与えられた状態ベクトル vに対する隠れ層の状態ベクトル hの条件付き確率

は，式 (2.2)の定義より，p(h|v,θ) = p(v,h; θ)

p(v;θ), (2.4)

である．ここで，式 (2.4)の右辺の分子は，

p(v,h; θ) =1

Z(θ)exp (−E(v,h;θ))

=1

Z(θ)exp

⎛⎝∑

i

bivi +∑j

cjhj +∑i

∑j

viWijhj

⎞⎠

=1

Z(θ)exp

(∑i

bivi

)exp

⎛⎝∑

j

cjhj +∑i

∑j

viWijhj

⎞⎠

=1

Z(θ)exp

(∑i

bivi

)exp

⎛⎝∑

j

hj

(cj +

∑i

viWij

)⎞⎠

=1

Z(θ)exp

(∑i

bivi

)∏j

exp

(hj

(cj +

∑i

viWij

)), (2.5)

のように展開できる．式 (2.4)の右辺の分母も同様に展開すると，

p(v;θ) =∑h

p(v,h;θ)

=1

Z(θ)

∑h

exp (−E(v,h; θ))

=1

Z(θ)

∑h

exp

⎛⎝∑

i

bivi +∑j

cjhj +∑i

∑j

viWijhj

⎞⎠

=1

Z(θ)

∑h

exp

(∑i

bivi

)exp

⎛⎝∑

j

cjhj +∑i

∑j

viWijhj

⎞⎠

=1

Z(θ)exp

(∑i

bivi

)∑h

exp

⎛⎝∑

j

hj

(cj +

∑i

viWij

)⎞⎠

=1

Z(θ)exp

(∑i

bivi

)∑h

∏j

exp

(hj

(cj +

∑i

viWij

)),

8

となり，ここで，

∑h

∏j

exp

(hj

(cj +

∑i

viWij

))

=J∑

hj={0,1}

∏j

exp

(hj

(cj +

∑i

viWij

))

=∏j

J∑hj={0,1}

exp

(hj

(cj +

∑i

viWij

))

=∏j

(exp(0) + exp(cj +

∑i

viWij)

)

=∏j

(1 + exp(cj +

∑i

viWij)

),

のように展開できるため，

p(v;θ) =1

Z(θ)exp

(∑i

bivi

)∏j

(1 + exp(cj +

∑i

viWij)

), (2.6)

となる．式 (2.4)に式 (2.5)と式 (2.6)を代入すると，

p(h|v,θ) =p(v,h;θ)

p(v;θ)

=∏j

exp (hj(cj +∑

i viWij))

1 + exp (cj +∑

i viWij),

ここで，与えられた vと θから求められる隠れニューロン hj に関する変数を λj = cj +∑i viWijとすると，

p(h|v,θ) = ∏j

exp(hjλj)

1 + exp(λj), (2.7)

となる．式 (2.7)は，与えられた vに対して，隠れ層の確率分布が，各隠れニューロンの状態変数 hjに関する分布の積から計算されることを表す．すなわち，可視層に vが与えられた際，隠れ層のhの各隠れニューロン hjは独立である．なお，与えられた vに対する隠れニューロン hjの条件付き確率 (発火確率)は，

p(hj = 1|v,θ) =exp(λj)

1 + exp(λj)

=1

1exp(λj)

+ 1

=1

1 + exp(−λj)

= sigmoid

(cj +

∑i

Wijvi

), (2.8)

9

のように導出できる．ここで，sigmoid(x) = 11+exp(−x)

はシグモイド関数であり，[0, 1]の値を出力する．隠れニューロン hjが独立である性質により，RBMでは隠れ層の各ニューロンごとに独

立した確率分布を学習することができる．文献 [62, 63]では，RBMは個々に学習された隠れニューロンの確率分布の積により入力全体の確率分布が表現される “product of experts”

モデルであると述べられている．なお，隠れ層に与えられたhに対して，可視ニューロンviが独立であることも，上記と同様の手順で証明可能である．詳細な手順は割愛するが，与えられたhと θから求められる可視ニューロン viに関する変数を λi = bi+

∑j hjWijと

すると，p(v|h, θ) = ∏

i

exp(viλi)

1 + exp(λi), (2.9)

となり，与えられた hに対して可視ニューロン viは独立である．また，与えられた hに対する viの条件付き確率 (発火確率)は，同様に，

p(vi = 1|h, θ) =exp(λi)

1 + exp(λi)

= sigmoid

⎛⎝bi +∑

j

Wijhj

⎞⎠ , (2.10)

となる．

2.1.2 RBMの学習RBMのパラメタ θ = {b, c,W }の最適値は，最尤法により，観測された入力データに対する尤度を最大化することで求められる．可視層に与えられた vに対する確率分布は，式 (2.6)に示したが，これを展開すると，

p(v|θ) =1

Z(θ)exp

(∑i

bivi

)∏j

(1 + exp (λj))

=1

Z(θ)exp

(∑i

bivi

)∏j

exp (ln (1 + exp (λj)))

=1

Z(θ)exp

(∑i

bivi

)exp

⎛⎝∑

j

ln (1 + exp (λj))

⎞⎠

=1

Z(θ)exp

⎛⎝∑

i

bivi +∑j

ln (1 + exp (λj))

⎞⎠ , (2.11)

となり，これに対数をとると，式 (2.11)は，パラメタ θのもとで，入力データに依存する確率分布 g(v|θ)と，入力データに依存しないモデルの確率分布 f(θ)に変形できる．

ln p(v|θ) =∑i

bivi +∑j

ln (1 + exp (λj))− lnZ(θ)

= g(v|θ)− f(θ), (2.12)

10

g(v|θ) =∑i

bivi +∑j

(ln(1 + exp(λj))), (2.13)

f(θ) = lnZ(θ), (2.14)

ここで，観測されたN 個の入力データを V = {v1, · · · ,vn, · · · ,vN}とすると，N 個の観測データに対する対数尤度 J は，式 (2.12)より，

J = lnN∏

n=1

p(vn|θ)

=N∑

n=1

ln p(vn|θ)

=N∑

n=1

(g(vn|θ)− f(θ))

= N〈g(vn|θ)〉data − 〈f(θ)〉model, (2.15)

となる．ここで，〈g(vn|θ)〉dataと〈f(θ)〉modelは，観測データとモデルに対する期待値である．式 (2.15)は，RBMの対数尤度が観測データに対する尤度とモデルに対する尤度から求められることを示している．これを最大化するパラメタを求めるため，式 (2.15)をパラメタ θで偏微分すると，

∂J

∂θ= 〈∂g(vn|θ)

∂θ〉data − 〈∂f(θ)

∂θ〉model, (2.16)

ここで，式 (2.16)の右辺の第 1項は，観測データから計算することができるが，第 2項のf(θ)は観測データに依存しないモデルに対する尤度で，f(θ)の中に含まれるZ(θ)の値を求めるためには，全てのニューロンの {0, 1}の組み合わせを計算する必要があり，現実的には計算が困難である．そのため，この値を推定するためにContrastive Divergence(CD)

法 [64, 65]のサンプリングによる近似が行われる．このとき，サンプリングの過程で，可視層から隠れ層，隠れ層から可視層への伝搬の計算が，それぞれ式 (2.8)，式 (2.10)により求められる．可視層に与えられた入力から隠れ層の計算を行い，得られた値を用いて隠れ層から可視層の計算する手順を 1回のサンプリングとした際，k回のサンプリングを行い，推定値を求めるCD法をCD-kと言う．Algorithm 2.1，Algorithm 2.2は，CD-1

を用いたRBMの学習アルゴリズムを示している．

Algorithm 2.1 RBMの学習1: 入力データを V = {v1, · · · ,vn, · · · ,vN}とする．N は入力データ数である．2: RBMの学習パラメタ θの初期化を行う．3: while 終了条件を満たすまで do

4: 与えられた学習データ V に対して，誤差 (損失関数)を計算する．ここでは，CD法による学習が行われる (Algorithm 2.2)．

5: 誤差を最小化するように，パラメタ θの更新を行う．6: end while

11

Algorithm 2.2 CD法 (CD-1)の学習1: 可視層 vに入力データをセットする．2: すべての隠れニューロンに対して，与えられた vに対する発火確率 p(hj = 1|v)を式

(2.8)により計算し，この確率に基づいてニューロンの状態変数 hj ∈ {0, 1}を求める．3: すべての可視ニューロンに対して，与えられた hに対する発火確率 p(v

′i = 1|h)を式

(2.10)により計算し，この確率に基づいてニューロンの状態変数 v′i ∈ {0, 1}を求める．

4: 入力 vと計算により求められた v′を用いて，誤差を計算する．

2.2 リップシッツ連続によるRBM学習の収束性一般的に，機械学習の学習が収束することを証明するためには，目的関数が凸性で連続

性を満たさなければならない [66]．RBMの目的関数は，上記で述べたように式 (2.15)により求められ，右辺の第 1項の g(θ)と右辺第 2項の f(θ)から構成される．式 (2.15)が凸関数を満たすことは文献 [67]により示されているが，g(θ)と f(θ)のうち，f(θ)については，連続性を満たさない場合があることが指摘されている．f(θ)は観測データに依存しないモデルに対する尤度であり，CD法のサンプリングによって近似値が推定されるが，このサンプリングの過程で，条件付き確率である連続値が 2値に変換されてしまうためである．本節では，この問題のため，テイラー展開により近似した各パラメタの変分が一定の範囲内に収まることで，リップシッツ連続を満たすことを理論的に導出する [D3]．まず，2.2.1節においてリップシッツ連続の定義を述べる．次に，2.2.2節で，一般的な関数として，LSE(Log Sum Exponential)関数を用いた場合における収束性をリップシッツ連続により証明する．最後に，2.2.3節でRBM学習における収束性を同様に証明する．

2.2.1 リップシッツ連続の定義リップシッツ連続は，ある関数における 2点間の傾きに関する条件である．ある関数 f

において，任意の 2点 x, y(x �= y)に対し，式 (2.17)を満たすL(≥ 0)が存在するとき，関数 f はリップシッツ連続を満たすという．

‖f(x)− f(y)‖ ≤ L‖x− y‖, (2.17)

ここで，Lはリップシッツ定数である．式 (2.17)は，関数fにおけるxからyの変化率が定数Lを超えないことを示している．すなわち，x → yとすると，‖f(x)−f(y)‖ ≤ L‖x−y‖ → 0

となり，f(x) → f(y)となるため，リップシッツ連続を満たす関数 f は微分可能であり，連続性を満たす．式 (2.17)は，2点間の傾きに関するリップシッツ条件であるが，任意のベクトルu,v ∈ D

に対しても同様の条件が成り立ち，式 (2.18)のように定義される [67]．

f(v) ≤ f(u) + 〈∇f(u),v − u〉+ L

2‖v − u‖2, (2.18)

12

ここで，〈a, b〉は 2つのベクトルの内積である．式 (2.18)は，ベクトルuから vへの変化についてテイラー展開を行うことで導出されており，右辺の第 2項は 1次の偏微分の勾配であり，第 3項はステップ幅である．機械学習において関数 f が式 (2.18)のリップシッツ連続を満たすということは，ベクトル uから vへの変化において，第 3項のステップ幅が，式 (2.18)の上限を超えない範囲で，徐々に小さくなることを意味する．なお一般に，式 (2.17)及び式 (2.18)は任意の p次ノルムで成り立つ．

2.2.2 LSE関数における収束性LSE(Log Sum Exponential)関数とは，RBMの目的関数のように，指数の和に対して対数をとった任意の関数である．ここでは，RBMの学習がリップシッツ連続を満たすことを述べる前に，一般的な LSE関数がリップシッツ連続を満たすことを述べる．本論文では，LSE関数を式 (2.19)と定義する．

lse(u) = lnJ∑

j=1

ωj exp(uj), (2.19)

ここで，uは任意のベクトルであり，ωは uj に関する定数ベクトルとする．式 (2.19)で与えられる LSE関数が式 (2.20)を満たすならば，リップシッツ連続を満たす．

lse(v) ≤ lse(u) + 〈∇lse(u),v − u〉+ 1

2‖v − u‖2∞, (2.20)

式 (2.20)が成り立つことを下記に示す．LSE関数のヘッセ行列は式 (2.21)のように与えられる．

∇lse(u) =ω � exp(u)

ωT exp(u),

∇2lse(u) =diag (ω � exp(u))

ωT exp(u)− (ω � exp(u)) (ω � exp(u))T

(ωT exp(u))2, (2.21)

ここで，diag()は対角行列であり，a�bはベクトルaと bの各要素の積により計算されるベクトルである．式 (2.21)の右辺第 1項は，非負で合計が 1となる対角行列であり，データの固有値成分を示している．第 2項は，負の固有値の行列であり，データに対するモデルのばらつきを示している．ここで，LSE関数をテイラー展開すると，

lse(v) = lse(u) + 〈∇lse(u),v − u〉+

∫ 1

0(1− t)(v − u)T∇2lse(u+ t(v − u))(v − u)dt, (2.22)

となる．式 (2.22)の右辺第 3項は，テイラー展開における積分項である．式 (2.21)の右辺第 2項をこの積分項を代入すると，

(v − u)T∇2lse(u+ t(v − u))(v − u)

≤ (v − u)Tdiag(ω � exp(u+ t(v − u)))

ωT exp(u+ t(v − u))(v − u)

13

=J∑

j=1

ωj exp(uj + t(vj − uj))

ωT exp(u+ t(v − u))(vj − uj)

2

≤ maxa≥0,‖a‖1=1

J∑j=1

aj(vj − uj)2

= ‖v − u‖2∞, (2.23)

のように任意のノルムを用いて展開できる．このとき，積分項は 2次のテイラー展開であるため，1

2‖v − u‖2∞となり，LSE関数において，式 (2.20)のリップシッツ連続の定理が

成り立つ．

2.2.3 RBMにおける収束性RBMの f(θ)は，3つの学習パラメタ θ = {b, c,W }がある．このため，3つのパラメタの変化を個別に解析することで，LSE関数で導出した手順と同様に，各パラメタの学習による変化がリップシッツ連続を満たすことを示すことができる [D3]．最終的に，b, c, W

の学習によるパラメタの変化は，リップシッツ連続のもと，それぞれ式 (2.24)，式 (2.25)，式 (2.26)のように示すことができる．

f({b, ck,W k}) ≤ f(θk) + 〈∇bf(θk), b− bk〉+ I

2‖b− bk‖2∞, (2.24)

f({bk, c,W k}) ≤ f(θk) + 〈∇cf(θk), c− ck〉+ J

2‖c− ck‖2∞, (2.25)

f({bk, ck,W }) ≤ f(θk) + tr((W −W k)T∇W f(θk))

+2IJ

2‖W −W k‖2S∞ , (2.26)

ここで，S∞ はシャッテンノルムである．式 (2.24)は，ある k 時点のパラメタを θk =

{bk, ck,W k}とし，この中で bについて偏微分を行った際の，bkから bへの変化を表している．式 (2.25)は cについて，式 (2.26)はW について，同様である．これらの式は，式(2.18)のリップシッツ連続における上限式と同じ意味を持ち，すなわち学習によって各パラメタの変化 (第 3項のステップ幅)が徐々に小さくなっていき，学習が収束することを示している．bに関する式 (2.24)が成り立つことは，次のように証明できる．f(θ)において，bを変

数とし，b以外の cとW に関する定数ベクトルをωと定義する．これをLSE関数の形式で表すと，

f(θ) = ln2I∑i

ωi exp(vTi b)

= lnωT exp(V Tb), (2.27)

ωi =J∑j

ln

(1 + exp(cj +

∑i

viWij)

), (2.28)

14

となる．ここで，V ∈ {0, 1}2Iは，可視ニューロンの全ての 2値のパタンを示す．式 (2.20)

の定理により，式 (2.27)は，

f({b, ck,W k}) ≤ f(θk) + 〈∇V Tbf(VTb),V Tb− V Tbk〉+ 1

2‖V Tb− V Tbk‖2∞

= f(θk) + 〈∇V Tbf(VTb),V T (b− bk)〉+ 1

2‖V T (b− bk)‖2∞

= f(θk) + 〈V T∇bf(θk),V T (b− bk)〉+ 1

2‖V T (b− bk)‖2∞

≤ f(θk) + 〈∇bf(θk), b− bk〉+ 1

2‖V T (b− bk)‖2∞, (2.29)

となる．ここで，

‖V T (b− bk)‖∞ = maxi

|vTi (b− bk)|

≤ I‖b− bk‖∞, (2.30)

となるため，式 (2.29)に式 (2.30)を代入すると，式 (2.24)が導出される．cに関連する式(2.25)，W に関連する式 (2.26)の証明も同様の手順で導出できる．

2.3 Deep Belief Network

Deep Belief Network(DBN)は，Hintonが提案した深層学習の手法であり，事前学習した RBMを複数積み重ねることで，入力データの特徴を階層的に学習することができる[31]．図 2.3は，4つのRBMを持つDBNのネットワーク構造を示している．DBNでは，各層において，RBMによる事前学習が段階的に行われる．ここで，2層目以降のRBM学習では，1つ前のRBM層の出力を入力とした学習が行われる．すなわち，l(>= 1)層の入力は v(l) = h(l−1)である．ここで，v(1) = h(0)は 1層目の入力である．l層目の学習パラメタを θ(l) = {b(l), c(l),W (l)}とすると，l層の j番目の隠れニューロンの発火確率は式(2.31)のように定義される．

p(h(l)j = 1|h(l−1)) = sigmoid(c

(l)j +

∑i

W(l)ij h

(l−1)i ), (2.31)

ここで，c(l)j ，W

(l)ij は l層の隠れニューロンのパラメタ，重みである．Algorithm 2.3は，

各層においてRBMによる事前学習を行うDBNの学習アルゴリズムを示している．RBMは教師なし学習である．DBNにおいて教師あり学習を行う場合は，全てのRBM

層の事前学習を終了した後，クラス分類を行うための出力層を最上位の層に加え，一般的な階層型ニューラルネットワークに基づく教師あり学習を行う．すなわち，式 (2.32)によるソフトマックス法により，出力層のカテゴリ kに対する確率 ykを計算し，教師信号との誤差をもとに，学習を行う．

yk =exp(zk)∑Mj exp(zj)

, (2.32)

ここで，zj は出力層における j番目のニューロン出力活性値である．M は出力層におけるニューロン数 (カテゴリ数)である．

15

hidden layer 1

v = h(0)

input layer

θ(1)

hidden layer 2

h(1)

h(2)

h(3)

h(4)

θ(2)

θ(3)

θ(4)

hidden layer 3

hidden layer 4

Pre-Trainingof 1st RBM

Pre-Trainingof 2nd RBM

Pre-Trainingof 3rd RBM

Pre-Trainingof 4nd RBM

図 2.3: DBNのネットワーク構造

Algorithm 2.3 DBNの学習アルゴリズム1: 入力データを V = {v1, · · · ,vn, · · · ,vN}とする．N は入力データ数である．2: 1層目のRBMの入力データ V (1) = V とその学習パラメタ θ(1)をセットする．3: for 1 ≤ l ≤ L do

4: V (l)と θ(l)を用いて，l番目のRBMの事前学習を行う (Algorithm 2.1)

5: l + 1層に対し，入力 V (l+1) = H(l)とパラメタ θ(l+1)をセットする．6: end for

16

2.4 関連研究2.1節，2.3節で述べた一般的なRBM及びDBNを拡張した手法が提案されている．RBMの可視層と隠れ層のニューロンは 2値で表現されるが，文献 [68]では，ガウス分布を用いることで，連続値を取り扱えるように拡張したGaussian Bernoulli Restricted Boltzmann

Machines (GBRBM)が提案されている．文献 [69]では，より複雑な入力パタンを隠れニューロン上で表現するために Spike-and-Slab RBM (ssRBM)が提案され，ここでは各隠れニューロンが，実数値を表現するための “slab”と 2値のパタンを表現するための“spike”の 2種類の状態変数を持っている．画像認識に対しては，CNNの畳み込み層やプーリング層をRBM，DBNに適用した手法が提案されており [70]，Convolutional RBM

[71], Convolutional DBN [72], Transformation Invariant RBM (TIRBM) [73]等がある．RBMのニューロンの表現能力を拡張する方法以外の手法として，重み等のネットワー

ク構造を学習する手法がある．文献 [74]では，RBMの目的関数の重みに対するL1，L2ノルムを加えることで，スパースな構造を獲得する Sparse RBMが提案されている．Sparse

Evolutionary Training (SET) RBM [75]は，進化計算の手法を用いた構造学習法である．文献 [76]では RBMの半教師あり学習手法として Class sparsity signature based RBM

(cssRBM)が提案されている．この手法では，通常のRBMの教師なし学習により獲得された構造を維持しながら，同時に，教師あり学習によりラベル付けされたデータに対する学習を行う．本論文では，上記の既存手法のように，RBM及びDBMのニューロンの表現能力を拡張する手法や，構造を学習する手法と異なり，通常のRBM及びDBNを用いて，入力データの確率分布に対して最適な隠れニューロン数及び隠れ層数を学習中に自動で求める構造適応型 RBM及び構造適応型 DBNを提案する．なお，上記の既存手法は，2.7節の数値実験において，画像ベンチマークデータセットに対する提案手法の分類精度との比較に用いる．構造適応型学習法は，3種類のアプローチが通常の階層型ニューラルネットワークにおいて提案されており，それぞれ，(1)ニューロンの枝刈りを行う手法 [46, 47, 48]，(2)他のクラスタリング手法の結果により構造を求める手法 [77]，(3)ニューロンの生成を行う手法 [78]，として知られている [79, 80]．この中で，一般的なアプローチは (1)と (2)であるが，本研究では (3)の手法に基づく構造適応型手法を開発した．(1)の手法では，枝刈りを行うために大きなネットワークから始める必要があるため，深層学習のような大きなネットワークが必要な学習では，構造やパラメタ等の初期計算コストが必要となり，結果として大きな計算資源が必要となる．(2)の手法では，深層学習自体の精度を直接利用するのではなく，他の手法を用いた結果を深層学習の学習に利用することになるため，計算結果はクラスタリング手法の精度に依存することになる．(3)の手法では，(1)と (2)の手法と比べて，学習中にニューロンの増減を自己組織的に求めることが可能である点に優位性がある．特に，深層学習では統計的には例外と考えられる事例に対しても学習できるが，必要なネットワーク構造を定めるためには試行錯誤的にパラメタを調整しなければならない．さらに，IoTにより逐次的にデータが収集される環境では，一度学習したネットワークが常に利用できるわけではなく，学習していない未知な特徴が表れた場合，それに対応する新しいニューロンを増やしたネットワークの必要性がある．これらの点におい

17

て，(3)のアプローチは有効である．(3)のアプローチに分類される手法として，通常の階層型ニューラルネットワークでは，

文献 [81]の手法が提案されている．この手法では，出力と教師信号の誤差に基づいて，学習を行いながらニューロンの生成を行う手法である．文献 [49, 50, 51]は，誤差だけでなく，重みの変化を監視しながらニューロンを生成する手法であり，これにより学習が収束することが証明されている．加えて，ニューロン生成後，出力に寄与していない不要なニューロンがあれば削除するアルゴリズムも提案されている．本論文では，RBMは教師なし学習であるため，文献 [81]のように教師信号との誤差を用いる方法ではなく，文献 [49, 50, 51]のようにパラメタの変化に基づいて構造を求める手法を開発した．また，2.2節で示したように，収束性が証明されている通常のRBM及びDBNを用いた構造適応型学習法を開発した．なお，RBMにおいて (3)に基づく構造適応型学習法はよく知られていない．文献 [82]ではRBMの学習中に冗長なニューロンを削除する手法が提案されているが，生成する手法は提案されていない．そのため，RBMにおいて学習を行いながら 3つのパラメタの変化を観測し，構造を求める手法にはオリジナリティがある．

2.5 構造適応型RBMによるニューロン生成／消滅アルゴリズム

本節では，提案する構造適応型RBMのニューロン生成／消滅アルゴリズムについて述べる．2.5.1節で，文献 [49, 50, 51]の階層型ニューラルネットワークにおける構造適応型学習法について述べ，2.5.2節で，この手法を RBMに適用したニューロン生成／消滅アルゴリズム [B1, B2]について述べる．

2.5.1 階層型ニューラルネットワークにおけるWalking Distance

階層型ニューラルネットワークでは，学習における目的関数が凸性であり，学習の勾配計算における重みの変化量が一定の小さな範囲内に収まれば，学習が収束することが証明されている [49]．さらに，この考えを用いて，重みの変化量に基づいたニューロン生成アルゴリズムを提案している [50, 51]．図 2.4は学習が進むにつれて重みの変分ベクトルが収束する過程を示している．入力データに対して十分な隠れニューロン数があれば，図2.4のように学習が進むにつれて重みの変分は小さくなり，ある一定の値に収束すると考えられる．一方，この条件を満たさず重みが収束しない場合は，学習データに対するネットワークの表現能力が不足しており，データのパタンを隠れニューロン上で表現できていないことが原因だと考えられる．このような場合，関連する位置に十分な数の隠れニューロンを挿入することでデータのパタンを表現できると考えられる．文献 [49, 50, 51]では学習中における重みの変分ベクトルをWalking Distance(WD)と定義している．WDは式(2.33)により計算される．

WDj[τ ] =τ∑

m=1

Met(W j[m],W j[m− 1]), (2.33)

18

Wj[0]

Wj[1]

Wj[2]

Wj[3]

Wj[4]

Wj[5]Wj[6]

Wj[7]

W1

W2

図 2.4: WDの収束状況

Met(a, b) =

√√√√ N∑i=1

(ai − bi)2, (2.34)

ここで，W j[τ ]は τ回目の学習における隠れニューロン jに関連する重みである．式 (2.34)

のMetはベクトル間の距離を計算する関数で，本論文ではユークリッド距離を用いる．実際には，WDは式 (2.35)により，τ − 1回目までの学習によるパラメタの変分と τ 回目の学習のパラメタの変分の和により近似される．

WDj[τ ] = γWWDj[τ − 1] + (1− γW )Met(W j[τ ],W j[τ − 1]), (2.35)

ここで，γW は τ − 1回目までの変分と τ 回目の変分の影響度を調整するパラメタで 0 <

γW < 1である．文献 [49, 50, 51]ではある一定回数の訓練後，隠れニューロン jのWDj[τ ]

の値が予め定められた閾値よりも大きい場合，その隠れニューロンの重みの属性値を継承し，新しく隠れニューロンを追加する手法が提案されている．

2.5.2 ニューロン生成／消滅アルゴリズム本節では，2.5.1節で述べた階層型ニューラルネットワークにおけるWDの考えをRBM

に適用したニューロン生成／消滅アルゴリズムについて述べる．2.2.1節で述べたように，階層型ニューラルネットワークと異なり，RBMでは，重みだけでなく，3つのパラメタの変分に基づいた指標を考える必要がある．

19

RBMの 3つのパラメタについて，入力に関するパラメタ bは入力データに応じて，パラメタ cとW は隠れニューロンの学習状況に応じて大きく変化し，特に，cとW は，同じ隠れニューロンに依存するパラメタであるため，互いに関連性を持って変化していることが以前の研究で分かっている [C1]．つまり，パラメタ cとW の変化には，片方の値が増加 (減少)すれば，片方の値も同様に増加 (減少)するという相関関係がある．このことについては，2.7.4節の実験において示す．そのため，本論文では，bは入力に関するパラメタであるため考慮せず，cとW を用いたニューロン生成条件を考えた．さらに，これら 2つの変化をそれぞれ別々に使用するのではなく，2つの変化の関係性を積で表現する方法を取った．ニューロン生成の条件を式 (2.36)に示すように定義した．

WDcj ·WDWj> θG, (2.36)

WDcj = γcWDcj + (1− γc)(|cj[τ ]− cj[τ − 1]|), (2.37)

WDWj= γWWDWj

+ (1− γW )Met(W j[τ ],W j[τ − 1]), (2.38)

ここで，WDcj，WDWjはそれぞれ j番目の隠れニューロンに関するパラメタと重みに関

する学習の変分であり，0以上の値をとる．これらは，式 (2.35)と同様の計算方法で求められ，隠れニューロン jに関連する cjとW jの変分が観察される．θGはニューロン生成に関する閾値であり θG > 0の値をとる．θGの値が小さくなるに従って，ニューロン生成条件は満たされやすくなる．学習中に式 (2.36)を満たす隠れニューロンがある場合，該当する隠れニューロンの属性を継承したニューロンが式 (2.39)のように生成される．図2.5(a)はニューロンの生成過程を示している．このとき，元のパラメタ値に，微小な値として平均 0，標準偏差 σの正規乱数N(0, σ2)をノイズとして加えることで，ニューロン生成後の学習によるパラメタの変化が親のニューロンと全く同じ方向に進むことを抑制し，親とわずかに異なる特徴を学習させることができる．本論文では，微小な振動を与えるために，σ = 0.1とした．なお，加算するノイズのパラメタ σについては，cjとWijで同じ値を使用しているが，両者の取り得る範囲に大きな違いはなく，さらに本論文で使用している値 (σ = 0.1)であれば，元の範囲を大きく超えるような値にはならないため，個別の値を設定していない．

cnewj = cj +N(0, σ2), W newij = Wij +N(0, σ2), (2.39)

なお，図 2.5(a)では，新しいニューロンは親のニューロンの隣の位置に挿入されているが，実際のRBMの学習においてはニューロンの並びは関係なく，式 (2.39)により新しいニューロンと親のニューロンの重みが空間上近いことを意味している．ニューロン生成により入力データに対して十分な数の隠れニューロンが生成された後，

そのうち出力に寄与していない，すなわち冗長な値を出力する隠れニューロンが存在する場合がある．構造適応型RBMでは，一定の学習の後，式 (2.40)を満たす隠れニューロンが存在すれば，該当する隠れニューロンを図 2.5(b)のように消去する．式 (2.40)ではすべての入力データに対する隠れニューロンの出力値の平均を観察し，その値が一定の閾値

20

visible neurons

hidden neurons

v0

h0

v1 v2

hnew h1

v3

visible neurons

hidden neurons

v0

h0

v1 v2

h1

v3

generation

(a) ニューロン生成

visible neurons

hidden neurons

v0

h0

v1 v2

h1 h2

v3

visible neurons

hidden neurons

annihilation

v0

h0

v1 v2

h1 h2

v3

(b) ニューロン消滅

図 2.5: 構造適応型RBM

以下のニューロンを冗長なニューロンとみなし，削除する．

1

N

N∑n=1

p(hj = 1|vn) < θA, (2.40)

ここで，p(hj = 1|vn)は n番目の入力データ vnを与えた際の隠れニューロン hjの発火確率を示している．θAはニューロン消滅に関わる閾値であり，0 < θA < 1の値をとる．θAが大きくなるに従って，ニューロン消滅が適用されやすくなる．ニューロン生成と消滅に関するパラメタ θG，θAは事前に適切な値を与える．これらの値は学習データの次元数やサンプル数及び隠れニューロン数に関連すると考えている．例えば，複雑で大量のデータを扱う場合，θGは小さく設定し，ニューロン生成を起きやすくする．初期の隠れニューロン数が少ない場合も同様である．一方，データに対し隠れニューロン数が少なすぎる場合は，冗長な値を出力するニューロンが少なくなるため，θAの値を大きくしてもニューロン消滅があまり起こらない．Algorithm 2.4は，構造適応型 RBMの学習アルゴリズムを示している．

21

Algorithm 2.4 構造適応型RBMの学習アルゴリズムRequire: このアルゴリズムは，Algorithm 2.1の 5行目の後に実行される．1: for all hj ∈ h do

2: if 隠れニューロン hjが式 (2.36)を満たす場合 then

3: 新しい隠れニューロンが生成され，j + 1番目に挿入される．4: else if 隠れニューロン hjが式 (2.40)を満たす場合 then

5: 隠れニューロン hjが除去される．6: end if

7: end for

2.6 構造適応型DBNによる層の生成条件従来の階層型ニューラルネットワークでは，学習状況の訓練誤差に応じて新しい隠れ層

を生成する手法がある [81]．一方，深層学習のように，従来よりも大規模なネットワーク構造を持つ手法では，層を自動で決めるよりも試行錯誤的に決定する方が一般的である．DBNでは，各層においてRBMによる事前学習を行い，1層ずつ層を積み重ねていくことで，ネットワークの表現能力が上がる [25]．しかしながら，層の数が多くなると，層の生成により必ずしも分類精度が上がるとは限らないため，一般的には，試行錯誤的に層の生成を行う必要がある．本論文では,事前学習において学習が適切に行われれば，上位層ほど与えられた入力データに対するエネルギーやパラメタの変化が小さくなることを用いて，DBNにおける層の生成条件 [B3, C4]を提案する．構造適応型 RBMにおけるニューロン生成アルゴリズムでは学習中のWD(パラメタ c

とW の変分)を観察したが，構造適応型DBN[C4]では個々のRBMではなくネットワーク全体のWDとエネルギーを式 (2.41)と式 (2.42)を用いて観察した．

L∑l=1

WD(l) > θL1, (2.41)

L∑l=1

E(l) > θL2, (2.42)

ここで，WD(l) =∑J

j=1(WD(l)cj·WD

(l)Wj

)であり，WD(l)cjとWD

(l)Wjはそれぞれ l層目のRBM

における cjとW jに関するWDを示している．E(l)は l層目のエネルギー関数であり，式(2.1)により計算される．θL1，θL2は予め与えられる閾値である．あるL層目のRBMの学習中に式 (2.41)及び式 (2.42)を同時に満たす場合，入力データに対するネットワーク全体の表現能力が不足していると考え，L層目の学習が終了した時点で，L+1層目のRBMを生成し学習を行う．L+ 1層目のRBMのパラメタの初期値は，式 (2.39)と同様の方法で，L層目のパラメタを継承することで初期化される．図 2.6に示すように，構造適応型DBN

では，各層において，構造適応型RBMによる事前学習が行われる．すなわち，各層において最適な隠れニューロン数を求めながら，最適な隠れ層も同時に求める．Algorithm

2.5は，構造適応型DBNの学習アルゴリズムを示している．

22

pre-training between 1st and 2nd layers

pre-training between 4th and 5th layers, and fine-tuning for supervised learning

Input

Generation

Generation

Annihilationpre-training between 2nd and 3rd layers

pre-training between 3rd and 4th layers

Suitable number of hidden neurons and layers is automatically generated.

図 2.6: 構造適応型DBNによる層の自動生成

Algorithm 2.5 構造適応型DBNの学習アルゴリズム1: 入力データを V = {v1, · · · ,vn, · · · ,vN}とする．N は入力データ数である．2: 1層目のRBMの入力データ V (1) = V とその学習パラメタ θ(1)をセットする．3: l = 1とする．4: while 終了条件を満たすまで do

5: V (l)と θ(l)を用いて，l層目の構造適応型RBMの事前学習を行う (Algorithm 2.1,

Algorithm 2.4)

6: if 学習中に式 (2.41)かつ式 (2.42)を満たす場合 then

7: l + 1層を生成し，入力 V (l+1) = H(l)とパラメタ θ(l+1)をセットする．8: else

9: 層の生成をストップし，学習を終了する．10: end if

11: end while

23

2.7 実験本節では，いくつかの画像ベンチマークデータセットを用いて，提案する構造適応型

RBM及び構造適応型 DBNの有効性を検証する．まず，2.7.1節において，構造適応型RBM及び構造適応型DBNの評価方法について述べる．2.7.2節では，数値実験で使用する画像ベンチマークデータセットについて述べ，2.7.3節では，使用する計算機の環境について述べる．2.7.4節では，構造適応型RBMにおけるニューロン生成条件の式 (2.36)の妥当性を示す．式 (2.36)は，RBMの 3つのパラメタ b，c，W のうち，c，W の 2つしか使用せず，和ではなく積空間を用いたニューロン生成条件であるが，これについて問題がないことを数値実験により示す．2.7.5節では，構造適応型RBMのニューロン生成／消滅アルゴリズムにより，得られたネットワーク構造及びその分類精度について，様々なパラメタの組み合わせを用いた実験を行う．2.7.6節では，構造適応型DBNの層生成アルゴリズムの検証を行い，CNN等を含めた他の既存の手法との分類精度を比較し，有効性を検証する．

2.7.1 深層学習におけるネットワーク構造の評価方法本実験では，構造適応型RBMにおけるニューロン生成／消滅アルゴリズム及び構造適

応型DBNにおける層生成アルゴリズムより得られたネットワーク構造の最適性を示すために，クロスバリデーションによる性能評価を行う．一般的に，構造適応型学習法のように学習中に構造を変化させる手法の評価方法としては，学習により得られたネットワーク構造に対する分類精度だけでなく，構造自体の複雑さを評価する指標が必要である．このような指標として，AIC(Akaike Information Criterion)[83]はモデルの構造とデータに対する誤差を同時に評価する指標として知られている．AICは，式 (2.43)により計算される．

AIC = −2l + 2p, (2.43)

ここで，lはモデルの対数尤度であり，pはモデルのパラメタ数を示している．AICは，統計学の分野で非常に有名な指標であるが，深層学習の分野では，構造を評価するためには適切でないことが分かっている [84, 85]．この理由として，AICを利用するためのモデルの条件として，(1)データの真の分布を表現できること，(2)パラメタの真の最尤推定量を求められること，(3)Fisher情報行列の基本性質が成り立つことの 3つの条件があるが [86]，深層学習のモデルではこれらの条件を満たさないと考えられる．まず，(1)についてだが，深層学習が取り扱うデータ量は，従来の階層型ニューラルネットワークと比較して膨大である．例えば，IoT機器等によりデータが連続的に収集される環境では，以前の分布には見られなかった未知なデータが含まれる場合があり，データの真の分布を表現することが不可能である．次に，(2)についてだが，(1)と同様に，真の推定量を求めることは困難である．最後に，(3)のFisher情報行列の基本性質が成り立つためには，モデルが単射性と正則性を満たす必要がある．単射性と正則性が成り立たないモデルは特異モデルと呼ばれる．深層学習では，パラメタを更新しても損失関数が変化しないプラトーと呼ばれる部分が存在し，これにより，(3)の条件を満たさない．さらに，文献 [87]では，モデルのパラメタ数は，データ nに対して通常 2

√n(高々n/2)までの必要があると述べて

24

いる．深層学習では，取り扱うデータ数に対して，パラメタ数は非常に多く，この条件を満たさない場合がある．例えば，ILSVRCにおけるAlexNetには，約 6,000万個のパラメタがある．以上のことから，AICのような指標を深層学習モデルで使用することは好ましくない．なお，AICのような指標としてNIC(Network Information Criterion)[88]やNNIC(Neural Network Information Criterion)[89]があるが，これらについても同様である．そのため，本論文では，AIC，NIC，NNICを構造の評価として使用せず，10回の試行の平均を求める 10-foldクロスバリデーション [90]を様々なパラメタの組み合わせに対して行い，その分類精度を用いて手法の評価を行った．

2.7.2 画像ベンチマークデータセット本節では，数値実験に用いる画像ベンチマークデータセットについて説明する．

A. MNIST

MNIST[52]は数字の 0から 9の手書き文字画像のデータセットであり，訓練画像 60,000

枚，テスト画像 10,000枚から構成される．各画像は 28× 28ピクセルのグレースケース画像である．図 2.7は，MNISTの画像のサンプルを示している．

B. CIFAR-10とCIFAR-100

CIFAR-10[54]は，車や犬などの 10種類カテゴリを持つのカラー画像データセットである．50,000枚の訓練用の画像を学習し，10,000枚のテスト用の画像を用いて分類精度を検証する問題である．CIFAR-10はMNISTのようにグレースケースの画像ではなく，32 × 32 × 3ピクセルのカラー画像である．CIFAR-100は，CIFAR-10と同様のカラー画像データセットで，訓練画像数，テスト画像数も同じであるが，カテゴリ数が異なり，CIFAR-10が 10種類のカテゴリに対して，CIFAR-100は 20種類のカテゴリに分類された100種類のサブカテゴリがある．表 2.1，表 2.2は，それぞれCIFAR-10とCIFAR-100のカテゴリの一覧を示している．図 2.8，図 2.9は，それぞれCIFAR-10とCIFAR-100の画像のサンプルを示している．

C. ILSVRC

ILSVRC(ImageNet Large Scale Visual Recognition Competition)[36]とは，2010年から始まった大規模画像認識の世界大会である．約 120万枚の学習用画像，5万枚のテスト画像があり，これらを 1,000個のラベルに分類する．モデルの評価には，モデルによって出力されたラベルの上位 5つの可能性の中に，実際のラベルが含まれていれば，正解とする “Top-5 Error”が扱われている．2012年に深層学習モデル AlexNetが登場し，他の手法に比べて圧倒的な分類精度示したことで，深層学習がより注目されるようになった．本論文では，ILSVRCで優勝した有名な深層学習モデルとして，AlexNet[37]，VGG16[38]，

GoogLeNet[39]，ResNet[40]を用いて，提案手法の分類精度を検証した．AlexNetは，Alex

25

図 2.7: データセットMNIST

26

表 2.1: CIFAR-10のカテゴリカテゴリ名airplane

automobile

bird

cat

deer

dog

frog

horse

ship

truck

表 2.2: CIFAR-100のカテゴリカテゴリ名サブカテゴリ名aquatic mammals beaver, dolphin, otter, seal, whale

fish aquarium fish, flatfish, ray, shark, trout

flowers orchids, poppies, roses, sunflowers, tulips

food containers bottles, bowls, cans, cups, plates

fruit and vegetables apples, mushrooms, oranges, pears, sweet peppers

household electrical devices clock, computer keyboard, lamp, telephone, television

household furniture bed, chair, couch, table, wardrobe

insects bee, beetle, butterfly, caterpillar, cockroach

large carnivores bear, leopard, lion, tiger, wolf

large man-made outdoor things bridge, castle, house, road, skyscraper

large natural outdoor scenes cloud, forest, mountain, plain, sea

large omnivores and herbivores camel, cattle, chimpanzee, elephant, kangaroo

medium-sized mammals fox, porcupine, possum, raccoon, skunk

non-insect invertebrates crab, lobster, snail, spider, worm

people baby, boy, girl, man, woman

reptiles crocodile, dinosaur, lizard, snake, turtle

small mammals hamster, mouse, rabbit, shrew, squirrel

trees maple, oak, palm, pine, willow

vehicles 1 bicycle, bus, motorcycle, pickup truck, train

vehicles 2 lawn-mower, rocket, streetcar, tank, tractor

27

図 2.8: データセットCIFAR-10

28

aquarium_fish bed bicycle beetle bear bed beetle bicycle bed beetle

bicycle aquarium_fish bed beaver beetle apple bicycle bear baby bottle

beetle beaver aquarium_fish bee bed bottle bicycle bed bed beaver

aquarium_fish apple bottle beaver beaver bear apple beaver bicycle apple

bicycle baby bottle bed bottle beetle beaver bee beetle bottle

baby bottle bear beetle beetle bicycle baby baby apple baby

bed bear bee beaver beetle baby bear beetle bicycle beetle

baby bed apple apple beetle apple bottle bee aquarium_fish apple

bear bottle beetle beaver bottle aquarium_fish bee bicycle aquarium_fish baby

bear bear bed beaver bicycle bottle beetle beaver beaver aquarium_fish

図 2.9: データセットCIFAR-100

29

等によって提案されたCNNモデルである．AlexNetは，8層の構造を持つ畳み込みニューラルネットワークである．VGGは，2014年にKaren等によって提案されたCNNモデルである．層の数によって，VGG11，VGG13，VGG16，VGG19がある．GoogLeNetは，Chris-tian等によって提案されたCNNモデルであり，22層の構造を持つ．ResNetは，Kaimin

等によって 2015年に提案された CNNモデルである．これらの学習済みモデルは，転移学習の研究でよく使用されている．

2.7.3 実験の環境本論文では，次のスペックを持つPCを用いて数値実験を行った．CPU: Intel(R) 24 Core

Xeon E5-2670 v3 2.3GHz, GPU: Tesla K80 4992 24GB × 3, Memory: 64GB, OS: Cen-

tOS 6.7 64 bit．深層学習を実装するためのライブラリとして，Theano[91, 92]，Caffe[93]，Torch[94]，Chainer[95]，TensorFlow[96]，Keras[97]等が知られているが，本論文では，この中でTheanoを用いて構造適応型RBM及び構造適応型DBNの実装を行った．Theano

は，モントリオール大学のLISA研究室で開発された深層学習ライブラリである．Theano

では，配列計算や微分処理などの基本的な数値演算や，GPUを用いた計算速度の最適化などが実装されている．

2.7.4 実験1: 学習中のWDの観測本節では，構造適応型RBMのニューロン生成条件の式 (2.36)において，RBMの 3つのパラメタのうち cとW の 2つしか使用していないこと，積空間によりこれらを 1つの指標として評価しても問題ないことを，数値実験により示す．このために，データセットMNISTを用いて，RBMの学習中の b, c, W の変分としてWDを観測した．RBMの学習アルゴリズムには Stochastic Gradient Descent (SGD)を用い，学習率は 0.1，学習のバッチサイズは 100とした．100個の隠れニューロンがあればMNISTの学習がうまくいくことが予備実験から分かっているが，ここでは，隠れニューロン数がデータに対して不足し，パラメタのWDが振動するケースを調査するため，隠れニューロン数は 10個とした．図2.10は，学習中の b, c, W の変分としてWDを示している．図 2.10に示すように，各パラメタのWDは学習が進むにつれて徐々に小さくなっている．実験結果より，3つのパラメタについて，それぞれ学習中の変化が大きくなっている箇所が見られた．入力に関するパラメタ bは入力データに応じて，パラメタ cとW は隠れニューロンの学習状況に応じて大きく変化していることが分かった．特に，cとW は，同じ隠れニューロンに依存するパラメタであり，互いに関連性を持って変化していることが分かった．表 2.3は，cとW の変化であるWDcj とWDWj

について，WDcj(もしくはWDWj)が大きくなった (小

さくなった)場合，同時，もしくは 1エポック前後にWDWj(もしくはWDcj)も大きくな

る (小さくなる)割合を示している．表の数値は 10回の試行に対する平均と標準偏差を示している．表の数値から，パラメタ cとW の変化には，片方の値が増加 (減少)すれば，片方の値も同様に増加 (減少)するという相関関係が見られた．このため，これらの 2つの変化をそれぞれ別々に使用するのではなく，1つの指標で同時に示すことで，隠れニュー

30

0

0.2

0.4

0.6

0.8

1

0 10 20 30 40 50 60 70 80 90 100

<-- c

<---- b

<-------------- W

WD

epochs

bc

W

図 2.10: RBMにおけるパラメタ θ = {b, c,W }の収束状況

ロンに対する変化指標を作成することを考え，2つの変化の関係性を積で表現する方法を取った．なお，式 (2.36)のニューロン生成条件において，2つのパラメタの関係性を積ではなく，和で表現する方法も考えられる．積の場合，WDcjとWDWj

の大小は区別されず，例えば，(1) WDcj = 2,WDWj

= 0.5，(2) WDcj = 1,WDWj= 1，(3) WDcj = 0.5,WDWj

= 2の区別は全て同じ状態であるとみなされる．しかしながら，RBMでは 1つの隠れニューロンについてパラメタ cj とニューロン jに関連する重みW j の 2つのパラメタが接続されており，同時に評価する必要がある．実際に，RBMの式 (2.1)によりRBMのエネルギーを評価する際，上記 (1)から (3)の 3つのケースを区別することなく，全てのニューロンが持つエネルギーの和により評価されている．そのため，本論文では，学習中のニューロンの動作に対する指標としてはそれぞれ分解せず，1つの指標として計算した．表 2.4は，RBMで学習した際，ニューロン生成条件を満たす隠れニューロン jのWDcj

とWDWjの値及び全体のエネルギーに対するニューロン jが持つエネルギーの割合を，(1)

から (3)の 3つのケースに対しそれぞれ示したものである．表 2.4から，WDcj とWDWj

は，(1)から (3)のケースに応じて値は異なるが，エネルギーが示す値は概ね同じであり，WDcj とWDWj

の積も同様に近い値をとる．以上のことから，RBMではエネルギーに基づいて計算が行われるため，(1)から (3)のケースは区別されず，ニューロンが持つ 2つのパラメタの変化を積で同時に表現することは妥当だと考えられる．なお，このような傾向は，MNISTだけでなく，CIFAR-10やCIFAR-100等の他のデータセットに対しても見

31

表 2.3: パラメタ cとW の関係性該当する割合 (%)

ケース平均標準偏差WDcj(WDWj

)が閾値を超え，同時にWDWj(WDcj)も

閾値を超える75.6% 0.013

WDcj(WDWj)が閾値を超え，1エポック前後でWDWj

(WDcj)も閾値を超える98.1% 0.010

WDcj(WDWj)が閾値以下で，同時にWDWj

(WDcj)も閾値以下

79.3% 0.014

WDcj(WDWj)が閾値以下で，1エポック前後でWDWj

(WDcj)も閾値以下97.8% 0.012

表 2.4: WDcj とWDWjの 3つのケースに対するエネルギーと積の値

ケース WDcj WDWjニューロンのエネルギーの割合 WDcj ·WDWj

1. WDcj > WDWj0.101 0.075 0.028 0.007

2. WDcj WDWj0.091 0.093 0.026 0.008

3. WDcj < WDWj0.078 0.101 0.027 0.007

られた．

2.7.5 実験2: 画像データに対する構造適応型RBMの分類精度本節では，画像ベンチマークテストMNIST，CIFAR-10及びCIFAR-100，ILSVRCを用いて構造適応型RBMの分類精度を検証する．

A. MNISTに対する分類精度

MNISTに対し，従来のRBMと構造適応型RBMにより学習を行い，結果を比較した．従来のRBMは，ニューロン生成／消滅を行わない一般的なRBMである．RBMの学習アルゴリズムにはSGDを用い，学習率は0.01，学習のバッチサイズは100とした．ニューロン数は 10とした．構造適応型RBMの学習には，ニューロン生成パラメタとして，θG = 0.010，ニューロン消滅のパラメタとして θA = 0.010とした．図 2.11から図 2.14は，MNISTに対して，それぞれRBMのエネルギー，各パラメタの

WD，隠れニューロン数について従来のRBMと提案手法のRBMを比較した結果を示している．図 2.11に示すように，従来の RBMでは，学習が始まってもエネルギーの関数の値に大きな変化がなく，学習後期においても小さな値にならなかった．これは，従来のRBMでは入力データを表現するための隠れニューロン数が不足しているためだと考えられる．その結果，図 2.12に示すように，学習後期においても各パラメタが振動している．一方，提案手法の構造適応型RBMでは，学習が進むにつれてエネルギーが徐々に小

32

-300

-250

-200

-150

-100

-50

0

50

0 100 200 300 400 500

Ener

gy

epochs

hidden neurons 10hidden neurons 10 (adaptive RBM)

図 2.11: エネルギー関数 (MNIST)

さくなった．これは，図 2.13において，隠れニューロンのパラメタのWDが上昇し，隠れニューロンが生成されたためである．ニューロン生成の直後はエネルギーや各パラメタのWDは一時的に振動したが，学習が進むにつれて，これらは小さな値になり，学習後期にはエネルギーだけでなく全てのパラメタのWDを従来の RBMよりも小さくすることができた．最終的に，ニューロン生成アルゴリズムにより隠れニューロン数は 10個から 74個になり，ニューロン消滅アルゴリズムにより 62個になった (図 2.14)．表 2.5は，MNISTに対する従来のRBMと構造適応型RBMの分類精度を示している．従来のRBMと比較して，構造適応型RBMは訓練データだけでなく，テストデータに対して高い分類精度を示した．

33

0

0.05

0.1

0.15

0.2

0 100 200 300 400 500

<-- c

<-------------- b

W ->

WD

epochs

bc

W

図 2.12: 各パラメタのWD(従来のRBM, MNIST)

0

0.05

0.1

0.15

0.2

0 100 200 300 400 500

<-- c

<-- b

W -->

WD

epochs

bc

W

図 2.13: 各パラメタのWD(構造適応型RBM, MNIST)

34

0

10

20

30

40

50

60

70

80

0 100 200 300 400 500

Num

ber o

f hid

den

neur

ous

epochs


図 2.14: 隠れニューロン数 (MNIST)

表 2.5: 分類精度 (MNIST)

手法訓練データテストデータ従来のRBM (隠れニューロン数 = 10) 93.4% 72.9%

構造適応型RBM (学習後の隠れニューロン数 = 77) 100.0% 83.3%

35

B. CIFAR-10とCIFAR-100に対する分類精度

CIFAR-10に対し，従来のRBMと構造適応型RBMにより学習を行い，結果を比較した．RBMの学習アルゴリズムには SGDを用い，学習率は 0.01，学習のバッチサイズは100とした．学習初期の重みは [−1.00, 1.00]の範囲でランダムに与え，隠れニューロン数は100から 500の範囲を 50刻みで与えた．構造適応型RBMの学習には，ニューロン生成パラメタとして，θG = {0.001, 0.005, 0.010, 0.050, 0.100}，ニューロン消滅のパラメタとしてθA = {0.001, 0.005, 0.010, 0.050, 0.100}，初期隠れニューロン数を {100, 200, 300, 400, 500}の全ての組み合わせで比較した．つまり，従来のRBMは 9つの組み合わせ，構造適応型RBMでは 125のパラメタの組み合わせで実験を行った．図 2.15から図 2.18は，CIFAR-10に対する従来のRBM(隠れニューロン数 300)と構造適応型RBM(初期隠れニューロン数 300，θG = 0.1, θA = 0.1)の学習状況を示しており,それぞれ順に，エネルギー関数，各パラメタのWD(従来のRBM)，各パラメタのWD(構造適応型RBM)，隠れニューロン数を示している．図 2.15に示すように，従来のRBMでは，学習が始まってもエネルギーの関数の値に大きな変化がなく，学習後期においても小さな値にならなかった．これは，従来のRBMでは入力データを表現するための隠れニューロン数が不足しており，その結果，図 2.16に示すように，学習後期においても各パラメタが振動しているからだと考えられる．一方，提案手法の構造適応型RBMでは，学習が進むにつれてエネルギーが徐々に小さくなった．これは，図 2.17において，式 (2.36)におけるニューロン生成条件を満たし，十分な数の隠れニューロンが生成されたためだと考えられる．ニューロン生成の直後はエネルギーや各パラメタのWDは一時的に振動したが，再度学習した結果，これらは小さな値になり，学習後期にはエネルギーだけでなく全てのパラメタのWDを従来のRBMよりも小さくすることができた．最終的に，ニューロン生成アルゴリズムにより隠れニューロン数は 300個から 372個になり，ニューロン消滅アルゴリズムにより 370個になった．なお，上記の構造適応型RBMの結果は，全パラメタの組み合わせ 125ケースの 1ケースを示しているが，残りの 124ケースについても同様の結果が得られた．表 2.6は CIFAR-10に対する従来のRBMの分類精度を示している．ここで，表 2.6に

おける “N”は隠れニューロン数，“J”は式 (2.15)の目的関数の値を示しており，値が 0に近いほどモデルが入力データに適応していることを示す．“平均”と “標準偏差”はクロスバリデーションの 10回の試行のテストデータに対する分類精度の平均 (%)と標準偏差を示す．この結果から，従来のRBMでは，隠れニューロン数が 400の場合，分類精度の平均値が 79.8%となり，最も高くなった．表 2.7は CIFAR-10に対する構造適応型 RBMの分類精度で，全 125ケースの一部 (最良，最悪を含む)を示している．表 2.7の 4番目の列は構造適応型 RBMの学習終了時点の隠れニューロン数を示している．構造適応型 RBMの最も高い分類精度は，初期隠れニューロン数が 100, 200, 300, 400, 500に対して，それぞれ平均値が 81.4%, 82.3%, 82.1%,

82.3%, 81.7%となった．ほとんどのパラメタ設定において，従来のRBMに比べて構造適応型 RBMの分類精度と目的関数 J は優れた値となった．構造適応型 RBMの全 125通りのパラメタの組み合わせの中で，従来のRBMの最良の分類精度である 79.8%より高くなったパラメタの組み合わせは 92通りであった．これらの場合では，学習終了時点の最

36

-1050

-1000

-950

-900

-850

-800

-750

0 50 100 150 200 250 300

Ener

gy

epochs


図 2.15: エネルギー関数 (CIFAR-10)

0

0.01

0.02

0.03

0.04

0.05

0 50 100 150 200 250 300

<-- c

<-- W

<-- b

WD

epochs

bc

W

図 2.16: 各パラメタのWD(従来のRBM, CIFAR-10)

37

0

0.01

0.02

0.03

0.04

0.05

0 50 100 150 200 250 300

<-- c

<-- W

<-- b

WD

epochs

bc

W

図 2.17: 各パラメタのWD(構造適応型RBM, CIFAR-10)

300

320

340

360

380

400

0 50 100 150 200 250 300

Num

ber o

f hid

den

neur

ons

epochs


図 2.18: 隠れニューロン数 (CIFAR-10)

38

表 2.6: 従来のRBMの分類精度 (CIFAR-10)

分類精度 (%)

N J 平均標準偏差100 -6.260±0.111 51.3 0.009

150 -6.740±0.077 54.7 0.013

200 -5.810±0.047 66.0 0.013

250 -4.120±0.141 68.6 0.014

300 -3.510±0.017 70.1 0.009

350 -3.550±0.184 75.5 0.007

400 -2.420±0.059 79.8 0.010

450 -2.760±0.104 78.0 0.007

500 -2.620±0.302 78.5 0.013

終的な隠れニューロン数は約 410個であったが，通常のRBMにおいて，予めニューロン数をこの値に設定しても，分類精度は向上しなかった．具体的には，従来のRBMにおいて，隠れニューロン数を 410から 440の範囲で 10刻みに設定し，学習を行ったところ，分類精度は順に 79.3%, 79.0%, 78.3%, 78.0%となった．つまり，従来のRBMと構造適応型RBMと学習終了時点の隠れニューロン数が同じだとしても，分類精度は構造適応型RBM

の方が高くなることが分かった．ニューロン生成／消滅アルゴリズムでは，単に適切な隠れニューロン数を学習中に求めるだけでなく，分類精度の向上に貢献していることが分かった．構造適応型 RBMでは，θG = 0.010, θA = 0.010の場合，初期隠れニューロン数に関わらず，従来のRBMの最良の分類精度よりも高い値を示した．一方，構造適応型RBMの全 125通りのパラメタの組み合わせの中，33通りの組み合わせでは，従来のRBMの最良の分類精度よりも低い値となった．これら 33通りの原因については，次のような原因が考えられる．(1) θGの値が大きすぎる，また初期隠れニューロン数が少なすぎるため，十分な数の隠れニューロンを生成することができなかった．このパラメタの例として，初期隠れニューロン数が 200，θG = 0.100の場合がある．(2) θAの値が大きすぎたため，本来分類に必要な隠れニューロンまで削除されてしまった．このパラメタの例として，初期隠れニューロン数が 400, θG = 0.100, θA = 0.100の場合がある．(3) 初期隠れニューロン数が多すぎて，ニューロン生成がまったく生じなかった (従来のRBMと同じ)．このパラメタの例として，初期隠れニューロン数が 500の場合がある．なお，上記の 33通りのこれら (1)から (3)のケースは，それぞれ 25回，3回，5回であった．構造適応型RBMにおいて，ニューロン消滅を適用せず，ニューロン生成のみを適用した場合の分類精度は，初期隠れニューロン数が 100, 200, 300, 400, 500に対して，それぞれ 80.1%, 80.7%, 80.1%, 80.2%, 79.9%となった．これらの数値は，従来のRBMよりは高いものの，ニューロン生成／消滅を適用した構造適応型RBMよりは若干低い数値となった．特に，初期隠れニューロン数が非常に大きい (例: 500)もしくは θGの値が小さい (例:

θG = 0.001)場合，ニューロン消滅の分類精度に対する貢献度は高くなった．CIFAR-100に対して，CIFAR-10と同様の実験結果が得られた．表2.8と表2.9は，CIFAR-

39

表 2.7: 構造適応型RBMの分類精度 (CIFAR-10)

初期パラメタ得られた構造分類精度N θG θA N J 平均標準偏差100 0.001 0.050 404±15 -2.050±0.161 81.4 0.012

200 0.001 0.001 411±08 -2.420±0.169 81.7 0.012

0.100 411±07 -2.400±0.257 81.8 0.008

0.005 0.001 420±07 -2.310±0.047 81.8 0.009

0.100 403±03 -2.300±0.035 81.5 0.009

0.010 0.001 420±02 -2.300±0.091 81.8 0.014

0.010 411±14 -2.100±0.062 82.3 0.010

0.100 401±02 -2.300±0.100 81.5 0.013

0.050 0.001 380±07 -2.860±0.094 79.9 0.013

0.100 383±16 -2.860±0.004 79.8 0.013

0.100 0.001 370±01 -2.820±0.050 79.3 0.007

0.100 370±03 -2.920±0.100 78.8 0.014

300 0.001 0.001 450±08 -2.390±0.079 80.3 0.020

0.010 420±03 -2.330±0.244 81.2 0.007

0.100 403±13 -2.340±0.002 80.8 0.008

0.005 0.001 433±06 -2.100±0.039 82.1 0.009

0.010 422±10 -2.290±0.053 81.9 0.005

0.100 420±02 -2.320±0.190 81.4 0.011

0.010 0.001 421±14 -2.400±0.055 81.8 0.011

0.010 422±19 -2.010±0.030 82.1 0.013

0.100 420±06 -2.190±0.300 81.8 0.012

0.050 0.001 420±17 -2.300±0.132 80.6 0.012

0.100 380±05 -2.390±0.046 80.0 0.006

0.100 0.001 374±09 -2.690±0.012 79.3 0.011

0.010 375±04 -2.720±0.031 78.8 0.008

0.100 375±02 -2.700±0.078 78.0 0.011

400 0.001 0.001 511±00 -2.420±0.024 80.4 0.017

0.010 420±20 -2.240±0.018 81.2 0.009

0.100 418±16 -2.270±0.130 81.4 0.013

0.005 0.001 440±03 -2.370±0.063 80.0 0.010

0.010 430±11 -2.220±0.040 81.1 0.005

0.100 420±00 -1.990±0.008 82.3 0.010

0.010 0.001 419±15 -2.200±0.123 81.3 0.007

0.010 410±10 -2.240±0.041 82.2 0.008

0.100 409±10 -2.140±0.017 82.2 0.010

0.050 0.001 401±06 -2.290±0.017 81.3 0.008

0.100 390±19 -2.660±0.023 78.8 0.010

0.100 0.001 404±06 -2.400±0.030 80.6 0.008

0.010 404±15 -2.290±0.028 81.0 0.010

0.100 390±13 -2.330±0.057 79.3 0.014

500 0.001 0.001 500±08 -2.510±0.128 78.6 0.007

0.100 0.010 420±13 -2.230±0.028 81.7 0.012

40

表 2.8: 従来のRBMの分類精度 (CIFAR-100)

分類精度N J 平均標準偏差

100 -6.980±0.099 32.8 0.009

150 -7.544±0.102 37.8 0.011

200 -6.554±0.076 47.7 0.008

250 -5.197±0.013 53.7 0.009

300 -4.467±0.077 52.5 0.009

350 -4.342±0.226 58.4 0.008

400 -3.484±0.138 59.8 0.006

450 -3.579±0.049 61.3 0.009

500 -3.626±0.030 60.9 0.007

100に対する従来のRBMと構造適応型RBMの分類精度を示している．構造適応型RBM

の最良の分類精度は，初期隠れニューロン数 100, 200, 300, 400, 500に対して，それぞれ平均値が 63.7%, 64.4%, 64.4%, 64.5%, 63.5%となった．CIFAR-10に比べて，CIFAR-100

の分類精度は低いものの，構造適応型RBMは従来のRBMよりも高い分類精度を示した．構造適応型RBMの全 125通りのパラメタの組み合わせの中，93通りの組み合わせで，従来のRBMの最良の分類精度 (平均値 61.3%)よりも高い数値となった．また，上記の (1)

から (3)に該当する数は，それぞれ 22回，5回，5回となり，CIFAR-10の実験結果とほぼ同等となった．

41

表 2.9: 構造適応型RBMの分類精度 (CIFAR-100)

初期パラメタ得られた構造分類精度N θG θA N J 平均標準偏差100 0.005 0.100 452±04 -2.961±0.002 63.7 0.007

200 0.001 0.001 448±04 -3.355±0.020 62.3 0.008

0.100 454±08 -3.494±0.145 62.8 0.008

0.005 0.001 459±10 -3.172±0.018 62.9 0.010

0.100 429±01 -3.208±0.302 63.1 0.007

0.010 0.001 444±04 -3.132±0.141 64.3 0.015

0.050 451±01 -3.262±0.143 64.4 0.010

0.100 440±05 -2.859±0.017 63.3 0.009

0.050 0.001 429±02 -3.712±0.068 60.1 0.011

0.100 433±25 -3.848±0.009 62.2 0.009

0.100 0.001 424±17 -3.878±0.087 61.2 0.010

0.100 407±16 -4.075±0.156 60.1 0.015

300 0.001 0.001 487±03 -3.517±0.235 63.1 0.012

0.010 467±19 -3.215±0.178 62.3 0.015

0.100 442±07 -3.211±0.254 60.5 0.009

0.005 0.001 463±06 -2.951±0.086 61.6 0.010

0.100 475±09 -3.114±0.106 62.0 0.011

0.010 0.001 451±05 -2.895±0.005 62.2 0.013

0.005 458±12 -2.922±0.047 64.4 0.014

0.010 459±08 -2.997±0.083 63.0 0.007

0.100 456±02 -2.726±0.044 64.3 0.013

0.050 0.001 463±05 -3.300±0.006 60.1 0.007

0.010 416±14 -3.245±0.022 63.0 0.008

0.100 410±00 -3.615±0.007 63.1 0.007

0.100 0.001 415±02 -3.789±0.059 61.0 0.014

0.010 411±07 -3.466±0.066 60.0 0.008

0.100 411±07 -3.452±0.084 58.8 0.007

400 0.001 0.001 543±04 -3.468±0.079 62.7 0.015

0.010 452±05 -2.891±0.041 62.1 0.013

0.100 451±02 -3.400±0.143 61.7 0.012

0.005 0.001 477±10 -3.005±0.002 60.0 0.008

0.100 481±17 -3.224±0.043 63.4 0.009

0.010 0.001 468±07 -2.709±0.013 62.6 0.012

0.010 451±13 -2.942±0.022 64.2 0.013

0.100 442±13 -2.817±0.141 64.5 0.010

0.050 0.001 436±06 -3.158±0.240 63.0 0.006

0.010 428±20 -3.462±0.062 62.4 0.010

0.100 442±04 -3.388±0.189 60.6 0.010

0.100 0.001 459±08 -3.445±0.018 62.3 0.010

0.010 456±03 -3.318±0.042 62.8 0.008

0.100 422±01 -3.132±0.266 60.4 0.006

500 0.005 0.100 457±01 -3.296±0.014 63.5 0.011

42

2.7.6 実験3: 画像データに対する構造適応型DBNの分類精度本節では，上記の画像ベンチマークテストを用いて構造適応型DBNの分類精度を検証する．

A. CIFAR-10とCIFAR-100に対する分類精度

本節では，CIFAR-10及び CIFAR-100に対する構造適応型DBNの有効性を検証する．基本的なパラメタ設定は，CIFAR-10及びCIFAR-100に対する構造適応型RBMの実験と同じである．構造適応型DBNの各層を構成する構造適応型RBMのパラメタは，CIFAR-

10に対しては θG = 0.005, θA = 0.100とし，CIFAR-10に対しては θG = 0.010, θA = 0.100

とした．これらの数値は，最良の数値である．l層の構造適応型RBMの初期隠れニューロンの数は，l− 1層の数と同じとした．構造適応型DBNにおける層の生成に関するパラメタは，θL1 = {0.1, 0.01}, θL2 = {0.1, 0.01}の 4通りの組み合わせを与えた．表 2.10は従来のDBNと構造適応型DBNのCIFAR-10に対する分類精度を示している．

表 2.10の “得られた構造”は最終的に生成された層数及び各層のニューロン数を示している．構造適応型DBNでは，6及び 7個のRBMが自動で生成された．実験では，θL1 = 0.1,

θL2 = 0.1のパラメタ設定の場合で，6個の層が生成され，分類精度が最も高くなった (平均値 97.4%)．全てのケースにおいて，従来のDBNよりも，構造適応型DBNの方が高い分類精度を示した．構造適応型DBNにおいて，θL1 = 0.01, θL2 = 0.01に設定した場合，層の数は最大の 7となったが，その分類精度は，最良の 97.4%に比べてわずかに低い値となった．このことから，θL1, θL2の値が小さすぎる場合，冗長な層が生成された．従来のDBNでは，各層のRBMの隠れニューロン数は予備実験により試行錯誤的に求めた．構造適応型DBNでは 6個のRBM層が生成されたが，従来のDBNでは，最良の結果は 5層の場合で得られた．表 2.11は CIFAR-100に対する従来の DBNと構造適応型 DBNの分類精度を示している．最良の分類精度は，構造適応型DBNにおいて θL1 = 0.1, θL2 = 0.1に設定した場合に得られ，その数値は 81.2%となった．CIFAR-100でも，CIFAR-10のように θL1, θL2の値によって，6もしくは 7個のRBMが生成されたが，分類精度に顕著な違いは見られなかった．上記の実験により，構造適応型RBM及び構造適応型DBNは，従来のRBM及びDBN

よりも高い分類精度を示した．これらの数値を，他の文献で報告されている既存のRBM

やDBN[68, 69, 70, 71, 72, 73, 74, 75, 76]，いくつかのCNN[98, 99, 100, 101]の手法の数値と比較した．表 2.12と表 2.13は，それぞれCIFAR-10とCIFAR-100に対する分類精度を示している．

CIFAR-100のみ，CNNの手法のみ掲載している．これらの表から，構造適応型DBNの分類精度は，文献で記載されている手法の中で最も高い分類精度を示している．

43

表 2.10: 構造適応型DBNの分類精度 (CIFAR-10)

得られた構造分類精度手法 θL1 θL2 (各層のニューロン数) 平均標準偏差

- - 3 (400-400-300) 84.7 0.009

従来の - - 4 (400-400-300-300) 88.6 0.012

DBN - - 5 (400-400-300-300-200) 90.2 0.010

- - 6 (400-400-300-300-200-200) 88.2 0.007

0.01 0.01 7 (422-410-320-355-127-76-70) 96.8 0.009

構造適応型 0.01 0.10 6 (425-440-314-359-120-79) 97.1 0.011

DBN 0.10 0.01 6 (420-439-325-360-125-74) 97.2 0.007

0.10 0.10 6 (422-431-321-362-124-78) 97.4 0.008

表 2.11: 構造適応型DBNの分類精度 (CIFAR-100)

得られた構造分類精度手法 θL1 θL2 (各層のニューロン数) 平均標準偏差

- - 3 (400-400-300) 70.1 0.006

従来の - - 4 (400-400-300-300) 74.3 0.006

DBN - - 5 (400-400-300-300-200) 75.1 0.011

- - 6 (400-400-300-300-200-200) 74.8 0.012

0.01 0.01 7 (455-490-420-371-173-83-75) 81.0 0.009

構造適応型 0.01 0.10 7 (452-480-424-409-150-80-79) 81.1 0.011

DBN 0.10 0.01 6 (451-491-411-399-155-82) 81.0 0.007

0.10 0.10 6 (456-471-409-380-154-88) 81.2 0.008

44

表 2.12: 分類精度 (CIFAR-10)

手法分類精度Gaussian RBM [68] 64.8

Spike and Slab RBM [69] 76.7

RBM using Gaussian Filters [70] 76.2

Convolutional Gaussian RBM [71] 67.8

Convolutional DBN [72] 78.9

Sparse TIRBM [73] 80.1

Sparse RBM [74] 72.4

SET RBM [75] 74.8

Class sparsity signature based DBN [76] 82.9

Convolutional NN (MaxOut) [98] 88.3

Convolutional NN (ELU-Network) [99] 93.4

Convolutional NN (Fract. Max Pooling) [100] 96.5

Convolutional NN (Wide ResNet) [101] 96.0

構造適応型RBM 82.3

構造適応型DBN 97.4


手法分類精度Convolutional NN (Maxout) [98] 61.4

Convolutional NN (ELU-Network) [99] 75.7

Convolutional NN (Fract. Max Pooling) [100] 72.3

Convolutional NN (Wide ResNet) [101] 80.7

構造適応型RBM 64.5


45

B. ILSVRCに対する分類精度

ILSVRCの 2012と 2015に対して，構造適応型DBNで学習を行った．表 2.14，表 2.15

は，それぞれ ILSVRC 2012と ILSVRC 2015のテストデータに対する分類精度を示している．ここで，分類精度は，予測結果の上位 5の中に正解が入っていれば正解とする “top

5 error”を用いて評価している．ここでは，コンペティションで優勝したモデルとして，AlexNet，VGG16，GoogLeNet，ResNetに対する分類精度との比較を行った．CIFAR-10

や CIFAR-100と同様に，構造適応型DBNの分類精度は，文献で記載されている手法の中で最も高い分類精度を示した．

表 2.14: 分類精度 (ILSVRC 2012)

手法分類精度AlexNet[37] 84.7

VGG16[38] 96.9

GoogLeNet[38] 96.9

ResNet[40] 96.9


表 2.15: 分類精度 (ILSVRC 2015)

手法分類精度ResNet[40] 96.5


46

2.8 まとめ深層学習では，AlexNet，VGG，GoogLeNet，ResNet等のCNNモデルが画像認識の分野で高い分類能力を示しているが，入力データに応じて最適な構造を求めることは非常に難しい．例えば，ResNetは 155層から構成されるネットワーク構造を持つが，この構造を求めるために，熟練の分析者によって試行錯誤的なパラメタ調整が行われたものだと想像できる．これらの学習済みモデルを用いて，独自に収集したデータに応用する転移学習があるが，高い分類精度を持ったモデルを構築するためには，試行錯誤的にネットワーク構造を設計し，学習することが求められる．本章では，この問題を解決するために，深層学習の確率モデルであるRBM及びDBNを用いて，入力データの分布に応じて最適な隠れニューロン数及び隠れ層数を自動で求める構造適応型RBM及び構造適応型DBNを提案した．RBM，DBNは，CNNと異なり，尤度に基づく確率モデルである．各隠れニューロンは独立した確率分布を表現できるため，これらを合成することで，入力データの全体の特徴を学習することができる．開発した構造適応型RBMでは，RBMがリップシッツ連続に基づき学習が収束するという前提において，階層型ニューラルネットワークにおけるWDの考えをRBMに適用した．ここでは，RBMの 3つのパラメタのうち，入力を除く 2つのみを使用したニューロン生成アルゴリズムを提案した．また，ネットワークの出力を観測し，出力に寄与していないニューロンを削除するニューロン消滅アルゴリズムを提案した．さらに，事前学習した構造適応型RBMを多段的に積み重ねたDBNにおいて，最適な層の数を求める層生成アルゴリズムを提案した．実験では，画像ベンチマークデータセットとして，MNIST，CIFAR-10，CIFAR-100，

ILSVRCを用いて，提案した構造適応型RBM及び構造適応型DBNを評価した．深層学習モデルに対してはAICのような構造指標を使用できないことから，10-foldクロスバリデーションによる分類精度を検証した．その結果，構造適応型RBM及び構造適応型DBN

は，全てのデータセットに対して，従来のRBMやDBN，CNNを含む既存モデルよりも高い分類精度を示すことができた．構造適応型RBMのニューロン生成に関するパラメタθG，ニューロン消滅に関するパラメタ θA，構造適応型 DBNの層生成に関するパラメタθL1，θL2については，複数の値の組み合わせを用いて学習したが，多くの組み合わせにおいて，優れた分類精度を示した．特に，θGを少し低い値 (例：0.001)にし，θAを少し高い値 (例：0.100)にすることで，初期ニューロン数等の他のパラメタの値に依存することなく，うまく学習することができた．ただし，θAが高すぎる場合は，必要以上のニューロン消滅が生じるため，この値はニューロン消滅と関連して定める必要がある．これらのパラメタの与え方については，今後も研究を行っていく予定であり，アルゴリズムの解明を行う必要がある．また，構造適応型RBMによって得られた学習後のニューロン数に基づき，通常のRBMの学習を行っても，うまく学習できず，学習中にニューロンを生成することで，分類精度が向上していることが分かった．このことは 5章の知識獲得の数値実験で述べるが，学習中に新しく生成された複数のニューロンが，複雑な入力データの特徴を分離しているためであると考えられる．なお，構造適応型RBM及び構造適応型DBNが，論文執筆時点において，最良の分類精度を持っていると考えられる．今後，提案手法を適用した人工知能システムの活用が期待される．

47

第3章構造適応型DBNによるマルチモーダルデータ学習法

2章では，構造適応型RBM及び構造適応型DBNを述べ，画像ベンチマークデータセットに対し高い分類精度を示した．本章では，構造適応型 DBNにおいて，画像に加えて，数値や自然言語等が混在したマルチモーダルデータを同時に学習する手法について述べる[A2, P2]．3.1節では，マルチモーダルデータの定義 [102]について述べ，マルチモーダルデータに対する一般的な学習法について述べる．3.2節では，提案する構造適応型DBNにおけるマルチモーダルデータの学習法について述べる．提案手法の性能評価として，3.3

節でスマートフォンにより収集された観光マルチモーダルデータ，3.4節で医療検診ビッグデータに対する数値実験を行い，手法の有効性を示す．

3.1 マルチモーダルデータ2章でも示したように，深層学習は画像データに対して高い分類精度を示しているが，

画像だけでなく数値，テキスト，シンタックスなどの異なる種類のデータを同時に一つの情報として処理することが求められている．これは，近年の IoT機器等によるビッグデータの収集に伴い，多種多様なデータをリアルタイムかつ一度に収集可能となったことが 1

つの要因と考えられるだろう．このようなデータとして，例えば，医療データが挙げられる．医療データには，血液検査等により得られる複数の数値データ，問診による自然言語，X線，CT，MRIのような医療画像がある．医師は，複数の検査から得られたデータを見ながら中間仮説を立て，必要に応じて追加検査を実施し，これらの結果を統合的に用いて診断を行っている．また，医療データの特徴として，正常値と異常値の境界が曖昧で，他に疑わしい病気があったとしても病名を一つに定めなければならないなど，データに多くの曖昧性が含まれる．さらに，検査は医師の診断に応じた提示に従って行われるため，全ての検査が行われるものではなく，結果としてデータに欠損が含まれる場合がある．心疾患データベース (Coronary Heart Disease Database; CHD DB)[103]は，このような医療データセットの一つであり，様々なアルゴリズムが性能評価のために適用されている [49]．医療データ以外の例では，モバイルフォンベースユーザ参加型センシング (Mobilephone

Based Participatory Sensing; MPPS)[104, 105]システムにより収集されたデータがある．スマートフォンの登場により，GPSや加速度センサー等の様々なセンサーから計測値を取得し，テキスト入力やカメラ等によりユーザの主観的情報を取得し，クラウドサーバに送信することで，ユーザの取り巻く環境を多次元データとして一度に収集することが可能になった．文献 [106, 107]では，ユーザの観光情報を収集するスマートフォンアプリケー

48

ションを用いて，収集されたデータから魅力ある観光情報や新規観光地情報を発見し，リコメンドするシステムが開発されている．本論文では，このように複数の異なる種類から構成された多次元データで，これらが合

成されることによって，ある特定の意味を形成するデータのことをマルチモーダルデータ (異種データ)と定義する．マルチモーダルとは，「複数の」，「複数の手段による」，などの意味を持ち，例えば，ヒューマンインターフェースの分野において，コンピュータの出力を実現するために複数の入力装置があることを，マルチモーダルと言う．文献 [102]

によれば，ある事象において，単一なデータが全ての状態を完全に表現することは稀であるが，同じシステム上の複数のデータを利用することで，個々のデータを超えた相互関係が見え，より詳細な状態を表現できると述べている．このことは，文献 [102]の次の文章を引用したものである．“Due to the rich characteristics of natural phenomena, it is

rare that a single modality provides complete knowledge of the phenomenon of interest.

The increasing availability of several modalities reporting on the same system introduces

new degrees of freedom, which raise questions beyond those related to exploiting each

modality separately.”．なお，単にマルチモーダルデータと言うと，画像のような多次元データを指すこともあるが，本論文では，マルチモーダルをこの意味として使用しない．このような複数種類から構成されたマルチモーダルデータの学習法に対しては，各デー

タに対して個別に事前の処理，学習を行い，その後，データごとの学習結果を統合するという多段的な学習方法が採られている．文献 [108]では，時系列の数値データを画像に変換して分類を行う手法が提案されている．リカレンスプロットは，時系列データを 2次元の幾何学的図形に変換する手法として知られている [109]．また，富士通は，マルチモーダルデータに対する深層学習フレームワークとして Zinrai[110]を開発している．ここでは，深層学習で学習を行う前に，カオス理論やTopological data analysis(TDA)を用いてマルチモーダルデータの前処理や特徴抽出を行っている．このような事前の処理は，学習の精度を高めるために必要な処理である．しかしながら，近年の産業界における IoTデータ収集や分析の観点では，IoT機器の制御やリアルタイム予測システム等において事前のデータ処理を必要としないリアルタイム性が求められるため，より短時間で学習を終了することが望まれている．特に，ビッグデータに対する深層学習には長時間の計算が必要である．本論文では，このような問題を解決するために，構造適応型DBNの学習において，マルチモーダルに含まれる複数種類のデータを 1つのデータとして扱うことで，学習時間を短縮することができるマルチモーダルデータ学習法を開発した．

3.2 構造適応型DBNによるマルチモーダルデータ学習法2章で述べた構造適応型RBM及び構造適応型DBNは，3つのパラメタ θ = {b, c,W }のうち， c,W のWD(変分)を観察し，与えられた入力データを表現するために最適と考えられる構造を求めた．一方，パラメタ bは，入力データに対するパラメタであり，そのWDはデータの特徴やデータ配列の並び等，入力信号の与え方によって変動すると考えられる．本節では，数値や画像等の複数種類のデータが混在するマルチモーダルデータを，パラメタ bのWDと可視層と隠れ層間の入出力のパタンに応じて，入力信号を入れ替え

49

ることでネットワークに振動を与え，分類能力を劣化させることなく，学習速度を向上させる手法を提案する [B4, C7]．

3.2.1 マルチモーダルデータの処理方法本論文では，画像と複数の数値データから構成されるマルチモーダルデータにおいて，

これらを結合することで 1つのデータと見なし，構造適応型DBNで学習する手法を提案する．ここでは，複数種類の数値データ群をCSV(Comma Separated Values)データと呼び，例えば，血液検査における各項目の計測値，IoT機器の計測値などである．本節では，これらの画像データやCSVデータの構造及び提案手法におけるデータの結合方法について述べる．図 3.1は，画像のデータ構造を示している．画像のデータサイズは P × P ピクセルとする．本論文では画像データを固定長のブロックに分割する．図 3.1のように，画像データは IBlockList = {IBlock1, · · · , IBlockq, · · · , IBlockQ}と表現される．Qは画像ブロックの数である．Image Lineは，画像の行を示している．画像のピクセル値 (ブロック)は，画像の左上から右下に向けて順に，1次元の可視ニューロンに与えられる．提案手法では，このブロックの単位で入力信号の入れ替えが行われる．図 3.2は，CSVのデータ構造を示している．CSVの各データは，R個の項目が含まれ

る長さM のベクトルとする．また，ある項目 rに関するデータをCBlockrとする．すなわち，CSVデータは，CBlockList = {CBlock1, · · · , CBlockr, · · · , CBlockR}と表現される．RはCSVブロック数である．ここで項目とは，例えば検診データでは各血液検査や問診の結果等に該当する．各項目によってデータの長さは異なり，数値やカテゴリデータは {0, 1}のベクトルで表現される．例えば，図 3.3に示すように，数値で表現される血液検査で，最高血圧の正常値の範囲が 159以下である場合，136は {1, 0}(正常)，200は {0,1}(異常)と表現され，総蛋白で，正常値の範囲が 6.0以上かつ 9.0以下である場合，7.5は{0, 1, 0}(正常)，5.5は {1, 0, 0}(異常)と表現される．本論文では，これらの画像とCSVブロックを，図 3.4に示すような並びで結合した．この並びは，元の画像の形状に対して，画像の各行である Image LineとCSVの各ブロックであるCBlockを単純に交互に結合したものである．すなわち，データの並びは，Data =

{ImageLine1, CBlock1, ImageLine2, CBlock2, · · ·}となる．この並びは，単にブロックを交互に結合したデータの羅列であるが，本論文では，この並びを初期位置とし，構造適応型RBMの学習中に，これらのブロック間の類似性をニューロンの発火確率やWDに基づいて発見し，入力信号の並びを入れ替えることでネットワークに振動を与え，学習時間の短縮を実現するマルチモーダル学習法を提案する．

3.2.2 ニューロン生成に基づいたマルチモーダルデータの入れ替えアルゴリズム

図 3.4に示すように，学習を始める段階では，各入力データは画像の各行と CSVの各項目が交互に結合されたベクトルである．これらのデータの並びは単純に与えたもので

50

P

Image Line 1

Image Line 2

Image Line P

Image data

...

...

P

Image data = , , ... , , ... , IBlock 1 IBlock 2 IBlock q IBlock Q

IBlock 1 IBlock 2 . . .

IBlock Q. . .

IBlock q. . . . . .

. . .

. . .

. . .

. . .

. . .

. . .

. . .

. . .

. . .

図 3.1: 画像のデータ構造

CSV data

M

...

CSV data = , , ... , , ... ,

CBlock 1

CBlock 2

CBlock r

CBlock R

CBlock 1 CBlock 2 CBlock r CBlock R

図 3.2: CSVのデータ構造

51

図 3.3: 数値の 2値化

Image data: P x P

+

+

CSV data

...

IBlock 1 IBlock 2

IBlock Q

IBlock q

CBlock 1

CBlock 2

. . .

. . . . . .

. . .

CBlock r...

CBlock R. . .

. . .

. . .

. . .

. . .

Imageline 1

Imageline P

Initial data = Image Line 1 CBlock 1, , Image Line 2 CBlock 2, , ...

図 3.4: 画像とCSVの初期位置

52

あり，それらが最適である保証はない．このため，学習状況に対しデータの並びを入れ替え，最適化する学習法を構築する必要がある．本論文では，構造適応型RBMの学習において，ニューロンの発火パタンやパラメタの

WDに基づいて，可視ニューロンに与えられる入力信号として画像とCSVブロックの入れ替えを行う．2章で述べたように，RBMの各隠れニューロンは独立した確率分布を学習する．つまり，ある隠れニューロン hjが発火した際の可視層の viの発火パタンは，hj

に対する入力の特徴を表現していると考えられる．具体的に言うと，ある hj に対して，画像やCSVブロックの位置に対応する複数の可視ニューロン viが発火すれば，これらのニューロン間に関連があると見なすことができる．本論文では，このように関連性の高いブロック同士を発見するとともに，WDの考えを用いて，ブロックの入れ替えが必要であるかどうか決定する．ここで，ブロックの入れ替えとは，該当する可視ニューロン自体の入れ替えを行うのではなく，可視ニューロンに対して与えられる入力信号の並びが入れ替えることである．すなわち，可視ニューロンに対する入力信号の与え方である．2章で述べたように，一定の学習後，WDが高い場合，学習がうまく行われていない (解を発見できない)と考えることができる．RBMのパラメタには θ = {b, c,W }の 3つがあり，ニューロン生成条件では，この内，隠れニューロンに関する c,W を用いて，最適な数の隠れニューロンを生成することで，学習が収束する．一方，入力の bについては，入力のノイズや並びの関係があるため，ニューロン生成条件には用いなかった．提案手法では，bに関するWDを観測することで，上記の関連性が高い可視ニューロンのブロック中で，WDが高いものがあれば，入力の信号の与え方が適切でないと見なし，関連するブロックの位置を入れ替えることで，ネットワークに振動を与える．例えば，元の入力データの並びを

{· · · , IBlockq, IBlockq+1, CBlockr, IBlockq+2, · · ·}とし，ここで IBlockqと CBlockrを入れ替えの対象ブロックとすると，入れ替え後の並びは，

{· · · , IBlockq, CBlockr, IBlockq+1, IBlockq+2, · · ·}のように，IBlockqとCBlockrが隣接した位置に変更される．ブロックの入れ替え後は，元のブロックの位置と入れ替え後のブロックの位置の対応を記録するために，図 3.5のような “Look up Table”が作成される．このブロック入れ替えの操作は，ネットワークに振動を与えることを意味する．そのため，入れ替えを適用した直後の誤差は大きなるが，この誤差を小さくするための学習がCD法により行われる．Algorithm 3.1は，提案手法のアルゴリズムを示している．アルゴリズムの 2行目では，与えられた入力データに対して隠れニューロンの活性値が 1で，かつこの値に関する学習中のWDが振動していない隠れニューロン hS を求めている．ここで，hj のWD

は，式 (2.37)や式 (2.38)と同様の計算方法を用いている．hjのWDが小さい，すなわち振動していないということは，hjの特徴 (確率分布)が学習により求まっていることを示す．アルゴリズムの 4行目では，hjに対して同時に発火する可視ニューロンのパタンを求め，5行目では，このパタンの中に，画像や CSVブロックが含まれていれば，入れ替えの候補ブロックとする．この画像とCSVブロック候補の中で，7行目の条件Aを満たし

53

Image data:

+

+

CSV data

CBlock 1

CBlock 2

CBlock 3

CBlock 6CBlock 4 CBlock 5

IBlock 1 IBlock 2

IBlock 3 IBlock 4

IBlock 5 IBlock 6

CBlock 1

CBlock 6CBlock 4 CBlock 5

IBlock 1 IBlock 2

IBlock 4

IBlock 5 IBlock 6

CBlock 2Lookup

Table

IBlock 3 CBlock 3

図 3.5: Look upテーブル

た場合，入れ替えを適用する (8から 10行目)．条件Aとは，入れ替えを行う画像ブロックを IBlockq，CSVブロックをCBlockrとした際，(1) IBlockqとCBlockrの 1次元の可視ニューロンにおける順序的な距離が一定の値よりも大きく，(2) CBlockrに関連するパラメタ biのWDが一定の値よりも大きく，(3) CBlockrに対して入れ替え処理をまだ適用していない，の 3つの条件を同時に満たす場合である．biのWDは，式 (2.37)や式 (2.38)

と同様の計算方法を用いている．条件Aを満たした場合，CBlockrの位置を IBlockqの隣に変更する．

Algorithm 3.1 マルチモーダル学習法1: 入力データを V = {v1, · · · ,vn, · · · ,vN}とする．N は入力データ数である．2: 与えられた入力データV に対し，隠れ層hの中で，与えられた出力値hjが 1で，かつ

hjの振動 (WD)が予め定められた閾値以下である隠れニューロンを hS ⊂ hとする．3: for all hj ∈ hS do

4: hjから可視層 vの計算を行う．5: 画像ブロック，CSVブロックの各領域の中で，vi = 1となる領域を求める．この

領域が一定の値を超える画像ブロック，CSVブロックの集合を，入れ替え候補のブロックとしてそれぞれ IBlockCand ⊂ IBlockList，CBlockCand ⊂ CBlockListとする．

6: for all IBlockq ∈ IBlockCand do

7: if IBlockqに対し，“条件A”を満たすCBlockrがある場合 then

8: CBlockrの位置を，IBlockqの隣の位置に変更する．9: CBlockrを処理済みのブロックとし，CBlockCandから除外する．10: 現在の入力データの並びで “Look up Table”を更新する．11: end if

12: end for

13: end for

54

3.3 実験1: 観光情報データに対する構造適応型DBNによるマルチモーダルデータ学習法の分類精度

本節では，マルチモーダルデータとして，比較的小規模で分類が容易な観光情報データを用いて提案手法の有効性を検証する．3.3.1節で数値実験で使用するデータについて述べ，3.3.2節で提案手法の分類精度と学習時間を検証する．

3.3.1 ひろしま観光マップ“ひろしま観光マップ”[58, 106, 107]は，以前の研究 [111]において開発したMPPSアプリケーションである．観光地を訪れた旅行者の主観的情報として，スマートフォンから位置情報，5段階評価値，コメント文，写真をクラウドサーバ上で収集することができる．図 3.6は，開発したアプリケーションの画面を示している．表 3.1は，収集されたデータのサンプルを示している．図 3.7は，収集された画像のサンプルを示している．これらのデータには教師信号は与えられていないため，階層成長型 SOM(Growing Hierarchical

Self-Organizing Map)[57, 113, 112]を用いて，収集された 974個のデータの位置情報 (緯度，経度)，5段階評価値，コメント文を，7個のクラスタに分類し，各クラスタの番号を教師信号とした．ここで，表 3.2に示すように，コメント文の自然言語はTF-IDF値 [114]

(a) 新規観光地情報の登録 (b) 観光地リストの表示

図 3.6: スマートフォンアプリケーション “ひろしま観光マップ”

55

に変換した [57]．TF-IDF値は，単語全体の出現頻度を表すTF値と，文書中の出現頻度の逆数を表す IDF値の積により定義され，値が高いほど重要な単語であることを意味する．ここでは，各コメント文のTF-IDF値を，コメント文中の各単語に対するTF-IDF値の合計値とした．表 3.3は，各クラスタの名前や各クラスタのサンプル数を示している．GHSOMを用いた分類の詳細は，文献 [107]を参照されたいが，表 3.3のクラスタリング結果は，主に観光地の位置ごとに分類されている．

(a) 宮島の鳥居 1 (b) 宮島の鳥居 2

(c) 原爆ドーム 1 (d) 原爆ドーム 2

(e) 戦艦大和 1 (f) 戦艦大和 2

図 3.7: 投稿された写真

56

表 3.1: ひろしま観光マップにおけるデータのサンプルNo. 緯度経度高度地名評価値

6 34.363369 132.470307 32.30 オイスター通り 2

9 34.484011 132.269203 258.8 湯来釣り堀 3

10 34.484362 132.269326 272.6 湯来釣り堀 4

11 34.473791 132.240430 356.2 湯来交流センター 1

13 34.367706 132.175777 357.5 佐伯二重焼 4

16 34.388838 132.103882 575.7 スパ羅漢露天風呂 4

58 34.393745 132.436148 41.4 アミパラ広島店 3

200 34.387643 132.430239 50.7 尾道展望台 4

227 34.410682 133.197108 174.8 りょう花 4

241 34.393464 132.459653 52.3 芸州本店 4

表 3.2: ユーザのコメントとTF-IDF値

No. ユーザのコメント各単語のTF-IDF

の最大値

TF-IDF

値の合計値

6 この通りの先に，おしゃれなカフェがあります． 0.133702 0.039891

9 釣りの成果です。ヤマメはなかなかデリケートな魚です。

0.101753 0.026962

10 僕が釣ったやまめです!これは塩焼きです (笑)一緒におむすびとうどんも食べました

0.215457 0.037928

11 何を交流するんだろう?湯来ロッジと併設してます。 0.176589 0.031254

13 隠れた名店です。おいしいですよ。 0.003162 0.001583

16 桜がきれいに咲いてます。今年の花見は、ここに決定!

0.107662 0.025609

58 結構、大きなチェーン店です。ゲーセンですよ! 0.007618 0.003267

200 展望台から見た景色です。 0.011355 0.004652

227 トマト拉麺を食べました。おいしかったです。 0.150309 0.031332

241 高いお店です。今日は研究会の反省会です。 0.041700 0.015182

57

表 3.3: GHSOMによるクラスタリング結果

クラスタ番号名前サンプル数1 宮島 145

2 広島市 298

3 呉市 244

4 東広島市 89

5 広島西部 (廿日市，五日市) 55

6 広島東部 (尾道，三原) 62

7 広島北部 (安芸高田市，三次市) 52

3.3.2 ひろしま観光マップに対するマルチモーダルデータ学習法の分類精度

提案手法の学習パラメタとして，勾配の学習手法を SGD，学習係数を 0.01，バッチサイズは 100，学習の最大反復回数を 200回，初期隠れニューロン数を 300とした．構造適応型RBMのパラメタとして，θG = 0.050, θA = 0.100とし，構造適応型DBNのパラメタとして，θL1 = 0.1，θL2 = 0.1とした．これらのパラメタの値は，予備実験の結果による最良の組み合わせである．2章で行った数値実験と同様に，10-foldクロスバリデーションを行い，分類精度の平均値，標準偏差，最大値，最小値を求めた．計算時間については，2

つの計算機を用いて比較を行い，TeslaのGPUが搭載された計算機 (PC1)(CPU:Intel(R)

24 Core Xeon E5-2670 v3 2.3GHz, GPU: Tesla K80 4992 24GB × 3, Memory: 64GB, OS:

Cent OS 6.7 64 bit)と GTX 1080が搭載された計算機 (PC2)(CPU: Intel(R) Core(TM)

i5-4460 @ 3.20GHz, GPU: GTX 1080 8GB, Memory: 16GB, OS: Fedora 23 64 bit)を用いて計測した．表 3.4は，各層におけるひろしま観光マップのテストデータに対する正答率及び学習に

かかった計算時間 (分)を示している．正答率は，10-foldクロスバリデーションの結果であり，10回の試行における平均値，標準偏差，最大値，最小値を示している．各層の正答率は，該当する層の上に識別用の出力層を加え，ソフトマックス法により学習することで得られる．実験の結果から，提案手法は，通常のDBNや構造適応型DBNに比べて，学習精度を維持したまま，合計学習時間を短縮できた．最終層における学習精度は，構造適応型DBNと提案手法で大きな違いはなかった．通常のDBNと提案手法による計算時間を比較した結果，25.9%短縮することができ，最終的な計算時間 (分)は 26.9分 (PC2)，14.3分 (PC1)となった．

58

表 3.4: 分類精度 (ひろしま観光マップ)

計算時間手法層平均標準偏差入れ替え回数学習回数 PC1 PC2

従来のDBN 1 0.821 0.011 0 489 4.5 9.1

2 0.846 0.008 0 411 3.3 6.7

3 0.862 0.009 0 430 3.8 6.3

4 0.862 0.012 0 379 3.8 6.8

5 0.859 0.010 0 354 3.9 7.0

合計 19.3 35.9

構造適応型DBN 1 0.915 0.010 0 429 3.9 7.3

2 0.934 0.008 0 356 3.1 5.9

3 0.954 0.012 0 329 3.2 6.1

4 0.978 0.009 0 338 3.4 6.5

5 0.982 0.010 0 331 3.9 6.9

合計 17.5 32.7

構造適応型DBN 1 0.920 0.010 363 370 3.8 7.2

(マルチモーダル 2 0.945 0.010 28 299 2.5 4.6

データ学習法) 3 0.953 0.008 4 278 2.6 4.9

4 0.971 0.009 0 256 2.7 5.0

5 0.982 0.010 0 260 2.7 65.2

合計 14.3 26.9

59

3.4 実験2: 医療検診データに対する構造適応型DBNによるマルチモーダルデータ学習法の分類精度

3.3節では，観光情報データに対する提案手法の有効性を検証したが，本節では，より複雑で大規模なビッグデータとして，医療検診データに対する提案手法の有効性を検証する．3.4.1節では，数値実験で使用する医療検診データの特徴や分布について述べる．ここで扱う医療検診データは，平成２８～２９年度総務省戦略的情報通信研究開発推進事業(SCOPE)「検診結果に基づく深層学習による予測システムの開発とひろしま健康長寿ネットワークの構築」において，県立広島大学，広島市立大学，広島県環境保健協会で行われた共同研究で使用されたデータであり，県立広島大学でのみの利用が許諾されている．データには個人を特定できる情報は含まれていないが，ベンチマークデータのように公開されていない．そのため，3.4.2節では，この医療検診データを一般的な SVMやCNN，2

章で示した構造適応型 RBM及び構造適応型DBNに適用し，分類精度や ROC曲線を用いて，データの特徴を示す．その上で，3.4.3節で医療検診データを提案手法に適用し，有効性を検証する．

3.4.1 医療検診データ本論文では，医療検診データとして，検査機関である広島県環境保健協会 [56]によって収集された定期健康診断データ (214,683件)を用いる．このデータは，データは，2012

年から 2015年の 4年間で，118,165人の記録であり，個人を特定できる情報を削除した血液検査データや医療画像等の複数の検査項目から構成されている．医療画像の種類には，健康診断における簡易検査である胸部X線画像 (106,664件)，癌検診である胸部CT画像(224,677件)，胃部X線画像 (88,970件)，マンモ画像 (23,962件)がある．医療画像には，医師による判定結果として，“正常”，“異常”ラベルがそれぞれに与えられている．表 3.5，表 3.6は，医療画像を除く検査項目の一覧を示している．“カテゴリ”は，各検

査項目の分類名，“名前”は各検査項目名，“データ型”は，各検査項目のデータ型，“範囲”は各検査項目の取り得る範囲を示している．これらの検査項目は，整数型や浮動小数点型の数値データと，カテゴリデータに分類さ

れる [56]．表 3.7は，各数値データに対する分布として，平均値，標準偏差，最大値，最小値，全体における欠損の割合を示している．表 3.8は，各カテゴリデータの分布で，取り得る値を示している．括弧の値は，各カテゴリの中で該当する属性値が出現する割合を%で示している

60

表 3.5: 検診データにおける検査項目 (1)

カテゴリ名前データ型範囲Basic test Patient ID Integer

Age Integer (10 - 134)

Sex Code [Male, Female]

Date Integer

Height Float (117 - 196.7)

Weight Float (27.6 - 175)

BMI Float (11.9 - 57.3)

Abdomen Float (53 - 157)

Eye sight(right) Float (0 - 9.915)

Eye sight(left) Float (0 - 9.915)

Hearing(right, 1000) Code [Normal, Abnormal]

Hearing(right, 4000) Code [Normal, Abnormal]

Hearing(left, 1000) Code [Normal, Abnormal]

Hearing(left, 4000) Code [Normal, Abnormal]

Blood pressure Blood pressure(Max) Integer (70 - 257)

Blood pressure(Min) Integer (26 - 148)

Urine Protein Code [(－),(±),(1+),(2+),(3+) ]

Occult blood Code [(－),(±),(1+),(2+),(3+) ]

Urobilinogen Code [(－),(±),(1+),(2+),(3+) ]

Blood analysis WBC Integer (1200 - 26000)

RBC Integer (234 - 672)

Hb Float (5.5 - 22.3)

Ht Float (20.6 - 65.2)

PLT Float (2.7 - 112.6)

Lipid LDL Integer (4 - 357)

HDL Integer (17 - 205)

TG Integer (17 - 2628)

Sugar urine Code [(－),(±),(1+),(2+),(3+) ]

Diabetes Blood sugar Integer (41 - 441)

HbA1c Float (4.7 - 12.7)

Uric acid Integer [1, 3, 4, 6, 7]

61

表 3.6: 検診データにおける検査項目 (2)

カテゴリ名前データ型範囲Liver function GOT Integer (5 - 1134)

GPT Integer (4 - 1909)

Gamma GTP Integer (4 - 2329)

ALP Integer (39 - 1758)

LDH Integer (77 - 620)

ChE Integer (103 - 621)

ZTT Float (1 - 43.8)

Total Bilirubin Float (0.1 - 4.8)

TP Float (5.6 - 9.3)

Alb Float (3.3 - 5.4)

A/G Float (0.6 - 2.8)

TC Integer (94 - 418)

Uric acid Creatinine Float (0.28 - 13.68)

Kidney function BUN Integer (5 - 59)

eGFR Float (3.9 - 224.7)

CRP Code [(－),(±),(1+),(2+),(3+)]

Infection Hbs antigen Code [(－),(＋) ]

Hbs antibody Code [(－),(＋) ]

Hbc antibody Code [(－),(＋)]

Hcv antibody Code [(－),(±),(1+),(2+)]

Pepsinogen Code [(－),(＋)]

Additional test Pylori Code [(－),(＋)]

Amylase Float (27 - 1335)

ASO Float (10 - 393)

CEA Float (0.2 - 10)

CA15-3 Float (4.600-19.400)

TTT Float (0.3 - 10.6)

Fecal occult blood Code [(－),(＋) ]

Other Health questionaire Code [1, 2]

62

表 3.7: 健康診断項目（数値データ）

名前平均標準偏差最小値最大値欠損値の割合 (%)

age 42.455 13.654 10 86 0.0

bmi 22.558 3.146 13.6 31.5 4.8

blood pressure max 119.406 13.713 79 159 1.7

blood pressure min 70.456 10.821 41 100 1.4

wbc 5720.186 1442.641 1690 9830 57.2

rbc 478.14 43.438 354 602 23.5

hb 14.66 1.442 10.5 18.8 24.1

ht 43.427 3.87 32.5 54.4 48.7

plt 23.061 4.75 9.7 36.4 65.9

got 21.792 5.369 6 38 26.5

gpt 19.673 8.543 2 46 28

gamma gtp 28.293 16.424 3 82 29.4

alp 213.463 55.851 56 371 69.2

ldh 172.97 26.279 99 246 90

ch e 322.151 66.231 135 509 95.5

ztt 9.066 2.759 1.3 16.8 78.1

tb 0.821 0.262 0.1 1.6 86.0

tp 7.164 0.371 6.2 8.1 84.1

alb 4.422 0.224 3.9 5 90.2

tc 204.431 33.436 111 298 59.9

ldl 121.327 31.157 33 209 23.4

hdl 63.837 15.983 18 109 23.7

tg 97.828 47.61 15 245 27.3

sugar blood 95.545 10.721 67 126 36.4

a1 c 5.378 0.263 4.7 6.1 62.2

uric acid 5.432 1.376 1.5 9.4 58.3

creatinine 0.776 0.144 0.36 1.19 57.6

urea nitrogen 13.096 3.005 4.7 21.6 90.9

egfr 76.366 12.109 42.9 110 76.9

amylase 83.825 22.58 25 148 84.8

aso 45.728 35.491 9 167 99.8

cea 1.723 0.993 0.2 4.7 99.2

elastase 97.403 23.142 80 167 99.4

ca19 9 6.789 4.633 0.8 20.7 99.7

ca125 10.914 4.87 1.8 24.6 99.9

afp 3.257 1.25 0.7 6.9 99.9

ttt 1.718 0.937 0.2 4.4 99.2

63

表 3.8: 健康診断項目（カテゴリデータ）

名前値欠損値の割合 (%)

sex [男性 (67.0), 女性 (33.0), 不明性 (0.0)] 0.0

protein urine [（－） (97.9), （1+） (1.4), （2+） (0.6),

（3+） (0.1), （±） (0.0)]

4.4

occult blood urine [（－） (89.3), （1+） (6.2), （3+） (2.3),

（2+） (2.2), （±） (0.0)]

50.4

uro [（－） (98.5), （1+） (0.9), （2+） (0.5),

（3+） (0.1)]

89.0

sugar urine [（－） (97.9), （1+） (0.8), （2+） (0.7),

（3+） (0.6), （±） (0.0)]

4.4

crp [（－）(97.1),（±）(1.5),（＋）(1.0),（2+）(0.4), （3+） (0.0)]

93.2

hbs antigen [（－） (99.2), （＋） (0.8)] 93.6

hbs antibody [（－） (53.5), （＋） (46.5)] 97.5

hbc antibody [（－） (85.8), （＋） (14.2)] 99.9

cv antibody [（－） (99.4), 低力価 (0.3), 高力価 (0.2), 中力価 (0.1) ]

95.0

pepsinogen [陰性 (91.2), 陽性 (6.1), 強陽性 (2.6) ] 97.0

pylori [－ (58.4), ＋ (41.6) ] 98.1

3.4.2 医療検診データに対する構造適応型DBNの分類精度本節では，一般的な SVM，CNN，従来の RBM及び DBN，2章で述べた構造適応型

RBM及び構造適応型DBNを用いて，医療検診データの分類精度を評価した．CNNの構造として，入力から出力にかけて，畳み込み層 1，畳み込み層 2，プーリング層 1，畳み込み層 3，プーリング層 2，全結合層，出力層の 7つの層から構成されるネットワークを用いた．RBMの学習パラメタとして，最適値探索には SGD，学習係数を 0.01，バッチサイズを 100，学習の最大反復回数を 500回，隠れニューロン数を 300とした．DBNの層は 5

層とした．構造適応型 RBMのパラメタとして，θG = 0.050, θA = 0.100とし，構造適応型DBNのパラメタとして，θL1 = 0.1，θL2 = 0.1とした．これらの手法に対して，肺癌の予測のために，医療画像の胸部 CT画像と血液検査データの組を，胃癌の予測のために，医療画像の胃部X線画像と血液検査データの組を，それぞれ与え，分類精度を評価した．学習する際の画像と血液検査データの並びは，3.4節の方法に従った．なお，全体のデータは，4:1の割合で，訓練データとテストデータに分割した．表 3.9は，テストデータに対する各手法の分類精度を示している．これらの中で，構造適応型DBNは，SVM，CNN，従来のRBMやDBNの中で最も高い分類精度 (肺癌に対

64

して 95.5%，胃癌に対して 94.3%)を示し，画像ベンチマークデータセットだけでなく，実データに対する有効性を示した．図 3.8は，SVMと構造適応型DBNの分類結果に対するROC(Receiver Operating Char-

acteristic)曲線を示している．ROC曲線とは，縦軸に，陽性を陽性と正しく予測する率である Sensitivity，横軸に，陰性を誤って陽性と予測する率である 1-Specificityをプロットした曲線である．ROC曲線と縦軸と横軸で囲まれた面積ができるだけ大きいものほど良いモデルである．肺癌，胃癌のどちらに対しても，構造適応型DBNのRBMは，SVM

のROC曲線よりも良い精度を示している．

3.4.3 医療検診データに対するマルチモーダルデータ学習法の分類精度3.4.2節では，医療検診データに対する構造適応型DBNの有効性を示した．本節では，同じデータに対して，構造適応型 DBNによるマルチモーダルデータ学習法を適用した．3.3.2節と同様に，2種類の計算機を用いて学習時間を比較した．表 3.10は，学習の結果，各層におけるテストデータに対する正答率及び学習にかかった計算時間 (分)を示している．正答率は，10-fold Cross Validation結果であり，10回の試行における平均値，標準偏差，最大値，最小値を求めた．実験の結果から，提案手法は，通常のDBNや構造適応型DBNに比べて，学習精度を維持したまま，合計学習時間を短縮できていた．最終層における学習精度は，構造適応型DBNと提案手法で大きな違いはなかった．通常のDBNと提案手法による計算時間を比較した結果，約 29.4%短縮することができた，その計算時間 (分)は，569.8分 (PC2)，162.2分 (PC1)であった．なお，構造適応型 DBNによるマルチモーダルデータ学習法は，上記のようなマルチモーダルデータだけでなく，CIFAR-10や CIFAR-100のような画像データに対しても有効であることが分かっている．画像データの場合は，図 3.4のデータ構造において，CSV

がない画像データのみのデータ構造となる．この場合，画像ブロックとCSVブロック間の並びではなく，画像ブロック間の並びに関する類似性を求めることで，アルゴリズムを適用できる．表 3.11，表 3.12は，それぞれCIFAR-10とCIFAR-100に対する同様の結果であり，これらに対しても分類精度を維持したまま，計算時間を約 30%短縮することができた．

表 3.9: 検診データに対する分類精度分類精度

肺癌胃癌手法平均標準偏差平均標準偏差

SVM 69.6 0.005 65.1 0.005

CNN 93.1 0.005 92.5 0.006

従来のRBM 83.3 0.011 82.2 0.010

構造適応型RBM 85.4 0.011 83.8 0.011

従来のDBN 91.1 0.010 89.4 0.010

構造適応型DBN 95.5 0.010 94.3 0.010

65

(a) 肺癌

(b) 胃癌

図 3.8: 医療検診データに対するROC曲線

66

表 3.10: 分類精度 (医療検診データ)


従来のDBN 1 0.833 0.011 0 500 44.1 151.8

2 0.862 0.008 0 500 37.2 128.3

3 0.864 0.009 0 430 34.7 122.1

4 0.892 0.01 0 456 37.8 130.3

5 0.907 0.006 0 421 36.8 128.9

6 0.911 0.01 0 433 39.1 131.8

合計 229.7 793.0

構造適応型DBN 1 0.835 0.007 0 500 43.1 150.4

2 0.861 0.008 0 440 29.3 99.2

3 0.864 0.01 0 402 31.1 110.0

4 0.896 0.007 0 411 33.5 111.9

5 0.912 0.012 0 422 35.9 120.3

6 0.944 0.008 0 406 35.2 124.0

合計 208.1 715.69

構造適応型DBN 1 0.854 0.012 502 413 36.6 130.4

(マルチモーダル 2 0.879 0.011 127 367 25.1 89.2

学習法) 3 0.878 0.006 23 305 23.7 88.0

4 0.927 0.009 0 299 24.5 86.9

5 0.942 0.008 0 307 25.7 86.3

6 0.942 0.008 0 295 26.6 89.0

合計 162.2 569.8

67



従来のDBN 1 0.797 0.011 0 500 33.1 116.0

2 0.808 0.008 0 418 22.9 80.9

3 0.851 0.009 0 401 23.7 84.1

4 0.880 0.015 0 378 24.4 87.7

5 0.903 0.007 0 355 25.1 86.2

6 0.880 0.010 0 332 25.9 90.0

合計 155.1 545.1

構造適応型DBN 1 0.817 0.008 0 420 30.7 105.8

2 0.872 0.011 0 341 20.4 65.5

3 0.901 0.008 0 367 22.6 80.2

4 0.952 0.012 0 334 22.1 78.9

5 0.960 0.008 0 350 23.4 81.3

6 0.974 0.010 0 326 22.9 77.8

合計 142.1 489.5

構造適応型DBN 1 0.833 0.017 338 357 26.5 93.3

(マルチモーダル 2 0.900 0.016 31 286 17.1 66.0

学習法) 3 0.926 0.013 9 304 17.9 62.3

4 0.965 0.012 0 258 16.2 57.7

5 0.971 0.009 0 256 17.5 65.8

6 0.974 0.010 0 244 17.9 60.2

合計 113.1 405.3

68



従来のDBN 1 0.645 0.007 0 489 32.7 119.243

2 0.676 0.015 0 411 23.6 76.077

3 0.701 0.006 0 430 24.5 86.213

4 0.743 0.006 0 379 25.7 91.457

5 0.751 0.011 0 361 25.5 85.839

6 0.748 0.012 0 354 26.2 90.039

合計 158.2 548.9

構造適応型DBN 1 0.709 0.009 0 429 31 106.0

2 0.740 0.007 0 356 21.3 73.9

3 0.764 0.009 0 329 20.9 69.2

4 0.798 0.013 0 338 21.4 76.0

5 0.807 0.012 0 342 22.5 81.0

6 0.812 0.012 0 331 23.5 84.7

合計 140.6 490.8

構造適応型DBN 1 0.708 0.007 363 370 27.5 98.7

(マルチモーダル 2 0.785 0.009 28 299 17.1 63.8

学習法) 3 0.800 0.012 4 278 17.3 64.0

4 0.809 0.007 0 256 17.2 55.9

5 0.815 0.009 0 272 18.1 62.0

6 0.823 0.008 0 260 18.2 65.2

合計 115.4 409.5

69

3.5 まとめ本章では，構造適応型RBM及び構造適応型DBNの学習において，画像や数値データ

等の複数種類のデータが混在したマルチモーダルデータを一度に学習する手法について述べた．本論文では，マルチモーダルデータを単なる多次元データではなく，画像や数値データ等の複数種類のデータが混在したデータであり，かつ，これらが互いに関連性を持ち，一つの意味を持った情報を形成するデータであると定義した．このようなマルチモーダルデータに対する学習法としては，従来では，データを種類ごとに個別に処理，学習を行い，学習結果を統合するという多段的な学習方法が採られていた．本論文では，このような手法と異なり，複数種類のデータを 1つの画像として扱い，入力信号の並びを変更することで学習時間を短縮するマルチモーダルデータ学習法を開発した．実験では，開発したマルチモーダルデータ学習法により，分類精度を維持したまま，学習時間を約 30%短縮できることを示した．提案手法において学習時間を削減できた理由は，入力信号の入れ替えを行うことでネッ

トワークに振動を与え，CD法の学習が効果的に進み，学習が早く収束したためだと考えられる．ここで，入力の中で入れ替えを行うブロックを，隠れニューロンの発火パタンや入力のパラメタのWDに基づいて発見した．WDが高いことは，学習が上手く行われていない，もしくは進んでおらず，収束していないことを意味する．この特性に基づいて，入力信号の入れ替えを行った．提案手法の有効性は，比較的データ数が少ない観光情報データだけでなく，曖昧性が多

く含まれる医療検診ビッグデータに対しても示した．ただし，提案手法における入れ替え回数については，観光情報よりも医療検診データの方が多く生じた．これは，医療検診データの方が，異なる種類のデータ間における関連性が複雑であるため，より多くの入れ替えが必要だったためだと考えられる．なお，入れ替え回数においては，上位層に比べて下位層，特に 1層目において多く生じた．このことについては追加調査が必要であるが，下位層で適切な並びを決定することで，上位層ではこの並びに基づいた学習が行われるため，上位層では入れ替えが生じなかったと考えられる．深層学習は，一般的にモデル自体が複雑で大きく，大量の学習データを扱うため，高性

能なGPUワークステーションを用いたとしても，学習が終了するまで数日以上かかる場合がある．加えて，IoT機器等で実世界から収集されるビッグデータには，多くのノイズや未知なパタンが出現する可能性が高く，このようなデータに対応するためには深層学習モデルの再設計，再学習が必要になる．これらの観点において，提案手法において学習時間を約 30%短縮できたということは，IoTによるビッグデータ分析において非常に有効であると考えられ，実用性が高いと言える．

70

第4章リカレント構造適応型DBNによる時系列データの学習

本章では，画像分類ではなく時系列データの予測を行うために，リカレントニューラルネットワークにおける Long Short Term Memory (LSTM)の考えを取り入れたリカレント構造適応型 RBM及びリカレント構造適応型DBNを提案する [A3]．4.1節では，従来手法としてRBMにおける時系列データの学習法について述べる．4.2節において，提案するリカレント構造適応型RBM及びリカレント構造適応型DBNを述べる [B5, C5]．4.3

節では，学習中における学習係数の自動調整手法について述べる [D6, D7]．4.4節で時系列ベンチマークデータセットを用いた数値実験を行い，4.5節で本章のまとめを述べる．

4.1 RBMにおける時系列データ学習モデル時系列データの学習についてはリカレントニューラルネットワーク (Recurrent Neural

Network; RNN)[41]が知られている．一般的な RNNモデルでは，図 4.1に示すように，ネットワークの隠れ層にループ構造をもたせることで，時間によって遷移する時系列データの特徴を表現している．しかしながら，データの長期にわたる系列を上手く取り扱うことができず，短期的な記憶のみしか表現できないことが問題であった [44]．これは，隠れ層のループ構造を時系列を軸にして展開すると，非常に深い多層ニューラルネットワークと見なされ，多層ニューラルネットワークにおける勾配消失と同様の問題が生じる．このため，上位層で生じた勾配を下位層，すなわち過去を表現する層に伝搬できず，長期的な記憶を表現できない．これに対しRNNの一種であるLong Short-Term Memory(LSTM)[44]

では，図 4.2に示すように，RNNのループ構造に入力ゲート (Input Gate)，出力ゲート(Output Gate)，忘却ゲート (Forget Gate)と呼ばれる特殊なゲートを組み込むことで，長期的な記憶を表現できるようになった．RBMモデルにおける時系列データ学習モデルとしては，Temporal RBM (TRBM)，

Recurrent TRBM (RTRBM)が知られている [115]．図 4.3，図 4.4はそれぞれ TRBMとRTRBMのモデルを示している．長さ T の時系列入力データの系列を V = {v(1), · · · ,v(t), · · · ,v(T )}とすると，TRBMは，時刻 tにおける隠れニューロンの出力 h(t) を時刻t + 1のネットワークに伝搬させることで，過去の時系列に関する文脈を表現する．これは，通常のリカレントニューラルネットワークにおいて，隠れ層をループ構造にするという考えを，RBMに適用したものである．式 (4.1)，式 (4.2)により，時刻 tにおけるパラメタ c(t)と隠れニューロンの出力 h(t)が求められる．

c(t) = c+W hhh(t−1), (4.1)

71

x

y

h

x(1)

h(1)

y(1)

x(2)

h(2)

y(2)

x(3)

h(3)

y(3)

. . .h(0)

unifold

図 4.1: RNNの構造

x(1)

h(1)

y(1)

h(0)

y(0)

x(2)

h(2)

y(2)

x(3)

h(3)

y(3)

. . .

inputgate

forgetgate

outputgate

inputgate

forgetgate

outputgate

inputgate

forgetgate

outputgate

図 4.2: LSTMの構造

72

h(0)

W

Whh . . .h(1) h(t)h(2) . . . h(T)

c(1)

v(1) v(2)

c(2)

v(t)

c(t)

v(T)

c(T)

図 4.3: TRBMのネットワーク構造

h(0)

W

Whh . . .h(1) h(t)h(2) . . . h(T)

c(1)

v(1)

b(1)

h’(1)

Whv

v(2)

b(2)

h’(2)

c(2)

v(t)

b(t)

c(t)

h’(t)

v(T)

b(T)

c(T)

h’(T)

図 4.4: RTRBMのネットワーク構造

h(t) = σ(Wv(t) + c(t)), (4.2)

ここで，W hhは，時刻 t− 1から tの隠れ層の重みである．σ()は活性化関数であり，文献 [116]では tanh関数が用いられており，本論文でもこれを用いている．RBMはCD法により隠れニューロンのパラメタだけでなく可視ニューロンのパラメタも学習していることから，RTRBMでは，式 (4.3)のように，時刻 tにおけるパラメタ b(t)も求められる．

b(t) = b+W hvh′(t), (4.3)

ここで，W hvは，時刻 t− 1の隠れ層から時刻 tの可視層への重みである．h′(t)は，h(t−1)

を 2値にサンプリングした値である．なお，bと cは，W のように時刻 tに依存しない学習パラメタであり，b(t)と c(t)は，時刻 t− 1の変数から計算される決定変数である．RNN-RBMはRTRBMを改良したモデルである [116]．RNN-RBMでは，図 4.5のように，通常の RBMの可視層と隠れ層に加え，過去の時系列に関する文脈を表現する状態u(t)を持つ．これにより，RNN-RBMでは，LSTMのように長期的な記憶が実現できる．ある時刻 tの入力 v(t)に対する可視層と隠れ層のパラメタ b(t)，c(t)が，時刻 t− 1の状態u(t−1)のみから式 (4.4)，式 (4.5)によって求められる．時刻 tの状態 u(t)は時刻 tの入力v(t)と時刻 t− 1の状態u(t−1)から式 (4.6)のように更新される．

b(t) = b+W uvu(t−1), (4.4)

73

u(0)

W

Wuh

Wuv

Wuu

Wvu

. . .

. . .

u(1) u(t)u(2)

v(1) v(t)v(2)

h(1) h(t)h(2) . . .

. . .

. . .

u(T)

v(T)

h(T). . .c(2)

b(2)

c(1)

b(1)

c(t)

b(t)

c(T)

b(T)

図 4.5: RNN-RBMのネットワーク構造

c(t) = c+W uhu(t−1), (4.5)

u(t) = σ(u+W uuu(t−1) +W vuv

(t)), (4.6)

ここで，u(0)は状態の初期値で任意の値が与えられる．RNN-RBMの学習は各時刻 tにおいて計算された b(t)，c(t)と重みW を用いて，v(t)とh(t)間の学習が通常のRBMと同じように行われ (一般的にCD法)，誤差が計算される．時刻 T までの誤差を計算した後，T から過去に遡るように学習パラメタ θ = {b, c,W ,u,W uv,W uh,W vu,W uu}の勾配がBPTT(Back Propagation Through Time)[22]により計算され，更新される．学習後のネットワークを用いた時系列データの推論 (予測)手順は次の通りである．初

期値としてu(t)を定めることで，時刻 t+1のRBMの b(t+1)，c(t+1)を計算できる．RBM

は生成モデルであるため，例えば，v(t+1) = 0とし，k回のCD法によるサンプリングを行うことで，v(t+1)の値を推定できる．v(t+1)を求めた後は，u(t+1)を計算し，後は同様の手順で t = t+ 2, t+ 3, · · ·のデータを予測できる．

4.2 リカレント構造適応型RBMとリカレント構造適応型DBN

本節では，提案するリカレント構造適応型RBM及びリカレント構造適応型DBNについて述べる．リカレント構造適応型RBMは，文献 [116]のRNN-RBMに構造適応型RBM

におけるニューロン生成／消滅アルゴリズムを取り入れた手法である．RNN-RBMは通常のRBMと比べて，(1)時刻 tの入力に対するパラメタ b(t)と c(t)が過去の時刻 t− 1の状態から計算される，(2)勾配計算にBPTTが使われる，という点において異なっているが，RBMの学習法自体に変わりはなく，通常のRBMと同様にCD法による学習が行われる．CD法では与えられた入力データに対し目的関数を最小化するパラメタ b，c，W

を学習する．そのため学習中のパラメタの変分 (WD)が大きい場合，入力データに対する表現能力を補うため，ニューロン生成を行う手法を取り入れることができると考えた[C5]．すなわち，学習中に式 (2.37)及び式 (2.38)を用いて隠れニューロンに関するパラメ

74

u(0)(1)

W(1)W(1)uh

W(1)uv

W(1)uu

W(1)vu

u(1)(1)

v(1)(1)

h(1)(1)

v(T)(1)

c(1)(1)

b(1)(1)

c(t)(1)

b(t)(1)

c(T)(1)

b(T)(1)

. . . u(t)(1)

. . . u(T)(1)

v(t)(1)

h(t)(1) h(T)

(1)

u(0)(2)

W(2)W(2)uh

W(2)uv

W(2)uu

W(2)vu

u(1)(2)

v(1)(2)

h(1)(2)

v(T)(2)

c(1)(2)

b(1)(2)

c(t)(2)

b(t)(2)

c(T)(2)

b(T)(2)

. . . u(t)(2)

. . . u(T)(2)

v(t)(2)

h(t)(2) h(T)

(2)

Pre-traininglayer 1

copycopycopy

Pre-traininglayer 2

u(0)(3)

W(3)W(3)uh

W(3)uv

W(3)uu

W(3)vu

u(1)(3)

v(1)(3)

h(1)(3)

v(T)(3)

c(1)(3)

b(1)(3)

c(t)(3)

b(t)(3)

c(T)(3)

b(T)(3)

. . . u(t)(3)

. . . u(T)(3)

v(t)(3)

h(t)(3) h(T)

(3)

Pre-traininglayer 3

copycopycopy

図 4.6: リカレント構造適応型DBNのネットワーク構造

75

Algorithm 4.1 リカレント構造適応型RBMのアルゴリズム1: 時系列入力データを V = {v(1), · · · , v(t), · · · ,v(T )}とする．T は時系列入力データの長さである．

2: RNN-RBMの学習パラメタ θの初期化を行う．3: while 終了条件を満たすまで do

4: 時刻 t = 0の状態u(0)の初期化を行う．5: for all 与えられた時系列データ v(t)(1 ≤ t ≤ T )に対して， do

6: 式 (4.4)，式 (4.5)により，u(t−1)から b(t)及び c(t)を求める．7: 式 (4.6)により，u(t−1)，v(t)からu(t)を求める．8: end for

9: 各時刻 tにおけるRBMに対して，v(t)と h(t)間の誤差 (損失関数)を CD法により求める．

10: BPTTにより，誤差を最小化するように，パラメタ θの更新を行う．11: Algorithm 2.4により，構造適応型RBMのニューロン生成／消滅アルゴリズムを

実行する．12: end while

タ cと重みW の変分を観察し，式 (2.36)を満たすと該当するニューロンの生成が行われる．また式 (2.40)を満たすと該当するニューロンが削除される．Algorithm 4.1は，リカレント構造適応型RBMの学習アルゴリズムを示す．また複数の事前学習済みのリカレント構造適応型RBMを階層化して学習するリカレント構造適応型DBNを開発した．文献 [116]にはRNN-RBMを階層化する手法については述べられていない．本論文では，2章で述べた構造適応型DBNの学習法をリカレント構造適応型 DBNに適用した [B5]．すなわち，l層の隠れニューロンの出力は l + 1層の可視ニューロンの入力として見なされる．図 4.6は 3つの RNN-RBMを持つリカレント構造適応型DBNを示している．リカレント構造適応型RBMでは時刻 tの入力 v(t)に対する隠れニューロンの出力h(t)が求まるため，この出力を次の層の入力とすることで，2層以降においても適切な隠れニューロン数を求めながら階層化を行うリカレント構造適応型DBNを開発した．なお，RNN-RBMを用いた推論手順は上記で述べたが，階層化したRNN-DBNの場合は，通常のDBNのように，最初に最上位層の RNN-RBMににおいてサンプリングを実行し，最上位層の可視層の値を予測する．その後，最上位層で得られた予測値を下位層に順に逆伝搬し，最終的に 1層 (入力層)で得られた値を実際の予測値とする．テストデータに対する評価では，ここで得られた予測値と，実際の観測値を誤差として計算している．

4.3 学習係数調整によるネットワークの再学習構造適応型学習における学習終了時点では入力データに含まれる特徴を表現するために

適切と考えられる隠れニューロン数を持ったネットワークが形成される．しかしながら，適切と考えられる隠れニューロン数が求められたとしても，学習係数等のパラメタによっ

76

ては，学習は収束するものの誤差の値が小さくならないことがある．また，訓練データに出現するパタンに 100%に近い精度で予測できたとしても，テストデータに含まれるパタンを完全に予測できない場合がある．この理由は，隠れニューロンが訓練データのみに出現するパタンの学習に留まり，テストデータに含まれる訓練データのパタン以外の特徴に対して正確に反応できないことが理由として考えられる．特に学習係数の値が小さければ，テストデータに含まれる汎用性を持った特徴を探索することができないため，学習係数の値を増加させ探索領域を広げる必要がある．そこで，構造適応型学習により適切な隠れニューロン数が求まった後，学習係数の調整を行いながらネットワークを再学習 (微調整)することで，精度の向上を試みた．深層学習を始めとする学習法において学習係数は重要なパラメタの 1つであり，この値

を学習中に調整する手法がある．一般的には，学習初期に学習係数を高い値に設定し，学習が進むにつれて値を減少させる調整方法が知られている [117, 118]．これにより，大域的かつ局所的な探索を行うことができ，効果的に学習を行うことができる．一方，学習途中において学習係数を適切な範囲で増加させることで，深層学習の分類精度が向上することが報告されている [119, 120]．本論文では，学習初期に学習係数を調整するのではなく，構造適応型学習により適切と考えられるネットワーク構造を求めた後に学習係数の調整を行うため，学習係数を徐々に下げるのではなく，文献 [119, 120]のようにわずかに増加させることで，精度を向上を図った．本論文では式 (4.7)のように学習係数の値を増加する方向で調整した [D6, D7]．

ε(τ) = ε(τ − 1)× λ, λ > 1, (4.7)

ここで，ε(τ)は学習回数 τ 時点の学習係数を示している．λは学習係数の増加に関する係数である．本論文では予備実験により，学習開始時点の学習係数 ε(0) = 0.001で，λ =

{1.001, 1.005, 1.010, 1.015}の 4種類とし，100回の学習を行うことで学習係数を図 4.7のように変化させた．なお，この学習率調整による有効性については，4.4.3節の数値実験で示すが，このことは，リカレント構造適応型学習法だけでなく，CIFAR-10やCIFAR-100

のような分類問題に対する通常の構造適応型学習に対しても言えることが分かっている[D7]．

4.4 実験本節では，提案するリカレント構造適応型RBM及び構造適応型DBNの有効性を検証

するために，時系列ベンチマークデータセットを用いた数値実験を行う．4.4.1節では，数値実験で使用するデータセットとして，音素列に関する “Nottingham”[59]，モーションキャプチャに関する “CMU”[60]について述べる．4.4.2節では，これらのデータセットに対して，リカレント構造適応型RBM及び構造適応型DBNによる学習を行い，得られたネットワーク構造や予測精度について，従来の手法との比較を行った．さらに，4.4.3節では，学習率調整を行ったリカレント構造適応型RBM及び構造適応型DBNを用いて学習した結果について述べる．

77

0.001

0.0015

0.002

0.0025

0.003

0.0035

0.004

0.0045

0.005

0 20 40 60 80 100

lear

ning

rate

epochs

λ = 1.001λ = 1.005λ = 1.010λ = 1.015

図 4.7: 学習率

4.4.1 時系列ベンチマークデータセット本節では，数値実験に用いる時系列ベンチマークデータセットについて説明する．

A. Nottingham

Nottingham[59]はMIDI形式のピアノの音声時系列データセットである．データは，694個の訓練ファイルと 170個のテストファイルから構成される．各ファイルはMIDI形式で与えられており，88個の階調で表現された約 210個の系列 (約 60秒程度)データである．図 4.8は，あるMIDIデータをプロットした図であり，横軸が時間，縦軸が，88個の階調を示しており，各階調における音の有無が {0, 1}のベクトル (0: 音なし，1: 音あり)で表現される．Nottinghamは，文献 [116]の手法の性能評価において使用されている．

B. CMU

CMU(Carnegie Mellon University Motion Capture Database)[60]はカーネギーメロン大学によって収集されているモーションキャプチャのデータセットである．モーションキャプチャとは，人物や物体の動きをデジタル的に記録する技術である．モーションキャプチャの方式として，人に取り付けたマーカーを複数の光学式カメラで撮影し，位置や距離等を測定する光学式，加速度センサー等を直接人に取り付け，測定する機械式，磁気の受信機と発信機の送受信により測定を行う磁気式等の種類があるが，CMUでは，光学式を用いた時系列データが収集されている．論文執筆時点で 6種類のカテゴリ (23種類のサブカテゴリ)に分類された 2,605個のデータが利用可能である．各データについては 30個

78

図 4.8: Nottingham

図 4.9: CMU

79

程度のマーカーを取り付けられた人の一連の動作 (約 30秒程度)を記録した時系列データである．図 4.9のように，各マーカーから時系列データが計測され，これらの計測値をもとに，3DのCGモデルが動画として構築される．

4.4.2 実験1: リカレント構造適応型RBMの予測精度時系列ベンチマークテストNottingham，CMUに対して，従来のRNN-RBM(TR)，構造適応型RNN-RBM(AR)，従来のRNN-DBN(TD)，構造適応型RNN-DBN(AD)の手法を用いて学習を行い，10-foldクロスバリデーションテストによる予測精度を検証した．従来のRNN-RBM(TR)は文献 [116]で提案されているモデルであり，従来のRNN-DBN(TD)は従来のRNN-RBM(TR)を用いて階層化を行ったモデルである．構造適応型RNN-RBM(AR)

及び構造適応型RNN-DBN(AD)の各層の学習後，式 (4.7)による学習係数の調整を用いて学習した手法を，それぞれARl，ADlとし，性能を比較した．本論文では，基本的な学習パラメタとして，勾配の学習手法をSGD，学習係数を0.001，バッチサイズは100，学習の最大反復回数をNottinghamに対して 200回，CMUに対して 500回とした．隠れニューロン数は，Nottinghamに対して {10, 50, 100, 150, 200}，CMUに対して {100, 150, 200, 250, 300}の 5

通りに対して実験を行った．ARのパラメタとして，θG = {0.001, 0.005, 0.010, 0.050, 0.100},θA = {0.001, 0.005, 0.010, 0.050, 0.100}の 25通りの組み合わせで実験を行った．ADのパラメタとして，θL1 = 0.1，θL2 = 0.1とした．これらのパラメタの値は予備実験の結果，最良の組み合わせであったものである．ARl，ADlでは，100回の追加の反復学習を行い，このとき，λ = {1.001, 1.005, 1.010, 1.015}の 4通りによる性能を比較した．図 4.10から図 4.14は，データセットNottinghamに対するTRとARの学習状況を示し

-110

-100

-90

-80

-70

-60

-50

-40

-30

0 20 40 60 80 100 120 140 160 180 200

ener

gy

epochs

Traditional RNN-RBMAdaptive RNN-RBM

図 4.10: 学習結果 (Nottingham, エネルギー)

80

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1.9

0 20 40 60 80 100 120 140 160 180 200

erro

r

epochs


図 4.11: 学習結果 (Nottingham, 二乗和誤差)

0

0.005

0.01

0.015

0.02

0.025

0 20 40 60 80 100 120 140 160 180 200

WD

of c

epochs


図 4.12: 学習結果 (Nottingham, W のWD)

81

0

0.05

0.1

0.15

0.2

0.25

0.3

0 20 40 60 80 100 120 140 160 180 200

WD

of c

epochs


図 4.13: 学習結果 (Nottingham, cのWD)

0

10

20

30

40

50

60

70

0 20 40 60 80 100 120 140 160 180 200

No.

of h

idde

n ne

uron

s

epochs


図 4.14: 学習結果 (Nottingham, 隠れニューロン数)

82

-180

-160

-140

-120

-100

-80

-60

-40

-20

0 50 100 150 200 250 300 350 400 450 500

ener

gy

epochs


図 4.15: 学習結果 (CMU, エネルギー)

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

0 50 100 150 200 250 300 350 400 450 500

erro

r

epochs


図 4.16: 学習結果 (CMU, 二乗和誤差)

83

0

0.02

0.04

0.06

0.08

0.1

0 50 100 150 200 250 300 350 400 450 500

WD

of W

epochs


図 4.17: 学習結果 (CMU, W のWD)

0

0.05

0.1

0.15

0.2

0.25

0.3

0 50 100 150 200 250 300 350 400 450 500

WD

of c

epochs


図 4.18: 学習結果 (CMU, cのWD)

84

100

120

140

160

180

200

220

0 100 200 300 400 500

No.

of h

idde

n ne

uron

s

epochs


図 4.19: 学習結果 (CMU, 隠れニューロン数)

表 4.1: 従来のRNN-RBMの予測精度予測精度

データセット N 平均標準偏差Nottingham 10 80.3 0.009

50 81.7 0.008

100 88.4 0.013

150 89.1 0.013

200 87.7 0.013

CMU 100 71.3 0.009

150 62.3 0.009

200 69.4 0.012

250 71.7 0.011

300 70.7 0.010

85

表 4.2: 構造適応型RNN-RBMの予測精度 (Nottingham)

初期パラメタ得られた構造予測精度N θG θA N 平均標準偏差50 0.001 0.001 204±08 95.7 0.008

0.100 201±04 95.8 0.013

0.005 0.001 190±07 96.5 0.009

0.100 175±03 97.5 0.014

0.010 0.001 181±02 96.7 0.014

0.100 173±02 96.5 0.010

0.050 0.001 170±07 95.9 0.007

0.100 144±16 94.4 0.010

0.100 0.001 112±01 92.3 0.007

0.100 110±03 92.8 0.012

100 0.001 0.001 221±08 95.7 0.012

0.100 181±07 95.4 0.008

0.005 0.001 192±07 96.5 0.009

0.100 183±03 97.8 0.010

0.010 0.001 178±02 97.1 0.014

0.100 171±02 97.7 0.010

0.050 0.001 150±07 96.9 0.013

0.100 143±16 95.8 0.012

0.100 0.001 140±01 95.3 0.007

0.100 142±03 96.3 0.014

150 0.001 0.001 211±08 95.7 0.011

0.100 204±07 95.8 0.013

0.005 0.001 193±07 95.8 0.009

0.100 195±03 96.5 0.014

0.010 0.001 181±02 96.8 0.012

0.100 175±02 96.5 0.013

0.050 0.001 157±07 94.9 0.009

0.100 152±16 95.8 0.010

0.100 0.001 153±01 95.3 0.007

0.100 140±03 93.8 0.012

86

表 4.3: 構造適応型RNN-RBMの予測精度 (CMU)

初期パラメタ得られた構造予測精度N θG θA N 平均標準偏差150 0.001 0.001 262±08 72.7 0.012

0.100 251±07 72.8 0.013

0.005 0.001 240±07 71.8 0.009

0.100 243±03 71.5 0.009

0.010 0.001 240±02 72.1 0.010

0.100 201±02 71.5 0.013

0.050 0.001 200±07 72.2 0.013

0.100 199±16 71.5 0.009

0.100 0.001 195±01 71.1 0.010

0.100 190±03 71.7 0.009

200 0.001 0.001 281±08 71.8 0.012

0.100 280±07 72.2 0.008

0.005 0.001 260±07 71.9 0.009

0.100 263±03 72.2 0.009

0.010 0.001 250±02 72.2 0.014

0.100 241±02 73.1 0.013

0.050 0.001 230±07 72.5 0.013

0.100 223±16 72.2 0.013

0.100 0.001 220±01 72.3 0.007

0.100 219±03 71.9 0.014

250 0.001 0.001 299±08 71.3 0.012

0.100 285±07 71.9 0.008

0.005 0.001 289±07 70.6 0.010

0.100 273±03 71.1 0.009

0.010 0.001 280±02 71.4 0.007

0.100 261±02 71.3 0.010

0.050 0.001 280±07 71.9 0.013

0.100 258±16 72.4 0.011

0.100 0.001 279±01 71.9 0.005

0.100 255±03 72.1 0.014

87

ており，それぞれ学習の各反復に対する式 (2.1)によるエネルギー，誤差，式 (2.37)及び式 (2.38)によるW と cのWD，隠れニューロン数を示している．TRでは，図 4.12の 58

回目や 70回目，図 4.13の 70回目等の反復においてパラメタのWDが大きく振動している箇所が見られた．このことが原因となって，図 4.10や図 4.11の学習後半 (100回目以降の反復)で示すように，TRではエネルギーや誤差が小さな値にならなかったと考えられる．一方，ARでは，40回目の反復まで，TRと同様にパラメタのWDが振動している部分が見られたが，それ以降の学習では，図 4.14に示すように，適切と考えられるニューロン数の生成と消滅が行われたため，パラメタのWD，エネルギー，誤差が徐々に小さな値に変化した．このような傾向は，図 4.15から図 4.19に示すように，データセットCMU

でも見られた．表 4.1はデータセットNottinghamと CMUのテストデータに対する TRの予測精度を

示している．予測精度は，実際の時系列データの入力と，予測された入力との一致度の割合 (%)を示している．表 4.2及び表 4.3は，ARに対し同様の実験結果の一部 (パラメタの組み合わせの中，最も良い結果のみ)を示している．ここで，表 4.1から表 4.3における“N”は隠れニューロン数，“平均”と “標準偏差”はテストデータに対する予測精度で，クロスバリデーションにおける平均と標準偏差を示している．“初期パラメタ”は学習初期のパラメタで，“得られた構造”は学習後のネットワーク構造を示している．表 4.1のTRの予測精度は，Nottinghamに対し，隠れニューロン数が 150の場合 89.1%，CMUに対し，隠れニューロン数が 250の場合 71.7%となり，最も予測精度が高くなった．一方，表 4.2

及び表 4.3のARでは，多くのパラメタの組み合わせにおいてTRよりも高い予測精度が得られた．特に，θG = 0.001，θA = 0.100に設定した場合，データセット (Nottingham，CMU)及び初期ニューロン数に依存せず，TRよりも高い予測精度が得られた．最も高い予測精度は，Nottinghamに対し，97.8%(N = 100, θG = 0.005, θA = 0.100)，CMUに対し，73.1%(N = 200, θG = 0.010, θA = 0.100)となり，TRの最良の結果よりも高い値となった．また，このときARで得られたニューロン数は，Nottinghamに対し 183，CMU

に対し 241となったが，同じ構造を初期値としてTRに与えて学習した場合，予測精度はNottinghamに対し 89.0%，CMUに対し 71.7%となり，ARの方が高い予測精度が得られた．すなわち，ARは適切なニューロン数を発見するだけでなく，学習の精度自体も向上させる効果があることが分かった．

88

4.4.3 実験2: リカレント構造適応型DBN及び学習率調整による再学習に対する予測精度

表 4.4は，表 4.1から表 4.3で示したTR，ARの最良の結果とARl，TD，AD，ADlの結果を示している．ここで，“学習時間 (分)”は学習にかかった実行時間 (単位: 分)である．アンダーラインは，学習係数の調整による学習を適用する前のARとADの最良の結果を示している．実験の結果，どちらのデータセットについても，TR及び TDよりも，AR

及びADの方が高い予測精度を示すことができ，その値はデータセットNottinghamでは，ARが 97.8%，ADが 98.0%，データセットCMUでは，ARが 73.1%，ADが 82.3%となった．表 4.5は，ADの各層における予測精度を示している．層を生成することにより，予測精度が徐々に向上していることが分かる．また，構造適応型学習の後，学習係数の調整による学習を行った結果，学習にかかる計算時間は増加したものの，λ = 1.005(ARl-2,

ADl)の場合，予測精度が最も向上した．データセット Nottinghamでは，ARが 1.5%，ADが 1.4%，データセット CMUでは，ARが 3.4%，ADが 5.8%増加し，提案手法の中で，最も高い精度となった．一方，ARl-1で示すように，λ = 1.001の場合は学習係数が低すぎたため，ARと予測精度は変わらなかった．逆に，ARl-3や ARl-4で示すように，λ = 1.010やλ = 1.015の場合は予測精度が悪くなった．これは，学習係数が増加しすぎたため，入力データ空間の確率分布を探索する範囲を超えてしまったためだと考えられる．また，ARlの学習精度に関し，最良の結果となったパラメタλ = 1.005(ARl-2)の周辺の値について，0.001刻みで λ = {1.002, 1.003, 1.004, 1.006, 1.007, 1.008}の値を調査したところ，10回の試行平均で，データセットNottinghamに対し，順に 98.0%，99.0%，99.2%，99.1%，99.1%，98.2%となり，データセット CMUに対し，順に 73.9%，76.3%，76.3%，76.3%，73.5%，73.1%となった．この結果から，最も高い精度は λ = 1.005の場合に得られたが，その周辺である λ = {1.004, 1.006}の場合でも，この値に近い予測精度は得られた．なお，学習係数の値を調整しなかった場合 (λ = 1.000)，減少させた場合 (λ = 0.095)

において学習を行ったところ，データセットNottingham及びCMUともに，ARの場合と予測精度は変わらなかった.

89

表 4.4: 予測精度 (λ = {1.001, 1.005, 1.010, 1.015})データセット: Nottingham

予測精度手法パラメタ λ 平均標準偏差学習時間 (分)

TR 従来のRBM (初期ニューロン数: 150) - 89.1 0.013 71.5

AR 構造適応型RBM (初期ニューロン数:

100, θG = 0.005, θA = 0.100)

- 97.8 0.010 70.3

ARl-1 構造適応型RBM (λによる学習係数調整)

1.001 97.8 0.012 87.7


1.005 99.3 0.011 88.3


1.010 97.1 0.011 87.8


1.015 97.0 0.010 87.9

TD 従来のDBN (層数: 5) - 89.8 0.010 315.2

AD 構造適応型 DBN (層数: 5, θL1 =

0.10, θL2 = 0.10)

- 98.0 0.008 294.5

ADl 構造適応型 DBN (λによる学習係数調整)

1.005 99.4 0.009 357.3

データセット: CMU

予測精度手法パラメタ λ 平均標準偏差学習時間 (分)

TR 従来のRBM (初期ニューロン数: 250) - 71.7 0.011 53.8

AR 構造適応型RBM (初期ニューロン数:

200, θG = 0.010, θA = 0.100)

- 73.1 0.013 52.6


1.001 73.1 0.009 68.4


1.005 76.5 0.012 68.5


1.010 70.6 0.012 68.0


1.015 70.2 0.010 68.1

TD 従来のDBN (層数: 6) - 70.8 0.011 312.6

AD 構造適応型 DBN (層数: 6, θL1 =

0.10, θL2 = 0.10)

- 82.3 0.009 294.5

ADl 構造適応型 DBN (λによる学習係数調整)

1.005 88.1 0.010 362.1

90

表 4.5: 構造適応型RNN-DBNの各層に対する予測精度データセット: Nottingham

予測精度層数平均標準偏差1 97.8 0.010

2 97.9 0.012

3 97.9 0.012

4 98.0 0.010

5 98.0 0.008

データセット: CMU

予測精度層数平均標準偏差1 73.1 0.013

2 76.5 0.012

3 78.9 0.013

4 81.8 0.010

5 82.2 0.010

6 82.3 0.009

91

4.5 まとめ本章では，2章で述べた構造適応型RBM及び構造適応型DBNにリカレントニューラル

ネットワークにおける LSTMの考えを取り入れ，時系列データの予測を可能にした．リカレントニューラルネットワークでは，長期にわたる時系列データを学習する際，多層ニューラルネットワークにおける勾配消失と同様の問題が生じるため，長期記憶を実現することができなかったが，LSTMでは，過去の特徴を表現するための特殊なゲートを用いることで，短期記憶だけでなく長期記憶を実現できるようになった．本論文では，このLSTMの仕組みを実現したリカレントRBMに，構造適応型RBMのニューロン生成／消滅アルゴリズム，構造適応型 DBNにおける層生成アルゴリズムを取り入れた．また，構造適応型学習により適切なネットワークを求めた後に，学習係数を調整しながらネットワークの再学習 (微調整)を行うことでより高い予測精度を実現するネットワークを構築した．実験では，時系列ベンチマークデータセットとして音素列に関するNottingham，モーションキャプチャに関するCMUを用いて，提案手法のリカレント構造適応型RBM

及びリカレント構造適応型DBNの評価を行った．2章と同様に，リカレント構造適応型RBM及びリカレント構造適応型DBNは，各データセットに対して最適な構造を求めることができ，その結果として，従来の既存の手法と比較して高い予測精度を示すことができた．Nottinghamに対しては，比較的簡単なデータセットであるため，構造適応型RBM

と構造適応型DBNの予測精度はそれほど変わらなかったが，CMUに対しては，構造適応型DBNによる層生成アルゴリズムにより，構造適応型RBMと比較して予測精度が約10%向上した．さらに，学習率調整のネットワークの再学習では，予測精度を数%向上させることに成功した．このことは，リカレント構造適応型学習法だけでなく，CIFAR-10

やCIFAR-100のような分類問題に対する通常の構造適応型学習にも言えることが分かっている [D7]．今回は λを用いて学習係数を単調に増加させたが，今後はネットワークの状態や予測精度に関する影響を考慮した上で，適切な学習係数を自動で調整する手法を開発する．

92

第5章学習済み構造適応型DBNネットワークからの知識獲得

2章や 4章で述べた構造適応型 DBN及びリカレント構造適応型 DBNは，様々なデータセットに対して高い分類精度，予測精度を示した．本章では，これらの学習で得られたネットワーク構造からの知識獲得手法について述べる [A4]．高い分類精度を持った学習済み深層学習ネットワークには，入力データを表現するた

めの様々な特徴が，知識として，各層において異なるレベルで表現されている．これらは，例えば，重みの係数や，様々なパラメタの値，与えられた入力に対するニューロンの活性値等によって表現されているものであり，これらの情報を階層的に組み合わせることで，入力に近い下位層では，データの抽象的な特徴が表現され，出力に近い上位層では，下位層で得られた抽象的な特徴により具体的な特徴が表現されると言われている．このため，このようなネットワークの内部に蓄積された知識を抽出する研究が行われている[121, 122]．しかしながら，一般的に，深層学習による学習後のネットワークはブラックボックスで

ある．すなわち，学習後の重みや中間層の出力値は人間が見て直感的に理解できる形ではないため，IF-THENルールで表現されるような知識獲得を行う手法が求められている．文献 [123]では学習中に重みの値が過剰に大きくなるのを抑制する手法が提案されている．文献 [124]では，階層型ニューラルネットワークにおいて学習後のネットワークの重みを正則化し，隠れニューロンの出力値をスパースにすることで，出力値の意味付けを行う忘却学習が提案されている．文献 [125]では，学習済み深層学習ネットワークにおいて，分類精度を維持したまま，ネットワークのサイズを圧縮する蒸留 (Distillation)と呼ばれる方法が提案されている．これらの手法は，階層型ニューラルネットワークやCNNにおいて提案されている．本研究では，これらの手法と異なり，DBNの各層を構成するRBMの各ニューロンが 2値で表現されることを利用し，与えられた入力パタンに対するニューロンの発火パタンを解析する方法を用いた知識獲得手法を述べる [A4]．5.1節では，知識獲得を容易にするために，構造適応型RBM及び構造適応型DBNからのネットワーク構造をより多くの {0, 1}の 2

値パタンで表現するための忘却学習について述べる [C2, C4]．5.2節では，学習後のネットワークに実行可能な 2値の入力パタンを与え，ネットワーク内部の信号のパタンを解析することで，誤って出力するパタンに対する信号の流れを正しく出力するように重みを修正する手法について述べる [B4]．5.3節では，得られた信号のパタンに基づき，ネットワークの入出力パタンを IF-THENルールのような明示的な知識として表現する推論ルールを抽出する方法について述べる [B7, D5]．5.4節で数値実験を行い，2章や 4章で学習した構造適応型DBNのネットワークに対して提案手法を適用し，有効性を検証する．5.5

93

節で本章のまとめを述べる．

5.1 忘却学習構造適応型DBNにより，高い分類精度を持ったネットワーク構造を構築できるが，学

習後のネットワーク構造はブラックボックスである．一般的に，ネットワークに蓄積された重みや隠れニューロンの出力値と，入力データとの関係性が不明確であり，そこからIF-THENルールで表現されるような明示的な知識の獲得は困難である．本節では，学習後のネットワークからの知識獲得を容易にするために，石川が階層型ニューラルネットワークにおいて提案している忘却付き構造学習法 [124]を学習後の構造適応型DBNに適用する．忘却付き構造学習法では，「忘却学習」，「隠れユニット明確化」，「選択的忘却学習」の

3つの手続きによりネットワークの正則化を行い，スパースな構造をもつニューラルネットワークを構成している．式 (5.1)から式 (5.3)は，忘却学習による 3種類の目的関数を示しており，それぞれ忘却学習，隠れユニット明確化，選択的忘却学習を示している．

Jf = J + ε1‖W ‖p, (5.1)

Jh = J + ε2∑j

min{1− hj, hj}, (5.2)

Js = J + ε3‖W ′‖p, (5.3)

W′ij =

{Wij, if |Wij| < θ

0, otherwise,

ここで，J は学習における通常の目的関数であり，RBMの場合はCD法の推定により生じる誤差を示している．ε1，ε2，ε3は区間 [0, 1]の定数である．θはしきい値であり，0以上の値をとる．pはノルムの次数である．式 (5.1)は，通常の目的関数に重みのノルムを加えることで重み全体が必要以上に大きくなることを抑制している．p = 1の場合は L1

ノルム，p = 2の場合は L2ノルムと呼ばれている．式 (5.2)の隠れユニット明確化では，隠れユニットにおける出力を強制的に 2値化するように評価する項を追加している．式 (5.3)の選択的忘却学習では，式 (5.1)の忘却学習によって目的関数の値が通常より大きくなってしまうことを避けるために，しきい値の範囲内の重みに限定して忘却学習を行っている．これらの式を各パラメタに対して偏微分することで学習におけるパラメタの修正量を求めることができる．本研究では，構造適応型RBM及び構造適応型DBNの学習後のネットワークに対して，忘却学習を適用した．文献 [B2]においてその有効性を示している．

5.2 構造適応型DBNによるニューロンの重み修正法本節では，構造適応型DBNによるニューロンの重み修正法について述べる．DBNの各層を構成するRBMでは，入出力値が {0, 1}のバイナリである．与えられた入力に対して，発火する隠れニューロンの {0, 1}のパタンは，その層に蓄積された知識と考えること

94

ができる．さらに，このような発火パタンを入力層から出力層にかけて，ネットワークの信号の流れとして解析することで，推論に関する知識を抽出することができると考えられる．本研究では，この考えに基づいて，学習済の構造適応型DBNのネットワークに蓄積された知識を全探索するために，実行可能な 2値な入力パタンを与え，各層において得られるニューロンの入出力パタンを分析する方法による知識獲得手法を開発している．文献 [D4, D5, A4]では，テスト事例において，誤判定を生じるケースに対する特徴的な

パスを頻出度に基づいて抽出し，その一部分の重みを修正することで，正しい計算結果を得る重み手法を開発した．図 5.1は，重み修正法の概要を示している．Algorithm 5.1は，重み修正法のアルゴリズムを示している．学習済みのDBNネットワークの下位層から上位層に向けて，各層ごとにAlgorithm 5.2で示される手順を実行し，該当する重みを修正する．5.4.3節において，重み修正を行うことで分類精度が数%向上することを示す．

図 5.1: 重み修正法の概要

Algorithm 5.1 重み修正アルゴリズム1: L(1 ≤ l ≤ L)層の構造を持つ学習済みDBNネットワークが与えられる．2: 1層から L層にかけて順に，Algorithm 5.2により l層に対する重み修正法を実行する．

95

Algorithm 5.2 l層の重みを修正する重み修正アルゴリズム1: 入力データを V = {v1, · · · ,vn, · · · ,vN}とする．N は入力データ数である．V には教師ラベル Y = {y1, · · · ,yn, · · · ,yN}が与えられている．学習済みのDBNネットワークを，L(1 ≤ l ≤ L)層の構造を持つネットワークとし，lを重み修正法の対象となる層とする．

2: 学習済みのDBNネットワークに入力データV を与え，入力層から出力層に至るまでの前向きの計算を行う．ここで，各入力データ vnごとに，各層において発火したニューロンのインデックス情報を保存する．また，教師ラベル Y に対して正答したパタンをV T，誤答したパタンを V F とする．

3: l層において，式 (5.4)を満たすニューロン jを求め，このニューロンに接続されている重みの値をwcorrectに修正する．ここで，ニューロン jは，l層 (隠れ層)のニューロンを示す．式 (5.4)は，V の中で V T のみに対しニューロン jが発火する割合を示している．また，wcorrectは定数であり，ここでは，wcorrect = 1とした．

|ActTj |N

≥ θT , (5.4)

ここで，θT (0 ≤ θT ≤ 1)は閾値である．|ActTj |は，V T のみに対しニューロン jが発火する数を示している．

4: l層において，式 (5.5)を満たすニューロン jを求め，このニューロンに接続されている重みの値を wwrongに修正する．式 (5.5)は，V の中で V F のみに対しニューロン j

が発火する割合を示している．また，wwrongは定数であり，ここでは，wwrong = 0とした．

|ActFj |N

≥ θF , (5.5)

ここで，θF (0 ≤ θF ≤ 1)は閾値である．|ActFj |は，VF のみに対しニューロン jが発火する数を示している．

5.3 構造適応型DBNによる推論ルールの抽出本節では，上記の重み修正法の考えに基づき，構造適応型DBNの入力層から出力層に流れる信号のパスを利用して，深層学習の入出力パタンの関する知識を IF-THENルールで抽出する手法を提案する．5.2節で述べたように，学習後のネットワークに {0, 1}の入力パタンを与えることで，構造適応型DBNに蓄積された事前知識を信号のパスとして表現できる．本論文では，このように多段的に表現される信号のパスを，C4.5[126, 127]

のような決定木手法を用いて分類することで，IF-THENルールで表現される知識を推論ルールとして抽出した [D5]．具体的には，各データを学習後の構造適応型DBNに与え，入力から出力に至るまでの各層のネットワークのパスと，出力 (推論結果)の組を保存する．図 5.2は，このデータの例である．第 1列から第 5列までは，第 1層から第 5層までのニューロンを識別する番号を示しており，最後の列は出力を示している．各行はデータを示している．例えば，1行目のデータは，第 1層から第 5層にかけて “10 → 77 → 34→

96

Algorithm 5.3 推論ルールの抽出手順1: 入力データを V = {v1, · · · ,vn, · · · ,vN}とする．N は入力データ数である．2: 入力データ V を学習済みDBNネットワークに与え，入力から出力の各層のニューロンの発火確率を計算する．

3: 計算した発火確率の中で，各層において最も発火確率が高いニューロン番号をネットワークの信号パタンとして保存する (図 5.2)．

4: 得られたネットワークの信号パタンを決定木手法 (例：C4.5)に与え，ルール抽出を行う．

10,77,34,54,54,075,88,68,82,31,06,62,82,32,82,117,62,34,82,11,016,11,82,75,82,1

#L1,L2,L3,L4,L5,outputHeader

Data

図 5.2: C4.5のデータファイルのサンプル

54 → 54”のニューロンを通るパスで，次の出力が “0”であることを示している．これらのデータを決定木手法により分類することで，IF-THENルールで表現される知識を抽出できる．Algorithm 5.3は，ルール抽出の手順を示している．C4.5はよく知られた決定木手法であるが，類似した手法として，ID3[128]，C5.0[129]，

CART(Classification and Regression Tree)[130]等，様々な手法が提案されている．ID3

は，1986年にQuinlanによって提案された手法で，平均情報量 (エントロピー)を用いて2分木を生成するアルゴリズムである．情報量とは，ある事象が起きた際，それがどれほど起こりにくいかを示す尺度である．ID3の拡張として，C4.5が開発され，分類精度が向上した他，3分岐以上に枝分かれする決定木を生成可能となり，また決定木を IF-THEN

ルール形式で表現可能になる等の改良が行われた．C5.0は，C4.5の商用版のソフトウェアである．商用版になったことで，効率的にメモリを使用できるようになった等の性能改善が行われているが，基本的なアルゴリズムはC4.5と同様である．CARTは，C4.5のような平均情報量ではなく，ジニ係数を用いて決定木を生成することができる．これらの手法の中で，文献 [131]では，C4.5はシンプルなルールで，比較的高い分類精度を持つと述べられており，本論文では，決定木手法にC4.5を用いた．

5.4 実験5.4.1 実験1: 忘却学習による構造学習本節では，5.1節による忘却学習により，学習後の構造適応型DBNの重みが，より多くの {0, 1}のパタンで表現されることを数値実験により示す．2.7.5節では，CIFAR-10に対

97

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0 10 20 30 40 50 60 70 80 90 100

|W|

epochs

No penaltyL1L2

図 5.3: 忘却学習による重みの変化

して構造適応型RBMによる学習を行ったが，ここで得られたこのネットワーク構造に対し，忘却学習により再学習を行った．式 (5.1)を適用しない結果と，式 (5.1)の L1ノルム，L2ノルムを適用した結果を比較した．ε1 = 0.001とし，100回の学習を行った．図 5.3は，学習により得られた重みの値を示している．ここで，横軸は学習の反復回数で，縦軸は重み全体の絶対値の平均を示している．図 5.4は，これらの 3つの方法における学習後の重みのヒストグラムを示している．横軸は重みの値を示し，縦軸は頻度 (全体の割合)を示している．実験の結果から，図 5.3に示すように，忘却学習を行わない場合，学習が進むにつれて

重みの値は増加しているが，L2ノルムの場合は，重みの上昇が緩やかに抑えられ，L1ノルムでは一定値以上増加ないように学習が行われている．また，図 5.4(b)に示すように，学習後の重みの分布は，L1ノルムを使用した際に最も多くの 0を持つ構造になった．なお，L1ノルムによる忘却学習によって，分類精度の低下は見られなかった．ただし，ノルムにかかる係数 ε1の値を大きくしすぎると，重みはより 0で表現されるものの，分類精度が低下する．L1，L2ノルムでは，重みはそれぞれ絶対値，二乗により表現されている．この性質により，目的関数を微分することで，L1ノルムでは重みの一部が 0になるように学習が行われ，一方，L2ノルムでは，学習の状況によっては重みは完全に 0にならないものの，重みのノルムが緩やかに小さくなる．本研究では，知識獲得のため，学習後の構造適応型DBNのネットワーク構造をより多くの {0, 1}のパタンで表現することを目的とするため，L1ノルムを用いた忘却学習を適用した．このことにより，与えられた入力に対して発火する隠れニューロンを探索する方法による知識獲得が容易になる．

98

−1.00 −0.75 −0.50 −0.25 0.00 0.25 0.50 0.75 1.00

weight value

0.0

0.1

0.2

0.3

0.4

0.5

0.6

frequency

(a) 忘却学習なし

−1.00 −0.75 −0.50 −0.25 0.00 0.25 0.50 0.75 1.00

weight value

0.0

0.1

0.2

0.3

0.4

0.5

0.6

frequency

(b) 忘却学習あり (L1ノルム)

−1.00 −0.75 −0.50 −0.25 0.00 0.25 0.50 0.75 1.00

weight value

0.0

0.1

0.2

0.3

0.4

0.5

0.6

frequency

(c) 忘却学習あり (L2ノルム)

図 5.4: 忘却学習後による重みの分布

99

5.4.2 実験2: 構造適応型RBMのニューロン生成アルゴリズムにおける入出力パタンの調査

2.5.2節で述べたように，構造適応型 RBMのニューロン生成アルゴリズムでは，ネットワークの分類能力が不足している場合，関連する隠れニューロンの属性値を継承したニューロンを生成する．ニューロン生成過程では，WDが大きなニューロンを特定し，その元 (親)のニューロンのパラメタを継承することで，新しいニューロンを生成する．ニューロン生成後，学習が進むにつれ，ニューロン生成前では表現できなかった入力データが表現できるようになり，結果として，複数の隠れニューロンによるデータの分離が行われ，分類精度が向上すると考えられる．本節では，このことを数値実験により示すため，ネットワークの重みや与えられた入力パタンに対するニューロンの活性値が，ニューロン生成の前後においてどのように変化するのか調査した．2.7.5節及び 2.7.6節では，CIFAR-10，CIFAR-100に対し構造適応型RBMと構造適応型DBNで学習した．構造適応型DBNでは，CIFAR-10とCIFAR-100に対し，6層のネットワークが得られている．ここでは，1層目の構造適応型RBMの 100回目の学習のネットワークと，ニューロン生成後の 200回目の学習のネットワークに対し，実行可能な {0, 1}の 2値のパタンを与え，ニューロンの発火パタンの比較を行った．実験の結果，CIFAR-10，CIFAR-100に対し，100回目の学習時点の元のニューロンの重みの値と，200回目の学習時点の元及び生成されたニューロンの重みの値を比較したところ，表 5.1に示すケース 1

からケース 4の 4種類の事例が見られた．これらのケースは，元のニューロンに接続されている重みの一部が，学習によって，新しく生成されたニューロンの重みに分散された事例であると考えられる．ここで，表 5.1の「割合」は，生成されたニューロンがケース 1

からケース 4に属する割合を示している．図 5.5は，ニューロン生成前 (100回目の学習，図 5.5(a))とニューロン生成後 (200回目の学習，図 5.5(b)から図 5.5(d))のケース 1からケース 3の具体的な事例を示している．図 5.5(a)の数値は，ニューロン間の重みの値を示しており，値に応じて線の太さを変えている (1.0: 太線，0.5，細線，0.1，点線)．ニューロン生成前では，図 5.5(a)に示すように，ニューロン h4のWDが大きくなり，このニューロンに対する接続の強さは，ニューロン v4が最も強く，次に v6, v5の順で強くなった．ニューロン生成により，ニューロン h4のパラメタを継承した新規ニューロンhnが生成された．ケース 1では，図 5.5(b)に示すように，ニューロン生成によりニューロン v4から h4への接続が弱くなり，代わりにニューロン v4から hnへの接続が強くなった．ケース 2では，図 5.5(c)に示すように，ニューロン生成によりニューロン v6から h4への接続が弱くなり，代わりに，ニューロン v6から hnへの接続が強化された．ケース 3では，図 5.5(d)に示すように，親のニューロンである h4への接続の強さは変わらず，ニューロン v5から hnへの接続が強化されている．なお，ケース 4については，上記以外の事例であり，ニューロン生成を行ってもパスが大きく変化していないことから，冗長なニューロン生成が行われた可能性が考えられる．表 5.2は，図 5.5におけるケース 1からケース 3において，5つの {0, 1}のパタンを与えた際のニューロンの活性値を事例として示している (23 = 8通りのパタンがあるが，この中で変化があった 5通りのパタンを示している)．ニューロン生成前においては，v4とv6のどちらかの値が 1であれば，h4の値が 1となっているが (表 5.2のNo.1,2,3の場合)，

100

表 5.1: ニューロン生成により重みが変化した事例 (hj: 元のニューロン，hn: 生成されたニューロン)

ニューロン hn生成前ニューロン hn生成後各ケースの割合Wij(元) Wij(元) Win(生成) CIFAR-10 CIFAR-100

ケース 1 1.0 ≤ Wij Wij < 0.5 1.0 ≤ Win 31.5% 28.8%

ケース 2 0.5 ≤ Wij < 1.0 Wij < 0.5 1.0 ≤ Win 34.4% 33.7%

ケース 3 Wij < 0.5 Wij < 0.5 1.0 ≤ Win 26.1% 31.2%

ケース 4 上記のいずれにも該当しない 8.0% 6.3%

visible neurons

v4

...

v5 v6

h3 h4 h5

... ...

...

hidden neurons

1.0 0.50.1

(a) ニューロン生成前

visible neurons

v4

...

v5 v6

h3 h4 hn h5

... ...

...

hidden neuronsNew

(b) ニューロン生成後 (ケース 1)

visible neurons

v4

...

v5 v6

h3 h4 hn h5

... ...

...

hidden neuronsNew

(c) ニューロン生成後 (ケース 2)

visible neurons

v4

...

v5 v6

h3 h4 hn h5

... ...

...

hidden neuronsNew

(d) ニューロン生成後 (ケース 3)

図 5.5: ニューロン生成よりパスが変化した各事例に対するネットワーク構造

101

表 5.2: 各ケースに対する入出力パタンの例出力パタン

No. 入力パタン生成前ケース 1 ケース 2 ケース 3

v4 v5 v6 h4 h4 hn h4 hn h4 hn

1 1 0 1 1 1 1 1 1 1 0

2 0 0 1 1 0 1 1 0 1 0

3 1 0 0 1 1 0 0 1 1 0

4 0 0 0 0 0 0 0 0 0 0

5 0 1 0 0 0 0 0 0 0 1

ニューロン生成後のケース 1とケース 2では，これらのパタンが h4と hnを用いて区別して表現されている．例えば，v4，v5，v6にそれぞれ {0, 0, 1}を当てた場合，ケース 1では h4と hnが {0, 1}，ケース 2では {1, 0}と出力される．また，ニューロン生成前では表5.2のNo.4とNo.5のパタンは区別されていないが，ケース 3では，hnにより区別して表現されている．これらのことから，構造適応型DBNの学習中に生成されたニューロンの90%以上はケース 1からケース 3のいずれかに該当し，かつ，これらのケースは，生成前では同じパタンとして扱われていたものが区別されるように学習が行われている．つまり，ニューロン生成前では上手く分類できなかった事例が，ニューロン生成により，複数の隠れニューロンの組み合わせにより分離されるようになった

5.4.3 実験3: 学習済み構造適応型DBNに対する重み修正法による分類精度の向上

画像ベンチマークテストCIFAR-10に対し，2.7.6節の構造適応型DBNの学習により，6層のネットワークが形成され，テストデータに対して 97.4%の分類精度を示した (表 2.10)．誤分類を引き起こした事例を調査したところ，猫を犬と判別するなど，画像の中に複雑であいまいな特徴が含まれていることが分かった．そこで，このようにあいまいな特徴を持つ事例の判別や学習したネットワークの知識獲得を行うための調査として，テスト事例における各クラスに対して正答した事例と誤答した事例をそれぞれ学習済みのネットワークに入力として与え，出力に至るまで各層において発火した隠れニューロンのパスを可視化した．図 5.6と図 5.7は，CIFAR-10のクラスの猫 (Cat)と犬 (Dog)に対して，正答した事例と誤答した事例を与えた場合のネットワークのパスの一例を示している．ここで，ノードの中の数字は隠れニューロンの添字を示している．ノード間のアークは重みを示し，重みの強さに応じてアークの線の太さを 5段階で表している．正答した事例と誤答した事例で発火したニューロンのパスを比較すると，誤答した事例

は，正答した事例と異なるパスを通っていることが分かった．図 5.6(a)，図 5.6(b)の例では，1層では 221番，281番，2層では 15番，1594番のニューロンを通るパスの重みがどちらの事例においても強くなった．3層において，正答した事例では 0番，281番を通るパスの重みが強くなったが，誤答した事例では 0番を通る重みが弱くなり，代わりに，301

番を通る重みが強くなった．これに伴い，以降の層において発火する隠れニューロンに変

102

化が現れた．また，図 5.6(b)と図 5.7(a)及び図 5.6(a)と図 5.7(b)において，同じニューロンを発火するケースが見られた．猫を犬と識別した事例である図 5.6(b)では，5層において 44番のノードが誤って発火しているが，犬を犬と識別した事例である図 5.7(a)でも，同じノードが発火している．同じように，猫を猫と識別した事例である図 5.6(a)では，5

層において 31番のノードが発火しているが，犬を猫と識別した事例である図 5.7(b)でも，このノードが発火している．これらは，犬や猫を区別するためのニューロンであると考えられる．さらに，図 5.6(a)から図 5.7(b)の全てにおいて，5層の 128番の隠れニューロンが発火し，これは猫と犬の共通した特徴を持つニューロンであると考えられる．このように，誤って識別した事例では，正答した事例に含まれる特徴を表すニューロン

だけでなく，別のクラスの特徴を表すニューロンも同時に発火していた．例えば，猫を犬と識別した例では，5層において，猫の特徴を表す 31番のニューロンだけでなく，犬の特徴を表す 44番のニューロンも同時に発火している (図 5.6(b))．その原因は，3層以降において，正答した事例とは異なるパスを通ってしまったことである．そのため，Algorithm 5.1の重み修正法を用いて，分類精度を改善するためのルール

抽出を行った．本論文では，θT = θF = 0.4とした．図 5.8は，得られたルールの例を示している．ここで図 5.8の 2行目の “IF the neurons [0 , 85 , 281] (3) are fired THEN the

neurons [301] (1) will be inactivated .”は，0, 85, 281番目の 3個のニューロンが同時に発火すれば，301番目のニューロンを非活性にすることを意味している．表 5.3は，重み修正法の適用前後のCIFAR-10に対する分類精度を示している．重み修正を行うことで，訓練データに対する分類精度は変わらず，テストデータに対する分類精度が向上した．CIFAR-100に対しても，CIFAR-10と同様の結果が得られた．CIFAR-100では，6層のネットワークが形成され，テストデータに対して 81.2%の分類精度を示した (表 2.11)．CIFAR-100と同様の手順で，重み修正法を適用した．図 5.9と図 5.10は，CIFAR-100のクラスのアザラシ (Seal)とカワウソ (Otter)に対して，正答した事例と誤答した事例を与えた場合のネットワークのパスを示している．図 5.11は，重み修正法により得られたルールの例を示している．表 5.4は，重み修正法の適用前後の CIFAR-100に対する分類精度を示している．重み修正を行うことで，訓練データに対する分類精度は変わらず，テストデータに対する分類精度が向上した．なお，得られたルール数は，CIFAR-10，CIFAR-100に対し，それぞれ 14個，74個で

あった．重み修正法における閾値を変更することで，より多くのルールを抽出できる．この場合，テストデータに対する分類精度はより向上するが，一方で，訓練データに対する分類精度は低下することが分かっている．

103

...30 ...

Cat(True Positive)

... layer 1

layer 2

layer 3

layer 4

layer 5

221 ... 4322810

... ...0 ...8 ...214 1022

... ... 15940 ...15 ...400 672

...98 ...... 281 ... 3683010

... ...0 ...25 ...71 1030

...31 ...... 44 ... 1911280

layer 0(input)

1461

1728

(a) 正解した事例 (Catを Catを出力)

...30 ...

Cat(False Positive)

... layer 1

layer 2

layer 3

layer 4

layer 5

221 ... 4322810

... ...0 ...8 ...214 1022

... ... 15940 ...15 ...400 672

...98 ...... 281 ... 3683010

... ...0 ...25 ...71 1030

...31 ...... 44 ... 1911280

layer 0(input)

1461

1728

(b) 不正解した事例 (Catを Dogと出力)

図 5.6: 学習後の各層の隠れニューロンの発火パス (CIFAR-10, Cat)

104

...44 ...

Dog(True Negative)

... layer 1

layer 2

layer 3

layer 4

layer 5

103 ... 4321500

... ...0 ...66 ...501 922

... ... 15940 ...121 ...672 1372

...68 ...... 270 ... 3682900

... ...0 ...25 ...71 1030

...31 ...... 44 ... 1911280

layer 0(input)

1461

1728

(a) 正解した事例 (Dogを Dogを出力)

...44 ...

Cat(False Negative)

... layer 1

layer 2

layer 3

layer 4

layer 5

103 ... 4321500

... ...0 ...66 ...501 922

... ... 15940 ...121 ...672 1372

...68 ...... 270 ... 3682900

... ...0 ...25 ...71 1030

...31 ...... 44 ... 1911280

layer 0(input)

1461

1728

(b) 不正解した事例 (Dogを Catと出力)

図 5.7: 学習後の各層の隠れニューロンの発火パス (CIFAR-10, Dog)

105

Rule 1 (Cat)

IF the neurons [0, 85, 281] (3) are fired THEN the neurons

[301] (1) will be inactivated.

Rule 2 (Dog)



Rule 3 (Automobile)



Rule 4 (Truck)



Rule 5 (Airplane)



Rule 6 (Ship)



図 5.8: 知識獲得により得られたルールの例 (CIFAR-10, 3層)

表 5.3: 重み修正法を用いたCIFAR-10の分類結果

訓練データテストデータ重み修正法の適用前 100.0% 97.4%

重み修正法の適用後 100.0% 98.6%

106

...22 ...

Seal(True Positive)

... layer 1

layer 2

layer 3

layer 4

layer 5

100 ... 6325030

... ...0 ...8 ...214 1022

... ... 20110 ...101 ...310 1003

...98 ...... 331 ... 5615010

... ...0 ...12 ...449 1202

...98 ...... 211 ... 4222960

layer 0(input)

1613

1728

layer 6... ...0 ...89 ...311 976 1431

(a) 正解した事例 (Sealを Sealを出力)

...22 ...

Seal(False Positive)

... layer 1

layer 2

layer 3

layer 4

layer 5

100 ... 6325030

... ...0 ...8 ...214 1022

... ... 20110 ...101 ...310 1003

...98 ...... 331 ... 5615010

... ...0 ...12 ...449 1202

...98 ...... 211 ... 3222960

layer 0(input)

1613

1728

layer 6... ...0 ...89 ...311 976 1431

(b) 不正解した事例 (Sealを Otterと出力)

図 5.9: 学習後の各層の隠れニューロンの発火パス (CIFAR-100, Seal)

107

...22 ...

Otter(True Negative)

... layer 1

layer 2

layer 3

layer 4

layer 5

100 ... 6325030

... ...0 ...8 ...214 1022

... ... 20110 ...101 ...310 1003

...98 ...... 331 ... 5615010

... ...0 ...12 ...449 1202

...98 ...... 211 ... 3222960

layer 0(input)

1613

1728

layer 6... ...0 ...89 ...311 976 1431

(a) 正解した事例 (Otterを Otterを出力)

...22 ...

Otter(False Negative)

... layer 1

layer 2

layer 3

layer 4

layer 5

100 ... 6325030

... ...0 ...8 ...214 1022

... ... 20110 ...101 ...310 1003

...98 ...... 331 ... 5615010

... ...0 ...12 ...449 1202

...98 ...... 211 ... 3222960

layer 0(input)

1613

1728

layer 6... ...0 ...89 ...311 976 1431

(b) 不正解した事例 (Otterを Sealと出力)

図 5.10: 学習後の各層の隠れニューロンの発火パス (CIFAR-100, Otter)108

Rule Name: rule3

IF the neurons [120] is fired , and the neurons [1, 6, 9, ..., 743,

748, 751] are inactivated ,

THEN the neurons [32, 58, 85, ..., 547, 633, 696] will be fired , and

the neurons [18, 86, 132, ..., 720, 721, 726] will be inactivated.

Rule Name: rule11

IF the neurons [1, 7, 11, ..., 748, 751, 754] are inactivated ,

THEN the neurons [69, 135, 162, ..., 385, 465, 604] will be fired ,

and the neurons [120, 193, 194, 511, 545] will be inactivated.

Rule Name: rule13



the neurons [33, 301, 604, 694, 706] will be inactivated.

Rule Name: rule34

IF the neurons [119, 120] are fired , and the neurons [1, 14, 20, ...,

748, 751, 754] are inactivated ,

THEN the neurons [95, 463] will be fired , and the neurons [67, 69,

303, 679] will be inactivated.

Rule Name: rule37



the neurons [13, 39, 169, ..., 628, 712, 743] will be inactivated.

Rule Name: rule42



THEN the neurons [54, 61, 125, 223, 276, 337, 340] will be fired , and

the neurons [39, 87, 314, ..., 611, 621, 633] will be inactivated

.

Rule Name: rule43

IF the neurons [119, 120] are fired , and the neurons [1, 9, 14, ...,

743, 748, 751] are inactivated ,

THEN the neurons [50, 54] will be inactivated.

Rule Name: rule47



the neurons [25, 125, 359, 716] will be inactivated.

Rule Name: rule49



THEN the neurons [166, 394, 498, 605, 615] will be fired , and the

neurons [136, 204, 329, ..., 684, 711, 729] will be inactivated.

図 5.11: 知識獲得により得られたルールの例 (CIFAR-100, 3層)

109

表 5.4: 重み修正法を用いたCIFAR-100の分類結果

訓練データテストデータ重み修正法の適用前 100.0% 81.2%

重み修正法の適用後 100.0% 85.6%

5.4.4 実験4: 学習済み構造適応型DBNからの推論ルール抽出本節では，5.3節の知識獲得手法の評価として，4.4節においてNottinghamやCMUに対して学習したリカレント構造適応型DBNのネットワーク構造から，推論に関する IF-

THENルールの抽出を行う．リカレント構造適応型DBNでは，5層のネットワークが形成されたが，この構造に対して実行可能な 2値のパタンを与え，各層において発火するニューロンの情報をパスとして保存し，これをC4.5で分類することにより推論ルールを抽出した．得られた推論ルールの評価として，ルールの予測精度を求め，下記のスペックの PCを用いて推論にかかる計算時間を測定した．CPU: Intel(R) Core(TM) i5-4460 @

3.20GHz, GPU: GTX 1080 8GB, Memory: 8GB, and OS: Fedora 23 64 bit.

知識獲得手法により，Nottingham，CMUに対し，それぞれ 125個，153個の IF-THEN

ルールが得られた．図 5.12は，生成された決定木の一部を示している．図における “layer0

= a: b (c/d)”は，0層における a番目のニューロンが発火すると，出力が bであるルールを意味し，ここで，このルールに該当したサンプル数は全部で c個で，このうち，d個は誤って分類されたことを意味する (ただし，d = 0の場合，dは省略)．ここで得られた知識を用いて，学習済みのネットワークの代わりに予測を行った結果が表 5.5，表 5.6である．ここで，上記のPCを用いて 1つの事例を予測するためにかかる時間 (秒)を示している．推論の際，学習済みネットワークを用いる場合はGPUを用いて計算し，知識を用いる場合は，GPUを使用せず，CPUのみで計算した．学習済みのネットワークを用いた予測精度がNottingham，CMUに対し，それぞれ 93.1%，82.3%であったのに対し，知識を用いた予測精度は，それぞれ 90.1%，80.9%となった．これらの予測精度はわずかに低下したものの，一方で予測にかかる時間を約 1/40程度短くすることができた．これらはトレードオフの関係であるが，抽出した知識は単なる IF-THENルールであるため，GPU

が搭載されていない安価なPCやタブレット端末等上で推論を行うことも可能である．抽出したルールを用いることで，深層学習の利活用がさらに促進されることが期待できる．

110

layer0 = 98: 0 (38.0/1.0)layer0 = 4:| layer1 = 0: 0 (0.0)| layer1 = 1: 0 (0.0)| layer1 = 2: 0 (0.0)| layer1 = 3: 0 (0.0)| layer1 = 5: 0 (0.0)| layer1 = 6: 0 (0.0)| layer1 = 7: 0 (0.0)layer0 = 6:| layer1 = 0: 0 (0.0)| layer1 = 1: 0 (0.0)| layer1 = 2: 0 (17.0)| layer1 = 3: 0 (0.0)| layer1 = 5: 0 (3.0)| layer1 = 6: 0 (0.0)| layer1 = 7: 0 (3.0)layer0 = 10:| layer1 = 0: 0 (0.0)| layer1 = 1: 0 (0.0)| layer1 = 2: 0 (2.0)| layer1 = 3: 0 (0.0)| layer1 = 5: 0 (1.0)| layer1 = 6: 0 (1.0)| layer1 = 7: 0 (0.0| layer1 = 43: 0 (9.0)| layer1 = 44: 0 (8.0)| layer1 = 45: 0 (0.0)| layer1 = 46: 0 (0.0)| layer1 = 48: 1 (1.0)| layer1 = 54: 0 (0.0)| layer1 = 58: 0 (0.0)

図 5.12: C4.5により得られた決定木の例

111

表 5.5: 知識を用いた予測精度 (Nottingham)

分類精度 (%) 計算時間 (秒)

学習済みネットワークを用いた推論 93.9 0.85

知識を用いた推論 90.1 0.02

表 5.6: 知識を用いた予測精度 (CMU)

分類精度 (%) 計算時間 (秒)

学習済みネットワークを用いた推論 82.3 0.38

知識を用いた推論 80.9 0.01

112

5.5 まとめ構造適応型RBM及び構造適応型DBNは，画像，時系列データ等の様々な種類のデータに対して高い分類精度，予測精度を示しているが，そのネットワーク構造はブラックボックスである．本章では，これらの学習後の構造適応型RBM及び構造適応型DBNからの知識獲得を行った．CNNと異なり，RBMは 2値で表現されたニューロンを利用し，実行可能な {0, 1}のパタンを学習後のネットワークに与え，入力層から出力層に至るまでに発火するニューロンを調査した．この結果，得られた信号のパスには，構造適応型DBN

の多段的な推論に関する知識が含まれており，これを利用するための手法として，5.2節では，誤った信号を正しく修正する重み修正法，5.3節では，深層学習の入出力パタンをIF-THENルールの知識として抽出する手法を提案した．実験では，実行可能な {0, 1}のパタンを学習中の構造適応型RBMに与えることで，ニューロン生成アルゴリズムによりデータが 2値の隠れニューロンの組み合わせにより分離されていることを示した．また，重み修正法により，再学習することなく，テストデータに対する分類精度を改善することに成功した．重み修正法は，IoTによるデータ分析のように，未知なパタンに対してリアルタイムに適応する必要がある状況での活用が期待される．最後に，学習後のネットワークから IF-THENルール形式の知識を推論ルールとして抽出した．獲得した知識を活用して予測を行うことで，学習済みのネットワークを用いるよりもやや予測精度が劣るものの，非常に早い計算時間で予測を実現することができた．これにより，深層学習と同程度の性能を持ったルールベースの推論が可能になる．例えば，Raspberry Piのような組み込み機器，Androidのようなタブレット端末，スマートフォンに組み込むことも可能となり，様々な場面での利活用が今後期待される．

113

第6章医療検診ビッグデータを用いた医療診断支援システムの構築

近年，日本人の生活習慣の変化や高齢者の増加により，生活習慣病による死亡のリスクが高まっている．特に，乳癌や大腸癌などの 5大癌は死亡率だけでなく再発率も高く，5

年から 10年の長期観察が必要である．国立がん研究センターなどの研究グループは，性別，年齢，診断年，癌の部位，臨床病期，受けた手術，治療法などを入力すると，5年及び 10年後の生存率を出力する生存率解析システムを一般公開している [132]．しかしながら，医師が行う実際の診療では，問診・血液検査結果などの数値データやカルテに記載されている自然言語，レントゲン，MRI，CTなどの医療画像などのマルチモーダルデータから中間的な仮説を立て，これらを総合的に分析する方法で診断が行われており，医師が行う診断を実現するための計算知能手法を応用したシステムが必要である．広島県では，メタボリックシンドロームの早期発見と予防を目的とした特定健康診査における受診率がH20年からH24年にかけて 33.3%から 40.9%に上昇しているものの，全国平均の 44.6%と比べると低く，地域課題になっている．また中山間地や島しょ部では，検診機関とかかりつけ医である診療所は通常別機関となっており，インターネット通信によって検査結果を受信し，日常の健康状態管理を診療所で継続的に行う必要がある．継続的な検診，精細な診断が実施されれば，生活習慣病予防や疾病の予防につながるだけでなく，患者自身がデータに基づいた健康管理を自ら行う重要性を認識できるようになる．結果として，健康管理に必要な検診の受診につながり，検診率の増加が期待できる．しかしながら，癌疾患など高度な診断知識を要する場合，診療所独自では診断が行えないことがある．本章では，このような検診率の向上及び専門医不足に関する課題を解決するために，2

章から 5章で開発した構造適応型DBN，マルチモーダルデータ学習法，リカレント構造適応型DBN，知識獲得手法を，3章で用いた医療検診ビッグデータに適用し，医師の診断を支援する深層学習システムを開発した [B8]．6.1節において，開発した医療診断支援システムについて述べ，診療所で実際に収集されたデータを用いて性能評価を行う [D8, D10]．医療画像には，一般の定期健康診断に含まれている胸部X線画像や，癌検診に含まれている胸部CT画像や胃部X線画像等がある．胸部X線画像は，一般の定期健康診断に含まれている簡易的な検査であるため，癌検診のデータに比べて多くのデータが蓄積されているが，癌等の病気に関するラベルは与えられておらず，要検査等の判定結果に留められている．一方，このような実際の医療検診データとは異なり，胸部 X線画像ベンチマークデータセットChestX-ray8(CXR8)[55]があり，要検査等の判定ではなく，肺に関する病気や癌に関する症状ラベルが与えられている．本論文では，開発した医療診断支援システムにおいて，通常の胸部X線画像から，癌予測ができるよう，6.2節においてCXR8

の学習を行う [D11]．また，CXR8には分類のための疾病ラベルの他，部位を表す矩形の

114

位置が与えられている．これを検出するための手法として，構造適応型DBNによる物体検出法を 6.3節で述べる [D12, D14]．6.4節で本章のまとめを述べる．なお，本章で取り扱う医療検診データは，3章で述べたデータであり，平成２８～２９年度総務省戦略的情報通信研究開発推進事業 (SCOPE)「検診結果に基づく深層学習による予測システムの開発とひろしま健康長寿ネットワークの構築」において，県立広島大学，広島市立大学，広島県環境保健協会で行われた共同研究で用いたデータである．

6.1 医療診断支援システムの構築本節では，癌予測のために構築した医療診断支援システムについて説明する．

6.1.1 実験1: リカレント構造適応型DBNによる医療検診データの経年変化予測

本節では，3章で述べた医療検診データを用いた医療診断支援システムを構築する．構造適応型DBNに対する分類精度やROC曲線は既に 3章で述べた．ここでは，4章で述べたリカレント構造適応型DBNを用いた時系列予測を行う [D13]．医療検診データには，個人を特定する情報は含まれていないが，データごとに患者を識

別する患者 IDが割り当てられているため，これを用いることで，患者ごとの経年変化を追うことができる．医療検診データの中で，2012年から 2015年の 4年間のデータを患者IDごとに集計した．健康診断は年に 1度行われるため，各患者ごとのデータ数は，1から4件であり，表 6.1はこのデータ数を示している．ここでは，時系列予測を行うため，4年間蓄積されているデータのみを使用した．また，このデータを 4:1の割合で，訓練データとテストデータに分割し，画像を除く検査項目 (表 3.5及び表 3.6)のみ，時系列予測に使用した．リカレント構造適応型DBNを用いて，4年間の訓練データの検査項目を学習した．学習後，テストデータを用いて予測精度を評価した．テストデータは 4年間の記録であるが，この中で，最初の n(1 ≤ n ≤ 3)年を入力として使い，残り 4−n年目の予測を行い，結果を比較した．表 6.2はこの結果であり，ここで予測精度は，実際の検査項目の数値と，予測された検査項目の値との二乗和誤差により計算される．ここでは，検査項目の数値予測

表 6.1: 医療検診データにおける各年ごとのデータ数

年数件数 (患者数)

4 15,463

3 7,824

2 10,929

1 14,350

115

表 6.2: 予測結果

入力年数二乗和誤差正答率1 1.22 51.4%

2 0.58 70.6%

3 0.05 91.1%

表 6.3: 予測結果 (正常と異常)

正常 (10,947件) 異常 (4,516件)

入力年数二乗和誤差正答率二乗和誤差正答率1 1.12 51.6% 1.45 50.9%

2 0.56 71.3% 0.62 68.9%

3 0.03 91.3% 0.11 90.5%

を行ったが，予測された数値が実際に異常もしくは正常かどうかを判定するために，3章で医療検診データの学習を行った通常の構造適応型DBN(リカレントではない)に対して，ここで予測されたデータを与え，分類精度を評価した．なお，通常の構造適応型DBNの分類精度は，テストデータに対して 96.1%である．表 6.3は，表 6.2における正常データと異常データの内訳を示している．ここで，異常データとは，4年間の時系列データのうち，少なくとも 1年間異常が含まれているデータのことである．表 6.4は，この異常データのうち，n年目に異常が生じたデータごとの予測結果を示している．4年目に異常が発生したデータの方が，二乗和誤差が小さくなり，正答率が高くなった．特に，正常，異常のどちらについても，3年間の入力データがあれば，4年目の状態を 90%以上の精度で予測することができた．

表 6.4: 予測結果 (異常が発生した時期)

異常になった年数2年目 (904件) 3年目 (753件) 4年目 (860件)

入力年数二乗和誤差正答率二乗和誤差正答率二乗和誤差正答率1 1.47 50.6% 1.45 50.9% 1.45 50.8%

2 - - 0.59 70.1% 0.53 70.3%

3 - - - - 0.08 91.3%

116

図 6.1: システムの概要

6.1.2 医療診断支援システムの構築医療検診データに対してこれまでに学習した構造適応型DBNの結果を用いて，医師の診断を支援する医療診断システムを開発した [D8, D10]．図 6.1は，開発したシステムの概略図である．システムは，クライアント，Webサーバ，GPU計算機から構成される．ここで，クライアントとは，PCのブラウザや，専用のアプリがインストールされたAndroid

端末等である．Webサーバは，クライアントと直接ネットワーク通信を行うサーバである．GPU計算機には，学習済みの構造適応型DBNのネットワークが保存され，これを用いて，与えられた入力データに対する出力 (推論結果)が計算される．下記は，システムを用いた推論の手順を示している．図 6.2は，開発したシステムの推論の画面を示している．

1. クライアントは，患者番号をWebサーバに送信する．ここで，患者番号とは，患者を識別する任意の文字列である．

2. Webサーバは，クライアントから受け取った患者番号を用いて，患者DBに保存されている患者データを抽出する．

3. Webサーバは，抽出した患者データを用いて，GPU計算機に推論のリクエストを行う．

4. GPU計算機は，受け取った患者データを入力とし，学習済みのネットワークを用いて出力 (推論)を行い，これをWebサーバに返却する．

5. Webサーバは，受け取った出力結果をクライアントに出力する．

117

(a) PC

(b) Android

図 6.2: 医療診断支援システム

118

6.1.3 実験2: 医療診断システムの出力結果と知識獲得手法による評価6.1.2節で構築した医療診断システムは，医療検診データのテストデータ (肺癌)に対して 96.1%の分類精度を示している．この数値は，胸部CT画像と血液検査データを学習後の構造適応型DBNに与えることで得られているが，ここで，データの一部が欠損した場合においても，比較的高い分類精度を示している．特に，胸部CT画像が欠損した場合として，血液検査データと，画像の平均的な特徴画像 (異常のない画像)を与えた場合，その分類精度は 83.4%であった．すなわち，画像がない場合でも，血液検査の異常項目の関係性から，出力として癌の可能性を推論していると考えられる．本節では，このことを調査するために，知識獲得手法により，血液検査の異常項目と癌に関するルール抽出を試みた．この構造適応型DBNのネットワークに基づき，システム構築の際の学習には使用しな

かった未知の医療データで，画像が与えられていないデータを用いて，システムの出力に関する分析を行った．このデータは，クリニック Aから提供を受けたデータであり，これらは医療画像がない 403件 (男性: 172件，女性: 231件)の血液検査データである．血液検査データの項目は，表 3.5，表 3.6に示す通りである．この血液検査データと異常がない画像をシステムに与え，構造適応型DBNの出力を計算したところ，肺癌と胃癌について，図 6.3に示すような分布が得られた．図 6.3の横軸は癌の可能性の階級を示しており，縦軸は各階級に属している度数を示している．それぞれの癌の可能性は，高くても50%程度で，60%以上の事例は見られなかった．また，女性の方が男性よりもデータ数が多く，全体的に高齢であったこともあり，出力される癌の可能性は女性の方が高い傾向が見られた．さらに，5章で述べた知識獲得手法を用いて，構造適応型DBNの信号の流れに基づき，

入力である血液検査データと，その出力である癌の可能性に関する知識を IF-THENルールで抽出した．図 6.4は，C4.5により生成された決定木の一部を示している．表 6.5は，C4.5から得られた計 18個のルールを示している．これらのルールを用いて予測したところ，分類精度は 98.2%であった．この結果から，得られたルールは構造適応型DBNの入出力パタンを概ね正しく表現できていると考えられる．表 6.5から，全体的な特徴として，癌のリスクが高まるにつれて，白血球数が基準値よ

りも高くなる傾向が見られた．肺癌のリスクがある被験者に対する検査項目のうち，白血球，アルブミン，総蛋白に異常の症状が見られた．アルブミンや総蛋白は，直接癌とは関係ないが，癌の進行が進んだ場合，血液中の蛋白質が減少するケースが報告されている[133]．ルール “A-6”の白血球，BMI，ヘモグロビン，eGFR等の異常は，高齢者で，肺癌のリスクが高い場合に見られた症状である [134]．また，胃癌のリスクがある被験者には，GPT，GOT，γGTP等の検査項目に異常の症状が見られた．これらは肝蔵に関する検査項目であるが，肝臓癌を発症している場合で，胃等の他の部位に癌が転移しているケースが報告されている [133]．これらの結果は，すぐに再検査の必要性があるとは言えないが，発見された知識のいくつかは，Webサイトでも同様の特徴があることが報告されている．このような傾向をもとに，経過観察によって癌の早期発見が可能になるのではないかと考えられる [D10]．

119

(a) 肺癌

(b) 胃癌

図 6.3: 出力された癌の可能性の分布

120

gamma_gtp <= 78 :

| egfr <= 92 :

| | age <= 48 :

| | | got <= 17 : 5 (9.0/1.0)

| | | got > 17 : 3 (25.0/1.0)

| | age > 48 :

| | | plt > 17 : 3 (250.0)

| | | plt <= 17 :

| | | | tg <= 162 : 3 (57.0/1.0)

| | | | tg > 162 : 5 (3.0)

| egfr > 92 :

| | plt <= 18 : 5 (4.0)

| | plt > 18 :

| | | tp > 7 : 5 (3.0/1.0)

| | | tp <= 7 :

| | | | urea_nitrogen > 10 : 3 (18.0/1.0)

| | | | urea_nitrogen <= 10 :

| | | | | uric_acid <= 4 : 3 (4.0/1.0)

| | | | | uric_acid > 4 : 6 (2.0)

gamma_gtp > 78 :

| age <= 50 : 6 (10.0)

| age > 50 :

| | plt <= 18 : 5 (3.0)

| | plt > 18 : 3 (13.0)

図 6.4: C4.5により生成された決定木の例

121

表 6.5: C4.5により抽出されたルール

ルール番号部位前件部後件部A-1 肺年齢が 50歳以下, AND白血球が基準値癌の可能性が 20%未満A-2 肺年齢が 50 歳より高い, AND 白血球，

BMI，ヘモグロビン，ALP，eGFR，が基準値

A-3 肺白血球数が基準値より高い癌の可能性が 20%以上35%未満

A-4 肺白血球数が基準値より高い, AND アルブミン，総蛋白が基準値よりも低い

癌の可能性が 35%以上50%未満

A-5 肺白血球数が基準値より高い, AND 赤血球数が基準値より低い

癌の可能性が 50%以上

A-6 肺年齢が80歳以上, AND白血球数，BMI，ALPが基準値より高い, ANDアルブミン，ヘモグロビン，egfrが基準値より低い

B-1 胃年齢が 50歳以下, AND白血球が基準値癌の可能性が 20%未満B-2 胃年齢が 50歳より高い, AND BMI，ヘモ

グロビン，ALP，eGFR，が基準値B-3 胃白血球数が基準値より高い癌の可能性が 20%以上

35%未満B-4 胃白血球数，GPT，GOTが基準値よりも

高い癌の可能性が 35%以上50%未満

B-5 胃白血球数，γGTPの値が基準値よりも高い

B-6 胃白血球数，ASOが基準値よりも高い癌の可能性が 35%以上50%未満

B-7 胃白血球数，GPT，GOT，γGTP，クレアチニンが基準値より高い

B-8 胃年齢が80歳以上, AND白血球数，BMI，HbA1cが基準値より高い, ANDアルブミン，egfrが基準値より低い

癌の可能性が 50%以上

B-9 胃白血球数，ピロリ菌が基準値より高いB-10 胃白血球数，ca19 9が基準値よりも高いB-11 胃白血球数，アミラーゼが基準値よりも

高いB-12 胃白血球数，エラスターゼが基準値より

も高い

122

6.2 構造適応型DBNを用いた胸部X線画像CXR8の分類本節では，6.1節で述べたような実際の検査機関から収集された医療検診データではな

く，胸部X線画像ベンチマークデータセットCXR8に対して構造適応型DBNによる学習を行う．

6.2.1 胸部X線画像ベンチマークデータセットCXR8

ChestX-ray8(CXR8)は，文献 [55]によって公開されている胸部X線画像のベンチマークデータセットである．CXR8には，30,805人の患者から収集した 112,120枚の胸部 X

線画像が含まれている．表 6.6に示すように，CXR8の画像は，正常ラベルと 8個の疾患に対する異常ラベルに分類される．これらの 8種類の異常の中には，癌に関連する症状として，“Mass”と “Nodule”が定義されている．また，全 112,120個のデータは，訓練データ 86,524個とテストデータ 25,596個に予め分割されており．文献 [55]では，学習済みVGG16，GoogLeNet，ResNet等を用いた転移学習による分類精度やROC曲線が示されている．さらに，文献 [55]では，画像に対する疾病ラベルだけでなく，画像における異常の部位

を示す矩形としてBounding Box (B-Box)が与えられている．B-Boxは表 6.6に示すように，計 984個ある．図 6.5は，正常ラベル及び 8種類の異常ラベルに対する画像の例を示している．画像における赤線は，定義されている B-Boxにより描画した矩形を示している．文献 [55]では，ヒートマップにより疾病と考えられる箇所を赤色で段階的に可視化し，ここから，B-Boxを検出する方法について述べられている．

表 6.6: CXR8の疾病ラベル

分類データ数 (分類) データ数 (B-Box)

正常正常: No Finding 60,361 -

異常

癌形状大：Mass 5,782 85

形状小：Nodule 6,331 79

その他

肺拡張不全：Atelectasis 11,559 180

心肥大：Cardiomegaly 2,776 146

胸水：Effusion 13,317 153

肺浸潤：Infiltration 19,894 123

肺炎：Pneumonia 1,431 120

気胸：Pneumothorax 5,302 98

合計 112,120 984

123

(a) No Finding (b) Atelectasis (c) Cardiomegaly

(d) Effusion (e) Infiltration (f) Pneumonia

(g) Pneumothorax (h) Mass (i) Nodule

図 6.5: CXR8の画像サンプル

124

6.2.2 CXR8に対する構造適応型DBNの分類精度文献 [55]では，CXR8に対し，GoogLeNet[39], VGG16[38], ResNet[40]の既存の学習済のネットワークを用いた転移学習を行っている．この結果として，8種類の疾病に対する分類精度やROC曲線が示されている．本節では，構造適応型DBNによりCXR8の学習を行い，上記の CNNとの分類精度や ROC曲線を比較した．構造適応型 DBNの学習パラメタとして，勾配の学習手法を SGD，学習係数を 0.01，バッチサイズは 100，学習の最大反復回数を 500回，初期隠れニューロン数を 300とした．構造適応型RBMのパラメタとして，θG = 0.050, θA = 0.100とし，構造適応型DBNのパラメタとして，θL1 = 0.1，θL2 = 0.1とした．表6.7は，CXR8のテストデータに各疾病に対して，文献 [55]のCNNや構造適応型DBN

による分類精度を示している．構造適応型 DBNでは，訓練データに対して，100%の分類精度を示した．GoogLeNet, VGG16, ResNet-50の中で最も分類精度が高い CNNは，ResNet-50である．しかしながら，高精度なシステムを構築するは至っていない．一方，構造適応型DBNは 90%以上の分類精度を示した．図 6.6は，構造適応型DBNの各疾病の分類結果に対する ROC曲線を示している．文

献 [55]に記載されている ResNet等の ROC曲線と比較して，図 6.6の ROC曲線の方が，各症状に対して良い精度を示している．

6.2.3 構造適応型DBNの重み修正法の改良構造適応型DBNでは，CXR8に対し 6層のネットワークが形成され，テストデータの全症状に対して 90%以上の分類精度を示した．分類精度をさらに向上させるために，ここで得られた学習済みのネットワークに対して，5章で述べた重み修正法 (Algorithm 5.1)により，誤分類した事例を調査し，DBNの階層構造で誤ったパスを通過している箇所を探し，その部分の結合を正しいパスに接続し直すことで，分類精度の改善を試みた．表 6.8は，重み修正法による分類精度を示している．5章では，重み修正法をCIFAR-10，CIFAR-100

表 6.7: CXR8のテストデータに対する分類精度手法

分類 GoogLeNet VGG16 ResNet-50 構造適応型DBN

No Finding - - - - 90.0%

Mass 54.6% 51.0% 56.0% 96.3%

Nodule 55.7% 65.5% 71.6% 97.2%

Atelectasis 63.0% 62.8% 70.6% 94.5%

Cardiomegaly 70.5% 70.8% 81.4% 98.1%

Effusion 68.7% 65.0% 73.6% 97.2%

Infiltration 60.8% 58.9% 61.2% 96.0%

Pneumonia 59.9% 51.0% 63.3% 99.9%

Pneumothora 78.2% 75.1% 78.9% 98.1%

125

図 6.6: ROC曲線

表 6.8: CXR8のテストデータに対する構造修正法の分類精度分類精度

分類 ResNet-50 構造適応型DBN 従来重み修正法改良重み修正法No Finding - 90.0% 94.4% 97.7%

Mass 56.0% 96.3% 96.9% 98.6%

Nodule 71.6% 97.2% 97.5% 98.1%

Atelectasis 70.6% 94.5% 96.0% 98.5%

Cardiomegaly 81.4% 98.1% 98.5% 99.2%

Effusion 73.6% 97.2% 97.2% 98.7%

Infiltration 61.2% 96.0% 96.1% 99.4%

Pneumonia 63.3% 99.9% 99.9% 99.9%

Pneumothora 78.9% 98.1% 98.1% 99.3%

126

に適用した結果，分類精度の向上が見られたが，表 6.8の “従来重み修正法”を見ると，それほど大きな改善は見られなかった．深層学習ではその階層的構造において，段階的に低い層で要素を認識し，それらを組み

合わせることで高次元の物体の認識を行うように学習していると考えられている．CIFAR-10やCIFAR-100のように単純な物体の学習の場合には見られなかったが，CXR8のように，病巣の判別のために，下位層で学習した要素の組み合わせというより，階層を積み重ねた結果として胸部を形成可能な層において，異常であると判別していると考えられる場合，低い層のみでは病巣の判別が難しいと考えられる．図 6.7は，与えられた入力パタンに対して，各層において得られた出力パタンを描画した図を示している．この結果から，下位層から上位層に向かうにつれて，徐々に具体的な特徴が現れ，特に，4層以降において，具体的な特徴が顕著に現れている．このことから，病巣の特定のために，骨格を示す部分とそれ以外の部分の判別など，あ

る程度意味をもった判別が必要な画像認識の場合，深層学習の階層的構造の段階的に学習している特徴 (事前学習)を考慮し，知識獲得を行う層を高いレベル (出力層に近い)層のみに適用する方法が必要である．すなわち，低いレベルの層では画像の要素となるパーツは形成されているものの，対象となる画像が形成されていないため，それから高レベルの層からのみ知識獲得を行う手法である．この考えに基づき，本論文では，重み修正法において，従来 (Algorithm 5.1)のように全ての層の結合を修正するのではなく，CXR8のようなデータに対しては，推論のための知識が形成されている上位層のみを修正するように改良した [D11]．Algorithm 6.1は，改良した重み修正法のアルゴリズムを示している．ここでは，LA = 4とした．図 6.8は，改良した重み修正法により修正された構造適応型DBNのネットワーク構造を示している．図 6.8における円はニューロンを示しており，円の中の数字は各ニューロンを識別するインデックスを示している．ニューロン間を接続する線は重みを示し，重み修正法により，重みの値がwcorrectにより増加した接続は太線で，wwrongにより減少した接続は点線で表現している．例えば，5，6層間の重みでは，5層の 201番目のニューロンから 6層の 55番目のニューロンの重みの値がwcorrectに修正され，一方，5層の 56番目のニューロンから 6層の 112番目のニューロンの重みの値が wwrongに修正され，該当するパスを選択しないようになった．これは，変更されたパスを選択しても重みの値が小さいため，積和の計算値への寄与が少なくなり，結果として，ネットワークの修正が部分的に行われていることになる．全体的に 4層に比べて，出力層に近い 5層や 6層の重みが多く修正された．

Algorithm 6.1 改良した重み修正法のアルゴリズム1: L(1 ≤ l ≤ L)層の構造を持つ学習済み DBNネットワークが与えられているとする．ここで，L層のうち，LAより下位層を抽象的な特徴が学習されている層とし，LA以降の上位層を具体的な特徴が学習されている層とする (1 ≤ LA ≤ L)．なお，LAは，任意に定めるパラメタである．

2: L層から LA層にかけて順に，Algorithm 5.2により l層に対する重み修正法を実行する．LAより下位層に対しては適用しない．

127

(a) 1層 (b) 2層

(c) 3層 (d) 4層

(e) 5層 (f) 6層

図 6.7: 各層において抽出された知識

128

...145 ...... layer 1

layer 2

layer 3

layer 4

layer 5

189 ... 5324430

... ...0 ...19 ...512 1961

... ... 4460 ...94 ...381 442

...41 ...... 145 ... 4102780

... ...0 ...78 ...134 257

...17 ...... 56 ... 2192010

layer 0(input)

343

2304

... ...0 ...12 ...55 112 155 layer 6

図 6.8: 重み修正法により修正されたネットワーク構造

129

表 6.8の “従来重み修正法”，“改良重み修正法”は，それぞれ従来と改良した重み修正法を適用した構造適応型DBNによる分類精度を示している．従来では，正常 (No Finding)

と異常 (その他)の肺拡張不全 (Atelectasis)に対する精度は向上したものの，それ以外の症状に対しては大きな精度の改善は見られなかった．一方，改良した重み修正法では，全てに症状に対する分類精度が従来よりも大きく向上し，全ての症状ラベルに対して 97%以上の分類精度を示した．

6.3 構造適応型DBNを用いた胸部X線画像CXR8の物体検出

6.2節では，CXR8の症状ラベルを構造適応型DBNにより分類したが，CXR8には，分類用の症状ラベルだけではなく，B-Boxが与えられている．本節では，学習した構造適応型DBNを用いて，画像の中の部位を検出する物体検出手法について述べる．6.3.1節において，文献 [55]で示されている物体検出法について述べ，6.3.2節において，提案する構造適応型DBNにおける物体検出法を述べる．6.3.3節で数値実験を行い，提案手法の検出精度について検証する．

6.3.1 畳み込みニューラルネットワークによる物体検出画像の中の特定の箇所を抽出，検出する箇所をアルゴリズムは多く提案されている．例

えば，OpenCVでは，画像の輪郭抽出を行うfindContours関数が提供されている [135]．深層学習では，CNNに基づく物体検出法が知られている．R-CNN[136]，Fast R-CNN[137]，Faster R-CNN[138]，YOLO[139]，SSD[140]はCNNを用いた有名な物体検出法であり，画像の中の物体の位置を表す矩形としてB-Boxを推定する．文献 [55]では，B-Boxの推定だけでなく，画像の中で物体の可能性をピクセル単位で

「ヒートマップ」を計算している．ヒートマップは温度表示のように，高い確率であれば赤色で，低い確率であれば青色で表示する．Pooling層までの重みと最終層である全結合層の重みの積によって，ヒートマップを形成している．文献 [55]では，一般的なMax Pooling

手法やAverage Pooling手法の他に，式 (6.1)で定義される，Log-Sum-Exp(LSE) Pooling

手法を利用している．

xp =1

r· log

⎡⎣ 1

S· ∑(i,j)∈s

exp(r · xij)

⎤⎦ , (6.1)

ここで，xijは，プーリング領域Sの局所的な位置である (i, j)の活性値であり，SはSの位置の総数である．ハイパーパラメタ rを制御することで，プールされる値は，rを無限大に近づけた時のSの最大値から rを 0に近づけた時の平均値までの範囲で定められる．LSE関数は計算上の問題点から式 (6.2)に変形される．

xp = x∗ +1

r· log

⎡⎣ 1

S· ∑(i,j)∈s

exp(r · (xij − x∗))

⎤⎦ , (6.2)

130

さらに，文献 [55]では，Convolutional層から Pooling層への接続において，画像の部分的な特徴を示す複数種類のフィルタが与えられ，学習によって更新される．2種類の層からなるCNNで最終的に出力層への写像を求めるとき，教師信号に対する学習が行われる．一般的なCNNでは，ソフトマックスなどの手法が利用されている．文献 [55]では，この計算に基づいて，入力画像のフィルタに対する活性・不活性を定め，教師信号に対する一致度として，ヒートマップを積和によって表現していると考えられる．ヒートマップの強度は，[0, 255]の範囲で与えられるが，閾値 {60, 80}によって変換された分布により表現している．

6.3.2 構造適応型DBNによる物体検出構造適応型DBNは，CXR8の各疾病に対して，高い分類精度を示した．本節では，学習済みの構造適応型DBNを用いて，画像の分類ではなく，画像の中の物体の箇所を特定する物体検出手法 [D12, D14]を提案する．CNNにおける物体検出として，文献 [136]では，画像中の特定の箇所を物体の候補とし

て抽出し，これを画像分類のために構築したCNNモデルに与え，出力層における可能性が高い場合，検出したとみなす手法が提案されている．文献 [139, 140]では，画像中の物体の候補の抽出方法として，画像全体を一定の大きさのグリッドに分割し，各グリッドの領域の大きさを変更しながら候補を抽出する方法が提案されている．本研究では，これらの考えを用いた構造適応型 DBNに適用した物体検出法を開発した．Algorithm 6.2に開発した物体検出手法のアルゴリズムを示す．文献 [55]では，CNNにおいて，畳込み層によるフィルタの行列計算に基づいて，ヒートマップを計算しているが，DBNにおいては，このヒートマップを最終層のRBMの隠れニューロンと，出力層のソフトマックスによる学習によって作成する．CNNと異なり，DBNにおいては一次元の配列で表現されたニューロンに並び替えるときに，同じ方向 (軸)

の配列の情報のみを保持するだけで，他方の軸に関する情報は保持されておらず，画像の位置とニューロンの位置に明確な関係はない．この問題を解決するために，3章で提案したマルチモーダルデータ学習手法により，データ配列を最小のブロックに分割し，そのブロック内ではデータの順序を保ちながら構造適応型学習を実現する手法を適用した．この手法は，RBMの計算時間を短縮するために，入力データ間の類似性に基づいて入力の並びをソートする手法であるが，この過程で，隠れニューロンの出力パタンに基づき，高い類似性をもつ入力信号同士を隣接するように並び替えることができる．図 6.9は，ヒートマップの作成の概要を示している．発見した高い類似性を持つ隠れニューロンに対して，入力層に向けて逆向きの計算を行うことで，入力画像における各位置の発火確率を求める．発火確率が高いほど，濃い赤色で表示するヒートマップを作成することができる．ここでは，ヒートマップの各ピクセル値の範囲を [0, 255]とし，値が低いほど青色，値が高いほど濃い赤色で表現される色配列 Jet[141]を用いてヒートマップを表現した．

131

Algorithm 6.2 構造適応型DBNによる検出アルゴリズム1: Imageをw × hピクセルの入力画像とする．2: 入力画像 ImageをN 個の領域 V = {v1, · · · , vi, · · · , vN}に分割する．viは各領域を示す．ここでは各領域 viを離散ボロノイ図に基づいて求めた．各ボロノイ領域 viは，式(6.3)を満たす．

vi = {p|d(p, pj) ≤ d(p, pk), k �= j}, (6.3)

ここでd()は距離関数である．本論文では，ボロノイ領域の母点は，ランダムに定めた．3: 手順 2.で抽出した各領域 viに対して，入力画像 Imageから領域 viを抽出し，学習済みの構造適応型DBNに与え，出力結果を各クラス確率とする．ここで，クラス確率が一定の閾値 T1(0 < T1 < 1)より高いクラスを抽出する．なお，各領域の大きさはそれぞれ異なるが，大きさが均一になるように拡大，縮小して構造適応型DBNに与える．

4: 手順 3.で抽出した各クラスに対して，領域 vi の母点を中心とした n × mの領域画像を抽出する．ここで，nと mは，それぞれ N = {Nmin, · · · , n, · · · , Nmax}，M =

{Mmin, · · · ,m, · · · ,Mmax}の範囲の中で，領域 viの縦 (列)，横 (行)方向のピクセルを1つずつずらすことで求める．

5: 手順 4.で抽出した各領域画像を学習済みの構造適応型DBNに与え，出力結果を各クラス確率とする．このとき，クラスの確率が一定の閾値 T2(0 < T1 < T2 < 1)より高い場合，その領域を検出したと見なし，該当するクラスのB-Boxとする．なお，各領域において検出されるB-Boxの数は，各クラスに対して最大 1つとする．

図 6.9: ヒートマップ計算の概要

132

6.3.3 CXR8に対する構造適応型DBNの物体検出法による検出精度CXR8では，画像に対する正常異常の分類だけでなく，異常箇所を示すB-Boxが提供されている．B-Boxは表 6.7に示し，計 984個ある．B-Boxが与えられている画像に対し，開発した手法 (Algorithm 6.2)を用いて物体を検出し，与えられているB-Boxと比較した．表 6.9は，CXR8においてB-Boxの検出率を示している．ここでは，文献 [55]で定義された B-Box(B-Box1)とAlgorithm 6.2により検出された B-Box(B-Box2)との領域の交わりの割合を示す IoU(Intersection over Union)が 75%以上であるものを正しく検出できたと判定した．表 6.9における “ResNet-50”は，元の文献 [55]に記載されている数値である．表では，構造適応型DBNの物体検出アルゴリズムでパラメタ T2の 2種類の値の結果を示している．パラメタ T2は，一致している度合いを示しており，数値の高い方がよく適合すると考えられる．なお，T1 = 0.5とした．提案手法において物体検出にかかる時間は，画像 1枚あたり平均 2.04秒だった．

6.3.4 ヒートマップによる可視化検出については，6.3.3節で述べたように，表 6.9に示す結果が得られた．ここでは，B-

Box2の画像について，ヒートマップ [D12]を求め，B-Box1と比較した．図 6.10から図6.17は，画像の検出結果及び得られたヒートマップを示している．赤色の矩形はB-Box1，青色の矩形はB-Box2を示している．全体的に，B-Box1やB-Box2の中に，赤色の領域が含まれていた．一方，B-Boxに含まれていない箇所については，青色や黄色で表示される傾向にあった．これらの傾向は，図 6.10のように，疾病の形状が大きいもの (Cardiomegalyや Infiltration等)だけでなく，図 6.11のように，小さいもの (MassやNodule等)に対しても見られた．また，図 6.10から図 6.16は，B-Box1とB-Box2が一致しているケースであるが，図 6.17は，B-Box2

表 6.9: CXR8のB-Boxに対する検出率

構造適応型DBN

分類 ResNet-50 [55] T2 = 0.7 T2 = 0.9

Atelectasis 47.2% 78.9% 86.1%

Cardiomegaly 68.4% 99.3% 100.0%

Effusion 45.0% 85.6% 92.8%

Infiltration 47.9% 91.9% 93.5%

Pneumonia 35.0% 84.2% 92.5%

Pneumothorax 23.4% 80.6% 83.7%

Mass 25.8% 88.2% 91.8%

Nodule 5.0% 72.2% 77.2%

合計 - 85.7% 90.4%

133

は，B-Box1に対してやや上方に表示され，両者に違いが生じたケースである．ヒートマップを見ると，B-Box1よりもやや上方に赤色の領域が表示されており，この結果として，B-Box2がずれて検出されてしまったと考えられる．今後，ヒートマップをクラスタリングすることにより，成分分析を行い，検出精度を高める必要がある．

(a) 元の画像 (b) ヒートマップ

図 6.10: Case 1


図 6.11: Case 2

134


図 6.12: Case 3


図 6.13: Case 4


図 6.14: Case 5

135


図 6.15: Case 6


図 6.16: Case 7


図 6.17: Case 8

136

6.4 まとめ本章では，2章から 5章で開発した構造適応型DBN，マルチモーダルデータ学習法，リ

カレント構造適応型DBN，知識獲得手法を医療検診ビッグデータに適用し，癌の可能性を予測する深層学習システムを開発した．開発したシステムにより，PCやタブレット端末を通じて，癌の予測結果を可視化することができ，医師の診断を支援することが期待される．また，構築したシステムの出力結果に基づいて，血液検査データの異常項目と癌の可能性に関する知識を抽出した．分析の結果，専門的には癌の判定にはそのまま使用できないものの，今後の経過観察が必要なケースを発見できた．このような特徴は，癌の早期発見に役に立つと考えられる．抽出したルールに対する確信度を考慮するなど，精度の向上を図る必要があり，医師とともに検証する必要がある．胸部X線画像ベンチマークデータセットCXR8の 8種類の疾病を構造適応型DBNで学習した．分類精度及びROC曲線を文献 [55]で公開されている既存のCNNとの比較したところ，構造適応型DBNは全ての疾病に対して 90%以上の分類精度を示し，有効性を示した．さらに，画像中の疾病箇所を表すB-Boxを用いて，CXR8に対して物体検出を行った．開発した構造適応型DBNにおける物体検出法は，既存のCNNよりも高い検出精度を示した．

137

第7章おわりに

近年，人工知能が注目されているが，その中でも，深層学習は目まぐるしいスピードで発展を遂げている．深層学習は特に画像認識の分野で優れた性能を示してきたが，IoT等により多種多様なデータがクラウドサーバ上で収集されるようになった現在では，画像だけでなく数値やテキスト等の様々なデータに応用され，産業，農業，医療等の様々な分野での実用化が期待されている．しかしながら，深層学習では，入力データに応じて最適なネットワーク構造を求めるこ

とは非常に難しいという問題がある．通常，熟練の分析者によって試行錯誤的なパラメタ調整が必要となるため，計算コストがかかる．AlexNet，VGG，GoogLeNet，ResNet等の学習済みモデルを用いて，独自に収集したデータに応用する転移学習があるが，高い分類精度を持ったモデルを構築するためには，試行錯誤的にネットワーク構造を設計し，学習することが求められる．本論文では，この問題を解決するために，深層学習の確率モデルであるRBM及びDBN

を用いて，入力データの分布に応じて最適な隠れニューロン数及び隠れニューロン数を自動で求める構造適応型RBM及び構造適応型DBNを提案し，様々な種類のベンチマークデータセットや実データを用いて有効性を検証した．2章では，開発した構造適応型RBM，構造適応型DBNの手法について述べた．RBM

の各ニューロンが独立であり，リップシッツ連続に基づき学習が収束することを証明した．その上で，階層型ニューラルネットワークにおけるWDの考えをRBMに適用したニューロン生成／消滅アルゴリズムを述べた．さらに，事前学習した構造適応型RBMを多段的に積み重ねたDBNにおいて，最適な層の数を求める層生成アルゴリズムを提案した．画像ベンチマークデータセットとして，MNIST，CIFAR-10，CIFAR-100，ILSVRCに構造適応型RBM及び構造適応型DBNを適用したところ，CNNを含む既存の手法の中で最も高い分類精度を示した．3章では，構造適応型RBM及び構造適応型DBNにおいて，画像，数値，自然言語等の複数のデータが混在したマルチモーダルデータを一度に学習する手法を述べた．構造適応型RBMにおけるニューロン生成アルゴリズムにおいて，入出力データのニューロンの発火パタンに基づき，最適な並びになるよう入力の並びを入れ替える．性能評価として，開発したマルチモーダル学習法を，スマートフォンにより収集された観光情報データと医療検診ビッグデータに適用したところ，分類精度を維持したまま，学習時間を約 30%短縮することに成功した．4章では，構造適応型DBNにおける時系列データの学習法について述べた．従来のRBM

におけるLSTMモデルに，ニューロン生成／消滅アルゴリズム，層生成アルゴリズムを組み込んだ．また，学習パラメタの一つである学習係数の自動調整方法について述べた．時系列データのベンチマークデータセットとして，音素列のNottinghamとモーションキャ

138

プチャのCMUを用いた評価実験を行い，従来手法よりも高い予測精度を示した．5章では，学習後の構造適応型DBNのネットワークからの知識獲得手法について述べた．RBMのニューロンが {0, 1}で表現されていることを利用し，実行可能な 2値のパタンを与え，入力層から出力層までに発火する隠れニューロンの信号パタンを調査した．ここで得られたパタンから，誤った入力データを正しく修正する重み修正法や，ネットワークの入出力の関連を IF-THENルールの知識として抽出する方法について述べた．評価実験では，重み修正法により再学習することなくテストデータに対する分類精度が向上した．また，獲得した IF-THENルールを活用して予測を行うことで，学習済みのネットワークを用いるよりもやや予測精度が劣るものの，非常に早い計算時間で予測を実現することができ，GPU機器が装備されていない PCやタブレット端末での推論が可能となった．6章では，2章から 4章にかけて提案した手法を，実際の検査機関から収集された医療検診ビッグデータに適用し，医師の診断を支援する深層学習システムについて述べた．開発したシステムは，高い精度で癌予測が可能であり，また，システムから得られた結果を分析したところ，癌の早期発見に関連する知識が得られた．また，胸部X線画像ベンチマークデータセットCXR8に対する学習を行い，構造適応型DBNは高い分類精度を示した．さらに，構造適応型DBNを用いて物体検出法を提案し，高い検出精度を持つことを示した．以上，本論文で提案した構造適応型RBM，構造適応型DBN及びこれらに基づく手法は，ベンチマークデータセットだけでなく，実世界から収集されたビッグデータである医療検診データに対しても有効性を示した．構造適応型RBM及び構造適応型DBNにより，高い分類精度を持った深層学習ネットワークをデータに応じて自動で構築できるため，IoTによって収集された独自のデータ分析を行う際，ネットワーク構造の調整を試行錯誤的に求めるコストを削減できることが期待される．このことは，画像データだけでなく，マルチモーダルデータや時系列データのように，IoT機器によって収集される多種多様なデータに対しても有効である．また，このようなデータはリアルタイムに収集されるが，この中には学習パタンには含まれなかった未知なパタンが収集される場合がある．未知なパタンに対して誤分類を引き起こしている場合は，再学習し，ネットワークを再構築することが求められるが，重み修正法では，再学習することなく，未知なパタンに対応することが可能となり，その時間を短縮できる．今後は，その他の様々な実データに対して本手法を適用し，検証を行い，分類精度を改

善する予定である．構造適応型RBMにおけるニューロン生成／消滅アルゴリズム，構造適応型DBNにおける層生成アルゴリズムにより，分類精度は大きく改善されたが，そのメカニズムについて，解明する必要がある．また，重み修正法により，未知なデータが出現した場合にも，重みを修正することができるが，100%の分類精度には至っていない．未知なデータに適応するための学習法としてTeacher/Studentモデルがある [142, 143]．ここでは，学習済みモデルと未知なデータに対応するための 2つのモデルにおいて，KL情報量が示す確率分布の違いに基づいて，未知なデータに対する学習を行う手法であるが，このような学習法が今後の実データの分析において必要になると考えている．

139

謝辞

本研究を遂行し，博士論文を執筆するにあたり，実に多くの方にお世話になりました．この場を借りて，感謝の意を述べさせていただきます．まず，本研究を進めるにあたり，主査として終始あたたかいご指導と激励を賜りました

広島市立大学大学院情報科学研究科の高濱徹行教授に心から感謝の意を表します．また，同研究科の高橋健一教授，松原行宏教授，原章准教授，県立広島大学経営情報学部経営情報学科の市村匠教授には，お忙しい中，副査として博士論文の審査をお引き受けいただき，数多くのご助言をいただきました．心より感謝申し上げます．特に，市村教授は，私の県立広島大学での学士及び修士課程の指導教員であり，これま

で約 9年間，研究の取り組み方や姿勢を始めとし，本研究に対する数多くのご指導，ご助言をいただき，新しいものを作り上げる喜びを教えてくださいました．修士課程を経て就職後は，広島市立大学の高濱教授を紹介してくださり，私に再び学術研究の道を与えてくださいました．博士課程進学後は，大学が異なるため直接の指導教員ではないものの，数多くの研究に関するご指導，ご助言をいただくばかりでなく，県立広島大学で研究補助員として雇用していただきました．市村教授のこのような熱心なご指導や研究に対する姿勢は感銘を受けるばかりです．一方で，私が不甲斐ないばかりに，ご多忙のなか幾多のご迷惑をお掛けしたと存じます．私が多くの学会賞を受賞できたことや，日本学術振興会の特別研究員に採用されたこと等は，市村教授の熱心なご指導のおかげです．市村教授の存在無しに，私が本研究に取り組み，本論文を執筆することはできませんでした．感謝致します．また，学会を始めとする様々な先生方にご助言，ご支援いただきました．市村教授，原

准教授，広島市立大学の田村慶一准教授を始めとする IEEE SMC Hiroshima Chapterの皆様には，研究会で議論する場を与えてくださいました．市村研究室，知能システム研究室の皆様には様々なご助言，ご協力をいただききました．ここで全ての方のお名前を挙げることはできませんが，実に多くの方にお世話になりました．感謝申し上げます．最後に，ここに至るまで，私を辛抱強く見守ってくれた家族にこの場を借りて感謝を伝

えます．

2019年 3月鎌田　真

140

参考文献

[1] T.Lyons and M.Skitmore, Project risk management in the Queensland engineering

construction industry : a survey, International Journal of Project Management,

vol.22, no.1, pp.51–61 (2012)

[2] M.Mohammadi, A.Al-Fuqaha, S.Sorour, and M.Guizani, Deep Learning for IoT Big

Data and Streaming Analytics: A Survey, in IEEE Communications Surveys & Tu-

torials (2018)

[3] 総務省, 平成 28年度情報通信白書第 1部, p.232-241 (2016)

[4] 松尾豊, 人工知能は人間を超えるか, pp.38–80 (2015)

[5] A.Luckow, M.Cook, N.Ashcraft, E.Weill, E.Djerekarov, and B.Vorster, Deep learning

in the automotive industry: Applications and tools, in Big Data (Big Data), 2016

IEEE International Conference on. IEEE, pp.3759–3768 (2016)

[6] H.Lee, Framework and development of fault detection classification using iot device

and cloud environment, Journal of Manufacturing Systems, vol.43, no.2, pp.257–270

(2017)

[7] N.Kussul, M.Lavreniuk, S.Skakun, and A.Shelestov, Deep learning classification of

land cover and crop types using remote sensing data, in IEEE Geoscience and Remote

Sensing Letters, vol.14, no.5, pp.778–782 (2017)

[8] I.Sa, Z.Ge, F.Dayoub, B.Upcroft, T.Perez, and C.McCool, Deepfruits: A fruit detec-

tion system using deep neural networks, Sensors, vol.16, no.8, pp.1–23 (2016)

[9] D.Ravi, C.Wong, F.Deligianni, M.Berthelot, J.Andreu-Perez, B.Lo, and G.Z.Yang,

Deep learning for health informatics, IEEE journal of biomedical and health infor-

matics, vol.21, no.1, pp.4–21 (2017)

[10] Z.C.Lipton, D.C.Kale, C.Elkan, and R.Wetzell, Learning to Diagnose with LSTM

Recurrent Neural Networks, in International Conference on Learning Representations

(ICLR 2016), pp.1–18 (2016)

[11] R.Agrawal, T.Imielinski, and A.Swami,Mining association rules between sets of items

in large databases, In Proc.of the 1993 ACM SIGMOD International Conference on

Management of Data, pp.207–216 (1993)

141

[12] 渡邊俊彦，“ファジィ相関ルール抽出アルゴリズムの高速化”，26回ファジィシステムシンポジウム講演論文集, pp.349–350 (2010)

[13] R.S.Sutton and A.G.Barto, Reinforcement Learning, MIT Press (1998)

[14] A.E.Eiben and J.E.Smith, Introduction to Evolutionary Computing, Springer Series

in Information Sciences, vol. 30, Springer, Berlin, Heidelberg, New York (2003)

[15] M.Dorigo, Thomas Stutzle, Ant Colony Optimization, The MIT Press (2004)

[16] P.Lio, G.Nicosia, and T.Stibor, Artificial Immune Systems, Springer-Verlag (2011)

[17] F.M.Burnet, The Clonal Selection Theory of Acquired Immunity, Cambridge, U.K.:

Cambridge Univ. Press (1959)

[18] Y.Bengio, Learning Deep Architectures for AI, Foundations and Trends in Machine

Learning, vol.2, no.1, pp.1–127 (2009)

[19] V.Le.Quoc, R.Marc’s Aurelio, et.al., Building high-level features using large scale

unsupervised learning, Proc. of 2013 IEEE International Conference on Acoustics,

Speech and Signal Processing, pp.8595–8598 (2013)

[20] D.Silver, J.Schrittwieser, K.Simonyan, I.Antonoglou, et.al. , Mastering the game of

Go without human knowledge, Nature, vol.550, pp.354–359 (2017)

[21] F.Rosenblatt, The Perceptron: A Probabilistic Model for Information Storage and

Organization in the Brain, Psychological Review, vol.65, no.6, pp.386–408 (1958)

[22] D.E.Rumelhart, G.E.Hinton, and R.J.Williams, Learning representations by back-

propagating errors, Nature vol.323, no.6088, pp.533–536 (1986)

[23] P.J.Werbos, New Tools for Prediction and Analysis in the Behavioral Sciences, PhD

thesis, Harvard University (1974)

[24] G.E.Hinton and R.R.Salakhutdinov, Reducing the dimensionality of data with neural

networks, Science. vol.313, no. 28, pp.504–207 (2006)

[25] Y.Bengio, P.Lamblin, D.Popovici, and H.Larochelle, Greedy Layer-Wise Training

of Deep Networks, Proc. of Advances in Neural Information Processing Systems 19

(NIPS 2007), pp.153–160 (2007)

[26] S.Hochreiter, Y.Bengio, and P.Frasconi, Gradient Flow in Recurrent Nets: the Diffi-

culty of Learning Long-Term Dependencies, in Field Guide to Dynamical Recurrent

Networks, IEEE Press (2001)

[27] N.Srivastava, G.E.Hinton, A.Krizhevsky, I.Sutskever, and R.Salakhutdinov, Dropout:

A Simple Way to Prevent Neural Networks from Overfitting, Journal of Machine

Learning Research, vol.15, pp.1929–1958 (2014)

142

[28] V.Nair and G.E.Hinton, Rectified linear units improve restricted boltzmann machines,

Proc. of the 27th International Conference on International Conference on Machine

Learning (ICML 2010), pp.807–814 (2010)

[29] G.W.Cottrell and P.Munro, Principal Components Analysis Of Images Via Back

Propagation, Proc. of Visual Communications and Image Processing, vol.1001 (1988)

[30] P.Vincent. H.Larochelle. I.Lajoie. Y.Bengio, and P.Manzagol, Stacked Denoising Au-

toencoders: Learning Useful Representations in a Deep Network with a Local Denois-

ing Criterion, The Journal of Machine Learning Research archive, vol.11, pp.3371–

3408 (2010)

[31] G.E.Hinton, S.Osindero, and Y.Teh, A fast learning algorithm for deep belief nets,

Neural Computation, vol.18, no.7, pp.1527–1554 (2006)

[32] G.E.Hinton, A Practical Guide to Training Restricted Boltzmann Machines, Neural

Networks, Tricks of the Trade, pp.599–619 (Lecture Notes in Computer Science,

vol.7700) (2012)

[33] K.Fukushima, Neocognitron: A self-organizing neural network model for a mechanism

of pattern recognition unaffected by shift in position, Biological Cybernetics, vol.36,

no.4, pp.193–202 (1980)

[34] Y.LeCun, et.al., Backpropagation applied to handwritten zip code recognition, Neural

Computation, vol.1, no.4, pp.541–551 (1989)

[35] O.Russakovsky, J.Deng, H.Su, et al., ImageNet Large Scale Visual Recognition Chal-

lenge, International Journal of Computer Vision, vol.115, no.3, pp211-252 (2015)

[36] Imagenet, ILSVRC, http://image-net.org/challenges/LSVRC (2018年 9月 21日閲覧)

[37] K.Alex, I.Sutskever, and G.E.Hinton, ImageNet Classification with Deep Convo-

lutional Neural Networks, Advances in Neural Information Processing Systems 25

(NIPS 2012), pp.1097–1105 (2012)

[38] K.Simonyan and A.Zisserman, Very Deep Convolutional Networks for Large-Scale

Image Recognition, in International Conference on Learning Representations (ICLR

2015), pp.1–14 (2015)

[39] S.Christian, L.Wei, J.Yangqing, S.Pierre, R.Scott, A.Dragomir, E.Dumitru,

V.Vincent, and R.Andrew, Going Deeper with Convolutions, Proc. of 2015 IEEE

Conference on Computer Vision and Pattern Recognition (CVPR), pp.1–9 (2015)

[40] K.He, X.Zhang, S.Ren, and J.Sun, Deep residual learning for image recognition, Proc.

of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),

pp.770–778 (2016)

143

[41] R.Pascanu, C.Gulcehre, K.Cho, and Y.Bengio, How to construct deep recurrent neu-

ral networks, arXiv:1312.6026 [cs.NE] (2013)

[42] P.J.Werbos, Backpropagation through time: what it does and how to do it, Proc. of

the IEEE, vol.78, no.10, pp.1550–1560 (1990)

[43] M.Hermans and B.Schrauwen, Training and analysing deep recurrent neural net-

works, Proc. of Advances in Neural Information Processing Systems 26 (NIPS 2013),

pp.190–198 (2013)

[44] Y.Bengio, P.Simard, and P.Frasconi, Learning long-term dependencies with gradient

descent is difficult, IEEE Transactions on Neural Networks, vol.5, no.2, pp.157–166

(1994)

[45] 神嶌，転移学習, 人工知能学会誌, vol.25, no.4, pp.572–580 (2010)

[46] X.Zenga and D.S.Yeungb, Hidden neuron pruning of multilayer perceptrons using a

quantified sensitivity measure, Neurocomputing, vol.69, no.7–9, pp.825–837 (2006)

[47] 佐藤聖也，中野良平, 探索枝刈りによる複素多層パーセプトロン探索の高速化，計測自動制御学会第 5回コンピューテショナル・インテリジェンス研究会講演論文集(2014)

[48] M.M.Islam, M.A.Sattar, M.F.Amin, X.Yao, and K.Murase, A New Adaptive Merging

and Growing Algorithm for Designing Artificial Neural Networks, in IEEE Transac-

tions on Systems, Man, and Cybernetics, Part B (Cybernetics), vol.39, no.3, pp.705–

722 (2009)

[49] T.Ichimura and K.Yoshida Eds., Knowledge-Based Intelligent Systems for Health

Care, Advanced Knowledge International, ISBN 0-9751004-4-0, pp.11–50 (2004)

[50] T.Ichimura, S.Oeda, Ma.Suka, and K.Yoshida, A learning method of immune multi-

agent neural networks, Neural Computing and Applications, vol.14, no.2, pp.132–148

(2005)

[51] T.Ichimura, S.Oeda, M.Suka, A.Hara, K.J.Mackin, and K.Yoshida, Knowledge Dis-

covery and Data Mining in Medicine, In Advanced Techniques in Knowledge Dis-

covery and Data Mining (Advanced Information and Knowledge Processing), Pal,

Nikhil, Jain, Lakhmi C. Eds., Springer, pp.177–210 (2005)

[52] Y.LeCun, et.al, THE MNIST DATABASE of handwritten digits, http://yann.

lecun.com/exdb/mnist/ (2018年 9月 21日閲覧)

[53] Y.LeCun, L.Bottou, Y.Bengio, and P.Haffner, Gradient-based learning applied to doc-

ument recognition, Proc. of the IEEE, vol.86, no.11, pp.2278–2324 (1998)

144

[54] A.Krizhevsky, Learning Multiple Layers of Features from Tiny Images, Master of

thesis, University of Toronto (2009)

[55] X.Wang, Y.Peng, L.Lu, Z.Lu, M.Bagheri, and R.M.Summers, ChestX-ray8: Hospital-

scale Chest X-ray Database and Benchmarks on Weakly- Supervised Classification

and Localization of Common Thorax Diseases, Proc. of IEEE Computer Vision and

Pattern Recoginition, pp.3462–3471 (2017)

[56] 広島県環境保健協会, http://www.kanhokyo.or.jp/ (2018年 10月 1日閲覧)

[57] T.Ichimura, S.Kamada, and K.Kato, Knowledge Discovery of Tourist Subjective Data

in Smartphone Based Participatory Sensing System by Interactive Growing Hierarchi-

cal SOM and C4.5, Intl. J. Knowledge and Web Intelligence, vol.3, no.2, pp.110–129

(2012)

[58] ITProducts, ひろしま観光マップ, https://play.google.com/store/apps/

details?id=jp.itproducts.KankouMap (2018年 9月 21日閲覧)

[59] Nottingham, http://www-etud.iro.umontreal.ca/~boulanni/icml2012 (2018年9月 21日閲覧)

[60] CMU Graphics Lab Motion Capture Database, http://mocap.cs.cmu.edu/ (2018

年 9月 21日閲覧)

[61] D.H.Ackley, G.E.Hinton, and T.J.Sejnowski, A Learning Algorithm for Boltzmann

Machines, Cognitive Science, vol.9, no.1, pp.147–169 (1985)

[62] A.Fischer and C.Igel, An Introduction to Restricted Boltzmann Machines, Progress

in Pattern Recognition, Image Analysis, Computer Vision, and Applications, CIARP

2012, pp.14–36 (Lecture Notes in Computer Science, vol 7441) (2012)

[63] G.Montufar, Restricted Boltzmann Machines: Introduction and Review,

arXiv:1806.07066 [cs.LG] (2018)

[64] G.E.Hinton, Training products of experts by minimizing contrastive divergence, Neu-

ral Computation, vol.14, no.8, pp.1771–1800 (2002)

[65] T.Tieleman, Training restricted Boltzmann machines using approximations to the

likelihood gradient, Proc. of the 25th International Conference in Machine Learning

(ICML 2008), pp.1064–1071 (2008)

[66] K.Kawaguchi, Deep Learning without Poor Local Minima, Proc. of Advances in Neu-

ral Information Processing Systems 29 (NIPS 2016), pp.586–594 (2016)

[67] D.Carlson, V.Cevher, and L.Carin, Stochastic Spectral Descent for Restricted Boltz-

mann Machines, Proc. of the Eighteenth International Conference on Artificial In-

telligence and Statistics, pp.111–119 (2015)

145

[68] C.KyungHyun, I.Alexander, and R.Tapani, Improved Learning of Gaussian-Bernoulli

Restricted Boltzmann Machines, Proc. of International Conference on Artificial Neu-

ral Networks (ICANN 2011), part 1, pp.14–17 (2011)

[69] A.Courville, G.Desjardins, J.Bergstra, and Y.Bengio, The Spike-and-Slab RBM and

Extensions to Discrete and Sparse Data Distributions, IEEE Transactions on Pattern

Analysis and Machine Intelligence, vol.36, no.9, pp.1874–1887 (2014)

[70] A.Yogeswaran and P.Payeur, Improving Visual Feature Representations by Biasing

Restricted Boltzmann Machines with Gaussian Filters, Advances in Visual Comput-

ing: 12th International Symposium, ISVC 2016, Proceedings, part I, pp.825–835

(2016)

[71] Z.Li, X.Cai, and T.Liang, Gaussian-Bernoulli Based Convolutional Restricted Boltz-

mann Machine for Images Feature Extraction, Proc. of the 23rd International Con-

ference on Neural Information Processing, vol.9948, pp.593–602 (2016)

[72] A.Krizhevsky, Convolutional deep belief networks on CIFAR-10, Technical Report,

pp.1–9 (2010)

[73] K.Sohn and H.Lee, Learning invariant representations with local transformations,

Proc. of the 29th International Conference on Machine Learning (ICML 2012).

pp.1339–1346 (2012)

[74] A.Coates, A.Ng, and H.Lee, An Analysis of Single-Layer Networks in Unsupervised

Feature Learning, Proc. of Machine Learning Research , vol.15, pp.215–223 (2011)

[75] D.C.Mocanu, E.Mocanu, P.Stone, P.H.Nguyen, M.Gibescu, and A.Liotta, Evolution-

ary Training of Sparse Artificial Neural Networks: A Network Science Perspective,

arXiv:1707.04780 [cs.NE] (2017)

[76] S.Anush, G.Gaurav, V.Mayank, S.Richa, and M.Angshul, Class sparsity signature

based Restricted Boltzmann Machine, Pattern Recognition, vol.61, pp.674–685 (2017)

[77] L.Bruzzone and D.F.Prieto, A technique for the selection of kernel-function param-

eters in RBF neural networks for classification of remote-sensing images, in IEEE

Trans.on Geoscience and Remote Sensing, vol.37, no.2, pp.1179–1184 (1999)

[78] T.Ichimura, E.Tazaki, and K.Yoshida, Extraction of fuzzy rules using neural net-

works with structure level adaptation ― verification to the diagnosis of hepatobiliary

disorders, International Journal of Bio-Medical Computing, vol.40, no.2, pp.139–146

(1995)

[79] L.Zhang and G.Subbarayan, An evaluation of back-propagation neural networks for

the optimal design of structural systems: Part II. Numerical evaluation, Computer

146

Methods in Applied Mechanics and Engineering, vol.191, no.25-26, pp.2887–2904

(2002)

[80] T.Ichimura, T.Takano, and E.Tazaki, Reasoning and learning method for fuzzy rules

using neural networks with adaptive structured genetic algorithm, Proc. of IEEE In-

ternational Conference on Systems, Man and Cybernetics (SMC’95), vol.4, pp.3269–

3274 (1995)

[81] S.E.Fahlman and C.Lebiere, The cascade-correlation learning architecture, Proc. of

Advances in Neural Information Processing Systems 2 (NIPS 1989), pp.524–532

(1990)

[82] Y.Jiang, J.Xiao, X.Liu, and J.Hou, A removing redundancy Restricted Boltzmann

Machine, 2018 Tenth International Conference on Advanced Computational Intelli-

gence (ICACI), pp.57–62 (2018)

[83] H.Akaike, Information theory and an extension of the maximum likelihood principle,

Proc. of the 2nd International Symposium on Information Theory, pp.267–281 (1973)

[84] 藤井哲崇，市村匠，Distillation技術を用いたネットワークの分類精度に対する考察,

2017 IEEE SMC Hiroshima Chapter Young Researchers WorkShop, pp.49–53 (2017)

[85] Y.Fujii and T.Ichimura, An Evaluation of Distillation Deep Learning Network Archi-

tecture, Proc. of IEEE 10th International Workshop on Computational Intelligence

and Applications (IWCIA2017), pp.103–108 (2017)

[86] 坂元慶行，石黒真木夫，北川源四郎, 情報量統計学, 共立出版 (1983)

[87] Y.Sakamoto, M.Ishiguro, G.Kitagawa, Akaike Information Criterion Statistics,

Springer (1988)

[88] N.Murata, S.Yoshizawa, and S.Amari, Network Information Criterion Determining

the Number of Hidden Units for as Artificial Neural Network Model, IEEE Transac-

tions on Neural Networks, vol.4, no.6, pp.865–872 (1994)

[89] T.Onoda, Neural network information criterion for the optimal number of hidden

units, Proc. of ICNN ’95, pp. 275–280 (1995)

[90] C.Cortes, et.al. (2016) AdaNet: Adaptive Structural Learning of Artificial Neural

Networks, arXiv:1607.01097 [cs.LG] (2016)

[91] Theano, http://deeplearning.net/software/theano/ (2018年 10月 1日閲覧)

[92] Theano Development Team, Theano: A Python framework for fast computation of

mathematical expressions, arXiv:1605.02688 [cs.SC] (2016)

147

[93] Y.Jia, E.Shelhamer, J.Donahue, S.Karayev, J.Long, R.Girshick, S.Guadarrama,

and T.Darrell, Caffe: Convolutional architecture for fast feature embedding,

arXiv:1408.5093 [cs.CV] (2014)

[94] Torch, http://torch.ch/ (2018年 10月 1日閲覧)

[95] Chainer, https://chainer.org/ (2018年 10月 1日閲覧)

[96] TensorFlow, https://www.tensorflow.org/ (2018年 10月 1日閲覧)

[97] Keras, https://www.tensorflow.org/ (2018年 10月 1日閲覧)

[98] I.Goodfellow, D.Warde-Farley, M.Mirza, A.Courville, and Y.Bengio, Maxout Net-

works, Proc. of Machine Learning Research (PMLR), vol.28, no.3, pp.1319–1327

(2013)

[99] D.A.Clevert, T.Unterthiner, and S.Hochreiter, Fast and Accurate Deep Network

Learning by Exponential Linear Units (ELUs), in International Conference on Learn-

ing Representations (ICLR 2016), pp.1–14 (2016)

[100] G.Benjamin, Fractional Max-Pooling, arXiv:1412.6071 [cs.CV] (2015)

[101] S.Zagoruyko and N.Komodakis, Wide Residual Networks, Proc. of the British Ma-

chine Vision Conference (BMVC), pp.87.1–87.12 (2016)

[102] D.Lahat, T.Adali, and C.Jutten, Multimodal Data Fusion: An Overview of Methods,

Challenges, and Prospects, Proc. of the IEEE, vol.103, no.9, pp.1449–1477 (2015)

[103] M.Suka, T.Ichimura, and K.Yoshida, Development of coronary heart disease

databases, Proc. of the 8th International Conference on Knowledge-Based Intelligent

Information & Engineering Systems (KES2004), vol.2, pp.1081–1088 (2004)

[104] A.G.Ruzzelli, R.Jurdak, and G.M.P.O’Hare, Managing Mobile-based Participatory

Sensing communities, Proc. of Participatory Research Workshop at ACM Conference

on Embeded Networked Sensor Systems (2007)

[105] N.D.Lane, E.Miluzzo, L.Hong, D.Peebles, T.Choudhury, and A.T.Campbell, A sur-

vey of mobile phone sensing, IEEE Communications Magazine, vol.48, no.9, pp.140–

150 (2010)

[106] 市村匠，鎌田真，スマートフォンによるユーザ参加型主観的情報分析システムを用いた観光資源の発掘，システム制御情報学会, vol.60, no.4, pp.154–159 (2016)

[107] T.Ichimura, T.Uemoto, and S.Kamada, Altruistic Behaviors Based Recommenda-

tion System of Tourist Information from Smartphone Application to SNS Commu-

nity, International Journal of Computational Intelligence Studies, vol.6, no.4, pp.270–

287 (2017)

148

[108] Z.Wang and T.Oates, Imaging time-series to improve classification and imputa-

tion, Proc. of the 24th International Conference on Artificial Intelligence (IJCAI15),

pp.3939–3945 (2015)

[109] D.F.Silva, V.M.A.D.Souza, and G.E.A.P.A.Batista, Time Series Classification Us-

ing Compression Distance of Recurrence Plots, Proc. of 2013 IEEE 13th International

Conference on Data Mining, pp.687–696 (2013)

[110] 富士通, 時系列 Deep Learning, http://journal.jp.fujitsu.com/2016/03/10/

01/ (2018年 10月 1日閲覧)

[111] 鎌田真，スマートフォンベースユーザ参加型センシングシステムによる主観的情報の分析方法と獲得した知識を活用した情報伝達について-ひろしま観光マップを用いた魅力ある観光情報の発見-，県立広島大学大学院総合学術研究科経営情報学専攻，修士論文，pp.1–106 (2012)

[112] T.Kohonen, Self-Organizing Maps, Springer Series in Information Sciences, vol.30,

Springer, Berlin, Heidelberg, New York, (1995)

[113] A.Rauber, D.Merkl, and M.Dittenbach, The growing hierarchical self-organizing

map: exploratory analysis of high-dimensional data, IEEE Transactions on Neural

Networks, vol.13, no.6, pp.1331–1341 (2012)

[114] H.C.Wu, R.W.P.Luk, K.F.Wong, and K.L.Kwok, Interpreting TF-IDF term weights

as making relevance decisions, ACM Transactions on Information Systems, vol.26,

no.3, pp.1–37 (2008)

[115] I.Sutskever, G.E.Hinton, and W.T.Graham, The Recurrent Temporal Restricted

Boltzmann Machine, Proc. of Advances in Neural Information Processing Systems

21 (NIPS 2008), pp.1601–1608 (2009)

[116] N.Boulanger-Lewandowski, Y.Bengio, and P.Vincent, Modeling Temporal Depen-

dencies in High-Dimensional Sequences: Application to Polyphonic Music Generation

and Transcription, Proc. of the 29th International Conference on Machine Learning

(ICML 2012), pp.1159–1166 (2012)

[117] G.D.Magoulas and M.N.Vrahatis, Adaptive Algorithms For Neural Network Super-

vised Learning: A Deterministic Optimization Approach, Intl. J. of Bifurcation and

Chaos, vol.16, no.7, pp.1929–1950 (2006)

[118] M.Riedmiller and H.Braun, A direct adaptive method for faster backpropagation

learning: the RPROP algorithm, Proc. of IEEE International Conference on Neural

Networks, vol.1, pp.586–591 (1993)

149

[119] L.N.Smith, Cyclical Learning Rates for Training Neural Networks, Proc. of 2017

IEEE Winter Conference on Applications of Computer Vision (WACV), pp.464–472

(2017)

[120] T.Schaul, S.Zhang, and Y.LeCun, No more pesky learning rates, Proc. of the 30th

International Conference on Machine Learning (PMLR), vol 28, no.3, pp.343–351

(2013)

[121] L.R.Grosse, R.Ranganath, and A.Y.Ng, Convolutional deep belief networks for scal-

able unsupervised learning of hierarchical representations, Proc, of 2009 International

Conference in Machine Learning (ICML 2009), pp.609–616 (2009)

[122] C.Bucilua, R.Caruana, and A.Niculescu-Mizil, Model Compression, Proc. of the

12th ACM SIGKDD international conference on Knowledge discovery and data min-

ing, pp.535–541 (2006)

[123] M.Ranzato, Y.Boureau, and Y.LeCun, Sparse Feature Learning for Deep Belief

Networks, Proc. of Advances in Neural Information Processing Systems 20 (NIPS

2007), pp.1185–1192 (2007)

[124] M.Ishikawa, Structural Learning with Forgetting, Neural Networks, vol.9, no.3,

pp.509–521 (1996)

[125] G.E.Hinton, O.Vinyals, and J.Dean, Distilling the Knowledge in a Neural Network,

Proc. of NIPS Deep Learning and Representation Learning Workshop (2015)

[126] J.R.Quinlan, Improved use of continuous attributes in c4.5, Journal of Artificial

Intelligence Research, vol.4, no.1, pp.77–90 (1996)

[127] C4.5 Tutorial, http://www2.cs.uregina.ca/˜dbd/cs831/notes/ml/dtrees/c4.5/ tuto-

rial.html (2018年 10月 1日閲覧)

[128] J,R.Quinlan, Induction of decision trees, Machine Learning, vol.1, no.1, pp.81–106

(1986)

[129] X.Wu, V.Kumar, J.R.Quinlan, et al., Top 10 algorithms in data mining, Knowledge

and Information Systems, vol.14, no.1, pp.1–37 (2008)

[130] L.Breiman, J.Friedman, C.J.Stone, and R.A.Olshen, Classification and regression

trees, pp.1–358 (1987)

[131] H.Badr, M.Abdelkarim, E.Hanane, and E.Mohammed, A comparative study of de-

cision tree ID3 and C4.5, International Journal of Advanced Computer Science and

Applications(IJACSA), Special Issue on Advances in Vehicular Ad Hoc Networking

and Applications 2014, pp.13–19 (2014)

150

[132] K.Katanoda, Ken-Ichi Kamo, Kumiko Saika, et.al., Short-Term Projection of Can-

cer Incidence in Japan Using an Age-Period Interaction Model with Spline Smoothing,

Japanese Journal of Clinical Oncology, vol.44, no.1, pp.36–41 (2014)

[133] SINGA Takarazuka clinic，http://singa-clinic.jp/terminology/

terminology-144.html (2018年 10月 1日閲覧)

[134] Japan Agency for Medical Research and Development, https://www.amed.go.jp/

news/release_20170313.html (2018年 10月 1日閲覧)

[135] OpenCV, https://docs.opencv.org/3.1.0/d4/d73/tutorial_py_contours_

begin.html (2018年 10月 1日閲覧)

[136] R.Girshick, et al., Rich feature hierarchies for accurate object detection and se-

mantic segmentation, Proc. of IEEE Conference on Computer Vision and Pattern

Recognition (CVPR), pp.580–587 (2014)

[137] R.Girshick, Fast R-CNN, Proc. of 2015 IEEE International Conference on Computer

Vision (ICCV), pp.1440-1448 (2015)

[138] S.Ren, et al., Faster R-CNN: Towards real-time object detection with region proposal

networks, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.39,

no.6, pp.1137–1149 (2017)

[139] J.Redmon, S.Divvala, R.Girshick, and A.Farhadi, You Only Look Once: Unified,

Real-Time Object Detection, Proc. of 2016 IEEE Conference on Computer Vision

and Pattern Recognition (CVPR), pp.779–788 (2016)

[140] W.Liu, et al., SSD: Single Shot MultiBox Detector, arXiv:1512.02325 [cs.CV] (2015)

[141] Matplotlib, https://matplotlib.org/examples/color/colormaps_reference.

html (2018年 10月 1日閲覧)

[142] J.Li, M.L.Seltzer, X.Wang, R.Zhao, and Y.Gong, Large-Scale Domain Adaptation

via Teacher-Student Learning, arXiv:1708.05466 [cs.CL] (2017)

[143] Z.Meng, J.Li, Y.Gong, and B.Juang, Adversarial Teacher-Student Learning for Un-

supervised Domain Adaptation, Proc. of 2018 IEEE International Conference on

Acoustics, Speech and Signal Processing (ICASSP) (to appear in 2018)

151

発表済み論文

(査読付きジャーナル論文)

[A1] Shin Kamada, Takumi Ichimura, Akira Hara, and Kenneth J. Mackin, Adap-

tive Structure Learning Method of Deep Belief Network using Neuron Generation-

Annihilation and Layer Generation, Neural Computing and Applications, doi.org/

10.1007/s00521-018-3622-y, pp.1–15 (2018)

[A2] Shin Kamada, Takumi Ichimura, Fast Training of Adaptive Structural Learning

Method of Deep Learning for Multi Modal Data, International Journal Computa-

tional Intelligence Studies, vol.7, no.3/4, pp.169–191 (2018)

[A3] 鎌田真，市村匠，リカレント構造適応型Deep Belief Networkによる時系列データの学習，計測自動制御学会論文集, vol.54, no.8, pp.628–639 (2018)

[A4] Shin Kamada and Takumi Ichimura, Fine Tuning of Adaptive Learning of Deep Be-

lief Network for Misclassification and its Knowledge Acquisition, International Jour-

nal Computational Intelligence Studies, vol.6, no.4, pp.333–348 (2017)

[A5] Shin Kamada, Takumi Ichimura, and Toshihide Harada, Knowledge Extraction of

Adaptive Structural Learning of Deep Belief Network for Medical Examination Data,

International Journal of Semantic Computing (IJSC) (to appear in 2019)

(査読付き国際会議論文)

[B1] Shin Kamada and Takumi Ichimura, An Adaptive Learning Method of Restricted

Boltzmann Machine by Neuron Generation and Annihilation Algorithm, Proc. of

2016 IEEE International Conference on Systems, Man, and Cybernetics (IEEE SMC

2016), pp.1273–1278 (2016)

[B2] Shin Kamada and Takumi Ichimura, A Structural Learning Method of Restricted

Boltzmann Machine by Neuron Generation and Annihilation Algorithm, Proc. of the

23rd International Conference on Neural Information Processing (Springer LNCS

9950), pp.372–380 (2016)

[B3] Shin Kamada and Takumi Ichimura, An Adaptive Learning Method of Deep Belief

Network by Layer Generation Algorithm, Proc. of IEEE TENCON 2016, pp.2971–

2974 (2016)

152

[B4] Shin Kamada and Takumi Ichimura, Shortening Time Required for Adaptive Struc-

tural Learning Method of Deep Belief Network with Multi-Modal Data Arrangement,

Proc. of IEEE 10th International Workshop on Computational Intelligence and Ap-

plications (IWCIA 2017), pp.97–102 (2017)

[B5] Takumi Ichimura and Shin Kamada, Adaptive Learning Method of Recurrent Tem-

poral Deep Belief Network to Analyze Time Series Data, Proc. of The International

Joint Conference on Neural Networks (IJCNN 2017), pp.2346–2353 (2017)

[B6] Shin Kamada and Takumi Ichimura, Fine Tuning Method by using Knowledge Ac-

quisition from Deep Belief Network, Proc. of IEEE 9th International Workshop on

Computational Intelligence and Applications (IWCIA 2016), pp.119–124 (2016)

[B7] Shin Kamada, Takumi Ichimura, Knowledge Extracted from Recurrent Deep Belief

Network for Real Time Deterministic Control, Proc. 2017 IEEE International Con-

ference on Systems, Man, and Cybernetics (IEEE SMC2017), pp.825–830 (2017)

[B8] Shin Kamada, Takumi Ichimura, and Toshihide Harada, Adaptive Structural Learn-

ing of Deep Belief Network for Medical Examination Data and Its Knowledge Extrac-

tion by using C4.5, Proc. of 2018 IEEE First International Conference on Artificial

Intelligence and Knowledge Engineering (AIKE 2018), pp.33–40 (2018)

(査読なし国内口頭発表 (研究会))

[C1] 鎌田真，市村匠，原章，ニューロン生成／消滅アルゴリズムによる構造適応型 Re-

stricted Boltzmann Machine，計測自動制御学会第 8回コンピューテーショナル・インテリジェンス研究会，pp.90–96 (2015)

[C2] 鎌田真，藤井哲崇，市村匠，忘却効果を用いたRestricted Boltzmann Machineの構造学習法，第 17回自己組織化マップ研究会 2016，pp.13.1–6 (2016)

[C3] 鎌田真，市村匠，ニューロン生成／消滅アルゴリズムによる構造適応型Deep Belief

Networkの学習法，第 17回自己組織化マップ研究会 2016，pp.12.1–6 (2016)

[C4] 鎌田真，市村匠，忘却機能を持ったDeep Belief Networkによる構造適応型学習，計測自動制御学会第 9回コンピューテーショナル・インテリジェンス研究会，pp.92–97

(2016)

[C5] 鎌田真，市村匠，丸山塁，構造適応型 Deep Belief Networkによる時系列データの分析, 計測自動制御学会第 10回コンピューテーショナル・インテリジェンス研究会，pp.73–78 (2016)

[C6] 鎌田真，市村匠，構造適応型Deep Belief Networkによる観光写真の分類, 第 18回自己組織化マップ研究会論文集, pp.2.1–4 (2017)

153

[C7] 鎌田真，市村匠，構造適応型Deep Belief Network学習法による検診データの学習速度の向上，計測自動制御学会第 12回コンピューテーショナル・インテリジェンス研究会，pp.36–41 (2017)

[C8] 鎌田真，市村匠，原田俊英，構造適応型Deep Belief Networkを用いた癌予測結果とその階層成長型自己組織化マップによる特徴分析の試み，第 19回自己組織化マップ研究会 2018講演論文集，pp.1.1–6 (2018)

[C9] 鎌田真，市村匠，CXR8医療ベンチマーク画像を用いた構造適応型Deep Belief Net-

workによる検診データの分析，計測自動制御学会第 13回コンピューテーショナル・インテリジェンス研究会，pp.45–50 (2018)

(査読なし国内口頭発表 (研究会以外))

[D1] 鎌田真，市村匠，原章，田村慶一，Restricted Boltzmann MachineにおけるWalking

Distanceの測定と安定性に関する考察, 2015 IEEE SMC Hiroshima Chapter Young

Researchers WorkShop，pp.125–128(2015)

[D2] 鎌田真，藤井哲崇，市村匠，原章，Lipschitz連続によるRestricted Boltzmann Machine

のエネルギー安定性に関する実験ースマートフォンベースユーザ参加型センシングシステムにより収集された写真の分類ー, 2015 IEEE SMC Hiroshima Chapter Young

Researchers WorkShop，pp.129–130 (2015)

[D3] 鎌田真，藤井哲崇，市村匠，Lipchitz連続によるRestricted Boltzmann Machineのエネルギー安定性に関する一考察, 2015 IEEE SMC Hiroshima Chapter Young Researchers

WorkShop，pp.53–56 (2015)

[D4] 鎌田真，市村匠，構造適応型Deep Belief Networkからの知識獲得に関する一考察,

2016 IEEE SMC Hiroshima Chapter Young Researchers WorkShop，pp.61–66 (2016)

[D5] 鎌田真，市村匠，リカレント構造適応型Deep Belief Network学習における事前知識の分析, 第 44回知能システムシンポジウム講演論文集, SY004/17/B2–2 (2017)

[D6] 鎌田真，市村匠，丸山塁，学習係数調整による構造適応型リカレントRestricted Boltz-

mann Machine の分類精度の向上について，第 27回インテリジェント・システム・シンポジウム，pp.39–44 (2017)

[D7] 鎌田真，市村匠，学習率変化と忘却効果を取り入れた構造適応型 Deep Belief Net-

work学習による検診データの分類，計測自動制御学会システム・情報部門学術講演会 2017(SSI2017), GS04–4, pp.119–124 (2017)

[D8] 市村匠，鎌田真，Adaptive Structural Learning of Deep Belief Network for Compre-

hensive Medical Examination Data，県立広島大学第２回国際産学連携交流会 (2018)

154

[D9] 鎌田真, 市村匠, 丸山塁，ReLU関数を用いた構造適応型 Deep Belief Networkの分類精度向上の検討, 第 45回知能システムシンポジウム講演論文集, 18SY0002, B2–2

(2018)

[D10] 鎌田真，市村匠，原田俊英，検診結果ビッグデータを用いた構造適応型Deep Belief

Networkの癌予測システムと知識発見，2018 IEEE SMC Hiroshima Chapter Young

Researchers WorkShop，pp.63–69 (2018)

[D11] 市村匠，鎌田真，構造適応型Deep Belief Network事前学習を考慮した知識獲得の検討，2018 IEEE SMC Hiroshima Chapter Young Researchers WorkShop，pp.70–76

(2018)

[D12] 市村匠，鎌田真，ChestX-ray8を用いた構造適応型 Deep Belief Networkにおける胸部疾患の分類と位置検出の試み，2018 IEEE SMC Hiroshima Chapter Young Re-

searchers WorkShop，pp.77–83 (2018)

[D13] 鎌田真，市村匠，検診ビッグデータの経年変化をとらえた構造適応型 Deep Belief

Networkによる予測システム，計測自動制御学会システム・情報部門学術講演会 2018

講演論文集 (SSI2018), SS10-06 (2018)

[D14] 市村匠，鎌田真，ChestX-ray8を用いた構造適応型 Deep Belief Networkによる胸部疾患位置検出システム，計測自動制御学会システム・情報部門学術講演会 2018講演論文集 (SSI2018) SS10-08 (2018)

(特許出願)

[P1] 市村匠，鎌田真，「ヘルスケアデータ分析システム、ヘルスケアデータ分析方法、ヘルスケアデータ分析プログラム、学習済みモデル、情報処理装置、情報処理方法および情報処理プログラム」，特願２０１８－１２３６１５

[P2] 市村匠，鎌田真，「異種データ深層学習装置、異種データ深層学習方法、および異種データ深層学習プログラム」，特願２０１７－２００８３０

[P3] 市村匠，鎌田真，「深層学習自動学習システム、クライアント装置およびサーバ装置」，特願２０１７－９３２０５

155

Documents

doctor thesis kamada - Hiroshima Universityharp.lib.hiroshima-u.ac.jp/hiroshima-cu/file/12450/... · 2.7.1 深層学習におけるネットワーク ... 第5章 学習済み構造適応型dbnネットワークからの知識獲得

doctor thesis kamada - Hiroshima Universityharp.lib.hiroshima-u.ac.jp/hiroshima-cu/file/12450/... · 2.7.1 深層学習におけるネットワーク ... 第5章学習済み構造適応型dbnネットワークからの知識獲得