スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 3.3節と3.4節

スパース性に基づく機械学習3.3 〜 3.4 節

機械学習プロフェッショナルシリーズ

@St_Hakky

自己紹介と告知• Twitter : @St_Hakky• ブログ： http://st-hakky.hatenablog.com/• 関西で機械学習勉強会を実施中 !!

• 団体のモットー：• 圧倒的スピード感で大量の書物と論文をぶった切る• 「えっ、まだ読んでないの？」と煽り奉り、輪講会を乱立させる

• 過去のイベント例• PRML 輪講会、 PRML 上巻 / 下巻一気読み• データ解析のための統計モデリング入門の輪講会• わかりやすいパターン認識 ( 続 ) の輪講会

• 参加したい方は、 Facebook のグループにまずは参加を。• URL :https

://www.facebook.com/groups/1767916400127792/

http://st-hakky.hatenablog.com/

http://st-hakky.hatenablog.com/

https://www.facebook.com/groups/1767916400127792/



スパース性に基づく機械学習の3.3 〜 3.4 節をやります

コンテンツ

• 3.3 : 人口データを用いた説明

• 3.4 : 文献に関する補遺

人口データを用いた説明

• 実際にデータを用いてノルム正則化の効果を示す。

• 効果を示すために、以下を行う1. パラメータの生成2. 入力データの生成3. 出力値の生成4. 損失関数の設定

データの生成方法

• ： 200 次元• ：真の回帰係数ベクトル

• 最初の k=10 個の要素が非ゼロで、残りの要素がゼロになるようにランダムに選ぶ

• をサンプル数として、を次スライドのように生成する

の生成方法

• の各列について以下のように処理をする。• 初めの k 列：真の回帰係数ベクトルと直交するベクトルと弱

い相関を持つ正規分布から生成• 残りの d ー k 列：相関のない正規分布から生成

出力の生成方法

• 最後に、出力を以下の式で生成

• : n 次元のベクトルで各要素が独立同一に標準正規分布に従って生成

損失関数

• 今回の生成モデルでは、番目のサンプルはを平均とする正規分布に従う。これにより、損失関数は、以下が考えられる。

比較の対象とする手法

• 比較の対象とする手法は、以下の通りである。• ( ノルム正則化付き最小二乗法 )• ( ノルム正則化付き最小二乗法：リッジ回帰 )

• ( 二乗回帰モデル )

• 上記の手法についてそれぞれ説明する

( ノルム正則化付き最小二乗法 )• ノルム正則化付き最小二乗法と等しい

• 正則化パラメータはとし、はの区間を対数線形に 20等分した値を候補として用い、この中で得られた最小の誤差を示す

( ノルム正則化付き最小二乗法：リッジ回帰 )

• この手法では、以下の最適化問題の解として得られる

• 正則化パラメータはとし、はの区間を対数線形に 20等分した値を候補として用い、この中で得られた最小の誤差を示す

𝐿𝑎𝑟𝑔𝑒𝑠𝑡−𝑘• この手法では、初めに L2 の解を得た後、重みベクト

ルの絶対値の大きい順に k 個の係数を残して、残りをゼロに打ち切る

2𝑠𝑡𝑒𝑝𝑠• この手法は、各変数ごとに 1 変数相関を計算し、相関

の絶対値の大きい順に k 個の変数を選んだ後、この k変数に対して L2 の解を得る

Optiomal ( 二乗回帰モデル )• この手法は、初めの k 変数だけが回帰に関係すると言

うことを事前知識として与えられている二乗回帰モデル。 L2 と同様に、ノルム正則化を用いる

各手法のテスト誤差の結果

縦軸：訓練データと同分布からサンプルした1000 個のテスト点に対する平均二乗誤差

横軸：サンプル数

各手法の結果

• 最も性能が良い： Optimal• 事前知識として、どの要素が非ゼロであるべきな

のかがわかっているため、当たり前といえば当たり前

• 2 番目に性能がいいもの：　 L１• L１はいくつの非ゼロ要素があるかも、 d=200 変

数のうちのどの要素が非ゼロであるかもわかっていないことに注意• テスト誤差が最大値の 1/2 を下回るのは n=50 の

付近• これは、理論的に予想されるに近い

各手法の結果

• 3 番目に性能が良いもの：と• どちらも非ゼロ要素の数 k=10 を知っていること

を仮定

• 最も性能が悪いもの： L2• テスト誤差が最大値の 1/2 を下回るのは、 n=200

と 250 の間

重みベクトルの結果の比較

サンプル数 n=150 における真の重みベクトルと描く手法を用いて得られた重みベクトルの比較

重みベクトルの結果の比較• L2 ：全ての 200 変数が非ゼロ要素• L1 ：非ゼロ要素 70程度

• 予測性能を犠牲にして、大きな正則化パラメータ λ を選ぶことで、より非ゼロを減らすことができる

• L1 と Optimal ：• 最初の 10 変数と真のパラメータを比較すると、 L1 は係数間の大

乗関係も含めてほぼ理想的に推定できている

• 得られた係数は L１の方がやや絶対値が小さい。これはノルムによる推定バイアスであり、ノルムが非ゼロ要素の数だけでなく、係数の絶対値に比例することに起因

• Largest-k と 2steps ：• 正しい非ゼロ係数を捉えているが、無関係な変数にも反応し

ているため、誤差が大きくなっている。

文献に関する補遺

• 画像処理で著名な Rudin[70] によればノルム最小化の歴史はガリレオやラプラスに遡る

• ノルム最小化を用いて信号と雑音の分離が可能であることを示した (Logan [27])• Logan [27] の論文の核心は信号とそのフーリエ変換は同時｢

にスパースになることはないという点｣• Donoho と Stark によって不確定性原理として証明済 [27]


• スパース信号の推定のためのノルム最小化は地球物理学、電波天文学など、フーリエ変換と分光法を用いた計測を行う分野で同時多発的に提案されてきた[54,60,71,74]

• 1990年代には、統計学者の Donoho[17] やTibshirani[78] によって整理・体系化

• また、同時期に計算神経科学の分野で有名なOlshausen と Field によるスパースコーディングの研究 [61] がある


• 2000年代に入っても以下のような研究が行われてきました。• 機械学習の分野 ( ベイズ理論 ) ： Girolami[35],

Tipping[79], Palmer[62]• 機械学習の分野 ( サポートベクトルマシン ) ：

Mangasarian[55], Zhu[89]• 圧縮センシング理論： Candes[10]• 核磁気共鳴画像法 (MRI) ： Candes[53]

• このように今またスパース性が注目されている

参考文献• [10] Candès, Emmanuel J., Justin Romberg, and Terence Tao.

"Robust uncertainty principles: Exact signal reconstruction from highly incomplete frequency information." IEEE Transactions on information theory 52.2 (2006): 489-509.• http://ieeexplore.ieee.org/document/1580791/?arnumber=1580791&tag=1

• [17] Chen, S. S., D. L. Donoho, and M. A. Saunders. "Atomic decomposition by basis pursuit: SIA M Journal on Scientific Computing, 20, 33–61." (1998): S1064827596304010.• https://web.stanford.edu/group/SOL/papers/BasisPursuit-SIGEST.pdf

• [27] Donoho, David L., and Philip B. Stark. "Uncertainty principles and signal recovery." SIAM Journal on Applied Mathematics 49.3 (1989): 906-931.• http://circuit.ucsd.edu/~massimo/ECE287C/Handouts_files/DohonoStark.pdf

参考文献• [35] Girolami, Mark. "A variational method for learning

sparse and overcomplete representations." Neural computation 13.11 (2001): 2517-2532.• http://www.mitpressjournals.org/doi/abs/

10.1162/089976601753196003#.WHjLXraLS_A• [52] Logan, Benjamin Franklin. Properties of high-pass

signals. 1965.• [53] Lustig, Michael, David Donoho, and John M. Pauly.

"Sparse MRI: The application of compressed sensing for rapid MR imaging." Magnetic resonance in medicine 58.6 (2007): 1182-1195.• http://onlinelibrary.wiley.com/doi/10.1002/mrm.21391/full

参考文献• [54] Mammone, R., and G. Eichmann. "Restoration of

discrete Fourier spectra using linear programming." JOSA 72.8 (1982): 987-992.• https://www.osapublishing.org/josa/abstract.cfm?uri=josa-

72-8-987• [55] Mangasarian, Olvi L. "Generalized support vector

machines." Advances in Neural Information Processing Systems (1999): 135-146. • http://citeseerx.ist.psu.edu/viewdoc/download?

doi=10.1.1.55.7044&rep=rep1&type=pdf• [60] Oldenburg, D. W., T. Scheuer, and S. Levy. "Recovery

of the acoustic impedance from reflection seismograms." Geophysics 48.10 (1983): 1318-1337.• http://library.seg.org/doi/abs/10.1190/1.1441413

参考文献• [62] Palmer, Jason, et al. "Variational EM algorithms for

non-Gaussian latent variable models." Advances in neural information processing systems. 2005.• http://machinelearning.wustl.edu/mlpapers/paper_files/

NIPS2005_803.pdf• [70] Rudin, Leonid I., Stanley Osher, and Emad Fatemi.

"Nonlinear total variation based noise removal algorithms." Physica D: Nonlinear Phenomena 60.1 (1992): 259-268.• http://www.sciencedirect.com/science/article/pii/016727899290242F

• [71] Santosa, Fadil, and William W. Symes. "Linear inversion of band-limited reflection seismograms." SIAM Journal on Scientific and Statistical Computing 7.4 (1986): 1307-1330.• http://epubs.siam.org/doi/abs/10.1137/0907087

参考文献• [74] Schwarz, U. J. "Mathematical-statistical description of

the iterative beam removing technique (method CLEAN)." Astronomy and Astrophysics 65 (1978): 345-356• http://adsabs.harvard.edu/full/1978A%26A....65..345S

• [78] Tibshirani, Robert. "Regression shrinkage and selection via the lasso." Journal of the Royal Statistical Society. Series B (Methodological) (1996): 267-288.• http://www.jstor.org/stable/pdf/2346178.pdf

• [79] Tipping, Michael E. "Sparse Bayesian learning and the relevance vector machine." Journal of machine learning research 1.Jun (2001): 211-244.• http://www.jmlr.org/papers/v1/tipping01a.html

参考文献• [89] Zhu, Ji, et al. "1-norm support vector

machines." Advances in neural information processing systems 16.1 (2004): 49-56.• https://books.google.co.jp/books?hl=ja&lr=lang_ja

%7Clang_en&id=0F-9C7K8fQ8C&oi=fnd&pg=PA49&dq=1-norm+support+vector+machines+zhu+rosset+hastie+&ots=THLum0X950&sig=Jr9HBdtGJuQPb94rbnAQb2VTe3w&redir_esc=y#v=onepage&q=1-norm%20support%20vector%20machines%20zhu%20rosset%20hastie&f=false

おしまい

Data & Analytics

スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 3.3節と3.4節