ACL2014読み会 isobe

ACL2014 読み会 2014.7.12

A Semiparametric Gaussian Copula Regression Model

for Predicting Financial Risks from Earnings Calls

Masayuki Isobe / 礒部正幸 / @chiral

Adfive, Inc.

http://69.195.124.161/~aclwebor/anthology//P/P14/P14-1109.pdf

http://69.195.124.161/~aclwebor/anthology/P/P14/P14-1109.pdf











自己紹介 • 礒部正幸（いそべまさゆき）

• 職業：ソフトウェアエンジニア

• 現在：アドファイブ（株）代表 http://www.adfive.net

– 現体制：代表１名 + 外注数名 : お問い合わせ

– 自社製品：モバイルO2Oアプリ/オウンドメディア/アドサーバ

– 受託業務：システムコンサルティング/システム開発/データ分析

• 東工大卒（B：情報工学科、M：計算工学専攻） – 記号的統計モデリング言語PRISMを用いた将棋プレイヤのモデル化

– コンピュータ将棋選手権、ACM-ICPCに出ていました。

• インターネット活動

– TwitterID: @chiral

– （ブログ：アドファイブ日記） http://d.hatena.ne.jp/isobe1978/

• 「機械学習ハッカソン」主催： http://mlhackathon.connpass.com/

• 最近の興味：

– メディアビジネスに革命を起こす「コンテンツ編集の機械化」

– Google Nowみたいな「O2Oの世界を制覇」するテクノロジ

http://www.adfive.net/

https://docs.google.com/a/sciencegeek.jp/forms/d/1WfG9gvQ2qbmUsnL6sPmwCa1c3b8_XXvbXhcVtyp00IU/viewform

http://d.hatena.ne.jp/isobe1978/



http://mlhackathon.connpass.com/

http://mlhackathon.connpass.com/

論文の概要 • 株式公開企業のearnings call（決算報告書）をテキスト解析

• 対象企業の将来の金融リスクを分析する – 具体的には、文書公開後１週間の株価変動

• 数理モデルとしてcopula（コピュラ）を使用 – 事前分布不要、分布の仮定も不要

– ノンパラで補間（カーネル密度推定）して積分するのでスムーズ

• 従来のBoWベースのテキスト回帰よりパフォーマンスが大きく改善した

なぜコピュラみたいな方法を使ってるのかについての私の想像：

回帰の平均部分のフィットネスよりも、変動の振れ幅（リスク）の分析にフォーカスを当てたいので金融リスク評価で使われるcopulaを持ち出した、ということだと思われる。

イントロダクション

• 株価の履歴をもとに（テクニカルに）将来予測する方法はよくある

• 証券報告書に記載された文章を解析して予測にいかす方法は出始めたばかり

• また、金融の世界で発展した統計手法を機械学習に持ち込む動きも出てきている

• 本研究はそれらの２つの動きを踏まえたもの

• セミパラメトリックなガウスコピュラという方法を提案 – あとで説明します

• 線形モデルや非線形なSVMをbaselineとしたときにoutperformした上にデータセットに対しても炉バストだった

関連研究 • アニュアルレポートベースの研究

– テキストを線形SVM回帰に掛けて株価のボラティリティ予測をするもの [Kogan et al. (2009)]

– 同様の手法だがセンチメントに焦点をあてたもの [Wang et al., 2013]

– テキスト回帰を文書のランキング問題に置き換えるアプローチ [Tsai and Wang (2013)]

• 決算報告（Earnings call）ベースの研究

– 株価予測をとりあえず２値予測としてやったもの [Xie et al. (2013)]

• ソーシャルメディアベースの研究

– ソーシャルメディアデータで株価予測 [Bollen et al., 2011; Zhang et al., 2011]

• テキストベースだが株価以外の予測

– 映画レビューから売り上げ予測［Joshi et al., 2010］

– 地域別の語彙特性（方言？） [Joshi et al., 2010]

– レストランメニューから食材価格の予測 [Chahuneau et al., 2012]

→ 課題は、説明変数同士の関係を直接分析できないこと。

（おまけ）コピュラの補足（１）

• コピュラとは何ぞや

• 多変量分布関数を、各変数の周辺分布関数と、変数間の相互作用（＝コピュラ）に一意に分解できる

• 上式の右辺を見ると周辺分布を経由しているので、コピュラＣは［0,1］^nで一様分布するn次元確率変数を、[0,1]にマップする関数として定義できる（分布関数の多変量化って感じ？）

（おまけ）コピュラの補足（２） • コピュラC（X1,X2,…,Xn）の性質

– 引数のいずれかの実現値がゼロならＣ＝０

– 一つのXiを除いてほかがすべてX=1ならC=Fi(Xi) (FiはXiの周辺分布)

→ 分布関数を自然に多変量化したらこうなる、みたいな感じ？

• コピュラの一意性についての注意 – 各周辺分布と同時分布が所与の時にＣは一意に決まる

– 同時分布だけでは分解の方法は一意にならない

• 例えば、多変量正規分布は「一様な周辺分布＋ガウスコピュラ」と「単変量ガウス分布＋ガウスコピュラ」のいずれにもばらせる

• 私の調べる限りでは、コピュラの部分は分析しやすいものを使い、一変量の周辺分布のところを柔軟にとるという分解が一般的な使われ方っぽかった

• 実際、紹介論文では周辺分布をノンパラメトリックにカーネル密度推定を適用し、コピュラは性質がよくわかっているガウスコピュラを使っている

• 「リスク資産を抱き合わせした証券」のリスク分析によく使われている

– 組み入れた各資産の分布を周辺分布とし、コピュラを使ってそれらを同時分布化する

– ガウスコピュラを盲目的に使ったせいでリーマンショックが起きたとも

（おまけ）コピュラの補足（３） • スクラーの定理（周辺分布とコピュラの分解において、コピュラからみるとパラメータが一様分布する確率変数とみなせること）の直感的説明

Fi

Xi

密度関数

fi

Xi

分布関数

・密度が薄いところは刻み幅が細かく、密度が高いところは刻み幅があらくなるので、どんな密度でも分布関数を通すと、定義域において[0,1]で一様分布する確率変数となる

よって[0,1]^nで一様分布する変数を[0,1]にマップすることだけを考えれば済んでしまう

ガウスコピュラによるテキスト回帰（１）

• 各変量（BoWのWに相当）の密度関数はカーネル密度推定でノンパラメトリックに設定 – カーネル関数はbox関数([-1,1]で1/2を取る関数)を定数スケールさせたもの

• 密度関数から周辺分布への変換は普通の累積分布関数

• 相互作用の部分にはガウスコピュラを採用 – こちらはパラメトリック（次ページ） ※ yはラベル

（回帰の目的変数）を上記同様に密度推定したもの

←スムージングのため

ガウスコピュラによるテキスト回帰（２）

• ガウスコピュラのパラメータは平均=0, 分散共分散行列=Σ

• Σを最尤推定する（計算量はO(nlogn) : n＝単語の種類数）

• そのΣが分かれば、yの条件付き分布や期待値が分かる

• しかし（Σは最尤推定でビシッと決まったのに）期待値は計算量がかなりでかいのでＭＣＭＣでサンプリングして求める方法がよく採られる

• だが本研究ではとりあえずガウスコピュラの最大値（と書いてあるが意味合いは同時分布の最大値）を取るF(y)をサンプルすることにした（単語の種類だけ次元があるのでかなりデカい）

• F(y)がサンプリングできたら単調増加なのでyに戻すだけ

ガウスコピュラによるテキスト回帰（３）

• アルゴリズムとしてまとめると、

（１）単語素性とかをboxカーネルで密度推定。目的変数も同様に密度推定でスムージング

（２）１でつくった密度関数から分布関数を得る

（３）ガウスコピュラのΣを最尤推定する

（４）Σと、テスト用の説明変数（からの素性）を用いて、ガウスコピュラの最大値を取るyをサンプリング

（１～３が学習、４がテスト）

データセット • USの証券市場での四半期報告書のデータセット、リーマンショック前（2006-2009）,リーマンショック(2009),リーマンショック後(2009-)の３つ

• 通常のメディア記事と比べて文書が長い（ＷＳＪなら数百ワードなのに対して、７千とかある）

• フォーマルな書き方をしている部分と、質疑応答のような形式がフリーな部分が１文書中に混ざっている

株価予測と評価方法 • 株価のボラティリティを予測

• １日のリターンを ri とし

• τ日後のボラティリティ

を、予測する

yの予測値を実データに照らして

スピアマンの順位相関係数とケンドールのτ（これも順位相関）で評価する

（発表者注：ボラティリティも、上がるか下がるか、どのくらい戻るか、みたいな話が株価では大事なので仮に恣意的だったとしても順位相関を使うことの合理性があるといえそう。論文によると、ピアソン相関係数よりも仮定が弱くロバストなんだそうな）

実験結果（対データボリューム）

・過学習を回避できている

実験結果（対素性の数）

・同じ素性数でのパフォーマンスは優ってそう・スケーラビリティも少しよくなっている

定性的な考察

（参考：リーマンショックは２００８年９月です）・リーマンショック前の報告書のワードの中で、もっともボラティリティ（目的変数y）との相関性が高かったのは、２００８年の報告書に現れる単語だった。（事後とはいえ、これはすごいですね）・リーマンショック直後の2008末から2009に掛けて報告書に現れたリスクワードは、リーマンショック前とあまり変わらなかったが、それがボラティリティにより大きな影響を与えていることが分かった（これも面白いです）・それ以降のいわゆる回復期においては、revenueという単語がボラティリティと相関が高かった。（これも当たり前だけど面白い）

ディスカッション • 本手法のメリットは３つ

– BoWベースのトピックモデリングは調整するパラメータが少ない利点

があるが、それとと比べて本手法も周辺分布に関してはノンパラだしトピックモデルみたいなディリクレ分布という構造を仮定（発表者注：N次元単体への制約のこと）しないぶん、自由度も高い

– 逆に変量間の関係についてはパラメトリックであり、無限の自由度を許していないぶん分かることも多くなりバランスがよい。ガウスコピュラのΣの推定は次元ｎに対してO(nlogn)と効率も良い

– 確率変数同士に独立性の仮定を置かないところから出発し、コピュラを求めると変数間の関係性についての情報が得られるので、その情報を使って予測モデルを効率的にすることが可能

• Future Work

– より大きなデータセット。今回は並列分散は不要だった。

– 過学習の回避。ノイズの影響があるので、コピュラを改良したい。

– この手法を磨いて、ＮＬＰの本丸への適用も狙っていきたい。

Software

ACL2014読み会 isobe