15
Analysis of Learning from Positive and Unlabeled Data Marthinus C, etc 担当: Quasi_quant2010 NIPS2014読み会 1 【NIPS2014読み会】

Analysis of Learning from Positive and Unlabeled Data

Embed Size (px)

Citation preview

Analysis of Learning from Positive and Unlabeled Data

Marthinus C, etc

担当: Quasi_quant2010

NIPS2014読み会1

【NIPS2014読み会】

本論文を読んだ動機- ラベルなしデータにおける情報推薦の考察 -

NIPS2014読み会2

PU Learning + 表現学習

表現学習で正例らしさを自動獲得する半教師有学習が流行る?

語義曖昧性解消・同義語獲得の際、データに意味が必ずしも付与されてない為、データが与えられた時、自動獲得できれば最高

その他

例①:混合モデルによる定式化 [G.Blanchard, 10]

正例以外はラベルなしとして扱い、ラベルなしデータは正例・負例を混合した分布に従うとして定式化

例②:Delayed Feedback [O.Chapelle, 14]

1/18に推薦した記事は閲覧しなかったが、1/19に閲覧した

タイミングを考慮し、負例->正例の変化をモデル化する

本論文の貢献- 損失関数を適当に選んではいけない!! -

期待誤分類率に従って正しい決定境界を得る際、PU--Learningでは、損失関数は対称で、非凸な関数にすべき

PU LearningとCost-Sensitive Learningの関係

期待誤分類率の事前分布(P[X~f1])は主に、有効事前分布に従う

ラベルなしデータの多くが正例に従っていれば(現実に確認できないが) 、誤分類率は事前分布の選択にあまり影響されない

PU Learningにおける期待誤分類率の汎化誤差解析

NIPS2014読み会3

問題設定とノーテーション- PU Learningにおける期待誤分類率最小化- 正例 : X1,…,Xm ~ f1(x)

ラベルなしデータ:Xm+1,…,Xm+n ~ fX(x) = (1-α) f-1(x) + α f1(x)

α ∈ [0, 1], label ∈ {-1, 1}

Unkown Prior P[X ~ f1(x)]

期待誤分類率(=JL(g))を最小にする

JL(g) ≡ α*E1[Loss{g(X)}] + (1-α)*E-1[Loss{-g(X)}]

g(・) : Learning Function

NIPS2014読み会4

ノーテーション 確率

FPR R-1 P[g(X)=1 | X~f-1]

FNR1 R1 P[g(X)=-1 | X~f1]

FNRx Rx P[g(X)=1 | X~fx]

ん?f1の分布は推定できるが、f-1の分布は分からない→ f-1をfxに変換し定式化。すると, PUでは損失関数が対称であって欲しい

Cost-Sensitive Learning- FNRとFPRの非対称性 -

対象によって予測の誤りに非対称性がある

FPR = 癌と診断したものの、実際は癌でなかった

FNR = 癌と診断しなかったものの、実際は癌だった

誤診という意味では等しいが、FNRは起こってはいけない誤り

定式化

R(g) = α*c1*R1(g) + (1-α)*c-1*R-1(g)

注1) g(・)はlearning function, α = P[X~f1(x)]

注2) 詳細は[C.Elkan, 01] ・ [G.Blanchard, 10]参照

式の通り、非対称性を考慮しており、混合比率αをreweightしていると解釈できる

NIPS2014読み会5

PU LearningとCost-Sensitive Learning- PUは f1 と fx を混合したCost-Sensitive Learningと同等 -

期待誤分類率 in Cost-SensitiveR(g) = α*c1*FNR1 + (1-α)*c-1*FPR

= α*c1*R1(g) + (1-α)*c-1*R-1(g)

, α = P[X~f1(x)]

期待誤分類率 in PU LearningR(g) = α*FNR1 + (1-α)*FPR

= α*R1(g) + (1-α)*R-1(g)

= 2α*R1(g) + (1-α)* Rx(g) – α

= c1*η*R1(g) + cx*(1-η)*Rx(g) - α

, Rx(g) = α*TPR + (1-α)*FPR

= α*(1-R1(g)) + (1-α)*R-1(g)

c1=2α/η, cx=1/(1-η)

NIPS2014読み会6

R-1をRxに変換上式と比較すると、

CS設定 = f1とf-1を混合PU設定 = f1とfxを混合

とみることができる

FNRとFPRの非対称性を考慮してreweight

なぜ損失関数を適当に選んではいけないのか- 損失関数の非対称性がSuperfluous penaltyを生む -

Surpervied 設定:損失関数はHinge Loss

JH(g) ≡ α*E1[LH{g(X)}] + (1-α)*E-1[LH{-g(X)}]

, LH(z) = 1/2 * max(1-z,0)

PU 設定:損失関数はHinge Loss

JPU-H(g) ≡ α*E1[LH{g(X)}] + (1-α)*E-1[LH{-g(X)}]

+ α*E1[LH{g(X)} + LH{-g(X)}] – α

JPU-H(g) = JH(g) + α*E1[LH{g(X)} + LH{-g(X)}] – α

Hinge Lossの場合、PU設定はSupervied設定と比べ、Superfluous penaltyが決定境界を悪化させる

NIPS2014読み会7

Superfluous penalty

Surpervied 設定:損失関数はRamp Loss

JR(g) ≡ α*E1[LH{g(X)}] + (1-α)*E-1[LH{-g(X)}]

, LR(z) = 1/2 * max(0, min(2,1-z))

PU 設定:損失関数はRamp Loss

JPU-R(g) ≡ α*E1[LR{g(X)}] + (1-α)*E-1[LR{-g(X)}]

+ α*E1[LR{g(X)} + LR{-g(X)}] – α

JPU-R(g) = JR(g) (∵ LR{g(X)} + LR{-g(X)} = 1 )

Ramp Lossの対称性よりPU設定はSupervied設定の決定境界と等しくなる

NIPS2014読み会8

Superfluous penalty

なぜ損失関数を適当に選んではいけないのか- 損失関数の対称性がSuperfluous penaltyを消去 -

なぜ損失関数を適当に選んではいけないのか- Superfluous penaltyの影響 - 正例 : X1,…,Xm ~ f1(x) = N(-3,1)

負例:Xm+1,…,Xm+n ~ f-1(x) = N(3,1)

ラベルなしデータ:Xm+1,…,Xm+n ~ fX(x) = (1-α) f-1(x) + α f1(x)

Miss[PU設定(Ramp)] = Miss[Supervied設定(Ramp)]

Miss[PU設定(Hinge)] ≠ Miss[Supervied設定(Hinge)]

→ PU Learningでは、損失関数は対称にすべきNIPS2014読み会9

注)Figure2より引用

Surpervied設定PU設定(Ramp)

PU 設定(Hinge)

事前分布が超過リスクに与える影響- 有効事前分布は超過リスクを最小にする - 超過リスクを小さくしたい

ExR(α) ≡ R(g*, α) - R(g, α)

g* = infg∈G R(g, α), g*は誤分類率を最小化する学習関数

R(g,α) ≡ 2α × R1(g) + (1-α) × Rx(g) – α

この時、有効事前分布をtilde{α}とすると

tilde{α} = argminα∈P[X ~ f1(x)] ExR(α)

= (2*hat{α} – α) / Z(hat{α}, α)

, Z(hat{α}, α) = (2*hat{α} – α) + (1-α), Zは正規化項

導出? 次ページのグラフにて示唆

R(g, hat{α}) ≡ 2*hat{α}*R1(g) + Rx(g) - hat{α}

=(2*hat{α} – α)*R1(g) + (1-α)*R-1(g) + (hat{α} – α)

NIPS2014読み会10

最小化問題に対する事前分布の感応度- 事前分布の選択方法 -

①:超過リスクは有効事前分布の時、最小

tilde{α} =

argminα∈P[X ~ f1(x)] ExR(α)

が成立している

→ 推定事前分布が有効事前分布に一致すると最高

②:真の事前分布が大きい程、有効事前分布は真値の周辺でほぼ一定

→ P[X~f1(x)]が大きければ、

事前分布の推定はラフでいい

注)Figure3より引用

①:超過リスク

有効事前分布

事前分布推定は[G.Blanchard, 10]を参照

推定事前分布= 真の事前分布

事前分布

誤分

類率

有効

事前

分布

推定事前分布

評価実験- 損失関数の対称性で誤分類率が下がるか -

タスク

”0”と”N”が異なることを認識, N=1,…,9

手書き数字データ: USPSセット

米国郵便公社より収集した数字の画像データ(MNIST)

訓練データ:7291サンプル、テストデータ:2007サンプル

サイト報告のエラーレートは2.5%が最高

実験では、Positive・Unlabel、各々550サンプルを使用

モデル(損失関数・事前分布)

Hinge Loss

Ramp Loss

α = P[X~f1(x)]は0.2~0.95から決め打ちNIPS2014読み会12

評価実験- 損失関数の対称性で誤分類率が下がった!!-

見どころ

損失関数にRampを用いた方がHingeより予測が正確

さらに、αが大きければその結果は顕著

→ superfluous penalty termによるバイアスに起因

結果: 0 vs 6,8,9

サイト報告の最高エラーレート2.5%を上回っている

Ramp > Hinge

αが大きくなる程エラー率が低下

NIPS2014読み会13

注)Table1より引用

感想- PU設定では損失関数を適当に決めない!! -

NIPS2014読み会14

全体

PU設定では、対称な損失関数を使えばSupervised設定と同程度の性能が見込める

有効事前分布という量を導入し、誤分類率が推定した事前分布にどの程度、依存するかを考察

超過リスクの上限バウンドに関する理論は整理されているので、事前分布が超過リスクに及ぼす影響をKLDなどで整理し、既存の上限バウンドがタイトになる理論ができれば凄い

実験

PU設定下、Ramp・Hingeの違いによる予測率を比較するだけでなく、負例も使い、Supervied設定の予測も比較すべきでは?

Miss[PU設定(Ramp)] ≒ Miss[Supervied設定(Ramp)]

Miss[PU設定(Hinge)] ≠ Miss[Supervied設定(Hinge)]

参照 [C.Elkan, 01] The Foundations of Cost-Sensitive

Learning, IJCA

*[T.Zhang, 04] Statistical behavior and consistency of classification methods based on convex risk minimization, The Annals of Statistics

*[G.Blanchard, 10] Semi-Supervised Novelty Detection, JMLR

[M.C.Plessis, 14] Class prior estimation from positive and unlabeled data, TIS

[O.Chapelle, 14] Modeling Delayed Feedback in Display Advertising, KDD

NIPS2014読み会15