ボルツマン機械学習によるカンニング検出技術 · 2015.05.08...

2015年度　第1回駒場物性セミナー

ボルツマン機械学習によるカンニング検出技術京都大学大学院情報学研究科システム科学専攻

大関　真之

スパースモデリング医学班研究会

多くのデータからその素性を明らかにする営み機械学習

多くの購買データから顧客の嗜好を明らかにする Am○zon

多くのWeb訪問履歴から使用者の意思を明らかにするGo○gle

多くの答案から生徒の能力を明らかにする　各種教育機関

多くの答案から生徒のカンニングを検出する本研究成果

2015.05.08　ボルツマン機械学習によるカンニング検出技術

項目応答理論

}  1-パラメータロジスティクモデル }  テストの品質管理に用いられる確率論的模型

}  : i 番目の被験者が j 番目の項目に正答したかどうか正答の場合　　　誤答の場合

}  : i 番目の被験者の能力

}  : j 番目の項目の難易度

F. Baker: Item response theory : parameterestimation techniques[2004)

xij = 1

xij = ±1

xij = �1

項目応答理論

}  試験結果により得られるデータからパラメータ推定 }  日本での実績

}  テストの品質管理 ¨  情報処理技術者試験 ¨  TOEFL、TOEIC ¨  医療系資格試験、etc

}  アンケート結果からの顧客の指向調査

F. Baker: Item response theory : parameterestimation techniques[2004) 2/22

正答確率

問題の難易度

ある生徒の能力

正答確率

問題の難易度

正答確率

問題の難易度

正答確率

問題の難易度

正答確率

問題の難易度

正答確率

問題の難易度

正答確率

問題の難易度

正答確率

問題の難易度

正答確率

問題の難易度

カンニングの疑い

ボルツマン機械学習との対応

}  カンニングのモデリング }  被験者間の相関を考慮する

}  カンニング係数の導入

¨  : 被験者 i と被験者 k の協力関係

}  カンニングは稀であるとすると、多くの場合は零を取る }  今回はレポート問題（全結合）で教え合う（対称的）状況を仮定

P (x|✓,d,w) =

:(✓i � dj)xij +

k2@(i)

wikxijxkj

ボルツマン機械学習との対応

}  最尤法によるアプローチ

}  何度も同じ状況で試験は出来ないのでデータ数は１個 }  疑似最尤法を利用して分配関数の計算困難性を回避

カンニングはスパース

スパース解推定ならL1ノルム

正則化のパラメータ任意性の問題

}  スパース解は求められるが… }  L1ノルムの係数により精度が大きく変わる

0e+000 2e-003 4e-003 6e-003 8e-003 1e-002

lambda

}  スパース解は求められるが… }  L1ノルムの係数により精度が大きく変わる

}  非常に小さいカンニング係数が推定されたときどうする？

0e+000 2e-003 4e-003 6e-003 8e-003 1e-002

lambda

}  L1ノルム正則化による推定結果例 }  問題数J=1000のとき

0 50 100 150 200 250 300 350 400 450

pair-0.2

0 50 100 150 200 250 300 350 400 450pair

任意性のないスパース解の推定法

}  デシメーションアルゴリズムの導入 }  基本は尤度関数（擬似尤度関数）の最大化

A. Decelle and F. Ricci-Tersenghi: Phys. Rev. Lett. 112 (2014) 070603.

1. まず最尤推定を行う．（FISTAやNESTAと同様の勾配法ベース）

2. 推定結果において、絶対値が小さいものを消す．

3. 残った非零サポートのみで最尤推定を行う．

}  利点 }  零となるところをはっきりと零と指定する }  正則化パラメータがない

デシメーションアルゴリズム

}  どこまでデシメーションすればよいのか？ }  スパース性の仮定のもとでは、ほとんどのカンニング係数は0である }  非常に小さいカンニング係数を0としても尤度関数は変わらない

デシメーションした割合 x = 1

Ltilted

= L� xLmax

� (1� x)Lmin

数値計算結果

}  カンニング係数の推定結果 }  　　　　のピーク位置と推定誤差の最小値をとる位置が一致

被験者数 : I = 30 ペア数 : I(I-1)/2 = 435 カンニングをしている割合 0.1 項目数 : J = 1000

Ltilted

0 50 100 150 200 250 300 350 400 450 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2

tilted L

デシメーションされたペア数

S. Yamanaka, M. Ohzeki, A. Decelle: JPSJ 84, 024801 (2015) 12/22

数値計算結果

}  カンニング係数の推定結果 }  　　　　のピーク位置でROC曲線の最良点にある

被験者数 : I = 30 ペア数 : I(I-1)/2 = 435 カンニングをしている割合 0.1 項目数 : J = 1000 真陽性率：カンニングをしていると推定されたペア /実際にカンニングをしているペア真陰性率：カンニングをしていないと推定されたペア /実際にカンニングをしていないペア 0.5

0.55 0.6

0.65 0.7

0.75 0.8

0.85 0.9

0.95 1

0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 0.98 1

真陽性率（True Positive Rate）

真陰性率（True Negative Rate）

13/22 S. Yamanaka, M. Ohzeki, A. Decelle: JPSJ 84, 024801 (2015)

Ltilted

擬似最尤法の性質との兼ね合い

}  データ数（項目数）が少ない場合 }  　　　　のピーク位置と推定誤差の最小値をとる位置がずれる

被験者数 : I = 30 ペア数 : I(I-1)/2 = 435 カンニングをしている割合 0.1 項目数 : J = 500

0 50 100 150 200 250 300 350 400 450-0.02 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16

tilted L

デシメーションされたペア数

Ltilted

スパース性との関係性

}  カンニング係数の推定結果 }  ROC曲線が左下に後退、真陽性率が減少

被験者数 : I = 30 ペア数 : I(I-1)/2 = 435 カンニングをしている割合 0.1->0.125->0.15 項目数 : J = 1000 真陽性率：カンニングをしていると推定されたペア /実際にカンニングをしているペア真陰性率：カンニングをしていないと推定されたペア /実際にカンニングをしていないペア 0

0.9 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 1

真陽性率（True Positive Rate）

真陰性率（True Negative Rate）

統計的性能比較

}  L1ノルム正則化とデシメーションアルゴリズムの比較

0 0.05 0.1 0.15 0.2 0.250

デシメーションアルゴリズムの性能

}  デシメーションアルゴリズムの利点 }  利用する際に任意性がない

¨  どのくらいの割合でデシメーションするか？は自明に最適化できる ¨  ユーザー視点の方法

}  擬似最尤法による勾配ベースの方法と組みあわせるだけ ¨  L1ノルムのような微分可能でない関数を利用しない ¨  付加的に利用しやすい

}  デシメーションアルゴリズムの弱点 }  スパース性が強い場合のみ有効

¨  限定的な利用範囲 }  信号・推定したいものがはっきりと分かれている

¨  非零の信号・推定したい量が零とギャップをもつ ¨  画像・離散的な信号処理などに有効か？

}  デシメーションアルゴリズムの弱点 }  スパース性が強い場合のみ有効

¨  限定的な利用範囲 }  信号・推定したいものがはっきりと分かれている

¨  非零の信号・推定したい量が零とギャップをもつ ¨  画像・離散的な信号処理などに有効か？

まとめ

}  ボルツマン機械学習を利用したカンニング検出 }  項目応答理論を拡張 }  カンニングのスパース性に注目 }  デシメーションアルゴリズムによりカンニングしたペアを検出 }  被験者の能力や問題の難易度の精度よい推定 }  実際の教育現場での利用は未だ（やる意義はあるか？）

}  デシメーションアルゴリズム }  任意性のないスパース解再構成法 }  情報量規準等との関連？ }  圧縮センシングでの利用も可能（非公開）

Detection of cheating by decimation algorithm Shogo Yamanaka, Masayuki Ohzeki, and Aurelien Decelle J. Phys. Soc. Jpn. 84, 024801 (2015)

ボルツマン機械学習によるカンニング検出技術 · 2015.05.08...

Documents

オーム社 - kw.maruzen.co.jpkw.maruzen.co.jp/ln/ebl/ebl_doc/ebl_ohmsha_catalog201911.pdf · ストーリーでPythonと機械学習がわかる！！『機械学習入門―ボルツマン機械学習から深層学習まで―』、『ベイズ推定入門

スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 2.3節〜2.5節

· 【本書と同じ棚に】機械学習入門ボルツマン機械学習から深層学習まで坂本真樹先生が教える人工知能がほぼほぼわかる本（以上、オーム社）

知的情報処理技術習得セミナー「その3︓機械学習と深層学習」 · 知的情報処理技術習得セミナー「その3︓機械学習と深層学習」プログラム

サイバーセキュリティ研究開発における今後の展望 · 機械学習系の研究 •2C2: 機械学習（1） •2C3: 自然言語処理の活用 •4C2: 機械学習

データサイエンス講座第3回機械学習その2 回機械 …...データサイエンス講座第3回機械学習その2回機械学習その2 ロジスティクス回帰

深層学習の学習過程における相転移 - Toppage · 機械学習：深層学習、ボルツマン機械学習東京工業大学大学院理工学研究科物性物理学専攻博士課程修了

AI/機械学習/深層学習入門 - · 機械学習; Machine Learning, ML 表現学習; Representation Learning, RL 深層学習; Deep Learning, DL •ルールベース •エキスパートシステム

Monthly Research Fourteenforty Research Institute, Inc. 機械学習 … · 2013. 7. 5. · FFRI,Inc. 1. はじめに 2. 機械学習概要 – 機械学習とは – 機械学習を取り巻く環境

機械学習勉強会資料

クラシックな機械学習の入門 7. オンライン学習

ビッグデータのための機械学習...• Apache Spark での機械学習 –ML パイプライン –DataFrame の活用 2016/10/28 ビッグデータアナリティクス

Python & 機械学習 - cspp.cc.u-tokyo.ac.jp

データサイエンス講座第4回回機械学習その機械学習その3€¦ · 第4回回機械学習その機械学習その3 重回帰分析（aic) 階層ベイズとmcmc

PHP による機械学習

Amazon Machine Learing と機械学習

実践プログラミングセミナー TensorFlowによるニューラルネットワーク入門 · - データサイエンスと機械学習 - 機械学習アルゴリズムの分類

スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 3.3節と3.4節

データサイエンス講座第2回機械学習その1 回機械 …...データサイエンス講座第2回機械学習その1回機械学習その1 クラスタリング分析

シリーズML-01 機械学習の概要

ボルツマン機械学習による カンニング検出技術 · 2015.05.08...

ボルツマン機械学習によるカンニング検出技術 · 2015.05.08...