Upload
ksmzn
View
541
Download
6
Embed Size (px)
Citation preview
第1章統計的潜在意味解析とは第 1回「トピックモデルによる統計的潜在意味解析」
読書会
@ksmzn
会場:株式会社ALBERT西新宿
June 4, 2015
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 1 / 34
自己紹介
Koshi @ksmzn某大学 M2→社会人一年目リサンプリング法を研究してましたSQLにまみれる日々
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 2 / 34
はじめに
https://speakerdeck.com/yamano357/tokyowebmining46th
先日のTokyoWebminingでの資料がとても参考になるので、見ましょう!!
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 3 / 34
目次
1 1.1潜在的意味・トピックと潜在的共起性
2 1.2潜在意味解析の歴史
3 1.4確率的潜在変数モデル
4 1.5確率的生成モデルとグラフィカルモデル
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 4 / 34
目次
1 1.1潜在的意味・トピックと潜在的共起性
2 1.2潜在意味解析の歴史
3 1.4確率的潜在変数モデル
4 1.5確率的生成モデルとグラフィカルモデル
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 5 / 34
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 6 / 34
潜在的意味・トピックと潜在的共起性
潜在的意味▶ 「音楽」や「スポーツ」という単語が無かったとしても、単語群を見て想起できる
▶ 複数の単語の共起性によって創発される情報トピック
▶ 潜在的意味のカテゴリをトピックと呼ぶ→「単語の共起性をいかに数学的にモデル化するか?」
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 7 / 34
目次
1 1.1潜在的意味・トピックと潜在的共起性
2 1.2潜在意味解析の歴史
3 1.4確率的潜在変数モデル
4 1.5確率的生成モデルとグラフィカルモデル
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 8 / 34
潜在意味解析の歴史
▶ 行列分解 (1988)Latent Semantic Indexing/Analysis (LSI/LSA)
▶ 確率モデル (1998)Probabilistic LSI/LSA (PLSI/PLSA)
▶ 階層ベイズモデル (2003)Latent Dirichlet Allocation (LDA)
▶ 拡張モデル多数 (2004ごろ)▶ 大規模データのための高速化 (2007)
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 9 / 34
特異値分解
特異値分解▶ 単語文書行列 Xを 3つの行列に分解
X =US VT
▶ U, S, Vの各列ベクトルを特異値が大きい順にK個用いて、U, S , Vを作り、ランクKの低ランク近似行列 Xを得る
X =US VT
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 10 / 34
特異値分解
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 11 / 34
特異値分解による潜在意味解析文書に含まれている単語を抽出し、それらの頻度から単語文書行列 Xを作成する
▶ 「car」で検索しても、文書 1は発見できない▶ 「automobile」でも、文書 2は発見できない
→単語の持つ潜在的な意味を考える→特異値分解
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 12 / 34
特異値分解の結果
文書 1・2ともに、「car」「automobile」の頻度が 0でない!→「drive」との共起性から、潜在的な意味が抽出されている
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 13 / 34
Vの情報
各列べクトルは、複数の単語の共起性を表している。→潜在トピック
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 14 / 34
Uの情報
各列べクトルは、文書とトピックの共起性を表している。→間接的に、文書と単語の共起性を抽出できる
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 15 / 34
LSIの問題点
▶ U, S の解釈が難しい▶ 特異値分解の性質により、トピックの軸が互いに直交するため、トピックに対し非常に強い制約となる
→PLSI,階層ベイズモデル, etc...
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 16 / 34
目次
1 1.1潜在的意味・トピックと潜在的共起性
2 1.2潜在意味解析の歴史
3 1.4確率的潜在変数モデル
4 1.5確率的生成モデルとグラフィカルモデル
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 17 / 34
確率的潜在変数モデル
確率的潜在変数モデル1 観測できない潜在変数を仮定する数理モデル2 潜在変数をデータから推定することで、データ間の類似性とその意味を解析する
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 18 / 34
例:データ間の類似性
▶ x = {x1, x2, . . . , xn} : 観測変数▶ z = {z1, z2, . . . , zn} : 潜在変数▶ ϕ = {ϕ1, ϕ2, . . . , ϕK} :
どのように類似しているのかを表す確率変数
z1 = z2 = k ⇒x1と x2は ϕkの意味で類似している
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 19 / 34
目次
1 1.1潜在的意味・トピックと潜在的共起性
2 1.2潜在意味解析の歴史
3 1.4確率的潜在変数モデル
4 1.5確率的生成モデルとグラフィカルモデル
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 20 / 34
確率的生成モデルとグラフィカルモデル
確率的生成モデルデータの生成過程を確率モデルで表現した数理モデル
グラフィカルモデル確率的生成モデルを視覚的に表現するもの
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 21 / 34
生成過程
ある確率変数 xi(x = 1, . . . , n)が確率分布 p(xi|ϕ)に従うとき,
xi ∼ p(xi|ϕ) (i = 1, . . . , n)
と記述する。↓確率変数 xiの値が,確率分布 p(xi|ϕ)から生成されたことを示す。
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 22 / 34
サイコロで考えるK個の目が出るサイコロを n回振ったときに出る目を生成モデルとして考える
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 23 / 34
グラフィカルモデル
グラフィカルモデル▶ 確率変数間の条件付き依存構造のグラフ表現▶ サイコロ生成モデルの πと ziの関係をグラフィカルモデルで以下のように表す
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 24 / 34
ベイズの定理と条件付き独立性グラフィカルモデルは、ベイズの定理や条件付き独立性によって同時確率を展開するのに役立つ。ベイズの定理
p (x|y) =p (y|x) p (x)
p (y)
条件付き独立性zが与えられた下での xと yの条件付き確率分布を p(x|z), p(y|z)とし, (x, y)の条件付き同時分布を p(x, y|z)とする。このとき、すべての x, yに対し p(x, y|z) = p(x|z)p(y|z)が成り立つとき、「zが与えられた下で xと yは条件付き独立である」といい、x y y|zと表す
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 25 / 34
tail-to-tail型
tail-to-tail型条件付き独立性:a y b|c
⇒ p(a, b|c) = p(a|c)p(b|c)
グラフに対応する同時分布
p(a, b, c) = p(a|c)p(b|c)p(c)
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 26 / 34
head-to-tail型
head-to-tail型条件付き独立性:a y b|c
⇒ p(a, b|c) = p(a|c)p(b|c)
グラフに対応する同時分布
p(a, b, c) = p(b|c)p(c|a)p(a)
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 27 / 34
head-to-head型
head-to-head型条件付き独立性:a y b|c
⇒ p(a, b|c) , p(a|c)p(b|c)
グラフに対応する同時分布
p(a, b, c) = p(c|a, b)p(a)p(b)
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 28 / 34
サイコロ生成モデルの同時分布同時分布 p(x, z, π,ϕ, η)を展開する
▶ πの生成確率は p(π)▶ ηの生成確率は p(η)▶ πが与えられた下で zは
tail-to-tail型なので、
p(z|π) =n∏
i=1
p(zi|π)
▶ ηが与えられた下でϕはtail-to-tail型なので、
p(ϕ|η) =K∏
k=1
p(ϕk|η)@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 29 / 34
サイコロ生成モデルの同時分布▶ zとϕが与えられた下で xは tail-to-tail型なので、
p(x|z,π,ϕ, η) = p(x|z,ϕ)
=
n∏i=1
p(xi|zi,ϕ)
▶ 同時分布は以下のように展開できるp(x, z, π,ϕ, η) = p(x|z,π,ϕ, η)p(z,π,ϕ, η)
= p(x|z,ϕ)p(z|π)p(π)p(ϕ|η)p(η)
=
n∏i=1
p(xi|zi,ϕ)n∏
i=1
p(zi|π)p(π)K∏
k=1
p(ϕk|η)p(η)
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 30 / 34
サイコロ生成モデルの条件付き分布1条件付き分布 p(z|x, π,ϕ, η)を計算する
▶ πおよび xは zと繋がっているので依存関係がある
▶ xが与えられているので、ϕは zに対し独立にならない (head-to-head型)
▶ ϕが与えられているので、ηと xは条件付き独立(head-to-tail型)。従って、ηと zも条件付き独立
▶ よって、p(z|x, π,ϕ, η) = p(z|x, π,ϕ)
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 31 / 34
サイコロ生成モデルの条件付き分布2条件付き分布 p(ϕ|x, π, z, η)を計算する
▶ ηおよび xはϕと繋がっているので依存関係がある
▶ xが与えられているので、ϕは zに対し独立にならない (head-to-head型)
▶ zが与えられているので、πと xは条件付き独立(head-to-tail型)。従って、πとϕも条件付き独立
▶ よって、p(ϕ|x, z, π, η) = p(ϕ|x, z, η)
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 32 / 34
まとめ
1. 潜在的意味のカテゴリをトピックと呼ぶ2. 特異値分解を行い、文書の潜在的な意味を解析した
3. グラフィカルモデルを書くことで、同時分布の展開が容易になった
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 33 / 34
ご清聴ありがとうございました.
@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 34 / 34