ベクトル空間モデルを用いた知識共有コミュニティでのユーザマッチング
高橋柊
投稿数の増加が必要不可欠
興味範囲の類似するユーザを検出
興味範囲の類似するユーザの投稿項目を提示
研究の背景・目的
• 文体識別によるブログ推薦システム[瀬川 09]
• QAサイトにおける質問推薦へ向けた履歴データの分析 [片山 10]
! 処理コスト
! 適応データセットの限定
先行研究
ユーザの興味範囲を表す興味ベクトルを生成
余弦値に基づくユーザ間の類似度計算
興味ベクトルをK-means法でクラスタリング
提案手法
ユーザの興味範囲を表す興味ベクトルを生成
余弦値に基づくユーザ間の類似度計算
興味ベクトルをK-means法でクラスタリング
提案手法
•ユーザの興味範囲を表す
•次元は全ユーザの投稿項目数
•各成分はユーザが当該項目に投稿している場合1,投稿していない場合は0
array(3){[20]=>int(1)[200]=>int(1)[2000]=>int(1)
}
項目20,200,2000に投稿
興味ベクトル
通常,疎ベクトルとして与えられる
ユーザの興味範囲を表す興味ベクトルを生成
余弦値に基づくユーザ間の類似度計算
興味ベクトルをK-means法でクラスタリング
提案手法
• 2 人のユーザ
• 両ユーザの興味ベクトルは
• 類似度 は興味ベクトル間の余弦値より算出
sim(Ui, Uj) =~ui · ~uj
|~ui|| ~uj |
Ui, Uj
sim(Ui, Uj)
値が1に近いほど の興味範囲は似ているUi, Uj
~ui, ~uj
余弦値に基づく類似度計算
投稿項目に重なりがない場合は……?
• 疎ベクトル同士の余弦値計算は低コスト
• ユーザと投稿項目に最も重なりがあるユーザを抽出
余弦値のメリット・デメリット
! 投稿項目に重なりがある場合のみ有効
ユーザの興味範囲を表す興味ベクトルを生成
余弦値に基づくユーザ間の類似度計算
興味ベクトルをK-means法でクラスタリング
提案手法
• 非階層クラスタリングアルゴリズム
• 他のクラスタリングアルゴリズムに対し非常に少ない計算量
K-means法
アイテムをランダムにクラスタに振り分け
クラスタの重心を計算
アイテムを一番近いクラスタの重心に振り分け
① ② ③K-means法のプロセス
• アイテムは正規化された興味ベクトル
• 重心は正規化されたクラスタ内の平均ベクトル
• 距離はユークリッド距離
興味ベクトルへの適応
• 投稿項目に重なりがないユーザ同士の類似性を検出
• 類似ユーザ検出率の増加
! 計算コスト増大
クラスタリングのメリット・デメリット
• 日本語版Wikipediaのダンプデータを利用
• 投稿ページがカテゴリに属している1050ユーザを対象
• 投稿項目はユーザの投稿したページが属しているカテゴリ315589個
評価実験データ
実験結果(余弦値)ユーザ間の最大類似度が 1 に近いユーザ
ユーザ間の最大類似度が 0 に近いユーザ
18585 12204 0.942809 8 9
18126 18585 0.942809 9 8
Ui Uj sim(Ui, Uj) | ~uj ||~ui|
14840 12316 0.008216 2 7407
15564 377 0.009562 3 3645
Ui Uj sim(Ui, Uj) | ~uj ||~ui|
•最大となる が0.9~1のユーザが多い
•最大となる が0.9~1のユーザの投稿項目には類似性がある
余弦値分布のヒストグラム
0
50
100
150
200
250
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
coun
t
ǡሺ ሻ
最大となる の分布sim(Ui, Uj)
sim(Ui, Uj)
sim(Ui, Uj)
• K-分割交差検定により精度を検証
•検証用データの投稿項目ごとに,訓練用データから得られた各クラスタのユーザが投稿している割合を算出
•得られた割合の標準偏差を評価値として採用(0 ≦ 評価値 ≦ 0.1558)
訓練用 検証用
投稿項目315589個
5個に分割
クラスタリングの評価手法
評価値 カテゴリ名 投稿ユーザ数
0.138454 日本海軍の運搬船 14
0.129549 鉄道駅前画像 5
0.128800 兵庫県出身の人物 4
評価値 カテゴリ名 投稿ユーザ数
0.043301 栄市の企業 10
0.043938 日本語の個人名 12
0.045397 日本の国際関係史 10
評価値が高い項目
評価値が低い項目
実験結果(クラスタリング)
検出方法 非検出数 検出率 (%)
余弦値 11 98.9523
K-means 1 99.9047
• 余弦値により類似ユーザが検出されないユーザとクラスタリング により類似ユーザが検出されないユーザに重なりなし
実験結果(検出率)
• 余弦値に基づく類似度計算により少ない処理コストで類似ユーザの抽出が可能
• 余弦値に基づく類似度計算ではユーザの持つ投稿項目により結果が変動
• 学習データに似ている項目が多く存在するほどユーザの興味範囲に基づくクラスタリング
の精度は上昇
興味ベクトルによる類似ユーザ検出は有用
考察
質疑応答