Download pdf - ベクトル空間モデルを用いた知識共有コミュニティでのユーザマッチング

ベクトル空間モデルを用いた知識共有コミュニティでのユーザマッチング

高橋柊

投稿数の増加が必要不可欠

興味範囲の類似するユーザを検出

興味範囲の類似するユーザの投稿項目を提示

研究の背景・目的

• 文体識別によるブログ推薦システム［瀬川 09］

• QAサイトにおける質問推薦へ向けた履歴データの分析［片山 10］

! 処理コスト

! 適応データセットの限定

先行研究

ユーザの興味範囲を表す興味ベクトルを生成

余弦値に基づくユーザ間の類似度計算

興味ベクトルをK-means法でクラスタリング

提案手法




提案手法

•ユーザの興味範囲を表す

•次元は全ユーザの投稿項目数

•各成分はユーザが当該項目に投稿している場合1，投稿していない場合は0

array(3){[20]=>int(1)[200]=>int(1)[2000]=>int(1)

}

項目20,200,2000に投稿

興味ベクトル

通常，疎ベクトルとして与えられる




提案手法

• 2 人のユーザ　　　

• 両ユーザの興味ベクトルは

• 類似度　　　　　は興味ベクトル間の余弦値より算出

sim(Ui, Uj) =~ui · ~uj

|~ui|| ~uj |

Ui, Uj

sim(Ui, Uj)

値が1に近いほどの興味範囲は似ているUi, Uj

~ui, ~uj

余弦値に基づく類似度計算

投稿項目に重なりがない場合は……？

• 疎ベクトル同士の余弦値計算は低コスト

• ユーザと投稿項目に最も重なりがあるユーザを抽出

余弦値のメリット・デメリット

! 投稿項目に重なりがある場合のみ有効




提案手法

• 非階層クラスタリングアルゴリズム

• 他のクラスタリングアルゴリズムに対し非常に少ない計算量

K-means法

アイテムをランダムにクラスタに振り分け

クラスタの重心を計算

アイテムを一番近いクラスタの重心に振り分け

① ② ③K-means法のプロセス

• アイテムは正規化された興味ベクトル

• 重心は正規化されたクラスタ内の平均ベクトル

• 距離はユークリッド距離

興味ベクトルへの適応

• 投稿項目に重なりがないユーザ同士の類似性を検出

• 類似ユーザ検出率の増加

! 計算コスト増大

クラスタリングのメリット・デメリット

• 日本語版Wikipediaのダンプデータを利用

• 投稿ページがカテゴリに属している1050ユーザを対象

• 投稿項目はユーザの投稿したページが属しているカテゴリ315589個

評価実験データ

実験結果（余弦値）ユーザ間の最大類似度が 1 に近いユーザ

ユーザ間の最大類似度が 0 に近いユーザ

18585 12204 0.942809 8 9

18126 18585 0.942809 9 8

Ui Uj sim(Ui, Uj) | ~uj ||~ui|

14840 12316 0.008216 2 7407

15564 377 0.009562 3 3645

Ui Uj sim(Ui, Uj) | ~uj ||~ui|

•最大となる　　　　　が0.9～1のユーザが多い

•最大となる　　　　　が0.9～1のユーザの投稿項目には類似性がある

余弦値分布のヒストグラム

0

50

100

150

200

250

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

coun

t

ǡሺ ሻ

最大となるの分布sim(Ui, Uj)

sim(Ui, Uj)

sim(Ui, Uj)

• K-分割交差検定により精度を検証

•検証用データの投稿項目ごとに，訓練用データから得られた各クラスタのユーザが投稿している割合を算出

•得られた割合の標準偏差を評価値として採用（0 ≦ 評価値 ≦ 0.1558）

訓練用検証用

投稿項目315589個

5個に分割

クラスタリングの評価手法

評価値カテゴリ名投稿ユーザ数

0.138454 日本海軍の運搬船 14

0.129549 鉄道駅前画像 5

0.128800 兵庫県出身の人物 4

評価値カテゴリ名投稿ユーザ数

0.043301 栄市の企業 10

0.043938 日本語の個人名 12

0.045397 日本の国際関係史 10

評価値が高い項目

評価値が低い項目

実験結果（クラスタリング）

検出方法非検出数検出率 (%)

余弦値 11 98.9523

K-means 1 99.9047

• 余弦値により類似ユーザが検出されないユーザとクラスタリングにより類似ユーザが検出されないユーザに重なりなし

実験結果（検出率）

• 余弦値に基づく類似度計算により少ない処理コストで類似ユーザの抽出が可能

• 余弦値に基づく類似度計算ではユーザの持つ投稿項目により結果が変動

• 学習データに似ている項目が多く存在するほどユーザの興味範囲に基づくクラスタリング

の精度は上昇

興味ベクトルによる類似ユーザ検出は有用

考察

質疑応答

Download pdf - ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

Download pdf - ベクトル空間モデルを用いた知識共有コミュニティでのユーザマッチング