Upload
mfumi
View
583
Download
1
Embed Size (px)
DESCRIPTION
Mining of Massive Datasets Chapter 9
Citation preview
MMDs Chapter 9Recommendation System
Recommendation System
• 例
1. 読者の関心の予測に基づくニュース記事の推薦
2. 過去に購入した物・検索履歴に基づく商品の推薦
推薦システムの種類
• Content-base System
• 推薦する商品のプロパティを見る
• Collaborative Filtering System
• ユーザ間 or アイテム間の類似度に基づく推薦
9.1 Model for Recommendation Systems9.1.1 Utility Matrix
• ユーザとアイテム間の関係の表現方法
1-5 がレーティング,空白は評価していないもの現実的にutility matrixは疎になる
推薦システムの目標
• Utility Matrix の空白の予測
• (注) 必ずしも全ての空白部分を求める必要はないむしろ最も高くなりそうな部分を求めることが重要
9.1.2 The Long Tail
ロングテールから分かること
• 従来の店舗 : 基本的に最もポピュラーなものを推薦(在庫の制約上の問題)
• オンラインストア : 在庫の制約がないので,個人に特化した推薦が求められる
9.1.3 Applications of Recommendation Systems• Product Recommendationsex) Amazon 類似したユーザが購入したものに基づく推薦
• Movie Recommendationsex) Netflixユーザのレーティングに基づく推薦
• News Articles他にもブログや動画等
9.1.4 Populating the Utility Matrix
• Utility Matrixを作る為のデータを得ることは難しい
• どうするか?
• ユーザにアイテムを評価するようにお願いする(バイアスがある)
• ユーザの行動から推測する (購入履歴/検索履歴..)
9.2 Content-Based Recommedations 9.2.1 Item Profiles
• Content-based recommendation ではそれぞれのアイテムを特徴を記述したプロファイルを作成するex) 映画のプロファイル1. 出演者2. ディレクター3. 年4. ジャンル5. …
9.2.2 Discovering Features of Documents
• 文章の特徴は取り出しにくい
• 具体的方法
1. stop wordsの除去
2. 残った単語についてtf-idfを計算 最もスコアの高い単語が文章を特徴付ける単語=> 文章の特徴が単語の集合として表現
9.2.3 Obtaining Item Features From Tags
• 画像もピクセルの情報だけでは特徴は捉えにくい => ユーザのタグ付けを利用する
• もちろんユーザがタグを付けることが不可欠
9.2.4 Representing Item Profiles
• アイテムのプロファイルの表現方法
1. 2値ベクトル
2. 実数のベクトル
Example 9.2
• 2つのベクトルのコサイン類似度はαはスケールファクター (α大 => 類似度1)
9.2.5 User Profiles
• ユーザを表現するベクトルも推薦には必要
• ex 9.3)ユーザUがJulia Robertsの出ている映画の20%が好きならば,Julia Roberts に対するUのユーザプロファイル値は0.2
9.2.5 User Profiles• ユーザを表現するベクトルも推薦には必要
• ex 9.3)ユーザUがJulia Robertsの出ている映画の20%が好きならば,Julia Roberts に対するUのユーザプロファイル値は0.2
A B C D E F GU 1 1 1 1 1
Example 9.4もしUtility matrixがbooleanじゃなければ,ユーザの平均を引くことで正規化する ユーザUの平均レーティングは3. Julia Roertsが出ている3つの映画に3,4,5の評価 従って平均は{ (3-3)+(4-3)+(5-3) } / 3 = 1 ユーザVの平均レーティングは4, Julia Robertsが出ている3つの映画に2,3,5の評価 (Vと同じ映画とは限らない) 平均は { (2-4) + (3-4) + (5-4) } /3 = -2/3
A B C D E F GU 1 3 2 4 5V 2 2 3 5
9.2.6 Recommending Items to Users Based on Content
• ユーザとアイテムのプロファイルベクトルの類似度を求めることで,ユーザがどれだけそのアイテムが好きかを予測できる
Example 9.5• ex 9.3 のデータ (boolean) を考えるユーザプロファイルは各俳優についてどれだけ好きかを表す=> 最も推薦されるのはユーザが好きな俳優が最も多く出演する映画
A B C D E F GU 1 1 1 1 1
Example 9.5
• ex9.4 のデータ (1-5のレーティング)を考えるこの場合ユーザプロファイルには負のもの(ユーザが好きでない俳優を示す)が含まれる可能性がある=> ユーザが好きな俳優が多くてかつ好きでない俳優が少ない映画が選ばれる
9.2.7 Classification Algorithms
• 機械学習的アプローチ
• アイテムプロファイルとutility matricesを使う
• 推薦のための決定木(decision tree)を作る
Example 9.6