22
MMDs Chapter 9 Recommendation System

MMDs Chapter 9

  • Upload
    mfumi

  • View
    583

  • Download
    1

Embed Size (px)

DESCRIPTION

Mining of Massive Datasets Chapter 9

Citation preview

Page 1: MMDs Chapter 9

MMDs Chapter 9Recommendation System

Page 2: MMDs Chapter 9

Recommendation System

• 例

1. 読者の関心の予測に基づくニュース記事の推薦

2. 過去に購入した物・検索履歴に基づく商品の推薦

Page 3: MMDs Chapter 9

推薦システムの種類

• Content-base System

• 推薦する商品のプロパティを見る

• Collaborative Filtering System

• ユーザ間 or アイテム間の類似度に基づく推薦

Page 4: MMDs Chapter 9

9.1 Model for Recommendation Systems9.1.1 Utility Matrix

• ユーザとアイテム間の関係の表現方法

1-5 がレーティング,空白は評価していないもの現実的にutility matrixは疎になる

Page 5: MMDs Chapter 9

推薦システムの目標

• Utility Matrix の空白の予測

• (注) 必ずしも全ての空白部分を求める必要はないむしろ最も高くなりそうな部分を求めることが重要

Page 6: MMDs Chapter 9

9.1.2 The Long Tail

Page 7: MMDs Chapter 9

ロングテールから分かること

• 従来の店舗 : 基本的に最もポピュラーなものを推薦(在庫の制約上の問題)

• オンラインストア : 在庫の制約がないので,個人に特化した推薦が求められる

Page 8: MMDs Chapter 9

9.1.3 Applications of Recommendation Systems• Product Recommendationsex) Amazon 類似したユーザが購入したものに基づく推薦

• Movie Recommendationsex) Netflixユーザのレーティングに基づく推薦

• News Articles他にもブログや動画等

Page 9: MMDs Chapter 9

9.1.4 Populating the Utility Matrix

• Utility Matrixを作る為のデータを得ることは難しい

• どうするか?

• ユーザにアイテムを評価するようにお願いする(バイアスがある)

• ユーザの行動から推測する (購入履歴/検索履歴..)

Page 10: MMDs Chapter 9

9.2 Content-Based Recommedations 9.2.1 Item Profiles

• Content-based recommendation ではそれぞれのアイテムを特徴を記述したプロファイルを作成するex) 映画のプロファイル1. 出演者2. ディレクター3. 年4. ジャンル5. …

Page 11: MMDs Chapter 9

9.2.2 Discovering Features of Documents

• 文章の特徴は取り出しにくい

• 具体的方法

1. stop wordsの除去

2. 残った単語についてtf-idfを計算 最もスコアの高い単語が文章を特徴付ける単語=> 文章の特徴が単語の集合として表現

Page 12: MMDs Chapter 9

9.2.3 Obtaining Item Features From Tags

• 画像もピクセルの情報だけでは特徴は捉えにくい => ユーザのタグ付けを利用する

• もちろんユーザがタグを付けることが不可欠

Page 13: MMDs Chapter 9

9.2.4 Representing Item Profiles

• アイテムのプロファイルの表現方法

1. 2値ベクトル

2. 実数のベクトル

Page 14: MMDs Chapter 9

Example 9.2

• 2つのベクトルのコサイン類似度はαはスケールファクター (α大 => 類似度1)

Page 15: MMDs Chapter 9

9.2.5 User Profiles

• ユーザを表現するベクトルも推薦には必要

• ex 9.3)ユーザUがJulia Robertsの出ている映画の20%が好きならば,Julia Roberts に対するUのユーザプロファイル値は0.2

Page 16: MMDs Chapter 9

9.2.5 User Profiles• ユーザを表現するベクトルも推薦には必要

• ex 9.3)ユーザUがJulia Robertsの出ている映画の20%が好きならば,Julia Roberts に対するUのユーザプロファイル値は0.2

A B C D E F GU 1 1 1 1 1

Page 17: MMDs Chapter 9

Example 9.4もしUtility matrixがbooleanじゃなければ,ユーザの平均を引くことで正規化する ユーザUの平均レーティングは3. Julia Roertsが出ている3つの映画に3,4,5の評価 従って平均は{ (3-3)+(4-3)+(5-3) } / 3 = 1 ユーザVの平均レーティングは4, Julia Robertsが出ている3つの映画に2,3,5の評価 (Vと同じ映画とは限らない) 平均は { (2-4) + (3-4) + (5-4) } /3 = -2/3

A B C D E F GU 1 3 2 4 5V 2 2 3 5

Page 18: MMDs Chapter 9

9.2.6 Recommending Items to Users Based on Content

• ユーザとアイテムのプロファイルベクトルの類似度を求めることで,ユーザがどれだけそのアイテムが好きかを予測できる

Page 19: MMDs Chapter 9

Example 9.5• ex 9.3 のデータ (boolean) を考えるユーザプロファイルは各俳優についてどれだけ好きかを表す=> 最も推薦されるのはユーザが好きな俳優が最も多く出演する映画

A B C D E F GU 1 1 1 1 1

Page 20: MMDs Chapter 9

Example 9.5

• ex9.4 のデータ (1-5のレーティング)を考えるこの場合ユーザプロファイルには負のもの(ユーザが好きでない俳優を示す)が含まれる可能性がある=> ユーザが好きな俳優が多くてかつ好きでない俳優が少ない映画が選ばれる

Page 21: MMDs Chapter 9

9.2.7 Classification Algorithms

• 機械学習的アプローチ

• アイテムプロファイルとutility matricesを使う

• 推薦のための決定木(decision tree)を作る

Page 22: MMDs Chapter 9

Example 9.6