15
07.06.22 Recommendation Survey and Summary Chen Ting Zhao

Recommendation survey and summary

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Recommendation survey and summary

10.04.23

Recommendation Survey and Summary

Chen Ting Zhao

Page 2: Recommendation survey and summary

Agenda• Motivation

• Recommendation Techniques– Overview– Techniques, Advantages & Problem– Recommendation Scenario

• Domain Specific:– E-Commerce: Amazon– Music: Pandora

• Recommendation as a service:– Choice Stream

– Current Problems and Issues

10.04.23 2

Page 3: Recommendation survey and summary

Motivation• 随着 Web2.0 的发展,如今已经进入了一个数据爆炸的时代。同时,

人们想要找到自己需要的信息也越来越难。– 因此有了 Search ,在用户对自己需求相对明确的时候,用 Search 能很快

的找到自己需要的数据– 但很多情况下,用户其实并不明确自己的需要,或者他们需要更加符合

他们个人口味和喜好的结果,因此出现了 Recommendation– 这是个从数据的搜索到发现的转变

• Recommendation 已经在 E-commerce 和基于 social 的社会化站点 (music , movie and bookmark...) 取得很大的成功。

• 由于 Recommendation 的技术要求高,如今有很多 Recommendation As a Service 的服务为 E-commerce 系统提供专业的推荐引擎支持。– 但由于推荐所基于的数据在不同 domain 应用差别相对比较大,所以还没

有找到特别 general 的解决方案。

10.04.23 3

Page 4: Recommendation survey and summary

Recommendation Techiques - Overview• The techniques used by recommendation engines can be classified based on the information sour

ces they use.

• The available sources are:–user features (demographics) : age, gender, profession, income, location...–item features: keyword, genres...–user-item ratings: gathered through questionarures, explict ratings, transaction data

410.04.23

Model

Page 5: Recommendation survey and summary

Demographic Recommendation• 用 User feature 将用户进行分类,找到他的相似用户,让相似用户喜爱的

item 推荐给他。–基于用户的基本信息计算用户的相似度

• Advantages–因为不使用 user-item preferences 数据,所以对于新用户来讲没有 cold start 的问

题–方法不依赖于 item 的数据,所以这个方法是 domain-independent.

• Problems–基于用户的基本信息对用户进行分类过于粗糙,尤其是对 taste 要求较高的 dom

ain ,比如 book , movie 和 music 等–对 feature 与其他用户不同的不能得到很好的推荐( gray sheep problem )–抓取和建模用户的 preference 后,很难修改或者根据用户的使用演变(不够灵

活)510.04.23

Page 6: Recommendation survey and summary

Content-based Recommendation• 用 Item feature 作为 item 的 model ,根据用户对不同 Item 的评分建立用户 t

aste 的 profile ,然后基于用户的 profile 和 item feature 计算用户可能喜欢的item 。

• Advantages–能很好的 model 用户的 taste ,能提供更加精确的推荐

• Problems–需要对 item 进行分析和建模,推荐的质量依赖于 item 模型的完整和全面程度。–item 相似度的分析仅仅依赖于 item feature–对于新用户有 cold start 的问题–抓取和建模用户的 preference 后,很难修改或者根据用户的使用演变(不够灵活)

• 成功的应用在一些 movie , music , book 的 website ,他们请专业的人员对 item 进行基因编码(每首歌可能有超过 100 个元数据)。

610.04.23

Page 7: Recommendation survey and summary

Collaborative Filtering• 使用 user-item preferences 的 user behavior 数据计算 item 相似度, u

ser 的相似度,从而计算推荐。可以分为一下 3 个子类:– user-based ,通过计算 user 的相似度,找到邻居,推荐邻居喜爱的 item– item-based ,通过计算 item 的相似度,基于用户历史的 preference ,

推荐相似的 item– model-based ,基于样本的 preference 信息和 feature 信息,建立一个推

荐 model ,然后根据实时的用户 preference 的信息进行预测,计算推荐• Advantages

– 不需要对 item 进行建模,而且不要求 item 的描述是 machine-readable的,所以这种方法也是 domain-independent

– 推荐是开放的,共用他人的经验,很好的支持用户发现潜在的兴趣偏好• Problems

– 基于历史数据,所以对新 item 和新 user 都有 cold start 的问题– 推荐的效果依赖于 preference 数据的多少和准确性– user-item preference 是稀疏存储和计算,影响推荐的效果– 对于特殊 taste 的用户不能给予很好的推荐( gray sheep problem )– 抓取和建模用户的 preference 后,很难修改或者根据用户的使用演变

(不够灵活)

10.04.23 7

Page 8: Recommendation survey and summary

Rule-based Recommendation• 利用 user-item preference 的数据,发现购买商品的

潜在关联关系,从而在用户已有的 preference 的基础上,为他推荐其他的相关的 item

• Advantages– 这种方法可以将用户动态的兴趣变化反映出来– 发现的关联关系可能是一些领域的知识,能有更好的

推荐效果,并且对用户拓展自己的兴趣有很好的帮助

• Problems– 不同的应用 domain ,发现关联关系的方法可能很不同,

不便提取通用的方法和模型

10.04.23 8

Page 9: Recommendation survey and summary

Hybrid Approaches• 将上述的方法组合在一起

– Weighted Hybirdization: 用 linear formula 将不同的 recommendation按照一定 weight combine起来

– Switching Hybridization :对于不同的情况(系统运行状况,用户和 item 的数目等)选择合适的方式

– Mixed Hybridization :将不同的推荐结果分不同的 section显示给用户

– Feature Combination :从不同的知识来源得到的 feature 组合在一起,然后使用某种 recommendation 算法计算

– Feature Auggmentation: 用不同的推荐方法修正 feature ,得到更好的推荐结果

– Cascaded Hybridization: 给不同的 recommendation 方法设置严格的 priority , low-priority 的结果在 high-priority 计算结果相同的时候给出辅助信息。

– Meta-Level Hybridization: 将一个 recommendation 方法的 model 作为另一个的输入

10.04.23 9

Page 10: Recommendation survey and summary

Personalized vs. Non-Personalized• Non-personalized recommendations – 对于每个用户都给出同样的推荐,这些推荐可以是静态的由 admin 人工设定的,或者基于系统所有用户的反馈统计计算出的 popular items.

• Personalized recommendations– 对于不同的用户,根据他们的口味和喜好给出更加

精确的推荐• 系统需要了解需推荐内容和用户的特质• 基于社会化网络,通过找到与当前用户相同喜好的用户,

实现推荐

10.04.23 10

Page 11: Recommendation survey and summary

E-commerce Domain - Amazon• Amazon 是做 recommendation 的鼻祖,它已经将 recommend 的思想渗透在 website 的各个角落。– Amazon 通过数据挖掘算法和比较用户的消费偏好于其他用户进行对比,借以预测用户可能感兴趣的商品

• Amazon 利用可以 trace 的所有用户在 website 上的行为,根据不同数据的特点对它们进行处理,并分成不同 section 为用户推送 recommendation– 用户的历史数据 – 新产品的推荐 ( Content-based 的推荐)– 相关商品( collaborative 的 Item based 推荐)– 别人购买 /浏览的商品( collaborative 的 User based 推荐)– 并且, Amazon 利用它大量数据的优势,量化推荐原因:基于 social 的推荐, Ama

zon 会给你事实的数据,让用户信服;基于 item 的推荐,也会列出推荐的理由。

• Amazon 提供了让用户自主管理自己 profile 的功能,从而更明确的告诉推荐引擎他的 taste 和意图

10.04.23 11

Page 12: Recommendation survey and summary

Music Domain - Pandora• Pandora 将 music 解析成最基本的基因,基于这个基因计算音乐的相似性。

• 这种方法是从 item 本身入手,描述 item 的基本属性,在用户使用或者浏览一个 item 时,根据基因的匹配或者传递规则给用户推荐更多的 items 。这种方式能给用户即刻的满足感,不需要用户的历史数据和偏好设置。

• 基因描述区别于其他的 content-based 方法在于他更多的关注于外在表现的本质属性。

• 基因描述的好处:– item 本身的基因显性遗传,即属性可以传递– user 购买行为的基因遗传,这种属性的传递往往是 item 的“隐性“传递

的属性(很有趣)• 例如有研究发现,超市里购买婴儿尿布的男性顾客,往往都会购买啤酒,从基

因角度可以看出,婴儿尿布和啤酒有一些共性的”隐性“属性,有孩子的成年男性。

• 这种遗传与显性遗传的区别,必须考虑用户行为的影响:先买啤酒的人一般不会买尿布,所以单单用相似就很难解释,所以从基因的角度可以解释为:购买尿布的行为激活了”有孩子的成年男性“购买者的属性,从而传递到啤酒的相应属性上。

10.04.23 12

Page 13: Recommendation survey and summary

Recommendation as a service : ChoiceStream• ChoiceStream is a personalisation company that offers their recommendation t

echnology “Real Relevance Recommendations” as a fully-hosted service for e-commerce vendors.

• ChoiceStream is using a hybrid system based on a variety of techniques that are chosen and combined depending on the concrete recommendation use case on hand.

1310.04.23

Page 14: Recommendation survey and summary

Problem and Issues• Data Collection :数据的来源分为 explict 和 implict两个部分

– explict: demographic data, preference info, search terms explicit rating, comments...– implict: tracking user's behavior click sequences, reading time, transaction data...

• Cold Start– 在系统初始状态时,对于 preference 数据很少的 item 或者 user ,推荐的

效果不好– 其原因在于,推荐没有从数据本身入手,而是更多的采用 social data

• Stability vs Plasticity– 在推荐中过多的考虑 history data 的作用,从而对于长时间使用的用户,

他们的 taste 和习惯的 model 很难改变,或者说不能提供很好的基于实时需求的推荐

– 目前的解决方法就是:将历史的 rating 进行衰减,但是却有可能导致长期interest 信息的 loose

• Sparsity– user-item rating矩阵的稀疏会导致 recommendation 的效果不好,或者使部分用户的错误 /片面的 rating误导了推荐的效果。

10.04.23 14

Page 15: Recommendation survey and summary

Problem and Issues - cont.• Performance & Scalablity

– Demographic 和 content-based , item-based , model-based 方法可以采用 offline 的方法计算,但基于 social 的要做到 real-time就不得不进行实时的大量的计算

– 而且即便是 offline 的,在大数据量的 item 和 user 的情况下,计算量还是很大的

• User Input Consistency– user 可以分为三类:

• white sheep :和大部分人口味相同的人• black sheep :和大部分人口味相反的人• gray sheep :在不同的 item 上的 opinion 不同或者有很独特口味的人

– 对于 gray sheep 的推荐效果一般都不是很好• Privary

– 因为要挖掘用户的个人喜好和使用习惯

10.04.23 15