Recommendation survey and summary

10.04.23

Recommendation Survey and Summary

Chen Ting Zhao

Agenda• Motivation

• Recommendation Techniques– Overview– Techniques, Advantages & Problem– Recommendation Scenario

• Domain Specific:– E-Commerce: Amazon– Music: Pandora

• Recommendation as a service:– Choice Stream

– Current Problems and Issues

10.04.23 2

Motivation• 随着 Web2.0 的发展，如今已经进入了一个数据爆炸的时代。同时，

人们想要找到自己需要的信息也越来越难。– 因此有了 Search ，在用户对自己需求相对明确的时候，用 Search 能很快

的找到自己需要的数据– 但很多情况下，用户其实并不明确自己的需要，或者他们需要更加符合

他们个人口味和喜好的结果，因此出现了 Recommendation– 这是个从数据的搜索到发现的转变

• Recommendation 已经在 E-commerce 和基于 social 的社会化站点 (music ， movie and bookmark...) 取得很大的成功。

• 由于 Recommendation 的技术要求高，如今有很多 Recommendation As a Service 的服务为 E-commerce 系统提供专业的推荐引擎支持。– 但由于推荐所基于的数据在不同 domain 应用差别相对比较大，所以还没

有找到特别 general 的解决方案。

10.04.23 3

Recommendation Techiques - Overview• The techniques used by recommendation engines can be classified based on the information sour

ces they use.

• The available sources are:–user features (demographics) : age, gender, profession, income, location...–item features: keyword, genres...–user-item ratings: gathered through questionarures, explict ratings, transaction data

410.04.23

Model

Demographic Recommendation• 用 User feature 将用户进行分类，找到他的相似用户，让相似用户喜爱的

item 推荐给他。–基于用户的基本信息计算用户的相似度

• Advantages–因为不使用 user-item preferences 数据，所以对于新用户来讲没有 cold start 的问

题–方法不依赖于 item 的数据，所以这个方法是 domain-independent.

• Problems–基于用户的基本信息对用户进行分类过于粗糙，尤其是对 taste 要求较高的 dom

ain ，比如 book ， movie 和 music 等–对 feature 与其他用户不同的不能得到很好的推荐（ gray sheep problem ）–抓取和建模用户的 preference 后，很难修改或者根据用户的使用演变（不够灵

活）510.04.23

Content-based Recommendation• 用 Item feature 作为 item 的 model ，根据用户对不同 Item 的评分建立用户 t

aste 的 profile ，然后基于用户的 profile 和 item feature 计算用户可能喜欢的item 。

• Advantages–能很好的 model 用户的 taste ，能提供更加精确的推荐

• Problems–需要对 item 进行分析和建模，推荐的质量依赖于 item 模型的完整和全面程度。–item 相似度的分析仅仅依赖于 item feature–对于新用户有 cold start 的问题–抓取和建模用户的 preference 后，很难修改或者根据用户的使用演变（不够灵活）

• 成功的应用在一些 movie ， music ， book 的 website ，他们请专业的人员对 item 进行基因编码（每首歌可能有超过 100 个元数据）。

610.04.23

Collaborative Filtering• 使用 user-item preferences 的 user behavior 数据计算 item 相似度， u

ser 的相似度，从而计算推荐。可以分为一下 3 个子类：– user-based ，通过计算 user 的相似度，找到邻居，推荐邻居喜爱的 item– item-based ，通过计算 item 的相似度，基于用户历史的 preference ，

推荐相似的 item– model-based ，基于样本的 preference 信息和 feature 信息，建立一个推

荐 model ，然后根据实时的用户 preference 的信息进行预测，计算推荐• Advantages

– 不需要对 item 进行建模，而且不要求 item 的描述是 machine-readable的，所以这种方法也是 domain-independent

– 推荐是开放的，共用他人的经验，很好的支持用户发现潜在的兴趣偏好• Problems

– 基于历史数据，所以对新 item 和新 user 都有 cold start 的问题– 推荐的效果依赖于 preference 数据的多少和准确性– user-item preference 是稀疏存储和计算，影响推荐的效果– 对于特殊 taste 的用户不能给予很好的推荐（ gray sheep problem ）– 抓取和建模用户的 preference 后，很难修改或者根据用户的使用演变

（不够灵活）

10.04.23 7

Rule-based Recommendation• 利用 user-item preference 的数据，发现购买商品的

潜在关联关系，从而在用户已有的 preference 的基础上，为他推荐其他的相关的 item

• Advantages– 这种方法可以将用户动态的兴趣变化反映出来– 发现的关联关系可能是一些领域的知识，能有更好的

推荐效果，并且对用户拓展自己的兴趣有很好的帮助

• Problems– 不同的应用 domain ，发现关联关系的方法可能很不同，

不便提取通用的方法和模型

10.04.23 8

Hybrid Approaches• 将上述的方法组合在一起

– Weighted Hybirdization: 用 linear formula 将不同的 recommendation按照一定 weight combine起来

– Switching Hybridization ：对于不同的情况（系统运行状况，用户和 item 的数目等）选择合适的方式

– Mixed Hybridization ：将不同的推荐结果分不同的 section显示给用户

– Feature Combination ：从不同的知识来源得到的 feature 组合在一起，然后使用某种 recommendation 算法计算

– Feature Auggmentation: 用不同的推荐方法修正 feature ，得到更好的推荐结果

– Cascaded Hybridization: 给不同的 recommendation 方法设置严格的 priority ， low-priority 的结果在 high-priority 计算结果相同的时候给出辅助信息。

– Meta-Level Hybridization: 将一个 recommendation 方法的 model 作为另一个的输入

10.04.23 9

Personalized vs. Non-Personalized• Non-personalized recommendations – 对于每个用户都给出同样的推荐，这些推荐可以是静态的由 admin 人工设定的，或者基于系统所有用户的反馈统计计算出的 popular items.

• Personalized recommendations– 对于不同的用户，根据他们的口味和喜好给出更加

精确的推荐• 系统需要了解需推荐内容和用户的特质• 基于社会化网络，通过找到与当前用户相同喜好的用户，

实现推荐

10.04.23 10

E-commerce Domain - Amazon• Amazon 是做 recommendation 的鼻祖，它已经将 recommend 的思想渗透在 website 的各个角落。– Amazon 通过数据挖掘算法和比较用户的消费偏好于其他用户进行对比，借以预测用户可能感兴趣的商品

• Amazon 利用可以 trace 的所有用户在 website 上的行为，根据不同数据的特点对它们进行处理，并分成不同 section 为用户推送 recommendation– 用户的历史数据 – 新产品的推荐（ Content-based 的推荐）– 相关商品（ collaborative 的 Item based 推荐）– 别人购买 /浏览的商品（ collaborative 的 User based 推荐）– 并且， Amazon 利用它大量数据的优势，量化推荐原因：基于 social 的推荐， Ama

zon 会给你事实的数据，让用户信服；基于 item 的推荐，也会列出推荐的理由。

• Amazon 提供了让用户自主管理自己 profile 的功能，从而更明确的告诉推荐引擎他的 taste 和意图

10.04.23 11

Music Domain - Pandora• Pandora 将 music 解析成最基本的基因，基于这个基因计算音乐的相似性。

• 这种方法是从 item 本身入手，描述 item 的基本属性，在用户使用或者浏览一个 item 时，根据基因的匹配或者传递规则给用户推荐更多的 items 。这种方式能给用户即刻的满足感，不需要用户的历史数据和偏好设置。

• 基因描述区别于其他的 content-based 方法在于他更多的关注于外在表现的本质属性。

• 基因描述的好处：– item 本身的基因显性遗传，即属性可以传递– user 购买行为的基因遗传，这种属性的传递往往是 item 的“隐性“传递

的属性（很有趣）• 例如有研究发现，超市里购买婴儿尿布的男性顾客，往往都会购买啤酒，从基

因角度可以看出，婴儿尿布和啤酒有一些共性的”隐性“属性，有孩子的成年男性。

• 这种遗传与显性遗传的区别，必须考虑用户行为的影响：先买啤酒的人一般不会买尿布，所以单单用相似就很难解释，所以从基因的角度可以解释为：购买尿布的行为激活了”有孩子的成年男性“购买者的属性，从而传递到啤酒的相应属性上。

10.04.23 12

Recommendation as a service : ChoiceStream• ChoiceStream is a personalisation company that offers their recommendation t

echnology “Real Relevance Recommendations” as a fully-hosted service for e-commerce vendors.

• ChoiceStream is using a hybrid system based on a variety of techniques that are chosen and combined depending on the concrete recommendation use case on hand.

1310.04.23

Problem and Issues• Data Collection ：数据的来源分为 explict 和 implict两个部分

– explict: demographic data, preference info, search terms explicit rating, comments...– implict: tracking user's behavior click sequences, reading time, transaction data...

• Cold Start– 在系统初始状态时，对于 preference 数据很少的 item 或者 user ，推荐的

效果不好– 其原因在于，推荐没有从数据本身入手，而是更多的采用 social data

• Stability vs Plasticity– 在推荐中过多的考虑 history data 的作用，从而对于长时间使用的用户，

他们的 taste 和习惯的 model 很难改变，或者说不能提供很好的基于实时需求的推荐

– 目前的解决方法就是：将历史的 rating 进行衰减，但是却有可能导致长期interest 信息的 loose

• Sparsity– user-item rating矩阵的稀疏会导致 recommendation 的效果不好，或者使部分用户的错误 /片面的 rating误导了推荐的效果。

10.04.23 14

Problem and Issues - cont.• Performance & Scalablity

– Demographic 和 content-based ， item-based ， model-based 方法可以采用 offline 的方法计算，但基于 social 的要做到 real-time就不得不进行实时的大量的计算

– 而且即便是 offline 的，在大数据量的 item 和 user 的情况下，计算量还是很大的

• User Input Consistency– user 可以分为三类：

• white sheep ：和大部分人口味相同的人• black sheep ：和大部分人口味相反的人• gray sheep ：在不同的 item 上的 opinion 不同或者有很独特口味的人

– 对于 gray sheep 的推荐效果一般都不是很好• Privary

– 因为要挖掘用户的个人喜好和使用习惯

10.04.23 15

Documents

Recommendation survey and summary