SEO外包平台,我们为您提供专业的企业网站SEO整站优化外包服务 SEO设置

SEO外包平台

专注于企业网站SEO整站优化外包服务

[seo服务公司推荐火星系统][推荐系统]推荐系统冷启动问题

作者:jcmp      发布时间:2021-04-22      浏览量:0
推荐系统需要根据用户的历史

推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,因此大量的用户行为数据就称为推荐系统的重要组成部分和先决条件 。很多在开始阶段就希望有个性化推荐应用的网站来说, 如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题

冷启动问题简介

冷启动问题主要分为3类:

对于这3种不同的冷启动问题,有不同的解决方法。一般来说,可以参考如下解决方案。

利用用户注册信息

在网站中,当新用户刚注册时,不知道他喜欢什么物品,于是只能给他推荐一些热门的商品。但如果我们知道她是一位女性,那么可以给她推荐女性都喜欢的热门商品。这也是一种个性化的推荐。当然这个个性化的粒度很粗,因为所有刚注册的女性看到的都是同样的结果,但相对于不区分男女的方式,这种推荐的精度已经大大提高了。因此, 利用用户的注册信息可以很好地解决注册用户的冷启动问题 。在绝大多数网站中,年龄、性别一般都是注册用户的必备信息。

用户的注册信息分3种。

人口统计学特征包括年龄、性别、工作、学历、居住地、国籍、民族等,这些特征对预测用户的兴趣有很重要的作用,比如男性和女性的兴趣不同,不同年龄的人性却也不同。
基于人口统计学特征的推荐系统其典型代表是Bruce Krulwich开发的Lifestyle Finder.首先Bruce将美国人群根据人口统计学属性分成62类,然后对比每个新用户根据其填写个个人资料判断他属于什么分类,最后给他推荐这类用户最喜欢的15个链接,其中5个链接是推荐他购买的商品,5个链接是推荐他旅游的地点,剩下的5个链接是推荐他去逛的商店。

为了证明利用用户人口统计学特征后的推荐结果好于随机推荐的结果, Krulwich做了一个AB测试。相对于利用人口统计学特征的算法, Krulwich设计了一个对照组,该组用户看到的推荐结果是完全随机的。实验结果显示,对于利用人口统计学特征的个性化推荐算法,其用户点击率为89%,而随机算法的点击率只有27%。对于利用人口统计学特征的个性化算法,44%的用户觉得推荐结果是他们喜欢的,而对于随机算法只有31%的用户觉得推荐结果是自己喜欢的。因此,我们得到一个结论—— 使用人口统计学信息相对于随机推荐能够获得更好的推荐效果 。当然, Krulwich的实验也有明显的缺点, 即他 没有对比和给用户推荐最热门的物品的推荐算法 。因为热门排行榜作为一种非个性化推荐算法,一般也比随机推荐具有更高的点击率。

基于注册信息的个性化推荐流程基本如下:

基于用户注册信息的推荐算法其核心问题是计算每种特征的用户喜欢的物品。也就是说,对于每种特征f,计算具有这种特征的用户对哥哥物品的喜好程度p(f,i).

p(f,i)可以简单地定义为物品i在具有f的特征的用户中的热门程度:

其中,N(i)是喜欢物品i的用户集合,U(f)是具有特征f的用户集合。

根据这种定义可以比较准确地预测具有某种特征的用户是否喜欢某个物品。但是,在这种定义下,往往热门的物品会在各种特征用户中都具有比较高的权重。也就是说具有比较高的|N(i)|的物品会在每一类用户中都有比较高的p(f,i)。对公式进行修正,将p(f,i)定义为喜欢物品i的用户中具有特征f的比例:

这里分母中参数alpha用来解决数据稀疏问题。比如,有一个物品只被1个用户喜欢过,而这个用户刚好具有特征f,那么就有p(f,i)=1.但是,这种情况并没有统计意义,因此为分母加上一个比较大的数,可以避免这样的物品产生比较大的权重。

选择合适的物品启动用户的兴趣

解决用户冷启动问题的另一个方法是在新用户第一次访问推荐系统时,不立即给用户展示推荐结果,而是给用户提供一些物品,让用户反馈他们对这些物品的兴趣,然后根据用户反馈提供个性化推荐。

对于这些通过让用户对物品进行评分来收集用户兴趣,从而对用户进行冷启动的系统,它们需要解决的首要问题就是 如何选择物品让用户进行反馈

一般来说,能够用来启动用户兴趣的物品需要具有一下特点:

上面这些因素是选择启动物品时需要考虑的,但如何设计一个选择启动物品集合的系统?Nadav Golbandi提出可以使用一个决策树解决这个问题。


利用物品的内容信息

物品冷启动需要解决的问题是如何将新加入的物品推荐给对它感兴趣的用户。物品冷启动在新闻网站等时效性很强的网站中非常重要。

UserCF算法对物品冷启动问题并不非常