SEO外包平台,我们为您提供专业的企业网站SEO整站优化外包服务 SEO设置

SEO外包平台

专注于企业网站SEO整站优化外包服务

[seo服务公司推荐火星系统]电商系统-7 推荐系统--揭开推荐的神秘面纱

作者:jcmp      发布时间:2021-04-22      浏览量:0
先推荐几篇关于推荐的文章,个人感

先推荐几篇关于推荐的文章,个人感觉对于入门很有实际意义,是IBM的工程师写的,如下:

探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探
探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤
探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类

推荐两本书,如下:
项亮:《推荐系统实践》
蒋凡:《推荐系统》

推荐,就是把你可能喜欢的商品,推到你的面前。构建一个推荐系统,就是构建如何把商品推到你面前的过程。

经常有人说,推荐就是算法,从某种角度来说,这未尝不对。但在接触推荐系统之前,我们还是先不研究算法,一说到算法,可能就以为很高深了,也很唬人,立马产生一种膜拜之感,也就变得神秘起来了。
对于我们没有多少推荐理论支撑的工程师,进入推荐,还是先求入门。我们不缺实践,先通过工作中的实践领会某种推荐方案,再求通过阅读书籍、学习算法加深领会和理解,进而通过不同的推荐方案,以及其效果的客观评估,提高水平和境界。

第一步,当我们真正完完整整的接触到推荐系统,达到一个入门级水平,可以独立构建一个千万级PV网站的推荐系统之后,可能基本的观点会是:
(1)推荐是一个整体的计算过程,在编码中,关于算法的部分所占的工作量可能1%都不到;
(2)每一种推荐方案的选择,都是一种整体的计算过程。
构建一个千万PV级别的推荐系统相对容易,一天的日志不过几百M,计算过程中的数据,单台机器的内存可以存下,当PV达到几亿几十亿时,就需要进行稍微复杂一点的分布式计算了;
推荐的计算方法很多,如何选择,效果难以预料,只有通过横向和纵向多做效果分析,才有意义。
随着理解的加深,境界的提升,知识的更多了解,认知也都会处于不断的调整中。。。

计算的数据来源

Web访问日志、购买、收藏,这些实际是用户的行为数据;
用户,这是分析的基础数据;
商品,这是分析的基础数据;
计划日志的存储格式
如何标记同一个未登陆用户;如何找出未登陆用户和登陆用户是用一个人。
这是很重要的,这是以后日志分析计算的基础。

示例如下:

27.189.237.91 - - [27/Jun/2014:15:00:01 +0800] "GET 某个URL HTTP/1.1" 200 75 "前一个URL" "95907011.390482691.1402709325.1403851977.1403852394.7" "95907011.8a8a8aeb385a8c6b013860df24501310" [- - -] [image/webp,*/*;q=0.8] "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36" 

以上Web日志URL,95907011.390482691.1402709325.1403851977.1403852394.7 和 95907011.8a8a8aeb385a8c6b013860df24501310 ,使用google analysis的js代码记录的,分别用来标记未登录用户的ID和登录用户的ID。

对于google analysis的js代码的用途,这里衍生一下,实际上,完全可以基于它建立第三方的流量分析系统,流程如下:

(1)需要统计流量的网站进行查码,用来记录cookie等,并触发到服务器端的请求(可以是去请求一个不存