前面的两篇文章分别使用Spark mllib ALS实现了Model-based协同过滤推荐系统和使用Mahout实现了User-based的协同过滤推荐系统。
我们再来回顾一下item-base CF算法的特点:
- 物品数明显小于用户数的场合,否则物品相似度矩阵计算代价很大
- 适合长尾物品丰富,用户个性化需求强的领域
- 对新用户友好,对新物品不友好,因为物品相似度矩阵不需要很强的实时性
- 利用用户历史行为做推荐解释,比较令用户信服
所以item-base挺适合做电影的推荐。当用户浏览某个电影的时候,我们可以推荐给他类似的电影,或者根据用户以前的观影记录,推荐他感兴趣的电影。
本文还是以mahout 非分布式计算的方式实现。因为电影的记录比较少(166条),计算量不是很大。
代码也非常的简单,我们还是以皮尔逊算法计算相似度:
|
|
第8行和第9行使用多线程批处理的方式,把计算结果写入到一个文件中。
生成的文件如下:
|
|
推荐还不错,基本都属于剧情,喜剧类型,而且都是国外的,没有推荐战争,科幻或者武侠类的。
代码下载: github