发布网友
共1个回答
热心网友
协同过滤三大分类
3.1 基于用户协同过滤(User-based)
用相似统计的方法得到具有相似爱好或者兴趣的相邻使用者,最早是在1994年由来自美国Minnesota大学Paul Resnick等人发表的《GroupLens: An Open Architecture for Collaborative Filtering of Netnews》一文中提出的。
方法基本步骤
1. 收集使用者资讯
收集可以代表使用者兴趣的资讯。概括主要分为两类:
主动评分(显式评分):基于用户的直接打分数据,如评分,喜爱等级,like/dislike
被动评分(隐式评分):是根据使用者的行为模式由系统代替使用者完成评价,不需要使用者直接打分或输入评价资料,如电子商务中的购买记录,视频网站用户观看记录、收藏记录,甚至是评论文本观点意见挖掘等进行广泛深度的数据挖掘。
2. 最近邻搜索(Nearest neighbor search, NNS)
以使用者为基础(User-based)的协同过滤的出发点是与使用者兴趣爱好相同的另一组使用者,就是计算两个使用者的相似度。
例如:寻找n个和A有相似兴趣使用者,把他们对M的评分作为A对M的评分预测。一般会根据资料的不同选择不同的算法。
目前较多使用的相似度算法有:
皮尔森相关系数:Person Correlation Coefficient
余弦相似度:Cosine-based Similarity
矫正余弦相似度:Adjusted Cosine Similarity
3. 产生推荐结果
有了最近邻集合,就可以对目标使用者的兴趣进行预测,产生推荐结果。
依据推荐目的不同形式的推荐,较常见的推荐结果有Top-N 推荐和关联推荐。
Top-N 推荐:是针对个体使用者产生,对每个人产生不一样的结果,例如:透过对A使用者的最近邻使用者进行统计,选择出现频率高且在A使用者的评分项目中不存在的,作为推荐结果。
关联推荐:对最近邻使用者的记录进行关联规则(association rules)挖掘。