NLP之统计机器学习中的协同推荐-CDA数据分析师官网

热线电话：13121318867

NLP之统计机器学习中的协同推荐

2016-01-16

NLP之统计机器学习中的协同推荐

这次通过一个实例来讲解一下协同推荐的问题。在实际生活中，我们会经常收到当当，卓马逊等购物网站发来的商品推荐邮件。很奇怪卓马逊是依据什么(数据分析师)来给我发一些相关商品的推荐，但是今天我们就假定他是根据协同推荐的机制来实现这一功能的吧。

　　很多时候购物网站都是根据其他用户的评价给一个用户推荐商品或者图书等。很多购物网站都会有这种长尾效益，用户购买或者评价的商品都是少数，而大多数商品只是得到很少几个用户的评价。所以存在数据稀疏的问题。这里就叫“cold start”问题。SlopeOne算法可以用来解决这个问题，这个算法很简单，易于实现且效率较高。

　　SlopeOne的基本概念很简单，例如用户X,Y和A都对项目1打了分。同时用户X,Y还对项目2打了分，用户A对项目2可能会打多少分呢?如下表1-1

　　用户对项目1的评分对项目2的评分

　　X53

　　Y43

　　A4?

　　根据SlopeOne算法，应该是：4-((5-3)+(4-3))/2=2.5.我想这个应该是很好理解的，实际上就是找到对项目1和项目2都打过分的用户，算出评分差的平均值，我们就可以推测出对项目1打过分的用户A对项目2的可能评分，并向用户A推荐新项目。这里可以看出SolpeOne有一个很大的优点，在有很少数据的时候也能得到一个相对准确的推荐，这一点可以解决“cold start”问题。当然，我们这里的情况是最简单的，根据项目1的评价估计项目2的评价，如果要根据好几个项目的评价来估计某一个项目的评价就要用到加权算法(weighted SolpeOne)。如果有100个用户对项目1和项目2做了评价，1000个用户对项目3和项目2也打了分。显然这两个的权重是不同的。我们的计算方法：(100*(rating 1 to 2)+1000*(rating 3 to 2))/(100+1000)

　　使用基于SolpeOne算法的推荐需要以下数据：

　　1)有一组用户

　　2)有一组项目(items)，例如图书，商品等

　　3)用户对其中某些项目打分(rating)表达他们的喜好

　　SolpeOne算法要解决的问题是：对某个用户，已经知道他对其中一些项目的评价，向他推荐一些他还没有评分的项目，以增加销售机会。数据分析师认证

　　一个推荐系统的实现包括以下三步：

　　1)计算出任意两个项目之间评分的差值

　　2)输入某个用户的评分记录，推算出对其他项目的可能评分值

　　3)根据评分的值排序，给出评分最高的项目列表

　　第一步：例如我们有三个用户和四个项目，用户打分的情况如表1-2

　　项目用户1用户2用户3

　　Item1544

　　Item2454

　　Item343N/A

　　Item4N/A55

　　在第一步中我们的工作就是计算出项目之间两两打分之差，计算出如下矩阵1-3

　　Item1Item2Item3Item4

　　Item1N/A0/32/2-2/2

　　Item20/3N/A2/2-1/2

　　Item3-2/2-2/2N/A-2/1

　　Item42/21/22/1N/A

　　首先要定义一个数据结构来存储该矩阵中的每个打分情况：

　　public class Rating

　　{

　　public float Vlaue {get; set;}

　　public int Freq {get; set;}

　　public float AverageValue {

　　get {return Value/Freq;}

　　}

　　用一个Dictionary来保存这个结果矩阵，Dictionary的key是Item1Id加上Item2Id,值是Rating：

　　/************************************************************************/

　　/* 评分差均值矩阵 */

　　/************************************************************************/

　　class RatingDifferenceCollection : Dictionary

　　{

　　//获得评分差值矩阵中的key值

　　private string GetKey(int Item1Id,int Item2Id)

　　{

　　//return Item1Id + "/" + Item2Id;

　　//根据差异矩阵的对称性来简化存储

　　return (Item1Id < Item2Id) ? Item1Id + "/" + Item2Id : Item2Id + "/" + Item1Id;

　　}

　　//判断矩阵中是否存在一对项目的评分差记录

　　public bool Contains(int Item1Id,int Item2Id)

　　{

　　return this.Keys.Contains(GetKey(Item1Id, Item2Id));

　　}

　　//获得评分差值矩阵中的Value值

　　public Rating this[int Item1Id,int Item2Id]{

　　get {

　　return this[this.GetKey(Item1Id,Item2Id)];

　　}

　　set {

　　this[this.GetKey(Item1Id, Item2Id)] = value;

　　}

　　接下来实现slopeOne类。首先创建一个RatingDifferenceCollection来保存矩阵，还要创建HashSet来保持系统中总共有那些项目：

　　//保存评分差异矩阵的字典

　　public RatingDifferenceCollection _DiffMarix = new RatingDifferenceCollection();

　　//系统中总共有多少项目

　　public HashSet _Items = new HashSet();

　　public void AddUserRatings(IDictionary userRatings)来实现差异矩阵的构建。

　　第二步：输入某个用户的评分记录，推算出其对其他项目的可能评分值，实现如下

　　//输入某个用户的评分记录，推算出对其他项目的可能评分值

　　public IDictionary Predict (IDictionary userRatings)

　　{

　　Dictionary Predictions = new Dictionary();

　　//遍历所有的项目

　　foreach (var itemId in this._Items)

　　{

　　//如果是该用户已经评论过的项目，忽略它

　　if (userRatings.Keys.Contains(itemId)) continue;

　　Rating itemRating = new Rating();

　　foreach (var userRating in userRatings)

　　{

　　if (userRating.Key == itemId) continue;

　　int inputItemId = userRating.Key;

　　if(_DiffMarix.Contains(itemId,inputItemId))

　　{

　　//在差异矩阵中找到相应的项

　　Rating diff=_DiffMarix[itemId,inputItemId];

　　itemRating.Value += diff.Freq * (userRating.Value+diff.AverageValue*((itemId

　　itemRating.Freq += diff.Freq;

　　}

　　Predictions.Add(itemId,itemRating.AverageValue);

　　}

　　return Predictions;

　　}

　　第三步就是测试了，根据对用户的评分推测来进行相应商品的推荐

　　userRating = new Dictionary();

　　userRating.Add(1,5);

　　userRating.Add(3,4);

　　IDictionary Predictions = test.Predict(userRating);

　　foreach(var rating in Predictions)

　　{

　　Console.WriteLine("Item"+rating.Key+"Rating:"+rating.Value);

　　}

　　输出：

　　Item2 Rating:5

　　Item4 Rating:6

　　因为矩阵的对称性，在代码中对差异矩阵的存储和相应评分项的存储都有所调整，这里不详细介绍了，完整的实现了一下这个算法，给出了一个Demo在附件中。数据分析师培训

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据分析商品推荐 NLP 推荐系统机器学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

NLP之统计机器学习中的协同推荐

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载