你以为自己真的了解用户画像？其实猫腻可多了-CDA数据分析师官网

热线电话：13121318867

你以为自己真的了解用户画像？其实猫腻可多了

2017-07-10

背景

刘路老师之前主要是做政府数据分析，目前主要服务企业。他认为政府和企业的数据分析没有本质区别，都是有目的的进行收集、整理、加工和分析数据，提炼有价值信息的过程，都是为决策提供依据。政府数据分析的工作目标为其职能服务，提高工作效率，保障工作成果，不以盈利为目的。而企业的数据分析无论是哪个部门，最终都会落在企业的营收上。企业数据在保证数据源基础上，最主要是要“走出去”，去一线与客户直接交流，了解并思考业务和需求，而不是一直待在“后方”。

纪实

一、用户画像是什么？

“用户画像”并不是最近才出现的，只是近几年谈得比较多。对用户进行画像分析就是将用户信息标签化的过程，打标签是为了帮助理解且方便计算机处理。除了分析数据源，“用户画像”最关键的是根据用户行为及数据，构建模型产出标签、权重。简单的说，就是要设计标签体系，并规定符合该行为的人对应的标签。如“性别”标签，为什么会出现基本属性“男”，而购物偏好性别计算显示“女”？原因在于直接通过用户填写的信息获取的是基本属性，而“网络行为性别”是建模计算出来的，经常在网络上购买女性喜爱的礼物会被系统判定成“女”，我们猜测这个人可能是暖男。

二、用户画像准确吗？

现在做用户画像的公司有很多，虽然每家都有建模，但是数据源不一样，模型也不一样。就我了解的对于用户消费偏好“电商”这个标签，有的公司是根据用户的购物记录来分析的；有的公司拿不到购物记录但是有浏览记录，他们的算法是最近多少天浏览过多少次电商网站；还有的是根据用户手机上相关APP的使用行为来判断的。

而判断用户画像的准确性，目前主要有两种：

（1）一种是从个性化与垂直领域切入细分化市场，接触到的用户数量和层级有限，得到的是某领域的一方数据，用户画像得到的是用户某一形态下的单一画像，其精准度和完善度也很难保证。

（2）另一种是积累了各渠道多样化的数据来进行用户画像，动辄覆盖数亿用户，标签维度几千几万，这样的画像也不见得好，全而不精。

而我现在做的以及建议的方式介乎两者之间，标签有基本属性等通用维度，如果有具体行业的需求，比如汽车行业的用户，我们会在库里面把他的用户找一批出来进行画像，再以此找到目标群体。至于准确性，我们会有正负样本来交叉验证，依据人物画像进行营销活动后，会拿多次反馈数据来验证量化画像的结果。

三、数据源如何保证真实可靠？

数据源要真实全面，但不是数据越多越好，不能期望对收集到的所有数据进行分析，或者希望所有标签都能由数据算出来。用户画像的数据源根据每家公司的业务和资源情况，获取的数量、质量与范围都不一样。就像我上面提到的，同一个消费偏好“电商”的标签，每家的数据和算法就不一样。

要保证数据源的真实性，首先对所收集整理数据的真实性和可信度进行严格的监测和细致的过滤。比如有的直播网站的某场直播的观众人数竟然比全中国人口数还多，那显然就是不靠谱的。然后是严格鉴别数据的出处和来源，正确识别并剔除掉虚假甚至恶意数据信息，真正收集整理出真实有用的数据信息。比如电影评分，不少影片是有水军来刷分的，这部分ID的数据就应该识别并剔除掉。

另外有人会问到水军及僵尸粉，我们公司产品“粉丝镜”里有水军识别模型，通过用户行为和账号信息等综合来判断。之前我给某部电影做过传播分析，他们花钱在微博上推广，数据看上去很美，转发和评论超多，而且还有大V加入造势，后来我分析传播链条，发现绝大部分都是一级转发，没有带动任何后续传播，且大部分账号都是没头像的名字规律的小号。数据可视化后，水军传播图就是一个个整整齐齐的等腰三角形，而自然的热帖传播图应该是不规律的长尾彗星状，有经验的人一眼就能看出差异。

（购买水军及僵尸粉产品示意图）

（正常情况推广示意图）

在识别水军和僵尸粉的算法上，一方面是比对账号的注册信息、发帖内容，另外一方面是用户行为，如作息时间、操作行为等。如果有几百个账号每天都是同一时间上线下线，发的内容雷同，然后互相之间互动简单，差不多就可以判断是同一批机器托管的账号。除了判断是否水军及僵尸粉，我们还可以根据社交关系和行为模型，把相似账号顺藤摸瓜给找出来。我做过一个思潮分析的项目，刚开始本来只是简单分析现阶段有哪些意识流派，每派的观点及意见领袖。后来发现自媒体平台上经常有不同流派的骂战，而且反应迅速、精力充沛、有组织有纪律，进一步分析后发现大部分账号都是伪装得比较巧妙的机器人账号，看来他们不光是思维的碰撞，还有技术的较量。至于境内外不同团体不同国家不同使命的机器人账号也是有的，在他们面前，这些买买僵尸粉，刷刷评分的水军就是小儿科了。

四、用户画像的数据分析如何评估？如何影响决策？

因为每家的数据分析方法都不一样，用户画像本身是工作中的一个辅助工具，所以做单纯的评估其实没有太大意义。

至于哪几个要素决定最后的营销决策，这个要看具体场景。我们服务过很多精准营销的客户，有的偏重“地域”，有的偏重“年龄”，还有的偏重“消费能力”。比如刚才我提到的两个性别标签，用户可能会随意填写性别，但是购物偏好性别对商家来说更重要。而对于征信来说，验证基本性别属性是否一致就更重要。

如何最大化发挥用户画像分析结果对决策产生的影响？这是个最重要的问题。这几年目前号称能做用户画像的公司很多，鱼龙混杂，数据质量和技术能力参差不齐。我听过不少客户说，花了一大笔钱建设用户画像系统结果用不起来，或者花钱买了份用户画像的报告，看上去像那么回事与自己想的也差不多，看完也就看完了，对工作好像也没啥帮助。这样的情况越来越多，让不少客户开始觉得用户画像没啥用，甚至怀疑大数据是不是看上去很美就是讲故事的？

我能理解客户的心情，如果我们去和客户谈数据多全，技术多厉害，分析模型多准确，他们不是很感兴趣，更关心这个用户画像对自己的业务帮助有多大。以前没用户画像的时候，他们是自己和下游对接业务。有了用户画像后，相当于中间多了个环节，怎样和下游把用户画像用起来能更好地服务于决策，不是所有客户都懂，所以光理解客户的业务还不够，还要帮他用起来，才能更大地发挥用户画像的价值。

五、用户画像的发展将面临什么问题？

用户画像是数据分析的一个应用，这几年其实用户画像已经被炒得很火了，我并不认为它还会持续成为方向和趋势，对于企业来说用户分析一直有，不过现在是用大数据的技术手段来分析，起了个“用户画像”的名字。但数据分析会越来越重要，将来的趋势可能在机器学习模型领域。

用户画像的数据准不准，算法是不是正确，我觉得这些都不是问题，主要困难还是如何结合业务的应用。如培训机构的用户画像，用户画像显示目标用户是6到18岁，对球类运动感兴趣，家住中高档小区的人群。客户完全认同这个结果，但是如何找到这些人？这就要求除了提供分析以外，还要能精准触达他的目标用户，让他看到用户画像相对于之前盲目投放广告的成本比例。所以除了做用户画像，还要有配套的应用及平台将其价值发挥出来，我们现在整合了各类媒体资源、电话短信等触达方式，还开发了精准投放模型等来最大化发挥用户画像的价值。技术最终还是要服务于业务的，业务如果能广泛开展，也能促进技术的进步。

人物介绍