
一位数据挖掘工程师眼中的“大数据与企业的数据化运营”
很多企业对大数据的了解还停留在Google搜索引擎或者Amazon推荐系统这样的产品层面。而在一位数据挖掘工程师看来,大数据与企业的数据化运营是密不可分的。
有一种说法,未来所有的行业都会被互联网改造,这种说法可能会有点绝对,但确实说明了一个趋势。前几天参加BDTC2013,看到了越来越多的原来在传统IT企业的同学和朋友纷纷加入移动互联网、大数据、云计算的阵营,越来越多的传统企业在众多IT巨头的忽悠之下开始投身大数据的浪潮。虽然很多老板对大数据的了解仅仅停留在Google搜索引擎或者Amazon的推荐系统这样的产品层面,但是大数据的浪潮显然已经不可阻挡。大数据在改造传统企业中能发挥多大的力量,怎么样才能发挥更大的力量,我谈谈我的观点吧。
PS:我是一个数据挖掘工程师,我不是PM,我是一个无证Data Scientist,我热爱大数据,希望大数据能够给企业带来价值,我为自己代盐。
其实移动互联网、大数据已经不单单是一个IT的概念了,它更多的是一个改变人类生活方式的产业,而且诞生了一个新的名词O2O。O2O被誉为未来一个万亿市场规模的行业。O2O企业本质是传统行业的互联网化或者说用互联网的方法改造传统行业,那么本质上解决的问题和传统行业没有区别,还是人们日常生活息息相关的衣食住行等问题。例如通过电商买衣服和生活用品,通过微信解决朋友之间通信的需求,团购买餐饮,嘀嘀打车,网上买机票和火车票,支付宝交水电煤气费,余额宝理财,甚至一度被叫停的医院挂号等。要做的事还是一样的,只是做事的方法不一样,目的是让用户的生活更加便利。那么什么样的玩法更受用户欢迎呢?过去传统企业或者靠领域知识的传承,或者是靠用户问卷调查的形式反馈的,显然周期长、反应慢、服务内容和服务方式跟不上时代的发展和用户的需求。而经过互联网化之后,所有的用户行为都被记录和存储下来,我们可以快速精准的分析和挖掘出用户的需求变化和每一个用户的个性化需求,从而给每一个用户制定不同的服务策略。
我们都知道,领域知识是一个人在某个行业安身立命的本钱。过去传统行业的领域知识是靠在行业内不断摸爬滚打积累出来的,而互联网化之后的这些行业的领域知识将是从海量的用户行为数据中分析和挖掘出来的。过去的传统企业一旦确立了领导地位,那么被同行业的其他企业颠覆的可能性是比较小的;而互联网化之后的这些行业中,从海量用户的行为中挖掘出的领域知识的时效性是非常明显的,一旦一个企业不能够与时俱进将很快被别人超过去。举个例子来说,著名的“啤酒和尿布”的故事在最开始的时候会给相应的企业创造价值,但是当同行业内其他企业也学会了这招之后,这个就不是一个利润增长点了。那么企业就需要不断的挖掘新的利润增长点,这个时候海量用户数据的价值就会体现出来。未来全面互联网化的时代中“三天不学习,赶不上刘少奇”这句话就会有深刻的体会。所以像Coursera这样的在线教育平台会非常有前途,因为仅仅靠十几年的学校学习已经不能满足一个人一生的知识和能力的需求,未来是个终身学习的时代。很多大佬们也看到在线教育这块大蛋糕了,都开始跑马圈地。
那么对于一个企业来说如何让大数据发挥出价值,推动企业业绩的增长呢?我想首先需要考虑的一个重要问题就是:你的企业是一个平台还是一个垂直行业?
平台就好像淘宝、京东、腾讯,上面的商品或者服务的种类非常非常多,而且不同商品或者服务的特点可能差别很大,同时对用户数据的积累是多方面的;垂直行业就是类似携程、聚美优品,上面的商品或者服务是某一个垂直领域的,只有当用户在这样的垂直领域有所需求或者感兴趣的时候才会光顾,那么一般情况下你只能得到用户在这个领域的一些数据;不过这里面有个灰色地带,就是互联网金融。因为从本质上讲这是个垂直行业(金融行业),但是想到金融行业在人们日常生活中的重要性,我们单单从一个垂直行业的角度来衡量这个用户的价值显然是不够的,因为金融影响到人们的方方面面。
对于大数据从业者来说这三种类型的企业在利用大数据的过程中是有很大的不同的。举个简单的例子,在对用户进行细分或者用户画像的过程中,如果一个用户有好几个月没有买东西,那么怎么界定这个用户是否流失了呢?仔细想想,如果一个用户好几个月没有在淘宝、京东上买东西,那么显然是流失了;但是如果没有在携程上买东西,未必能认为他流失了。因为用户对旅游类产品的平均购买周期可能就有好几个月,所以显然单单是这样一个因为未必可以把这个用户标定为流失。
对于不同的企业在利用大数据的方法上也是不一样的:
像阿里巴巴的目的就是做基础设施,像自来水公司、煤气公司、电力公司这样人们生活中必不可少的一部分,也就是所谓的“刚需中的刚需”,所以阿里巴巴整合了多个部门的广告团队成立了阿里妈妈。京东在这方面也不甘示弱,一直养活着独立DSP服务商MediaV,而且两家企业不断传出收购绯闻。腾讯的广点通也是这方面的典型代表。阿里巴巴、京东、腾讯的共同特点就是解决了用户的刚需,成为了用户每天生活中必不可少的一部分,然后培养起一系列的产业链。
阿里和京东解决了用户购买商品的需求,腾讯解决了用户通信和社交的需求,而且提供的服务都是免费的,这样用户把自己的一些数据不知不觉中就送给了这些平台级企业,这些企业就可以利用这些大数据分析出用户的年龄、性别、兴趣偏好、收入水平、家庭构成等跟消费密切相关的特征,从而成为一个广告上的目标客户群体,把这些用户买个广告商。这是这些平台级企业赚钱的主要方式,说白了就是拉皮条的。而且随着互联网金融的兴起,一旦这些平台厂商了解了和你相关的数据越来越多,那么就可以给你推销一些金融产品(典型的例子就是余额宝),从而控制你的个人金融体系,这些平台可以像银行一样吸纳你的存款用于投资。
这才是第一步,在金融机构最重要的风险防范体系中,由于这些平台厂商知道你交水电费很及时,刚刚买了一辆车,最近又没怎么生病挂号,而且还定期出国旅游。那么显然你是一个优质客户,不需要你提供任何证明来抵押贷款给你的风险。这个就是互联网金融/大数据金融的玩法。那么对于垂直类企业(包括互联网金融)该怎么使用大数据呢?
垂直类企业特别是传统企业的最大特点就是在自己的CRM系统里面有用户大量的高质量数据,这个是像上面的平台级企业所不具备的。典型的例子就是像电信、金融这样的企业拥有质量非常高的用户金融数据、交易数据、关系链数据等,这些数据所表达出的意思是最真实可靠的。但是这些垂直类企业所积累的数据量往往没有像前面所说的平台级企业那么多。这个时候可以考虑通过引入第三方数据的方式来补充用户的数据,美国twitter公司的IPO文件中显示其15%的收入来源是“倒卖”用户的数据,在国内阿里巴巴与新浪微博战略合作之后也打通了微博和淘宝的用户数据,虽然很多微博用户在吐槽这件事。数据交换首先要保证用户数据的安全性,让数据流动起来数据才能发挥更大的价值。
对于面向用户的企业来说,如何利用大数据现在的玩法应该是比较清楚了。简单来说就是以用户和业务为核心,对用户的相关维度进行数据挖掘,构建用户和业务的属性和特征库,服务业务需求。具体再实施过程中还需要重点考虑以下问题:
1.以用户和业务为核心,以思路为重点,以数据挖掘技术为辅助
企业使用大数据的目的是解决问题(说白了就是赚钱),赚钱的方法就是跟自己的business model密切相关的,也就是我们通常说的业务。在这个过程中大数据技术只是一个手段,是帮助我们解决业务问题的。所以说在大数据技术选型和架构的时候,一定要搞清楚自己的业务模式,不能别人用什么架构就跟着用,别人挖掘什么就跟风挖。
2.小步快跑,快速迭代,持续优化
千万别想着一次就搞出个大新闻,在互联网领域永远是beta版的,只要这次比上次好就行了。大数据的思想就是把现实世界中的现象用数学的形式表示出来,分析和挖掘这些现象之间的关系,并且能够定位到哪些群体具备哪些特征,哪些特征会影响企业的盈利。所以很多问题并没有或者需要严谨的数学证明,我们重点关注的是关联关系而不是因果关系。
在大数据时代,ABtest是非常重要的,很多现象是不需要理论证明的,ABtest会告诉我们该怎么改进产品,哪些产品的哪些特征更受用户欢迎。
3.用户的反馈很重要,要积极调动用户的参与度
传统的调动用户参与度的方式就是发优惠券或者促销券。这种方法在有些情况下是有效的,有些情况下可能需要更深入的了解用户的需求,例如用户为什么来我们这个平台?为什么流失了?举个例子来说吧,对于有些用户来说你给他发了10块钱优惠券,但是他没有买的需求或者找不到他想买的东西,那么他不会因为这10块钱的优惠券去制造一个需求。或者有些用户可能比较有钱,每次买东西都是大手笔,你给他10块钱优惠券可能他根本看不上。用户细分模型可以帮助我们针对不同的用户群体采用不同的调动用户参与的方式。
大数据是帮助我们补充行业知识的一种重要的方式。现在越来越多的行业是数据驱动的,那么这个行业的很多行业知识都是通过大数据挖掘出来的。而获取这些数据的主要方式就是用户的行为和对运营动作反馈的挖掘,这也是未来以数据为核心的企业的价值所在。
4.从运营驱动到数据驱动
关于谁来主导大数据服务用户这个需求,其实有很多的使用场景。例如一个推荐系统由产品经理来主导比较合适;对于一个数据化运营系统,那么从事运营或者市场相关的人员来主导会是比较合适的。对于很多大公司来说,慢慢会发展出专门从事数据驱动业务的部门和人员,例如我们经常提到的Data Scientist的概念。
5.业务人员和数据挖掘人员的密切配合
这个也是我们大部分公司经常遇到的一个问题:做业务的不太懂技术或者数据,做数据挖掘的对业务又不是特别了解,目前社会上最缺的就是既懂业务又懂技术的。如何把数据挖掘的结果应用到业务中是个比较难的问题,我们常说没有数据是无价值的,只是要找到它发挥价值的地方。因为数据挖掘的结果往往表现出的是用户在某一方面的属性或者特征,那么在实际业务中用户的行为往往受到多个因素的影响,所以在把数据挖掘的结果推广到具体的业务过程中要和业务方密切合作,找到合适的促销方式、展位、文案、刺激手段、效果评估方法等。
大数据的范畴内我们应该把用户还原成一个人,而不要割裂的看他的某些行为,而要把这些行为和他的社会学属性、生活背景、活动时间、地点、气候因素和应用上下文联系起来。目前的大数据Ecosystem没有一个很好的BI工具,给对应的分析师或者挖掘工程师带来了很大的难度。
6.与客户的沟通方式(运营手段)很重要
现在社会大家都很忙碌,像过去那种通过call center给用户打电话推销的方式的效果越来越差,因为用户很忙碌的时候是不希望被打扰的。那么异步通信的需求就比较强烈,典型的应用就是微信,可以很好的利用碎片时间,那么对于企业营销来说也是非常好的通道。同样对于企业给用户的各种促销或者运营手段的时机也会比较重要,而且不同兴趣偏好的用户的浏览和购买时间最好也要区别对待。
同时运营活动设计的巧妙程度、文案和展位比大数据技术可能会发挥更重要的作用。听过一个真实的例子,某公司的推荐系统在模型完全没有改变的情况下只是改了下展位的位置,导致最后的下单率有明显的提升。
7.大数据带来的价值如何衡量
企业养了一个大数据团队,那么对这样的团队怎么衡量他们带来的价值呢?例如天猫双十一的交易额有350亿,那么这350亿中有多少是通过大数据来提升的?
我觉得大数据的短期回报是精准营销,而从长期的角度来看对于一个企业或者平台来说更重要的是客户关系维护,增加用户的粘性和购买力,从而使得用户很难迁移到其他平台上,那么对于你这个企业来说就有点类似于垄断了,就属于躺着都赚钱了(就像现在的可口可乐、宝洁类似的公司)。所以说大数据的价值可以在产品的各个层次得到体现,而具体价值的衡量也要因不同的业务模式而有所不同。同时大数据也帮助企业更好的理解这个行业,建立起行业的壁垒,从而更好的支撑管理者的决策。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29