京公网安备 11010802034615号
经营许可证编号:京B2-20210330
从规划开始,公司or企业如何入手和实施大数据
很多公司的大数据规划付之阙如,本文将告诉你如何入手和实施。
问题所在
“大数据”及高级分析带来的技术挑战与组织挑战,很容易导致企业采用成本高昂却低效的解决方法,或就此陷入。
为什么重要
数据挖掘正成为日益重要的技术优势。如果一开始的数据规划就没步上正轨,日后在竞争中很可能落于下风。
如何实施
精心制定大数据规划。好规划可推动公司战略层面的决策,如筛选关键投资和项目取舍。这样的计划应聚焦三大核心因素:
大数据和高级分析带给企业的好处毋庸置疑。通过对成功案例的持续研究,我们发现一旦大数据和分析技术被深入应用,可为企业带来比竞争对手高出5到6个百分点的生产力和利润1。全新的数据驱动型业务、对运营方式的透彻了解、更精确的预测以及更快速的测试等等,的确对企业很有吸引力。
但是要实现这些目标并不容易。需要大量投入资金,以及管理层的重大承诺。首席信息官强调要彻底改造数据架构和应用。外部供应商大力推销黑盒子模型的无穷威力,宣称该模型能通过破解非结构化数据找到因果关系。业务经理则苦思冥想,坚持要一开始就知道,投入以及给组织架构形成的潜在冲击究竟能够产生多大的收益。
答案很简单,就是要扎扎实实地制定规划。根据我们的经验,大多数公司并没有花应有的时间来创建一个数据、分析、一线工具和员工如何共同创造商业价值的简单计划。该计划的作用在于提供一种通用语言,让高管、技术专家、数据科学家和部门主管能够一起讨论最大的收益来自哪里,并且选择两到三个领域着手行动起来。这和管理层制定公司战略的历程有着异曲同工之妙。40年前,会制定周全翔实战略计划的公司只是少数。其中一部分领先者取得了卓越的成果。不久之后,大多数企业也掌握了当时新出现的计划制定工具和框架。再说现在,几乎没有公司在一开始就制定数据和分析计划。但我们相信,越来越多的高管很快就会意识到,制定大数据规划是实现大数据潜力必不可少的第一步。
高质量战略规划的核心在于,凸显企业必须做出的关键决策或取舍,并明确企业必须优先考虑的举措。例如,哪些业务应投入最多资金,应该强调更高的收益还是更快的增长,以及需要哪些能力以确保强劲的业绩。在大数据和分析计划推行的初期,企业应该解决类似这样的问题:选择需要整合的内外部数据,从一大堆潜在的分析模型和工具中找出最能够支持商业目标的那部分,并培育相应的组织能力。
成功地做出以上取舍,需要公司高层进行跨部门的战略对话,以确立投资重点,平衡速度、成本和接受度,并为一线互动创造条件。如果制定的计划能够解决这些关键问题,那么实现具体商业成果的可能性会更大,也可为高管层带来足够的信心。
成功的规划应聚焦于三大核心要素。
数据
制定收集和整合数据的策略非常关键。企业忙于收集信息,但是BU横向或职能部门纵向经常出现各自为政的问题。关键的数据可能存在于过去的IT系统中,且涵盖客户服务、定价和供应链等各个领域。关键信息经常以非结构化格式散落于公司外部,例如社交网络的对话,更加剧了问题的复杂性。
要让这些信息成为长期资产,通常需要大力投入建设新数据能力。规划可以强调,未来需要对数据架构进行大规模重组:包括对混乱的数据库进行筛选(将交易从分析报告中剥离出来),创建清晰的“黄金来源”2数据,并实施能够有系统地保持准确性的数据治理标准。
一种信息在企业中仅存储一次,以保证其准确性的做法。
就短期而言,有的企业可以采用更简易的方法:将问题外包给数据专家,由他们使用云系统软件整合足够的数据,以抓住最初的分析机会。
分析模型
整合数据本身并不会创造价值。需要高级的分析模型来实现数据驱动的优化(例如员工排班表或运输网络)或预测(例如航班延误情况,或根据购买历史、在线行为来预测客户的需要及行动)。计划必须能够识别以下情况:模型可以在哪些领域创造额外的商业价值,谁需要使用模型,以及模型在组织内推广时如何避免不一致和不必要的数据重复。
和新的数据来源一样,企业最终会希望将这些模型连在一起,解决跨职能或跨BU的、更大范围内的优化问题。事实上,一个计划可能需要数据分析“工厂”,从一系列不断增加的变量中组合一系列模型,然后实施系统以进行追踪。虽然模型可能极其强大,但也必须抵御完美分析的诱惑:太多变量将增加复杂性,让模型的应用和维护变得更加困难。
工具
模型输出的内容可能非常丰富,但是只有当经理(很多情况下是一线员工)能够理解并使用它时,这些内容才有价值。太复杂的输出可能难以把握,甚至不被信任。企业需要的是易于使用的工具,能够将数据整合到日常的流程,并将模型输出转换为具体的流程,例如员工排班的清晰界面,呼叫中心的交叉营销建议,或营销经理作出实时打折决定的方法。很多企业没有考虑或规划这一步骤,最后发现经理和基层员工不会使用新模型,其有效性自然会大打折扣。
要促进数据、模型和工具的发展,组织能力也是一大关键推手。很多战略规划之所以失败,原因就在于组织缺乏实施的能力。因此,如果组织缺乏合适的人才或能力,大数据计划的结果很可能会令人失望。企业需要一张路线图,按照合理的规模和构成来建设人才库。最好的计划还将进一步讲述如何培养数据科学家、分析建模师和一线员工,让他们在新的富含数据和工具的环境下发挥自身才华并努力实现更好的业绩。
具备这些要素后,企业就可以制定综合的大数据计划(见下图)。当然,不同行业在分析方法、决策支持工具和业务价值的来源等细节上皆有所不同。但值得注意的是,所有行业都具有结构相似性:绝大多数企业都需要为主要的数据整合活动制定计划。这是因为,很多最具价值的模型和工具(如下图右边显示)在建立时会越来越多地使用海量的数据来源(如下图左边显示)。一般来说,这些来源将包括来自客户(或病人)、交易或运营的内部数据,以及来自价值链或在线合作伙伴的外部信息。此外,未来还可能来自内嵌于物体的传感器。
为了建立一个优化治疗和住院系统的模型,一家医疗保健行业的企业可能需要整合一系列患者和人口信息、药品效果数据、医疗设备投入以及医院的成本数据。而一家运输企业可能需要整合实时定价信息、GPS和气象资料以及员工的劳动生产率,以预测哪些航线、船只和货物组合能够产生最高的经济效益。
根据我们的经验,大数据规划要引起总部高层领导的注意,包括确定投资重点、平衡速度和成本、确保一线员工认可。这些内容听上去很耳熟,因为它们也是很多战略计划的组成部分。但是大数据和高级分析规划还有一些重要的不同之处。
1. 投资重点和业务战略的匹配
制定大数据规划的一个普遍难题是如何将不同领域的交易、运营和客户互动等数据整合起来。整合工作能够带来强有力的商业判断,但是要建立新的数据架构、开发尽可能多的模型和工具,其投入巨大,因此应有所选择。对于低成本、高销量的零售商,可以通过门店销售数据来预测库存和劳动力成本,以维持低价。而与之相比,高端、高水平服务的零售商则需要进行更高的投资并对客户数据进行汇总,以推广客户忠诚度项目,吸引客户选择利润更高的产品,并提供定制服务。
就微观层面而言,这是选择投资重点所面临的挑战:两种方法听上去都不错,事实上也完全符合企业各自的业务需求。可想而知,这些方法也吸引了其他零售商的注意。那么在资源缺乏的情况时,如何在这些可能性(或其他可能性)中做出选择?
在确定投资重点时,没有什么能够代替高管团队的积极参与。在一家消费品公司,首席信息官通过大数据、建模和培训等建立了价值创建潜在来源的热图,范围涵盖了公司所有业务系统的投资选择。这份热图让公司高管获得了扎实的数据基础,启发他们开展讨论并进行明智的取舍。尽管讨论成果并不是一份完整的计划,但一定是计划成功的开始。
再来看一家大型银行的例子。为了解决一个市场问题,该银行建立了一支由首席信息官、首席市场官和BU负责人组成的团队。银行家们对直接营销活动的结果表示不满,因为成本居高不下,新产品的接受度却令人失望。他们发现问题的核心在于各自为政的市场营销方法。单个BU对客户的财务背景和偏好不加考虑,向银行所有客户群推销多种产品。那些可能最需要投资服务的客户获得的却是存款产品的信息,反之亦然。
为了解决这个问题,高管团队决定收集企业数据库中的所有信息,包括收入水平、产品历史、风险档案等方面的数据。中央数据库让银行能够有针对性地向客户提供他们可能更需要的产品或服务,从而提高了业务点击率和营销活动的效益。很多企业都会需要强大的计划流程来凸显类似的投资机会,并推动高管层拿出应有的参与度。
2. 平衡速度、成本和接受度
对于那些“拥有”企业数据和分析策略的高管而言,自然而然的反应是迅速开启行动模式。一旦确定了某些投资重点,就不难找到开发相关应用和算法模型经验的软件及分析供应商。和内部开发的定制模型相比,这些套装系统(包括定价、库存管理、劳动力排班等)价格便宜,且易于安装。但是它们毕竟不能和根据实际业务案例创建的应用相比,很难充分调动起经理们的积极性。系统有没有结合具体行业和企业的业务特点,这在很大程度上决定了数据项目是否会成功。因此,为了尽量平衡可承受的成本和在现实业务中实施的速度(包括容易忽视的风险和组织敏感度),需要给计划第二个维度。
忽略这一步骤的代价是什么,请看一家试图提高小企业核保业务的银行的经历。分析团队希望赶紧采取行动,因此匆匆忙忙建立了一个模型,但缺少计划流程,也没有让充分了解业务的关键利益相关方参与进来。这个模型在理论上的测试很成功,但是实际上完全不可行,银行为此损失惨重。管理层希望从头再来,要求BU领导重新尝试。修改后的模型建立在较为完整的数据的基础上,其架构反映出不同客户细分的差异,因此预测能力更好,最终减少了损失。这个例子告诉我们,大数据规划面临的管理挑战至少和技术挑战一样大,没有捷径可走,必须付出努力,让业务人员和数据专家通力合作,找出问题所在。
一家货运公司的关键问题是如何在新数据/分析工具的潜在收益和业务风险之间找到平衡。当数据专家提议使用和客户行为、定价和排班等相关的新模型时,由于已经习惯于现有的运营导向模型,高级经理们表示反对,且特别提出,昂贵的新数据方法是否会扰乱顺畅的排班操作。数据经理于是在一个区域试点了开发原型(使用少量数据组和初步的电子表格分析),这才消除了大家的担忧。有时候,确实有必要采取 “奔跑之前先学走路”的战术以达到平衡,这也可以是计划的一个组成部分。一家健康险公司面临的关键挑战则是缓解内部利益相关方的担忧。公司设计的黑盒子模型在检测历史数据时,能够非常准确地识别高于平均住院风险的慢性病患者。但临床总监认为,不能单靠一个不透明的分析模型来确定哪些患者应该接受昂贵的预防性治疗方案。最终,该保险公司选择了一个更为简单和透明的数据和分析方法,在当前实践的基础上进行了改进,但是牺牲了一些准确性,结果可能使更多患者有资格接受治疗。在数据规划的早期提出不同意见并进行权衡,可以节约时间,避免惨重损失。
最终,有些规划工作需要在降低成本的愿望(通过标准化)和反映业务现状的需求(通过组合数据和建模)之间找到平衡点。就零售行业而言,企业拥有独特的客户基础,有不同的定价方式来优化销量和利润,也有着日常的销售模式和库存需求。比如,一家零售商很快以低成本建立了一套标准化的推荐商品模型3, 然后为网络渠道制定了具体的推荐方案。但是,为了开发更加成熟的模型来预测区域性和季节性的购买模式并优化供应链运营,这家零售商必须从社交媒体上收集非结构化的消费者数据,选择内部的运营数据,同时按产品和门店的概念定制预测算法。一个平衡的大数据规划需要这样的组合方法。
基于分析客户购买历史的算法,一种预测客户可能购买的下一个产品或服务的模型。
3. 确保重视一线部门的参与度和能力培养
一家航空公司在大力投入开发新的定价工具之后,发现收益管理分析师的生产效率仍然低于预期。问题出在哪里呢?工具太过复杂,没有人用得来。另一家健康险公司则出现了不同的问题,医生们抵制一种使治疗方案更经济的网络应用。他们表示,如果非要使用这种新系统,就必须为某些疾病提供能够维持患者信任的治疗方案,这一点他们认为非常重要。
出现这些问题的企业忽视了大数据规划的第三个要素:调动组织的积极性。正如我们在描述大数据规划的基本要素时所说的,计划的第一步是建立一线主管能够理解的分析模型。这种模型必须和易于使用的决策支持工具(可以称之为制胜工具)相连接,并通过流程让经理们对模型输出运用自身经验进行判断。虽然少数分析方法(例如基本的销售预测)是自动化的,只需要有限的一线员工参与,但大多数分析方法如果没有管理层的支持就不会成功。
上述航空公司重新设计的定价工具的软件界面,仅仅包括主要航线上竞争对手和产能利用率方面10—15种规则驱动的原型。一家零售商的情况与此类似,如果他们的商品价格比竞争对手网站上的价格高,就会出现提醒买家注意的信号,并允许买家自行定价。另一家零售商的经理现在能根据以往的销售数据、天气预报和计划好的特卖活动,用平板电脑预测一天内每小时所需要的店员人数。
创建这种员工易于使用的工具仅仅是第一步。关注有效实施所需的组织能力也非常重要。多数公司认为,95%的大数据投入应该用于数据本身和建模。但是很多经理并没有很强的分析背景,如果不能培养一线经理的能力并进行相关培训,这些投入很可能收不到效果。因此大数据计划的一条基本规律是,数据/建模和培训的投入是一半对一半。
部分投入应该用于培养“双模”经理,他们既懂业务,又深谙如何运用数据和工具做出更好、更有分析依据的决策。有这样的能力傍身,经理自然盼望有用武之地。企业还应该建立奖励机制,吸引分析能力强的业务领导担任数据工作负责人,并鼓励部门之间传播点子。一家快递公司发现分析型人才散落在各个部门里,于是将他们集中在一起,为全公司提供服务。
计划制定以后,执行就比较容易了:可以按部就班地整合数据、启动试点项目、创建新工具并展开培训。在推动业务价值的清晰愿景下,不太可能遇到资金问题或内部抵制。当然,随着时间的推移,最初的计划到了将来也会有所调整。事实上,大数据和分析的一个主要益处就在于,您现在能学到以前闻所未闻的业务知识。
这可能和战略规划又有着相似之处。在很多组织中,正规的年度“教科书式” 战略规划流程已转变为持续性、参与更广泛的动态流程。数据和分析计划太重要了,不可能束之高阁。但这是明天才要面对的问题。现在的状况是,大数据规划尚付之阙如。高管层的行动越快,企业就越有可能从数据中获取真正的竞争优势。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27