京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据挖掘大企业成功案例少 中小企业需求小
台资餐饮企业"一茶一座"在内地发展迅猛,几年下来已经开了34家连锁店,历史数据累积到三千多万条;本土生产型企业"乐百氏"的门店几乎已铺遍全国,总部十分重视原始数据的采集,为加强对各区域门店和经销商的管理,需要上一套分销系统。
两家企业都是中等规模,信息基础设施较为完备,信息化项目的负责人也既懂业务又懂技术;巧的是,他们今年都选择了部署商务智能系统。接受采访时两位CIO均表示,迄今为止企业的数据主要集中在销售方面,财务、库存数据还没有整合到系统中,以企业目前的运营规模和数据流量来看,没有实施数据挖掘的必要。
1998年,数据挖掘带着"啤酒加尿布"的光环来到中国,引起理论界一阵热炒;紧接着,一些大牌IT企业也加入炒作的行列,大有企业救世主的风范。然而经过几年的实践,数据挖掘的应用和实施仍处困境,即便在电信、税务、金融等领域,成功案例也屈指可数。数据挖掘何以炒着热吃着冷?数据挖掘是大忽悠还是懵懂少年?
"一茶一座"和乐百氏公司的看法,颇有代表性。至今,企业普遍使用的数据挖掘手段仍然只是报表分析或OLAP信息钻取,情况好点的也不过是一些第三方建立的在实际运用中效果相当有限的客户流失预测模型。
中科院研究生院软件学院潘辛平教授一直关注着数据挖掘技术的进展,他常问项目参与者:哪些信息是真正通过挖掘才展现出来的,而哪些信息是本来就已知的,往往得不到令人满意的答复。期间还有人告诉他,某证券公司数据挖掘项目的结论之一竟然是:凡在深交所开户的投资者必然也在上交所开户,消息传开,圈里的朋友都拿它当饭桌上的笑话讲。
笑话归笑话,对于企业客户而言,数据挖掘的应用存在大量天然障碍是不争的事实!日处理数据达到Tb(1024G)级才有意义;平台软件或解决方案动不动得花费上千万元,哪怕租用两年也得几百万;企业必须专门配备一支IT队伍,在项目建成后负责数据分析与挖掘工作。如果企业的经营规模不够大,年营业额不够高,没有一定的信息技术基础,是不敢染指数据挖掘的。
因此,更多的企业最终选择的是把数据仓库、在线分析处理(OLAP)、数据挖掘等技术打包在内的整套商务智能系统,而这种商务智能系统的数据挖掘能力偏弱。
数据是数据挖掘应用的依据,中科院金融科技研究中心首席科学家刘世平认为,即便在大型企业,由于数据搜集起步普遍比较晚,数据可得性和完备性都不高。很多行业的生产、财务、销售等敏感数据,由于用户的选择性输入或漏输、错输,难以为数据挖掘工具所用。
企业需要具备什么基础才能应用数据挖掘技术呢?SPSS数据挖掘项目经理戴庆祝表示,理想的起点是建立一个数据仓库,里面保存好所有客户的数据,以及市场竞争对手的相关数据。如果数据仓库还没有建起来就直接上数据挖掘应用,结果很可能中途夭折,因为数据挖掘前期几乎80%的工作都是在准备数据,把数据整合、抽取、清洗、转换、装载。如果给出的最初数据质量不高,模型再好,最后做出的预测也难如人意。
另一方面,开发商提供的软件自身也存在缺陷,例如模型与实际要求偏差大,缺乏主动预警机制等。数据挖掘工具引入国内时间不长,并没有分行业推出不同版本,很多系统实施顾问也只能够提供简单通用的算法,用起来似隔靴搔痒。在流行的数据挖掘解决方案中,多以"页面浏览"的方式将信息传达给用户,缺乏主动出击、危险预警的理念。
例如某企业财务指标超出正常范围时,系统页面会采用指示灯闪烁的形式提示危险信息,如果相关人员没有浏览该数据分析页面,就无法获取这一重要信息。
复合型项目人才一将难求
目前的数据挖掘市场,基本处在跨国巨头的垄断之下,至今未出现类似于ERP、SCM等领域的本土知名企业,连提供解决方案与咨询的厂商,其骨干及项目经验也多来自外企或国外。无论是软件开发商、咨询服务提供商或实施方,人才匮乏问题成为企业发展的一大瓶颈。
刘世平对这点深有体会。他本是IBM全球银行数据挖掘咨询组组长,有丰富的数据挖掘项目经验,怀着创业的梦想,他从IBM出来,在中科院带研究生的同时,也办了一家提供数据挖掘解决方案和咨询业务的公司――吉贝克信息技术(北京)有限公司。刘世平遇到的最大难题不是找不着业务需求,而是招不到合格的项目从业人员,哪怕是跑到国内顶尖院校,见着的仍是流于书本理论毫无项目实践的高才生。没办法,他只好立足于自己培养,现在的数据挖掘团队都是刘世平花了几年心血一手带出来的。这样的例子在业界举不胜举。
如果说成功的数据挖掘项目是一串钻石项链,那么数据收集和整理是挑选含有钻石的矿石,统计建模和数据分析则是钻石的开采,而项目管理就是把一颗颗钻石连接起来的金线。与其他信息系统对项目管理人员的要求不同,数据挖掘要求项目管理者不仅具备项目管理能力、软件设计能力、超强的理解和沟通能力,还要具备相当的数据分析能力。
数据挖掘项目的实施人员,除了项目管理者之外,还需要三类具有不同专长的人员,一是业务分析人员,精通业务,能够解释业务对象,并根据业务对象确定用于数据定义和挖掘算法的业务需求;二是数据分析人员,精通数据分析技术,熟练掌握统计学,能把业务需求转化为具体操作,并为每步操作选择合适的技术;三是数据管理人员,精通数据管理技术,了解数据源,负责数据准备过程。
同样,要成功完成一次数据挖掘过程,用户也既要熟悉业务,也要熟悉算法和模型,才能知道取出来的数据代表什么,算出来的结果又代表什么。而电信、金融等行业主导数据挖掘系统建设的大都是工科出身,不但业务不熟悉,对统计学也很生疏。由于双方面都对复合型人才有极大的需求,以致常出现用户挖厂商墙角、厂商再花大价钱回挖的人才拉锯战。
国内大型企业的数据挖掘成功案例凤毛麟角,很大一部分原因就在于用户过分依赖厂商,自身没有形成一支懂技术、懂业务、懂管理的核心团队。这点可以从宝钢的例子中吸取一点经验。宝钢领导普遍都很重视数据仓库的项目建设,亲自参与项目的整体或阶段性规划,并狠抓IT团队建设。几年下来,宝钢培养出一批掌握SAS核心技术的员工,保证了数据挖掘在业务上的较好应用。
实施过程中CEO的心头疙瘩
数据挖掘本身并不产生价值,实施数据挖掘后产生的结果才有价值。项目实施过程中,用户与厂商之间存在着某些解不开的结。数据挖掘人员口里念叨的尽是些稀奇古怪的技术名词,他们的出身复杂,既不完全是学计算机的,也不像统计学家,更不像营销策划人员,他们搭建的模型五花八门,他们挖掘的结果不容易理解。商业直觉强烈的企业用户CEO们很容易产生抵触情绪,常常在四方面向数据挖掘人员开炮。
其一,争议自变量的选择权。企业CEO一般对预测模型的建立都比较感兴趣,预测的目标也比较好确定,比如要预测客户流失,那么"客户是否流失"就是目标变量;要预测股票涨跌,那么"收市价是否上升"就是目标变量。但确定哪些变量作为自变量则颇费周折,换句话说,要确定哪些因素与目标变量有关系,往往是双方各执一词。
自变量该由企业用户一方来决定,还是该由数据挖掘人员决定呢?企业用户人员拥有长期的业务经验,能敏锐感觉到哪些因素与目标变量密切相关,不过他们有时会遗漏很多表面无关但实际上很重要的因素,这正是数据挖掘人员可以发挥作用的地方。理想的方式是双方结合决定,但谁主谁辅则常常争执不休。
其二,CEO喜欢把客户群体分得越细越好。与传统的经验细分相比,数据挖掘产生的客户细分能够考虑客户更多的行为属性,每个客户群体具有更鲜明的行为特征。但什么样的客户细分结果才算好的?将客户分成多少个群体是最合适的?群体之间的人数相差悬殊是否就意味着细分结果不够好?
预测性模型的好坏有很多衡量指标,上述问题却没有一定的衡量标准。客户细分模型的好坏,更多地要从业务角度来评判。CEO喜欢将客户分成上百个群体,总想更细致地了解各群体客户的行为特征,但客户经理多半要忙吐血也顾不过来,现有的客户管理系统也很难支撑过多客户群体的处理。因此,数据挖掘人员的应对措施就难以让CEO满意。
第三,质疑数据挖掘的结果。数据挖掘建立的预测模型,是对真实世界的模拟,依据企业数据库中储存的客户行为信息建立的预测模型无法得出确定性结果,只能以概率值示人。例如,电信运营商要求挖掘出某个客户流失究竟是因为对网络质量不满、对服务质量不悦、还是对资费政策有怨言,但挖掘出来的结果只会是诸如"如果最近一个月漫游通话次数小于25次、交往圈人数三个月均值小于97个则符合这样条件的客户其流失概率为46%"的判断。
这样以概率值提交的结果最容易招来企业CEO的不满。他们通常会问,我要对我的客户流失做出预测,为什么不能准确告诉我究竟是哪些客户下个月会流失?只告诉我每个客户流失的概率,这样的数值叫我如何使用?
第四,还有数据挖掘不能解决的问题?CEO在指示业务需求时,常会提出如何优化自己的网络资源、如何对有众多随机因素的不确定系统(物流、供应链、排队系统等)提出最优操作方案、如何根据现状推演未来市场份额的变化等问题。由于相关技术在国内的应用很少,数据挖掘人员会告诉CEO:上述问题分别属于运筹学、离散事件仿真、系统动力学仿真的领域,超出了数据挖掘的能力。这样的回答很容易让CEO愤愤不平,难以释怀。
挖掘结果未必能改善现状
数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。说白了,数据挖掘只是一个工具,它可以发现一些潜在的用户,但不会告诉使用者为什么,也不能保证这些潜在的用户成为现实。
实际上,数据挖掘只能找出数据上的关联,还不能把这种数据关联关系当成因果关系。例如挖掘发现,"大多数车祸出现在中等行驶速度当中,极少的事故出在高于150公里/小时的速度上。"人们当然不能认为"高速行驶比较安全",它的真实原因在于"多数人是以中速行驶,因此多数车祸出在中速行驶的车辆上"。
数据挖掘的成功要求CEO对期望解决问题的领域有深刻的理解,理解数据,理解其过程,才能对数据挖掘的结果找出合理的解释。拿啤酒和尿布这一经典例子来说,如何去解释这种现象,是应该将两者放在一起还是分开销售?需要摸透消费者的心理才能做出决定,而无法靠数据挖掘得出结论。
美国有家冰激凌生产商,总是听到顾客对产品的抱怨,而产品的质量又检查不出什么问题,企业CEO也一直不明就里。后来市场部用上数据挖掘软件,通过分析知道问题出在产品的外包装上,由于包装上冰激凌图片里的水果数量较多,而实际产品没有那么多,导致了顾客的不满。市场部随即换上新的包装,顾客的抱怨也就停止了,但销量并没有明显增加。数据挖掘的结果帮助企业解决了一个表面问题,但没有改善企业的经营状况。
数据挖掘提供的是一个辅助决策的系统,它不能代替CEO来进行决策。人在所有的信息系统包括数据挖掘平台中的作用始终是第一位的。不能快速、准确地制定决策方针等于将市场送给对手,不能及时发现业务的潜在信息等于浪费自己的资源。数据挖掘给出的结论仍然只是参考,而不是最终结论,事情的决断和执行仍然要靠CEO的智慧。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27