京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据挖掘大企业成功案例少 中小企业需求小
台资餐饮企业"一茶一座"在内地发展迅猛,几年下来已经开了34家连锁店,历史数据累积到三千多万条;本土生产型企业"乐百氏"的门店几乎已铺遍全国,总部十分重视原始数据的采集,为加强对各区域门店和经销商的管理,需要上一套分销系统。
两家企业都是中等规模,信息基础设施较为完备,信息化项目的负责人也既懂业务又懂技术;巧的是,他们今年都选择了部署商务智能系统。接受采访时两位CIO均表示,迄今为止企业的数据主要集中在销售方面,财务、库存数据还没有整合到系统中,以企业目前的运营规模和数据流量来看,没有实施数据挖掘的必要。
1998年,数据挖掘带着"啤酒加尿布"的光环来到中国,引起理论界一阵热炒;紧接着,一些大牌IT企业也加入炒作的行列,大有企业救世主的风范。然而经过几年的实践,数据挖掘的应用和实施仍处困境,即便在电信、税务、金融等领域,成功案例也屈指可数。数据挖掘何以炒着热吃着冷?数据挖掘是大忽悠还是懵懂少年?
"一茶一座"和乐百氏公司的看法,颇有代表性。至今,企业普遍使用的数据挖掘手段仍然只是报表分析或OLAP信息钻取,情况好点的也不过是一些第三方建立的在实际运用中效果相当有限的客户流失预测模型。
中科院研究生院软件学院潘辛平教授一直关注着数据挖掘技术的进展,他常问项目参与者:哪些信息是真正通过挖掘才展现出来的,而哪些信息是本来就已知的,往往得不到令人满意的答复。期间还有人告诉他,某证券公司数据挖掘项目的结论之一竟然是:凡在深交所开户的投资者必然也在上交所开户,消息传开,圈里的朋友都拿它当饭桌上的笑话讲。
笑话归笑话,对于企业客户而言,数据挖掘的应用存在大量天然障碍是不争的事实!日处理数据达到Tb(1024G)级才有意义;平台软件或解决方案动不动得花费上千万元,哪怕租用两年也得几百万;企业必须专门配备一支IT队伍,在项目建成后负责数据分析与挖掘工作。如果企业的经营规模不够大,年营业额不够高,没有一定的信息技术基础,是不敢染指数据挖掘的。
因此,更多的企业最终选择的是把数据仓库、在线分析处理(OLAP)、数据挖掘等技术打包在内的整套商务智能系统,而这种商务智能系统的数据挖掘能力偏弱。
数据是数据挖掘应用的依据,中科院金融科技研究中心首席科学家刘世平认为,即便在大型企业,由于数据搜集起步普遍比较晚,数据可得性和完备性都不高。很多行业的生产、财务、销售等敏感数据,由于用户的选择性输入或漏输、错输,难以为数据挖掘工具所用。
企业需要具备什么基础才能应用数据挖掘技术呢?SPSS数据挖掘项目经理戴庆祝表示,理想的起点是建立一个数据仓库,里面保存好所有客户的数据,以及市场竞争对手的相关数据。如果数据仓库还没有建起来就直接上数据挖掘应用,结果很可能中途夭折,因为数据挖掘前期几乎80%的工作都是在准备数据,把数据整合、抽取、清洗、转换、装载。如果给出的最初数据质量不高,模型再好,最后做出的预测也难如人意。
另一方面,开发商提供的软件自身也存在缺陷,例如模型与实际要求偏差大,缺乏主动预警机制等。数据挖掘工具引入国内时间不长,并没有分行业推出不同版本,很多系统实施顾问也只能够提供简单通用的算法,用起来似隔靴搔痒。在流行的数据挖掘解决方案中,多以"页面浏览"的方式将信息传达给用户,缺乏主动出击、危险预警的理念。
例如某企业财务指标超出正常范围时,系统页面会采用指示灯闪烁的形式提示危险信息,如果相关人员没有浏览该数据分析页面,就无法获取这一重要信息。
复合型项目人才一将难求
目前的数据挖掘市场,基本处在跨国巨头的垄断之下,至今未出现类似于ERP、SCM等领域的本土知名企业,连提供解决方案与咨询的厂商,其骨干及项目经验也多来自外企或国外。无论是软件开发商、咨询服务提供商或实施方,人才匮乏问题成为企业发展的一大瓶颈。
刘世平对这点深有体会。他本是IBM全球银行数据挖掘咨询组组长,有丰富的数据挖掘项目经验,怀着创业的梦想,他从IBM出来,在中科院带研究生的同时,也办了一家提供数据挖掘解决方案和咨询业务的公司――吉贝克信息技术(北京)有限公司。刘世平遇到的最大难题不是找不着业务需求,而是招不到合格的项目从业人员,哪怕是跑到国内顶尖院校,见着的仍是流于书本理论毫无项目实践的高才生。没办法,他只好立足于自己培养,现在的数据挖掘团队都是刘世平花了几年心血一手带出来的。这样的例子在业界举不胜举。
如果说成功的数据挖掘项目是一串钻石项链,那么数据收集和整理是挑选含有钻石的矿石,统计建模和数据分析则是钻石的开采,而项目管理就是把一颗颗钻石连接起来的金线。与其他信息系统对项目管理人员的要求不同,数据挖掘要求项目管理者不仅具备项目管理能力、软件设计能力、超强的理解和沟通能力,还要具备相当的数据分析能力。
数据挖掘项目的实施人员,除了项目管理者之外,还需要三类具有不同专长的人员,一是业务分析人员,精通业务,能够解释业务对象,并根据业务对象确定用于数据定义和挖掘算法的业务需求;二是数据分析人员,精通数据分析技术,熟练掌握统计学,能把业务需求转化为具体操作,并为每步操作选择合适的技术;三是数据管理人员,精通数据管理技术,了解数据源,负责数据准备过程。
同样,要成功完成一次数据挖掘过程,用户也既要熟悉业务,也要熟悉算法和模型,才能知道取出来的数据代表什么,算出来的结果又代表什么。而电信、金融等行业主导数据挖掘系统建设的大都是工科出身,不但业务不熟悉,对统计学也很生疏。由于双方面都对复合型人才有极大的需求,以致常出现用户挖厂商墙角、厂商再花大价钱回挖的人才拉锯战。
国内大型企业的数据挖掘成功案例凤毛麟角,很大一部分原因就在于用户过分依赖厂商,自身没有形成一支懂技术、懂业务、懂管理的核心团队。这点可以从宝钢的例子中吸取一点经验。宝钢领导普遍都很重视数据仓库的项目建设,亲自参与项目的整体或阶段性规划,并狠抓IT团队建设。几年下来,宝钢培养出一批掌握SAS核心技术的员工,保证了数据挖掘在业务上的较好应用。
实施过程中CEO的心头疙瘩
数据挖掘本身并不产生价值,实施数据挖掘后产生的结果才有价值。项目实施过程中,用户与厂商之间存在着某些解不开的结。数据挖掘人员口里念叨的尽是些稀奇古怪的技术名词,他们的出身复杂,既不完全是学计算机的,也不像统计学家,更不像营销策划人员,他们搭建的模型五花八门,他们挖掘的结果不容易理解。商业直觉强烈的企业用户CEO们很容易产生抵触情绪,常常在四方面向数据挖掘人员开炮。
其一,争议自变量的选择权。企业CEO一般对预测模型的建立都比较感兴趣,预测的目标也比较好确定,比如要预测客户流失,那么"客户是否流失"就是目标变量;要预测股票涨跌,那么"收市价是否上升"就是目标变量。但确定哪些变量作为自变量则颇费周折,换句话说,要确定哪些因素与目标变量有关系,往往是双方各执一词。
自变量该由企业用户一方来决定,还是该由数据挖掘人员决定呢?企业用户人员拥有长期的业务经验,能敏锐感觉到哪些因素与目标变量密切相关,不过他们有时会遗漏很多表面无关但实际上很重要的因素,这正是数据挖掘人员可以发挥作用的地方。理想的方式是双方结合决定,但谁主谁辅则常常争执不休。
其二,CEO喜欢把客户群体分得越细越好。与传统的经验细分相比,数据挖掘产生的客户细分能够考虑客户更多的行为属性,每个客户群体具有更鲜明的行为特征。但什么样的客户细分结果才算好的?将客户分成多少个群体是最合适的?群体之间的人数相差悬殊是否就意味着细分结果不够好?
预测性模型的好坏有很多衡量指标,上述问题却没有一定的衡量标准。客户细分模型的好坏,更多地要从业务角度来评判。CEO喜欢将客户分成上百个群体,总想更细致地了解各群体客户的行为特征,但客户经理多半要忙吐血也顾不过来,现有的客户管理系统也很难支撑过多客户群体的处理。因此,数据挖掘人员的应对措施就难以让CEO满意。
第三,质疑数据挖掘的结果。数据挖掘建立的预测模型,是对真实世界的模拟,依据企业数据库中储存的客户行为信息建立的预测模型无法得出确定性结果,只能以概率值示人。例如,电信运营商要求挖掘出某个客户流失究竟是因为对网络质量不满、对服务质量不悦、还是对资费政策有怨言,但挖掘出来的结果只会是诸如"如果最近一个月漫游通话次数小于25次、交往圈人数三个月均值小于97个则符合这样条件的客户其流失概率为46%"的判断。
这样以概率值提交的结果最容易招来企业CEO的不满。他们通常会问,我要对我的客户流失做出预测,为什么不能准确告诉我究竟是哪些客户下个月会流失?只告诉我每个客户流失的概率,这样的数值叫我如何使用?
第四,还有数据挖掘不能解决的问题?CEO在指示业务需求时,常会提出如何优化自己的网络资源、如何对有众多随机因素的不确定系统(物流、供应链、排队系统等)提出最优操作方案、如何根据现状推演未来市场份额的变化等问题。由于相关技术在国内的应用很少,数据挖掘人员会告诉CEO:上述问题分别属于运筹学、离散事件仿真、系统动力学仿真的领域,超出了数据挖掘的能力。这样的回答很容易让CEO愤愤不平,难以释怀。
挖掘结果未必能改善现状
数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。说白了,数据挖掘只是一个工具,它可以发现一些潜在的用户,但不会告诉使用者为什么,也不能保证这些潜在的用户成为现实。
实际上,数据挖掘只能找出数据上的关联,还不能把这种数据关联关系当成因果关系。例如挖掘发现,"大多数车祸出现在中等行驶速度当中,极少的事故出在高于150公里/小时的速度上。"人们当然不能认为"高速行驶比较安全",它的真实原因在于"多数人是以中速行驶,因此多数车祸出在中速行驶的车辆上"。
数据挖掘的成功要求CEO对期望解决问题的领域有深刻的理解,理解数据,理解其过程,才能对数据挖掘的结果找出合理的解释。拿啤酒和尿布这一经典例子来说,如何去解释这种现象,是应该将两者放在一起还是分开销售?需要摸透消费者的心理才能做出决定,而无法靠数据挖掘得出结论。
美国有家冰激凌生产商,总是听到顾客对产品的抱怨,而产品的质量又检查不出什么问题,企业CEO也一直不明就里。后来市场部用上数据挖掘软件,通过分析知道问题出在产品的外包装上,由于包装上冰激凌图片里的水果数量较多,而实际产品没有那么多,导致了顾客的不满。市场部随即换上新的包装,顾客的抱怨也就停止了,但销量并没有明显增加。数据挖掘的结果帮助企业解决了一个表面问题,但没有改善企业的经营状况。
数据挖掘提供的是一个辅助决策的系统,它不能代替CEO来进行决策。人在所有的信息系统包括数据挖掘平台中的作用始终是第一位的。不能快速、准确地制定决策方针等于将市场送给对手,不能及时发现业务的潜在信息等于浪费自己的资源。数据挖掘给出的结论仍然只是参考,而不是最终结论,事情的决断和执行仍然要靠CEO的智慧。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05