数据挖掘的五个误区
许多成功的企业都发现了围绕着数据挖掘而产生的神话确实就是误解。这些企业没有成为这些误区的牺牲品,而是通过使用数据挖掘技术解决复杂的业务问题来增加利润,获取更大的竞争优势。
实际上正是复杂的数据挖掘技术使得乡村地区的Wal-Mart超市连锁店决定在秋季准备大量某种广告邮件 。虽然可笑, 但Spamouflage-经过巧妙包装的广告邮件已经取得了极大的成功。不单单是一个可爱的想法,Spamouflage帮助Wal-Mart从现有的顾客群中获得了额外的利润,并且也显示了Wal-Mart是多么深刻地理解着他们所服务的人群。
数据挖掘到底是什么?
数据挖掘是一种非常有力的分析工具,它可以帮助企业主管们通过了解顾客的历史行为的信息来预测他们将来的行为。它找到了解开顾客行为秘密的模式。这些发现可被用于创造利润,缩减成本,以及抓住商业机会,获得新的竞争优势。
关于数据挖掘所产生的误解的部分原因是人们并不十分了解它究竟是什么。从最本质上讲,数据挖掘就是一套用于发现和解释详细数据的未知模式的复杂的数学技术。自从80年代中期以来,数据挖掘的应用领域从学术、医药、科学研究领域扩展开来,已被非常有效地应用在零售、银行、电信、保险、旅行和服务行业。
因为数据挖掘被认为是一种分析工具,它经常与在线分析处理(OLAP)相混淆。OLAP是一种有价值的分析技术,它被用于分析业务操作来对已发生的事情做出历史性的回顾。例如,一位市场部经理想要了解为什么某个地区的销售额下滑了。OLAP工具可以帮助他从各个不同的方面提出问题,例如以商店统计的销售额、以产品统计的销售额和一段时间内的销售额。通过从不同的角度观察这些历史数据,他就会分析出对销售额产生影响的因素(商店、产品,或是时间)。
数据挖掘则处理另一类问题。它可被用于预测未来事件,例如,基于促销情况或者哪类顾客最有可能对促销感兴趣来预测下个月的销售额。
误区1:数据挖掘提供了即时的未来预测
数据挖掘既不是水晶球也不是一按按钮就能魔术般出现答案的技术。它是一个多步骤的处理过程,其中包括:定义业务问题,扫描并按条件搜索数据,开发模型,运用获得的知识。典型情况是,企业花费大量时间预处理并且按照条件搜索数据,保证其干净、一致、良好整合,以便于应用他们所需要的商务智能。数据挖掘全部围绕着数据,成功的数据挖掘需要能够准确反映业务的数据。
企业必须懂得,数据挖掘的威力在于:抓住那些能够从本质上被预测或者被描述的特殊的业务难题。其中包括:
顾客分类
预测顾客的购买倾向
监测欺诈
优化供应和发货渠道
理解了这个过程的企业就看到了真正的效果。一家中西部地区的保健供应商识别了高风险病人,并且使用了能够保证护理质量和管理风险的病例管理程序。一家南美电信公司通过分析电话的使用、购买的服务和服务质量的评定等可能导致顾客减少的模式之后,发现了风险并防止了高价值顾客的流失。一家美国的保险公司通过数据挖掘解决方案的时间段来预测并且很快地检测欺诈,然后采取迅速行动来最小化成本。
误区2:数据挖掘对于商务应用程序仍然是不可用的
数据挖掘是一种可用的技术,并且由于他的商业效果受到了很高的评价。这个谎言似乎是那些需要解释为什么他们不能使用这个处理过程,并且在下面这两句话中转来转去的人所编造的。第一句是:“大的数据库不能被有效地挖掘”。第二句是:“数据挖掘不能在数据仓库引擎中完成”。这两句话都曾经是正确的;就像飞机曾经无法离开地面一样。
让我们同时分析这两句话。因为今天的数据库是这样的大,企业都担心数据挖掘项目所需的额外的IT体系结构会带来巨大的成本,以及每个项目的数据处理过程都会消耗太长时间。但是今天的某些数据库使用的并行技术使得数据库内部的挖掘成为可能。通过在数据库内部进行挖掘,企业可以消除数据移动,利用并行处理的性能,最小化数据冗余,以及消除数据挖掘专用的整个新的冗余的数据库的创建及维护成本。
例如,一个包装零售生产企业使用数据挖掘来维护一个顾客忠诚度程序,这个程序可以帮助它的零售伙伴监控促销的效果,并且分析购买者的购物篮。最初这个分析曾经是鼓励它的伙伴促销他们的产品的有效手段。然而随这需要处理的数据量变得越来越大,以致于这个提供给零售伙伴的服务成本变得过于昂贵。虽然这个分析过程是在一个很强大的服务器上面进行的,但是5个分析应用程序仍然用了超过312个小时来处理数据。
在结束这个有价值的服务之前,这家企业尝试了数据库内部的数据挖掘技术。他们将数据载入一个集中的数据仓库,然后将5个分析程序全部转换为一个在数据库中运行的SQL(标准查询语言)程序,利用它的并行处理能力。通过转换为数据库内部的数据挖掘,他们能够将执行时间从用户忠诚度程序的超过312小时缩小到12小时。
误区3:数据挖掘需要单独的、专用的数据库
数据挖掘产品供应商会强调你需要一个昂贵的、专用的数据库、数据中心或者分析服务器来进行数据挖掘,因为需要将数据转换为一种特别的格式来进行有效地处理。这些数据中心不仅采购和维护成本很高,每个单独的数据挖掘项目还需要单独抽取数据,而数据的抽取是很昂贵并且非常费时的。
数据库技术的发展使得现在数据挖掘再也不需要在一个单独的数据中心进行了。实际上,有效的数据挖掘需要一个企业范围的数据仓库,它的全部投资成本也比使用独立的多个数据中心便宜得多了。
原因是这样的:由于企业需在整个企业范围之上实现数据挖掘项目,利用数据挖掘模型的用户数量和其对数据基础设施型都会持续增长。一个先进的企业数据仓库不仅能有效地存储所有的企业数据,同时也消除大多数额外的数据中心或数据仓库的需求,另外这也为数据挖掘项目提供一个理想的基础。这个基础就是一个单一的企业范围的数据仓库,这个数据仓库可以提供一个具有一致性和即时性的顾客视图。并且通过在数据仓库内部合并数据挖掘的外延,企业可以以两种另外的方式缩减成本。第一种方式是,没有必要购买和维护仅为数据挖掘使用的额外的硬件。第二种方式是,企业将为实施数据挖掘项目所需的数据仓库数据导入导出的工作量减少到最低,这已经是公认的极耗费工时和资源的处理过程。
误区4:只有拥有博士学位才可以进行数据挖掘
一些人认为数据挖掘非常复杂,以致必须拥有至少三个博士才可以执行它:一个是统计学或者计量方法专业博士,一个是能够懂得客户的商务博士,一个是计算机专业博士。
实际情况是在成功项目的实施者中根本用不到一个博士。例如,Teradata最近完成了一个南美电信公司的项目,它成功地追踪了顾客行为变化,帮助公司在电信市场开放期间保住了98%的高价值客户。通过协力工作,一个多学科的小组成功地完成了任务。
数据挖掘是一项需要三个专业领域的技术专家共同合作的工作。商务人员必须通过创建一组商业问题来引导项目,解释凸现的模式。具有对数据挖掘技术、统计学和工具的充分了解的分析建模人员构建可靠的模型。IT人员提供对处理过程的深刻观察,理解数据,并提供关键的技术支持。
一个简单的事实就是,一个公司,无论大小,只要拥有能够精确反映业务或者客户情况的数据,都能在这些数据基础上构建模型,对应重要的业务挑战。公司处理的顾客数据量从来就不是关键。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23大咖简介: 刘凯,CDA大咖汇特邀讲师,DAMA中国分会理事,香港金管局特聘数据管理专家,拥有丰富的行业经验。本文将从数据要素 ...
2025-04-22CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03