京公网安备 11010802034615号
经营许可证编号:京B2-20210330
当“大数据”铺天盖地般向我们涌来,人们往往期冀能够对大数据能够有更进一步的了解,“数据挖掘”因此成为我们理解大数据概念绕不过去的“坎”。通过将大数据与数据挖掘进行对比分析,将有助于人们了解大数据的来龙去脉和未来真实走向。
1.基本概念
数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息,即从大量的、不完全的、有噪声的、随机的、模糊的数据中,提取隐含其中的、规律性的、人们事先未知的、但又是潜在的有用信息和知识的过程。数据挖掘是一个在海量数据中利用各种分析工具发现模型与数据间关系的过程,它可以帮助决策者寻找数据间潜在的某种关联,发现被隐藏的、被忽略的因素,因而被认为是在这个数据爆炸时代解决信息贫乏问题的一种有效方法。数据挖掘作为一门交叉学科,融合了数据库、人工智能、统计学、机器学习等多领域的理论与技术。数据库、人工智能与数理统计为数据挖掘的研究提供了三大技术支持。
大数据是通过高速捕捉、发现和分析,从大容量数据中获取价值的一种新的技术架构。著名研究机构IDC给大数据的定义,有四个"V"字开头的特征:Volume(体量大),Velocity(速度快),Variety(种类杂),Value(价值大)。Volume是指大数据巨大的数据量与数据完整性�Velocity可以理解为更快地满足实时性需求;Variety则意味着要在海量、种类繁多的数据间发现其内在关联;Value最重要,它是大数据的最终意义:挖掘数据存在的价值。
2.相互联系
大数据是数据挖掘的概念再升级。相比于兴起只有2~3年的大数据概念,已有20多年发展的数据挖掘可称得上大数据的开山鼻祖。因为大数据和数据挖掘的本质是相同的――对数据进行挖掘分析,以发现有价值的信息。而且大数据的兴起,正是在人工智能、机器学习和数据挖掘等技术基础之上发展起来的,而人工智能、机器学习又是在为数据挖掘服务。从表面上看,大数据与数据挖掘的显著区别在于“大”上。然而深入分析就会发现:一方面,数据挖掘的对象不仅可以用于少量的数据,而且同样适用于海量数据,只是由于挖掘方法和技术工具的不断升级换代,换了个新的名称而已;另一方面,大数据的本质不在于“大”,而是以崭新的思维和技术去分析海量数据,揭示其中隐藏的人类行为等模式,由此创造新产品和服务,或是预测未来趋势。所以大数据和数据挖掘的概念在一定时期还会并存,因应于使用的时机、场合或使用人的习惯,真正的关键点是如何体现出数据的价值。
大数据是数据挖掘产业化的表现。长久以来,数据挖掘的经典案例――“啤酒与尿布”被广为传颂,然而这一传奇故事显然跟不上时代大发展的步伐,取而代之的是谷歌成功预测流感的案例。数据的价值在于信息,而技术的价值在于利润,数据挖掘可以看作是专业技术领域的专业名词,到了商业领域就需要进一步的包装与升级。只有这样,一系列的开放式平台、技术解决方案才能迅速“火”起来。显而易见,这种商业的运作模式已经非常成熟和成功。目前,大数据已被视为创新和生产力提升的下一个前沿,正成为国家竞争力的要素之一,在世界范围内日益受到重视,多国政府加大了对大数据发展的扶持力度,甚至上升到国家战略的高度。某咨询公司研究显示,全球对大数据项目投资总额2012年已达45亿欧元(约60亿美元),2013、2014两年均会保持约40%的增长速度。
3.简要小结
当前,数据挖掘在专业领域的地位已经非常牢固,但大数据还受到民众和业界的诸多质疑,认为是一种商业噱头和忽悠。其实很多争论实质上并非在讨论同一问题。比如,有人举例说,《大数据时代》的作者维克托・迈尔―舍恩伯格认为 , “人们处理的数据从样本数据变成全部数据”的结论至少从目前的数据收集和分析能力来说是不可能实现的。我们应该看到,没有不变的真理,只有客观规律。任何技术都不是万能的,作为一种技术而言,它仅代表了一种发展方向,它因为能够解决某一现实问题而具备存在的价值;至于技术的商业化运用成不成功,则还受制于运用推广的方式等其它诸多因素。例如,对比上世纪末“互联网经济泡沫”破灭时的哀鸿遍野和前不久阿里巴巴在美国上市的一片赞歌,可以看出:互联网技术的发展势不可挡,互联网产业发展一波三折,只能说产业和技术紧密相联,但终究不是一回事。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21 很多数据分析师每天盯着几十个指标,但当被问到“这套指标要支撑什么业务目标”“指标之间是什么逻辑关系”“业务变化时如何 ...
2026-05-21在数据驱动决策的时代,数据质量直接决定分析结果的可靠性与准确性,而异常值作为数据清洗中的核心痛点,往往会扭曲分析结论、误 ...
2026-05-20 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-05-20Agent的能力边界,很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill,但这条路很快会遇到瓶颈。业务 ...
2026-05-20在统计分析中,方差分析(ANOVA)是一种常用的假设检验方法,核心用于分析“一个或多个自变量对单个因变量的影响”,广泛应用于 ...
2026-05-19 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“什么是指标”“指标和维度有什么区别”“如何定义指标值的计算规则和 ...
2026-05-19想高效备考 CDA 一级,拒绝盲目刷题、冗余学习?《CDA 一级教材知识手册》重磅来袭!以官方教材为核心,浓缩 13 章 103 个核心考 ...
2026-05-19在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18小陈是某电商平台的数据分析师。老板交给他一个任务:“我们平台的注册用户已经突破1000万了,想了解一下用户的平均月消费金额。 ...
2026-05-18【专访摘要】本次CDA持证专访邀请到拥有丰富物流供应链数据分析经验的赖尧,他结合自身在京东、华莱士、兰格赛等企业的从业经历 ...
2026-05-15在数字化时代,企业的每一次业务优化、每一项技术迭代,都需要回答一个核心问题:这个动作到底能带来多少价值?是提升了用户转化 ...
2026-05-15在数据仓库建设中,事实表与维度表是两大核心组件,二者相互关联、缺一不可,共同构成数据仓库的基础架构。事实表聚焦“发生了什 ...
2026-05-15 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-05-15【核心关键词】互联网、机会、运营、关键词、账户、数字化、后台、客户、成本、网络、数据分析、底层逻辑、市场推广、数据反馈 ...
2026-05-14在Python数据分析中,Pandas作为核心工具库,凭借简洁高效的数据处理能力,成为数据分析从业者的必备技能。其中,基于两列(或多 ...
2026-05-14 很多人把统计学理解为“一堆公式和计算”,却忽略了它的本质——一门让数据“开口说话”的科学。真正的数据分析高手,不是会 ...
2026-05-14在零售行业存量竞争日趋激烈的当下,客户流失已成为侵蚀企业利润的“隐形杀手”——据行业数据显示,零售企业平均客户流失率高达 ...
2026-05-13