
数据挖掘的入门概念
1 数据挖掘
数据挖掘(Data Mining,简称DM),是指从大量的数据中,挖掘出未知的且有价值的信息和知识的过程。
与数据挖掘类似的有一个术语叫做”机器学习“,这两个术语在本质上的区别不大,如果在书店分别购买两本讲数据挖掘和机器学习的书籍,书中大部分内容都是互相重复的。具体来说,小的区别如下:
机器学习:更侧重于技术方面和各种算法,一般提到机器学习就会想到语音识别,图像视频识别,机器翻译,无人驾驶等等各种其他的模式识别,甚至于谷歌大脑等AI,这些东西的一个共同点就是极其复杂的算法,所以说机器学习的核心就是各种精妙的算法。
数据挖掘:更偏向于“数据”而非算法,而且包括了很多数据的前期处理,用爬虫爬取数据,然后做数据的清洗,数据的整合,数据有效性检测,数据可视化(画图)等等,最后才是用一些统计的或者机器学习的算法来抽取某些有用的“知识”。前期数据处理的工作比较多。
所以,数据挖掘的范畴要更广泛一些。
3 数据挖掘所覆盖的学科
数据挖掘是一门交叉学科,覆盖了统计学、计算机程序设计、数学与算法、数据库、机器学习、市场营销、数据可视化等领域的理论和实践成果
4 数据挖掘的误区
误区一:算法至上论。认为数据挖据是某些对大量数据操作的算法,这些算法能够自动地发现新的知识。
误区二:技术至上论。认为数据挖据必须需要非常高深的分析技能,需要精通高深的数据挖掘算法,需要熟练程序开发设计。
这两种认知都有一定的偏颇。实际上,数据挖掘本质上是人们处理商业问题的方法,通过适量的数据挖掘来获得有价值的结果,技术在随着大数据时代的来临变得愈发重要,但是最好的数据挖掘工程师往往是那些熟悉和理解业务的人。
5 数据挖掘能解决什么问题
商业上的问题多种多样,例如:
“如何能降低用户流失率?”
“某个用户是否会响应本次营销活动?“
"如何细分现有目标市场?"
“如何制定交叉销售策略以提升销售额?”
“如何预测未来销量?”
从数据挖掘的角度看,都可以转换为五类问题:
分类问题
聚类问题
回归问题
关联分析
5.1 分类问题
简单来说,就是根据已经分好类的一推数据,分析每一类的潜在特征建立分类模型。对于新数据,可以输出新出具属于每一类的概率。
比如主流邮箱都具备的垃圾邮件识别功能:一开始,正常邮件和垃圾邮件都是混合在一起的,如果我们手工去点击哪些是垃圾邮件,逐渐的,垃圾邮件就会自动被识别放到垃圾文件夹。如果我们对于混在正常邮件中的垃圾持续进行判断,系统的识别率就会越来越高。我们人工点击判断,相当于预先分类(两类:垃圾邮件和非垃圾邮件),系统就会自己学习两类邮件的特征建立模式,对于新邮件,会根据模式判断属于每个类别的可能性。
分类算法示意
5.2 聚类问题
和分类算法是不同概念,但是工作中业务人员经常误用。 聚类的的目的也是把数据分类,但类别并不是预先定义的,算法根据“物以类聚”的原则,判断各条数据之间的相似性,相似的就归为一类。
比如我有十万消费者的信息数据,比如包括性别,年龄,收入,消费等,通过聚类的方法事可以把这些数据分成不同的群,理论上每群用户内都是相似性较高的,就可以覆盖分群用户制定不同的策略
聚类算法示意
5.3 回归问题
回归问题和分类问题有点类似,但是回归问题中的因变量是一个数值,而分类问题,最终输出的因变量是一个类别。简单理解,就是定义一个因变量,在定义若干自变量,找到一个数学公式,描述自变量和因变量之间的关系。
比如,我们要研究房价(Y),然后收集房子距离市中心的距离(X1),面积(X2),收集足够多的房子的数据,就可以建立一个房价和距离、面积的方程式(例如Y=aX1+bX2),这样给出一个新的距离和面积数据,就可以预测这个房子的价格。
回归问题示意
5.4 关联分析
关联分析主要就是指”购物篮分析“,很有名气案例是【啤酒与尿布】的故事,”据说“这是一个真实的案例:沃尔玛在分析销售记录时,发现啤酒和尿布经常一起被购买,于是他们调整了货架,把两者放在一起,结果真的提升了啤酒的销量。后来还分析背后的原因,说是因为爸爸在给宝宝买尿布的时候,会顺便给自己买点啤酒……
所以,关联分析就是基于数据识别产品之间潜在的关联,识别有可能频繁发生的模式。
5.5 推荐系统
利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。也就是平时我们在浏览电商网站、视频网站、新闻App中的"猜你喜欢"、“其他人也购买了XXX”等类似的功能。
5.6 数据挖掘的工作流程
数据挖掘的通用流程叫做CRISP-DM(Cross Industry Standard Process-Data Mining)数据挖掘方法论。
CRISP-DM
6.1 商业理解
商业理解阶段主要完成对商业问题的界定,以及对企业内外部资源进行评估与组织,最终确定将企业的商业目标转化为数据挖掘目标,并制定项目的方案
6.2 数据理解
了解企业目前数据现状,提出数据需求,并尽可能多的收集数据。通过初步的数据探索,快速了解数据的质量
6.3 数据准备
在建立数据挖掘模型之前对数据做最后的准备工作,主要是把收集到的各部分数据关联起来,形成一张最终数据宽表。这个阶段其实是耗时最长的阶段,一般会占据整个数据挖掘项目的70%左右的时间,包括数据导入、数据抽取、数据清洗、数据合并、新变量计算等工作。
6.4 模型构建
模型构建是数据挖掘工作的核心阶段。主要包括准备模型的训练集和验证集,选择并使用适当的建模技术和算法,模型建立,模型效果对比等工作
6.5 模型评估
模型评估主要从两个方面进行评价:
1)技术层面:
- 设计对照组进行比较。
- 根据常用的模型评估指标进行评价,如命中率、覆盖率、提升度等
2)业务经验:业务专家凭借业务经验对数据挖掘结果进行评估
6.6 模型部署
将数据挖掘成果程序化,将模型写成存储过程固化到IT平台上,并持续观察模型衰退变化,在发生模型衰退时,引入新的变量进行模型优化。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28