
数据挖掘能做点什么?
大数据是目前最时髦的词汇,正受到越来越多人的关注和谈论,大数据时代,数据挖掘是最关键的工作。
什么是数据挖掘?
简单地说,数据挖掘是从大量数据中提取或“挖掘”知识——《数据挖掘:概念与技术》。
IDMer认为,数据挖掘就是从数据里找规律。对于规律没有严格的界限,只要这个规律对于公司业务的理解和未来业务规划预测有帮助,这都可以算作数据挖掘。以电信公司为例,客户流失是运营商经常面临的问题,需要了解哪些客户容易流失,原因是什么,能不能在流失之前就找到他们,建立预警系统,分析流失客户和忠诚客户的差别是什么,我们称之为流失特征。通过数据挖掘找出这些特征后,就可以选出可能会流失的客户,争取挽留。那么规律,作为一种复杂的模式,在这个案例中就体现为流失特征。再比如企业通过分析销售数据,得出销售高峰出现在春节等节假日,这也算一种规律,可以帮助企业决定何时进行资源储备,人员配备以及营销活动等。但是这种规律不需要通过复杂的数据挖掘,通过看销售数字就可以得出来。
数据挖掘能做点什么?
数据挖掘的任务和功能一般可以分为两大类:描述和预测,描述类挖掘主要是展现数据集中数据的一般特征,预测类挖掘是在当前数据上进行推断,以进行预测。
1、数据描述、特征和区分
是对数据的基本特征进行概括和总结,能够实现对数据多维度、多层次的汇总,得到数据分布特征的精确概括。数据特征化的输出可以用多种形式提供,例如饼图、条形图、线图、多维数据立方体OLAP、含交叉表的多维表。结果描述也可以用概化关系或规则形式提供。
2、分类
主要目的是通过向数据“学习”,分析数据不同属性之间的联系,得到一种能够正确区分数据所属类别的规律。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。
3、回归
反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。
4、聚类分析
聚类是一种在没有先验知识条件下,根据某种相近程度的度量指标,对数据自动进行类划分的技术。所形成的类别内部数据的结构特征相近,不同类之间的数据结构特征有较大差异。其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。
5、关联分析
是指通过数据分析,找到事物之间的关联规则。包括简单关联规则和时序关联规则。即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。例如“90%的顾客在购买面包和黄油的同时也会购买牛奶”。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。
6、噪声、异常值分析
用于分析的数据中可能包括一些另类的对象,它们与数据集的一般特征不一致,经常称之为噪声、孤立点、异常值。大部分数据挖掘方法将这些数据直接丢弃,然而,在某些应用中,如欺诈研究中,罕见的事件可能比正常出现的事件更有趣,需要对这些对象进行单独的分析。
数据挖掘只是解决商业问题的一种手段,在解决实际问题中,需要与其他方法相结合,将业务问题转为数据挖掘问题,这需要业务部门的配合。数据挖掘只是提供了一个良好工具,并不是万能的。它仍然需要数据分析人员了解系统的业务,理解系统的数据和弄清分析方法,数据挖掘得到的模型必须要在现实生活中进行验证。数据挖掘永远不会替代有经验的商业分析师或管理人员所起的作用,它只是提供一个强大的工具。数据挖掘不会在缺乏指导的情况下自动发现模型,数据分析师必须为数据挖掘工具提供指导。虽然数据挖掘工具使用户不必再掌握艰深的统计分析方法,但需要用户清楚工具是如何工作的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01