京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据挖掘系统的分类
数据挖掘是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、机器学习、可视化和信息科学。此外,依赖于所用的数据挖掘方法,可以使用其他学科的技术,如神经网络、模糊和/或粗糙集合论、知识表示、归纳逻辑程序设计或高性能计算。依赖于所挖掘的数据类型或给定的数据挖掘应用,数据挖掘系统也可能集成空间数据分析、商务智能产品信息检索、模式识别、图像分析、信号处理、计算机图形学、Web技术、经济学、商业、生物信息学或心理学领域的技术。
由于数据挖掘源于多个学科,因此数据挖掘研究期望产生大量的各种类型的数据挖掘系统。这样,就需要对数据挖掘系统给出一个清楚的分类。这种分类可以帮助用户区分数据挖掘系统,确定最适合其需要的数据挖掘系统。
根据不同的标准,数据挖掘系统可以分类如下:
1)根据挖掘的数据库类型分类:数据挖掘系统可以根据挖掘的数据库类型分类。数据库系统本身可以根据不同的标准(如数据模型、数据类型或所涉及的应用)分类,每一类可能需要自己的数据挖掘技术。这样,数据挖掘系统就可以相应分类。
例如,根据数据模型分类,可以有关系的、事务的、对象-关系的或数据仓库的挖掘系统。如果根据所处理数据的特定类型分类,可以有空间的、时间序列的、文本的、流数据的、多媒体的数据挖掘系统,或万维网挖掘系统。
2)根据挖掘的知识类型分类:数据挖掘系统可以根据所挖掘的知识类型分类,即根据数据挖掘的功能分类,如特征化、区分、关联和相关分析、分类、预测、聚类、离群点分析和演变分析。一个综合的数据挖掘系统通常提供多种和/或集成的数据挖掘功能。
此外,数据挖掘系统还可以根据所挖掘的知识的粒度或抽象层进行区分,包括广义知识(高抽象层)、原始层知识(原始数据层)或多层知识(考虑若干抽象层)。一个高级数据挖掘系统应当支持多抽象层的知识发现。数据挖掘系统还可以分类为挖掘数据的规则性(通常出现的模式)与挖掘数据的奇异性(如异常或离群点)。一般地,概念描述、关联和相关分析、分类、预测和聚类挖掘数据的规则性,将离群点作为噪声排除。这些方法也能帮助检测离群点。
3)根据所用的技术类型分类:数据挖掘系统也可以根据所用的数据挖掘技术分类。这些技术可以根据用户交互程度(例如自动系统、交互探查系统、查询驱动系统),或所用的数据分析方法(例如面向数据库或面向数据仓库的技术、机器学习、统计学、可视化、模式识别、神经网络等)描述。复杂的数据挖掘系统通常采用多种数据挖掘技术,或采用有效的、集成的技术,结合一些方法的优点。
4)根据应用分类:数据挖掘系统也可以根据其应用分类。例如,可能有些数据挖掘系统特别适合金融、电信、DNA、股票市场、e-mail等。不同的应用通常需要集成对于该应用特别有效的方法。因此,泛化的全能的数据挖掘系统可能并不适合特定领域的挖掘任务。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21 很多数据分析师每天盯着几十个指标,但当被问到“这套指标要支撑什么业务目标”“指标之间是什么逻辑关系”“业务变化时如何 ...
2026-05-21在数据驱动决策的时代,数据质量直接决定分析结果的可靠性与准确性,而异常值作为数据清洗中的核心痛点,往往会扭曲分析结论、误 ...
2026-05-20 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-05-20Agent的能力边界,很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill,但这条路很快会遇到瓶颈。业务 ...
2026-05-20在统计分析中,方差分析(ANOVA)是一种常用的假设检验方法,核心用于分析“一个或多个自变量对单个因变量的影响”,广泛应用于 ...
2026-05-19 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“什么是指标”“指标和维度有什么区别”“如何定义指标值的计算规则和 ...
2026-05-19想高效备考 CDA 一级,拒绝盲目刷题、冗余学习?《CDA 一级教材知识手册》重磅来袭!以官方教材为核心,浓缩 13 章 103 个核心考 ...
2026-05-19在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18小陈是某电商平台的数据分析师。老板交给他一个任务:“我们平台的注册用户已经突破1000万了,想了解一下用户的平均月消费金额。 ...
2026-05-18【专访摘要】本次CDA持证专访邀请到拥有丰富物流供应链数据分析经验的赖尧,他结合自身在京东、华莱士、兰格赛等企业的从业经历 ...
2026-05-15在数字化时代,企业的每一次业务优化、每一项技术迭代,都需要回答一个核心问题:这个动作到底能带来多少价值?是提升了用户转化 ...
2026-05-15在数据仓库建设中,事实表与维度表是两大核心组件,二者相互关联、缺一不可,共同构成数据仓库的基础架构。事实表聚焦“发生了什 ...
2026-05-15 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-05-15【核心关键词】互联网、机会、运营、关键词、账户、数字化、后台、客户、成本、网络、数据分析、底层逻辑、市场推广、数据反馈 ...
2026-05-14