登录
首页精彩阅读基于属性分类的数据挖掘方法
基于属性分类的数据挖掘方法
2016-01-12
收藏


基于属性分类的数据挖掘方法

随着数据库技术和数据库管理系统的广泛应用, 数据库中存储的数据量急剧增大, 数据库系统提供了对这些数据的管理和简单的处理功能, 数据分析师可以在这些数据上进行分析处理, 但如此庞大的数据对人工分析来说是非常困难的, 人们需要能够对数据进行更高层次的处理, 从中找出规律和模式, 以帮助人们更好的利用数据进行决策和研究, 这也就是如何进行数据挖掘, 即从大型数据库中发现并提取出隐藏在其中的信息的一种新技术, 目的是帮助决策者发现数据间重要的但被忽略的因素, 这种技术称为数据挖掘(data m ining 简称DM ) 1〕. 为了便于进行数据挖掘, 数据的存放不再局限于数据库的规范化形式存储, 而是采用了数据仓库的技术, 对数据进行一部分预处理, 进行分类或分片, 以加快数据挖掘的速度.

数据挖掘涉及的方面很多, 有人工智能, 神经网络, 数据库, 预测理论, 机器学习, 统计学, 但数据挖掘的主要方法和任务是数据总结, 分类发现, 聚类和关联规则的发现.数据总结的目的是对数据进行浓缩, 传统的方法也是目前最简单的方法, 就是计算出数据库的各个字段的和值, 平均值, 方差, 最大最小值并以方图, 饼图的形式显示. 分类是数据 中非常重要的任务和方法.
现在从统计学和机器学习的角度提出了较多的分类技术, 其中以ID3 ( Iterat ive D icho tom izer 3〔2〕算法为代表, 就是将分类结果以决策树的形式给出, 树的内部节点是一个决策,而叶节点代表一个类. 以ID3 为代表的一类算法的效率对于较少的数据而言是适当的, 但是随着数据量的增加和决策属性的增加, 则效率会大幅下降, 而且不能直接形成规则. 基于属性分类的数据挖掘方法是以数据库中关系表为基础的而且在原始数据增加的情况下, 可以通过化简来压缩数据规模, 使之只与属性值有关系, 而与原始的数据量无关, 而现在的数据存放中, 几乎所有的数据都是用关系表的形式存放的, 这为基于属性分类的数据挖掘方法提供了极大的方便, 并可方便得到发现属性间的联系形成决策规则或产生式规则.
本文介绍的数据挖掘方法分为两个大步骤, 第一步进行数据的收集和整理, 形成基础表进行准备工作; 第二步是对基础表进行属性分类, 并发现其中的关系, 形成决策规则.数据分析师培训


数据分析咨询请扫描二维码

客服在线
立即咨询