热线电话:13121318867

登录
2018-11-27 阅读量: 831
数据挖掘技术简介

数据挖掘技术的功能主要可以分为两大类,即描述型数据挖掘和预测型数据挖掘。一般情况下,描述型数据挖掘不需要有目标字段,而预测型数据挖掘需要有目标字段。目标字段具有监督作用,能够揭示输入字段与其之间的联系。因此,描述型数据挖掘也被称作无监督数据挖掘,而预测型数据挖掘则也称为有监督数据挖掘。

描述型数据挖掘任务在于刻画数据的一般性质,学习过程是没有监督的,因为输入实例没有类标记,因此也成为无监督学习,常用的分析方法为关联规则、序列模式、聚类分析等。关联规则是研究那些商品被同时购买,哪些事件常常会伴随着一起出现,这一功能的运用也比较普遍,一个著名的例子便是Amazon,其是一家网上书店,顾客在这一网站上购买书籍往往会有书籍推荐。序列模式是研究哪些事件常常会循序出现,这一功能与上述关联规则十分类似,但区别在于其具有时间顺序,也就是事件之间的出现关系不是同时的,而是循序的。这一功能的运用也具有实用性,例如在实体商场,利用关联规则来做商品的推荐是相当困难的,因为我们只有在顾客结账的时候才知道他到底购买了哪些东西,此时再做商品推荐就已经为时过晚了。但是序列模式则不同,它会告诉商家购买了某种商品的人通常未來会购买哪几种商品,商家就可以利用数据挖掘的这一功能来进行商品推荐。

聚类则是将数据集中的实例按照其相似性进行分组,研究数据之间的内部结构,即数据不再是一个个分散的信息源,而是一个一个的聚群,每个聚群都有自己的特点,这一功能在数据挖掘中的运用相当广泛。例如一家银行想要知道与其往来的客户主要是哪些类型,其往往会用到聚类分析这一功能。假设该银行想从年龄和收入两个层面来看与银行进行往来的客户主要有哪些类型,如下图所示。一个资料点就代表一个客户,从图中可以看出比较密集的客户有三群,也就是说与该银行往来的客户重要有三种类型,即收入低的中年人、收入高的中老年人以及收入高的年轻人。此外,通过聚类分析还可以估计这三种主要往来客户在总客户中所占的比例,从而根据各个类型的客户自身的特点向其推销不同的投资产品,如针对收入低的中年人可以推荐保险产品,针对收入高的中老年人可以推荐保本型投资,针对收入高的年轻人可以推荐高获利高风险投资。

0.0000
2
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子