京公网安备 11010802034615号
经营许可证编号:京B2-20210330
利用R语言如何判别和分类
判别分析(discriminant analysis)是一种分类技术。它通过一个已知类别的“训练样本”来建立判别准则,并通过预测变量来为未知类别的数据进行分类。
判别分析根据所采用的数据模型,可分为线性判别分析和非线性判别分析。根据判别准则可分为Fisher判别、Bayes判别和距离判别。其中最基本的Fisher判别方法也被称为线性判别方法。该方法的主要思想是将多维数据投影到某个方向上,投影的原则是将总体与总体尽可能的分开,然后再选择合适的判别规则将新的样本分类判别。Fisher判别会投影降维,使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是:使每一组内的投影值所形成的组内离差尽可能小,而不同组间的投影值所形成的类间离差尽可能大。Bayes判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。距离判别思想是根据已知分类的数据计算各类别的重心,对未知分类的数据,计算它与各类重心的距离,与某个重心距离最近则归于该类。
1.线性判别
当不同类样本的协方差矩阵相同时,我们可以在R中使用MASS包的lda函数实现线性判别。值得注意的是当分类只有两种且总体服从多元正态分布条件下,Bayes判别与Fisher判别、距离判别是等价的。利用table函数建立混淆矩阵,比对真实类别和预测类别。
> library(MASS)
> data(iris)
> iris.lda=lda(Species~.,data=iris)
> table(Species,predict(iris.lda,iris)$class)
Species setosa versicolor virginica
setosa 50 0 0
versicolor 0 48 2
virginica 0 1 49
> table<-table(Species,predict(iris.lda,iris)$class)
> sum(diag(prop.table(table)))###判对率
[1] 0.98
2.二次判别
当不同类样本的协方差矩阵不同时,则应该使用二次判别。在使用lda和qda函数时注意:其假设是总体服从多元正态分布,若不满足的话则谨慎使用二次判别。
> iris.qda=qda(Species~.,data=iris,cv=T)
> table(Species,predict(iris.qda,iris)$class)
Species setosa versicolor virginica
setosa 50 0 0
versicolor 0 48 2
virginica 0 1 49
> table<-table(Species,predict(iris.qda,iris)$class)
> sum(diag(prop.table(table)))###判对率
[1] 0.98
3.贝叶斯判别
贝叶斯判别式假定对研究对象已有一定的认识 这种认识常用先验概率来描述,当取得样本后就可以用样本来修正已经有的先验概率分布得出后验概率分布,然后通过后验概率分布进行各种统计推。实际上就是使平均误判损失(误判概率与误判损失的结合)ECM达到极小的过程。
> library(MASS)
> data(iris)
> iris.Beyes=lda(Species~.,data=iris,prior=c(1,1,1)/3)
> table(Species,predict(iris.Beyes,iris)$class)
Species setosa versicolor virginica
setosa 50 0 0
versicolor 0 48 2
virginica 0 1 49
> table<-table(Species,predict(iris.Beyes,iris)$class)
> sum(diag(prop.table(table)))###判对率
[1] 0.98
上面是先验概率相等的情形,下面介绍先验概率不等的情形
> iris.Beyes1=lda(Species~.,data=iris,prior=c(7,8,15)/30)
> table(Species,predict(iris.Beyes1,iris)$class)
Species setosa versicolor virginica
setosa 50 0 0
versicolor 0 48 2
virginica 0 1 49
> table<-table(Species,predict(iris.Beyes1,iris)$class)
> sum(diag(prop.table(table)))###判对率
[1] 0.98
判别分析是半监督分类,就是判别函数求解的时候按照已知类别样本计算,但是对于未知类别样本应用判别函数时不做任何监督。;而决策树和神经网络等方法属于有监督分类,从分类准则建立,到准则的部署全程控制。训练神经网络和决策树是监督学习的最常见技术。这两种技术(神经网络和决策树)高度依赖于事先确定的分类系统给出的信息。对于神经网络来说,分类系统用于判断网络的错误,然后调整网络适应它;对于决策树,分类系统用来判断哪些属性提供了最多的信息,如此一来可以用它解决分类系统的问题。
下面就介绍几种有监督分类方法
4.利用决策树分类
决策树是以实例为基础的归纳学习算法。它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。 它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较,并根据不同的属性值从该结点向下分支,叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规则,整个决策树就对应着一组析取表达式规则。
> library(tree)
> set.seed(2)
> data(iris)
> train=sample(1:nrow(iris),100)
> iris.test=iris[-train,]
> tree.Species=tree(Species~.,iris,subset=train)
> tree.pred=predict(tree.Species,iris.test,type='class')
> table(tree.pred,iris.test$Species)
tree.pred setosa versicolor virginica
setosa 15 0 0
versicolor 0 16 0
virginica 0 1 18
> table<-table(tree.pred,iris.test$Species)
> sum(diag(prop.table(table)))###判对率
[1] 0.98
5.利用神经网络分类
神经网络建立在有自学习能力的数学模型基础上,可以对复杂的数据进行分析,并完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。神经网络的典型应用是建立分类模型。神经网络从经验中学习,常用于发现一组输入数据和一个结果之间的未知联系神经网络的训练是根据历史样本数据反复进行的。训练过程中,处理单元对数据进行汇总和转换,它们之间的连接被赋以不同的权值。也就是说,为了对每一个样本的结果变量进行预测,一个网络要尝试各种不同的方案。当输出结果在指定的精度级别上与已知结果吻合,或满足其它的结束准则时,网络的训练就不再进行
> library(nnet)
> set.seed(2)
> data(iris)
> iris.nnet <-nnet(Species ~ ., linout = F,size = 10, decay = 0.01, maxit = 1000,trace = F,data = iris)
#对分类数据预测需要加上type参数
> pre.forest=predict(iris.nnet, iris,type='class')
> table(pre.forest,iris$Species)
pre.forest setosa versicolor virginica
setosa 50 0 0
versicolor 0 49 0
virginica 0 1 50
> table<-table(pre.forest,iris$Species)
> sum(diag(prop.table(table)))###判对率
[1] 0.9933333
6.利用支持向量机分类、
SVM学习问题可以表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值。而其他分类方法(如基于规则的分类器和人工神经网络)都采用一种基于贪心学习的策略来搜索假设空间,这种方法一般只能获得局部最优解。 SVM通过最大化决策边界的边缘来控制模型的能力。尽管如此,用户必须提供其他参数,如使用核函数类型和引入松弛变量等。通过对数据中每个分类属性引入一个哑变量,SVM可以应用于分类数据。SVM一般只能用在二类问题,对于多类问题效果不好。
> library(e1071)
> set.seed(2)
> data(iris)
> iris.svm <-svm(Species ~ .,data = iris)
> pre.forest=predict(iris.svm, iris,type='class')
> table(pre.forest,iris$Species)
pre.forest setosa versicolor virginica
setosa 50 0 0
versicolor 0 48 2
virginica 0 2 48
> table<-table(pre.forest,iris$Species)
> sum(diag(prop.table(table)))###判对率
[1] 0.9733333
7.基于距离的分类算法
K—最临近方法(k Nearest Neighbors,简称KNN)是实际运用中经常被采用的一种基于距离的分类算法。KNN算法的基本思想:假定每个类包含多个训练数据,且每个训练数据都有一个唯一的类别标记,计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的k个训练数据,k个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。工作原理:我们知道样本集中每一个数据与所属分类的对应关系,输入没有标签的新数据后,将新数据与训练集的数据对应特征进行比较,找出“距离”最近的k(通常k<20)数据,选择这k个数据中出现最多的分类作为新数据的分类。
> library(kknn)
> data(iris)
> m <- dim(iris)[1]
> val <- sample(1:m, size =round(m/3), replace = FALSE, prob= rep(1/m, m)) ##随机选出训练集合
> iris.train <- iris[-val,]
> iris.test <- iris[val,]
> iris.kknn <- kknn(Species~.,iris.train, iris.test, distance = 5, kernel= "triangular")
> fit <- fitted(iris.kknn)
> table(iris.test$Species, fit)
fit
setosa versicolor virginica
setosa 15 0 0
versicolor 0 15 1
virginica 0 2 17
> table<-table(iris.test$Species, fit)
> sum(diag(prop.table(table)))
[1] 0.94
8.利用logistic回归分类
logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于他们的因变量不同,其他的基本都差不多,正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalized linear model)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同,如果是连续的,就是多重线性回归,如果是二项分布,就是logistic回归。logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。
> library(nnet)
> data(iris)
> set.seed(2)
> train=sample(1:nrow(iris),100)
> iris.train=iris[train,]
> iris.test=iris[-train,]
> iris.logistic<- multinom(Species~., data = iris.train)
# weights: 18 (10 variable)
initial value 109.861229
iter 10 value 15.748434
iter 20 value 3.075288
iter 30 value 1.783451
iter 40 value 1.757924
iter 50 value 1.745571
iter 60 value 1.726390
iter 70 value 1.601147
iter 80 value 1.578286
iter 90 value 1.553331
iter 100 value 1.540946
final value 1.540946
stopped after 100 iterations
> summary(iris.logistic)
Call:
multinom(formula = Species ~ ., data = iris.train)
Coefficients:
(Intercept) Sepal.Length Sepal.Width Petal.Length Petal.Width
versicolor 72.06357 -8.35714 -25.59577 23.57554 -18.06928
virginica -75.84817 -15.20983 -49.04539 50.74856 53.25676
Std. Errors:
(Intercept) Sepal.Length Sepal.Width Petal.Length Petal.Width
versicolor 92.54313 54.78403 108.3836 211.6267 133.9626
virginica 106.83040 57.99244 114.7649 217.0620 148.1710
Residual Deviance: 3.081893
AIC: 23.08189
> iris.pre<-predict(iris.logistic,iris.test,type="class")
> table(iris.pre,iris.test$Species)
iris.pre setosa versicolor virginica
setosa 14 0 0
versicolor 1 17 2
virginica 0 0 16
> table<-table(iris.pre,iris.test$Species)
> sum(diag(prop.table(table)))
[1] 0.94
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16