R语言中的线性判别分析_r语言线性判别分析-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读R语言中的线性判别分析_r语言线性判别分析

R语言中的线性判别分析_r语言线性判别分析

2016-12-19

R语言中的线性判别分析_r语言线性判别分析

在 R语言中，线性判别分析（Liner Discriminant Analysis，简称LDA），依靠软件包MASS中有线性判别函数lqa()来实现。该函数有三种调用格式：

1）当对象为数据框data.frame时

lda(x,grouping,prior = propotions,tol = 1.0e-4,method,CV = FALSE,nu,…)

2) 当对象为公式Formula时

lda(formula,data,…,subnet,na.action)

3) 当对象为矩阵Matrix时

lda(x,group,…,subnet,na.action)

对于第一种情况，grouping表示每个观测样本的所属类别；

prior表示各类别的先验概率，默认取训练集中各样本的比例；

tol表示筛选变量，默认取0.0001

对于第二种情况，formula表示判别公式，比如，y~x1+x2+x3,或者y~x1*x1

data表示数据集

subnet表示样本

na.action表示处理缺失值的方法，默认为“如果样本中有缺失值，则lda()函数无法运行”；如果设置为na.omit，则表示“自动删除样本中的缺失值，然后，进行计算”

对于第三种情况，x表示矩阵

data表示数据集

subnet表示样本

下面，举一个例子，来说明线性判别分析。我们选用kknn软件包中的miete数据集进行算法演示。miete数据集记录了1994年慕尼黑的住房佣金标准中一些有趣变量，比如房子的面积、是否有浴室、是否有中央供暖、是否供应热水等等，这些因素都影响着佣金的高低。

1.数据概况

首先，简单了解一下，miete数据集。

> library(kknn) > data(miete) > head(miete)

nm wfl bj bad0 zh ww0 badkach fenster kueche mvdauer bjkat wflkat
1 693.29 50 1971.5 0 1 0 0 0 0 2 4 1
2 736.60 70 1971.5 0 1 0 0 0 0 26 4 2
3 732.23 50 1971.5 0 1 0 0 0 0 1 4 1
4 1295.14 55 1893.0 0 1 0 0 0 0 0 1 2
5 394.97 46 1957.0 0 0 1 0 0 0 27 3 1
6 1285.64 94 1971.5 0 1 0 1 0 0 2 4 3
nmqm rooms nmkat adr wohn
1 13.865800 1 3 2 2
2 10.522857 3 3 2 2
3 14.644600 1 3 2 2
4 23.548000 3 5 2 2
5 8.586304 3 1 2 2
6 13.677021 4 5 2 2

> dim(miete)

[1] 1082 17

我们看到，该数据集一共有1082条样本，和17个变量。下面，我们利用summary（）来查看变量的信息。

> summary(miete)

nm wfl bj bad0 zh ww0

Min. : 127.1 Min. : 20.00 Min. :1800 0:1051 0:202 0:1022
1st Qu.: 543.6 1st Qu.: 50.25 1st Qu.:1934 1: 31 1:880 1: 60
Median : 746.0 Median : 67.00 Median :1957
Mean : 830.3 Mean : 69.13 Mean :1947
3rd Qu.:1030.0 3rd Qu.: 84.00 3rd Qu.:1972
Max. :3130.0 Max. :250.00 Max. :1992
badkach fenster kueche mvdauer bjkat wflkat nmqm
0:446 0:1024 0:980 Min. : 0.00 1:218 1:271 Min. : 1.573
1:636 1: 58 1:102 1st Qu.: 2.00 2:154 2:513 1st Qu.: 8.864
Median : 6.00 3:341 3:298 Median :12.041
Mean :10.63 4:226 Mean :12.647
3rd Qu.:17.00 5: 79 3rd Qu.:16.135
Max. :82.00 6: 64 Max. :35.245
rooms nmkat adr wohn
Min. :1.000 1:219 1: 25 1: 90
1st Qu.:2.000 2:230 2:1035 2:673
Median :3.000 3:210 3: 22 3:319
Mean :2.635 4:208
3rd Qu.:3.000 5:215
Max. :9.000

我们可以选择nmkat(净租金)作为待判别变量—一是，由于该变量在含义上容易受其他变量影响，为被解释变量；二是，nmkat自身就有5个等级类别，其相应的样本量依次为 219、230、210、208、215，即每一类的样本量都为200个左右，分布比较均匀。

2.数据预处理

下面，我们将miete数据集，分为训练集和测试集。

为了提高判别效果，我们考虑采用分层抽样的方式，由于miete数据集中，待判别变量nmkat的5个等级分布比较均匀，因此采用5个等级按等量抽取样本。（如果分布不均匀，则采用按比例抽取样本）。具体如下：

> library(sampling) > n = round(2/3*nrow(miete)/5) > n

[1] 144

可以看到，训练集占总样本的2/3，测试集占总样本的1/3，从训练集中nmkat变量的每一个等级抽取的样本数是144个。

> #以nmkat变量的5个等级划分层次，进行分层抽样 > sub_train = strata(miete,stratanames = "nmkat",size=rep(n,5),method="srswor") > head(sub_train)

#显示训练集抽取的情况，包括nmkat变量取值、该样本在数据集中的序号、被抽取的概率、以及被抽取的层次。

nmkat ID_unit Prob Stratum
1 3 1 0.6857143 1
2 3 2 0.6857143 1
3 3 3 0.6857143 1
16 3 16 0.6857143 1
20 3 20 0.6857143 1
22 3 22 0.6857143 1

> #获取如上ID_unit所对应的样本构成训练集，并删除变量1、3、12 > data_train = getdata(miete[,c(-1,-3,-12)],sub_train$ID_unit) > data_test = getdata(miete[,c(-1,-3,-12)],-sub_train$ID_unit) > dim(data_train); dim(data_test) #分别显示训练集、测试集的维度

[1] 720 14
[1] 362 14

> head(data_test)

wfl bad0 zh ww0 badkach fenster kueche mvdauer bjkat nmqm rooms nmkat
7 28 0 1 0 0 1 1 9 4 17.011071 1 1
8 36 0 1 0 0 0 1 3 4 19.710278 1 3
9 33 0 1 0 0 0 0 1 4 25.840606 1 4
10 57 0 1 0 1 0 1 9 6 11.534035 2 2
11 75 0 1 0 1 0 1 3 6 16.504533 3 5
17 79 0 1 0 0 0 0 20 4 7.507215 3 2
adr wohn
7 2 2
8 2 2
9 2 2
10 2 2
11 2 2
17 2 2

至此，数据理解和数据预处理过程结束，得到可以直接使用的训练集data_train和测试集data_test。

3.线性判别
这里使用公式formula格式，进行判别。首先要加载软件包MASS,接着使用nmkat作为待判别变量，其他变量作为特征变量，根据公式nmkat~. （如果变量为y，则公式为y~. ），使用训练集data_train来运行 lda()函数。

> library(MASS) > fit_lda1 = lda(nmkat~., data_train) #以公式格式进行线性判别 > names(fit_lda1) > fit_lda1$prior

1 2 3 4 5

0.2 0.2 0.2 0.2 0.2

我们可以看到，各类别的先验概率在5个等级中都为0.2，之和为1，即它们都相等，这与它们分别均匀对应。

> fit_lda1$means

wfl bad01 zh1 ww01 badkach1 fenster1 kueche1
1 54.87500 0.055555556 0.6041667 0.138888889 0.3888889 0.06944444 0.04166667
2 60.59722 0.013888889 0.8125000 0.027777778 0.5486111 0.08333333 0.04166667
3 66.76389 0.013888889 0.8194444 0.041666667 0.5208333 0.06944444 0.07638889
4 74.70833 0.013888889 0.8750000 0.041666667 0.6458333 0.03472222 0.07638889
5 90.10417 0.006944444 0.9375000 0.006944444 0.7708333 0.04166667 0.20833333
mvdauer bjkat.L bjkat.Q bjkat.C bjkat^4 bjkat^5
1 14.444444 -0.21580517 -0.104562739 0.031056500 0.17323372 -0.17585847
2 11.923611 -0.12450298 -0.211398581 -0.002588042 0.20604313 -0.12642562
3 11.847222 -0.12782306 -0.145478593 0.049690399 0.16273470 -0.07349309
4 10.347222 -0.08964215 -0.127293769 -0.035197366 0.12861291 0.01137393
5 5.333333 -0.04482107 -0.009092412 0.018633900 0.02624753 -0.01574852
nmqm rooms adr.L adr.Q wohn.L wohn.Q
1 8.231574 2.173611 -0.019641855 -0.7654655 0.03437325 -0.3997431
2 10.988627 2.416667 -0.034373246 -0.7569604 0.08838835 -0.4252586
3 12.495436 2.597222 -0.019641855 -0.7654655 0.11294067 -0.3487121
4 14.107342 2.861111 0.004910464 -0.7909811 0.16695577 -0.3912379
5 17.108865 3.250000 0.019641855 -0.7484552 0.27498597 -0.2041241

从上面的结果中，可以看到一些很能反映现实情况的数据特征。比如，住房面积wfl变量，它明显随着租金nmkat的升高而逐步提高。这与我们的常识“房子的面积越大，租金就越贵”是十分吻合的。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

先验概率 R语言特征

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R语言中的线性判别分析_r语言线性判别分析

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】机器学习算法工程实用案例解析：从落地 ...

【CDA干货】卷积神经网络与无迹卡尔曼滤波融合：原 ...

CDA数据分析师：数据清洗实操指南，筑牢数据分析的 ...

【CDA干货】决策树模型变量重要性排序：原理、方法 ...

【CDA干货】Excel卡方检验实操全指南：从原理到落地 ...

CDA数据分析师：数据整合实操指南，打破数据孤岛， ...

【CDA干货】数据分析全流程常见问题：成因、危害与 ...

【CDA干货】维度表与事实表：数据仓库的核心双子星 ...

CDA数据分析师：数据读取实操指南，打通数据价值转 ...

【CDA干货】用户行为分析中泛化性指标：计算方法、 ...

【CDA干货】以数为鉴，读懂用户：三大行业用户行为 ...

CDA数据分析师：量化策略分析框架，解锁数据驱动决 ...

【CDA干货】随机森林模型训练全解析：从参数调优到 ...

【CDA干货】随机森林算法重要性分析：原理、实操与 ...

CDA数据分析师：数据思维赋能企业管理，激活决策新 ...

【CDA干货】数据分析赋能价值创造：国内外知名经典 ...

【CDA干货】Python爬取163网易财经上市公司财务报表 ...

CDA数据分析师：数字化时代，数据思维的核心步骤与 ...

【CDA干货】线性回归拟合性判断实战指南：从指标解 ...

【CDA干货】安装SQL Server后提示“服务名无效”： ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

R语言中的线性判别分析_r语言 线性判别分析

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】机器学习算法工程实用案例解析：从落地 ...

【CDA干货】卷积神经网络与无迹卡尔曼滤波融合：原 ...

CDA数据分析师：数据清洗实操指南，筑牢数据分析的 ...

【CDA干货】决策树模型变量重要性排序：原理、方法 ...

【CDA干货】Excel卡方检验实操全指南：从原理到落地 ...

CDA数据分析师：数据整合实操指南，打破数据孤岛， ...

【CDA干货】数据分析全流程常见问题：成因、危害与 ...

【CDA干货】维度表与事实表：数据仓库的核心双子星 ...

CDA数据分析师：数据读取实操指南，打通数据价值转 ...

【CDA干货】用户行为分析中泛化性指标：计算方法、 ...

【CDA干货】以数为鉴，读懂用户：三大行业用户行为 ...

CDA数据分析师：量化策略分析框架，解锁数据驱动决 ...

【CDA干货】随机森林模型训练全解析：从参数调优到 ...

【CDA干货】随机森林算法重要性分析：原理、实操与 ...

CDA数据分析师：数据思维赋能企业管理，激活决策新 ...

【CDA干货】数据分析赋能价值创造：国内外知名经典 ...

【CDA干货】Python爬取163网易财经上市公司财务报表 ...

CDA数据分析师：数字化时代，数据思维的核心步骤与 ...

【CDA干货】线性回归拟合性判断实战指南：从指标解 ...

【CDA干货】安装SQL Server后提示“服务名无效”： ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

R语言中的线性判别分析_r语言线性判别分析