热线电话：13121318867

在R中用箱形图做组间比较

2021-09-07

来源：丁点帮你

作者：丁点helper

之前的文章讲了如何用R绘制箱形图，以此来帮助我们了解数据的整体分布情况、是否存在异常值。除此之外，箱形图还可以进行数据的组间比较。

分组变量的数据清理

多重线性回归，一般是指有多个自变量X，只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍，两者的差距主要在于自变量X的数量，在只有一个X时，就称简单线性回归。

本次我们用到的是学生的课堂调查数据，包括了性别、年级、专业、身高、最喜欢的动物(讲数据清理时用的是这个变量，还记得吗)等变量。数据名：survey.csv，数据链接：

首先导入数据，存入survey这个数据集中：

survey <- read.csv("//Users//Desktop//survey.csv", 
                     header = TRUE) # 获取数据中包含的变量名 names(survey)
 [1] "ClassProb" "Status" "Year" "Division" "Gender" "HtCm" "Hand" "Haircut" "Exercise" [10] "Coursework" "Web" "TV" "Social" "Econ" "Animal" "Friends" "Pulse"

接下来我们以Gender作为分组依据，先来看看这个变量的情况。

table(survey$Gender) Choose not to answer Female Gender non-conforming Male 1 1 117 1 118

我们发现，除了female和male，有的同学回答了Choose not to answer，Gender non-conforming，还有同学什么都没填，空缺。

今天我们暂时将这三种特殊情况从数据中删去。

# 查看针对Gender这个变量，同学们有几类回答 levels(survey$Gender)
[1] "" "Choose not to answer" "Female" "Gender non-conforming" "Male"

在这五类回答中，我们想保留的是第3、第5类。也就是说，仅保留Gender为"Female" 或 "Male"的记录。

# 把更新后的数据存储在survey2这个对象中 survey2 <- survey[survey$Gender %in% levels(survey$Gender)[c(3,5)],]

这里，a %in%b的作用是，用a中的元素去匹配b中的任意元素，如果匹配成功，则返回结果为TRUE，反之，则结果为FALSE。

此时，上面的语句就简化为如下所示，c()里面是TRUE和FALSE的集合，是a中每个元素与b匹配的结果。

survey2 <- survey[c(),] # 这是为了便于理解写的简化语句，不能够运行的

survey2中仅保留了匹配结果为TRUE的记录：

table(survey2$Gender) Choose not to answer Female Gender non-conforming Male 0 0 117 0 118

哎？虽然记录被删了，但Gender中之前包含的五个类都还在，用下面的droplevels()这个函数删掉那些没有记录的类。

survey2$Gender <- droplevels(survey2$Gender)
table(survey2$Gender)
Female   Male 
   117    118

绘制整体和各组数据的箱形图

数据清理好之后，我们以身高HtCm这个变量为例，先用之前讲过的方法绘制箱形图，了解改变量的整体分布，然后对比性别之间的身高差异。

boxplot(survey2$HtCm, main="Boxplot of Ht in cm",          col='orange', lwd=2)

一目了然，我们调查的是大学学生，却出现了身高小于100厘米的情况，不符合常理。现在去检查一下原始数据。

sort(survey2$HtCm) # 将身高从小到大排序

部分结果截图

实际操作中，大家要尽量核实那些极端身高数据的真实情况，修正数据。这里我们为便于教学，直接把那些小于100厘米的身高值记录为缺失。

然后利用整理后的身高数据绘制箱形图。

survey2$HtCm[survey2$HtCm < 100 ] <- NA
 boxplot(survey2$HtCm, main="Boxplot of Ht in cm", 
          col='orange', lwd=2)

最后绘制不同性别学生的身高箱形图。

boxplot(survey2$HtCm~survey2$Gender, 
         main="Boxplot of Ht in cm", 
         col=c(2,3), lwd=2)

由图可知，男生的身高基本都高于女生。将两个箱形图放在一起，可以清晰地看到两组变量的大致情况，便于给两组做粗略的比较。

但是这男女生身高到底有没有统计学上的差异，肉眼是很难得出结论的，统计学上怎么做呢？

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

线性回归数据清理数据存储异常值

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇智能“三反”模型开发

下一篇Python字典操作零基础学习，一步到位

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

在R中用箱形图做组间比较

分组变量的数据清理

绘制整体和各组数据的箱形图

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：崔爱军谈地产行业数据治理与数据中 ...

【CDA干货】显著水平与P值的核心区别、关联关系及实 ...

为什么统计是数据分析师的“底层语言”？ ...

【CDA干货】数据分析核心技能体系：从工具落地到业 ...

【CDA干货】企业价值市场法价值比率与线性回归分析 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

CDA持证人专访：赵君研谈金融行业数据分析与运营岗 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载