用R语言进行数据探索
这一次我们来说一下数据的探索性分析,R语言图标100X76
1) 主要分析工具
主要的图形表示方法有
1条图(barplot):用于分类数据。
2.直方图(hist)、点图(dotchart)、茎叶图(stem):用于观察数值型分布的形状。
3.箱线图(boxplot):给出数值型分布的汇总数据,适用 于不同分布的比较和拖尾、截尾分布的识别。
4.正态概率图(qqnorm):用于观察数据是否近似地服从 正态分布。
2)单变量数据分析
一 分类型数据
对于分类数据我们可以用频数表来分析,也可以用条形图和饼图来描述。
1. 分类频数表(table) 频数表可以描述一个分类变量的数值分布概况。table(x)
2. 条图(Barplot) 条图的高度可以是频数或频率,图的形状看起来是一样,但是刻度不一样。R 画条形图的命令是 barplot()。对分类数据作条 形图,需先对原始数据分组,否则作出的不是分类数据的条形图。
3.饼图用于表示各类别某种特征的构成比情况,它以图形的总面积为 100%,扇形面积的 大小表示事物内部各组成部分所占的百分比构成比。用命令 pie(),像条形图一样对原始数据作饼图前要先分组。
二 数值型数据
1. 集中趋势和离散程度 对于数值型数据,经常要分析一个分布的集中趋势和离散程度,用来描述集中趋势的主要有均值,中位数;描述离散程度的 主要有方差、标准差。求均值、中位数、方差、标准差的命令分别是 mean()、median()、var()、sd()在 R 里还提供了 fivenum()对数值数据五等分法(运算) 和 summary()求出分位数:
2.稳健的集中趋势和离散程度 用均值和方差描述集中趋势和离散程度往往基于正态分布,而如果数据是长尾或是有异常值时,这时用均值和方差就不 能正确地描述集中趋势和离散程度。还可以利用截尾均值来描述用 R 计算截尾均值,只要在 mean 函数里对 trim 参数进行设置就可以了,例如:mean(salarym,trim=0.2)
3. 茎叶图 用函数 stem()
4.对数值数据分组 在 R 里可以用 cut 函数对数值数据进行分组。并用 table()函数整理成 频数表形式:
例如: salaryg=cut(salary,breaks=c(2000,3000,4000,max(salary)))
5. 直方图直方图用于表示(描述)连续性变量的频数分布,用于考察变量的分布是否服从某种分布类型。R 里用来作(做)直方图的函数是 hist(),作频率直方图,把 probability 参数设置为 T 可以了,默认为 F。用 rug()命令把各个数据竖线描绘在 X 轴上。
6. 箱线图 函数是 boxplot( ) 可以设置垂直型和水平型,默认 是垂直型,要得到水平型箱线图,只要把参数 horizontal 设为 T。
7. 密度函数线density()
3) 双变量数据分析
一 分类数据对分类数据
1. 二维表 R 的 table()函数可以把双变量分类数据整理成二维表形式, table 命令处理双变量数据类似于处理单变量数据,只是参数(变 量)由原来的一个变成了两个。
2.计算边缘概率,用函数 prop.table( ),其句法是:prop.table(x, margin),当 margin=1 时,表示各个数据占行汇总数的比例,margin=2 表示各 个数据占列汇总数的比例,省略时,表示占总和的比例。
3 复杂(复式)条图
R 作条形图的函数是 barplot( ),不过在作条形图前需对数据进行分组。
二 分类数据对数值型数据
此处学习时对照着视频中的例题可以很好的理解
三 数值型数据对数值型数据
1 散点图 plot( )函数
2. 相关系数 相关系数用来反映两个数值变量的相关程度。求相关系 数的函数是 cor()。cor( )也可以求 spearman 等级 相关系数(秩相关系数)。
4)多变量数据分析
一 访问数据框数据
1 attach( )函数将数据框“连接(绑定)”入当前的名字空间, 从而可以直接用数据框中的变量名访问而不必用“数据框名$变量 名”这种格式。当变量较多时,通常将其存为一个文本文件
2. 以数组形式访问 数组名[行,列]
3. 以列表形式访问数据框 在列表名称后面加$符号,再写上变量名还可以用列表名[[变量名(号)]]形式访问。
二 数据框的拆分与合并
R 里拆分数据框和合并数据框分别用函数 unstack( )、 stack( )。
三 多变量数据的分析
1 多维列联表 able( )函数可生成多维表。
2 复式条形图 复式条形图多考察了一个分组因素,常用于考察比较两组研究对 象的某观察指标。作复式条形图之前应先对数值数据进行分组, 然后用 table( )函数作频数表。作复式条形图的函数是 barplot( ), R 默认的分段式复式条形图,要作并列式复式条形图,要设置参 数 beside=TRUE。
3. 并列箱线图 对于多变量数据经常要用到箱线图来分析各个变量的分布情况。函数是 boxplot( )
4. 点带图(stripchart) 箱线图经常用来比较各变量的分布情况,尤其是当每个变量都有很(较)多的观察值时,点带图也可以用来比较各变量的分 布情况,但主要用在样本观察值比较少时。R 作点带图的函数是 stripchart( ),对于双变量数据其用法是 stripchart(z~t),z 变量 在 t 变量上的分布情况,不同的是这里 z 变量刻度在 x 轴上,而 t 变量在 y 轴上。
5. 多变量散点图
(1)重叠散点图 有时出于研究的需要,需将两个或多组两个变量的散点图绘
制在同一个图中,这样可以更好比较它们之间的相关关系,这时就可以绘重叠散点图。
(2)矩阵式散点图 当欲同时考察三个或三个以上的数值变量间的相关关系时,
若一一绘制它们之间的简单散点图,十分麻烦。利用矩阵式散点 图比较合适,这样可以快速发现多个变量间主要相关性,这一点 在多元线性回归显得尤为重要。R 作矩阵式散点图的函数是 pairs()。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23大咖简介: 刘凯,CDA大咖汇特邀讲师,DAMA中国分会理事,香港金管局特聘数据管理专家,拥有丰富的行业经验。本文将从数据要素 ...
2025-04-22CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03