数值型数据的探索分析-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读数值型数据的探索分析

数值型数据的探索分析

2017-01-31

数值型数据的探索分析

数据分析过程中，往往需要对数据作基本的探索性分析，查看数据是否存在问题，如缺失值数量、是否存在明显的异常值、数据是如何分布的、数据的集中趋势和离散趋势等。

探索性分析一般包括三大部分，即数据的分布情况、数据的集中与离散趋势和数据的分布形态：

首先来看看关于数据分布情况的探索性分析。一般统计中通过5数就可以大致了解数据的分布，他们是最小值、下四分位数、中位数、上四分位数和最大值。

其次看看数据的集中趋势和离散趋势，通过集中趋势可以了解数据的中心值或代表值，通过离散趋势可以了解数据远离中心的程度。关于集中趋势，一般可使用均值、众数、中位数来衡量，离散趋势一般通过标准差、极差和四分位差来体现。

最后看看数据的分布形态，数据的分布形态无非是相比于正态分布而言，即偏度和峰度。偏度是数据分布形态呈现左偏或右偏；峰度是数据分布形态呈现尖瘦或矮胖。对于偏度和峰度需要说明的是：若偏度=0，则无偏；若偏度>0，则有偏；若偏度<0，则左偏；若峰度=0，则陡峭程度与正态分布一致；如峰度>0，则分布陡峭；若峰度<0，则分布平缓。

下面从定量和定性的角度看观察数据的探索性分析过程：

自定义函数describe_statistics，函数返回变量的观测数目、缺失值数目、最小值、下四分位数、中位数、上四分位数、最大值、均值、众数、标准差、极差、四分位差、偏度和峰度。这里的自定义函数返回结果类似于SAS的输出结果形态：

```{r}

describe_statistics <- function(x){

options(digits = 3)

require(timeDate);

N = length(x);

Nmiss = sum(is.na(x));

Min = min(x, na.rm = TRUE);

Q1 = quantile(x, probs = 0.25, na.rm = TRUE);

Median = median(x, na.rm = TRUE);

Q3 = quantile(x, probs = 0.75, na.rm = TRUE);

Max = max(x, na.rm = TRUE);

Mean = mean(x, na.rm = TRUE);

Mode = as.numeric(names(table(x)))[which.max(table(x))];

Sd = sd(x, na.rm = TRUE);

Range = abs(diff(range(x)));

QRange = IQR(x, na.rm = TRUE);

Skewness = skewness(x, na.rm = TRUE);

Kurtosis = kurtosis(x, na.rm = TRUE);

#返回函数结果

return(data.frame(N = N, Nmiss = Nmiss, Min = Min, Q1 = Q1, Median = Median, Q3 = Q3, Max = Max, Mean = Mean, Mode = Mode, Sd = Sd, Range = Range, QRange = QRange, Skewness = Skewness, Kurtosis = Kurtosis))

}

```

下面我们就用这个自定义函数来测试一下，通过上面的这些统计量值来探索数据分布、集中趋势、离散趋势和分布形态。由于本文讲解的是数值型数据的探索分析，故需要将数据框中的数值型数据挑选出来，仍然自定义函数，返回数据框中所有数值型数据的字段：

```{r}

Value_Variables <- function(df){

Vars <- names(df)[sapply(df,class) == 'integer' | sapply(df,class) == 'numeric']

return(Vars)

}

```

以R中自带的iris数据集测试：

```{r}

vars <- Value_Variables(iris)

res <- sapply(iris[,vars], describe_statistics)

res

```

上面的结果呈现了鸢尾花四个数值型变量的探索性分析。

以C50包中的churnTrain数据集测试：

```{r}

library(C50)

data(churn)

vars <- Value_Variables(churnTrain)

res <- sapply(churnTrain[,vars], describe_statistics)

res

```

很显然，当变量很多时，这样的返回结果让人看的很难受，如要使输出结果便读的话，可以将返回结果转置：

```{r}

t(res)

```

这会结果要比较整齐，好看。

以上是从定量的角度来探索数据的分布、集中趋势、离散趋势和分布形态，下面我们简单介绍一下定性的方法。

从定性角度，即通过可视化来进行数据的探索性分析，强烈推荐使用GGally包中的ggpairs()函数，该函数将绘制两两变量的相关系数、散点图，同时也绘制出单变量的密度分布图：

```{r}

library(GGally)

vars <- Value_Variables(iris)

ggpairs(iris[,vars])

```

上图不仅仅反映了数据的分布情况、还得出两两变量间的散点图和相关系数，可为下一步分析做铺垫。

数据的探索性分析过程中，通过定量和定性方法的搭配，可使分析者快速的了解数据的结构、分布及内在关系。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

正态分布散点图字段数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

数值型数据的探索分析

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...

【CDA干货】统计模型的分类与应用场景全解析：从理 ...

【CDA干货】SELECT * 与指定个别字段查询效率深度分 ...

指标体系：CDA数据分析师的核心能力载体，用体系化 ...

【CDA干货】Power BI函数大全：分类、实操与实战全 ...

【CDA干货】次日留存率计算公式：原理、实操与应用 ...

指标的基本概念：CDA数据分析师的实操根基与洞察抓 ...

【CDA干货】随机森林特征重要性：原理、实操与应用 ...

【CDA干货】MySQL按日期分组：保证每天都有数据，无 ...

描述性统计：CDA数据分析师的入门必修课，让数据特 ...

【马年宠粉｜集赞0元领】转发CDA真题海报，水杯/颈 ...

【CDA干货】Anaconda下载库慢？3种实操方法，彻底解 ...

【CDA干货】Tableau两表未连接部分显示0而非Null： ...

统计基本概念：CDA数据分析师的实操根基与价值落地 ...

【CDA干货】一文读懂如何规避数据滥用风险：全流程 ...

【CDA干货】小样本配对数据：Wilcoxon检验与配对样 ...

透视分析方法：CDA数据分析师的核心实操工具与价值 ...

【CDA干货】一文搞定SQL字段varchar转double：语法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

数值型数据的探索分析

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA一级知识点汇总手册：第3章 商业数据分析框架 ...

CDA一级知识点汇总手册：第2章 数据分析方法 ...

CDA一级知识点汇总手册：第1章 数据分析思维 ...

【CDA干货】统计模型的分类与应用场景全解析：从理 ...

【CDA干货】SELECT * 与指定个别字段查询效率深度分 ...

指标体系：CDA数据分析师的核心能力载体，用体系化 ...

【CDA干货】Power BI函数大全：分类、实操与实战全 ...

【CDA干货】次日留存率计算公式：原理、实操与应用 ...

指标的基本概念：CDA数据分析师的实操根基与洞察抓 ...

【CDA干货】随机森林特征重要性：原理、实操与应用 ...

【CDA干货】MySQL按日期分组：保证每天都有数据，无 ...

描述性统计：CDA数据分析师的入门必修课，让数据特 ...

【马年宠粉｜集赞0元领】转发CDA真题海报，水杯/颈 ...

【CDA干货】Anaconda下载库慢？3种实操方法，彻底解 ...

【CDA干货】Tableau两表未连接部分显示0而非Null： ...

统计基本概念：CDA数据分析师的实操根基与价值落地 ...

【CDA干货】一文读懂如何规避数据滥用风险：全流程 ...

【CDA干货】小样本配对数据：Wilcoxon检验与配对样 ...

透视分析方法：CDA数据分析师的核心实操工具与价值 ...

【CDA干货】一文搞定SQL字段varchar转double：语法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...