R语言学习笔记二-CDA数据分析师官网

热线电话：13121318867

R语言学习笔记二

2017-02-17

R语言学习笔记二

今天主要学习了两个统计学的基本概念：峰度和偏度，并且用 R语言语言来描述。

> vars<-c("mpg","hp","wt")
> head(mtcars[vars])
                   mpg hp    wt
Mazda RX4         21.0 110 2.620
Mazda RX4 Wag     21.0 110 2.875
Datsun 710        22.8 93 2.320
Hornet 4 Drive    21.4 110 3.215
Hornet Sportabout 18.7 175 3.440
Valiant           18.1 105 3.460

> mystats <- function(x, na.omit = FALSE) {
    if (na.omit)
        x <- x[!is.na(x)]　　#将缺失值置零，如果想单纯的忽略的话也ok
    m <- mean(x)
    n <- length(x)
    s <- sd(x)
    skew <- sum((x - m)^3/s^3)/n　　　　#偏度
    kurt <- sum((x - m)^4/s^4)/n - 3　 #峰度
    return(c(n = n, mean = m, stdev = s, skew = skew, kurtosis = kurt))
}
> sapply(mtcars[vars], mystats)
               mpg          hp          wt
n        32.000000 32.0000000 32.00000000
mean     20.090625 146.6875000 3.21725000
stdev     6.026948 68.5628685 0.97845744
skew      0.610655   0.7260237 0.42314646　　#mpg的偏度为+0.61，正态分布图往右偏
kurtosis -0.372766 -0.1355511 -0.02271075　　#mpg的峰度为-0.37，较正太分布平缓一些

再巩固一下几个概念：

1、正态分布：也叫高斯分布，用最浅显的话来说就是一种“中间多，两边少”的分布；反映在数据上，就是数值在所有数据中间的数量多，偏离中间的数据少；

2、偏度：偏度分布是正态分布的父集，即正态分布的偏度为0；右偏分布（正偏分布）的偏度>0，左偏分布（负偏分布）的偏度<0.如下图所示：

<a href='/map/r/' style='color:#000;font-size:inherit;'>R语言</a>学习笔记（二）0

3、峰度：正态分布的偏度值为3；厚尾（峰度>3），瘦尾（峰度<3）；主要是看概率密度函数的两侧（尾部）：

<a href='/map/r/' style='color:#000;font-size:inherit;'>R语言</a>学习笔记（二）1

九、数组与矩阵
R提供了简单的工具处理数组以及矩阵。
1)数组
维数向量是元素都非负的向量，指示数组或矩阵的维数
矩阵的维数是2维
> dim(my_num)<-c(2,5)
> my_num
      [,1] [,2] [,3] [,4] [,5]
[1,]   11   34   14   21   11
[2,]   22   71   68   22   34
数组的维数是1维
> dim(my_num)<-c(10)
> my_num
[1] 11 22 34 71 14 68 21 22 11 34
一维数组
> c(x[1],x[3])
[1]   11 3388
> x
[1]   11   22 3388
二维数组
使用维数向量设置数组维数：
> dim(h)<-c(2,3)
> h
      [,1] [,2] [,3]
[1,]   12   15 982
[2,]   32   67 321
数组切片操作:
> c(h[1,2],h[2,3])
[1] 15 321
> h[2,]
[1] 32 67 321
如果我们切片仅使用一个下标或一个索引向量，则会直接取适合位置的元素，不受数组维数影响
> h[c(1,2,3)]
[1] 12 32 15
> h[6]
[1] 321
> h[4]
[1] 67
2)索引矩阵
> array(10:20,dim=c(2,5))->x
> x
      [,1] [,2] [,3] [,4] [,5]
[1,]   10   12   14   16   18
[2,]   11   13   15   17   19
> array(c(1:3,5:4,3:5),dim=c(2,3))->i
> i
      [,1] [,2] [,3]
[1,]    1    3    4
[2,]    2    5    3
将索引向量指向的元素提取出来，形成一个向量
> x[i]
[1] 10 11 12 14 13 12
对指向的元素赋值
> x[i]<-111
> x
      [,1] [,2] [,3] [,4] [,5]
[1,] 111 111 111   16   18
[2,] 111 111   15   17   19
3)array使用
Array函数的参数有3个，第一个是需要形成数组元素的数据，第二个是dim参数提示维度
> c(1:20)->h
> mya<-array(h,dim=c(4,5))
> mya
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    5    9   13   17
[2,]    2    6   10   14   18
[3,]    3    7   11   15   19
[4,]    4    8   12   16   20
> mydim<-c(2,10)
> mya<-array(h,dim=c(2,10))
> mya
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    1    3    5    7    9   11   13   15   17    19
[2,]    2    4    6    8   10   12   14   16   18    20
> dim(mya)
[1] 2 10
第一个参数既可以是向量也可以是单个值
> mya<-array(1,dim=c(2,10))
> mya
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    1    1    1    1    1    1    1    1    1     1
[2,]    1    1    1    1    1    1    1    1    1     1
4)数组运算
    逐元素运算
> mya
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    1    3    5    7    9   11   13   15   17    19
[2,]    2    4    6    8   10   12   14   16   18    20
> myb
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    2    2    2    2    2    2    2    2    2     2
[2,]    2    2    2    2    2    2    2    2    2     2
> mya+myb
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    3    5    7    9   11   13   15   17   19    21
[2,]    4    6    8   10   12   14   16   18   20    22
> mya*myb
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    2    6   10   14   18   22   26   30   34    38
[2,]    4    8   12   16   20   24   28   32   36    40
> 3*mya*myb
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    6   18   30   42   54   66   78   90 102   114
[2,]   12   24   36   48   60   72   84   96 108   120
> mya*myb+mya
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    3    9   15   21   27   33   39   45   51    57
[2,]    6   12   18   24   30   36   42   48   54    60
2个数组的外积
定义以下向量:
   列向量 u(b1,b2,b3,b4)
   行向量 v(a1,a2,a3)
它们的外积%o%被定义为:
R语言学习笔记四0
> b<-array(c(1:4))
> a<-array(c(5:6))
> b%o%a
      [,1] [,2]
[1,]    5    6
[2,]   10   12
[3,]   15   18
[4,]   20   24
> b
[1] 1 2 3 4
> a
[1] 5 6
    再举一个例子
> b<-array(c(1:4))
> a<-array(c(5:8))
> a*b
[1] 5 12 21 32
> b
[1] 1 2 3 4
> a
[1] 5 6 7 8
> a%o%b
      [,1] [,2] [,3] [,4]
[1,]    5   10   15   20
[2,]    6   12   18   24
[3,]    7   14   21   28
[4,]    8   16   24   32
生成的数组向量则由 2个数数组向量元素所有可能乘积得到
矩阵转置
5)、使用t完成标准的矩阵转置
> array(h,dim=c(2,5))->mya
> mya
      [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10
> t(mya)
      [,1] [,2]
[1,]    1    2
[2,]    3    4
[3,]    5    6
[4,]    7    8
[5,]    9   10
2、使用aperm函数实现矩阵转置
aperm有2个常用的参数
第一个参数是需要转置的矩阵，第二个参数perm指示新矩阵相对于第一个参数矩阵的维度的下标，比如说，将行转换为列，将列转换为行，将行列次序更换，将第一维的元素与第二维的元素互换,perm设为c(2,1)，perm中是维度下标，不是矩阵下标。数据分析培训
> array(h,dim=c(2,5))->mya
> mya
      [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10
> aperm(mya)->myb
> myb
      [,1] [,2]
[1,]    1    2
[2,]    3    4
[3,]    5    6
[4,]    7    8
[5,]    9   10
> aperm(mya,perm=c(2,1))->myb
> myb
      [,1] [,2]
[1,]    1    2
[2,]    3    4
[3,]    5    6
[4,]    7    8
[5,]    9   10
如果将perm设为c(1,2)表示不交换原矩阵的维度，即不做操作
> mya
      [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10
> aperm(mya,perm=c(1,2))->myb
> myb
      [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10
我们再来看一个3维数组
> array(mya,c(2,2,5))->mya1
> mya1
, , 1
      [,1] [,2]
[1,]    1    3
[2,]    2    4
, , 2
      [,1] [,2]
[1,]    5    7
[2,]    6    8
, , 3
      [,1] [,2]
[1,]    9    1
[2,]   10    2
, , 4
      [,1] [,2]
[1,]    3    5
[2,]    4    6
, , 5
      [,1] [,2]
[1,]    7    9
[2,]    8   10
> aperm(mya1,perm=c(2,1,3))->myb1
> myb1
, , 1
      [,1] [,2]
[1,]    1    2
[2,]    3    4
, , 2
      [,1] [,2]
[1,]    5    6
[2,]    7    8
, , 3
       [,1] [,2]
[1,]    9   10
[2,]    1    2
, , 4
      [,1] [,2]
[1,]    3    4
[2,]    5    6
, , 5
      [,1] [,2]
[1,]    7    8
[2,]    9   10
> aperm(mya1,perm=c(1,3,2))->myb1
> myb1
, , 1
      [,1] [,2] [,3] [,4] [,5]
[1,]    1    5    9    3    7
[2,]    2    6   10    4    8
, , 2
      [,1] [,2] [,3] [,4] [,5]
[1,]    3    7    1    5    9
[2,]    4    8    2    6   10
矩阵的维数与行列数
> ncol(mya)
[1] 5
> nrow(mya)
[1] 2
> dim(mya)
[1] 2 5
6)矩阵乘积
若A为m×n矩阵，B为n×r矩阵，则他们的乘积AB(有时记做A· B)会是一个m×r矩阵，但前提是m与n相同时才有定义。
> a
      [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10
> b
      [,1] [,2]
[1,]    1    6
[2,]    2    7
[3,]    3    8
[4,]    4    9
[5,]    5   10
> a %*% b
      [,1] [,2]
[1,]   95 220
[2,] 110 260
7)内积
使用crossprod函数求内积。
A.向量内积
设向量A=[x1,x2,...xn]，B=[y1,y2,...yn],则矢量A和B的内积表示为:A·B=x1×y1+x2×y2+……+xn×yn。
> a<-c(1:3)
> b<-c(4:6)
> crossprod(a,b)
      [,1]
[1,]   32
B.矩阵内积
矩阵内积的计算方式相当于第一个参数的转置乘以第二个参数，这个乘法是矩阵乘法。
> b<-array(c(4:6),dim=c(1,3))
> a<-array(c(1:3),dim=c(1,3))
> a
      [,1] [,2] [,3]
[1,]    1    2    3
> b
      [,1] [,2] [,3]
[1,]    4    5    6
> crossprod(a,b)
      [,1] [,2] [,3]
[1,]    4    5    6
[2,]    8   10   12
[3,]   12   15   18
> t(a) %*% b
      [,1] [,2] [,3]
[1,]    4    5    6
[2,]    8   10   12
[3,]   12   15   18
C.对角矩阵
通过向量生成矩阵
> a
[1] 1 2 3 4 5 6 7 8
> diag(a)
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
[1,]    1    0    0    0    0    0    0    0
[2,]    0    2    0    0    0    0    0    0
[3,]    0    0    3    0    0    0    0    0
[4,]    0    0    0    4    0    0    0    0
[5,]    0    0    0    0    5    0    0    0
[6,]    0    0    0    0    0    6    0    0
[7,]    0    0    0    0    0    0    7    0
[8,]    0    0    0    0    0    0    0    8
取矩阵的对角线元素组成向量
> a<-array(c(1:16),dim=c(4,4))
> diag(a)
[1] 1 6 11 16
> a
      [,1] [,2] [,3] [,4]
[1,]    1    5    9   13
[2,]    2    6   10   14
[3,]    3    7   11   15
[4,]    4    8   12   16

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

正态分布 R语言数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R语言学习笔记二

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...

【CDA干货】统计模型的分类与应用场景全解析：从理 ...

【CDA干货】SELECT * 与指定个别字段查询效率深度分 ...

指标体系：CDA数据分析师的核心能力载体，用体系化 ...

【CDA干货】Power BI函数大全：分类、实操与实战全 ...

【CDA干货】次日留存率计算公式：原理、实操与应用 ...

指标的基本概念：CDA数据分析师的实操根基与洞察抓 ...

【CDA干货】随机森林特征重要性：原理、实操与应用 ...

【CDA干货】MySQL按日期分组：保证每天都有数据，无 ...

描述性统计：CDA数据分析师的入门必修课，让数据特 ...

【马年宠粉｜集赞0元领】转发CDA真题海报，水杯/颈 ...

【CDA干货】Anaconda下载库慢？3种实操方法，彻底解 ...

【CDA干货】Tableau两表未连接部分显示0而非Null： ...

统计基本概念：CDA数据分析师的实操根基与价值落地 ...

【CDA干货】一文读懂如何规避数据滥用风险：全流程 ...

【CDA干货】小样本配对数据：Wilcoxon检验与配对样 ...

透视分析方法：CDA数据分析师的核心实操工具与价值 ...

【CDA干货】一文搞定SQL字段varchar转double：语法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

R语言学习笔记二

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA一级知识点汇总手册：第3章 商业数据分析框架 ...

CDA一级知识点汇总手册：第2章 数据分析方法 ...

CDA一级知识点汇总手册：第1章 数据分析思维 ...

【CDA干货】统计模型的分类与应用场景全解析：从理 ...

【CDA干货】SELECT * 与指定个别字段查询效率深度分 ...

指标体系：CDA数据分析师的核心能力载体，用体系化 ...

【CDA干货】Power BI函数大全：分类、实操与实战全 ...

【CDA干货】次日留存率计算公式：原理、实操与应用 ...

指标的基本概念：CDA数据分析师的实操根基与洞察抓 ...

【CDA干货】随机森林特征重要性：原理、实操与应用 ...

【CDA干货】MySQL按日期分组：保证每天都有数据，无 ...

描述性统计：CDA数据分析师的入门必修课，让数据特 ...

【马年宠粉｜集赞0元领】转发CDA真题海报，水杯/颈 ...

【CDA干货】Anaconda下载库慢？3种实操方法，彻底解 ...

【CDA干货】Tableau两表未连接部分显示0而非Null： ...

统计基本概念：CDA数据分析师的实操根基与价值落地 ...

【CDA干货】一文读懂如何规避数据滥用风险：全流程 ...

【CDA干货】小样本配对数据：Wilcoxon检验与配对样 ...

透视分析方法：CDA数据分析师的核心实操工具与价值 ...

【CDA干货】一文搞定SQL字段varchar转double：语法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...