R语言学习笔记二-CDA数据分析师官网

热线电话：13121318867

R语言学习笔记二

2017-02-17

R语言学习笔记二

今天主要学习了两个统计学的基本概念：峰度和偏度，并且用 R语言语言来描述。

> vars<-c("mpg","hp","wt")
> head(mtcars[vars])
                   mpg hp    wt
Mazda RX4         21.0 110 2.620
Mazda RX4 Wag     21.0 110 2.875
Datsun 710        22.8 93 2.320
Hornet 4 Drive    21.4 110 3.215
Hornet Sportabout 18.7 175 3.440
Valiant           18.1 105 3.460

> mystats <- function(x, na.omit = FALSE) {
    if (na.omit)
        x <- x[!is.na(x)]　　#将缺失值置零，如果想单纯的忽略的话也ok
    m <- mean(x)
    n <- length(x)
    s <- sd(x)
    skew <- sum((x - m)^3/s^3)/n　　　　#偏度
    kurt <- sum((x - m)^4/s^4)/n - 3　 #峰度
    return(c(n = n, mean = m, stdev = s, skew = skew, kurtosis = kurt))
}
> sapply(mtcars[vars], mystats)
               mpg          hp          wt
n        32.000000 32.0000000 32.00000000
mean     20.090625 146.6875000 3.21725000
stdev     6.026948 68.5628685 0.97845744
skew      0.610655   0.7260237 0.42314646　　#mpg的偏度为+0.61，正态分布图往右偏
kurtosis -0.372766 -0.1355511 -0.02271075　　#mpg的峰度为-0.37，较正太分布平缓一些

再巩固一下几个概念：

1、正态分布：也叫高斯分布，用最浅显的话来说就是一种“中间多，两边少”的分布；反映在数据上，就是数值在所有数据中间的数量多，偏离中间的数据少；

2、偏度：偏度分布是正态分布的父集，即正态分布的偏度为0；右偏分布（正偏分布）的偏度>0，左偏分布（负偏分布）的偏度<0.如下图所示：

<a href='/map/r/' style='color:#000;font-size:inherit;'>R语言</a>学习笔记（二）0

3、峰度：正态分布的偏度值为3；厚尾（峰度>3），瘦尾（峰度<3）；主要是看概率密度函数的两侧（尾部）：

<a href='/map/r/' style='color:#000;font-size:inherit;'>R语言</a>学习笔记（二）1

九、数组与矩阵
R提供了简单的工具处理数组以及矩阵。
1)数组
维数向量是元素都非负的向量，指示数组或矩阵的维数
矩阵的维数是2维
> dim(my_num)<-c(2,5)
> my_num
      [,1] [,2] [,3] [,4] [,5]
[1,]   11   34   14   21   11
[2,]   22   71   68   22   34
数组的维数是1维
> dim(my_num)<-c(10)
> my_num
[1] 11 22 34 71 14 68 21 22 11 34
一维数组
> c(x[1],x[3])
[1]   11 3388
> x
[1]   11   22 3388
二维数组
使用维数向量设置数组维数：
> dim(h)<-c(2,3)
> h
      [,1] [,2] [,3]
[1,]   12   15 982
[2,]   32   67 321
数组切片操作:
> c(h[1,2],h[2,3])
[1] 15 321
> h[2,]
[1] 32 67 321
如果我们切片仅使用一个下标或一个索引向量，则会直接取适合位置的元素，不受数组维数影响
> h[c(1,2,3)]
[1] 12 32 15
> h[6]
[1] 321
> h[4]
[1] 67
2)索引矩阵
> array(10:20,dim=c(2,5))->x
> x
      [,1] [,2] [,3] [,4] [,5]
[1,]   10   12   14   16   18
[2,]   11   13   15   17   19
> array(c(1:3,5:4,3:5),dim=c(2,3))->i
> i
      [,1] [,2] [,3]
[1,]    1    3    4
[2,]    2    5    3
将索引向量指向的元素提取出来，形成一个向量
> x[i]
[1] 10 11 12 14 13 12
对指向的元素赋值
> x[i]<-111
> x
      [,1] [,2] [,3] [,4] [,5]
[1,] 111 111 111   16   18
[2,] 111 111   15   17   19
3)array使用
Array函数的参数有3个，第一个是需要形成数组元素的数据，第二个是dim参数提示维度
> c(1:20)->h
> mya<-array(h,dim=c(4,5))
> mya
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    5    9   13   17
[2,]    2    6   10   14   18
[3,]    3    7   11   15   19
[4,]    4    8   12   16   20
> mydim<-c(2,10)
> mya<-array(h,dim=c(2,10))
> mya
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    1    3    5    7    9   11   13   15   17    19
[2,]    2    4    6    8   10   12   14   16   18    20
> dim(mya)
[1] 2 10
第一个参数既可以是向量也可以是单个值
> mya<-array(1,dim=c(2,10))
> mya
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    1    1    1    1    1    1    1    1    1     1
[2,]    1    1    1    1    1    1    1    1    1     1
4)数组运算
    逐元素运算
> mya
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    1    3    5    7    9   11   13   15   17    19
[2,]    2    4    6    8   10   12   14   16   18    20
> myb
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    2    2    2    2    2    2    2    2    2     2
[2,]    2    2    2    2    2    2    2    2    2     2
> mya+myb
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    3    5    7    9   11   13   15   17   19    21
[2,]    4    6    8   10   12   14   16   18   20    22
> mya*myb
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    2    6   10   14   18   22   26   30   34    38
[2,]    4    8   12   16   20   24   28   32   36    40
> 3*mya*myb
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    6   18   30   42   54   66   78   90 102   114
[2,]   12   24   36   48   60   72   84   96 108   120
> mya*myb+mya
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    3    9   15   21   27   33   39   45   51    57
[2,]    6   12   18   24   30   36   42   48   54    60
2个数组的外积
定义以下向量:
   列向量 u(b1,b2,b3,b4)
   行向量 v(a1,a2,a3)
它们的外积%o%被定义为:
R语言学习笔记四0
> b<-array(c(1:4))
> a<-array(c(5:6))
> b%o%a
      [,1] [,2]
[1,]    5    6
[2,]   10   12
[3,]   15   18
[4,]   20   24
> b
[1] 1 2 3 4
> a
[1] 5 6
    再举一个例子
> b<-array(c(1:4))
> a<-array(c(5:8))
> a*b
[1] 5 12 21 32
> b
[1] 1 2 3 4
> a
[1] 5 6 7 8
> a%o%b
      [,1] [,2] [,3] [,4]
[1,]    5   10   15   20
[2,]    6   12   18   24
[3,]    7   14   21   28
[4,]    8   16   24   32
生成的数组向量则由 2个数数组向量元素所有可能乘积得到
矩阵转置
5)、使用t完成标准的矩阵转置
> array(h,dim=c(2,5))->mya
> mya
      [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10
> t(mya)
      [,1] [,2]
[1,]    1    2
[2,]    3    4
[3,]    5    6
[4,]    7    8
[5,]    9   10
2、使用aperm函数实现矩阵转置
aperm有2个常用的参数
第一个参数是需要转置的矩阵，第二个参数perm指示新矩阵相对于第一个参数矩阵的维度的下标，比如说，将行转换为列，将列转换为行，将行列次序更换，将第一维的元素与第二维的元素互换,perm设为c(2,1)，perm中是维度下标，不是矩阵下标。数据分析培训
> array(h,dim=c(2,5))->mya
> mya
      [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10
> aperm(mya)->myb
> myb
      [,1] [,2]
[1,]    1    2
[2,]    3    4
[3,]    5    6
[4,]    7    8
[5,]    9   10
> aperm(mya,perm=c(2,1))->myb
> myb
      [,1] [,2]
[1,]    1    2
[2,]    3    4
[3,]    5    6
[4,]    7    8
[5,]    9   10
如果将perm设为c(1,2)表示不交换原矩阵的维度，即不做操作
> mya
      [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10
> aperm(mya,perm=c(1,2))->myb
> myb
      [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10
我们再来看一个3维数组
> array(mya,c(2,2,5))->mya1
> mya1
, , 1
      [,1] [,2]
[1,]    1    3
[2,]    2    4
, , 2
      [,1] [,2]
[1,]    5    7
[2,]    6    8
, , 3
      [,1] [,2]
[1,]    9    1
[2,]   10    2
, , 4
      [,1] [,2]
[1,]    3    5
[2,]    4    6
, , 5
      [,1] [,2]
[1,]    7    9
[2,]    8   10
> aperm(mya1,perm=c(2,1,3))->myb1
> myb1
, , 1
      [,1] [,2]
[1,]    1    2
[2,]    3    4
, , 2
      [,1] [,2]
[1,]    5    6
[2,]    7    8
, , 3
       [,1] [,2]
[1,]    9   10
[2,]    1    2
, , 4
      [,1] [,2]
[1,]    3    4
[2,]    5    6
, , 5
      [,1] [,2]
[1,]    7    8
[2,]    9   10
> aperm(mya1,perm=c(1,3,2))->myb1
> myb1
, , 1
      [,1] [,2] [,3] [,4] [,5]
[1,]    1    5    9    3    7
[2,]    2    6   10    4    8
, , 2
      [,1] [,2] [,3] [,4] [,5]
[1,]    3    7    1    5    9
[2,]    4    8    2    6   10
矩阵的维数与行列数
> ncol(mya)
[1] 5
> nrow(mya)
[1] 2
> dim(mya)
[1] 2 5
6)矩阵乘积
若A为m×n矩阵，B为n×r矩阵，则他们的乘积AB(有时记做A· B)会是一个m×r矩阵，但前提是m与n相同时才有定义。
> a
      [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10
> b
      [,1] [,2]
[1,]    1    6
[2,]    2    7
[3,]    3    8
[4,]    4    9
[5,]    5   10
> a %*% b
      [,1] [,2]
[1,]   95 220
[2,] 110 260
7)内积
使用crossprod函数求内积。
A.向量内积
设向量A=[x1,x2,...xn]，B=[y1,y2,...yn],则矢量A和B的内积表示为:A·B=x1×y1+x2×y2+……+xn×yn。
> a<-c(1:3)
> b<-c(4:6)
> crossprod(a,b)
      [,1]
[1,]   32
B.矩阵内积
矩阵内积的计算方式相当于第一个参数的转置乘以第二个参数，这个乘法是矩阵乘法。
> b<-array(c(4:6),dim=c(1,3))
> a<-array(c(1:3),dim=c(1,3))
> a
      [,1] [,2] [,3]
[1,]    1    2    3
> b
      [,1] [,2] [,3]
[1,]    4    5    6
> crossprod(a,b)
      [,1] [,2] [,3]
[1,]    4    5    6
[2,]    8   10   12
[3,]   12   15   18
> t(a) %*% b
      [,1] [,2] [,3]
[1,]    4    5    6
[2,]    8   10   12
[3,]   12   15   18
C.对角矩阵
通过向量生成矩阵
> a
[1] 1 2 3 4 5 6 7 8
> diag(a)
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
[1,]    1    0    0    0    0    0    0    0
[2,]    0    2    0    0    0    0    0    0
[3,]    0    0    3    0    0    0    0    0
[4,]    0    0    0    4    0    0    0    0
[5,]    0    0    0    0    5    0    0    0
[6,]    0    0    0    0    0    6    0    0
[7,]    0    0    0    0    0    0    7    0
[8,]    0    0    0    0    0    0    0    8
取矩阵的对角线元素组成向量
> a<-array(c(1:16),dim=c(4,4))
> diag(a)
[1] 1 6 11 16
> a
      [,1] [,2] [,3] [,4]
[1,]    1    5    9   13
[2,]    2    6   10   14
[3,]    3    7   11   15
[4,]    4    8   12   16

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

R语言正态分布数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R语言学习笔记二

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略 ...

人工智能在数据分析的应用场景

【CDA干货】评估模型预测为正时的准确性 ...

CDA认证：数据时代的职业通行证

金融行业的大数据变革：五大应用案例深度解析 ...

【CDA干货】Power Query 中实现移动加权平均的详细 ...

数据驱动营销革命：解析数据分析在网络营销中的核心 ...

【CDA干货】随机森林模型与 OPLS-DA 的优缺点深度剖 ...

CDA 一级：开启数据分析师职业大门的钥匙 ...

【CDA干货】透视表内计算两个字段乘积的实用指南 ...

CDA 一级考试备考时长全解析，助你高效备考 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

R语言学习笔记二

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略​​​​ ...

人工智能在数据分析的应用场景

【CDA干货】评估模型预测为正时的准确性 ...

CDA认证：数据时代的职业通行证

金融行业的大数据变革：五大应用案例深度解析 ...

【CDA干货】Power Query 中实现移动加权平均的详细 ...

数据驱动营销革命：解析数据分析在网络营销中的核心 ...

【CDA干货】随机森林模型与 OPLS-DA 的优缺点深度剖 ...

CDA 一级：开启数据分析师职业大门的钥匙 ...

【CDA干货】透视表内计算两个字段乘积的实用指南​ ...

CDA 一级考试备考时长全解析，助你高效备考 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA 数据分析师证书考取全攻略 ...

【CDA干货】透视表内计算两个字段乘积的实用指南 ...