R语言与非参数统计（核密度估计）-CDA数据分析师官网

热线电话：13121318867

R语言与非参数统计（核密度估计）

2017-07-21

R语言与非参数统计（核密度估计）

核密度估计是在概率论中用来估计未知的密度函数，属于非参数检验方法之一，由Rosenblatt (1955)和Emanuel Parzen(1962)提出，又名Parzen窗（Parzen window）。

假设我们有n个数X1-Xn,我们要计算某一个数X的概率密度有多大。核密度估计的方法是这样的：

其中K为核密度函数,h为设定的窗宽。

核密度估计的原理其实是很简单的。在我们对某一事物的概率分布的情况下。如果某一个数在观察中出现了，我们可以认为这个数的概率密度很大，和这个数比较近的数的概率密度也会比较大，而那些离这个数远的数的概率密度会比较小。基于这种想法，针对观察中的第一个数，我们都可以f(x-xi)去拟合我们想象中的那个远小近大概率密度。当然其实也可以用其他对称的函数。针对每一个观察中出现的数拟合出多个概率密度分布函数之后，取平均。如果某些数是比较重要，某些数反之，则可以取加权平均。

但是核密度的估计并不是，也不能够找到真正的分布函数。我们可以举一个极端的例子：在R中输入：

plot(density(rep(0, 1000)))

可以看到它得到了正态分布的曲线，但实际上呢？从数据上判断，它更有可能是一个退化的单点分布。

但是这并不意味着核密度估计是不可取的，至少他可以解决许多模拟中存在的异方差问题。比如说我们要估计一下下面的一组数据：

set.seed(10)
dat<-c(rgamma(300,shape=2,scale=2),rgamma(100,shape=10,scale=2))

可以看出它是由300个服从gamma（2,2）与100个gamma（10,2）的随机数构成的，他用参数统计的办法是没有办法得到一个好的估计的。那么我们尝试使用核密度估计：

plot(density(dat),ylim=c(0,0.2))

将利用正态核密度与标准密度函数作对比

dfn<-function(x,a,alpha1,alpha2,theta){
    a*dgamma(x,shape=alpha1,scale=theta)+(1-a)*dgamma(x,shape=alpha2,scale=theta)}
    pfn<-function(x,a,alpha1,alpha2,theta){
    a*pgamma(x,shape=alpha1,scale=theta)+(1-a)*pgamma(x,shape=alpha2,scale=theta)}
    curve(dfn(x,0.75,2,10,2),add=T,col="red")

得到下图：

（红色的曲线为真实密度曲线）

可以看出核密度与真实密度相比，得到大致的估计是不成问题的。至少趋势是得到了的。如果换用gamma分布的核效果无疑会更好，但是遗憾的是r中并没有提供那么多的核供我们挑选（其实我们知道核的选择远没有窗宽的选择来得重要），所以也无需介怀。

R中提供的核：kernel = c("gaussian", "epanechnikov", "rectangular", "triangular", "biweight","cosine", "optcosine")。

我们先来看看窗宽的选择对核密度估计的影响：

dfn1<-function(x){
    0.5*dnorm(x,3,1)+0.5*dnorm(x,-3,1)}
    par(mfrow=c(2,2))
    curve(dfn1(x),from=-6,to=6)
    data<-c(rnorm(200,3,1),rnorm(200,-3,1))
    plot(density(data,bw=8))
    plot(density(data,bw=0.8))
    plot(density(data,bw=0.08))

得到下图，我们可以清楚的看到带宽为0.8恰好合适，其余的不是拟合不足便是过拟合。

窗宽究竟该如何选择呢？

我们这里不加证明的给出最佳窗宽选择公式：

(这个基于积分均方误差最小的角度得到的)

这里介绍两个可操作的窗宽估计办法：(这两种方法都比较容易导致过分光滑)

1、 Silverman大拇指法则

这里使用R(phi’’)/sigma^5估计R（f’’），phi代表标准正态密度函数，得到h的表达式：

h=(4/(3n))^(*1/5)*sigma

2、极大光滑原则

h=3*(R(K)/(35n))^(1/5)*sigma

当然也有比较麻烦的窗宽估计办法，比如缺一交叉验证，插入法等，可以参阅《computational statistics》一书

我们用上面的两种办法得到的窗宽是多少，他的核密度估计效果好吗？

我们还是以上面的混合正态数据为例来看看效果。

使用大拇指法则，将数据n=400,sigma=3.030658,带入公式，h=0.9685291

使用极大光滑原则，假设K为正态核，R(K)=1/(sqrt(2*pi))，h=1.121023

可以看出他们都比我们认为的h=0.8要大一些，作图如下：

plot(density(data,bw=0.9685))

plot(density(data,bw=1.1210))

由我们给出的

以Gauss核为例做核密度估计

用Gauss核做核密度估计的R程序如下（还是使用我们的混合正态密度的例子）：

ker.density=function(x,h){
     x=sort(x)
     n=length(x);s=0;t=0;y=0
     for(i in 2:n)
       s[i]=0
     for(i in 1:n){
       for(j in 1:n)
         s[i]=s[i]+exp(-((x[i]-x[j])^2)/(2*h*h))
       t[i]=s[i]
      }
     for(i in 1:n)
       y[i]=t[i]/(n*h*sqrt(2*pi))
     z=complex(re=x,im=y)
     hist(x,freq=FALSE)
     lines(z)
    }
    ker.density(data,0.8)

作图如下：

最后说一个R的内置函数density（）。其实我觉得如果不是为了简要介绍核密度估计的一些常识我们完全可以只学会这个函数

先看看函数的基本用法：

density(x, ...)

## Default S3 method:

density(x, bw = "nrd0", adjust = 1,

        kernel = c("gaussian", "epanechnikov", "rectangular",

                   "triangular", "biweight",

                   "cosine", "optcosine"),

        weights = NULL, window = kernel, width,

        give.Rkern = FALSE,

        n = 512, from, to, cut = 3, na.rm = FALSE, ...)

对重要参数做出较为详细的说明：

X:我们要进行核密度估计的数据

Bw:窗宽，这里可以由我们自己制定，也可以使用默认的办法nrd0: Bandwidth selectors for Gaussian kernels。我们还可以使用bw.SJ(x,nb = 1000, lower = 0.1 * hmax, upper = hmax, method = c("ste","dpi"), tol = 0.1 * lower)，这里的method =”dpi”就是前面提到过的插入法，”ste”代表solve-the-equationplug-in，也是插入法的改进

Kernel：核的选择

Weights:对比较重要的数据采取加权处理

对于上述混合正态数据data，有

> density(data)

Call:

       density.default(x = data)

Data: data (400 obs.); Bandwidth 'bw' = 0.8229

      x                 y

Min. :-7.5040   Min.   :0.0000191

1stQu.:-3.5076   1st Qu.:0.0064919

Median : 0.4889   Median :0.0438924

Mean   :0.4889   Mean   :0.0624940

3rdQu.: 4.4853   3rd Qu.:0.1172919

Max.   :8.4817   Max.   :0.1615015

知道带宽：h=0.8229（采取正态密度核）那么带入密度估计式就可以写出密度估计函数。

最后以faithful数据集为例说明density的用法：

R数据集faithful是old faithful火山爆发的数据，其中“eruption”是火山爆发的持续时间，waiting是时间间隔

对数据“eruption”做核密度估计

R程序：

data(faithful)
A<-faithful
x<-A[,"eruptions"]
density(x)
plot(density(x))

知道h= 0.3348

作图：

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

正态分布过拟合 R语言

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R语言与非参数统计（核密度估计）

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...

【CDA干货】统计模型的分类与应用场景全解析：从理 ...

【CDA干货】SELECT * 与指定个别字段查询效率深度分 ...

指标体系：CDA数据分析师的核心能力载体，用体系化 ...

【CDA干货】Power BI函数大全：分类、实操与实战全 ...

【CDA干货】次日留存率计算公式：原理、实操与应用 ...

指标的基本概念：CDA数据分析师的实操根基与洞察抓 ...

【CDA干货】随机森林特征重要性：原理、实操与应用 ...

【CDA干货】MySQL按日期分组：保证每天都有数据，无 ...

描述性统计：CDA数据分析师的入门必修课，让数据特 ...

【马年宠粉｜集赞0元领】转发CDA真题海报，水杯/颈 ...

【CDA干货】Anaconda下载库慢？3种实操方法，彻底解 ...

【CDA干货】Tableau两表未连接部分显示0而非Null： ...

统计基本概念：CDA数据分析师的实操根基与价值落地 ...

【CDA干货】一文读懂如何规避数据滥用风险：全流程 ...

【CDA干货】小样本配对数据：Wilcoxon检验与配对样 ...

透视分析方法：CDA数据分析师的核心实操工具与价值 ...

【CDA干货】一文搞定SQL字段varchar转double：语法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

R语言与非参数统计（核密度估计）

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA一级知识点汇总手册：第3章 商业数据分析框架 ...

CDA一级知识点汇总手册：第2章 数据分析方法 ...

CDA一级知识点汇总手册：第1章 数据分析思维 ...

【CDA干货】统计模型的分类与应用场景全解析：从理 ...

【CDA干货】SELECT * 与指定个别字段查询效率深度分 ...

指标体系：CDA数据分析师的核心能力载体，用体系化 ...

【CDA干货】Power BI函数大全：分类、实操与实战全 ...

【CDA干货】次日留存率计算公式：原理、实操与应用 ...

指标的基本概念：CDA数据分析师的实操根基与洞察抓 ...

【CDA干货】随机森林特征重要性：原理、实操与应用 ...

【CDA干货】MySQL按日期分组：保证每天都有数据，无 ...

描述性统计：CDA数据分析师的入门必修课，让数据特 ...

【马年宠粉｜集赞0元领】转发CDA真题海报，水杯/颈 ...

【CDA干货】Anaconda下载库慢？3种实操方法，彻底解 ...

【CDA干货】Tableau两表未连接部分显示0而非Null： ...

统计基本概念：CDA数据分析师的实操根基与价值落地 ...

【CDA干货】一文读懂如何规避数据滥用风险：全流程 ...

【CDA干货】小样本配对数据：Wilcoxon检验与配对样 ...

透视分析方法：CDA数据分析师的核心实操工具与价值 ...

【CDA干货】一文搞定SQL字段varchar转double：语法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...