使用R进行统计分析--概率计算-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读使用R进行统计分析--概率计算

使用R进行统计分析--概率计算

2017-02-24

使用R进行统计分析--概率计算

R语言中提供了很多概率函数，可以方便的计算事件发生的概率。如二项分布概率函数和泊松分布概率函数。本篇文章介绍如果使用R语言中的这些函数求解事件发生的概率。

概率函数和前缀

R语言中每个概率分布都有对应的函数名称，例如二项分布是binmo，泊松分布是pois，正态分布是norm等等。每个函数都分别有四个不同的前缀，加上前缀可以生成随机数，求解概率和临界值等等。下面是四个前缀对应功能的说明。

r = random = 随机

d= density = 密度

p= probability = 概率

q =quantile = 分位

二项分布概率

假设网站的Landingpage页面中共有20个入口，那么我们预估每个入口被点击的概率为1/20，即P=0.05。(实际情况会复杂一些，每个入口在页面中的位置和展现的形式都会不一样，一般首屏的入口比后面的入口会获得更多点击，图片和按钮形式的入口比文字类的入口更容易受到关注，导航和焦点图和Action按钮比其他类型的入口更容易被点击。如有要获得最真实的点击概率，需要参考这个页面中每个入口的历史点击概率数据，这里我们只是假设一种理想情况来说明计算过程。)那么在10000次点击中，关键按钮获得550次的概率是多少？

先来简单介绍下 R语言中的二项分布函数和其中参数的含义，二项分布函数为binom，前缀d表示求密度，前缀p表示求累计概率。参数中X表示实验的成功次数，size表示实验次数，prob表示概率值。在这个例子中成功次数是550，实验次数是10000，概率为0.05。

#点击率0.05的情况下10000次点击中关键按钮恰好被点击550次的概率
> dbinom(x = 550,size = 10000,prob = 0.05)

[1] 0.001362855

经过计算10000次点击中关键按钮恰好被点击550次的概率为0.0013，这只是550次这个事件发生的概率值，并不包含549次点击和551次点击。但实际情况中恰好获得550并不是我们实际的目标。因此我们换一种计算方法再来看下。

#点击率0.05的情况下10000次点击中关键按钮被点击1-550次的概率
> sum(dbinom(x = 1:550,size = 10000,prob = 0.05))

[1] 0.9889429

在成功次数X中从之前的550变成了1:550，然后进行sum求和。获得从1点点击到550次点击的累计概率。从结果中可以看到概率高达0.98。这能说明10000次点击中关键按钮获得550次点击的概率非常高吗？我们能信心满满的说获得550次点击是个高概率事件吗？恐怕还不行。因为这是一个累计概率值，是从1次到550次的汇总。但我们的目标是获得550次或更多的点击，那么550次以下的点击量概率其实是我们不需要的。因此实际的概率值没有这么高。

> pbinom(q = 550,size = 10000,prob = 0.05)

[1] 0.9889429

计算积累概率值还有一个更简单的方法就是在二项分布概率函数的前面加前缀p，就可以自动获得550次点击的累计概率值了。结果与前面的方法一致。

#点击率0.05的情况下10000次点击中关键按钮获得500次到550次区间的点击的概率
> sum(dbinom(x = 500:550,size = 10000,prob = 0.05))

[1] 0.4953496

前面两种方法获得的概率值一个太低，一个太高。还有一种方法是只计算某个区间的概率值，这里我们将获得点击的次数限定在500次——550次之间，来求这一区间的概率值。从结果来看10000次点击中关键按钮获得500次——550次点击的概率为0.49。

#点击率0.05的情况下10000次点击中关键按钮分别获得500次到550次点击的概率
> dbinom(x = 500:550,size = 10000,prob = 0.05)

[1] 0.018301669 0.018265138 0.018190454 0.018078155 0.017929014 0.017744025 0.017524393 0.017271524 0.016987006 0.016672594 0.016330195

[12] 0.015961845 0.015569690 0.015155968 0.014722985 0.014273095 0.013808680 0.013332131 0.012845824 0.012352105 0.011853270 0.011351550

[23] 0.010849097 0.010347966 0.009850108 0.009357356 0.008871418 0.008393869 0.007926149 0.007469553 0.007025237 0.006594211 0.006177343

[34] 0.005775361 0.005388857 0.005018291 0.004663995 0.004326183 0.004004957 0.003700313 0.003412150 0.003140280 0.002884435 0.002644275

[45] 0.002419399 0.002209352 0.002013632 0.001831702 0.001662993 0.001506913 0.001362855

以上是点击量500次——到550次分解的概率值，0.49的概率值由以上的各个概率汇总而来。

#点击率0.05的情况下10000次点击中关键按钮获得550次以上点击的概率
> sum(dbinom(x = 551:10000,size = 10000,prob = 0.05))

[1] 0.01105708

再来看最开始的问题，10000次点击中关键按钮获得550次点击的概率。550次以下的点击不是我们希望的结果，因此我们再来看下点击量超过550次的概率有多少。从结果来看获得点击量在551次——10000次的概率仅为0.011，因此获得超过550次以上的点击的概率比较低。

#点击率0.05的情况下10000次点击中关键按钮获得550次以上点击的概率
> 1-pbinom(q = 550,size = 10000,prob = 0.05)

[1] 0.01105708

由于从0到10000次点击的所有概率为1，因此用1减550次以下的概率值也能获得相同的结果。

泊松分布概率

假设在一次市场活动中，上一个小时中有40个用户注册，那么下一个小时有50个用户注册的概率是多少？

这里需要使用泊松分布概率函数，泊松分布函数是pois，第一个参数x是下一个时间段事件发生的次数，lambda是上一个时间段事件发生的次数。在这个例子中x=50， lambda=40。

#上一小时产生40个注册用户，下一小时产生恰好50个注册用户的概率
> dpois(x = 50,lambda = 40)

[1] 0.01770702

经过计算，下一个小时恰好有50个注册用户的概率为0.017。与二项分布中的问题一样，0.017是恰好50个用户的概率。不是49个用户也不是51个用户的概率。

#上一小时产生40个注册用户，下一小时产生1-50个注册用户的概率
> sum(dpois(x = 1:50,lambda = 40))

[1] 0.947372

把下一小时注册用户的数量改为1:50，并进行求和，获得了下一个小时获得1-50个注册用户的累计概率值。这个值有0.94。但我们的目标是50个注册用户，虽然概率很高但低于50的事件发生并不是我们的目标。

> ppois(q = 50,lambda = 40)

[1] 0.947372

这是另一种计算方法，把泊松分布函数的前缀换为p，计算50个注册用户的累计概率值，结果与前面的方法一致。

#上一小时产生40个注册用户，下一小时产生40-50个注册用户区间的概率
> sum(dpois(x = 40:50,lambda = 40))

[1] 0.4684008

前一小时40个注册用户，后一个小时目标50个注册用户，我们来看下下一个小时注册用户是40-50这个区间的概率是多少。经过计算这个区间发生的概率为0.46。

#上一小时产生40个注册用户，下一小时分别产生40-50个注册用户的概率
> dpois(x = 40:50,lambda = 40)

[1] 0.06294704 0.06141175 0.05848738 0.05440686 0.04946078 0.04396514 0.03823056 0.03253664 0.02711387 0.02213377 0.01770702

这里显示了40-50个注册用户分别的发生概率，0.46的概率值由以上各个概率值汇总计算获得。

#上一小时产生40个注册用户，下一小时产生50个注册用户以上的概率
> 1-ppois(q = 50,lambda = 40)

[1] 0.05262805

最后再来看下下一个小时注册用户数量超过50的概率。用1减去50个用户的累计概率值就是超过50个注册用户发生的概率，计算结果是0.052，因此下一个小时获得超过50个注册用户的概率不高。数据分析师培训

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

R语言正态分布统计分析数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

使用R进行统计分析--概率计算

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】Python HTTP请求工具类：从封装到实战的 ...

【CDA干货】标准差/均值＞0.5：数据高波动的实用判 ...

CDA数据分析师：以SQL为刃，精准挖掘数据价值 ...

一文讲清楚CDA数据分析师考试，2025年最新Q&A，你想 ...

【CDA干货】Excel柱形图背景色设置：从基础美化到数 ...

【CDA干货】t检验：小样本统计推断的核心工具——从 ...

CDA数据分析师：以数据库为基，筑牢数据洞察根基 ...

【CDA干货】神经网络最后一层：激活函数加还是不加 ...

【CDA干货】特征相对重要性：解锁模型鲁棒性与可解 ...

CDA数据分析师：指标体系搭建方法论，让数据驱动精 ...

【CDA干货】回归分析中调整后R方为负？本质、成因与 ...

【CDA干货】经纬度热力图：从离散坐标到空间密度的 ...

CDA数据分析师：用通用与场景指标，构建业务洞察双 ...

【CDA干货】季节分解法：解锁时间序列数据的“四季 ...

【CDA干货】大数据存储技术全景解析：从架构到选型 ...

CDA数据分析师：以指标为钥，解锁数据与业务的连接 ...

【CDA干货】神经网络损失函数：没有“最佳值”，但 ...

CDA数据分析师：用参数估计，让样本数据说出总体真 ...

【CDA干货】数据标准化后出现负值？别急！场景化解 ...

【CDA干货】数据驱动增长：三大行业A/B测试落地案例 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载