京公网安备 11010802034615号
经营许可证编号:京B2-20210330
【R语言】单一样本推断问题
非参数统计概念:
在实际问题中,对数据的分布形式和统计模型难以作出比较明确的假定,最多只能对总体的分布做出类似于连续性型分布或者对某点对称等一般性假定。这种不假设总体分布的具体形式,尽量从数据(样本)本身获得所需要的信息,通过估计而获得分布的结构,并逐步建立对事物的数学描述和统计建模的方法称为非参数方法。
单一样本的推断问题:
符号检验
符号检验所关心的就是通过符号“+”“-”的个数来进行统计推断
eg:假设某城市16座欲出售的楼盘均价(单位:百元 /平方米)
36 32 31 25 28 36 40 32 41 26 35 35 32 87 33 35
问:该地盘楼盘价格是否与媒体公布的3700元/平方米说法相符?
分析:
总体均值的点估计是样本均值,总体中位数的点估计是样本中位数,由于中位数的稳健性,将37理解为总体的中位数,则假设问题为:
H0:M=37 H1: M不等于37(待检验的中位数值)
假设:
S+:位于37右边的个数 S-: 位于37左边的个数
令K=min{S+,S-},且K服从p=0.5的二项分布
R代码:
##1.S-为检验统计量
sign1.test = function(x,pi,q0){
s1 = sum(x<q0) #S-的个数
s2 = sum(x>q0) #S+的个数
n = s1+s2
p1 = pbinom(s1,n,pi) ### 取检验统计量K=S-,计算 P(K<=s1)
p2 = 1-pbinom(s1-1,n,pi) ### 计算 P(K>=s1)
if(p1 < p2){ m1 = "one tail test:H1: Q > q0"
}else{
m1 = "one tail test:H1: Q < q0"
}
p.value = min(p1,p2)
m2 = "two tails test"
p.value2 = 2*p.value
list(sign.test.type = m1,p.values.of.one.test = p.value,p.value.of.two.tail.test = p.value2)
}
##以上便构建了符号检验的函数,接下来可以直接调用
data=c(36,31,25,28,36,40,32,41,26,35,35,32,87,33,35,32)##赋值
x=median(data)##获取样本中位数
sign1.test(data,0.5,37)
结果解读:
p=0.02127<0.05(显著性水平),拒绝H0,认为该地盘楼盘价格是否与媒体公布的3700元/平方米存在显著差异。
趋势检验
对于趋势分析,我们用一些数对来反映前后数据的变化。为保证数对同分布,前后两个数的间隔应该固定;为保证数对不受局部干扰,前后两个数的间隔应该较大。Cox-Staut趋势检验,是以数列中位于中间位置的数为拆分点,前后两两组成数对。
例:一个住宅小区的夜间噪音长期一直保持在30分贝。后来附近有建筑工地施工。数据是连续12天夜间在该小区所测得的噪声水平(分贝)。
30,31,33,35,31,30,68,60,65,67,66,64
请问:该建筑工地是否提高了小区的噪声水平?
建立假设:
Ho:该建筑工地没有提高小区的噪声水平
H1:该建筑工地提高了小区的噪声水平
检验统计量选取:
S=min{S+,S-}
S+:每一数对前后两值之差为正的个数
S-:每一数对前后两值之差为负的个数
R代码:
CS.test = function(x){
m = length(x)
c = if(m/2-round(m/2)==0){m/2}else{(m+1)/2} ### 此处亦可用floor(m/2)代替round(m/2)
d = if(m/2-round(m/2)==0){x[1:c]-x[(c+1):m]}else{x[1:(c-1)]-x[(c+1):m]}
n1 = length(d[which(d > 0)]) ### n1 = length(which(d > 0))
n2 = length(d[which(d < 0)])
n = n1+n2
s1 = sum(sign(d)== 1)
s2 = sum(sign(d)== -1)
if(n1 > n2){
m1 = "one tail test:H1: decreasing"
p.value = pbinom(n2,n,0.5)
}else{
m1 = "one tail test:H1: increasing"
p.value = pbinom(n1,n,0.5)
}
m2 = "two tails test"
s = min(s1,s2)
p.value2 = 2*pbinom(s,n,0.5)
if(n1==n2){p.value = 0.5;p.value2 = 1}
list(sign.test.type = m1,p.values.of.one.test = p.value,p.value.of.two.tail.test = p.value2)
}
上述就是Cox-Staut检验的算法代码
代入数据:
x=c(30,31,33,35,31,30,68,60,65,67,66,64)
结果分析:
单边检验P=0.015625<0.05(显著性水平)
故拒绝H0,认为该建筑工地提高了小区的噪声水平。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11