京公网安备 11010802034615号
经营许可证编号:京B2-20210330
SAS中的协方差分析
所谓的协方差分析,就是在方差分析的基础上加上协变量这一额外因素,而方差分析则只考虑组变量这一因素。协变量可以有一个,也可以有多个。
在这篇文章中,我只讲述单变量的协方差分析。在医学上通常用来判断治疗前后带来的差异性结果是否与治疗前的结果是否存在线性关系,如果存在线性关系,则通过线性模型去掉这一因素所带来的影响。
以人体增重为例,假如在服用某种药物之前体重为X,服用药物之后体重为X1,则减肥效果通常是用Y = X - X1来表示。那么X则称之为协变量。因为在比较不同组间的减肥结果的时候我们需要去除服药前体重的不同而带来的误差,协方差模型就是通过对Y和X以及组变量CLASS建立一个线性回归模型,通过模型来求得X的回归系数β,然后通过Y-β(X - X平均值)得到调整之后的Y,通过这一调整,使得由于不同的疗前体重所带来的误差被剔除,相当于使得大家在疗前都处于同一水平上,进而可以以调整后的Y对组间的减肥效果进行方差分析。
在SAS里,可以通过各种过程步来进行求解,例如reg过程、glm过程。
我就选glm过程,以下述数据作为例子简单写一下如何通过SAS来进行协方差分析。
例:
比较三种猪饲料A1,A2,A3对猪增重的影响,测得每头猪的增重(Y)和出生重(X),数据列在表4-3中。问三种饲料对猪增重是否有显著不同的效果?
表4-3 不同饲料对猪增重的影响
首先确定X为出生体重,组变量为class,反应变量为Y,建立回归模型,如下所示:
data tmp;
input x y @@;
class = scan("A1,A2,A3",ceil(_n_/8));
if class ='A1' then do;
k1 =0; k2 =1;
end;
else if class ='A2' then do;
k1 =1; k2 =0;
end;
else do;
k1 =0; k2 =0;
end;
cards;
16 8513 83 11 6512 76 12 80 16 91 14 84 17 90
17 9716 9018 10018 9521 10322 10619 9918 94
22 8924 9120 8323 9525 10027 10230 10532 110
;
run;
ods output ParameterEstimates = stat;
proc glm data = tmp;
model y = x k1 k2;
run;
ods output close;
得到结果如下所示:
模型的x的回归系数在0.05的水平上是明显不为0的,因此可以认为x与y存在线性关系,那么接下来就需要去掉这一因素不同水平差异而带来的变异了。
proc sql noprint;
create table tmp1 as
select a.*,mean(a.x) as mean_X,b.Estimate as beta, y - beta * (a.x - calculated mean_X) as y1 label = "调整后的Y"
from tmp a,stat b
where b.Parameter = 'x';
quit;
可以看到上述sql过程得到调整之后的y,剔除了不同水平差异的X之后,那么接下里就可以进行方差分析了,这里就不再赘述了。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20