京公网安备 11010802034615号
经营许可证编号:京B2-20210330
SAS中的协方差分析
所谓的协方差分析,就是在方差分析的基础上加上协变量这一额外因素,而方差分析则只考虑组变量这一因素。协变量可以有一个,也可以有多个。
在这篇文章中,我只讲述单变量的协方差分析。在医学上通常用来判断治疗前后带来的差异性结果是否与治疗前的结果是否存在线性关系,如果存在线性关系,则通过线性模型去掉这一因素所带来的影响。
以人体增重为例,假如在服用某种药物之前体重为X,服用药物之后体重为X1,则减肥效果通常是用Y = X - X1来表示。那么X则称之为协变量。因为在比较不同组间的减肥结果的时候我们需要去除服药前体重的不同而带来的误差,协方差模型就是通过对Y和X以及组变量CLASS建立一个线性回归模型,通过模型来求得X的回归系数β,然后通过Y-β(X - X平均值)得到调整之后的Y,通过这一调整,使得由于不同的疗前体重所带来的误差被剔除,相当于使得大家在疗前都处于同一水平上,进而可以以调整后的Y对组间的减肥效果进行方差分析。
在SAS里,可以通过各种过程步来进行求解,例如reg过程、glm过程。
我就选glm过程,以下述数据作为例子简单写一下如何通过SAS来进行协方差分析。
例:
比较三种猪饲料A1,A2,A3对猪增重的影响,测得每头猪的增重(Y)和出生重(X),数据列在表4-3中。问三种饲料对猪增重是否有显著不同的效果?
表4-3 不同饲料对猪增重的影响
首先确定X为出生体重,组变量为class,反应变量为Y,建立回归模型,如下所示:
data tmp;
input x y @@;
class = scan("A1,A2,A3",ceil(_n_/8));
if class ='A1' then do;
k1 =0; k2 =1;
end;
else if class ='A2' then do;
k1 =1; k2 =0;
end;
else do;
k1 =0; k2 =0;
end;
cards;
16 8513 83 11 6512 76 12 80 16 91 14 84 17 90
17 9716 9018 10018 9521 10322 10619 9918 94
22 8924 9120 8323 9525 10027 10230 10532 110
;
run;
ods output ParameterEstimates = stat;
proc glm data = tmp;
model y = x k1 k2;
run;
ods output close;
得到结果如下所示:
模型的x的回归系数在0.05的水平上是明显不为0的,因此可以认为x与y存在线性关系,那么接下来就需要去掉这一因素不同水平差异而带来的变异了。
proc sql noprint;
create table tmp1 as
select a.*,mean(a.x) as mean_X,b.Estimate as beta, y - beta * (a.x - calculated mean_X) as y1 label = "调整后的Y"
from tmp a,stat b
where b.Parameter = 'x';
quit;
可以看到上述sql过程得到调整之后的y,剔除了不同水平差异的X之后,那么接下里就可以进行方差分析了,这里就不再赘述了。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15在CDA(Certified Data Analyst)数据分析师的日常工作中,“高维数据处理”是高频痛点——比如用户画像包含“浏览次数、停留时 ...
2026-01-15在教育测量与评价领域,百分制考试成绩的分布规律是评估教学效果、优化命题设计的核心依据,而正态分布则是其中最具代表性的分布 ...
2026-01-15在用户从“接触产品”到“完成核心目标”的全链路中,流失是必然存在的——电商用户可能“浏览商品却未下单”,APP新用户可能“ ...
2026-01-14在产品增长的核心指标体系中,次日留存率是当之无愧的“入门级关键指标”——它直接反映用户对产品的首次体验反馈,是判断产品是 ...
2026-01-14在CDA(Certified Data Analyst)数据分析师的业务实操中,“分类预测”是高频核心需求——比如“预测用户是否会购买商品”“判 ...
2026-01-14在数字化时代,用户的每一次操作——无论是电商平台的“浏览-加购-下单”、APP的“登录-点击-留存”,还是金融产品的“注册-实名 ...
2026-01-13在数据驱动决策的时代,“数据质量决定分析价值”已成为行业共识。数据库、日志系统、第三方平台等渠道采集的原始数据,往往存在 ...
2026-01-13在CDA(Certified Data Analyst)数据分析师的核心能力体系中,“通过数据建立模型、实现预测与归因”是进阶关键——比如“预测 ...
2026-01-13在企业数字化转型过程中,业务模型与数据模型是两大核心支撑体系:业务模型承载“业务应该如何运转”的逻辑,数据模型解决“数据 ...
2026-01-12当前手游市场进入存量竞争时代,“拉新难、留存更难”成为行业普遍痛点。对于手游产品而言,用户留存率不仅直接决定产品的生命周 ...
2026-01-12在CDA(Certified Data Analyst)数据分析师的日常工作中,“挖掘变量间的关联关系”是高频核心需求——比如判断“用户停留时长 ...
2026-01-12在存量竞争时代,用户流失率直接影响企业的营收与市场竞争力。无论是电商、互联网服务还是金融行业,提前精准预测潜在流失用户, ...
2026-01-09在量化投资领域,多因子选股是主流的选股策略之一——其核心逻辑是通过挖掘影响股票未来收益的各类因子(如估值、成长、盈利、流 ...
2026-01-09在CDA(Certified Data Analyst)数据分析师的工作场景中,分类型变量的关联分析是高频需求——例如“用户性别与商品偏好是否相 ...
2026-01-09数据库中的历史数据,是企业运营过程中沉淀的核心资产——包含用户行为轨迹、业务交易记录、产品迭代日志、市场活动效果等多维度 ...
2026-01-08在电商行业竞争日趋激烈的当下,数据已成为驱动业务增长的核心引擎。电商公司的数据分析师,不仅是数据的“解读官”,更是业务的 ...
2026-01-08