
SAS中的协方差分析
所谓的协方差分析,就是在方差分析的基础上加上协变量这一额外因素,而方差分析则只考虑组变量这一因素。协变量可以有一个,也可以有多个。
在这篇文章中,我只讲述单变量的协方差分析。在医学上通常用来判断治疗前后带来的差异性结果是否与治疗前的结果是否存在线性关系,如果存在线性关系,则通过线性模型去掉这一因素所带来的影响。
以人体增重为例,假如在服用某种药物之前体重为X,服用药物之后体重为X1,则减肥效果通常是用Y = X - X1来表示。那么X则称之为协变量。因为在比较不同组间的减肥结果的时候我们需要去除服药前体重的不同而带来的误差,协方差模型就是通过对Y和X以及组变量CLASS建立一个线性回归模型,通过模型来求得X的回归系数β,然后通过Y-β(X - X平均值)得到调整之后的Y,通过这一调整,使得由于不同的疗前体重所带来的误差被剔除,相当于使得大家在疗前都处于同一水平上,进而可以以调整后的Y对组间的减肥效果进行方差分析。
在SAS里,可以通过各种过程步来进行求解,例如reg过程、glm过程。
我就选glm过程,以下述数据作为例子简单写一下如何通过SAS来进行协方差分析。
例:
比较三种猪饲料A1,A2,A3对猪增重的影响,测得每头猪的增重(Y)和出生重(X),数据列在表4-3中。问三种饲料对猪增重是否有显著不同的效果?
表4-3 不同饲料对猪增重的影响
首先确定X为出生体重,组变量为class,反应变量为Y,建立回归模型,如下所示:
data tmp;
input x y @@;
class = scan("A1,A2,A3",ceil(_n_/8));
if class ='A1' then do;
k1 =0; k2 =1;
end;
else if class ='A2' then do;
k1 =1; k2 =0;
end;
else do;
k1 =0; k2 =0;
end;
cards;
16 8513 83 11 6512 76 12 80 16 91 14 84 17 90
17 9716 9018 10018 9521 10322 10619 9918 94
22 8924 9120 8323 9525 10027 10230 10532 110
;
run;
ods output ParameterEstimates = stat;
proc glm data = tmp;
model y = x k1 k2;
run;
ods output close;
得到结果如下所示:
模型的x的回归系数在0.05的水平上是明显不为0的,因此可以认为x与y存在线性关系,那么接下来就需要去掉这一因素不同水平差异而带来的变异了。
proc sql noprint;
create table tmp1 as
select a.*,mean(a.x) as mean_X,b.Estimate as beta, y - beta * (a.x - calculated mean_X) as y1 label = "调整后的Y"
from tmp a,stat b
where b.Parameter = 'x';
quit;
可以看到上述sql过程得到调整之后的y,剔除了不同水平差异的X之后,那么接下里就可以进行方差分析了,这里就不再赘述了。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
MySQL 执行计划中 rows 数量的准确性解析:原理、影响因素与优化 在 MySQL SQL 调优中,EXPLAIN执行计划是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 对象的 text 与 content:区别、场景与实践指南 在 Python 进行 HTTP 网络请求开发时(如使用requests ...
2025-09-15CDA 数据分析师:激活表格结构数据价值的核心操盘手 表格结构数据(如 Excel 表格、数据库表)是企业最基础、最核心的数据形态 ...
2025-09-15Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05