sas输出基尼方差，F检验-CDA数据分析师官网

热线电话：13121318867

sas输出基尼方差，F检验

2017-04-03

sas输出基尼方差，F检验

有时候，我们在建模前期会有一个变量探索的单变量与因变量的数据分析报告，但其实，不同的数据形式有不同的指标来衡量变量与因变量的解释能力

今天的代码介绍的就是单变量与因变量之间的基尼方差，F检验的输出，你会说那proc reg中就有p值的输出啊，为什么要自己写。我个人是觉得proc reg是针对线性回归的，但是我们今天用到的因变量依旧还是二元的分类变量，所以就用我自己写到啦。

基尼方差

基尼方差被定义为衡量以下三种情况下变量之间的关联性指标：

1、一个连续变量和一个名字或顺序变量。

2、两个名字变量。

3、两个顺序变量。

这里介绍一个连续变量以及一个名义变量x的情况。介绍之前先明白几个符号的由来

基尼方差可以定义为：

G=1-SSE/STD

F检验

F检验衡量的是一个连续变量和一个名义变量之间的关联性，其中，谁是因变量不重要，该检验对两种情况都有效，F检验的统计量定义为：

F=MSTR/MSE

如果x是二元变量，并用0,1表示，F值及其相关联的p值可以用线性回归模型进行计算，模型中的y作为因变量，x作为唯一的自变量，用线性回归计算出来的f值可以用p值进行解释。这里你肯定你懵逼，你这不是打脸吗，说好y是二元的。因为我这部分是只有y和x两个变量，所以谁做因变量都无所谓。p值是可以建立模型的概率，及变量x和y之间无关联的概率。数据分析师培训

终于可以贴代码了！！！

%let DSin=test.SCORE_TOTAL_LIST_TEST_4;

%let Xvar=customer_status;

%let YVar=var1;

%macro CalcGrF(DSin, Xvar, YVar, M_Gr, M_Fstar, M_Pvalue);

proc freq data=&DSin noprint ;

tables &XVar /missing out=Temp_Cats;

run;

Data _null_;

retain N 0;

set Temp_Cats;

N=N+count;

call symput ("X_" || left(_N_), compress(&XVar));

call symput ("n_" || left(_N_), left(count));

call symput ("K", left(_N_));

call symput ("N", left(N));

Run;

proc sql noprint;

select avg(&YVar) into :Ybar from &DSin;

%local i;

%do i=1 %to &K;

select avg(&YVar) into :Ybar_&i

from &DSin where &XVar = "&&X_&i";

%end;

select var(&YVar) into: SSTO from &DSin;

%let SSTO=%sysevalf(&SSTO *(&N-1));

%let SSR=0;

%let SSE=0;

%do i=1 %to &K;

select var(&YVar) into: ssei

from &DSin where &Xvar="&&X_&i";

%let SSE=%sysevalf(&SSE + &ssei * (&&n_&i - 1)) ;

%let SSR=%sysevalf(&SSR+ &&n_&i * (&&Ybar_&i - &Ybar)*(&&Ybar_&i - &Ybar));

%end;

quit;

%let MSR=%sysevalf(&SSR/(&K-1));

%let MSE=%sysevalf(&SSE/(&N-&K));

%let M_Gr=%Sysevalf(1-(&SSE/&SSTO));

%let M_Fstar=%sysevalf(&MSR/&MSE);

%let M_PValue=%sysevalf(%sysfunc(probf(&M_Fstar,&K-1,&N-&K)));

data result;

M_Gr=&M_Gr.;

M_Fstar=&M_Fstar.;

M_PValue=&M_PValue.;

run;

proc datasets library=work nolist;

delete temp_cats;

run; quit;

%mend;

%CalcGrF(DSin=&DSin., Xvar=&Xvar., YVar=&YVar.);

结果如下：

这个结果显示的是：p值很高，没有什么关联性。具体的解释也可以自行百度哈

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

线性回归数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

sas输出基尼方差，F检验

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载