京公网安备 11010802034615号
经营许可证编号:京B2-20210330
1. SAS INSIGHT启动:
方法1:Solution→Analysis→Interactive Date Analysis
方法2:在命令栏内输入insight
方法3:程序编辑窗口输入以下代码,然后单击 Submit按钮;
Proc insight;
Run;
用 sas insight做直方图、盒形图、马赛克图。
直方图:Analysis→Histogram/Bar Chart
盒形图:Analysis→Box plot
马赛克图:Analysis→Box plot/Mosaic plot(Y)
散点图:Analysis→Scattery plot(Y X)
曲线图:Analysis→Line plot( Y X)
旋转图:Analysis→Rotationg Plot
曲面图:Analysis→Rotationg Plot 设置 Fit Surface
等高线图:Analysis→Countor plot
包括:直方图、盒形图、各阶矩、分位数表,直方图拟合密度曲线,对特定分布进行检验。
第一部分为盒形图,第二部分为直方图,第三部分为各阶矩,第四部分为分位数表。
A:参数估计:给出各种已知分布(正态,指数等),只需要对其中参数进行估计;
Curves→Parametric Density
B:核估计:对密度函数没有做假设,曲线性状完全依赖于数据;
Curves→Kernel Density
Curves→CDF confidence band
Curves→Test for Distribution
Analysis→Fit(Y X):分析两个变量之间的关系
Analysis→Fit(Y X)
Analysis→Fit(Y X)
Analysis→Multivariate
Analysis→Multivariate
方法1:Solution→Analysis→Analyst
方法2:在命令栏内输入analyst
Statistics →Descriptive→Summart Statistics 只计算简单统计量
Statistics →Descriptive→Distribution 可计算一个变量的分布信息
Statistics →Descriptive→Correlations可计算变量之间的相关关系
Statistics →Descriptive→Frequency counts 可计算频数
Statistics →Table Analysis
Statistics →Hypothesis tests →One-Sample Z-test for a mean
推断该样本来自的总体均数μ与已知的某一总体均属μ0是否相等
Statistics →Hypothesis tests → One-Sample t-test for a mean
Statistics →Hypothesis tests →One-Sample test for a proportion
Statistics →Hypothesis tests→One-Sample test for a variance
Statistics →Hypothesis tests →Two-Sample t-test for means
Statistics →Hypothesis tests →Two-Sample paired t-test for means
Statistics →Hypothesis tests →Two-Sample test for proportions
Statistics →Hypothesis tests→Two Sample test for variance
Statistics →ANOVA→One-Way Anova
Statistics →ANOVA→nonparameter one-way Anova test
Wilcoxon法、Median法、Van der Waerden法、Savage法。
Statistics →ANOVA→Factorial Anova
Statistics →ANOVA→Linear Model
Statistics →Regression→simple
Statistics →Regression→linear
Statistics →Regression→logistic
|
Proc print data = sasuser.score; //数据库.数据集 Run; |
|
Proc print data = sasuser.score; Var name math Chinese; //变量 Run; |
|
Proc print data = sasuser.score noobs; //去掉第一列(观测序号) Var name math Chinese; Run; |
|
Proc print data= sasuser.score; Where sex in(‘f’); //通过where语句 Run; |
|
Proc print data = sasuser.score noobs label; Title ‘女生成绩单’; Label name =‘姓名’ Sex =‘性别’ Math = ‘数学’ Chinese = ‘语文’ English = ‘英语’; Where sex in(‘f’); Run; |
|
Title “the sas system”; //恢复系统标题 |
|
Proc print data = sasuser.score; Footnote = ‘分数列表’; //加分数列表的脚注 Run; |
|
Proc sort data = sasuser.score; By sex; Run; Proc print data = sasuser.score; //使用by分组输出前用sort排序 By sex; Run; Proc print data = sasuser.score; Sum math; Run; |
|
Proc tabulate data =数据集名称; Class 分类变量; Var 分析变量; Table 页面说明 行维说明 列维说明/选项; Run; |
|
Proc sort data = 数据集名称; //默认升序排列 By 变量名; Run; |
|
Proc sort data = 数据集名称; By descending 变量名; //降序排列 Run; |
|
Proc means data = sasuser.stock; Var price; Run; |
|
Proc univariate data =数据集; Var 分析变量; Run; 结果: Moments:统计量的各阶矩,例如一阶矩就是均值,二阶矩就是方差等; Basic Statistical Measures:基本统计量; Tests for location:检验均值是否为零; Quantiles:分位数表; Extreme Observations:极端观测值。 |
|
Proc freq data =数据集名; Tables 变量名; Run; 结果: 变量取值、频数、百分比、累计频数、;累计百分比 |
|
Proc corr data =数据集; Var 变量名 变量名; Run; 结果: 简单统计量 相关系数及p值 |
|
Proc gplot data = 数据集名称; Symbol 曲线类型; Plot 竖轴变量*横轴变量; Run;
Proc gplot data = sasuser.score; Symbol I = none v=star; Plot English*Chinese; Run;
|
|
Proc gchart data = 数据集名称; Vbar/pie/block =变量; Run; |
|
Proc g3d data =数据集; Plot 变量x*变量y=变量z; Run; |
|
Proc gcontour data =数据集名; Plot x*y=z; Run; |
|
Proc univariate data= sasuser.stock normal; Var eps; Run; |
|
Proc univariate data= sasuser.stock normal; Var eps; Histogram eps; //画出直方图 Probplot eps; //画出概率分布图 Run; |
4.2.1如果一个变量服从正态分布,那么可以用t检验来对变量进行均值检验
|
Proc ttest data =数据集 ho = 均值; Var 检验变量; Run; |
4.2.2t检验还可以检验方差相同的两个独立样本均值是否相等
|
Proc ttest data =数据集; Class 分类变量; Var 检验变量; Run; 结果 第一部分简单统计量 第二部分t检验结果 第三部分两者方差是否相等检验 |
T检验要求两个独立样本都必须服从正态分布,如果不服从正态分布,则无法进行t检验。这时可用非参数的方法,常用的非参数方法是NPAR1WAY过程,它是 noparameter 1 way缩写。
4.4.1 REG过程
|
Proc reg data = 输入数据集 选项; Var 变量列表; Model 因变量 = 自变量列表; Print 输出结果; Plot 诊断图形; Run; |
指明模型的表达式并给定系数初值
4.5.1单因素方差分析
|
Proc anova data =数据集名称; Class 因素; Model 实验结果 =因素; Run; |
|
Proc anova data =数据集名称; Class 因素; Model 实验结果 =因素; Means brand; Run; |
|
Proc anova data =数据集名称; Class 因素; Model 实验结果 =因素; Means brand/t; //t检验 Run; |
|
Proc anova data =数据集名称; Class 因素; Model 实验结果 =因素; Means brand/bon; //bonferroni t检验 控制第一类错误的概率,但是具有较大第二类错误概率 Run; |
|
Proc anova data =数据集名称; Class 因素; Model 实验结果 =因素; Means brand/regwq; //regwq检验 控制第一类错误的概率 Run; |
|
Proc anova data =数据集名称; Class 因素; Model 实验结果 =因素; Means brand/tukey; //tukey检验 控制第一类错误的概率,但是第二类错误概率通常高于regwq检验 Run; |
4.5.2多因素方差分析
4.5.3列联表检验
|
Proc freq data = 数据集; Tables 因素a*因素b / chisq; Weight 实验结果; Run; |
因变量—Depender (Y)
自变量—Independent (X1 X2…)
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21