
为了找出color、rarity、flower number、type of species对price的影响,由此,price为因变量,color、rarity、flower number、type 为自变量。
研究自变量对因变量的影响,可以选用的方法有两种,一种是传统的线性回归模型OLS,另一种是广义线性模型GLM(Generalized Linear Model)。传统模型(OLS)要求因变量服从正态分布,广义线性模型(GLM)则适用的范围更广,不要求因变量一定服从正态分布,并且方差也可以不稳定。
第一步:考察因变量price的分布类型。
基于以上的分析,为了判断应该适用OLS还是使用GLM。需要先对因变量price的分布状况进行分析。首先,检验因变量price是否服从正态分布,检验的结果如下:
Table 1 Tests of Normality
|
Kolmogorov-Smirnova |
Shapiro-Wilk |
||||
|
Statistic |
df |
Sig. |
Statistic |
df |
Sig. |
Price |
.149 |
156 |
.000 |
.818 |
156 |
.000 |
a. Lilliefors Significance Correction |
上表是正态性检验的结果,K-S检验和S-W检验的SIG.全部小于0.05.由此可以知道,因变量price不服从正态分布。因此,研究color、rarity、flower number、type of species对price的影响不能选用传统线性模型(OLS)分析,必须选用GLM模型。
通过price不服从正态分布这一结论,得出必须选用GLM模型之后,还需要进一步找出因变量price到底服从哪种分布。经过尝试,得出因变量price服从Gamma分布。
第二步:GLM分析
确定选用GLM模型和因变量price是服从Gamma分布的,进行GLM分析,结果如下:
Table 2
Case Processing Summary |
||
|
N |
Percent |
Included |
156 |
100.0% |
Excluded |
0 |
0.0% |
Total |
156 |
100.0% |
上表的结果陈述了,参与分析的案例个数为156。
Table 3
Categorical Variable Information |
||||
|
N |
Percent |
||
Factor |
Color |
Green |
30 |
19.2% |
Red |
30 |
19.2% |
||
White |
29 |
18.6% |
||
Black |
30 |
19.2% |
||
Yellow |
22 |
14.1% |
||
Blue |
15 |
9.6% |
||
Total |
156 |
100.0% |
||
Rarity |
Rare |
83 |
53.2% |
|
Commom |
73 |
46.8% |
||
Total |
156 |
100.0% |
||
FlowerNumber |
Single flower |
72 |
46.2% |
|
Multiple flowers |
84 |
53.8% |
||
Total |
156 |
100.0% |
||
TypeofSpecies |
Native species |
61 |
39.1% |
|
First generation hybrids |
42 |
26.9% |
||
Complex hybrids |
53 |
34.0% |
||
Total |
156 |
100.0% |
上表的结果展现了4个自变量中每个类别的选择的人数及其占比。
Table 4
Goodness of Fita |
|||
|
Value |
df |
Value/df |
Deviance |
68.838 |
146 |
.471 |
Scaled Deviance |
166.574 |
146 |
|
Pearson Chi-Square |
68.353 |
146 |
.468 |
Scaled Pearson Chi-Square |
165.400 |
146 |
|
Log Likelihoodb |
-767.832 |
|
|
Akaike's Information Criterion (AIC) |
1557.665 |
|
|
Finite Sample Corrected AIC (AICC) |
1559.498 |
|
|
Bayesian Information Criterion (BIC) |
1591.213 |
|
|
Consistent AIC (CAIC) |
1602.213 |
|
|
Dependent Variable: Price Model: (Intercept), Color, Rarity, FlowerNumber, TypeofSpecies |
|||
a. Information criteria are in small-is-better form. |
|||
b. The full log likelihood function is displayed and used in computing information criteria. |
上表是GLM模型的拟合优度分析结果,拟合优度分析是用于反映模型总体上对数据信息的表达是否充分。Deviance拟合优度检验法和Pearson Chi-Square拟合优度检验法计算出的显著性水平分别为0.471和0.468,均大于0.05,由此可以知道,模型的拟合情况良好,即模型能够比较真实可靠地反映出数据。
来CDA学业务数据分析师,SPSS理论结合实战进行项目数据分析,助你成为从事数据采集、清洗、处理、分析并能制作业务报告、提供决策的新型数据分析人才,点击了解课程详情!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01