统计学-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

kejiayuan0806

变量筛选方法

当所研究的问题涉及较多的自变量时，我们很难想象事先选定的全部自变量对因变量的影响都有显著性意义；也不敢保证全部自变量之间是相互独立的。换句话说，在建立多元线性回归方程时，需要根据各自变量对因变量的贡献大小进行变量筛选，剔除那些贡献小和与其他自变量有密切关系的自变量、发现那些对回归方程有很坏影响的观测点（这些都是回归诊断的重要内容），从而求出精练的、稳定的回归方程。1、向前选择法(FORWARD)

0.0000

0

3

0

关注作者

收藏

kejiayuan0806

相关分析的常用方法

相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。两个变量之间的相关程度通过相关系数r来表示。相关系数r的值在-1和1之间，但可以是此范围内的任何值。正相关时，r值在0和1之间，散点图是斜向上的，这时一个变量增加，另一个变量也增加；负相关时，r值在-1和0之间，散点图是斜向下的，此时一个变量增加，另一个变量将减少。r的绝对值越接近1，两变量的关联程度越强，r的绝对值越

0.0000

0

5

0

关注作者

收藏

啊啊啊啊啊吖

关于季节性Arima分析的问题

1）之前在网上查看关于时间序列分析的文章，在分析之前首先需要去掉非平稳的部分。这个非平稳的部分，包含趋势和季节性。那这样的话，季节性是不是就是没有研究价值的部分？ 2）是不是对本身就有季节性变化的数据，才能在预测时，在R的forecast函数部分指定关于季节性的参数？对本身就没有季节性变化的数据，在做预测时，就不能在R的forecast函数部分指定关于季节性的参数？ 3）R的auto.

0.0000

0

5

0

关注作者

收藏

啊啊啊啊啊吖

使用mgcv包做面板数据的非参数广义可加模型的估计

R语言怎么使用mgcv包做面板数据的非参数广义可加模型的估计？ library(mgcv) set.seed(0) n

0.0000

0

3

0

关注作者

收藏

kejiayuan0806

相关分析、回归分析的联系和区别

联系：二者都是对变量之间不严格依存关系的分析，在理论基础和方法上具有一致性。只有存在相关关系的变量才能进行回归分析，相关程度越高，回归分析的结果越可靠。区别：相关分析研究的是变量之间的依存关系，这些变量的地位相等，不区分主从因素或因果关系。回归分析却是在控制或给定一个（或多个）变量条件下来观察对应的某一变量的变化，给定的变量为自变量，被观察的变量为因变量。因此回归分析中必须根据研究目的来确定自变

0.0000

0

2

0

关注作者

收藏

kejiayuan0806

AIC信息准则如何衡量模型优良

很多参数估计问题均采用似然函数作为目标函数，当训练数据足够多时，可以不断提高模型精度，但是以提高模型复杂度为代价的，同时带来一个机器学习中非常普遍的问题——过拟合。所以，模型选择问题在模型复杂度与模型对数据集描述能力（即似然函数）之间寻求最佳平衡。人们提出许多信息准则，通过加入模型复杂度的惩罚项来避免过拟合问题，此处我们介绍一下常用的两个模型选择方法——赤池信息准则（Akaike Informa

0.0000

0

1

0

关注作者

收藏

zxq997

中介效应检验方法有哪些？

检验中介效应是否存在，其实就是检验A到B，B到C的路径是否同时具有有显著性意义。为了讲解更有效率，我们以最简单的模型为例，进行说明，如下如所示，图中路径上的符号代表路径系数（回归系数）。做中介效应检验的方法目前有四种：逐步回归法；系数乘积检验法；差异系数检验法和Bootstrapping。严格意义上来说，它们的分析原理都是一致的，检验W2和W3路径是否同时有意义（通畅），区别在于判断有意

0.0000

1

2

0

关注作者

收藏

zxq997

因子分析的解析

鉴于主成分分析现实含义的解释缺陷，统计学斯皮尔曼又对主成分分析进行扩展。因子分析在提取公因子时，不仅注意变量之间是否相关，而且考虑相关关系的强弱，使得提取出来的公因子不仅起到降维的作用，而且能够被很好的解释。因子分析与主成分分析是包含与扩展的关系。首先解释包含关系。如下图所示，在SPSS软件“因子分析”模块的提取菜单中，提取公因子的方法很多，其中一种就是主成分。由此可见，主成分只是因子分析的一

0.0000

0

4

0

关注作者

收藏

zxq997

什么是二元变量相关系数？

二元变量的相关分析计算得到的是两个变量之间的相关系数。具体而言，两个定距和定比变量间的相关性用Pearson（皮尔逊）相关系数来判定，这是参数检验的方法；两个定序或定类变量间的相关性用Spearman等级相关系数和Kendall’s tau-b等级相关系数来判定，这两种方法属于非参数检验。Pearson简单相关系数皮尔逊简单相关，也称积差相关。是以英国统计学家皮尔逊的名字命名的计算线性相关的方

0.0000

0

3

0

关注作者

收藏

291294878

怎么解释朴素贝叶斯分类？

公式： 1. 分类是指，根据一些给定的特征，对物品进行分类，或对行为进行预测，即求上式的最大值。2. 贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯公式为基础，故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。3. 朴素一词的来源，是指假设各个特征之间相互独立。朴素贝叶斯的完整解释如下：假设某个体有n项特征（Feature），分别为F1、

0.0000

0

2

0

关注作者

收藏

阿抽哥哥

如何理解聚类中的轮廓系数？

轮廓系数，是聚类效果好坏的一种评价方式，它结合内聚度和分离度两种因素：内聚度：某样本 i 到同簇内所有点的平均距离 - ai，也称簇内不相似度，当 ai 越小说明样本 i 越应该被聚类到该簇。分离度：某样本 i 到其他某簇内所有点平均距离 - bi，也称簇间不相似度，当 bi 越大说明样本 i 越不属于其他簇。 s(i) 接近1，则说明样本i聚类合理；s(i) 接近-1，则说明样本

107.4525

2

3

0

关注作者

收藏

291294878

F1值是什么？

Fβ是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的准确率和召回率。可以看作是模型准确率和召回率的一种加权平均，它的最大值是1，最小是0。物理意义就是将准确率和召回率这两个分值合并为一个分值，在合并的过程中，召回率的权重是准确率的β倍： F1分数认为召回率和准确率同等重要，F2分数认为召回率的重要程度是准确率的2倍，而F0.5分数认为召回率的重要程度是准确率的一半。

0.0000

0

3

0

关注作者

收藏

阿抽哥哥

如何理解SPSS中的标准与未标准化回归系数

因为指标（自变量）的种类繁多、复杂多样，在不同的行业，也会因其行业标准、重要性的不同而缺乏可比性，所以对指标进行无量纲化（标准化）处理，可使不同企业、不同指标间进行直接比较成为可能。标准化系数就是无量纲化后的数据分析结果，非标准化系数就是数据未经无量纲化得出的结果。标准化回归系数测度的是被解释变量的重要性，其绝对值越大，反映对应的自变量对因变量的贡献越大。而非标准化回归系数反映的是自变量对因变量的

5.6893

1

2

0

关注作者

收藏

kejiayuan0806

标准化残差与学生化残差有什么区别

回归分析中常用的残差有三种，分别为普通残差、标准化残差和学生化残差。普通残差等于y观测值减去y拟合值的差值。R语言中可利用residuals( )调用回归模型的普通残差。也可先用predict()函数调用回归模型的拟合值，然后计算观测值与拟合值的差值。标准化残差又叫内学生化残差，是普通残差的标准化形式。R语言中可利用rstandard( )调用回归模型的标准化残差。其计算公式为：其中

0.0000

1

3

0

关注作者

收藏

kejiayuan0806

线性回归分析中的方差齐性检验是什么意思

方差齐性是为了保证回归参数估计量具有良好的统计性质，经典线性回归模型的一个重要假定：总体回归函数中的随机误差项满足同方差性，即它们都有相同的方差。如果这一假定不满足，即：随机误差项具有不同的方差，则称线性回归模型存在异方差性。异方差性是指回归模型中扰动项的方差不全相等。假设线性回归模型中，扰动项 ε 的分量是均值为零，彼此独立的，但不全相等，在这种情况下。OLS 估计虽然具有无偏性和一致性，却不

0.0000

0

2

0

关注作者

收藏

kejiayuan0806

线性回归中的交互项是什么意思

交互项的出现可以表明一个预测变量对一个相应变量的影响在其他预测变量有不同值的时候，是不同的。它的测试方式是将两个预测变量相乘的项放入模型中。将一个交互项放到模型中会极大的改善所有相关系数的可解释性。在实际中，如果我们的变量之间有关系的话，那么加入交互项能更好地是模型反映变量之间的关系。

0.0000

0

2

0

关注作者

收藏

kejiayuan0806

如何理解协方差

0.0000

0

1

0

关注作者

收藏

291294878

如何建立规则的分类器？

建立规则的分类器：（1）顺序覆盖。直接从数据中提取规则，规则基于某种评估度量以贪心的方式增长，该算法从包含多个类的数据集中一次提取一个类的规则。在提取规则时，类y的所有训练记录被看作是正例，而其他类的训练记录则被看作反例。如果一个规则覆盖大多数正例，没有或仅覆盖极少数反例，那么该规则是可取的。一旦找到这样的规则，就删掉它所覆盖的训练记录，并把新规则追加到决策表R的尾部（规则增长策略：从一般到特

2.4134

1

2

0

关注作者

收藏

291294878

怎么处理决策树中的过拟合问题？

处理决策树中的过分拟合：A)：先剪枝（提前终止规则）：当观察到的不纯性度量的增益（或估计的泛化误差的改进）低于某个确定的阈值时就停止扩展叶节点。B)：初始决策树按照最大规模生长，然后进行剪枝的步骤，按照自底向上的方式修剪完全增长的决策树。修剪有两种方法：（1）用新的叶节点替换子树，该叶节点的类标号由子树下记录中的多数类确定；（2）用子树中常见的分支替代子树。当模型不能再改进时终止剪枝步骤。

2.4134

1

4

0

关注作者

收藏

291294878

泛化误差估计分类有哪些？

泛化误差的估计：（1）乐观估计（决策树归纳算法简单的选择产生最低训练误差的模型作为最终的模型）（2）悲观误差估计（使用训练误差与模型复杂度罚项的和计算泛化误差）（3）最小描述长度原则（模型编码的开销加上误分类记录编码的开销）（4）估计统计上界（泛化误差可以用训练误差的统计修正来估计，因为泛化误差倾向于比训练误差大，所以统计修正通常是计算训练误差的上界）（5）使用确认集（如2/3的训练集

0.0000

0

1

0

关注作者

收藏

<1…525354…55>

CDA考试动态

CDA报考指南