SPSS-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

yuechuchen

决策树和逻辑回归处理问题的共同点

两个算法都擅长处理分类型的因变量，逻辑回归不能处理连续型的因变量，但是决策树可以，不过决策树更擅长分类问题。决策树和逻辑回归都是可解释的。逻辑回归可以用在小数据集上，但是决策树只能用于大数据集上，至少要几万行数据。

0.0000

0

2

0

关注作者

收藏

yuechuchen

模型中分类型自变量的处理

无序的分类变量，需要进行哑变量处理，例如主成分或者因子分析中涉及到这类变量，都需要进行哑变量的处理。

1.0029

1

1

0

关注作者

收藏

yuechuchen

逻辑回归和线性回归模型如何选择

如果因变量是0\1分类型变量，一般选择逻辑回归，如果因变量是连续型变量，一般选择线性回归

0.0000

0

0

0

关注作者

收藏

yuechuchen

对效度的理解

效度是测量学的概念，测量学是统计学的一个分支，效度对应统计学中的回归分析，评价距离目标的差距，距离目标越近效度越高

0.0000

0

3

0

关注作者

收藏

yuechuchen

降维时选择保留几个因子或者主成分的参考标准

第一是要看保留因子或者主成分对信息的保留程度，一般希望能超过80%或者70%；第二查看保留的因子或者主成分个数，因子分析一般希望单个因子的解释程度超过1%，主成分希望第一主成分的解释程度是第二主成分的三倍，同时希望第一主成分的解释程度超过50%所以要保留几个因子或者主成分不是靠单一指标判断的

0.0000

0

2

0

关注作者

收藏

yuechuchen

问卷的不同作用

一般取得问卷后，先按照一定比例将问卷分成两部分，比例大多是2：8或者3：7等，多的一份用来筛选特征，少的一部分用来验证筛选的特征是否有效。

0.0000

0

0

0

关注作者

收藏

yuechuchen

spss中因子分析中一些默认设置

由于默认特征值大于1，而符合要求的只有两个因子，所以最后的结果中只有两个因子的值，虽然候选的因子有7个，不符合要求的就不会体现了，可以认为修改这个设置

27.3950

2

1

0

关注作者

收藏

yuechuchen

spss主成分分析降维后如何查看信息保留程度

通过下图中红框部分查看降维后自变量保留的信息量，据此判断需要留哪些主成分第一主成分保留的信息最多，向下依次递减

26.3920

1

3

0

关注作者

收藏

yuechuchen

回归分析之前需不需要做降维

维度比较多，超过30个，一般需要降维，但是要考虑降维的前提，如果变量间的相关性太弱，降维的效果会比较差，如果变量有几百个，可能需要升级算法运用流型或者核主成分分析等方法。

0.0000

0

1

0

关注作者

收藏

yuechuchen

因子分析和主成分分析降维，对保留信息的要求

一般通过因子分析降维后的自变量要能够保留原资料变量80%的信息，而主成分分析则对这一数值的要求是70%，以上两中要求都是经验值。

0.0000

0

2

0

关注作者

收藏

yuechuchen

计量主要研究的方向

常规的数据挖掘等主要研究列与列之间的关系，而计量研究的主要是行与行之间的关系，也就是只有单独的因变量，当然也可以引入自变量。

0.0000

0

6

0

关注作者

收藏

yuechuchen

银行运用逻辑回归判断客户会不会违约时一般考虑哪些因素

银行一般采用账龄法进行计算，即考虑曾经发生过的违约金额，也会考虑曾经发生过的违约次数，诸如此类业务逻辑，在单纯的模型中有时不会显示体现，主要是体现在提供给模型的数据中。

0.0000

0

2

0

关注作者

收藏

yuechuchen

逻辑回归模型得到的结果与r方之间的关系

如果逻辑回归的结果在0.2到0.8之间，一般表示自变量的选择不能有效的解释因变量，那么对应的r方一般也不会有比较高的结果。

0.0000

0

0

0

关注作者

收藏

yuechuchen

逻辑回归中取值的解读

逻辑回归的曲线呈现s型，两个拐点分别在0.2和0.8的位置，详情见下图：这两个临界值一般会被大家关注，以银行信用卡违约风险为例，如果得到的取值超过0.8，意味着该客户违约风险会很大，如果小于0.2，意味着该客户可以算作优质客户，违约风险很小。

26.3920

1

2

0

关注作者

收藏

yuechuchen

主次归因和规则归因

主次归因一般是统计学方向中的应用，主要分析自变量的重要性，规则归因主要分析自变量之间取值组合的重要性

0.0000

0

2

0

关注作者

收藏

yuechuchen

spss线性回归中的系数不显著，是否要删除

通常情况下建议删除，但是需要有一个前提，需要确定不显著的原因，如果是数据中异常值等带来的不显著问题，不能删除。如果可以确定不显著不是由于模型条件带来的影响，就可以进行删除

0.0000

0

1

0

关注作者

收藏

yuechuchen

spss线性回归中的显著性

显著性是用来判断自变量的重要程度，越显著约重要。

0.0000

0

3

0

关注作者

收藏

yuechuchen

回归方程中的系数

回归方程中的系数一般没有采取标准化，标准化后的系数在特殊的行业总会用到，一般数据分析师会采用标准化系数以便快速确定系数的重要性。

0.0000

0

2

0

关注作者

收藏

yuechuchen

spss中调整后的r方为什么比调整前要低

r方的值会随着自变量的增大而增大，实际建立模型的时候，并不希望通过增加自变量的形式的来增大r方，因为有很多自变量对因变量的影响实际上是很小的，所以调整后的r方是在自变量数量上增加的惩罚项，避免自变量过多的情况发生，所以调整后的r方会小于调整之前。

0.0000

0

7

0

关注作者

收藏

yuechuchen

回归中的共线性问题

回归中的共线性主要是指自变量与自变量之间是否存在相关关系，主要是从业务角度进行判断，存在共线性的自变量之间所携带的信息具有一定的重复性。

0.0000

0

2

0

关注作者

收藏

<1…345…26>

CDA考试动态

CDA报考指南