yuechuchen

决策树和逻辑回归处理问题的共同点

两个算法都擅长处理分类型的因变量,逻辑回归不能处理连续型的因变量,但是决策树可以,不过决策树更擅长分类问题。决策树和逻辑回归都是可解释的。逻辑回归可以用在小数据集上,但是决策树只能用于大数据集上,至少要几万行数据。

0.0000 0 2
  • 关注作者
  • 收藏
yuechuchen

模型中分类型自变量的处理

无序的分类变量,需要进行哑变量处理,例如主成分或者因子分析中涉及到这类变量,都需要进行哑变量的处理。

1.0029 1 1
  • 关注作者
  • 收藏
yuechuchen

逻辑回归和线性回归模型如何选择

如果因变量是0\1分类型变量,一般选择逻辑回归,如果因变量是连续型变量,一般选择线性回归

0.0000 0 0
  • 关注作者
  • 收藏
yuechuchen

对效度的理解

效度是测量学的概念,测量学是统计学的一个分支,效度对应统计学中的回归分析,评价距离目标的差距,距离目标越近效度越高

0.0000 0 3
  • 关注作者
  • 收藏
yuechuchen

降维时选择保留几个因子或者主成分的参考标准

第一是要看保留因子或者主成分对信息的保留程度,一般希望能超过80%或者70%;第二查看保留的因子或者主成分个数,因子分析一般希望单个因子的解释程度超过1%,主成分希望第一主成分的解释程度是第二主成分的三倍,同时希望第一主成分的解释程度超过50%所以要保留几个因子或者主成分不是靠单一指标判断的

0.0000 0 2
  • 关注作者
  • 收藏
yuechuchen

问卷的不同作用

一般取得问卷后,先按照一定比例将问卷分成两部分,比例大多是2:8或者3:7等,多的一份用来筛选特征,少的一部分用来验证筛选的特征是否有效。

0.0000 0 0
  • 关注作者
  • 收藏
yuechuchen

spss中因子分析中一些默认设置

由于默认特征值大于1,而符合要求的只有两个因子,所以最后的结果中只有两个因子的值,虽然候选的因子有7个,不符合要求的就不会体现了,可以认为修改这个设置

27.3950 2 1
  • 关注作者
  • 收藏
yuechuchen

spss主成分分析降维后如何查看信息保留程度

通过下图中红框部分查看降维后自变量保留的信息量,据此判断需要留哪些主成分 第一主成分保留的信息最多,向下依次递减

26.3920 1 3
  • 关注作者
  • 收藏
yuechuchen

回归分析之前需不需要做降维

维度比较多,超过30个,一般需要降维,但是要考虑降维的前提,如果变量间的相关性太弱,降维的效果会比较差,如果变量有几百个,可能需要升级算法运用流型或者核主成分分析等方法。

0.0000 0 1
  • 关注作者
  • 收藏
yuechuchen

因子分析和主成分分析降维,对保留信息的要求

一般通过因子分析降维后的自变量要能够保留原资料变量80%的信息,而主成分分析则对这一数值的要求是70%,以上两中要求都是经验值。

0.0000 0 2
  • 关注作者
  • 收藏
yuechuchen

计量主要研究的方向

常规的数据挖掘等主要研究列与列之间的关系,而计量研究的主要是行与行之间的关系,也就是只有单独的因变量,当然也可以引入自变量。

0.0000 0 6
  • 关注作者
  • 收藏
yuechuchen

银行运用逻辑回归判断客户会不会违约时一般考虑哪些因素

银行一般采用账龄法进行计算,即考虑曾经发生过的违约金额,也会考虑曾经发生过的违约次数,诸如此类业务逻辑,在单纯的模型中有时不会显示体现,主要是体现在提供给模型的数据中。

0.0000 0 2
  • 关注作者
  • 收藏
yuechuchen

逻辑回归模型得到的结果与r方之间的关系

如果逻辑回归的结果在0.2到0.8之间,一般表示自变量的选择不能有效的解释因变量,那么对应的r方一般也不会有比较高的结果。

0.0000 0 0
  • 关注作者
  • 收藏
yuechuchen

逻辑回归中取值的解读

逻辑回归的曲线呈现s型,两个拐点分别在0.2和0.8的位置,详情见下图: 这两个临界值一般会被大家关注,以银行信用卡违约风险为例,如果得到的取值超过0.8,意味着该客户违约风险会很大,如果小于0.2,意味着该客户可以算作优质客户,违约风险很小。

26.3920 1 2
  • 关注作者
  • 收藏
yuechuchen

主次归因和规则归因

主次归因一般是统计学方向中的应用,主要分析自变量的重要性,规则归因主要分析自变量之间取值组合的重要性

0.0000 0 2
  • 关注作者
  • 收藏
yuechuchen

spss线性回归中的系数不显著,是否要删除

通常情况下建议删除,但是需要有一个前提,需要确定不显著的原因,如果是数据中异常值等带来的不显著问题,不能删除。如果可以确定不显著不是由于模型条件带来的影响,就可以进行删除

0.0000 0 1
  • 关注作者
  • 收藏
yuechuchen

spss线性回归中的显著性

显著性是用来判断自变量的重要程度,越显著约重要。

0.0000 0 3
  • 关注作者
  • 收藏
yuechuchen

回归方程中的系数

回归方程中的系数一般没有采取标准化,标准化后的系数在特殊的行业总会用到,一般数据分析师会采用标准化系数以便快速确定系数的重要性。

0.0000 0 2
  • 关注作者
  • 收藏
yuechuchen

spss中调整后的r方为什么比调整前要低

r方的值会随着自变量的增大而增大,实际建立模型的时候,并不希望通过增加自变量的形式的来增大r方,因为有很多自变量对因变量的影响实际上是很小的,所以调整后的r方是在自变量数量上增加的惩罚项,避免自变量过多的情况发生,所以调整后的r方会小于调整之前。

0.0000 0 7
  • 关注作者
  • 收藏
yuechuchen

回归中的共线性问题

回归中的共线性主要是指自变量与自变量之间是否存在相关关系,主要是从业务角度进行判断,存在共线性的自变量之间所携带的信息具有一定的重复性。

0.0000 0 2
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励

暂无数据