数据科学专业问答社区，好文章，一字千金--CDA答疑社区

偏差是因为欠拟合造成的吗？

期望输出与真实值的差别称之为偏差，即： bias2(x) = (fExpectedD(x) - y)2 //与真实值之间的差距使用样本数相同的不同训练集产生的方差为： var(x) = E[(fD(x) - fExpectedD(x))2] //与预测值期望的偏离程度评价数据拟合的状况，通常采用损失函数 J(X) 高偏差：Jtrain和Jcv都很大，并且Jtrain≈Jcv。对应欠拟合。

读童话的狼

2020-04-08

38.3632 4 5

核函数为什么会增加模型复杂度？

核函数不是为了把高维空间的问题在低维空间计算，为什么会增加模型复杂度？支持向量机通过某非线性变换 φ( x) ，将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算，而在低维输入空间又存在某个函数 K(x, x′) ，它恰好等于在高维空间中这个内积，即K( x, x′) =<φ( x) ⋅φ( x′) > 。那么支持向量机就不用计算复杂的非线性变换，而由这

读童话的狼

2020-04-08

5.7630 3 4

特征工程有升维吗？

升维，意味着要加特征，为了简单一点，我们可以使用sklearn中的多项式特征。语法 Init signature: PolynomialFeatures( degree=2, interaction_only=False, include_bias=True, order='C', ) degree=2 自变量最高的次数，默认为2，值越大，则组合出来的特

读童话的狼

2020-04-08

38.3632 4 2

mac电脑打开win系统传的压缩包文件名乱码

解决： win与Mac的编码方式不一样，将压缩包后缀从zip改成tar再解压就可以了

读童话的狼

2020-04-07

30.3283 3 4

购物篮分析进行聚类后怎么做？

购物篮分析就是为了找似的物品，主要的目的在于找出什么样的东西应该放在一起，由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品，找出相关的联想规则，由这些规则的挖掘获得利益与建立竞争优势

读童话的狼

2020-04-07

5.3691 2 3

皮尔逊相关性检验跟f检验的回归方法应该是相近的对吧？

是的，只是皮尔逊计算的是相关性的大小，f检验计算的是相关性是不是显著

读童话的狼

2020-04-07

28.6450 3 3

方差过滤，分类变量是不需要标准化的对吧？

方差过滤首先需对数据进行标准化，分类变量可以利用斯皮尔曼相关系数进行相关检验，进行筛选

读童话的狼

2020-04-07

2.7812 1 2

特征选择F检验标准化以后是不是跟卡方过滤没有太大区别？

卡方过滤是专门针对离散型标签（即分类问题）的相关性过滤。卡方检验类feature_selection.chi2 计算每个非负特征和标签之间的卡方统计量，并依照卡方统计量由高到低为特征排名。 F检验，又称ANOVA，方差齐性检验，是用来捕捉每个特征与标签之间的线性关系的过滤方法。它即可以做回归也可以做分类，因此包含feature_selection.f_classif（F检验分类）和 featu

读童话的狼

2020-04-07

2.7812 1 2

为啥还要用采样法？直接用数据本身的召回率精准率这些判断不行吗

分类模型天生会倾向于多数的类，让多数类更容易被判断正确，少数类被牺牲掉。通过施加一些惩罚或者改变样本本身，来让模型向着捕获少数类的方向建模。

读童话的狼

2020-04-07

2.7812 1 3

对于boosting，是不是不需要关注数据不均衡的问题？

集成学习（Ensemble集成算法）。首先从多数类中独立随机抽取出若干子集，将每个子集与少数类数据联合起来训练生成多个基分类器，再加权组成新的分类器，如加法模型、Adaboost、随机森林等。此类模型对不平衡数据虽然不是特别敏感，但是对一些特别偏斜的数据仍需利用采样法等处理

读童话的狼

2020-04-07

35.3815 2 2

下采样(Under-sampling) 1 原型生成(prototype generation) 给定数据集S, 原型生成算法将生成一个子集S’, 其中|S’| < |S|, 但是子集并非来自于原始数据集. 意思就是说: 原型生成方法将减少数据集的样本数量, 剩下的样本是由原始数据集生成的, 而不是直接来源于原始数据集. ClusterCentroids函数实现了上述功能: 每一个类别的样本都会用

读童话的狼

2020-04-07

32.6002 1 2

f1_score是什么？

精准度与召回率的调和平均数作为考量两者平衡的综合性指标，称之为F1 measure。公式为： f1_score则是sklearn.metrics模块中的F1 measure评估指标。

读童话的狼

2020-04-07

2.7812 1 2

分类数据进行独热编码是不是就不能用皮尔森相关性检验？

进行独热编码之后数据就会变得得稀疏，对于这样的数据或是数值型的分类数据可以用斯皮尔曼相关 Pearson的条件比Spearman的条件更严格，两者共同条件应该都是 1、两列数据； 2、满足线性假设；但Pearson要求两列数据均为正态分布，Spearman没有相关要求。也即，Pearson是Spearman的充分非必要条件。如果数据不符合Pearson要求，可以把数据降级，然后用Spearm

读童话的狼

2020-04-07

3.1913 1 4

损失函数是用来做什么的？

损失函数就是用来表现预测与实际数据的差距程度我们想要的是通过损失函数的最小化，来求得中间的最优参数解

读童话的狼

2020-04-04

16.5189 1 2

升级完matplotlib后仍显示旧版本怎么办？

升级完matplotlib后仍显示旧版本，如图：这样情况就是升级安装成功，重启jupyter就可以

读童话的狼

2020-04-04

37.0659 2 5

win32安装xgboost报错

安装xgboost，命令行运行下面代码 pip install xgboost -i https://pypi.tuna.tsinghua.edu.cn/simple win32位电脑报错如下：解决办法，可以尝试离线安装步骤如下： 1、从这个网址下载32位的离线版xgboost， https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost 2、

读童话的狼

2020-04-04

20.5470 1 4

学习目标参数是激活函数吗？

目标函数也称为损失函数、代价函数，是深度学习里用于训练模型时的优化目标函数。激活函数是负责将神经元的输入映射到输出端的函数。

读童话的狼

2020-04-04

2.7812 1 2

xgboost对缺失值敏感吗？

xgboost把缺失值当做稀疏矩阵来对待，本身的在节点分裂时不考虑的缺失值的数值。缺失值数据会被分到左子树和右子树分别计层损失，选择较优的那一个。如果训练中没有数据缺失，预测时出现了数据缺失，那么默认被分类到右子树。

读童话的狼

2020-04-04

35.3815 2 5

matplotlib画热图时显示不全怎么处理？

这是一个bug,在最新的版本已经修复了，只需要利用下面的命令升级matplotlib就可以了 !pip install --user --upgrade matplotlib

读童话的狼

2020-04-04

20.5470 1 6

gbdt是怎么填充的缺失值？

在决策树学习的初始阶段，根节点各样本的初始权重都为１若样本x在划分属性a上的取值未知，则将x划入所有子节点，同时调整该样本x的权重值为rv*wx，其中rv为无缺失值样本在属性a上取值为av的样本所占的比例，计算错误率的时候，需要考虑到样本权重训练完成，给测试集样本分类，有缺失值怎么办？如果有单独的缺失分支，使用此分支。把待分类的样本的属性a值分配一个最常出现的a的属性值，然后进行分支预测。

读童话的狼

2020-04-04

0.0000 0 2