数据科学专业问答社区，好文章，一字千金--CDA答疑社区

很多功能都勾选了，MySQL安装为什么只有connector/python

返回上一步重新选择，注意这里要展开到最下层，选择组件如下图所示，然后继续安装

读童话的狼

2021-02-19

59.2826 1 0

WOE如果是这样的非线性分布是不是不太适合拿来做逻辑回归模型

建立评分卡模型时需要跨数据集检验WOE分箱的单调性。如果在训练集上保持单调，但在验证集和测试集上发生翻转而不单调，那么说明分箱并不合理，需要再次调整。如果自变量x与因变量y之间存在非线性关系，也就是说x越大，不能保证预测为好人/坏人的概率也越大。比如：随着x增大，P(Y=1|X)先增大，后变小。此时可通过WOE变换，同时保持WOE曲线具备单调性，那么带来的好处在于：1. 若WOE中Odds定义为好

读童话的狼

2021-02-18

81.2730 2 0

方差分析中SSA与SSE中的随机是一样的吗

不是一样的，SSA是组间平方和,主要指系统误差，反应自变量对因变量的影响，SSE则是组内平方和，指其他的误差（抽样误差，测量误差等）对因变量的影响SSE例如，每个样本内部的数据平方和加在一起就是组内平方和，它反映了每个样本内各观测值的离散状况。反映组间误差大小的平方和称为组间平方和，也称为因素平方和，记为SSA。例如，四个行业被投诉次数之间的误差平方和就是组间平方和，它反映了样本均值之间的差异程

读童话的狼

2021-02-18

114.2699 2 0

这里仅仅是因为整体标准差已知，才用的标准正态分布吗？

不仅仅是标准差已知，总体服从正态分布也是需要的，这是小样本检验的假设条件

读童话的狼

2021-02-18

114.2699 2 0

XGBoost中每一棵树是怎么生成的，比如第二颗树是怎么根据第一棵树来生成一棵与第一棵树不同的树的

Xgboost(极端梯度提升)也是属于梯度提升树算法，利用损失函数的负梯度作为提升树算法中残差的近似值。后续树的生成就是在当前的基础上，对残差进行构建新的树。XGBoost 在进行完一次迭代后，会将叶子节点的权重乘上Shrinkage，这是为了削弱每棵树的影响，让后面有更大的学习空间

读童话的狼

2021-02-18

114.2699 2 0

n, bins, patches = plt.hist(x, 50, normed=1) ，这三个变量是什么呢？

n是频率，bins 是区间范围，patches是每个区间的值

读童话的狼

2021-02-09

258.1274 2 0

n, bins, patches = plt.hist(x, 50, normed=1) 这个直方图为什么能赋值给左边的三个变量？

python支持多变量同时赋值的，比如：a, b = 1, 2，同时把1赋值给a，把2赋值给b

读童话的狼

2021-02-09

258.1274 2 0

AttributeError:' Rectangle ' object has no property 'normed ' .

这个是因为包的版本更新，移除了normed方法，可以用下面的代码import matplotlib.pyplot as pltimport matplotlib.mlab as mlabfrom scipy.stats import normmu = 100 # 均值sigma = 15 # 标准差x = mu + sigma * np.random.randn(1000)n, bins

读童话的狼

2021-02-09

285.0201 2 0

卡方里面的n是有n个样本框还是一个样本框里有n个样本？

卡方分布要求n个变量独立同分布于标准正态分布，所以这里是n个样本，并且来自同一个正态总体（样本框）

读童话的狼

2021-02-09

258.1274 2 0

松弛变量ζ>1就是错误点吧？

可以从这个图来看，并非所有的样本点都有一个松弛变量与其对应。实际上只有“离群点”才有，或者也可以说，所有没离群的点松弛变量都等于0，对于ζ>1的点就是位于决策超平面上方的红色点（错误点）

读童话的狼

2021-02-08

254.4644 2 0

SVM中惩罚因子C有什么作用，它跟ζ是什么关系？

松弛变量的值实际上标示出了对应的点到底离群有多远，值越大，点就越远。惩罚因子C决定了对离群点的重视程度，当所有离群点的松弛变量的和一定时，C越大，对目标函数的损失也越大，此时就暗示着非常不愿意放弃这些离群点，最极端的情况是把C定为无限大，这样只要稍有一个点离群，目标函数的值马上变成无限大，马上让问题变成无解，这就退化成了硬间隔问题。

读童话的狼

2021-02-08

254.4644 2 0