数据科学专业问答社区，好文章，一字千金--CDA答疑社区

机器学习：数据不平衡的权重问题

问：模型权重不是模型会更容易识别出来那些数据类型，跟测试集的权重没关系吗，就像我们之前学习的不平衡数据集的处理方法？答：数据不平衡是从Y值标签来的，这里和我们的adaboost里讲的比较相似。在adaboost里面，我们是更改错误样本的权重，使得模型更加小心的对待错误的样本，尝试将他们预测正确。对数据不平衡来说，也可以用相同的思想。将少数类的样本权重增大，使得模型会自己更改，从而尽量的将少数类给

田齐齐

2020-03-31

36.8426 6 3

机器学习：为什么做特征选取

有的数据集里面，有的特征信息量不大，和Y值的相关性不强，从而模型学习的过程，将这个特征里的噪音学习进去了，从而导致过拟合。所以我们做特征选取

田齐齐

2020-03-31

34.8090 5 3

MySQL：1055错误

MySQL：1055错误（Error Code: 1055. Expression #2 of SELECT list is not in GROUP BY clause and contains nonaggregated column 'school.b.s_name' which is not functionally dependent on columns in GROUP BY cl

田齐齐

2020-03-31

27.2997 5 1

机器学习：随机森林random_state参数作用

问：随机森林算法中，每个弱分类器采样集都不同，树肯定都不一样，那与random_state控制树的形状不同还有什么用吗？答：树的形状不同其实就够了，形状的不同就是某种意义上模型的复杂度不一样，会使得最后的结果不一样，但有的时候，数据不一样，树也可能是差不多的，random_state就是在这个不同的程度上又加上了一些不同。达到一种防止过拟合的作用。

田齐齐

2020-03-30

10.2041 6 3

线性回归可以做缺失值填充吗

可以的。线性回归用于做缺失值填充。

田齐齐

2020-03-30

16.1498 6 1

决策树和随机森林节点选取的区别

决策树根节点以及每个节点的选取，是根据信息增益来选取最优的特征进行分裂随机森林每一次选择分叉的特征时，限定为在随机选择的特征的子集中寻找特征优点：消除了决策树过拟合的缺点，减小了预测的变化幅度，预测值不会因为训练数据的小变化而剧烈变化

田齐齐

2020-03-30

16.1498 6 3

boosting提升算法中最开始各个样本的权重都是相等的吗

问：boosting提升算法中最开始各个样本的权重都是相等的吗？答：是的，比如有n个样本，在经过第一个基分类器时，每个样本的权重都是1/n

田齐齐

2020-03-30

2.6552 4 2

机器学习：boosting提升方法关于样本权重更新问题

问：为什么预测错的部分下一次反而增大他的权重呢？这样不是对结果的准确性影响更大吗？答：集成算法boosting法中的权重，会自动使得每次预测错误的那些样本权重之和为1/2,剩下正确的之和也为1/2；模型每次会把预测错的样本的权重增加，突出这个样本，已达到对模型进行预警，模型就会自动进行调整，重点将预测错误的那部分样本进行关注，再次预测时达到尽量让其预测正确的目的，就这样逐步调整和优化直到最优。

田齐齐

2020-03-30

9.7892 6 1

逻辑回归如何解决多分类问题？

逻辑回归可用于多分类问题，二分类时的函数为sigmod函数，多分类问题应使用softmax函数，其实sigmod是softmax函数的一种情况。并且多分类问题时并不是类别y的值设置的越大概率会越大，因为，最终用于类别判断的函数是一个0，1向量，例如五分类问题的实际向量可以为（0，0，0，1，0），预测向量可以为（0.1，0.2，0.3，0.4，0），然后进行交叉熵计算最优化解。代码参考：htt

田齐齐

2020-03-29

3.9004 5 2

怎样理解分布峰度

正态分布的峰度K=3，均匀分布的峰度K=1.8。除了左偏右偏之外我们还需要从峰度上看峰度是否偏离了正态分布。 kurtosis=K-3 称为超值峰度 kurtosis>0，尖峰态（leptokurtic），数据集比较分散，极端数值较多 kurtosis<0，低峰态（platykurtic），数据集比较集中，两侧的数据比较少

田齐齐

2020-03-29

56.7686 6 3

数据偏态

对称分布：平均数=中位数=众数非对称分布时即存在偏态，分为右向偏态和左向偏态右向偏态：平均数>众数，极端值在右侧，曲线向右延伸左向偏态：平均数<众数，极端值在左侧，曲线向左延伸偏态的描述方法：偏态系数SK（=0对称分布，>0正偏态，<0负偏态）

田齐齐

2020-03-29

3.9004 5 4

如何用Excel查询抽样分布临界值表？

Excel函数： NORM.S.DIST：返回标准正态分布概率值 NORM.S.INV：返回标准正态分布临界值 NORM.DIST：返回正态分布概率值 NORM.INV：返回具有给定概率正态分布临界值 T.DIST：返回左尾t分布概率值 T.DIST.2T：返回双尾t分布概率值 T.DIST.RT：返回右尾t分布概率值 T.INV：返回t分布左尾临界值 T.INV.2T：返回t分布双尾临界值

田齐齐

2020-03-29

12.9400 6 4

怎么用Excel生成20个1-100之间的随机数

选中一个单元格，输入公式：=RANDBETWEEN(1,100)，然后向下填充即可。

田齐齐

2020-03-29

22.4552 6 3

统计学：样本方差为什么除以n-1

1.首先样本方差要除的那个东西n-1，不是代表样本个数，本质上，是自由度。 2.除以（n-1）的定义式可以使得样本方差S²作为对总体方差的估计量，是无偏的。具体推导可参考：https://www.zhihu.com/question/28964121/answer/289441350

田齐齐

2020-03-29

6.3232 6 2

四分位数（Quartile）是统计学中分位数的一种，即把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值就是四分位数。 1）第一四分位数(Q1)，又称“较小四分位数”，等于该样本中所有数值由小到大排列后第25%的数字； 2）第二四分位数(Q2)，又称“中位数”，等于该样本中所有数值由小到大排列后第50%的数字； 3）第三四分位数(Q3)，又称“较大四分位数”，等于该样本中所有数值由小到大

田齐齐

2020-03-29

16.6076 7 4

怎么理解关联规则中最小支持度和最小置信度?

Apriori算法有支持度和置信度两个概念，都是在执行算法之前自己设定的，在每一次迭代过程后，大于支持度的项集被保留为频繁项集，最后生成的规则由最终的频繁项集组成。一、支持度支持度就是所有我们分析的交易中，某两种（若干种）商品同时（这里的同时，一般意味着同单或者一次独立的交易）被购买的概率（比率）。我们选择支持度的最终目的就是找出同时被购买的两个商品，可以提高我们的推荐转换率，从而增加收入。

田齐齐

2020-03-27

6.3232 6 1

jupyter notebook怎样建立一个py文件

jupyter notebook怎样建立一个py文件 1.先新建一个文本文件 2.写好代码之后重命名为py文件即可

田齐齐

2020-03-27

37.5964 6 5

机器学习：什么是基于用户的协同过滤推荐算法

俗话说“物以类聚、人以群分”，拿看电影这个例子来说，如果你喜欢《蝙蝠侠》、《碟中谍》、《星际穿越》、《源代码》等电影，另外有个人也都喜欢这些电影，而且他还喜欢《钢铁侠》，则很有可能你也喜欢《钢铁侠》这部电影。所以说，当一个用户 A 需要个性化推荐时，可以先找到和他兴趣相似的用户群体 G，然后把 G 喜欢的、并且 A 没有听说过的物品推荐给 A，这就是基于用户的系统过滤算法。我们可以将基于用

田齐齐

2020-03-27

1.2472 4 3

朴素贝叶斯需要划分训练集和测试集吗？

问题：朴素贝叶斯需要划分训练集和测试集吗？答：朴素贝叶斯和其他有监督算法一样，是需要划分训练集和测试集的，划分方法一样。

田齐齐

2020-03-27

36.3524 5 2

机器学习：MinMax归一化

MinMax归一化，区间缩放发利用了边界值信息，将属性缩放到[0,1]，减去最小值除以最大值与最小值的插值，实现代码如下： From sklearn.preprocessing import MinMaxScaler #区间缩放，返回值为缩放到[0,1]区间的数据 minMaxScaler=MinMaxScaler().fit(X_train) minMaxScaler.transform(X_

田齐齐

2020-03-25

22.1471 5 0