数据科学专业问答社区，好文章，一字千金--CDA答疑社区

为什么先划分训练集和测试集后归一化？

先对数据划分训练集和测试集后归一化和对数据归一化后划分测试集和训练集，两者的区别：理论上还是应该先划分数据集，然后对训练数据做预处理，并且保存预处理的参数，在用同样的参数处理测试集。因为划分训练集和测试集就是假设只知道训练集的信息，而认为测试集数据是来自未来的，不可得知。如果之前统一做预处理之后再划分的话就利用了测试集的信息。

田齐齐

2020-03-25

23.3911 6 3

机器学习：什么是学习曲线

学习曲线，就是在看在训练集的样本量变化的过程中，训练集和测试集的分数的变化

田齐齐

2020-03-25

3.9004 5 3

机器学习：朴素贝叶斯对于连续和离散属性的处理

朴素贝叶斯法对于连续和离散属性的处理：

田齐齐

2020-03-25

13.7111 6 5

机器学习：朴素贝叶斯分类的优缺点

优点：（1）算法逻辑简单,易于实现（2）分类过程中时空开销小缺点：理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分

田齐齐

2020-03-25

1.2473 4 6

机器学习：正则化的作用

正则化的主要作用是防止过拟合，对模型添加正则化项可以限制模型的复杂度，使得模型在复杂度和性能达到平衡。常用的正则化方法有L1正则化和L2正则化。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。 L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）

田齐齐

2020-03-25

22.0946 4 4

机器学习：Lasso的作用

Lasso是用来做特征选取的，筛选之后的特征会被用到其他更加高级的算法里面得到更加不错的效果。 Lasso相比于普通最小二乘估计，可以在变量众多的时候快速有效地提取出重要变量，简化模型。

田齐齐

2020-03-25

1.2473 4 2

机器学习：岭回归

岭回归是一种改良的最小二乘估计法，实质上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法，对病态数据的拟合要强于普通的最小二乘法OLS。本质是在自变量信息矩阵的主对角线元素上人为地加入一个非负因子。当数据之间存在多重共线性（自变量高度相关）时，就需要使用岭回归分析。在存在多重共线性时，尽管最小二乘法（OLS）测得的

田齐齐

2020-03-25

1.2473 4 2

python中mat()函数

我们看到一开始随机生成的数组与使用mat函数之后的类型是发生了变化的，尽管他们显示的东西没有什么区别，但是实质上，他们的类型是不同的。用mat函数转换为矩阵之后可以才进行一些线性代数的操作。

田齐齐

2020-03-23

15.6507 5 1

正定矩阵的判定

性质正定矩阵有以下性质：（1）正定矩阵的行列式恒为正；（2）实对称矩阵A正定当且仅当A与单位矩阵合同；（3）若A是正定矩阵，则A的逆矩阵也是正定矩阵；（4）两个正定矩阵的和是正定矩阵；（5）正实数与正定矩阵的乘积是正定矩阵。判定的方法根据正定矩阵的定义及性质，判别对称矩阵A的正定性有两种方法：（1）求出A的所有特征值。若A的特征值均为正数，则A是正定的；若A的特征值均为

田齐齐

2020-03-23

15.6488 3 2

统计模型是寻找全局最优的过程，机器学习模型是局部最优的过程?

问:统计模型是寻找全局最优的过程，机器学习模型是局部最优的过程，可以这样理解吗？答:可以这样来理解！统计模型有点不一样，严格上来说，统计模型是在假设的条件下找全局最优的过程。机器学习简单的算法是在找局部最优，但是可以优化这些算法，来逼近全局最优，机器学习得不到全局最优的，除非特别幸运，我们讲梯度下降的时候就会看到.

田齐齐

2020-03-23

1.0039 2 2

机器学习:参数模型与非参数模型

参数模型：根据预先设计的规则，例如方差损失最小，进行学习，参数模型例子：回归（线性回归、逻辑回归）模型；最好可以看一下或者直接进行一下相关的推导；根据规则，拥有少部分数据就可以；非参数模型：不需要事先假设规则，直接挖掘潜在数据中的规则；非参数模型例子：KNN，决策树，挖掘数据潜在的特征，所以比较灵活；参数模型缺点：受限制性高非参数模型缺点：训练时间长，容易产生过拟合，需要大量数据支撑

田齐齐

2020-03-23

1.0039 2 3

pandas中isin的作用是什么

比如A和B都是一个三维的，判断A. isin(B)，就是判断A中的点，在不在B构建的这个三维空间集合里（也就是矢量化集合）就等于两个立方体，在空间里有一部分是重叠交汇的，A和B交汇的部分就反回turn，而不在这个B构建的这个矢量化集合里的就返回false

田齐齐

2020-03-22

5.6927 3 4

kmeans算法怎样预测新样本

kmeans算法预测新值的时候，他是怎么预测归属于哪一个簇下的？ kmeans算法预测新值的时候，是看新样本位于哪个簇中，最终确定处于哪个簇。

田齐齐

2020-03-22

5.6927 3 1

评估指标学习曲线

学习曲线,在训练集和测试集上得到的最好参数结果不同,最终采纳哪个调参的结果是看在测试集得分情况.

田齐齐

2020-03-21

5.6927 3 1

编码顺序从大到小和从小到大有没有影响?

在对特征进行编码时,顺序从大到小和从小到大有没有影响? 答:针对有顺序的特征最好按照顺序进行编码,例如学历情况:初中未毕业,初中毕业,高中毕业,专科,本科,硕士,博士,博士后.对应的编码要分别为0,1,2,3,4,5,6,7,8.按照从小到大的顺序.针对类型级别平行的就没有顺序要求了.

田齐齐

2020-03-21

35.6927 4 7

seaborn是什么?

Seaborn其实是在matplotlib的基础上进行了更高级的API封装，从而使得作图更加容易，在大多数情况下使用seaborn就能做出很具有吸引力的图，而使用matplotlib就能制作具有更多特色的图。应该把Seaborn视为matplotlib的补充，而不是替代物。

田齐齐

2020-03-21

35.6927 4 0

Kmeans性能评估指标轮廓系数

对于每个点𝑖 为已聚类数据中的样本，𝑏𝑖 为𝑖 到其它族群的所有样本的平均距离，𝑎𝑖 为𝑖 到本身簇的距离平均值最终计算出所有的样本点的轮廓系数平均值

田齐齐

2020-03-20

20.1923 6 0

多大数据适合用kmeans和knn算法?

答:因为kmeans和knn两个算法模型需要计算点与点之间的空间距离,所以最好用于量级较小的数据中.当然也需要考虑数据特征数的多少而定.

田齐齐

2020-03-20

3.7683 5 1

机器学习:KMeans组内距离平方和是哪个簇的？

问:KMeans组内距离平方和是哪个簇的？答:是所有簇相加的总和,

田齐齐

2020-03-20

3.7683 5 0

机器学习:利用sklearn生成4个簇的数据

导包: import numpy as np import matplotlib.pyplot as plt %matplotlib inline from sklearn.datasets import make_blobs 生成数据: # X为样本特征，Y为样本簇类别，共1000个样本， # 每个样本 2 个特征，共4个簇， # 簇中心在[-1,-1], [0,0],[1,1], [2,2

田齐齐

2020-03-20

20.1923 6 5