数据科学专业问答社区，好文章，一字千金--CDA答疑社区

机器学习: 请解释偏差和方差的权衡

偏差反映了模型的拟合能力，方差描述的是数据集变换对模型的影响。如果一味追求模型的拟合能力，可以使得偏差降低，但可能会导致不同数据训练出的不同模型之间的差异非常大，方差过大，模型的泛化能力较差，容易出现过拟合现象。模型不能同时兼顾偏差和方差

陈革007

2020-06-18

14.3283 4 0

机器学习: 如何对多参数进行调参？

网格化搜索：对于多个参数，首先根据经验确定大致的参数范围。然后选择较大的步长进行控制变量的方法进行搜索，找到最优解后；然后逐步缩小步长，使用同样的方法在更小的区间内寻找更精确的最优解。

陈革007

2020-06-18

14.3283 4 4

机器学习: K-means算法中初始点的选择对最终结果有影响吗？K-means聚类中每个类别中心的初始点如何选择？

会有影响，不同的初始值结果可能不一样。初始值离得尽可能远。

陈革007

2020-06-18

14.3283 4 3

机器学习: 在K-Means中如何选择k?

K-Means 算法的最大缺点是不能自动选择分类数k，常见的确定k的方法有：（1）根据先验知识来确定（2）手肘法（3）轮廓系数法

陈革007

2020-06-18

0.1829 3 1

机器学习: K均值算法的调优一般可以从哪几个角度出发？

1) 对于离群点和孤立点敏感：数据归一化和离群点处理。 2) k值选择：手肘法，轮廓系数法选择 3) 初始聚类中心的选择：多次选择 4) 大数据集minibachkmeans

陈革007

2020-06-18

0.1829 3 4

机器学习: Kmeans的原理，优缺点

1）从N个数据对象中挑选出k个质心。 2）计算N个数据对象距离不同质心的距离，并将N个数据对象划分到与之距离最小的质心，形成新的k个聚类。 3）重新计算步骤2中获取新的k个聚类的质心，计算方法为求取聚类中所有数据对象的均值。 4）重复2-3步骤，直到每个聚类的数据成员不再发生变化。优点： 1）计算机时间短，速度快 2）容易解释 3）对球状聚类效果还不错缺点： 1) 对于离群点和孤立点敏感

陈革007

2020-06-18

14.2039 3 2

机器学习: KNN 预测范围注意点

KNN 不能做超出训练集范围(0-70)的预测, 否则就是一条直线, 如下:

陈革007

2020-06-17

25.3481 7 3

KNN的优缺点

优点 1、思想简单，能做分类和回归 2、惰性学习，无需训练（蛮力法），KD树的话，则需要建树 3、对异常点不敏感缺点 1、计算量大、速度慢 2、样本不平衡的时候，对稀有类别的预测准确率低 3、 KD树，球树之类的模型建立需要大量的内存 4、相比决策树模型，KNN模型可解释性不强

陈革007

2020-06-17

25.0618 5 2

如何选择knn模型中的k？k值大小和模型欠拟合和过拟合如何对应？

（1）如果选择较小的K值，就相当于用较小的领域中的训练实例进行预测，“学习”近似误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是“学习”的估计误差会增大，换句话说，K值的减小就意味着整体模型变得复杂，容易发生过拟合；（2）如果选择较大的K值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少学习的估计误差，但缺点是学习的近似误差会增大。这时候，与输入

陈革007

2020-06-17

25.0231 4 1

在模型评估过程中，过拟合和欠拟合具体是指什么现象？常用的过拟合解决方法有哪些？

过拟合：模型在训练集上的评估指标表现很好，但在测试集和新数据上的表现很差欠拟合：模型在训练和预测评估指标都不好过拟合解决方法：（1）增大数据集（2）减少数据特征（降维，特征选择）（3）正则化（L1和L2）（4）降低模型复杂度（如对决策树剪枝等）（5）交叉验证（6）集成学习方法

陈革007

2020-06-17

25.0231 4 3

Python 统计学习: corr相关系数的四种参数

根据实际情况, 将corr 里面的四种不同参数都试了一下虽然都是相关系数, 但实际情况有不同之处不填和 Pearson的结果是一样的 : 度量两变量X和Y之间相互关系（线性相关） spearson : 根据原始数据的排序位置进行求解 kendall: 也是一种秩相关系数，不过它所计算的对象是分类变量。

陈革007

2020-06-16

31.1736 6 4

Python 数据清洗: Pandas crosstab()--顶级函数

今天在复习"Python统计学习"的时候,碰到这个 crosstab() 翻了翻之前数据清洗时候的课程笔记,介绍的都比较简单, 所以,这里稍稍再扩展下这个顶级函数: pd.crosstab( index, #行索引 columns, #列索引 values=None, rownames=None, colnames=None, ag

陈革007

2020-06-15

18.8750 5 7

案例: python 词云图制作#mojito

爬虫 jieba 正则 wordcloud 抓住周总新歌的热度,来一波图表制作 1.爬取某音乐平台的评论, 25000条,但是电脑配置有限, 运行的结果中只有 1800条 2.jieba库分词正则, 清除不必要的字段 3.wordcloud 绘制需要相关代码的私

陈革007

2020-06-14

42.7406 15 5

统计数据的分类

1.分类数据(categorical data) 只能归于某一类别的非数字型数据对事物进行分类的结果，数据表现为类别，用文字来表述例如，人口按性别分为男、女两类 2.顺序数据(rank data) 只能归于某一有序类别的非数字型数据对事物类别顺序的测度，数据表现为类别，用文字来表述例如，产品分为一等品、二等品、三等品、次品等 3.数值型数据(metric data) 按数字尺度测量的观察值

陈革007

2020-06-13

16.6207 3 3

数据可视化: Matplotlib 绘图出现乱码情况可以试试这种操作

陈革007

2020-06-12

11.8032 5 5

Python :主成分分析法的基本原理

主成分分析法是一种降维的统计方法，它借助于一个正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量，这在代数上表现为将原随机向量的协方差阵变换成对角形阵，在几何上表现为将原坐标系变换成新的正交坐标系，使之指向样本点散布最开的p 个正交方向，然后对多维变量系统进行降维处理，使之能以一个较高的精度转换成低维变量系统，再通过构造适当的价值函数，进一步把低维系统转化成一维系统。

陈革007

2020-06-11

16.7489 7 2

Python 统计学习: 正经解释 --过拟合欠拟合

正经解释 --过拟合欠拟合测试集在训练集的正负5% 之内的,属于拟合训练集高于测试集, 叫过拟合, 即,原模型对数据解释过度 (10% 基本确定过拟合,20% 确定过拟合) 训练集低于训练集, 叫欠拟合, 即,原模型对数据解释的不准确(情况比较少见,常见于小数据)

陈革007

2020-06-10

13.3088 6 3

Python 统计学习: 非正经解释 --过拟合欠拟合

非正经解释 --过拟合欠拟合就好比你喜欢一个女生，这个女生有着自己的习性，为了追到这个女生我们经常会去迎合这个女生的习性。比如喝温水有固定的温度、挂电话只能她先挂、出去逛街不能哔哔太累、看书只能用书签不能折页........，这个就是我们学到的‘经验’。但是！万一也许可能这个女生某一天觉得你没有足够关心她每天都忙于自己的事情就和你分手啦..... 然后，当你再找女朋友时，你拿出这些

陈革007

2020-06-10

13.2527 5 1

Python 3.9 Beta2 版本更新:

实现的功能如下: 'abcdef'.cutprefix('abc') # 返回'def'' abcdef'.cutsuffix('ef') # 返回'abcd' 龟叔更偏好这种写法: removeprefix() 和 removesuffix() 可能最终的选择有: cutprefix - 删除指定的前缀。 trimprefix - 删除指定的前缀。 stripprefix - 删除指定的

陈革007

2020-06-10

31.2426 3 2

数据清洗: 缺失值填充-实用

使用分组, 不同组下的缺失值,用其对应组的均值填充,实用!!! df = pd.DataFrame([ ['1','小明', 18], ['2','小强', 19], ['2','小丽', 20], ['2','小花', np.NaN], ['1','小张', np.NaN] ],columns=['班级','name', 'age'], index=['

陈革007

2020-06-09

16.0831 4 5