数据科学专业问答社区，好文章，一字千金--CDA答疑社区

RMSE是什么意思

RMSE（Root Mean Squard Error）均方根误差，用来衡量观测值同真值之间的偏差

读童话的狼

2021-03-30

0.0000 0 0

爬虫过程中的encoding是'ISO-8859-1'，爬出来的结果是乱码

在r.text前运行r.encoding = r.apparent_encoding

读童话的狼

2021-03-30

37.4995 1 0

CSV明明是300条记录为什么导入到sql中就变成了600条

重复运行导入数据的代码了，如果没有设置主键约束，重复导入是不会报错的

读童话的狼

2021-03-30

0.0000 0 0

Eror Code: 1062. Duplicate entry *30' for key "PRIMARY

要插入数据的主键数据(…)已经存在，不能再重复添加了。例：Duplicate entry ‘30’ for key 'PRIMARY'是指主键为0的数据已经存在，不能再插入主键值为30的数据了。

读童话的狼

2021-03-30

37.4995 1 0

特征比数据量还大时，选择什么样的分类器？

线性分类器，因为维度高的时候，数据一般在维度空间里面会比较稀疏，很有可能线性可分。

读童话的狼

2021-03-30

37.4995 1 0

XGBoost如何寻找最优特征？是有放回还是无放回的呢？

XGBoost在训练的过程中给出各个特征的评分，从而表明每个特征对模型训练的重要性.。XGBoost利用梯度优化模型算法, 样本是不放回的。但XGBoost支持子采样, 也就是每轮计算可以不使用全部样本。

读童话的狼

2021-03-30

37.4995 1 0

混淆矩阵怎么看

TN：将负类预测为负类（真负类）FN：将正类预测为负类（假负类）TP：将正类预测为正类（真正类）FP：将负类预测为正类（假正类）准确率：模型中所有判断正确的占总样本的比例精准率：所有预测正类中，真实也是正类的比例召回率：所有真实正类中，预测也是正类的比例特异度：所有真实负类中，预测为负类的比例

读童话的狼

2021-03-30

37.4995 1 0

这个三维数组索引三种方法结果不一样，是为什么哈

:2是切片，0是整数索引，使用整数索引得到的结果会低一个维度

读童话的狼

2021-03-25

99.9374 1 0

ValueError: The number of FixedLocator locations (6), usually from a call to set_ ticks

错误的原因是刻标与标签长度不一致，增加一个步骤即可

读童话的狼

2021-03-25

99.9374 4 1

Error Code: 1366. Incorrect integer value: '' for column 'category_new' at row 1

对于csv导入空值报错，可以先把sql_mode设置为ANSI模式，这样便可以插入数据，对于空值MySQL会自动处理成0

读童话的狼

2021-03-25

99.9374 1 0

为什么随机森林可以设置boostrap，GBM不可以，不都是树模型吗？

不一样的，随机森林属于bagging，GBM属于boosting，这是两种模型框架，bagging就类似于并联电路，最后的结果是多个基分类器投票出来的，boosting类似于串联电路，下一个基分类器去拟合上一步的残差

读童话的狼

2021-03-24

99.9374 1 0

是不是DT在参数调优的时候不能设置 n_estimator

是的，决策树模型只有一颗树，没有基分类器

读童话的狼

2021-03-24

0.0000 0 0

classifier和regressor有啥却别，不都是计算吗

classifier是分类，适用y是分类变量，regressor是回归，适用y是连续变量

读童话的狼

2021-03-24

99.9374 1 0

918: UserWarning: One or more of the test scores are non-finite

这是因为随机森林回归criterion参数只能选择criterion : {"mse", "mae"}, default="mse"随机森林分类则是criterion : {"gini", "entropy"}, default="gini"

读童话的狼

2021-03-23

59.9593 1 0

init_ 0 got multiple values for argument 'param_distributions'

把这个hyper_ params_ rdf参数去掉，把n_estimator全都写进param_dist里，这个tuple共同是调优参数

读童话的狼

2021-03-23

59.9593 1 0

FileNotFoundBrror: [Errno 2] No such file or directory: ’taobao_ data. txt'

使用绝对位置引用在使用绝对引用时，需要在路径前加一个r,不然容易报下面错误

读童话的狼

2021-03-23

59.9593 1 0

VLOOKUP是否可以将批注一起引用，怎么实现

没有现成的函数，可以使用VBA实现Vlookup不能直接引用批注，EXCEL没有这种函数的。但可以将批注先独自引到另一列,然后再进行引用。具体如下:假设批注均在A列单元格,从A2开始的。1.按Alt+F11,插入一模块，粘贴上下面的代码。Function pZ(a)pz = a.Comment.TextEnd Function2.在工作表的B2或者其他合适的单元格输入: =pz(A2)，下拉公

读童话的狼

2021-03-23

59.9593 1 0

为heatmap实现自定义colorbar

import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltdata=pd.read_excel(r'C:\Users\34428\Desktop\test.xlsx')h=sns.heatmap(data=data.corr() ,cmap ='YlGnBu' ,

读童话的狼

2021-03-21

400.0000 1 0

NameError: name Series is not defined

Series是pandas下的方法，所以调用时应该使用pd.Series()

读童话的狼

2021-03-21

99.9588 1 0

我想取出不是交集的部分，可以用merge 进行两表连接吗？

比如A表和B表，我想从B表里找出A表没有的一些数据有一个how参数，可以设置连接方式，选左连接，B表为主表，连接之后筛选A字段为空的数据

读童话的狼

2021-03-19

99.9588 1 0