读童话的狼

RMSE是什么意思

RMSE(Root Mean Squard Error)均方根误差,用来衡量观测值同真值之间的偏差

读童话的狼

2021-03-30

0.0000 0 0
  • 关注作者
  • 收藏

爬虫过程中的encoding是'ISO-8859-1',爬出来的结果是乱码

在r.text前运行r.encoding = r.apparent_encoding

读童话的狼

2021-03-30

37.4995 1 0
  • 关注作者
  • 收藏

CSV明明是300条记录 为什么导入到sql中就变成了600条

重复运行导入数据的代码了,如果没有设置主键约束,重复导入是不会报错的

读童话的狼

2021-03-30

0.0000 0 0
  • 关注作者
  • 收藏

Eror Code: 1062. Duplicate entry *30' for key "PRIMARY

要插入数据的主键数据(…)已经存在,不能再重复添加了。例:Duplicate entry ‘30’ for key 'PRIMARY'是指主键为0的数据已经存在,不能再插入主键值为30的数据了。

读童话的狼

2021-03-30

37.4995 1 0
  • 关注作者
  • 收藏

特征比数据量还大时,选择什么样的分类器?

线性分类器,因为维度高的时候,数据一般在维度空间里面会比较稀疏,很有可能线性可分。

读童话的狼

2021-03-30

37.4995 1 0
  • 关注作者
  • 收藏

XGBoost如何寻找最优特征?是有放回还是无放回的呢?

XGBoost在训练的过程中给出各个特征的评分,从而表明每个特征对模型训练的重要性.。XGBoost利用梯度优化模型算法, 样本是不放回的。但XGBoost支持子采样, 也就是每轮计算可以不使用全部样本。

读童话的狼

2021-03-30

37.4995 1 0
  • 关注作者
  • 收藏

混淆矩阵怎么看

TN:将负类预测为负类(真负类)FN:将正类预测为负类(假负类)TP:将正类预测为正类(真正类)FP:将负类预测为正类(假正类)准确率:模型中所有判断正确的占总样本的比例 精准率:所有预测正类中,真实也是正类的比例召回率:所有真实正类中,预测也是正类的比例特异度:所有真实负类中,预测为负类的比例

读童话的狼

2021-03-30

37.4995 1 0
  • 关注作者
  • 收藏

这个三维数组索引三种方法结果不一样,是为什么哈

:2是切片,0是整数索引,使用整数索引得到的结果会低一个维度

读童话的狼

2021-03-25

99.9374 1 0
  • 关注作者
  • 收藏

ValueError: The number of FixedLocator locations (6), usually from a call to set_ ticks

错误的原因是刻标与标签长度不一致,增加一个步骤即可

读童话的狼

2021-03-25

99.9374 4 1
  • 关注作者
  • 收藏

Error Code: 1366. Incorrect integer value: '' for column 'category_new' at row 1

对于csv导入空值报错,可以先把sql_mode设置为ANSI模式,这样便可以插入数据,对于空值MySQL会自动处理成0

读童话的狼

2021-03-25

99.9374 1 0
  • 关注作者
  • 收藏

为什么随机森林可以设置boostrap,GBM不可以,不都是树模型吗?

不一样的,随机森林属于bagging,GBM属于boosting,这是两种模型框架,bagging就类似于并联电路,最后的结果是多个基分类器投票出来的,boosting类似于串联电路,下一个基分类器去拟合上一步的残差

读童话的狼

2021-03-24

99.9374 1 0
  • 关注作者
  • 收藏

是不是DT在参数调优的时候不能设置 n_estimator

是的,决策树模型只有一颗树,没有基分类器

读童话的狼

2021-03-24

0.0000 0 0
  • 关注作者
  • 收藏

classifier和regressor有啥却别,不都是计算吗

classifier是分类,适用y是分类变量,regressor是回归,适用y是连续变量

读童话的狼

2021-03-24

99.9374 1 0
  • 关注作者
  • 收藏

918: UserWarning: One or more of the test scores are non-finite

这是因为随机森林回归criterion参数只能选择criterion : {"mse", "mae"}, default="mse"随机森林分类则是criterion : {"gini", "entropy"}, default="gini"

读童话的狼

2021-03-23

59.9593 1 0
  • 关注作者
  • 收藏

init_ 0 got multiple values for argument 'param_distributions'

把这个hyper_ params_ rdf参数去掉,把n_estimator全都写进param_dist里,这个tuple共同是调优参数

读童话的狼

2021-03-23

59.9593 1 0
  • 关注作者
  • 收藏

FileNotFoundBrror: [Errno 2] No such file or directory: ’taobao_ data. txt'

使用绝对位置引用在使用绝对引用时,需要在路径前加一个r,不然容易报下面错误

读童话的狼

2021-03-23

59.9593 1 0
  • 关注作者
  • 收藏

VLOOKUP是否可以将批注一起引用,怎么实现

没有现成的函数,可以使用VBA实现Vlookup不能直接引用批注,EXCEL没有这种函数的。但可以将批注先独自引到另一列,然后再进行引用。具体如下:假设批注均在A列单元格,从A2开始的。1.按Alt+F11,插入一模块, 粘贴上下面的代码。Function pZ(a)pz = a.Comment.TextEnd Function2.在工作表的B2或者其他合适的单元格输入: =pz(A2), 下拉公

读童话的狼

2021-03-23

59.9593 1 0
  • 关注作者
  • 收藏

为heatmap实现自定义colorbar

import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltdata=pd.read_excel(r'C:\Users\34428\Desktop\test.xlsx')h=sns.heatmap(data=data.corr() ,cmap ='YlGnBu' ,

读童话的狼

2021-03-21

400.0000 1 0
  • 关注作者
  • 收藏

NameError: name Series is not defined

Series是pandas下的方法,所以调用时应该使用pd.Series()

读童话的狼

2021-03-21

99.9588 1 0
  • 关注作者
  • 收藏

我想取出不是交集的部分,可以用merge 进行两表连接 吗?

比如A表和B表,我想从B表里找出A表没有的一些数据有一个how参数,可以设置连接方式,选左连接,B表为主表,连接之后筛选A字段为空的数据

读童话的狼

2021-03-19

99.9588 1 0
  • 关注作者
  • 收藏
12358>