fs陈晓亮

使用xgboost模型填补缺失值时报错

fit的时候报错了,报错原因为ValueError: The label must consist of integer labels of form 0, 1, 2, ..., [num_class - 1].请问怎么解决?代码.docxdata.xlsximport pandas as pdimport numpy as npimport matplotlib.pyplot as plt%ma

80.0000 1 9
  • 关注作者
  • 收藏
liting李

决策树模型衡量节点不纯度的指标有哪些?

决策树模型衡量节点不纯度的指标有三项,分别是:错分率、Gini指数、熵。

109.0909 1 0
  • 关注作者
  • 收藏
读童话的狼

ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问

执行升级scikit-learn的命令报错:ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。: 'D:\\fxcx\\python\\Lib\\site-packages\\~klearn\\decomposition\\_cdnmf_fast.cp38-win_amd64.pyd'Co

41.0846 1 0
  • 关注作者
  • 收藏
读童话的狼

ImportError: cannot import name ' SequentialFeatureSelector’from ' sklearn. feature_ selection’

将sklearn-learn升级到最新版即可,升级方法见https://www.cda.cn/discuss/post/details/603795369fd3554bc36786e9

41.0846 1 0
  • 关注作者
  • 收藏
读童话的狼

ERROR: No matching distribution found for upgrade

命令写错了,多了空格应该是pip install scikit-learn --upgrade

150.0000 1 0
  • 关注作者
  • 收藏
读童话的狼

怎么将scikit-learn升级到最新版

在anaconda prompt中执行pip install scikit-learn --upgrade

52.1739 1 0
  • 关注作者
  • 收藏
读童话的狼

在进行onehot编码时提示could not convert string to float:

sklearn0.19版本的OneHotEncoder方法要求输入的变量应该是整数的矩阵,无法直接转换字符串,升级一下sklearn版本

70.5576 1 0
  • 关注作者
  • 收藏
CDA100823

plot_roc_curve导入错误

想请教一下运行from sklearn.metrics import plot_roc_curve时提示错误ImportError: cannot import name 'plot_roc_curve' from 'sklearn.metrics' (C:\ProgramData\Anaconda3\lib\site-packages\sklearn\metrics\__init__.py)怎么

200.0000 1 3
  • 关注作者
  • 收藏
詹惠儿

机器学习聚类的参数n_clusters要分几类才比较好 ?

问:机器学习聚类的参数n_clusters要分几类才比较好 ?答:n_ clusters是K-Means中的k,表示着我们告诉模型我们要分几类。这是K Means当中唯一个必填的参数,默认为8类,但通常我们的聚类结果会是一个小于8的结果。 通常,在开始聚类之前,我们并不知道n_ clusters究竟是多少,因此我们要对它进行探索。当我们拿到-一个数据集,如果可能的话,我们希望能够通过绘图先观察一下

80.0000 1 0
  • 关注作者
  • 收藏
詹惠儿

有哪些方法能降低过拟合的风险?

问:有哪些方法能降低过拟合的风险?答:(1)从数据入手,获得更多的训练数据。使用更多的训练数据是解决过拟合问题最有效的手段,因为更多的样本能够让模型学习到更多更有效的特征,减小噪声的影响。当然,直接增加实验数据一般是很困难的,但是可以通过-定的规则来扩充训练数据。比如,在图像分类的问题上,可以通过图像的平移、旋转、缩放等方式扩充数据;更进一步地,可以使用生成式对抗网络来合成大量的新训练数据。(2)

80.0000 1 0
  • 关注作者
  • 收藏
詹惠儿

​模型评估中如何实现Holdout 检验?

问:模型评估中如何实现Holdout 检验?答:Holdout检验是最简单也是最直接的验证方法,它将原始的样本集合随机划分成训练集和验证集两部分。比方说,对于一个 点击率预测模型,我们把样本按照70% ~ 30%的比例分成两部分,70%的样本用于模型训练; 30%的样本用于模型验证,包括绘制ROC曲线、计算精确率和召回率等指标来评估模型性能。Holdout检验的缺点很明显,即在验证集上计算出来的最

80.0000 1 0
  • 关注作者
  • 收藏
liting李

什么情况下(不)需要归一化?

需要: 基于参数的模型或基于距离的模型,都是要进行特征的归一化。不需要:基于树的方法是不需要进行特征的归一化,例如随机森林,bagging 和 boosting等。

57.1429 1 0
  • 关注作者
  • 收藏
liting李

哑变量与独热编码有什么区别?

本质上差不多,哑变量常用于回归模型,one-hot在任何模型都可以用哑变量在pandas的get_dummy方法,one-hot在sklearn,就是不同的库from sklearn.preprocessing import OneHotEncoder 最常用的编码:应该还是one-hot用的多,pandas机制问题,它需要在内存中把数据集都读入进来,要是数据量大的话,太消耗资源,one-hot可

57.1429 1 0
  • 关注作者
  • 收藏
liting李

机器学习中回归与分类最大的差别是什么

首先,分类和回归同属于监督学习需要完成的任务。分类与回归最主要的区别是输出变量的类型:连续变量的预测叫回归,离散变量的预测是分类。回归的主要作用是了解两个或多个变量之间是否相关,相关的方向,相关的强度,并利用数学模型以便观察特定变量来预测研究者感兴趣的变量。分类模型是将回归模型输出离散化,分类和回归模型之间存在重要差异。

57.1429 1 0
  • 关注作者
  • 收藏
读童话的狼

Adaboost中的learning_rate参数不明白

最优化的算法是逐次逼近最优值的,每次调整一小步,逐步趋向于最优解。但是每一次更新参数利用多少误差,就需要通过一个参数来控制,这个参数就是学习率,也称为步长,控制每次权重调整的比例,官方解释为Learning rate shrinks the contribution of each classifier by learning_rate

70.5882 1 0
  • 关注作者
  • 收藏
liting李

python聚类后如何找到分类后的数据

获取聚类结果中每一类的数据,该数据类型是DataFrame思路:获取clf_KMeans的标签,我这里是聚三类,标签就是0,1,2将Label转成Series类型,再筛选出指定标签的res0,我筛选了1最后在DataFrame里获取Label为1的数据import pandas as pdfrom sklearn.cluster import KMeans   # 建立模型。n_cluste

147.7544 2 0
  • 关注作者
  • 收藏
anranhui

决策树中经常用熵作为判别条件而不是基尼不纯度?基尼不纯度是什么?

绝大部分情况下熵(entropy)和基尼指数(Gini Index)在决策树节点分裂时做出的决策都是等价的。先看一下如何定义节点分裂时的不纯度函数(impurity)有三种(假设有k个类别): 不难看出,三个函数均为凸函数。只不过误分率(函数1)是分段线性函数(piece-wise linear),有时候节点分裂会无法降低不纯度。所以函数2和3一般是常采用的手段,它们的优势如下:二者

14.4630 4 2
  • 关注作者
  • 收藏
PhilipLiang

决策树剪枝策略及优缺点

预剪枝在决策树的生长过程中限制其规模,使其较早的停止生长。对每个节点划分前用验证集进行估计,通过比较划分前后的验证集精度来判断是否剪枝。若当前节点的划分不能带来决策树泛化能力的提升,则停止划分并标记当前节点为叶子结点。优缺点:预剪枝使得决策树的很多分支没有“展开”,降低了过拟合的风险,还能够减少决策树的训练时间以及预测事件开销。但是,有些分支可能当前划分不能提升模型的泛化性能甚至导致泛化性能

54.7519 5 6
  • 关注作者
  • 收藏
PhilipLiang

ID3,C4.5,CART算法对比

ID3ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。在ID3中,每次根据“最大信息熵增益”选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分,也就是说如果一个特征有4种取值,数据将被切分4份,一旦按某特征切分后,该特征在之后的算法执行中,将不再起作用。ID3算法十分简单,核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征,信息熵是信息论里面的概念,是信息的度量方式

0.0237 1 7
  • 关注作者
  • 收藏
PhilipLiang

机器学习第二天作业知识点整理

KMeans的原理先从没有标签的元素集合A中随机取k个元素作为k个子集各自的中心 分别计算剩下的元素到k个子集中心的距离,将这些元素分别划归到最近的子集 根据聚类结果,重新计算中心(子集中所有元素各个维度的算数平均数) 将集合A中全部元素按照新的中心然后再重新聚类 重复以上步骤,直到聚类的结果不再发生变化KMeans的优点原理比较简单,实现也很容易,收敛速度快。球状聚类效果较优

0.0000 0 3
  • 关注作者
  • 收藏
12>

热门用户 换一批

本月PGC排行 总奖励
01
ermutuxia
6496.1794
02
詹惠儿
2321.8909
03
liting李
2221.2971
04
LXM21
1778.6259
05
读童话的狼
1154.4227
06
LYY202012
720.0000
07
fs陈晓亮
491.6233
08
马锦涛
425.9382
09
M170504093621V4
342.8572
10
张07
342.8572
11
永洪科技
251.4286
12
18192654262
214.3936
13
hunter.Z
171.4216
14
心盛待花开
149.9844
15
M18758998702
85.7857
16
zgtly0723
66.6339
17
clips
66.6339