啊啊啊啊啊吖

提问:安装Graphviz,老师,这一步在哪找啊

-----所谓命令行,在win系统中就是运行功能,菜单键+r调用输入cmd进入

48.0000 1 0
  • 关注作者
  • 收藏
liting李

特征选择中什么是过滤式?

滤式方法先对数据集进行特征选择,然后再训练学习器。特征选择过程与后续学习器无关,这相当于先对初始特征进行“过滤”,再用过滤后的特征训练模型。过滤式选择的方法有:  1. 移除低方差的特征;  2. 相关系数排序,分别计算每个特征与输出值之间的相关系数,设定一个阈值,选择相关系数大于阈值的部分特征;  3. 利用假设检验得到特征与输出值之间的相关性,方法有比如卡方检验、t检验、F检验等。  4. 互

131.6067 1 0
  • 关注作者
  • 收藏
liting李

训练集、测试集、验证集有什么区别?

训练集(train set) —— 用于模型拟合的数据样本。验证集(development set)—— 是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。在神经网络中, 我们用验证数据集去寻找最优的网络深度(number of hidden layers),或者决定反向传播算法的停止点或者在神经网络中选择隐藏层神经元的数量;在普通的机器学习中常用的交叉验

239.7347 1 0
  • 关注作者
  • 收藏
liting李

为什么需要交叉验证这种方式

当仅有有限数量的数据时,为了对模型性能进行无偏估计,我们可以使用k折交叉验证(k-fold cross-validation)。 使用这种方法时,数据被分成k份数目相等的子集。我们构建k次模型,每次留一个子集做测试集,其他用作训练集。如果k等于样本大小,这也被称之为留一验证(leave-one-out)。在kaggle上,一些数据集是已经对训练集和测试集进行了区分,这种情况我觉得是不用再进行数据集

239.7347 1 0
  • 关注作者
  • 收藏
liting李

欠拟合如何解决?

欠拟合的情况比较容易克服, 常见解决方法有:增加新特征,可以考虑加入进特征组合、高次特征,来增大假设空间;添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强;减少正则化参数,正则化的目的是用来防止过拟合的,但是模型出现了欠拟合,则需要减少正则化参数;使用非线性模型,比如核SVM 、决策树、深度学习等模型;调整模型的容量(capacity),通

200.0000 1 0
  • 关注作者
  • 收藏
liting李

决策树 有哪些优缺点?

优点: 1.概念简单,计算复杂度不高,可解释性强,输出结果易于理解; 2.数据的准备工作简单, 能够同时处理数据型和常规型属性,其他的技术往往要求数据属性的单一。 3.对中间值得确实不敏感,比较适合处理有缺失属性值的样本,能够处理不相关的特征; 4.应用范围广,可以对很多属性的数据集构造决策树,可扩展性强。决策树可以用于不熟悉的数据集合,并从中提取出一些列规则 这一点强于KNN。 缺点: 1.容易

171.4286 1 0
  • 关注作者
  • 收藏
liting李

正则表达式中re.match与re.search的区别

re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。例子:import re line = "Cats are smarter than dogs"; matchObj = re.match( r'dogs', line, re.M|re.I)if matchObj: print "match

171.4286 1 0
  • 关注作者
  • 收藏
liting李

sklearn-GridSearchCV,CV调节超参使用方法

GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法:拿当前对模型影响最大的参数调优,直到最优化;再拿下一个影响最大的参数调优,如此下去,直到所有的参数调整完毕。这个方法的缺点就是可能会

108.9473 1 0
  • 关注作者
  • 收藏
liting李

决策树回归树中,criterion用哪个?

criterion划分叶子节点的标准。分类树可以选择’gini’,‘entropy’。回归树可以选择’mse’,‘mae’,‘friedman_mse’.'friedman_mse’是一种改进的mse.默认参数为mse.

133.3333 1 0
  • 关注作者
  • 收藏
liting李

DecisionTreeRegressor重要参数、接口、属性能详细的说明下吗?

重要参数:criterion回归树衡量分枝质量的指标,支持的标准有三种:1 )输入 "mse" 使用均方误差 mean squared error(MSE) ,父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准,这种方法通过使用叶子节点的均值来最小化L2 损失2 )输入 “friedman_mse” 使用费尔德曼均方误差,这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差3 )输

133.3333 1 0
  • 关注作者
  • 收藏
hunter.Z

关于网格搜索模型性能降低的问题

老师,决策树中,利用网格搜索进行了整体调参,为什么调参后的模型在测试集上的得分会降低?而且降低了近10个百分点。模型已经设置了随机数种子。答:这里需要明确两个问题,1、网格搜索的方法获得的最优参数为交叉验证中分数最高的一组参数,对于整体数据不一定适用。2、要想模型能有更好的参数,那就需要保证要搜索的参数网格范围足够的大,因为网格搜索只能找到给定范围内的最优参数组合。当然具体问题具体分析,还需根据代

200.0000 1 0
  • 关注作者
  • 收藏
liting李

评分卡中的woe有手写的,之也可以直接调用官方的,这俩有什么区别吗

没啥区别用官方的可以,自己写也可以。反正都简单,如果数据量特别大涉及到并行可能官方的算的快些。

63.1478 1 0
  • 关注作者
  • 收藏
liting李

朴素贝叶斯法对于连续和离散属性如何处理?

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。简单来说,朴素贝叶斯分类器假设样本每个特征与其他特征都不相关。

251.8714 3 2
  • 关注作者
  • 收藏
fs陈晓亮

使用xgboost模型填补缺失值时报错

fit的时候报错了,报错原因为ValueError: The label must consist of integer labels of form 0, 1, 2, ..., [num_class - 1].请问怎么解决?代码.docxdata.xlsximport pandas as pdimport numpy as npimport matplotlib.pyplot as plt%ma

80.0000 1 9
  • 关注作者
  • 收藏
liting李

决策树模型衡量节点不纯度的指标有哪些?

决策树模型衡量节点不纯度的指标有三项,分别是:错分率、Gini指数、熵。

109.0909 1 0
  • 关注作者
  • 收藏
读童话的狼

ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问

执行升级scikit-learn的命令报错:ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。: 'D:\\fxcx\\python\\Lib\\site-packages\\~klearn\\decomposition\\_cdnmf_fast.cp38-win_amd64.pyd'Co

41.0846 1 0
  • 关注作者
  • 收藏
读童话的狼

ImportError: cannot import name ' SequentialFeatureSelector’from ' sklearn. feature_ selection’

将sklearn-learn升级到最新版即可,升级方法见https://www.cda.cn/discuss/post/details/603795369fd3554bc36786e9

41.0846 1 0
  • 关注作者
  • 收藏
读童话的狼

ERROR: No matching distribution found for upgrade

命令写错了,多了空格应该是pip install scikit-learn --upgrade

150.0000 1 0
  • 关注作者
  • 收藏
读童话的狼

怎么将scikit-learn升级到最新版

在anaconda prompt中执行pip install scikit-learn --upgrade

52.1739 1 0
  • 关注作者
  • 收藏
读童话的狼

在进行onehot编码时提示could not convert string to float:

sklearn0.19版本的OneHotEncoder方法要求输入的变量应该是整数的矩阵,无法直接转换字符串,升级一下sklearn版本

70.5576 1 0
  • 关注作者
  • 收藏
12>

热门用户 换一批

本月PGC排行 总奖励
01
ermutuxia
6043.4657
02
啊啊啊啊啊吖
3532.7924
03
詹惠儿
2717.9649
04
liting李
1823.2895
05
CDA103315
719.9980
06
shauna570392
346.8360
07
cjk46
120.0000
08
M18964548320
120.0000
09
LXM21
11.2666
10
hujiahao
9.5968
11
hunter.Z
3.3470
12
LYY202012
0.4586
13
BOBOLEYOUYOU
0.1652
14
Z1263
0.0013