唏嘘不已啊

大家好啊,多多关照哈

大家好啊,多多关照哈

67.2229 3 1
  • 关注作者
  • 收藏
ermutuxia

熵和信息的概念

信息的基本作用就是减少人们对事物的不确定性,或者是增加对事物的确定性。不确定性函数f是概率P的减函数P增加——>不确定性 减少——>信息熵减少——>信息增益为正。p越大,不确定性越小,信息(惊奇度)越少 信息=惊奇度信息增益:熵 - 条件熵。表示在一个条件下,信息不确定性减少的程度。变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。我们如何来衡量信息量的多少

0.2093 1 0
  • 关注作者
  • 收藏
hongfu88888

图片上传不成功怎么办?

图片上传不成功怎么办?

0.0000 0 1
  • 关注作者
  • 收藏
啊啊啊啊啊吖

老师问下,什么时候才会需要实例化

-----实例化说吧了传参,赋给一个新变量,这里也可以直接接KNeighborsClassifier().fit(Xtrain,Ytrain),多些代码,使用model.方法会少些很多code

27.2727 1 0
  • 关注作者
  • 收藏
liting李

XGBT importance_type 参数解释

importance_type (str, 默认值为 'weight') – 选择输出的哪一种重要程度。可选的5类重要程度如下所示:(1)"weight":在所有的树中,一个feature总共多少次被用于分割数据。分析:这个指标是一个变量被用于分割的绝对次数,这就造成了这个指标的缺点。对于定类变量和定序变量,由于他们天生能用于分割的点就比较少,很容易被"weight"指标所忽略。一个简单的例子就是

36.0000 1 0
  • 关注作者
  • 收藏
liting李

有个问题请教下,xgb模型,如果importance_type="gini",是不是就无法输出特征重要性?

问:有个问题请教下,xgb模型,如果importance_type="gini",是不是就无法输出特征重要性?答:不是这样理解的,这个参数用默认就好,每个节点的信息是按照gini算得,也可以用别的算的,没必要再算gini,不影响结果输出

36.0000 1 0
  • 关注作者
  • 收藏
啊啊啊啊啊吖

提问:安装Graphviz,老师,这一步在哪找啊

-----所谓命令行,在win系统中就是运行功能,菜单键+r调用输入cmd进入

48.0000 1 0
  • 关注作者
  • 收藏
liting李

特征选择中什么是过滤式?

滤式方法先对数据集进行特征选择,然后再训练学习器。特征选择过程与后续学习器无关,这相当于先对初始特征进行“过滤”,再用过滤后的特征训练模型。过滤式选择的方法有:  1. 移除低方差的特征;  2. 相关系数排序,分别计算每个特征与输出值之间的相关系数,设定一个阈值,选择相关系数大于阈值的部分特征;  3. 利用假设检验得到特征与输出值之间的相关性,方法有比如卡方检验、t检验、F检验等。  4. 互

131.6067 1 0
  • 关注作者
  • 收藏
liting李

训练集、测试集、验证集有什么区别?

训练集(train set) —— 用于模型拟合的数据样本。验证集(development set)—— 是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。在神经网络中, 我们用验证数据集去寻找最优的网络深度(number of hidden layers),或者决定反向传播算法的停止点或者在神经网络中选择隐藏层神经元的数量;在普通的机器学习中常用的交叉验

239.7347 1 0
  • 关注作者
  • 收藏
liting李

为什么需要交叉验证这种方式

当仅有有限数量的数据时,为了对模型性能进行无偏估计,我们可以使用k折交叉验证(k-fold cross-validation)。 使用这种方法时,数据被分成k份数目相等的子集。我们构建k次模型,每次留一个子集做测试集,其他用作训练集。如果k等于样本大小,这也被称之为留一验证(leave-one-out)。在kaggle上,一些数据集是已经对训练集和测试集进行了区分,这种情况我觉得是不用再进行数据集

239.7347 1 0
  • 关注作者
  • 收藏
liting李

欠拟合如何解决?

欠拟合的情况比较容易克服, 常见解决方法有:增加新特征,可以考虑加入进特征组合、高次特征,来增大假设空间;添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强;减少正则化参数,正则化的目的是用来防止过拟合的,但是模型出现了欠拟合,则需要减少正则化参数;使用非线性模型,比如核SVM 、决策树、深度学习等模型;调整模型的容量(capacity),通

200.0000 1 0
  • 关注作者
  • 收藏
liting李

决策树 有哪些优缺点?

优点: 1.概念简单,计算复杂度不高,可解释性强,输出结果易于理解; 2.数据的准备工作简单, 能够同时处理数据型和常规型属性,其他的技术往往要求数据属性的单一。 3.对中间值得确实不敏感,比较适合处理有缺失属性值的样本,能够处理不相关的特征; 4.应用范围广,可以对很多属性的数据集构造决策树,可扩展性强。决策树可以用于不熟悉的数据集合,并从中提取出一些列规则 这一点强于KNN。 缺点: 1.容易

171.4286 1 0
  • 关注作者
  • 收藏
liting李

正则表达式中re.match与re.search的区别

re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。例子:import re line = "Cats are smarter than dogs"; matchObj = re.match( r'dogs', line, re.M|re.I)if matchObj: print "match

171.4286 1 0
  • 关注作者
  • 收藏
liting李

sklearn-GridSearchCV,CV调节超参使用方法

GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法:拿当前对模型影响最大的参数调优,直到最优化;再拿下一个影响最大的参数调优,如此下去,直到所有的参数调整完毕。这个方法的缺点就是可能会

108.9473 1 0
  • 关注作者
  • 收藏
liting李

决策树回归树中,criterion用哪个?

criterion划分叶子节点的标准。分类树可以选择’gini’,‘entropy’。回归树可以选择’mse’,‘mae’,‘friedman_mse’.'friedman_mse’是一种改进的mse.默认参数为mse.

133.3333 1 0
  • 关注作者
  • 收藏
liting李

DecisionTreeRegressor重要参数、接口、属性能详细的说明下吗?

重要参数:criterion回归树衡量分枝质量的指标,支持的标准有三种:1 )输入 "mse" 使用均方误差 mean squared error(MSE) ,父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准,这种方法通过使用叶子节点的均值来最小化L2 损失2 )输入 “friedman_mse” 使用费尔德曼均方误差,这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差3 )输

133.3333 1 0
  • 关注作者
  • 收藏
hunter.Z

关于网格搜索模型性能降低的问题

老师,决策树中,利用网格搜索进行了整体调参,为什么调参后的模型在测试集上的得分会降低?而且降低了近10个百分点。模型已经设置了随机数种子。答:这里需要明确两个问题,1、网格搜索的方法获得的最优参数为交叉验证中分数最高的一组参数,对于整体数据不一定适用。2、要想模型能有更好的参数,那就需要保证要搜索的参数网格范围足够的大,因为网格搜索只能找到给定范围内的最优参数组合。当然具体问题具体分析,还需根据代

200.0000 1 0
  • 关注作者
  • 收藏
liting李

评分卡中的woe有手写的,之也可以直接调用官方的,这俩有什么区别吗

没啥区别用官方的可以,自己写也可以。反正都简单,如果数据量特别大涉及到并行可能官方的算的快些。

63.1478 1 0
  • 关注作者
  • 收藏
liting李

朴素贝叶斯法对于连续和离散属性如何处理?

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。简单来说,朴素贝叶斯分类器假设样本每个特征与其他特征都不相关。

251.8714 3 2
  • 关注作者
  • 收藏
fs陈晓亮

使用xgboost模型填补缺失值时报错

fit的时候报错了,报错原因为ValueError: The label must consist of integer labels of form 0, 1, 2, ..., [num_class - 1].请问怎么解决?代码.docxdata.xlsximport pandas as pdimport numpy as npimport matplotlib.pyplot as plt%ma

80.0000 1 9
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励
01
维克多阿涛
3032.3840
02
CDA117556
2679.1509
03
ermutuxia
2217.4545
04
Adams小乙
1588.6316
05
申宗康
1120.1250
06
CDA117513
992.2554
07
CDA118057
924.7732
08
CDA117845
795.0511
09
JG-贾老师
510.1148
10
旭旭纸
487.8302
11
M187****7866
406.3357
12
CDA123
388.4171
13
桃花影里飞神剑
316.7335
14
CDA117526
276.8590
15
CDA103484
214.1856
16
CyanLeo
163.1803
17
CDA118433
134.3313
18
CDA117870
128.1095
19
CDA113142
117.4051
20
estherAI
86.5019
21
CDA118839
84.7473
22
CDA118204
74.8806
23
DA弯道超车
62.8842
24
人脉引爆点
62.2090
25
CDA117539
59.8730
26
admin
56.5166
27
201801100215
52.8226
28
CDA116563
43.4219
29
李天爱
42.2107
30
AIU人工智能学院
36.9512
31
闫粤东
34.9470
32
养猪的佩琦
34.0291
33
yueyue92
32.5919
34
CDA117901
30.8282
35
星星的小橙子
30.5446
36
CDA110565
26.6694
37
CDA119047
14.4420
38
wo5656500
11.7603
39
逐梦的太阳
11.5626
40
CDA113606
11.4271
41
CDA116857
9.9058
42
CDA118507
9.3750
43
CDA118217
8.7121
44
136****4585
8.1884
45
小壹壹壹
6.1398
46
唏嘘不已啊
5.9839
47
HXAI105576
5.9252
48
CDA113607
5.9252
49
newbbs
5.8661
50
CDA117286
5.8562