yw172716

KNN的优缺点

(1)优点①简单,易于理解,易于实现,无需参数估计,无需训练;②精度高,对异常值不敏感(个别噪音数据对结果的影响不是很大);③适合对稀有事件进行分类;④特别适合于多分类问题(multi-modal,对象具有多个类别标签),KNN要比SVM表现要好.(2)缺点①对测试样本分类时的计算量大,空间开销大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。目前常用的解决方法

yw172716

2020-11-08

40.1253 4 0
  • 关注作者
  • 收藏

随机森林优缺点

优点:1. 随机森林在解决分类与回归两种类型的问题有很大的优势;2.随机森林抗过拟合能力比较强;3.随机森林能处理很高维度的数据(也就是很多特征的数据),并且不用做特征选择,因为建树时会随机选择一些特征作为待选特征子集 ;4.训练速度快,容易做成并行化方法(训练时,树与树之间是相互独立的) ;5.随机森林可以做类似于GBDT那样的特征组合;6.在对缺失数据进行估计时,由于随机丢失特征,随机森林依然

yw172716

2020-10-23

74.9266 5 0
  • 关注作者
  • 收藏

随机森林的相关基础知识

随机森林看起来是很好理解,但是要完全搞明白它的工作原理,需要很多机器学习方面相关的基础知识。  1)信息、熵以及信息增益的概念  这三个基本概念是决策树的根本,是决策树利用特征来分类时,确定特征选取顺序的依据。理解了它们,决策树你也就了解了大概。 对于机器学习中的决策树而言,如果带分类的事物集合可以划分为多个类别当中,则某个类(xi)的信息可以定义如下:  I(x)用来表示随机变量的信

yw172716

2020-10-23

74.9266 5 0
  • 关注作者
  • 收藏

随机森林的随机性体现

随机森林是采用自助法(bootstrap)重采样技术,从原始训练集样本集N有放回的重复抽取k个样本形成新的训练集样本集合,然后根据自助样本集生成k个决策树组成的随机森林。新数据的分类结果按决策树投票多少形成的分数的决定。特征选择采用随机的方法去分裂每个节点,然后比较不同情况下产生的误差,能够监测到内在估计误差、分类能力和相关性来选择特征的数目。单棵决策树的分类能力很小,但在随机产生大量的决策树后,

yw172716

2020-10-23

74.9266 5 0
  • 关注作者
  • 收藏

随机森林和GBDT的区别

1.随机森林采用的bagging思想,而GBDT采用的boosting思想。这两种方法都是Bootstrap思想的应用,Bootstrap是一种有放回的抽样方法思想。虽然都是有放回的抽样,但二者的区别在于:Bagging采用有放回的均匀取样,而Boosting根据错误率来取样(Boosting初始化时对每一个训练样例赋相等的权重1/n,然后用该算法对训练集训练t轮,每次训练后,对训练失败的样例赋以

yw172716

2020-10-20

44.7581 4 0
  • 关注作者
  • 收藏

xgboost的使用调参

clf = XGBClassifier( learning_rate =0.1, #默认0.3 n_estimators=1000, #树的个数 max_depth=5, min_child_weight=1, gamma=0, subsample=0.8, colsample_bytree=0.8, objective= 'binary:logistic', #逻辑回归损失函数

yw172716

2020-10-20

44.7581 4 0
  • 关注作者
  • 收藏

xgboost优点

1.正则化xgboost在代价函数里加入了正则项,用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。从Bias-variance tradeoff角度来讲,正则项降低了模型的variance,使学习出来的模型更加简单,防止过拟合,这也是xgboost优于传统GBDT的一个特性。2.并行处理xgboost工具支持并行。boosting不是一种串行的

yw172716

2020-10-20

44.7581 4 0
  • 关注作者
  • 收藏

Mysql 窗口函数

窗口函数的基本语法如下:<窗口函数> over (partition by) <用于分组的列名> order by <用于排序的列名><窗口函数>的位置,可以放以下两种函数:专用窗口函数序号函数:row_number() / rank() / dense_rank()分布函数:percent_rank() / cume_dist()前后函数:lag()

yw172716

2020-10-15

51.9660 4 0
  • 关注作者
  • 收藏

关系型数据库中,关系的完整性有哪几种

关系模型中有3类完整性约束:域完整性、实体完整性、参照完整性。1.域(列)完整性 也就是用户定义的表字段的完整性 通常指数据的有效性,它包括字段的值域、字段的类型及字段的有效规则等约束,它是由确定关系结构时所定义的字段的属性决定的。限制数据类型,缺省值、规则、约束、是否可以为空,域完整性可以确保不会输入无效的值。比如某个属性的值必须在某个范围内,或者默认为0等,这些就是域(列)完整性,也就是用户

yw172716

2020-10-15

51.9660 4 0
  • 关注作者
  • 收藏

excel常用函数的用法

1.IF函数用途:根据条件进行判断用法:=IF(判断条件,条件成立返回的值,条件不成立返回的值)=IF(AND(条件1,条件2), 两个条件同时成立返回的值,不成立返回的值)=IF(OR(条件1,条件2), 两个条件之一成立返回的值,都不成立返回的值2.VLOOKUP函数 用途:数据查找、表格核对、表格合并用法:=vlookup(查找的值,查找区域,返回值所在列数,精确还是模糊查找)3.sunm

yw172716

2020-08-20

36.0174 6 0
  • 关注作者
  • 收藏