数据科学专业问答社区，好文章，一字千金--CDA答疑社区

KNN的优缺点

（1）优点①简单，易于理解，易于实现，无需参数估计，无需训练;②精度高，对异常值不敏感（个别噪音数据对结果的影响不是很大）;③适合对稀有事件进行分类;④特别适合于多分类问题(multi-modal,对象具有多个类别标签)，KNN要比SVM表现要好.（2）缺点①对测试样本分类时的计算量大，空间开销大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。目前常用的解决方法

yw172716

2020-11-08

40.1253 4 0

随机森林优缺点

优点：1. 随机森林在解决分类与回归两种类型的问题有很大的优势；2.随机森林抗过拟合能力比较强；3.随机森林能处理很高维度的数据（也就是很多特征的数据），并且不用做特征选择，因为建树时会随机选择一些特征作为待选特征子集；4.训练速度快，容易做成并行化方法(训练时，树与树之间是相互独立的) ；5.随机森林可以做类似于GBDT那样的特征组合；6.在对缺失数据进行估计时，由于随机丢失特征，随机森林依然

yw172716

2020-10-23

74.9266 5 0

随机森林的相关基础知识

随机森林看起来是很好理解，但是要完全搞明白它的工作原理，需要很多机器学习方面相关的基础知识。　　1）信息、熵以及信息增益的概念　　这三个基本概念是决策树的根本，是决策树利用特征来分类时，确定特征选取顺序的依据。理解了它们，决策树你也就了解了大概。对于机器学习中的决策树而言，如果带分类的事物集合可以划分为多个类别当中，则某个类（xi）的信息可以定义如下:　　I(x)用来表示随机变量的信

yw172716

2020-10-23

74.9266 5 0

随机森林的随机性体现

随机森林是采用自助法（bootstrap）重采样技术，从原始训练集样本集N有放回的重复抽取k个样本形成新的训练集样本集合，然后根据自助样本集生成k个决策树组成的随机森林。新数据的分类结果按决策树投票多少形成的分数的决定。特征选择采用随机的方法去分裂每个节点，然后比较不同情况下产生的误差，能够监测到内在估计误差、分类能力和相关性来选择特征的数目。单棵决策树的分类能力很小，但在随机产生大量的决策树后，

yw172716

2020-10-23

74.9266 5 0

随机森林和GBDT的区别

1.随机森林采用的bagging思想，而GBDT采用的boosting思想。这两种方法都是Bootstrap思想的应用，Bootstrap是一种有放回的抽样方法思想。虽然都是有放回的抽样，但二者的区别在于：Bagging采用有放回的均匀取样，而Boosting根据错误率来取样（Boosting初始化时对每一个训练样例赋相等的权重1／n，然后用该算法对训练集训练t轮，每次训练后，对训练失败的样例赋以

yw172716

2020-10-20

44.7581 4 0

xgboost的使用调参

clf = XGBClassifier( learning_rate =0.1, #默认0.3 n_estimators=1000, #树的个数 max_depth=5, min_child_weight=1, gamma=0, subsample=0.8, colsample_bytree=0.8, objective= 'binary:logistic', #逻辑回归损失函数

yw172716

2020-10-20

44.7581 4 0

xgboost优点

1.正则化xgboost在代价函数里加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。从Bias-variance tradeoff角度来讲，正则项降低了模型的variance，使学习出来的模型更加简单，防止过拟合，这也是xgboost优于传统GBDT的一个特性。2.并行处理xgboost工具支持并行。boosting不是一种串行的

yw172716

2020-10-20

44.7581 4 0

Mysql 窗口函数

窗口函数的基本语法如下：<窗口函数> over (partition by) <用于分组的列名> order by <用于排序的列名><窗口函数>的位置，可以放以下两种函数：专用窗口函数序号函数：row_number() / rank() / dense_rank()分布函数：percent_rank() / cume_dist()前后函数：lag()

yw172716

2020-10-15

51.9660 4 0

关系型数据库中，关系的完整性有哪几种

关系模型中有3类完整性约束：域完整性、实体完整性、参照完整性。1.域（列）完整性也就是用户定义的表字段的完整性通常指数据的有效性,它包括字段的值域、字段的类型及字段的有效规则等约束，它是由确定关系结构时所定义的字段的属性决定的。限制数据类型，缺省值、规则、约束、是否可以为空，域完整性可以确保不会输入无效的值。比如某个属性的值必须在某个范围内，或者默认为0等，这些就是域（列）完整性，也就是用户

yw172716

2020-10-15

51.9660 4 0

excel常用函数的用法

1.IF函数用途：根据条件进行判断用法：=IF(判断条件,条件成立返回的值,条件不成立返回的值）=IF(AND(条件1,条件2), 两个条件同时成立返回的值,不成立返回的值)=IF(OR(条件1,条件2), 两个条件之一成立返回的值,都不成立返回的值2.VLOOKUP函数用途：数据查找、表格核对、表格合并用法：=vlookup（查找的值，查找区域，返回值所在列数，精确还是模糊查找）3.sunm

yw172716

2020-08-20

36.0174 6 0