Scikit-learn-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

hunter.Z

决策树CART树的二分与基尼系数、信息增益率是否有关？

答：cart树本身实现的时候就是二分的二叉树，cart算法先对数据进行二分，然后再计算基尼系数这个指标，最后根据基尼系数这个指标去寻找最优切分点。所以cart树的二分与基尼系数、信息增益率无关。

43.4504

1

0

0

关注作者

收藏

hunter.Z

决策树中的cv 参数怎么理解？

答：cv指的是scikit-learn的GridSearchCV做K折交叉验证时的k参数，k折交叉验证的逻辑是这样的：1、首先，将全部样本划分成k个大小相等的样本子集；2、依次遍历这k个子集，每次把当前子集作为验证集，其余所有样本作为训练集，进行模型的训练和评估；3、最后把k次评估指标的平均值作为最终的评估指标。在实际实验中，k通常取10.

43.4504

1

0

0

关注作者

收藏

hunter.Z

决策树的参数问题

这两个参数是什么含义？答：这是决策树的剪枝用的超参数，min_samples_split ：当前节点至少有多少个样本才能分裂。min_samples_leaf ：当前节点分裂后每个叶节点至少有多少样本通过这两个超参数来训练决策树模型，最终得到最优的决策树模型。

43.4504

1

0

0

关注作者

收藏

fs陈晓亮

Sklearn聚类算法之Agglomerative Clustering

请问有人用过Sklearn聚类算法之Agglomerative Clustering吗？有没有模型的使用方法呢？

0.0000

1

0

0

关注作者

收藏

CDA持证人阿涛哥

关于时间序列LSTM 参数一

1, ts_predictions = model.predict(X_test) 把符合要求的数据X_test输入给预测模型, 输出值为预测值2, reality=scaler.inverse_transform(ts_predictions) 将LSTM 预测出的预测值输入转换为实际数据值

123.8787

2

0

0

关注作者

收藏

唏嘘不已啊

大家好啊，多多关照哈

大家好啊，多多关照哈

179.1194

5

1

0

关注作者

收藏

ermutuxia

熵和信息的概念

信息的基本作用就是减少人们对事物的不确定性，或者是增加对事物的确定性。不确定性函数f是概率P的减函数P增加——>不确定性减少——>信息熵减少——>信息增益为正。p越大，不确定性越小，信息（惊奇度）越少信息=惊奇度信息增益：熵 - 条件熵。表示在一个条件下，信息不确定性减少的程度。变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。我们如何来衡量信息量的多少

99.1680

4

0

0

关注作者

收藏

hongfu88888

图片上传不成功怎么办？

图片上传不成功怎么办？

18.8496

1

1

0

关注作者

收藏

啊啊啊啊啊吖

老师问下，什么时候才会需要实例化

-----实例化说吧了传参，赋给一个新变量，这里也可以直接接KNeighborsClassifier().fit(Xtrain,Ytrain)，多些代码，使用model.方法会少些很多code

46.1224

2

0

0

关注作者

收藏

liting李

XGBT importance_type 参数解释

importance_type (str, 默认值为 'weight') – 选择输出的哪一种重要程度。可选的5类重要程度如下所示：(1)"weight"：在所有的树中，一个feature总共多少次被用于分割数据。分析：这个指标是一个变量被用于分割的绝对次数，这就造成了这个指标的缺点。对于定类变量和定序变量，由于他们天生能用于分割的点就比较少，很容易被"weight"指标所忽略。一个简单的例子就是

54.8496

2

0

0

关注作者

收藏

liting李

有个问题请教下，xgb模型，如果importance_type="gini"，是不是就无法输出特征重要性？

问：有个问题请教下，xgb模型，如果importance_type="gini"，是不是就无法输出特征重要性？答：不是这样理解的，这个参数用默认就好，每个节点的信息是按照gini算得，也可以用别的算的，没必要再算gini，不影响结果输出

54.8496

2

0

0

关注作者

收藏

啊啊啊啊啊吖

提问：安装Graphviz,老师，这一步在哪找啊

-----所谓命令行，在win系统中就是运行功能，菜单键+r调用输入cmd进入

48.0000

1

0

0

关注作者

收藏

liting李

特征选择中什么是过滤式？

滤式方法先对数据集进行特征选择，然后再训练学习器。特征选择过程与后续学习器无关，这相当于先对初始特征进行“过滤”，再用过滤后的特征训练模型。过滤式选择的方法有： 1. 移除低方差的特征； 2. 相关系数排序，分别计算每个特征与输出值之间的相关系数，设定一个阈值，选择相关系数大于阈值的部分特征； 3. 利用假设检验得到特征与输出值之间的相关性，方法有比如卡方检验、t检验、F检验等。 4. 互

131.6067

1

0

0

关注作者

收藏

liting李

训练集、测试集、验证集有什么区别？

训练集（train set） —— 用于模型拟合的数据样本。验证集（development set）—— 是模型训练过程中单独留出的样本集，它可以用于调整模型的超参数和用于对模型的能力进行初步评估。在神经网络中，我们用验证数据集去寻找最优的网络深度（number of hidden layers)，或者决定反向传播算法的停止点或者在神经网络中选择隐藏层神经元的数量；在普通的机器学习中常用的交叉验

239.7347

1

0

0

关注作者

收藏

liting李

为什么需要交叉验证这种方式

当仅有有限数量的数据时，为了对模型性能进行无偏估计，我们可以使用k折交叉验证（k-fold cross-validation）。使用这种方法时，数据被分成k份数目相等的子集。我们构建k次模型，每次留一个子集做测试集，其他用作训练集。如果k等于样本大小，这也被称之为留一验证（leave-one-out）。在kaggle上，一些数据集是已经对训练集和测试集进行了区分，这种情况我觉得是不用再进行数据集

239.7347

1

0

0

关注作者

收藏

liting李

欠拟合如何解决？

欠拟合的情况比较容易克服，常见解决方法有：增加新特征，可以考虑加入进特征组合、高次特征，来增大假设空间；添加多项式特征，这个在机器学习算法里面用的很普遍，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强；减少正则化参数，正则化的目的是用来防止过拟合的，但是模型出现了欠拟合，则需要减少正则化参数；使用非线性模型，比如核SVM 、决策树、深度学习等模型；调整模型的容量(capacity)，通

200.0000

1

0

0

关注作者

收藏

liting李

决策树有哪些优缺点？

优点： 1.概念简单，计算复杂度不高，可解释性强，输出结果易于理解； 2.数据的准备工作简单，能够同时处理数据型和常规型属性，其他的技术往往要求数据属性的单一。 3.对中间值得确实不敏感，比较适合处理有缺失属性值的样本，能够处理不相关的特征； 4.应用范围广，可以对很多属性的数据集构造决策树，可扩展性强。决策树可以用于不熟悉的数据集合，并从中提取出一些列规则这一点强于KNN。缺点： 1.容易

171.4286

1

0

0

关注作者

收藏

liting李

正则表达式中re.match与re.search的区别

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。例子：import re line = "Cats are smarter than dogs"; matchObj = re.match( r'dogs', line, re.M|re.I)if matchObj: print "match

171.4286

1

0

0

关注作者

收藏

liting李

sklearn-GridSearchCV,CV调节超参使用方法

GridSearchCV，它存在的意义就是自动调参，只要把参数输进去，就能给出最优化的结果和参数。但是这个方法适合于小数据集，一旦数据的量级上去了，很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法：拿当前对模型影响最大的参数调优，直到最优化；再拿下一个影响最大的参数调优，如此下去，直到所有的参数调整完毕。这个方法的缺点就是可能会

108.9473

1

0

0

关注作者

收藏

liting李

决策树回归树中,criterion用哪个?

criterion划分叶子节点的标准。分类树可以选择’gini’,‘entropy’。回归树可以选择’mse’,‘mae’,‘friedman_mse’.'friedman_mse’是一种改进的mse.默认参数为mse.

133.3333

1

0

0

关注作者

收藏

123>

CDA考试动态

CDA报考指南