啊啊啊啊啊吖

压缩思维笔记:最优化算法

最优化算法:1、梯度下降法:利用一阶导2、牛顿法:利用一阶导和二阶导3、拟牛顿法:用正定矩阵代替黑塞矩阵的逆4、坐标轴下降法:沿着坐标轴平行的方向进行优化

啊啊啊啊啊吖

2021-05-27

63.4485 1 0
  • 关注作者
  • 收藏

提问:数据量纲化我知道了,无量纲化又是什么

数据无量纲化在机器学习算法实践中,我们往往有着将不同规格的数据转换到同⼀规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“无量纲化”。比如梯度和矩阵为核⼼的算法中,对于逻辑回归,⽀持向量机,神经⽹络等,⽆量纲化可以加快求解速度;⽽在距离类模型,⽐如K近邻,KMeans聚类中,⽆量纲化可以帮我们提升模型精度,避免某⼀个取值范围特别⼤的特征对距离计算造成影响。(⼀个特例是决策树和树

啊啊啊啊啊吖

2021-05-26

272.6202 1 0
  • 关注作者
  • 收藏

提问:大数据怎么描述?

大数据常见于右偏分布,如果有偏性不是特别严重的话,如曲线 1,仍然可以使用常务性指标,如中位数、四分位距、异常、最大值与最小值。曲线 2 增加了拐点,拐点的意义在于区分左侧与右侧不同用户的群体特征,比如左侧的用户群体与普通的右偏分布大体相当,因此仍然使用传统的常务性指标描述大众与小众;但右侧的群体特征没有峰值并不区分大众、小众,一般重点描述全距及等宽度区间对应的概率及业务意义。因此需要回答,为什么

啊啊啊啊啊吖

2021-05-26

272.6202 1 0
  • 关注作者
  • 收藏

面试提问:关于boosting

1. 记住损失函数的公式,并且不要忘了后面的约束项(在adboost和GBDT中约束是0)2. 除了adaboost classifier的基是分类树,其他的所有的boost算法(GBDTClassifer, GBDTRegressor,XGBoostClassifer, XBoostRegressor)的基是回归树3. 强行的记住Xgboost中损失函数的约束项是一个是对新的模型的叶节点总个数的

啊啊啊啊啊吖

2021-05-23

80.0000 1 0
  • 关注作者
  • 收藏

GBDT如何处理分类问题

1.基模型始终都是回归树模型2.损失函数是逻辑回归中的logloss损失函数,3.损失函数的优化的解提示了什么信息?提示新的模型是如何得到,是使用回归树模型训练X和之前的叠加模型遗留下来的类概率值相关的残差,并且树模型的叶节点的输出不再是想回归问题中残差的平均值,而是

啊啊啊啊啊吖

2021-05-22

80.0000 1 0
  • 关注作者
  • 收藏

如何控制模型的复杂度?

如何控制模型的复杂度?1.直接在模型的结构中进行控制,树模型中的剪枝,max_depth,min_samples_split2.从损失函数中通过添加约束项的方式来控制模型的复杂度(L1,L2范式)1.L1和L2范式是专门来控制模型的复杂度的2.只要模型有损失函数函数,那么就可以上L1,L2来控制复杂度

啊啊啊啊啊吖

2021-05-22

80.0000 1 0
  • 关注作者
  • 收藏

压缩思维笔记:GBDT

GBDT,梯度提升树模型:1. 可以处理回归问题,基是回归树模型,并且损失函数是MSE2. 也可以处理分类问题,基还可以是回归树模型,但是损失不一样,损失是logloss

啊啊啊啊啊吖

2021-05-22

0.0000 0 0
  • 关注作者
  • 收藏

面试问题:PCA转换之后的新的特征怎么来的

PCA转换之后的新的特征怎么来的,每一个新特征,都是有所有原始的特征通过线性组合而得来的

啊啊啊啊啊吖

2021-05-21

36.0000 1 0
  • 关注作者
  • 收藏

提问:特征选择好理解,选特征嘛做减法,但是PCA是怎么做到降维的呢

PCA,尝试对空间做一个变换,PCA可以保证找到相互独立的特征,在新的特征下,就可以很轻松来做特征筛选,由于新的空间下,方差矩阵中非对角线上的值为0。从而特征筛选的过程中,不会误删太多的信息,降低模型欠拟合的风险。或者换一句来说,PCA的效果就是将原来的方差矩阵,非对角线上的信息量,重新分配到对角线上去,从而可以很安全的做特征筛选。

啊啊啊啊啊吖

2021-05-21

36.0000 1 0
  • 关注作者
  • 收藏

压缩思维笔记:PCA的优缺点

PCA的优点: 1. 对空间做线性的变化,从而更加安全来进行特征筛选,尽量的保留信息,降低欠拟合的风险。2. 新的特征下两两完全独立,这种独立的性质,对线性回归,逻辑回归,SVM模型是非常有效的。PCA的缺点:1. 只能对连续型的变量做PCA2. 对连续型的变量做PCA之前,一定要做标准化。3. 特征转换之后,新特征是完全独立的,但是不可以解释,所以如果业务的需求是要解释性强的模型,PCA就用不了

啊啊啊啊啊吖

2021-05-21

36.0000 1 0
  • 关注作者
  • 收藏

提问:特征选择就可以降维了,为什么还非要搞个不理解的特征转换技术?

做特征筛选,是在暴力删除特征,这种方式会导致过多的信息的丢失(矩阵上非对角线的信息),模型所学习到信息太少,有欠拟合的风险。

啊啊啊啊啊吖

2021-05-21

36.0000 1 0
  • 关注作者
  • 收藏

提问:老师,这种分数不太高的模型后续提升分数大概是按什么步骤

------1. 找更多特征2. 使用更加强悍的模型

啊啊啊啊啊吖

2021-05-21

36.0000 1 0
  • 关注作者
  • 收藏

提问:decisiontreeclassifie报错

------更新sklearn版本:pip install upgrade scikit-learn

啊啊啊啊啊吖

2021-05-20

36.0000 1 0
  • 关注作者
  • 收藏

提问:n_estimators份采样集怎么做?

需要做n_estimators份采样集, 可以尝试使用dataframe的形式帮助做(效率低)# 首先将训练集的特征和标签拼在一起,因为做采样的时候,样本的特征和标签都同时来做采样train = pd.DataFrame(Xtrain)train['label'] = Ytraindata_train_ = []for i in range(n_estimators): # 每次循环的过程中

啊啊啊啊啊吖

2021-05-20

36.0000 1 0
  • 关注作者
  • 收藏

提问:sklearn怎么填充缺失的数据

# 使用SimpleImputerfrom sklearn.impute import SimpleImputer# 使用中位数填补Agenum = ['Age']data_num = data.loc[:, num]SI_num = SimpleImputer(strategy = 'median')SI_num = SI_num.fit(data_num)data.loc[:, num] =

啊啊啊啊啊吖

2021-05-20

55.1551 1 0
  • 关注作者
  • 收藏

提问:sklearn里包的分类

# sklearn里分两种包# 1. 机器学习模型包,这些包fit学习的是数据集特征和标签之间规律可以使用这个规律来预测标签,predict, score# 2. 数据处理的包, 这个包的目标是处理,清洗,转化数据(transform)# 3. 不管是哪一种包,输入必须是二维数组,输出是array

啊啊啊啊啊吖

2021-05-20

55.1551 1 0
  • 关注作者
  • 收藏

随机森林的效果为什么要比单个树模型效果好

随机森林的效果为什么要比单个树模型效果好1. 森林这个角度上,体现n_estimator,从概率公式上来看,使用一片树模型来进行最终标签的判断,可以很有效的降低误差率2. 随机的角度上看,体现random_state,对数据集做随机的采样,以及模型构建的过程中的随机的特征筛选,都可以保证训练来的模型的多样性,从而减少噪音点对整体的影响,提高模型的泛化能力。

啊啊啊啊啊吖

2021-05-19

55.1551 1 0
  • 关注作者
  • 收藏

提问:老师,这个参数的作用是什么

min_samples_leaf:int, float, optional (default=1) 整数或者浮点数,默认为1。它指定了每个叶子节点包含的最少样本数。 如果为浮点数(0到1之间),每个叶子节点包含的最少样本数为ceil(min_samples_leaf * n_samples)

啊啊啊啊啊吖

2021-05-19

55.1551 1 0
  • 关注作者
  • 收藏

提问:bagging不是就之前学的交叉验证吗,我好混乱,这两个到底是什么

bagging和交叉验证之间的区别。交叉验证:1. 尝试对数据集进去切分,从而探索模型在一个固定的复杂度下未知数据集上的综合能力2. 最终的模型是评估模型。bagging:1. 使用了交叉验证的思想来训练模型的,来探索特征和标签之间的规律。2. 最终的目标是训练出集成模型。

啊啊啊啊啊吖

2021-05-19

55.1551 1 0
  • 关注作者
  • 收藏

提问:Python怎么直接跟数据库连接啊

提前在annaconda promt安装pymysql: pip install pymysql -i https://pypi.tuna.tsinghua.edu.cn/simple(https://pypi.tuna.tsinghua.edu.cn/simple) 导入:import pymysql连接mysql数据库:con = pymysql.connect(host="localhost

啊啊啊啊啊吖

2021-05-18

180.0000 1 0
  • 关注作者
  • 收藏
<145662>