数据科学专业问答社区，好文章，一字千金--CDA答疑社区

压缩思维笔记：最优化算法

最优化算法：1、梯度下降法：利用一阶导2、牛顿法：利用一阶导和二阶导3、拟牛顿法：用正定矩阵代替黑塞矩阵的逆4、坐标轴下降法：沿着坐标轴平行的方向进行优化

啊啊啊啊啊吖

2021-05-27

63.4485 1 0

数据无量纲化在机器学习算法实践中，我们往往有着将不同规格的数据转换到同⼀规格，或不同分布的数据转换到某个特定分布的需求，这种需求统称为将数据“无量纲化”。比如梯度和矩阵为核⼼的算法中，对于逻辑回归，⽀持向量机，神经⽹络等，⽆量纲化可以加快求解速度；⽽在距离类模型，⽐如K近邻，KMeans聚类中，⽆量纲化可以帮我们提升模型精度，避免某⼀个取值范围特别⼤的特征对距离计算造成影响。（⼀个特例是决策树和树

啊啊啊啊啊吖

2021-05-26

272.6202 1 0

提问：大数据怎么描述？

大数据常见于右偏分布，如果有偏性不是特别严重的话，如曲线 1，仍然可以使用常务性指标，如中位数、四分位距、异常、最大值与最小值。曲线 2 增加了拐点，拐点的意义在于区分左侧与右侧不同用户的群体特征，比如左侧的用户群体与普通的右偏分布大体相当，因此仍然使用传统的常务性指标描述大众与小众；但右侧的群体特征没有峰值并不区分大众、小众，一般重点描述全距及等宽度区间对应的概率及业务意义。因此需要回答，为什么

啊啊啊啊啊吖

2021-05-26

272.6202 1 0

面试提问：关于boosting

1. 记住损失函数的公式，并且不要忘了后面的约束项(在adboost和GBDT中约束是0)2. 除了adaboost classifier的基是分类树，其他的所有的boost算法(GBDTClassifer, GBDTRegressor,XGBoostClassifer, XBoostRegressor)的基是回归树3. 强行的记住Xgboost中损失函数的约束项是一个是对新的模型的叶节点总个数的

啊啊啊啊啊吖

2021-05-23

80.0000 1 0

GBDT如何处理分类问题

1．基模型始终都是回归树模型2.损失函数是逻辑回归中的logloss损失函数,3.损失函数的优化的解提示了什么信息?提示新的模型是如何得到，是使用回归树模型训练X和之前的叠加模型遗留下来的类概率值相关的残差，并且树模型的叶节点的输出不再是想回归问题中残差的平均值，而是

啊啊啊啊啊吖

2021-05-22

80.0000 1 0

如何控制模型的复杂度?

如何控制模型的复杂度?1．直接在模型的结构中进行控制，树模型中的剪枝,max_depth，min_samples_split2．从损失函数中通过添加约束项的方式来控制模型的复杂度(L1，L2范式)1.L1和L2范式是专门来控制模型的复杂度的2．只要模型有损失函数函数，那么就可以上L1，L2来控制复杂度

啊啊啊啊啊吖

2021-05-22

80.0000 1 0

压缩思维笔记：GBDT

GBDT，梯度提升树模型：1. 可以处理回归问题，基是回归树模型，并且损失函数是MSE2. 也可以处理分类问题，基还可以是回归树模型，但是损失不一样，损失是logloss

啊啊啊啊啊吖

2021-05-22

0.0000 0 0

面试问题：PCA转换之后的新的特征怎么来的

PCA转换之后的新的特征怎么来的，每一个新特征，都是有所有原始的特征通过线性组合而得来的

啊啊啊啊啊吖

2021-05-21

36.0000 1 0

提问：特征选择好理解，选特征嘛做减法，但是PCA是怎么做到降维的呢

PCA，尝试对空间做一个变换，PCA可以保证找到相互独立的特征，在新的特征下，就可以很轻松来做特征筛选，由于新的空间下，方差矩阵中非对角线上的值为0。从而特征筛选的过程中，不会误删太多的信息，降低模型欠拟合的风险。或者换一句来说，PCA的效果就是将原来的方差矩阵，非对角线上的信息量，重新分配到对角线上去，从而可以很安全的做特征筛选。

啊啊啊啊啊吖

2021-05-21

36.0000 1 0

压缩思维笔记：PCA的优缺点

PCA的优点: 1. 对空间做线性的变化，从而更加安全来进行特征筛选，尽量的保留信息，降低欠拟合的风险。2. 新的特征下两两完全独立，这种独立的性质，对线性回归，逻辑回归，SVM模型是非常有效的。PCA的缺点：1. 只能对连续型的变量做PCA2. 对连续型的变量做PCA之前，一定要做标准化。3. 特征转换之后，新特征是完全独立的，但是不可以解释，所以如果业务的需求是要解释性强的模型，PCA就用不了

啊啊啊啊啊吖

2021-05-21

36.0000 1 0

提问：特征选择就可以降维了，为什么还非要搞个不理解的特征转换技术？

做特征筛选，是在暴力删除特征，这种方式会导致过多的信息的丢失(矩阵上非对角线的信息)，模型所学习到信息太少，有欠拟合的风险。

啊啊啊啊啊吖

2021-05-21

36.0000 1 0

提问：老师，这种分数不太高的模型后续提升分数大概是按什么步骤

------1. 找更多特征2. 使用更加强悍的模型

啊啊啊啊啊吖

2021-05-21

36.0000 1 0

提问：decisiontreeclassifie报错

------更新sklearn版本：pip install upgrade scikit-learn

啊啊啊啊啊吖

2021-05-20

36.0000 1 0

提问：n_estimators份采样集怎么做？

需要做n_estimators份采样集, 可以尝试使用dataframe的形式帮助做(效率低)# 首先将训练集的特征和标签拼在一起，因为做采样的时候，样本的特征和标签都同时来做采样train = pd.DataFrame(Xtrain)train['label'] = Ytraindata_train_ = []for i in range(n_estimators): # 每次循环的过程中

啊啊啊啊啊吖

2021-05-20

36.0000 1 0

提问：sklearn怎么填充缺失的数据

# 使用SimpleImputerfrom sklearn.impute import SimpleImputer# 使用中位数填补Agenum = ['Age']data_num = data.loc[:, num]SI_num = SimpleImputer(strategy = 'median')SI_num = SI_num.fit(data_num)data.loc[:, num] =

啊啊啊啊啊吖

2021-05-20

55.1551 1 0

提问：sklearn里包的分类

# sklearn里分两种包# 1. 机器学习模型包，这些包fit学习的是数据集特征和标签之间规律可以使用这个规律来预测标签，predict, score# 2. 数据处理的包，这个包的目标是处理，清洗，转化数据（transform）# 3. 不管是哪一种包，输入必须是二维数组，输出是array

啊啊啊啊啊吖

2021-05-20

55.1551 1 0

随机森林的效果为什么要比单个树模型效果好

随机森林的效果为什么要比单个树模型效果好1. 森林这个角度上，体现n_estimator，从概率公式上来看，使用一片树模型来进行最终标签的判断，可以很有效的降低误差率2. 随机的角度上看，体现random_state，对数据集做随机的采样，以及模型构建的过程中的随机的特征筛选，都可以保证训练来的模型的多样性，从而减少噪音点对整体的影响，提高模型的泛化能力。

啊啊啊啊啊吖

2021-05-19

55.1551 1 0

提问：老师，这个参数的作用是什么

min_samples_leaf:int, float, optional (default=1) 整数或者浮点数，默认为1。它指定了每个叶子节点包含的最少样本数。如果为浮点数(0到1之间)，每个叶子节点包含的最少样本数为ceil(min_samples_leaf * n_samples)

啊啊啊啊啊吖

2021-05-19

55.1551 1 0

提问：bagging不是就之前学的交叉验证吗，我好混乱，这两个到底是什么

bagging和交叉验证之间的区别。交叉验证:1. 尝试对数据集进去切分，从而探索模型在一个固定的复杂度下未知数据集上的综合能力2. 最终的模型是评估模型。bagging：1. 使用了交叉验证的思想来训练模型的，来探索特征和标签之间的规律。2. 最终的目标是训练出集成模型。

啊啊啊啊啊吖

2021-05-19

55.1551 1 0

提问：Python怎么直接跟数据库连接啊

提前在annaconda promt安装pymysql： pip install pymysql -i https://pypi.tuna.tsinghua.edu.cn/simple(https://pypi.tuna.tsinghua.edu.cn/simple) 导入：import pymysql连接mysql数据库：con = pymysql.connect(host="localhost

啊啊啊啊啊吖

2021-05-18

180.0000 1 0