机器学习-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

CDA持证人阿涛哥

在对数据进行预处理时，应该怎样处理类别型特征？

在对数据进行预处理时，应该怎样处理类别型特征？1，序号编码序号编码通常用于处理类别间具有大小关系的数据。例如成绩 ,可以分为低、中、高三挡，并且存在“高＞中＞低”的排序关系。序号编码会按照大小关系对类别型特征赋予一个数值 ID ，例如高表示为 3 、中表示为 2 、低表示为 1 ，转换后依然保留了大小关系。2，独热编码独热编码通常用于处理类别间不具有大小关系的特征。例如血

0.0157

1

0

0

关注作者

收藏

CDA持证人阿涛哥

数据归一化并不是万能的

数据归一化并不是万能的。在实际应用中，通过梯度下降法求解的模型通常是需要归一化的，包括线性回归、逻辑回归、支持向量机、神经网络等模型。但对于决策树模型则并不适用。

0.0000

0

0

0

关注作者

收藏

CDA持证人阿涛哥

为什么需要对数值类型的特征做归一化处理？

为了消除数据特征之间的量纲影响我们需要对特征进行归一化处理，使得不同指标之间具有可比性。例如，分析一个人的身高和体重对健康的影响，如果使用米（ m)和干克（ kg ）作为单位，那么身高特征会在 1.6 ～1.8m 的数值范围内，体重特征会在50 ～ 1OOkg 的范围内，分析出来的结果显然会倾向于数值差别比较大的体重特征。想要得到更为准确的结果，就需要进行特征归一化（ N

0.0000

0

0

0

关注作者

收藏

读童话的狼

若是逻辑回归二分类想画roc曲线第二个参数应该传的是什么代码呢？

样本属于正样本的概率roc_curve和auc的官方说明教程示例：from sklearn.metrics import roc_curve, auc# 数据准备>>> import numpy as np>>> from sklearn import metrics>>> y = np.array([1, 1, 2, 2])>>> scores = np.array([0.1, 0.4, 0.3

68.3351

1

0

0

关注作者

收藏

孙媛呀

机器学习十大基础算法

机器学习十大算法.docx

109.3096

2

0

0

关注作者

收藏

读童话的狼

Bagging算法（套袋法）原理

从原始样本集中使用Bootstrap方法随机抽取n个训练样本，共进行k轮抽取，得到k个训练集。（k个训练集之间相互独立，元素可以有重复）对于k个训练集，我们训练k个模型（这个k个模型可以选择决策树，knn等）对于分类问题：由投票表决产生分类结构；对于回归问题：有k个模型预测结果的均值作为最后预测结构（所有模型的重要性相同）

47.9928

1

0

0

关注作者

收藏

赵娜0418

如何理解决策树？

问题：如何理解决策树？答：决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，

46.1538

1

0

0

关注作者

收藏

赵娜0418

jieba.cut 如何使用？

jieba.cut 接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。jieba.cut 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用jieba.lcut 直接返回 l

210.0568

3

0

0

关注作者

收藏

赵娜0418

如何理解ROC和AUC？

ROC图表和曲线下面积（AUC）ROC图表类似于增益或提升图表，因为它们提供了分类模型之间的比较手段。ROC图表显示X轴上的假阳性率（1-特异性），当其真实值为0时，目标的概率= 1，而在Y轴上显示真阳性率（灵敏度），目标的概率= 1时真值是1。理想情况下，曲线将快速向左上方爬，这意味着模型正确预测了案例。对角线红线表示随机模型（ROC101）。曲线下面积（AUC）ROC曲线下的面积通常用作分类模

37.1340

4

0

0

关注作者

收藏

你应该是一阵风丫

机器学习求职60问

类型一：基础概念类问题1：过拟合与欠拟合（定义、产生的原因、解决的方法各是什么）。问题2:L1正则与L2正则（有哪些常见的正则化方法？作用各是什么？区别是什么？为什么加正则化项能防止模型过拟合）。问题3：模型方差和偏差（能解释一下机器学习中的方差和偏差吗？哪些模型是降低模型方差的？哪些模型是降低模型偏差的？举例说明一下）。问题4：奥卡姆剃刀（说一说机器学习中的奥卡姆梯刀原理）。问题5：模

35.9124

1

0

0

关注作者

收藏

詹惠儿

‘Z-Score标准化’学习总结

问：‘Z-Score标准化’学习总结答：使用此方法处理数据，我们最后得到的数据集中的平均值将为0，标准差为1。我们可以通过在numpy中组合不同的函数来实现这一点，例如：z =（x.values-np.mean（x.values））/ np.std（x.values）其中 x 是一个带有数值索引的数据框。如果我们想将值保留在数据框中，则只需要删除它前面的.values。标准化之前的方差cat

35.9124

1

0

0

关注作者

收藏

詹惠儿

如何理解特种工程中的标签编码？

问：如何理解特种工程中的标签编码？答：在标签编码中，我们可以将分类值转换为数字标签。假设以下是我们的数据集：我们在“Country”列上使用标签重新编码，则会将India转换为1，将the USA转换为2，将China转换为0。此技术的缺点是，会将美国列为最高优先级，因为美国的标签是最大的，而中国则列为最低优先级的标签0，但这在实际工作中仍然是一种非常有用的技术。让我们编写代码。from skle

35.9124

1

0

0

关注作者

收藏

詹惠儿

分类模型和聚类模型其实是一样的吧？

问：其实在给定的数据中，如果说针对这些给定的数据范围，让你把这些客户分一下类，和你聚类一下这些客户，觉得都是一样的道理的吧？答：这两者是不一样的，分类是指利用分类技术将数据集中提取描述数据类的一个函数或模型，并把数据集中的每个对象归结到某个已知的对象类中；而聚类是指根据相似度计算，把给定的对象划分到指定的组内。在机器学习中，分类算法属于有监督学习，聚类算法属于无监督学习，因为分类算法在划分类别时提

30.4704

1

0

0

关注作者

收藏

liting李

用深度学习每次得到的结果都不一样,怎么办?

神经网络算法利用了随机性，比如初始化随机权重，因此用同样的数据训练同一个网络会得到不同的结果。

53.9385

2

0

0

关注作者

收藏

132****7268

**K-means 的基本思想：**通过迭代寻找 k 个聚类的一种划分方案，使得用这 k 个聚类的均值来代表相应各类样本时所得的总体误差最小。K-means 算法的基础是最小误差平方和准则。**K-means 聚类步骤：**Step1: 随机选择 k 个质心(即 k 个类)；Step2: 计算每一个点到这些质心的距离，然后决定每个点所属的类；Step3: 对于每个类，重新确定该类的质心Step4:

32.2574

1

0

0

关注作者

收藏

读童话的狼

监督学习和无监督学习有什么区别？

监督学习：对具有标记（分类）的训练样本进行学习，这里，所有的标记（分类）是已知的。如：决策树算法、朴素贝叶斯算法、KNN 算法。无监督学习：对没有标记（分类）的训练养样本进行学习，目的是为了发现训练集中的结构特征。这里，所有的标记（分类）是未知的。如：聚类算法。

42.6606

3

0

0

关注作者

收藏

宋俊花

参数模型与非参数模型

参数模型、非参数模型（以及半参数模型）的概念应该源自于统计学中。统计专业中有一门课程叫做《非参数统计》，研究的对象就是秩检验、核密度估计等。在统计学中，参数模型通常假设总体（随机变量）服从某一个分布，该分布由一些参数确定（比如正太分布由均值和方差确定），在此基础上构建的模型称为参数模型；非参数模型对于总体的分布不做任何假设，只是知道总体是一个随机变量，其分布是存在的（分布中也可能存在参数），但是无

39.8657

1

0

0

关注作者

收藏

姚慧扬

adaboost算法：每一次迭代的过程当中，使用决策树模型训练带权重的样本，训练的过程当中，会非常小心的对待权重大的样本（上一次迭代中预测错的样本。拟合好的模型会尽量将这些权重大的样本预测正确。这次迭代之后，很可能还是会出现预测错的样本，再将这些预测错的样本的权重增大，减少预测正确样本的权重。从而让下一次迭代中的这个模型很小心的对待这一次预测错的样本

35.9174

2

0

0

关注作者

收藏

于家崎

机器学习——决策树

决策树决策树(decision tree)是一种基本的分类与回归方法决策树由结点(node)和有向边(directed edge)组成结点类型：根结点(root node)，内部结点(internal node)和叶结点(leaf node)决策树：可以把决策树看成一个if-else规则的集合由决策树的根结点到叶结点的每一条路径构建一条规则路径上内部结点的特征对应着规则的条件，而叶结点的类对应着

47.4768

2

0

0

关注作者

收藏

于家崎

数据分析Python聚类

聚类聚类(Clustering)：将数据集划分为若干相似对象组成的多个组(group)或簇(cluster)的过程，使得同一组中对象间的相似度最大化，不同组中对象间的相似度最小化。或者说一个簇(cluster)就是由彼此相似的一组对象所构成的集合，不同簇中的对象通常不相似或相似度很低聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类源于很

42.4673

2

0

0

关注作者

收藏

<123…69>

CDA考试动态

CDA报考指南