数据挖掘-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

809669515

如何缓解类不平衡问题？

现在知道类不平衡问题是什么以及它为什么是一个问题，我们需要知道如何处理这个问题。我们可以将方法粗略地分为两大类：基于抽样的方法和基于成本函数的方法。基于成本函数的方法基于成本函数的方法背后的直觉是，如果我们认为一个假阴性比一个假阳性更差，我们将计算一个假阴性，例如100个假阴性。例如，如果1个假阴性与100个假阳性一样昂贵，则机器学习算法将尝试与假阳性相比产生更少的假阴性（因为它更便宜）。

0.0000

0

1

0

关注作者

收藏

809669515

如何判断机器学习算法哪个更好？

为了告诉机器学习算法（或研究人员）模型2优于模型1，我们需要更好的指标，而不仅仅是计算错误的数量。我们介绍了真阳性，真阴性，假阳性和假阴性的概念：真阳性（TP rate） - 一个积极的例子，被正确归类为阳性真阴性（TN rate） - 一个阴性的例子，被正确分类为阴性误报（FP rate） - 一个否定的例子，但被错误地归类为正面假阴性（FN rate） - 一个积

114.3933

1

1

0

关注作者

收藏

809669515

什么是类不平衡问题？

什么是类不平衡问题？这是机器学习中的问题，其中一类数据的总数（正数）远小于另一类数据的总数（负数）。为什么这是一个问题？大多数机器学习算法在每个类的实例数大致相等时效果最佳。当一个类的实例数远远超过另一个类时，会出现问题。下面以一个例子来说明这一点。给定交易数据的数据集，我们想知道哪些是欺诈性的，哪些是真实的。现在，如果欺诈性交易发生，电子商务公司的成本很高，因为这会影响我们的客户对我

0.0000

0

1

0

关注作者

收藏

809669515

分类 (Classification)：ROC 和曲线下面积

ROC 曲线ROC 曲线（接收者操作特征曲线）是一种显示分类模型在所有分类阈值下的效果的图表。该曲线绘制了以下两个参数：真正例率假正例率真正例率(TPR) 是召回率的同义词，因此定义如下：假正例率(FPR) 的定义如下： ROC 曲线用于绘制采用不同分类阈值时的 TPR 与 FPR。降低分类阈值会导致将更多样本归为正类别，从而增加假正例和真正例的个数。下图显示了一个典型的

0.0000

0

1

0

关注作者

收藏

kejiayuan0806

如何进行特征选择

特征选择是一个重要的数据预处理过程，主要有两个原因：一是减少特征数量、降维，使模型泛化能力更强，减少过拟合;二是增强对特征和特征值之间的理解。常见的特征选择方式：1、去除方差较小的特征。2、正则化。1正则化能够生成稀疏的模型。L2正则化的表现更加稳定，由于有用的特征往往对应系数非零。3、随机森林，对于分类问题，通常采用基尼不纯度或者信息增益，对于回归问题，通常采用的是方差或者最小二乘拟合。

0.0000

0

4

0

关注作者

收藏

kejiayuan0806

GBDT 和随机森林的区别

随机森林采用的是bagging的思想，bagging又称为bootstrap aggreagation，通过在训练样本集中进行有放回的采样得到多个采样集，基于每个采样集训练出一个基学习器，再将基学习器结合。随机森林在对决策树进行bagging的基础上，在决策树的训练过程中引入了随机属性选择。传统决策树在选择划分属性的时候是在当前节点属性集合中选择最优属性，而随机森林则是对结点先随机选择包含k个属性

0.0000

0

5

0

关注作者

收藏

kejiayuan0806

bagging方法中Bootstrap每次约有1/3的样本不会出现在Bootstrap所采集的样本集合中，当然也就没有参加决策树的建立，把这1/3的数据称为袋外数据oob（out of bag）,它可以用于取代测试集误差估计方法。袋外数据(oob)误差的计算方法如下：对于已经生成的随机森林,用袋外数据测试其性能,假设袋外数据总数为O,用这O个袋外数据作为输入,带进之前已经生成的随机森林分类器,

0.0000

0

3

0

关注作者

收藏

kejiayuan0806

标准化与归一化的区别

标准化是依照特征矩阵的列处理数据，其通过求z-score的方法，将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据，其目的在于样本向量在点乘运算或其他核函数计算相似性时，拥有统一的标准，也就是说都转化为“单位向量”。规则为l2的归一化公式如下：

0.0000

0

1

0

关注作者

收藏

kejiayuan0806

决策树剪枝的方法

一般情况下可以使用如下两类方法来减小决策树的规模:一、在决策树完美分割学习样例之前，停止决策树的生长。这种提早停止树生长的方法，称为预剪枝方法。二、与预剪枝方法尽量避免过度分割的思想不同，一般情况下即使决策树可能出现过度拟合现象，算法依然允许其充分生长。在决策树完全生长之后，通过特定标准去掉原决策树中的某些子树。通常称这种方法为后剪枝方法。1、预剪枝方法预剪枝方法实际上是对决策树停止标准的

0.0000

0

4

0

关注作者

收藏

kejiayuan0806

决策树剪枝的方法与必要性

基于ID3算法实现的离散决策树生成。ID3算法的基本思想是贪心算法，采用自上而下的分而治之的方法构造决策树。首先检测训练数据集的所有特征，选择信息增益最大的特征A建立决策树根节点，由该特征的不同取值建立分枝，对各分枝的实例子集递归，用该方法建立树的节点和分枝，直到某一子集中的数据都属于同一类别，或者没有特征可以在用于对数据进行分割。ID3算法总是选择具有最高信息增益(或最大熵压缩)的属性作为当前

0.0000

0

2

0

关注作者

收藏

kejiayuan0806

概率和似然有什么区别

概率和似然都是指可能性，但在统计学中，概率和似然有截然不同的用法。概率描述了已知参数时的随机变量的输出结果；似然则用来描述已知随机变量输出结果时，未知参数的可能取值。例如，对于“一枚正反对称的硬币上抛十次”这种事件，我们可以问硬币落地时十次都是正面向上的“概率”是多少；而对于“一枚硬币上抛十次，我们则可以问，这枚硬币正反面对称的“似然”程度是多少。概率(密度)表达给定θ下样本随机向量X=x的

0.0000

0

3

0

关注作者

收藏

kejiayuan0806

什么是偏倚（bias）、方差（variable）均衡

偏倚指的是模型预测值与真实值的差异，是由使用的学习算法的某些错误或过于简单的假设造成的误差。它会导致模型欠拟合，很难有高的预测准确率。方差指的是不同训练数据训练的模型的预测值之间的差异，它是由于使用的算法模型过于复杂，导致对训练数据的变化十分敏感，这样会导致模型过拟合，使得模型带入了过多的噪音。任何算法的学习误差都可以分解成偏倚、方差和噪音导致的固定误差。模型越复杂，会降低偏倚增加方差。为了降

0.0000

0

1

0

关注作者

收藏

809669515

分类型模型评估之混淆矩阵

混淆矩阵显示分类模型与数据中的实际结果（目标值）相比所做的正确和不正确预测的数量。矩阵是 N × N ，其中 N 是目标值（类）的数量。通常使用矩阵中的数据来评估这些模型的性能。下表显示了两个类（正面和负面）的2x2混淆矩阵。准确性（accuracy）：正确的预测总数的比例。阳性预测值或精确度 (positive predictive value)：正确识别的阳性病例的比例。

0.0000

0

2

0

关注作者

收藏

809669515

如何去评估一个模型的优良？

方法一：拆分测试集和训练集将数据集拆分为单独的测试集和训练集。在前者上训练模型，在后者上评估模型（例如错误率，准确率，召回率，ROC、auc等）方法二：训练模型并调整（优化）其参数将数据集拆分为单独的测试和训练集。在训练集上使用诸如交叉验证之类的技术来为模型找到“最佳”超参数集。如果已完成超参数调整，使用独立测试集来获得其性能的无偏估计。方法三：构建不同的模型并比较不同的算

17.3451

1

2

0

关注作者

收藏

kejiayuan0806

聚类评估指标（轮廓系数）

轮廓系数的值介于[-1,1]之间，越趋于1代表聚类效果越好。具体计算方法如下： 1. 计算样本i到同簇其他所有样本的平均距离，记为a(i)。a(i)越接近0则表示样本i聚类效果越好。2. 计算样本i到其他每个簇中所有样本的平均距离，选取平均距离最小的值记为b(i)。b(i)越大则表示样本i聚类效果越好。3. 计算b(i)与a(i)的极差，除以max{a(i),b(i)}，这时就会出现

0.0000

0

3

0

关注作者

收藏

kejiayuan0806

ROC曲线如何绘制

一条曲线的绘制必须是多个点的连线，那么我们就需要在坐标轴上描出多个点，以此来绘制ROC曲线，具体步骤如下：（1）假设我们有一个100行的数据集，按照9:1划分为训练集和测试集；（2）接下来我们建立二分类模型并预测结果，这时10行的测试集中每个观测都应该有一个对应的原始分类和预测概率；（3）这时我们依次将10个预测概率作为阈值threshold，当准确度大于或等于这个值的时候，预测结果为

0.0000

0

2

0

关注作者

收藏

kejiayuan0806

模型评估指标

模型评估一直是数据建模中不可或缺的一环，评估指标的好坏直接关系到模型上线运用的情况。当然，模型评估指标只能作为参考依据，在真正的项目实施过程中，还是需要针对具体业务具体分析。分类模型（贝叶斯、决策树、SVM等）评估指标：回归模型（线性回归、非线性回归等）评估指标：混淆矩阵混淆矩阵就是预测的正例/反例与真实值之间的比例关系，该矩阵包括4个方面：由此计算：True

0.0000

0

1

0

关注作者

收藏

kejiayuan0806

Python结巴中文分词

结巴分词（Jieba）是python中一个比较常用的中文分词包，功能包括：中文分词、词性标注、未登录词识别等。一、结巴分词下载与安装1、下载结巴分词（jieba）官方下载地址：https://pypi.python.org/pypi/jieba/ 2、将下载好的ZIP包，解压缩到新建文件夹中3、进入Windows下cmd命令框，输入如下命令C:\Users\Admin>e:E:\

0.0000

0

1

0

关注作者

收藏

809669515

分类与聚类的比较

分类和聚类的概念是比较容易混淆的。聚类分析是研究如何在没有训练的条件下把样本划分为若干类。在分类中，对于目标数据库中存在哪些类是知道的，要做的就是将每一条记录分别属于哪一类标记出来。聚类需要解决的问题是将已给定的若干无标记的模式聚集起来使之成为有意义的聚类，聚类是在预先不知道目标数据库到底有多少类的情况下，希望将所有的记录组成不同的类或者说聚类，并且使得在这种分类情况下，以某种度量（例如：距

0.0000

0

4

0

关注作者

收藏

809669515

监督学习和非监督学习算法，该怎么选？

一种非常简单的回答就是从定义入手，如果我们在分类的过程中有训练样本(training data)，则可以考虑用监督学习的方法；如果没有训练样本，则不可能用监督学习的方法。但是，现实问题中，即使没有训练样本，我们也能够凭借自己的双眼，从待分类的数据中，人工标注一些样本，并把它们作为训练样本，这样的话，可以把条件改善，用监督学习方法来做。对于不同的场景，正负样本的分布如果会存在偏移（可能大的偏移，

7.3797

2

1

0

关注作者

收藏

<1…141516…17>

CDA考试动态

CDA报考指南