数据科学专业问答社区，好文章，一字千金--CDA答疑社区

双变量分析 - 分类和数值

带误差线的折线图带有误差线的折线图将信息显示为由直线段连接的一系列数据点。每个数据点是分类变量的相应类别的数值数据的平均值，其中误差条显示标准误差。这是一种总结信息片段如何相互关联以及它们如何相互依赖的方式（iris_linechart.xlsx）。 a 组合图组合图表使用两种或更多图表类型来强调图表包含不同类型的信息。在这里，我们使用条形图显示分箱数值变量的分布和折线图，以显示分类变量

809669515

2018-11-01

0.0000 0 4

双变量分析 - 数值和数值

散点图散点图是两个数值变量（属性）之间关系的有用视觉表示，通常在计算线性相关或拟合回归线之前绘制。得到的模式表示两个变量之间关系的类型（线性或非线性）和强度。可以将更多信息添加到二维散点图中，例如，我们可以用代码标记点以指示第三变量的级别。如果我们处理数据集中的许多变量，那么一次呈现两个变量的所有可能散点图的方法是在散点图矩阵中。 a a 线性相关线性相关量化两个数值变量之间线性关系的

809669515

2018-11-01

0.0000 0 5

高斯混合体聚类

基于模型的聚类简介还有另一种处理聚类问题的方法：基于模型的方法，包括使用某些模型进行聚类并尝试优化数据和模型之间的拟合。在实践中，每个聚类可以通过参数分布在数学上表示，如高斯（连续）或泊松（离散）。因此，整个数据集由这些分布的混合物建模。用于对特定集群建模的单个分布通常称为组件分布。具有高可能性的混合模型倾向于具有以下特征：组件分布具有高“峰值”（一个簇中的数据很紧）; 混合模型很好地“

809669515

2018-11-01

0.0000 0 3

自组织映射

自组织映射（SOM）用于高维数据集的可视化和分析。SOM有助于将高维数据集呈现为较低维度的数据集，通常是1-D，2-D和3-D。它是一种无监督的学习算法，并且不需要目标向量，因为它学会了在没有监督的情况下对数据进行分类。SOM由输入数据所呈现的节点或单元的网格形成。每个节点都连接到输入，节点之间没有连接。SOM是一种拓扑保留技术，可以将邻域关系保留在其映射表示中。算法 1-使用0到1之间的

809669515

2018-11-01

0.0000 0 2

K-Means聚类

K-Means聚类旨在将n个对象划分为k个聚类，其中每个对象属于具有最近均值的聚类。该方法产生恰好具有最大可能区别的k个不同簇。导致最大间隔（距离）的最佳簇数k不是先验的，必须根据数据计算。K-Means聚类的目标是最小化总簇内方差，或平方误差函数： a 算法将数据聚集到k个组中，其中k 是预定义的。随机选择k 点作为聚类中心。根据欧几里德距离函数将对象分配到其最近的聚类中心。

809669515

2018-11-01

0.0000 0 3

K-Means聚类

K-Means聚类旨在将n个对象划分为k个聚类，其中每个对象属于具有最近均值的聚类。该方法产生恰好具有最大可能区别的k个不同簇。导致最大间隔（距离）的最佳簇数k 不是先验的，必须根据数据计算。K-Means聚类的目标是最小化总簇内方差，或平方误差函数：算法将数据聚集到k个组中，其中k 是预定义的。随机选择k 点作为聚类中心。根据欧几里德距离函数将对象

809669515

2018-11-01

0.0000 0 4

模糊C均值聚类

算法模糊c均值（FCM）是一种聚类方法，它允许一个数据属于两个或多个聚类。这种方法（由Dunn于1973年开发，1981年由Bezdek改进）经常用于模式识别。它基于以下目标函数的最小化： a ， a 其中m 是大于1的任何实数，u ij是聚类j中x i的隶属度，x i 是d维测量数据的第i个，c j是聚类的d维中心，和|| * || 是表示任何测量数据与中心之间相似性的

809669515

2018-11-01

6.8974 1 4

双变量分析

堆积柱形图堆积柱形图是一个有用的图形，用于可视化两个分类变量之间的关系。它比较了来自一个变量的每个类别对第二个变量的类别的总和所占的百分比。 a 组合图组合图表使用两种或更多图表类型来强调图表包含不同类型的信息。在这里，我们使用条形图显示一个分类变量的分布和折线图，以显示第二个分类变量中所选类别的百分比。组合图是最好的可视化方法，用于演示预测器（X轴）对目标（Y轴）的可预测性。 a

809669515

2018-11-01

6.8974 1 5

什么是分箱？

分箱或离散化是将数值变量转换为分类对应物的过程。例如，将Age的值分为20-39,40-59和60-79等类别。数值变量通常在基于频率表（例如，决策树）的建模方法中离散化。此外，分箱可以通过降低噪声或非线性来提高预测模型的准确度。最后，分箱可以轻松识别异常值，数值变量的无效值和缺失值。 a 有两种类型的分箱，无监督和监督。

809669515

2018-11-01

6.8974 1 2

处理缺失值的策略

缺少值是常见的，您需要有一个策略来处理它们。缺失值可以表示数据中的许多不同内容。也许数据不可用或不适用或事件未发生。可能是输入数据的人不知道正确的值，或者错过填写。数据挖掘方法在处理缺失值的方式上有所不同。通常，它们会忽略缺失值，或者排除包含缺失值的任何记录，或者使用均值替换缺失值，或者从现有值中推断缺失值。 a 缺少值替换策略：忽略缺少值的记录。用全局常量替换它们（例如，“？”）。根据

809669515

2018-11-01

0.0000 0 2

如何处理决策树的过度拟合问题？

对于决策树模型和许多其他预测模型，过度拟合是一个重要的实际难题。当学习算法继续开发以增加测试集错误为代价来减少训练集错误的假设时，发生过度拟合。有几种方法可以避免在构建决策树时过度拟合。在完全对训练集进行分类之前，预先修剪停止生长树。后修剪，允许树完美地对训练集进行分类，然后修剪树。实际上，后修剪过度拟合树的第二种方法更成功，因为不容易精确估计何时停止生长树。树修剪的重要步骤是使用以

809669515

2018-11-01

6.8974 1 3

分层聚类

分层聚类涉及创建从上到下具有预定排序的聚类。例如，硬盘上的所有文件和文件夹都按层次结构进行组织。有两种类型的层次聚类，Divisive和Agglomerative。 a 分裂的方法在分裂或自上而下的聚类方法中，我们将所有观察分配给单个集群，然后将集群划分为两个最不相似的集群。最后，我们递归地对每个簇进行处理，直到每个观察有一个簇。有证据表明，在某些情况下，分裂算法比凝聚算法产生更准确的层次结

809669515

2018-10-31

93.7428 1 2

聚类

集群是类似的数据子集。聚类（也称为无监督学习）是将数据集划分为组的过程，使得每个组的成员尽可能彼此相似（接近），并且不同的组彼此尽可能不同（远）。群集可以发现数据集中以前未检测到的关系。群集分析有很多应用。例如，在商业中，聚类分析可用于发现和表征客户细分市场以用于营销目的，并且在生物学中，它可用于根据其特征对植物和动物进行分类。两组主要的聚类算法是：分级凝聚分裂表分词 K-mean 自

809669515

2018-10-31

100.6402 2 4

模型评估 - 回归

在构建了许多不同的回归模型之后，有很多标准可用于评估和比较它们。均方根误差RMSE是衡量回归模型错误率的常用公式。但是，它只能在以相同单位测量误差的模型之间进行比较。 a a 相对平方误差与RMSE不同，可以在不同单位测量误差的模型之间比较相对平方误差（RSE）。 a 平均绝对误差平均绝对误差（MAE）与原始数据具有相同的单位，并且只能在以相同单位测量误差的模型之间进行比较。它的大

809669515

2018-10-31

0.0000 0 1

ROC图表和曲线下面积（AUC）

ROC图表类似于增益或提升图表，因为它们提供了分类模型之间的比较手段。ROC图表显示X轴上的假阳性率（1-特异性），当其真实值为0时，目标的概率= 1，而在Y轴上显示真阳性率（灵敏度），目标的概率= 1时真值是1。理想情况下，曲线将快速向左上方爬，这意味着模型正确预测了案例。对角线红线表示随机模型（ROC101）。曲线下面积（AUC） ROC曲线下的面积通常用作分类模型质量的度量。

809669515

2018-10-31

0.0000 0 3

什么是KS图表？

KS或Kolmogorov-Smirnov图表测量分类模型的性能。更准确地说，KS是衡量正负分布之间分离程度的指标。如果得分将人口划分为两个单独的组，其中一组包含所有阳性而另一组包含所有阴性，则KS为100。另一方面，如果模型不能区分正面和负面，那么就好像模型从总体中随机选择案例。KS将为0。在大多数分类模型中，KS将介于0和100之间，并且值越高，模型在分离正面和负面情况时越好。例

809669515

2018-10-31

0.0000 0 1

什么是增益和提升图表

增益或升力是分类模型有效性的度量，其计算为使用和不使用模型获得的结果之间的比率。增益和提升图表是评估分类模型性能的视觉辅助工具。然而，与混淆矩阵相比，评估整个人口增长或升力图表的模型评估一部分人口的模型表现。例：提升图表提升图表显示，与我们联系随机客户样本相比，我们获得积极响应的可能性要大得多。例如，通过基于预测模型仅联系10％的客户，我们将达到3倍的受访者，就像我们不使用任何

809669515

2018-10-31

0.0000 0 4

什么是混淆模型？

混淆矩阵显示分类模型与数据中的实际结果（目标值）相比所做的正确和不正确预测的数量。矩阵是N×N，其中N是目标值（类）的数量。通常使用矩阵中的数据来评估这些模型的性能。下表显示了两个类（正面和负面）的2x2混淆矩阵。准确性：正确的预测总数的比例。阳性预测值或精确度：正确识别的阳性病例的比例。负面预测值：正确识别的负面案例的比例。敏感度或召回率：正确识别的实际阳性病例的比例。特异性

809669515

2018-10-31

0.0000 0 3

什么是数据科学？

数据科学（又名数据挖掘）是通过数据分析来解释过去和预测未来。数据科学是一个多学科领域，它结合了统计学，机器学习，人工智能和数据库技术。数据科学应用的价值通常估计非常高。许多企业在多年的运营中存储了大量数据，数据科学能够从这些数据中提取非常有价值的知识。然后，企业可以将提取的知识用于更多客户，更多销售和更高利润。在工程和医疗领域也是如此。 a 统计 Ť他的科学采集，分类，汇总，整理，分析和解

809669515

2018-10-31

6.8974 1 2

数据准备

数据准备通常是一个耗时的过程，很容易出错。俗话说“垃圾中垃圾”特别适用于那些收集了许多无效，超出范围和缺失值的数据的数据科学项目。分析未针对此类问题进行仔细筛选的数据可能会产生极具误导性的结果。那么，数据科学项目的成功在很大程度上取决于准备数据的质量。数据数据通常是测量结果（数值）或计数结果（分类）。变量用作数据的占位符。有两种类型的变量，数字和分类。数值或连续可变是一个可以接受

809669515

2018-10-31

6.8974 1 3