数据科学专业问答社区，好文章，一字千金--CDA答疑社区

神经网络常见的激活函数有哪些？

神经网络常见的4种激活函数： Sigmoid: Tanh： Relu： Leaky Relu：

dreamhappy2012

2019-01-30

0.0000 0 1

聚类与分类的区别是什么？

聚类与分类的区别：聚类所要求划分的类是未知的从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS、SAS等。从机器学习的角度讲，簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同，无监

dreamhappy2012

2019-01-30

8.1879 2 1

聚类分析中的簇的抽象的过程是什么样的？

聚类分析提供由个别数据对象到数据对象所指派的簇的抽象 •数据降维 •数据离散压缩 •有效地发现最近邻

dreamhappy2012

2019-01-29

66.6535 1 3

层次聚类中基于最小距离的层次聚类的分析步骤是什么？

最短距离法进行聚类分析的步骤如下： 1. 定义样品之间距离，计算样品的两两距离，得一距离矩阵记为D(0)，开始每个样品自成一类，显然这时Dij= dij。 2. 找出距离最小元素，设为Dpq，则将Gp和Gq合并成一个新类，记为Gr，即Gr = ｛Gp，Gq｝。 3. 按（最短距离法）计算新类与其它类的距离。 4. 重复(2)、(3)两步，直到所有元素。并成一类为止。如果某一步距离最小的元素不止一

dreamhappy2012

2019-01-29

0.0000 0 6

层次聚类算法的流程是什么

层次聚类算法的流程是什么？ 1. 计算对象两两之间的距离； 2. 构造n个单成员聚类C1,C2,…,Cn,每个聚类高度为0； 3. 找到两个距离最近的聚类Ci和Cj，聚类的个数减1，以被合并的两个类之间的间距作为上层的高度； 4. 重复3直到满足终止条件。

dreamhappy2012

2019-01-29

0.0000 0 2

层次聚类法分为哪两类？

层次聚类法一般可以分为两类：凝聚方法（agglomerative）（自底向上）思想：一开始将每个对象作为单独的一组，然后根据同类相近，异类相异的原则，合并对象，直到所有的组合并成一个，或达到一个终止条件为止。分裂方法（divisive）（自顶向下）思想：一开始将所有的对象置于一类，在迭代的每一步中，一个类不断地分为更小的类，直到每个对象在单独的一个类中，或达到一个终止条

dreamhappy2012

2019-01-29

66.6535 1 2

K-均值聚类中K的选择的两种方法是什么？

K-均值聚类中K的选择的两种方法：方法一：定量的解决方法：肘部法则（Elbow Method） • 纵轴：损失函数的值 • 横轴：k值的选择方法二： • 人工根据实际应用场景来选择 • 思考k在具体应用中所代表的含义

dreamhappy2012

2019-01-29

0.0000 0 1

K-均值聚类在迭代过程的结束条件有什么？

K-均值聚类在迭代过程中常见迭代结束条件：两次迭代得到的类中心点相同两次迭代得到的划分相同达到最大的迭代次数：限制K均值算法中的迭代次数。即使尚未满足收敛准则，达到迭代次数之后迭代也会停止。此数字必须在1到999之间。目标函数值不再下降

dreamhappy2012

2019-01-29

0.0000 0 2

K-均值聚类算法流程是什么？

K-均值聚类算法流程如下： 1. 从n个数据对象随机选取k个目标作为初始簇中心。 2. 计算每个簇的平均值，并用该平均值代表相应的簇。 3. 计算每个对象与这些中心对象的距离，并根据最小距离重新对相应对象进行划分。 4. 转步骤(2)，重新计算每个(自变化)簇的平均值。这个过程不断重复直到某个准则函数不再明显变化或者聚类的对象不再变化为止。

dreamhappy2012

2019-01-29

66.6535 1 3

相似性度量函数的怎么选择？

一般说来，同一批数据采用不同的距离公式，会得到不同的分类结果。产生不同结果的原因，主要是由于不同的距离公式的侧重点和实际意义都有不同。因此我们在进行聚类分析时，应注意距离公式的选择。通常选择距离公式应注意遵循以下的基本原则：要考虑所选择的距离公式在实际应用中的意义。要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。要考虑研究对象的特点和计算量的大小。

dreamhappy2012

2019-01-29

0.0000 0 3

常用的距离度量指标有哪些？

常用的距离度量指标有哪些？主要包括以下三类： 1、几何距离，比如欧氏距离最常用的空间中两点的直线距离：也可以用向量表示 2、向量间的角度，如夹角余弦 3、其他：曼哈顿距离、切氏距离、皮尔逊相关系数、互信息等在曼哈顿的方块儿街区间穿梭，只能横平竖直地走。公式如下：

dreamhappy2012

2019-01-29

0.0000 0 2

聚类的基本流程是什么？

典型的数据聚类基本步骤如下：对数据进行表示和预处理，包括数据清洗、特征选择或特征抽取；给定数据之间的相似度或相异度及其定义方法；根据相似度，对数据进行划分，即聚类；对聚类结果进行评估。

dreamhappy2012

2019-01-29

0.0000 0 2

AdaBoost的特点有哪些？

AdaBoost的特点总结：简单，不用做特征筛选在大多数数据集中，boosting的准确性比bagging高 AdaBoost方法在邮件过滤、文本分类方面都有很好的性能 Adaboost对于噪音数据和异常数据是敏感,在每次迭代时候会给噪声点较大的权重 Adaboost是一种“串行”算法，运行速度较慢

dreamhappy2012

2019-01-25

0.0000 1 2

AdaBoost运行过程是什么？

AdaBoost运行过程：计算样本权重：训练数据中的每个样本，赋予其权重，即样本权重，用向量D表示，这些权重都初始化成相等值。假设有n个样本的训练集，设定每个样本的权重都是相等的，即1/n 2. 计算错误率：利用第一个弱学习算法h1对其进行学习，学习完成后进行错误率ε的统计 3. 计算弱学习算法权重：弱学习算法也有一个权重，用向量α表示，利用错误率计算权重α：

dreamhappy2012

2019-01-25

0.0000 1 2

随机森林算法有哪些特点？

随机森林的思想是：将若干个弱分类器（决策树）的分类结果进行投票选择，从而组成一个强分类器随机森林算法有哪些特点？具有极好的准确率,不容易过拟合（训练样本不是全部样本）能够有效地运行在大数据集上能够处理具有高维特征的输入样本，而且不需要降维，能够评估各个特征在分类问题上的重要性在生成过程中，能够获取到内部生成误差的一种无偏估计对于缺省值问题也能够获得很好的结果分类不平衡的情况时，随

dreamhappy2012

2019-01-25

30.7336 1 1

Boosting与Bagging的区别？

Boosting与Bagging的有什么区别？ 1、样本选择上： Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化，而权值是根据上一轮的分类结果进行调整 Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的 2、样例权重： Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大,因此Boosting的

dreamhappy2012

2019-01-25

0.0000 0 2

集成学习——个体学习器的两种方法？

集成学习的第一个问题就是如何得到若干个个体学习器。个体学习器有哪两种方法？第一种：所有的个体学习器都是一个种类的，或者说是同质的。比如都是决策树个体学习器，或者都是神经网络个体学习器第二种：所有的个体学习器不全是一个种类的，或者说是异质的。比如我们有一个分类问题，对训练集采用支持向量机个体学习器，逻辑回归个体学习器和朴素贝叶斯个体学习器来学习，再通过某种结合策略来确定最终的分类强学习器

dreamhappy2012

2019-01-25

0.0000 0 4

集成学习思想的思想是什么呢？

通过训练若干个个体学习器，通过一定的结合策略，就可以最终形成一个强学习器。集成学习可以用于分类问题集成，回归问题集成，特征选取集成，异常点检测集成等等，可以说所有的机器学习领域都可以看到集成学习的身影。集成学习有两个主要的问题需要解决：第一是如何得到若干个个体学习器。第二是如何选择一种结合策略。将这些个体学习器集合成一个强学习器。

dreamhappy2012

2019-01-25

0.0000 0 3

目标函数、损失函数、代价函数的区别是什么？

损失函数(Loss/Error Function): 计算单个训练集的误差针对单个样本。代价函数(Cost Function): 计算整个训练集所有损失之和的平均值指针对总体。目标函数(Objective function)，字面一些，就是有某个（最优化）目标的函数，比如最优化这个目的。没有找到定义，个人理解，目标函数是一个大类，包含损失函数、代价函数；损失函数、

dreamhappy2012

2019-01-25

0.0000 0 3

代价函数必须是非负吗？

代价函数又叫损失函数或成本函数，用来评价模型好不好。它是将一个或多个变量的事件阈值映射到直观地表示与该事件。一个优化问题试图最小化损失函数。 1. 代价函数等价于损失函数，这俩个名词是猫咪和咪猫的关系。在机器学习里，代价函数/损失函数越小，就代表了模型对训练数据拟合的越好。即最优化经验风险。 2. 目标函数，通常是在代价函数最优化经验风险的基础上加入优化结构风险策略（如l2正则化）的函数表

dreamhappy2012

2019-01-25

0.0000 0 0