数据科学专业问答社区，好文章，一字千金--CDA答疑社区

深度学习与神经网络的区别

很多人不理解什么是深度学习？它与神经网络有何不同？深度学习是多层神经网络的新名称。可以说，深度学习是神经网络的增强和强大形式。两者之间的区别是微妙的。不同之处在于，与神经网络（最多2层构建）相比，深度学习模型建立在几个隐藏层（例如，超过2个）上。由于数据有多种形式（表格，图像，声音，网络等），线性方法很难学习和检测数据中的非线性。实际上，很多次甚至非线性算法（例如基于树的（GBM，决

詹惠儿

2018-11-16

0.0000 0 2

简述逻辑回归中的混淆矩阵

混淆矩阵混淆矩阵是通常用于评估分类模型的最重要的度量。混淆矩阵有些指标很容易弄混淆，最好结合实际例子去理解才能印象深刻。混淆矩阵的骨架如下所示： a 如您所见，混淆矩阵通过以表格格式测量实际值和预测值来避免“混淆”。在上表中，Positive class = 1和Negative class = 0.以下是我们可以从混淆矩阵中得出的度量：准确性 - 它决定了模型的整体预测准确性。它

詹惠儿

2018-11-16

0.0000 0 3

如何评估Logistic回归模型的拟合度和准确度？

在线性回归中，我们检查调整后的R²，F统计量，MAE和RMSE，以评估模型拟合度和准确度。但是，Logistic回归采用了所有不同的指标集。在这里，我们处理概率和分类值，以下是用于Logistic回归的评估指标： 1. Akaike信息标准（AIC）您可以将AIC视为多元回归中调整后的r square的对应物。这是模型拟合的重要指标。它遵循以下规则：越小越好。 AIC惩罚模型中越来越多

詹惠儿

2018-11-16

0.0000 0 4

Logistic回归的算法原理

众所周知，Logistic回归假设依赖（或响应）变量遵循二项分布。现在，您可能想知道，什么是二项分布？可以通过以下特征来认识下二项分布：必须有由n表示的固定数量的试验，即在数据集中，必须有固定数量的行。每次试验只能有两个结果; 即，响应变量只能有两个唯一的类别。每次试验的结果必须相互独立; 即，响应变量的唯一级别必须彼此独立。每次试验的成功概率（p）和失败（q）应该相同。让我们了解

詹惠儿

2018-11-16

0.0000 0 0

Logistic回归技术主要有哪些类型？

Logistic回归不仅限于解决二元分类问题。为了解决具有多个类的问题，我们可以使用Logistic回归的扩展，其包括多项Logistic回归和Ordinal Logistic回归。让我们来看一下他们的基本想法： 1.多项Logistic回归：假设我们的目标变量有K = 4类。该技术通过拟合K-1独立二元逻辑分类器模型来处理多类问题。为此，它随机选择一个目标类作为参考类，并适合K-1回归

詹惠儿

2018-11-16

0.0000 0 2

简单介绍什么是Logistic回归？

很多时候，因变量不是正态分布的情况会出现; 即，违反了正常性的假设。例如，在因变量为二进制（男/女）时考虑问题。你还会使用多元回归吗？当然不是！直到1972年，人们才知道如何分析因变量中具有非正态误差分布的数据。然后，在1972年， John Nelder和Robert Wedderburn以广义线性模型的形式取得了突破。广义线性模型是线性模型框架的扩展，其中包括非正态的因变量。一

詹惠儿

2018-11-16

0.0000 0 2

阐述随机森林原理

先回顾一下决策树原理： 1.给定数据框（nxp），树基于规则（if-else）对数据进行分层或分区。是的，一棵树创造了规则。这些规则将数据集划分为不同的和不重叠的区域。这些规则由变量对所得子节点（X2，X3）的均匀性或纯度的贡献来确定。 2.变量X1导致子节点中的最高同质性，因此它成为根节点。根节点处的变量也被视为数据集中最重要的变量。 3，但这种同质性或纯度如何确定？换句话说，树如何决

詹惠儿

2018-11-16

0.0000 0 2

阐述随机森林算法及定义

什么是随机森林算法？随机森林是一种基于树的算法，它涉及构建多个树（决策树），然后组合它们的输出以提高模型的泛化能力。组合树的方法称为集合方法。集合只不过是弱学习者（个体树）的组合，以产生强大的学习者。比如说，你想看电影。但你不确定它的评论。你问10个看过这部电影的人。其中8人说“这部电影很精彩”。由于大多数人都赞成，你决定观看这部电影。这也是我们在日常生活中使用合奏技巧的方式。

詹惠儿

2018-11-15

0.0000 0 0

决策树中要解决的问题（二）

选择属性的替代措施 ID3算法使用的信息增益公式将所有变量视为相同，无论其分布及其重要性如何。当涉及具有许多可能值的连续变量或离散变量时，这是一个问题，因为对于每个可能的值，训练示例可能很少且很远，这导致由于将数据分成小的子集而导致低熵和高信息增益但是导致决策树可能无法很好地概括。避免这种情况的一种方法是使用其他一些措施来找到最佳属性而不是信息增益。信息增益的另一种衡量方

詹惠儿

2018-11-15

0.0000 0 4

决策树中要解决的问题（一）

决策树虽然理解起来简单，操作也不难，但有3个一定要注意的问题。一. 避免过度拟合由于ID3算法继续拆分属性，直到它对所有数据点进行分类或者没有更多属性要进行拆分。结果，通过以相对于整个数据分布的准确性为代价在训练数据上执行得非常好，易于创建过度拟合的决策树。通常，有两种方法可以在决策树中避免这种情况： - 允许树生长直到它过度生长然后修剪它。 - 在完全分类训练数据之前，通过停止树来防止树

詹惠儿

2018-11-15

0.0000 0 1

决策树中的学习算法

决策树中使用的基本算法称为ID3（通过Quinlan）算法。 ID3算法使用自上而下的贪婪方法构建决策树。简而言之，该算法的步骤如下： - 选择最佳属性→A - 分配A作为NODE的决策属性（测试用例）。 - 对于A的每个值，创建NODE的新后代。 - 将训练示例排序到适当的后代节点叶。 - 如果示例完全分类，则STOP else迭代新的叶节点。决策树中一个重要问题是如何选择最佳属性。对

詹惠儿

2018-11-15

0.0000 0 4

XGBoost是什么？

XGBoost（ Ex treme G radient Boost ing）是一个优化的分布式梯度增强库。是的，它的核心是使用梯度增强（GBM）框架。 XGBoost由华盛顿大学博士生Tianqi Chen创建，主要用于监督机器学习问题。它主要有以下特点：并行计算：通过并行处理（使用OpenMP）启用; 也就是说，当你运行xgboost时，默认情况下，它将使用你的笔记本电脑/机器的所有内核。

詹惠儿

2018-11-15

0.0000 0 1

决策树在机器学习和数据挖掘中的运用

决策树还可用于帮助构建自动预测模型，其在机器学习，数据挖掘和统计中具有应用。这种方法称为决策树学习，它考虑了有关项目的预测，以预测该项目的价值。在这些决策树中，节点代表数据而不是决策。这种类型的树也称为分类树。每个分支包含一组属性或分类规则，这些属性或分类规则与特定类标签相关联，该标签位于分支的末尾。这些规则也称为决策规则，可以用if-then子句表示，每个决策或数据值构成一个子句，例如

詹惠儿

2018-11-15

0.0000 0 1

决策树的优缺点和常用符号

由于以下原因，决策树仍然很受欢迎：理解较简单无论是否有缺失数据，它们都是有用的可以将新样本添加到建成的树中挑选几种选择中最好的价值他们能轻松地与其他决策工具结合起来但是，决策树可能有时会变得过于复杂。在这种情况下，更紧凑的影响图可能是一个很好的选择。影响图将重点放在关键决策，输入和目标上。 a 决策树常见符号如下：

詹惠儿

2018-11-15

0.0000 0 0

决策树分析的一个小小例子

通过计算树中每个选项的预期效用或值，您可以最大限度地降低风险并最大化达到理想结果的可能性。要计算选择的预期效用，只需从预期收益中减去该决策的成本。预期收益等于该选择可能产生的所有结果的总值，每个值乘以它可能发生的可能性。以下是我们如何根据上面的示例计算这些值： a 在确定哪种结果最为理想时，考虑决策者的效用偏好很重要。例如，有些人可能更喜欢低风险期权，而有些人则愿意为更大的利益承

詹惠儿

2018-11-15

0.0000 0 1

如何进行决策树的绘制？

要绘制决策树，首先选择一个媒介。您可以在纸上或白板上手工绘制，也可以使用特殊的决策树软件。在任何一种情况下，以下是要遵循的步骤： 1. 从主要决定开始。绘制一个小方框来表示此点，然后从每个可能的解决方案或操作的框中向右绘制一条线。相应地标记它们。 a 2. 添加机会和决策节点以展开树，如下所示：如果需要做出其他决定，请绘制另一个框。如果结果不确定，请绘制一个圆圈（圆圈代

詹惠儿

2018-11-15

0.0000 0 3

简单阐述什么是决策树

一. 定义决策树是一系列相关选择的可能结果的映射。它反映的是个人或组织根据其成本，概率和收益权衡可能的行为。它们既可用于推动非正式讨论，也可用于绘制以数学方式预测最佳选择的算法。二. 原理决策树通常以单个节点开始，该节点分支成可能的结果。这些结果中的每一个都会导致额外的节点，这些节点分支到其他可能性。这使它具有树状的形状。有三种不同类型的节点：机会节点，决策节点和终端节点。由

詹惠儿

2018-11-15

0.0000 0 4

pandas中的groupby如何过滤最多3个计数

数据：以下创建了一个包含200000行的示例数据框，： df = pd.DataFrame() df ['Team'] = ['A1','A1','A1','A2','A2','A2','B1','B1','B1','B2','B2','B2'] df ['Competition'] = ['L1','L1','L1','L1','L1','L1','L2','L2','L2','L2','L2

詹惠儿

2018-11-14

0.0000 0 6

python导入WordCloud包报错

错误：在anaconda python 3.5中输入命令安装wordcloud软件包：python -m pip install D:\folder\wordcloud-1.5.0-cp35-cp35m-win_amd64.whl 显示已安装成功。但是当我尝试输入命令导入时from wordcloud import WordCloud,STOPWORDS，收到报错信息： a 想要找到错误的

詹惠儿

2018-11-14

0.0000 0 2

R报错：ould not find function

在执行R命令some.function时，经常会收到以下错误消息： Error: could not find function "some.function" 在R中遇到这种错误应该怎么解决呢？解决方案：你可以参考以下几点：你有没有正确地写出你的功能名称？在R中名称严格区分大小写。您是否安装了包含该功能的软件包？install.packages("thePackage")（这只需要做

詹惠儿

2018-11-14

0.0000 0 3