数据科学专业问答社区，好文章，一字千金--CDA答疑社区

如何提高R运行速度

在R中使用循环时，遵循一些黄金规则可提高运行速度：存在矢量化替代时，请勿使用循环不长的物体（通过c，cbind在循环过程等） - R有创建一个新的对象，并在整个信息复制只是为了添加新元素或行/列分配一个对象来保存结果并在循环期间填充它例如，我们将创建一个新版本analyze，它将返回每个文件的每日平均炎症（列）。 a 请注意我们如何out在每次迭代中添加新列？这是for在R 中编写循环

詹惠儿

2018-12-27

0.0000 0 4

怎么区分变量的依赖性和独立性

在相关分析中，有两种类型的变量 - 依赖和独立。这种分析的目的是找出自变量的任何变化是否导致因变量的变化。现在的问题是，研究相关性的必要性是什么？由于以下原因，相关性研究在实际生活中非常有用：几个变量显示出某种关系，例如收入和支出，需求和销售等，因此，在相关分析的帮助下，这些变量之间的关系程度可以用一个数字来衡量。一旦确定了变量的接近程度，我们就可以估计未知变量的值，只要给出另一个变量的值。这

詹惠儿

2018-12-27

0.0000 0 4

在逻辑模型中，对数比值（在对数的的可能性），用于标记为“1”的值是一个线性组合的一个或多个自变量（“预测”）; 自变量可以是二进制变量（两个类，由指示符变量编码）或连续变量（任何实际值）。相应的概率标记为“1”的值可以在0（当然是值“0”）和1（当然值为“1”）之间变化，因此标记; 将log-odds转换为概率的函数是逻辑函数，因此是名称。所述测量单元为对数刻度赔率被称为分对数，也可以使用具有不同

詹惠儿

2018-12-27

0.0000 0 2

中心极限定理有什么属性？

统计学家不是使用个人分数，而是经常使用采样。也就是取几个样本，计算每个样本的平均值，然后将平均值用作数据，而不是使用单个分数。样本是样本均值的采样分布。当计算所有可能的样本均值时，则满足以下属性：样本平均值将是人口的平均值样本均值的方差是总体的方差除以样本大小。样本均值的标准偏差（称为均值的标准误差）将小于总体标准差，并且将等于总体的标准偏差除以样本大小的平方根。如果人口具有正态分布，那

詹惠儿

2018-12-27

0.0000 0 5

range函数

回顾一下range（）函数的一般语法，即 range(start, stop, step) 该range()函数返回值的start值范围，直到但不包括stop值，其中每个值基本上是， start 1*step, start 2*step, start 3*step, ... 如果我们选择一个非常大的step值，那么这个函数的运行方式就没有任何区别。它只包含小于该stop值的值，因此如

詹惠儿

2018-12-27

0.0000 0 6

R常见错误

在R的使用中，常常会出现报错，无法继续进行，处理错误消息的一个技巧是忽略“错误输入”和冒号之间的所有内容，知道R常见的错误类型，会有效提高工作效率。以下梳理了下最常见的错误消息类型是： “无法找到函数”错误，通常由拼写错误或未加载所需的包引起 “错误，如果”错误，由非逻辑数据或缺失值引起传递给R的“if”条件语句 “eval错误”错误，由引用不存在的对象引起尝试读取不存在或无法访问的文件导致“

詹惠儿

2018-12-27

0.0000 0 2

SQL中简单和复杂视图的区别

甲查看在SQL作为从一个或多个表中的数据的逻辑子集。视图用于限制数据访问。视图不包含自己的数据，但包含类似窗口，通过该窗口可以查看或更改表中的数据。视图所基于的表称为BASE表。 SQL中有两种类型的视图：简单视图和复杂视图。简单视图只能包含一个基表。可以在多个基表上构建复杂视图。特别是，复杂视图可以包含：join条件，group by子句，order by子句。这些类型的视图之间的主要区别是：

詹惠儿

2018-12-26

0.0000 0 3

python的对应关系（2）

使用集合，它可以表示为： a 在这种情况下，每个学生只参加1门课程，但许多学生已经完成了1门课程。多对多 -当所有实体集中的实体可以在关系中不止一次参与时基数是多对多的。让我们假设学生可以参加一门以上的课程，许多学生可以参加一门课程。所以这种关系会有很多很多。 a 使用集合，它可以表示为： a 在该示例中，学生S1登记在C1和C3中，课程C3由S1，S3和S4登记。因此，这是多对多的关

詹惠儿

2018-12-26

0.0000 0 2

python的对应关系

基数：该实体组的实体的关系参与次数集称为基数。基数可以是不同的类型：一对一 -当每个实体集中的每个实体只能在关系中参与一次时，基数是一对一的。让我们假设一个男性可以嫁给一个女性，一个女性可以嫁给一个男性。所以关系将是一对一的。 a 使用集合，它可以表示为： a 多对一 -当一个实体集中的实体只能在关系集中参与一次，而其他实体集中的实体可以在关系集中多次参与时，基数是多对一的。让我们假设学

詹惠儿

2018-12-26

0.0000 0 2

Rstudio简介

控制台窗口（在RStudio中，左下方面板）是R等待您告诉它该做什么的地方，以及它将显示命令结果的位置。您可以直接在控制台中键入命令，但在关闭会话时会忘记它们。最好在脚本编辑器中输入命令，然后保存脚本。通过这种方式，您可以完整记录您的操作，您可以轻松地向其他人展示您是如何做到的，如果需要，您可以稍后再次执行此操作。您可以复制粘贴到R控制台，但Rstudio脚本编辑器允许您使用Ctrl Retur

詹惠儿

2018-12-26

0.0000 0 1

正则在python怎么使用？

在Python中，我们有re模块。正则表达式的应用程序是广泛的，但它们相当复杂，因此在考虑使用正则表达式执行某项任务时，请考虑替代方案，并作为最后的手段来使用正则表达式。一个示例正则表达式是r"^(From|To|Cc).*?python-list@python.org"现在的解释：插入符号^匹配行开头的文本。以下组，该部分(From|To|Cc)表示该行必须以管道分隔的一个单词开头|。这称为

詹惠儿

2018-12-26

0.0000 0 5

python的序列数据类型

当您尝试显示时，可能会出现错误Series。导致此错误的主要原因是Pandas会查找要显示的信息量，因此您应该提供sys输出信息。您可以通过执行以下代码来解决错误： import pandas as pd import sys sys.__stdout__ = sys.stdout series1 = pd.Series([1,2,3,4]) print(series1) Se

詹惠儿

2018-12-26

0.0000 0 2

Series

一个Series类似于一维数组。它可以存储任何类型的数据。Pandas中Series的值是可变的，但Series的大小是不可变的，不能更改。系列中的第一个元素分配了索引0，而最后一个元素位于索引处N-1，其中N是系列中元素的总数。要创建Pandas Series，我们必须首先通过Python import命令导入Pandas包： import pandas as pd 要创建Series

詹惠儿

2018-12-26

0.0000 0 2

python的数据框数据类型

print(df)将通过控制台向我们显示DataFrame的内容，允许我们检查和验证其内容。但是，在显示DataFrame时，您可能已经注意到表的开头有一个附加列，其元素从0开始。此列自动创建，它标记行的索引。要创建DataFrame，我们必须调用pd.DataFrame()上面示例中所示的方法。我们可以从列表甚至一组列表中创建DataFrame。我们只需调用该pd.DataFrame()

詹惠儿

2018-12-26

0.0000 0 5

理解数据框

Pandas DataFrame可以看作是一个表。它将数据组织成行和列，使其成为二维数据结构。列具有不同的类型，并且DataFrame的大小是可变的，因此可以被修改。要创建DataFrame，您可以选择从头开始或将其他数据结构（如Numpy数组）转换为DataFrame。以下是从头开始创建DataFrame的方法： import pandas as pd df = pd.DataFrame

詹惠儿

2018-12-26

0.0000 0 6

决策树的优缺点

由于以下原因，决策树仍然很受欢迎：理解较简单无论是否有缺失数据，它们都是有用的可以将新样本添加到建成的树中挑选几种选择中最好的价值他们能轻松地与其他决策工具结合起来但是，决策树可能有时会变得过于复杂。在这种情况下，更紧凑的影响图可能是一个很好的选择。影响图将重点放在关键决策，输入和目标上。 a

詹惠儿

2018-12-26

0.0000 0 0

如何理解提升算法？

XGBoost是一个优化的分布式梯度增强库。是的，它的核心是使用梯度增强（GBM）框架。 XGBoost由华盛顿大学博士生Tianqi Chen创建，主要用于监督机器学习问题。它主要有以下特点：并行计算：通过并行处理（使用OpenMP）启用; 也就是说，当你运行xgboost时，默认情况下，它将使用你的笔记本电脑/机器的所有内核。正规化：我相信这是xgboost的最大优势。 GBM没有规范化

詹惠儿

2018-12-25

0.0000 0 6

决策树模型要注意什么

结合连续值属性我们对ID3的初始定义仅限于采用一组离散值的属性。使ID3算法对连续变量更有用的一种方法是在某种程度上将它们转换为离散变量。假设在我们的Play Badminton示例中温度是连续的，我们可以测试温度值的某些分区的信息增益，例如温度> 42.5。通常，每当分类从“否”变为“是”或“是”变为“否”时，将两个温度的平均值视为潜在的分区边界。因为42对应于否，43对应于是，42.

詹惠儿

2018-12-25

0.0000 0 6

如何区分神经网络和机器学习

深度学习是多层神经网络的新名称。可以说，深度学习是神经网络的增强和强大形式。两者之间的区别是微妙的。不同之处在于，与神经网络（最多2层构建）相比，深度学习模型建立在几个隐藏层（例如，超过2个）上。由于数据有多种形式（表格，图像，声音，网络等），线性方法很难学习和检测数据中的非线性。实际上，很多次甚至非线性算法（例如基于树的（GBM，决策树））都无法从数据中学习。在这种情况下，多层神经

詹惠儿

2018-12-25

0.0000 0 3

决策树的过度拟合问题

由于ID3算法继续拆分属性，直到它对所有数据点进行分类或者没有更多属性要进行拆分。结果，通过以相对于整个数据分布的准确性为代价在训练数据上执行得非常好，易于创建过度拟合的决策树。通常，有两种方法可以在决策树中避免这种情况： - 允许树生长直到它过度生长然后修剪它。 - 在完全分类训练数据之前，通过停止树来防止树长得太深。决策树的增长是根据允许的层数或深度来指定的。可用于训练决策树的数据被

詹惠儿

2018-12-25

0.0000 0 1