数据科学专业问答社区，好文章，一字千金--CDA答疑社区

简述中心极限定理

样本均值的采样分布统计学家不是使用个人分数，而是经常使用采样。也就是取几个样本，计算每个样本的平均值，然后将平均值用作数据，而不是使用单个分数。样本是样本均值的采样分布。当计算所有可能的样本均值时，则满足以下属性：样本平均值将是人口的平均值样本均值的方差是总体的方差除以样本大小。样本均值的标准偏差（称为均值的标准误差）将小于总体标准差，并且将等于总体的标准偏差除以样本大小的平方根。如

詹惠儿

2019-01-11

0.0000 0 3

如何区别for和apply

一个for循环使用相同的函数调用适用于对象的集合。R有一系列功能，apply家庭，可以大致相同的方式使用。该apply家族成员包括 apply - 应用于数组的边距（例如矩阵的行或列） lapply - 申请对象和返回列表 sapply - 如果可能，应用于对象并返回简化对象（数组） vapply- 类似sapply但您指定迭代返回的对象类型它们中的每一个都有一个参数FUN，该参数将函数应用于对

詹惠儿

2019-01-11

0.0000 0 3

机器学习如何运作

机器学习如何运作机器学习算法通常被分类为监督或无监督。监督算法要求具有机器学习技能的数据科学家或数据分析师提供输入和期望输出，此外还提供关于算法训练期间预测准确性的反馈。数据科学家确定模型应分析和使用哪些变量或特征来开发预测。培训完成后，算法将学到的内容应用于新数据。无监督算法不需要用期望的结果数据进行训练。相反，他们使用称为深度学习的迭代方法来审查数据并得出结论。无监督学习算法 - 也称为

詹惠儿

2019-01-11

0.0000 0 3

机器学习概述

机器学习概述机器学习（ML）是一种算法类别，它允许软件应用程序在未经明确编程的情况下更准确地预测结果。机器学习的基本前提是构建可以接收输入数据的算法，并使用统计分析预测输出，同时在新数据可用时更新输出。机器学习中涉及的过程类似于数据挖掘和预测建模。两者都需要搜索数据以查找模式并相应地调整程序操作。许多人都熟悉通过互联网购物和提供与购买相关的广告的机器学习。这是因为推荐引擎使用机器学习几乎实

詹惠儿

2019-01-11

0.0000 0 3

什么是似然估计？

似然比检验似然比检验提供了用于比较一个模型（例如，完整模型）下的数据的可能性与另一个更受限制的模型（例如，截距模型）下的数据的可能性的手段。 a 其中' p ' 是逻辑模型预测概率。下一步是计算这两个对数似然之间的差异。 a 两个可能性之间的差异乘以因子2，以便使用标准显着性水平（Chi2检验）评估统计显着性。测试的自由度将等于模型下估计的参数数量的差异（例如，完整和截距）。 Wald

詹惠儿

2019-01-11

0.0000 0 2

如何使用numpy打印nxn的棋盘格式（2）

# Python program to print nXn # checkerboard pattern using numpy import numpy as np # function to print Checkerboard pattern def printcheckboard(n): print("Checkerboard pattern:") # create

詹惠儿

2019-01-10

120.0000 1 2

如何使用numpy打印nxn的棋盘格式（1）

给定n，打印焦虑矩阵的棋盘格局 n = 8的棋盘格式：它由n * n个正方形组成，交替0表示白色，1表示黑色。我们可以使用嵌套的for循环和一些if条件来做同样的事情，但是使用Python的numpy库，我们可以导入二维矩阵并使用切片获得checkboard模式。 W2将使用以下python函数来打印模式： x = np.zeros（（n，n），dtype = int）使用此函数，我们使用n

詹惠儿

2019-01-10

120.0000 1 2

numpy的数据类型（2）

输出： INT16 # Python Program to create a data type object # containing a 32 bit big-endian integer import numpy as np # i4 represents integer of size 4 byte # > represents big-endian byte ordering an

詹惠儿

2019-01-10

120.0000 1 2

numpy的数据类型（1）

每个ndarray都有一个关联的数据类型（dtype）对象。此数据类型对象（dtype）通知我们有关数组的布局。这意味着它为我们提供了以下信息：数据类型（整数，浮点数，Python对象等）数据大小（字节数）数据的字节顺序（little-endian或big-endian）如果数据类型是子数组，那么它的形状和数据类型是什么。 ndarray的值存储在缓冲区中，缓冲区可以被认为是连续的内存字节

詹惠儿

2019-01-10

0.0000 0 1

numpy通用类型操作

通用函数（ufunc）：NumPy提供熟悉的数学函数，如sin，cos，exp等。这些函数也在元素上以元素方式运行，产生一个数组作为输出。注意：我们上面使用重载运算符执行的所有操作都可以使用ufuncs来完成，如np.add，np.subtract，np.multiply，np.divide，np.sum等。 # Python program to demonstrate # universal

詹惠儿

2019-01-10

0.0000 0 3

numpy的二元运算符操作

二元运算符：这些运算以元素方式应用于数组，并创建一个新数组。您可以使用所有基本算术运算符，如， - ，/等。如果是 =， - =，=运算符，则会修改现有数组。 # Python program to demonstrate # binary operators in Numpy import numpy as np a = np.array([[1, 2], [3, 4]]) b = n

詹惠儿

2019-01-10

0.0000 0 2

numpy一元数组运算符

一元运算符：许多一元运算是作为ndarray类的方法提供的。这包括sum，min，max等。这些函数也可以通过设置轴参数按行或列方式应用。 # Python program to demonstrate # unary operators in numpy import numpy as np arr = np.array([[1, 5, 6], [4, 7, 2], [3, 1, 9]]

詹惠儿

2019-01-10

0.0000 0 5

numpy单数组操作

NumPy中提供了许多内置算术函数。单个数组的操作：我们可以使用重载的算术运算符对数组进行元素操作以创建新数组。在 =， - =，* =运算符的情况下，修改现有数组。# Python program to demonstrate # basic operations on single array import numpy as np a = np.array([1, 2, 5, 3])

詹惠儿

2019-01-10

120.0000 1 4

python的数组索引

了解数组索引的基础知识对于分析和操作数组对象非常重要。NumPy提供了许多方法来进行数组索引。切片：就像python中的列表一样，可以对NumPy数组进行切片。由于数组可以是多维的，因此您需要为数组的每个维指定一个切片。整数数组索引：在此方法中，传递列表以便为每个维度建立索引。完成对应元素的一对一映射以构造新的任意数组。布尔数组索引：当我们想从数组中选择满足某些条件的元素时，使用此方法。 #

詹惠儿

2019-01-10

120.0000 1 3

numpy中如何创建数组

有多种方法可以在NumPy中创建数组。例如，您可以使用数组函数从常规Python 列表或元组创建数组。结果数组的类型是从序列中元素的类型推导出来的。通常，数组的元素最初是未知的，但其大小是已知的。因此，NumPy提供了几个函数来创建具有初始占位符内容的数组。这些最小化了增长阵列的必要性，这是一项昂贵的操作例如： np.zeros，np.ones，np.full，np.empty等。为了创

詹惠儿

2019-01-10

0.0000 0 4

Numpy中的N维数组

Numpy中的数组是一个元素表（通常是数字），它们都是相同的类型，由正整数元组索引。在Numpy中，数组的维数被称为数组的等级。沿每个维度给出数组大小的整数元组称为数组的形状。Numpy中的数组类称为ndarray。Numpy数组中的元素可以使用方括号访问，并且可以使用嵌套的Python列表进行初始化。示例： [[1,2,3]， [4,2,5]] 这里，rank = 2（因为它是

詹惠儿

2019-01-10

0.0000 0 4

如何理解分布式爬虫

爬虫中的线程可以在不同的进程下运行，每个进程都在分布式爬网系统的不同节点上运行。这种分配对于扩展至关重要;它也可以在地理上分布的爬虫系统中使用，其中每个节点爬行主机“靠近”它。在爬网程序节点之间对正在爬网的主机进行分区可以通过散列函数或一些更具体定制的策略来完成。例如，我们可能会在欧洲找到一个抓取节点，专注于欧洲域，尽管由于多种原因这是不可靠的 - 数据包通过互联网的路径并不总是反映地理邻

詹惠儿

2019-01-08

0.0000 0 2

分布爬虫的难点

然而，模块由于以下几个因素而变得复杂：与URL前沿和重复消除模块不同，无法基于主机名对文档指纹/带状疱疹进行分区。没有什么能阻止相同（或高度相似）的内容出现在不同的Web服务器上。因此，指纹/带状疱疹的集合必须基于指纹/木瓦的某些属性（例如，通过使指纹模数为节点的数量）在节点之间划分。这种局部性不匹配的结果是大多数“内容被发现？”测试导致远程过程调用（尽管可以批量查找请求）。文档指纹/带状

詹惠儿

2019-01-08

0.0000 0 1

分类器如何分类？

当遇到构建文本分类器的需要时，首先要问的问题是当前有多少训练数据可用？没有？很少？非常多？或者是巨额，每天都在增长？通常，在实际应用中部署机器学习分类器的最大实际挑战之一是创建或获取足够的训练数据。对于许多问题和算法，需要来自每个类的数百或数千个示例来生成高性能分类器，并且许多现实世界上下文涉及大量类别。我们最初会假设需要尽快分类; 如果有很多时间可用于实现，那么大部分时间可能用于组装数据资源。

詹惠儿

2019-01-08

0.0000 0 1

怎么将项目分类（2）

以下函数将输入k（所需簇的数量），项目和最大迭代次数作为输入，并返回均值和簇。的项的分类存储在数组属于关联和项目的群集中的号被存储在clusterSizes。 def CalculateMeans(k,items,maxIterations=100000): # Find the minima and maxima for columns cMin, cMax = FindColMinMax(i

詹惠儿

2019-01-08

0.0000 0 4