数据科学专业问答社区，好文章，一字千金--CDA答疑社区

数组的属性有哪些

数组属性反映了数组本身固有的信息。通常，通过其属性访问数组允许您获取并有时设置数组的内部属性，而无需创建新数组。公开的属性是数组的核心部分，只有部分属性可以有意义地重置而无需创建新数组。有关每个属性的信息如下。以下属性包含有关数组内存布局的信息： ndarray.flags有关阵列内存布局的信息。ndarray.shape数组维度的元组。ndarray.strides遍历数组时，每个维度中的字节

啊啊啊啊啊吖

2018-12-03

5.6893 1 3

数组对象是什么

NumPy提供了一个N维数组类型，即ndarray，它描述了相同类型的“项目”集合。可以使用例如N个整数来索引项目。所有ndarray都是同质的：每个项目占用相同大小的内存块，并且所有块都以完全相同的方式解释。如何解释数组中的每个项目由单独的数据类型对象指定，其中一个对象与每个数组相关联。除了基本类型（整数，浮点数等）之外，数据类型对象还可以表示数据结构。从数组中提取的项（例如，通过索引）由

啊啊啊啊啊吖

2018-12-03

5.6893 1 4

关于numpy的用途

NumPy是使用Python进行科学计算所需的基本软件包。这个包包含：一个强大的N维数组对象复杂的（广播）功能基本线性代数函数基本傅里叶变换复杂的随机数功能用于集成Fortran代码的工具用于集成C / C 代码的工具除了明显的科学用途外，NumPy还可以用作通用数据的高效多维容器。可以定义任意数据类型。这使NumPy能够无缝快速地与各种数据库集成。 NumPy是两个早期科学P

啊啊啊啊啊吖

2018-12-03

0.0000 0 1

新算法的纳入标准是什么

我们仅考虑添加已经完善的算法。通常的标准是发布3年以上，被引用超过 200 次，而且被广泛使用。对广泛使用的方法提供了明确改进的技术（如增强型数据结构或更有效的近似技术）也将被考虑纳入。在满足上述标准的算法或技术中,只有这些能够适合现在 scikit-learn API 的, 预测/转换接口通常具有 numpy 阵列或稀疏矩阵的输入/输出。贡献者应该支持通过研究论文或其他类似软件包中的实

啊啊啊啊啊吖

2018-11-30

0.0000 0 4

在python里怎么在第三方安装机器学习库

如果您尚未安装具有 numpy 和 scipy 的 python 安装，建议您通过软件包管理器或通过 python 软件包进行安装。这些与 numpy, scipy, scikit-learn, matplotlib 和许多其他有用的科学和数据处理库。可用选项有: Canopy 和 Anaconda 适用于所有支持的平台 Canopy 和 Anaconda 都运送了最新版本的 scikit-

啊啊啊啊啊吖

2018-11-30

0.0000 0 1

安装scikit-learn

Scikit-learn 要求: Python (>= 2.7 or >= 3.3), NumPy (>= 1.8.2), SciPy (>= 0.13.3). 如果你已经有一个安全的 numpy 和 scipy，安装 scikit-learn 最简单的方法是使用 pip pip install -U scikit-learn 或者 conda: conda install scikit-lea

啊啊啊啊啊吖

2018-11-30

0.0000 0 3

类型转换

在python里除非特别指定，输入将被转换为 float64 >>>>>> import numpy as np >>> from sklearn import random_projection >>> rng = np.random.RandomState(0) >>> X = rng.rand(10, 2000) >>> X = np.array(X, dtype='float32'

啊啊啊啊啊吖

2018-11-30

0.0000 0 1

模型持久化

可以通过使用 Python 的内置持久化模块（即 pickle ）将模型保存: >>>>>> from sklearn import svm >>> from sklearn import datasets >>> clf = svm.SVC() >>> iris = datasets.load_iris() >>> X, y = iris.data, iris.target >>> c

啊啊啊啊啊吖

2018-11-30

0.0000 0 2

数据数组的形状

数据总是二维数组，形状 (n_samples, n_features) ，尽管原始数据可能具有不同的形状。在数字的情况下，可以使用以下方式访问: >>>>>> digits.images[0] array([[ 0., 0., 5., 13., 9., 1., 0., 0.], [ 0., 0., 13., 15., 10., 15.,

啊啊啊啊啊吖

2018-11-30

0.0000 0 2

加载实例数据集

我们从我们的 shell 启动一个 Python 解释器，然后加载 iris 和 digits 数据集。我们的符号约定是 $ 表示 shell 提示符，而 >>> 表示 Python 解释器提示符: $ python >>> from sklearn import datasets >>> iris = datasets.load_iris() >>> digits = datasets.l

啊啊啊啊啊吖

2018-11-30

0.0000 0 1

监督学习和无监督学习是什么

监督学习 , 其中数据带有一个附加属性，即我们想要预测的结果值，这个问题可以是: 分类 : 样本属于两个或更多个类，我们想从已经标记的数据中学习如何预测未标记数据的类别。分类问题的一个例子是手写数字识别，其目的是将每个输入向量分配给有限数目的离散类别之一。我们通常把分类视作监督学习的一个离散形式（区别于连续形式），从有限的类别中，给每个样本贴上正确的标签。回归 : 如果期望的输出由一个或多

啊啊啊啊啊吖

2018-11-30

0.0000 0 0

SVC和NuSVC为多元分类实现了 “one-against-one” 的方法 (Knerr et al., 1990) 如果n_class是类别的数量, 那么n_class*(n_class-1)/2分类器被重构, 而且每一个从两个类别中训练数据. 为了给其他分类器提供一致的交互,decision_function_shape选项允许聚合 “one-against-one” 分类器的结果成(n_

啊啊啊啊啊吖

2018-11-30

0.0000 0 3

支持向量机的优缺点

支持向量机的优势在于: 在高维空间中非常高效. 即使在数据维度比样本数量大的情况下仍然有效. 在决策函数（称为支持向量）中使用训练集的子集,因此它也是高效利用内存的. 通用性: 不同的核函数核函数与特定的决策函数一一对应.常见的 kernel 已经提供,也可以指定定制的内核. 支持向量机的缺点包括: 如果特征数量比样本数量大得多,在选择核函数核函数时要避免过拟合, 而且正则化项是非常

啊啊啊啊啊吖

2018-11-30

0.0000 0 5

基特征选择作为pipeline管道的一部分

特征选择通常在实际的学习之前用来做预处理。在 scikit-learn 中推荐的方式是使用 :sklearn.pipeline.Pipeline: clf = Pipeline([ ('feature_selection', SelectFromModel(LinearSVC(penalty="l1"))), ('classification', RandomForestClassifier()

啊啊啊啊啊吖

2018-11-29

0.0000 0 0

基于树的特征选择

基于树的 estimators 可以用来计算特征的重要性，然后可以消除不相关的特征（当与 sklearn.feature_selection.SelectFromModel 等元转换器一同使用时）: >>>>>> from sklearn.ensemble import ExtraTreesClassifier >>> from sklearn.datasets import load_iris

啊啊啊啊啊吖

2018-11-29

0.0000 0 1

利用稀疏logistics回归进行特征选择

Linear models 使用 L1 正则化的线性模型会得到稀疏解：他们的许多系数为 0。当目标是降低使用另一个分类器的数据集的维度，它们可以与 feature_selection.SelectFromModel 一起使用来选择非零系数。特别的，可以用于此目的的稀疏评估器有用于回归的 linear_model.Lasso , 以及用于分类的 linear_model.LogisticRegr

啊啊啊啊啊吖

2018-11-29

0.0000 0 1

用贝叶斯回归来解决回归问题

>>> from sklearn import linear_model >>> X = [[0., 0.], [1., 1.], [2., 2.], [3., 3.]] >>> Y = [0., 1., 2., 3.] >>> reg = linear_model.BayesianRidge() >>> reg.fit(X, Y) BayesianRidge(alpha_1=1e-06, alp

啊啊啊啊啊吖

2018-11-29

0.0000 0 1

最小角回归

最小角回归（LARS）是对高维数据的回归算法，由 Bradley Efron, Trevor Hastie, Iain Johnstone 和 Robert Tibshirani 开发完成。 LARS 和逐步回归很像。在每一步，它寻找与响应最有关联的预测。当有很多预测有相同的关联时，它没有继续利用相同的预测，而是在这些预测中找出应该等角的方向。 LARS的优点: 当 p >> n，该算法

啊啊啊啊啊吖

2018-11-29

0.0000 0 3

广义交叉验证

通过内置的 Alpha 参数的交叉验证来实现岭回归。该对象与 GridSearchCV 的使用方法相同，只是它默认为 Generalized Cross-Validation(广义交叉验证 GCV)，这是一种有效的留一验证方法（LOO-CV）: >>>>>> from sklearn import linear_model >>> reg = linear_model.RidgeCV(alph

啊啊啊啊啊吖

2018-11-29

0.0000 0 5

lasso回归的惩罚函数

def lasso_penalty(beta, alpha): return alpha * sum(abs(beta_i) for beta_i in beta[1:]) 总的说来，岭回归的惩罚项会缩小系数，但是， lasso 的惩罚项却趋向于迫使系数变为 0 值，这使得它更适于学习稀疏模型。令人遗憾的是，它不适用于梯度下降法。

啊啊啊啊啊吖

2018-11-29

0.0000 0 4