数据科学专业问答社区，好文章，一字千金--CDA答疑社区

Anaconda设置环境变量

1、当没有按照默认设置安装Anaconda3时（比如安装目录在C盘的时候），需要自己设置环境变量。如果默认添加到C盘，一般添加以下环境变量即可 C:\Anaconda\ Python需要 C:\Anaconda\Scripts Anaconda 自带脚本（conda、jupyter notebook、ipython） C:\Anaconda\Library\bi

赵娜0418

2020-05-26

9.9960 8 2

jupyter notebook无法自动跳转到浏览器

安装Anaconda 3.7版本后，在使用jupyter notebook时，每次都无法自动跳转到浏览器，需要手动去浏览器输入网址才可以，很麻烦。遇到这样的问题之后，可以尝试以下方法解决。一、在开始选项卡下找到Anaconda的文件夹，找到并打开Anaconda Prompt或Anaconda Powershell Prompt，执行jupyter notebook --generate-co

赵娜0418

2020-05-26

1.2810 7 2

计算AUC的两种方式 1、什么是AUC? ●AUC是ROC曲线下方的面积 ●取值一般为0.5-1，越大表明分类性能越好！ 4.2 直接使用封装好的API 代码： from sklearn import metrics scores = lr.predict_proba(X_test)[:,1] metrics.roc_auc_score(y_test, scores) # y_test真实标签 s

赵娜0418

2020-05-24

1.3858 6 3

机器学习交叉验证

其基本思想是将原始数据（dataset）进行分组，一部分做为训练集来训练模型，另一部分做为测试集来评价模型。交叉验证是一种模型选择的方法！（引自李航统计学习方法）可以分为以下三种： 1、简单交叉验证。即将数据按照一定比例比如73开，分为训练集和测试集。 2、S折交叉验证。将已给数据切分为S个互不相交、大小相同的子集，将S-1个子集的数据作为训练集来训练模型，剩余的一个测试模型，重复S次，选择

赵娜0418

2020-05-24

1.3833 6 5

Python机器学习中三类梯度下降法总结

梯度下降法大家族（BGD，SGD，MBGD） 1、批量梯度下降法（Batch Gradient Descent）批量梯度下降法，是梯度下降法最常用的形式，具体做法也就是在更新参数时使用所有的样本来进行更新，这个方法对应于前面3.3.1的线性回归的梯度下降算法，也就是说3.3.1的梯度下降算法就是批量梯度下降法。　　 θi=θi−α∑j=0m(hθ(x(j)0,x(j)1,...x(j)n)−

赵娜0418

2020-05-24

19.8365 8 1

最小二乘法估计与最大似然估计有什么联系和区别？

对于最小二乘法，当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得模型能最好地拟合样本数据，也就是估计值和观测值之差的平方和最小。而对于最大似然法，当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。显然，这是从不同原理出发的两种参数估计方法。在最大似然法中，通过选择参数，使已知数据在某种意义下最有可能出现，而某种意义通常指似然

赵娜0418

2020-05-24

19.4597 14 5

Python中.sum()函数中参数axis=0或1有什么作用？

我们平时用的sum应该是默认的axis=0 就是普通的相加：当axis=0，就是将一个矩阵的每一列向量相加；当axis=1，就是将一个矩阵的每一行向量相加，需要注意的是，对一维数组，只有第0轴，没有第1轴。

赵娜0418

2020-05-24

19.8971 7 1

Python中主成分分析（PCA）和线性判别分析（LDA）的相关知识点

PCA和LDA都是经典的降维算法。PCA是无监督的，也就是训练样本不需要标签；LDA是有监督的，也就是训练样本需要标签。PCA是去除掉原始数据中冗余的维度，而LDA是寻找一个维度，使得原始数据在该维度上投影后不同类别的数据尽可能分离开来。 PCA PCA是一种正交投影，它的思想是使得原始数据在投影子空间的各个维度的方差最大。假设我们要将N维的数据投影到M维的空间上（M

赵娜0418

2020-05-23

44.8010 7 5

Python机器学习标准化、归一化的目的

在机器学习领域中，不同评价指标（即特征向量中的不同特征就是所述的不同评价指标）往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。其中，最典型的就是数据的归一化处理。简而言之，归一化的目的就是使得预处理的数据被限定在一定的范围内（

赵娜0418

2020-05-23

44.7984 9 3

Python机器学习分类模型评判指标混淆矩阵相关知识点

混淆矩阵是ROC曲线绘制的基础，同时它也是衡量分类型模型准确度中最基本，最直观，计算最简单的方法。混淆矩阵是评判模型结果的指标，属于模型评估的一部分。此外，混淆矩阵多用于判断分类器（Classifier）的优劣，适用于分类型的数据模型，如分类树（Classification Tree）、逻辑回归（Logistic Regression）、线性判别分析（Linear Discriminant Ana

赵娜0418

2020-05-23

177.8055 20 4

Python机器学习中数据集拆分训练集和测试集

可将单个数据集拆分为一个训练集和一个测试集。训练集 - 用于训练模型的子集。测试集 - 用于测试训练后模型的子集。训练集的规模越大，模型的学习效果越好。测试集规模越大，对于评估指标的信心越充足，置信区间就越窄。在创建一个能够很好地泛化到新数据模型的过程中，测试集充当了新数据的代理。拆分数据的一些注意事项：两个数据集必须相互独立。确保先进行随机化，再拆分数据。如果数据集规

赵娜0418

2020-05-23

45.2479 10 0

Python机器学习中导致偏差和方差的原因是什么？

偏差是由于模型的复杂度不够或者对学习算法做了错误的假设；比如真实模型为三次函数，而拟合出来的为二次函数，会导致偏差激增，属于欠拟合现象。所以训练误差主要是偏差造成的。而方差通常是模型复杂度过高导致的；比如真实模型是二次函数，而拟合出来的是五次函数，会导致过拟合，方差增大。由方差引起的误差通常体现在测试误差相对训练误差的变化上。

赵娜0418

2020-05-23

1.7963 9 4

机器学习中监督学习、无监督学习和半监督学习的区别是什么？

概念 1、监督学习（数据集有输入和输出数据）：通过已有的一部分输入数据与输出数据之间的相应关系。生成一个函数，将输入映射到合适的输出，比如分类。 2、无监督学习（数据集中只有输入）：直接对输入数据集进行建模，比如聚类。 3、半监督学习：综合利用有类标的数据和没有类标的数据，来生成合适的分类函数。类别 1、监督学习分为分类（classification）和回归（regression）。最广泛

赵娜0418

2020-05-23

45.0717 11 2

Python机器学习中如何理解特征和标签？

以周志华老师在《机器学习》中判断好瓜的问题为例——给你一个西瓜，如何判断出一个它是不是正熟的好瓜？对于人类来说，根据以前的经验，我们首先会从西瓜这个具体的事物中抽取一些有用的信息，比如西瓜的颜色、瓜蒂的形状、敲击的声音等，然后根据一定的规则在这些信息的基础上进行判断————一般情况下我们认为颜色青绿、根蒂蜷缩、敲击浊响的西瓜是好瓜。上述问题中，西瓜的颜色、瓜蒂的形状、敲击的声音就是特

赵娜0418

2020-05-23

45.0513 10 1

Python中pass语句代码实现

Python pass 是空语句，是为了保持程序结构的完整性。 pass 不做任何事情，一般用做占位语句。测试实例： #!/usr/bin/python # -*- coding: UTF-8 -*- # 输出 Python 的每个字母 for letter in 'Python': if letter == 'h': pass print '这是 pa

赵娜0418

2020-05-22

39.2124 6 4

如何进行用户购买行为分析？

why：用户购买的目的是什么？产品在哪方面吸引客户？ What：公司提供什么产品和服务？与用户需求是否一致？ Who：谁是我们的用户？用户有什么特点？ When：何时购买？多久再次购买？ Where：用户在哪儿购买？用户地区构成如何？ How：用户购买支付方式是怎样？ How much：用户购买花费时间，各项成本是多少？

赵娜0418

2020-05-22

1.4173 5 4

Python中cumsum函数

cumsum函数定义： cumsum(a, axis=None, dtype=None, out=None) a.cumsum(axis=None, dtype=None, out=None) *****返回：这个函数的功能是返回给定axis上的累计和。沿着指定轴的元素累加和所组成的数组，其形状应与输入数组a一致。 *****其中cumsum函数的参数： a:数组 axis:轴索引,整

赵娜0418

2020-05-22

38.2022 5 3

Python中subsampled与downsampled

缩小图像（或称为下采样（subsampled）或降采样（downsampled））的主要目的有两个：1、使得图像符合显示区域的大小；2、生成对应图像的缩略图。放大图像（或称为上采样（upsampling）或图像插值（interpolating））的主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。对图像的缩放操作并不能带来更多关于该图像的信息, 因此图像的质量将不可避免地受到影响。然而，

赵娜0418

2020-05-21

34.2344 5 2

Python中nlargest方法的使用

在pandas库里面，我们常常关心的是最大的前几个，比如销售最好的几个产品，几个店，等。之前讲到的head(), 能够看到看到DF里面的前几行，如果需要看到最大或者最小的几行就需要先进行排序。max()和min()可以看到最大或者最小值，但是只能看到一个值。所以我们可以使用nlargest()函数，nlargest()的优点就是能一次看到最大的几行，而且不需要排序。缺点就是只能看到最大的，

赵娜0418

2020-05-20

33.9191 7 4

选择核函数的几种方式

在选用核函数的时候，如果我们对我们的数据有一定的先验知识，就利用先验来选择符合数据分布的核函数；如果不知道的话，通常使用交叉验证的方法，来试用不同的核函数，误差最下的即为效果最好的核函数，或者也可以将多个核函数结合起来，形成混合核函数。在吴恩达的课上，也曾经给出过一系列的选择核函数的方法：如果特征的数量大到和样本数量差不多，则选用LR或者线性核的SVM；如果特征的数量小，样本的数

赵娜0418

2020-05-20

33.8463 5 3