赵娜0418

Anaconda设置环境变量

1、当没有按照默认设置安装Anaconda3时(比如安装目录在C盘的时候),需要自己设置环境变量。如果默认添加到C盘,一般添加以下环境变量即可 C:\Anaconda\          Python需要 C:\Anaconda\Scripts          Anaconda 自带脚本(conda、jupyter notebook、ipython) C:\Anaconda\Library\bi

赵娜0418

2020-05-26

9.9960 8 2
  • 关注作者
  • 收藏

jupyter notebook无法自动跳转到浏览器

安装Anaconda 3.7版本后,在使用jupyter notebook时,每次都无法自动跳转到浏览器,需要手动去浏览器输入网址才可以,很麻烦。遇到这样的问题之后,可以尝试以下方法解决。 一、在开始选项卡下找到Anaconda的文件夹,找到并打开Anaconda Prompt或Anaconda Powershell Prompt,执行jupyter notebook --generate-co

赵娜0418

2020-05-26

1.2810 7 2
  • 关注作者
  • 收藏

Python机器学习AUC两种方式

计算AUC的两种方式 1、什么是AUC? ●AUC是ROC曲线下方的面积 ●取值一般为0.5-1,越大表明分类性能越好! 4.2 直接使用封装好的API 代码: from sklearn import metrics scores = lr.predict_proba(X_test)[:,1] metrics.roc_auc_score(y_test, scores) # y_test真实标签 s

赵娜0418

2020-05-24

1.3858 6 3
  • 关注作者
  • 收藏

机器学习交叉验证

其基本思想是将原始数据(dataset)进行分组,一部分做为训练集来训练模型,另一部分做为测试集来评价模型。 交叉验证是一种模型选择的方法!(引自李航统计学习方法)可以分为以下三种: 1、简单交叉验证。即将数据按照一定比例 比如73开,分为训练集和测试集。 2、S折交叉验证。将已给数据切分为S个互不相交、大小相同的子集,将S-1个子集的数据作为训练集来训练模型,剩余的一个测试模型,重复S次,选择

赵娜0418

2020-05-24

1.3833 6 5
  • 关注作者
  • 收藏

Python机器学习中三类梯度下降法总结

梯度下降法大家族(BGD,SGD,MBGD) 1、批量梯度下降法(Batch Gradient Descent) 批量梯度下降法,是梯度下降法最常用的形式,具体做法也就是在更新参数时使用所有的样本来进行更新,这个方法对应于前面3.3.1的线性回归的梯度下降算法,也就是说3.3.1的梯度下降算法就是批量梯度下降法。   θi=θi−α∑j=0m(hθ(x(j)0,x(j)1,...x(j)n)−

赵娜0418

2020-05-24

19.8365 8 1
  • 关注作者
  • 收藏

最小二乘法估计与最大似然估计有什么联系和区别?

对于最小二乘法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小。而对于最大似然法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。显然,这是从不同原理出发的两种参数估计方法。 在最大似然法中,通过选择参数,使已知数据在某种意义下最有可能出现,而某种意义通常指似然

赵娜0418

2020-05-24

19.4597 14 5
  • 关注作者
  • 收藏

Python中.sum()函数中参数axis=0或1有什么作用?

我们平时用的sum应该是默认的axis=0 就是普通的相加: 当axis=0,就是将一个矩阵的每一列向量相加; 当axis=1,就是将一个矩阵的每一行向量相加, 需要注意的是,对一维数组,只有第0轴,没有第1轴。

赵娜0418

2020-05-24

19.8971 7 1
  • 关注作者
  • 收藏

Python中主成分分析(PCA)和线性判别分析(LDA)的相关知识点

PCA和LDA都是经典的降维算法。PCA是无监督的,也就是训练样本不需要标签;LDA是有监督的,也就是训练样本需要标签。PCA是去除掉原始数据中冗余的维度,而LDA是寻找一个维度,使得原始数据在该维度上投影后不同类别的数据尽可能分离开来。 PCA PCA是一种正交投影,它的思想是使得原始数据在投影子空间的各个维度的方差最大。假设我们要将N维的数据投影到M维的空间上(M

赵娜0418

2020-05-23

44.8010 7 5
  • 关注作者
  • 收藏

Python机器学习标准化、归一化的目的

在机器学习领域中,不同评价指标(即特征向量中的不同特征就是所述的不同评价指标)往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。其中,最典型的就是数据的归一化处理。 简而言之,归一化的目的就是使得预处理的数据被限定在一定的范围内(

赵娜0418

2020-05-23

44.7984 9 3
  • 关注作者
  • 收藏

Python机器学习分类模型评判指标混淆矩阵相关知识点

混淆矩阵是ROC曲线绘制的基础,同时它也是衡量分类型模型准确度中最基本,最直观,计算最简单的方法。混淆矩阵是评判模型结果的指标,属于模型评估的一部分。此外,混淆矩阵多用于判断分类器(Classifier)的优劣,适用于分类型的数据模型,如分类树(Classification Tree)、逻辑回归(Logistic Regression)、线性判别分析(Linear Discriminant Ana

赵娜0418

2020-05-23

177.8055 20 4
  • 关注作者
  • 收藏

Python机器学习中数据集拆分训练集和测试集

可将单个数据集拆分为一个训练集和一个测试集。 训练集 - 用于训练模型的子集。 测试集 - 用于测试训练后模型的子集。 训练集的规模越大,模型的学习效果越好。 测试集规模越大,对于评估指标的信心越充足,置信区间就越窄。 在创建一个能够很好地泛化到新数据模型的过程中,测试集充当了新数据的代理。 拆分数据的一些注意事项: 两个数据集必须相互独立。 确保先进行随机化,再拆分数据。 如果数据集规

赵娜0418

2020-05-23

45.2479 10 0
  • 关注作者
  • 收藏

Python机器学习中导致偏差和方差的原因是什么?

偏差是由于模型的复杂度不够或者对学习算法做了错误的假设;比如真实模型为三次函数,而拟合出来的为二次函数,会导致偏差激增,属于欠拟合现象。所以训练误差主要是偏差造成的。 而方差通常是模型复杂度过高导致的;比如真实模型是二次函数,而拟合出来的是五次函数,会导致过拟合,方差增大。由方差引起的误差通常体现在测试误差相对训练误差的变化上。

赵娜0418

2020-05-23

1.7963 9 4
  • 关注作者
  • 收藏

机器学习中监督学习、无监督学习和半监督学习的区别是什么?

概念 1、监督学习(数据集有输入和输出数据):通过已有的一部分输入数据与输出数据之间的相应关系。生成一个函数,将输入映射到合适的输出,比如分类。 2、无监督学习(数据集中只有输入):直接对输入数据集进行建模,比如聚类。 3、半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数。 类别 1、监督学习分为分类(classification)和回归(regression)。最广泛

赵娜0418

2020-05-23

45.0717 11 2
  • 关注作者
  • 收藏

Python机器学习中如何理解特征和标签?

以周志华老师在《机器学习》中判断好瓜的问题为例——给你一个西瓜,如何判断出一个它是不是正熟的好瓜?对于人类来说,根据以前的经验,我们首先会从西瓜这个具体的事物中抽取一些有用的信息,比如西瓜的颜色、瓜蒂的形状、敲击的声音等,然后根据一定的规则在这些信息的基础上进行判断————一般情况下我们认为颜色青绿、根蒂蜷缩、敲击浊响的西瓜是好瓜。 上述问题中,西瓜的颜色、瓜蒂的形状、敲击的声音就是特

赵娜0418

2020-05-23

45.0513 10 1
  • 关注作者
  • 收藏

Python中pass语句代码实现

Python pass 是空语句,是为了保持程序结构的完整性。 pass 不做任何事情,一般用做占位语句。 测试实例: #!/usr/bin/python # -*- coding: UTF-8 -*- # 输出 Python 的每个字母 for letter in 'Python': if letter == 'h': pass print '这是 pa

赵娜0418

2020-05-22

39.2124 6 4
  • 关注作者
  • 收藏

如何进行用户购买行为分析?

why:用户购买的目的是什么?产品在哪方面吸引客户? What:公司提供什么产品和服务?与用户需求是否一致? Who:谁是我们的用户?用户有什么特点? When:何时购买?多久再次购买? Where:用户在哪儿购买?用户地区构成如何? How:用户购买支付方式是怎样? How much:用户购买花费时间,各项成本是多少?

赵娜0418

2020-05-22

1.4173 5 4
  • 关注作者
  • 收藏

Python中cumsum函数

cumsum函数定义: cumsum(a, axis=None, dtype=None, out=None)   a.cumsum(axis=None, dtype=None, out=None) *****返回:这个函数的功能是返回给定axis上的累计和。沿着指定轴的元素累加和所组成的数组,其形状应与输入数组a一致。 *****其中cumsum函数的参数: a:数组 axis:轴索引,整

赵娜0418

2020-05-22

38.2022 5 3
  • 关注作者
  • 收藏

Python中subsampled与downsampled

缩小图像(或称为下采样(subsampled)或降采样(downsampled))的主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图。放大图像(或称为上采样(upsampling)或图像插值(interpolating))的主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。对图像的缩放操作并不能带来更多关于该图像的信息, 因此图像的质量将不可避免地受到影响。然而,

赵娜0418

2020-05-21

34.2344 5 2
  • 关注作者
  • 收藏

Python中nlargest方法的使用

在pandas库里面,我们常常关心的是最大的前几个,比如销售最好的几个产品,几个店,等。之前讲到的head(), 能够看到看到DF里面的前几行,如果需要看到最大或者最小的几行就需要先进行排序。max()和min()可以看到最大或者最小值,但是只能看到一个值。 所以我们可以使用nlargest()函数,nlargest()的优点就是能一次看到最大的几行,而且不需要排序。缺点就是只能看到最大的,

赵娜0418

2020-05-20

33.9191 7 4
  • 关注作者
  • 收藏

选择核函数的几种方式

在选用核函数的时候,如果我们对我们的数据有一定的先验知识,就利用先验来选择符合数据分布的核函数;如果不知道的话,通常使用交叉验证的方法,来试用不同的核函数,误差最下的即为效果最好的核函数,或者也可以将多个核函数结合起来,形成混合核函数。在吴恩达的课上,也曾经给出过一系列的选择核函数的方法: 如果特征的数量大到和样本数量差不多,则选用LR或者线性核的SVM; 如果特征的数量小,样本的数

赵娜0418

2020-05-20

33.8463 5 3
  • 关注作者
  • 收藏
<142434471>