1、当没有按照默认设置安装Anaconda3时(比如安装目录在C盘的时候),需要自己设置环境变量。如果默认添加到C盘,一般添加以下环境变量即可 C:\Anaconda\ Python需要 C:\Anaconda\Scripts Anaconda 自带脚本(conda、jupyter notebook、ipython) C:\Anaconda\Library\bi
赵娜0418
2020-05-26
安装Anaconda 3.7版本后,在使用jupyter notebook时,每次都无法自动跳转到浏览器,需要手动去浏览器输入网址才可以,很麻烦。遇到这样的问题之后,可以尝试以下方法解决。 一、在开始选项卡下找到Anaconda的文件夹,找到并打开Anaconda Prompt或Anaconda Powershell Prompt,执行jupyter notebook --generate-co
赵娜0418
2020-05-26
计算AUC的两种方式 1、什么是AUC? ●AUC是ROC曲线下方的面积 ●取值一般为0.5-1,越大表明分类性能越好! 4.2 直接使用封装好的API 代码: from sklearn import metrics scores = lr.predict_proba(X_test)[:,1] metrics.roc_auc_score(y_test, scores) # y_test真实标签 s
赵娜0418
2020-05-24
其基本思想是将原始数据(dataset)进行分组,一部分做为训练集来训练模型,另一部分做为测试集来评价模型。 交叉验证是一种模型选择的方法!(引自李航统计学习方法)可以分为以下三种: 1、简单交叉验证。即将数据按照一定比例 比如73开,分为训练集和测试集。 2、S折交叉验证。将已给数据切分为S个互不相交、大小相同的子集,将S-1个子集的数据作为训练集来训练模型,剩余的一个测试模型,重复S次,选择
赵娜0418
2020-05-24
梯度下降法大家族(BGD,SGD,MBGD) 1、批量梯度下降法(Batch Gradient Descent) 批量梯度下降法,是梯度下降法最常用的形式,具体做法也就是在更新参数时使用所有的样本来进行更新,这个方法对应于前面3.3.1的线性回归的梯度下降算法,也就是说3.3.1的梯度下降算法就是批量梯度下降法。 θi=θi−α∑j=0m(hθ(x(j)0,x(j)1,...x(j)n)−
赵娜0418
2020-05-24
对于最小二乘法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小。而对于最大似然法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。显然,这是从不同原理出发的两种参数估计方法。 在最大似然法中,通过选择参数,使已知数据在某种意义下最有可能出现,而某种意义通常指似然
赵娜0418
2020-05-24
我们平时用的sum应该是默认的axis=0 就是普通的相加: 当axis=0,就是将一个矩阵的每一列向量相加; 当axis=1,就是将一个矩阵的每一行向量相加, 需要注意的是,对一维数组,只有第0轴,没有第1轴。
赵娜0418
2020-05-24
PCA和LDA都是经典的降维算法。PCA是无监督的,也就是训练样本不需要标签;LDA是有监督的,也就是训练样本需要标签。PCA是去除掉原始数据中冗余的维度,而LDA是寻找一个维度,使得原始数据在该维度上投影后不同类别的数据尽可能分离开来。
PCA
PCA是一种正交投影,它的思想是使得原始数据在投影子空间的各个维度的方差最大。假设我们要将N维的数据投影到M维的空间上(M 赵娜0418 2020-05-23
在机器学习领域中,不同评价指标(即特征向量中的不同特征就是所述的不同评价指标)往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。其中,最典型的就是数据的归一化处理。 简而言之,归一化的目的就是使得预处理的数据被限定在一定的范围内(
赵娜0418
2020-05-23
混淆矩阵是ROC曲线绘制的基础,同时它也是衡量分类型模型准确度中最基本,最直观,计算最简单的方法。混淆矩阵是评判模型结果的指标,属于模型评估的一部分。此外,混淆矩阵多用于判断分类器(Classifier)的优劣,适用于分类型的数据模型,如分类树(Classification Tree)、逻辑回归(Logistic Regression)、线性判别分析(Linear Discriminant Ana
赵娜0418
2020-05-23
可将单个数据集拆分为一个训练集和一个测试集。 训练集 - 用于训练模型的子集。 测试集 - 用于测试训练后模型的子集。 训练集的规模越大,模型的学习效果越好。 测试集规模越大,对于评估指标的信心越充足,置信区间就越窄。 在创建一个能够很好地泛化到新数据模型的过程中,测试集充当了新数据的代理。 拆分数据的一些注意事项: 两个数据集必须相互独立。 确保先进行随机化,再拆分数据。 如果数据集规
赵娜0418
2020-05-23
偏差是由于模型的复杂度不够或者对学习算法做了错误的假设;比如真实模型为三次函数,而拟合出来的为二次函数,会导致偏差激增,属于欠拟合现象。所以训练误差主要是偏差造成的。 而方差通常是模型复杂度过高导致的;比如真实模型是二次函数,而拟合出来的是五次函数,会导致过拟合,方差增大。由方差引起的误差通常体现在测试误差相对训练误差的变化上。
赵娜0418
2020-05-23
概念 1、监督学习(数据集有输入和输出数据):通过已有的一部分输入数据与输出数据之间的相应关系。生成一个函数,将输入映射到合适的输出,比如分类。 2、无监督学习(数据集中只有输入):直接对输入数据集进行建模,比如聚类。 3、半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数。 类别 1、监督学习分为分类(classification)和回归(regression)。最广泛
赵娜0418
2020-05-23
以周志华老师在《机器学习》中判断好瓜的问题为例——给你一个西瓜,如何判断出一个它是不是正熟的好瓜?对于人类来说,根据以前的经验,我们首先会从西瓜这个具体的事物中抽取一些有用的信息,比如西瓜的颜色、瓜蒂的形状、敲击的声音等,然后根据一定的规则在这些信息的基础上进行判断————一般情况下我们认为颜色青绿、根蒂蜷缩、敲击浊响的西瓜是好瓜。 上述问题中,西瓜的颜色、瓜蒂的形状、敲击的声音就是特
赵娜0418
2020-05-23
Python pass 是空语句,是为了保持程序结构的完整性。 pass 不做任何事情,一般用做占位语句。 测试实例: #!/usr/bin/python # -*- coding: UTF-8 -*- # 输出 Python 的每个字母 for letter in 'Python': if letter == 'h': pass print '这是 pa
赵娜0418
2020-05-22
why:用户购买的目的是什么?产品在哪方面吸引客户? What:公司提供什么产品和服务?与用户需求是否一致? Who:谁是我们的用户?用户有什么特点? When:何时购买?多久再次购买? Where:用户在哪儿购买?用户地区构成如何? How:用户购买支付方式是怎样? How much:用户购买花费时间,各项成本是多少?
赵娜0418
2020-05-22
cumsum函数定义: cumsum(a, axis=None, dtype=None, out=None) a.cumsum(axis=None, dtype=None, out=None) *****返回:这个函数的功能是返回给定axis上的累计和。沿着指定轴的元素累加和所组成的数组,其形状应与输入数组a一致。 *****其中cumsum函数的参数: a:数组 axis:轴索引,整
赵娜0418
2020-05-22
缩小图像(或称为下采样(subsampled)或降采样(downsampled))的主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图。放大图像(或称为上采样(upsampling)或图像插值(interpolating))的主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。对图像的缩放操作并不能带来更多关于该图像的信息, 因此图像的质量将不可避免地受到影响。然而,
赵娜0418
2020-05-21
在pandas库里面,我们常常关心的是最大的前几个,比如销售最好的几个产品,几个店,等。之前讲到的head(), 能够看到看到DF里面的前几行,如果需要看到最大或者最小的几行就需要先进行排序。max()和min()可以看到最大或者最小值,但是只能看到一个值。 所以我们可以使用nlargest()函数,nlargest()的优点就是能一次看到最大的几行,而且不需要排序。缺点就是只能看到最大的,
赵娜0418
2020-05-20
在选用核函数的时候,如果我们对我们的数据有一定的先验知识,就利用先验来选择符合数据分布的核函数;如果不知道的话,通常使用交叉验证的方法,来试用不同的核函数,误差最下的即为效果最好的核函数,或者也可以将多个核函数结合起来,形成混合核函数。在吴恩达的课上,也曾经给出过一系列的选择核函数的方法: 如果特征的数量大到和样本数量差不多,则选用LR或者线性核的SVM; 如果特征的数量小,样本的数
赵娜0418
2020-05-20