shauna570392

朴素贝叶斯算法的优缺点

素⻉叶斯的主要优点有: 1. 朴素⻉叶斯模型发源于古典数学理理论,有稳定的分类效率。 2. 对⼩规模的数据表现很好,能个处理多分类任务,适合增量式训练,尤其是数据量超出内存时,我们可以⼀批批的去增量训练。 3. 对缺失数据不太敏敏感,算法也⽐较简单,常⽤于⽂本分类。 朴素⻉叶斯的主要缺点有: 1. 理论上,朴素⻉叶斯模型与其他分类⽅法⽐具有最⼩的误差率。但是实际上并⾮总是如此,这是因为朴素⻉ 叶

shauna570392

2020-02-19

0.9994 1 5
  • 关注作者
  • 收藏

为什么要做平滑处理?

为了解决零概率问题,在计算实例概率时,如果某个量X,在观察样本库(训练集)中没有出现过,会导致整个实例的概率结果是0,所以需要做平滑处理。

shauna570392

2020-02-19

0.9994 1 1
  • 关注作者
  • 收藏

什么是非线性归一化

经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。该方法包括 log、指数,正切等。需要根据数据分布的情况,决定非线性函数的曲线,比如log(V, 2)还是log(V, 10)等。

shauna570392

2020-02-19

0.0000 0 4
  • 关注作者
  • 收藏

标准差归一化

经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为: a   其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

shauna570392

2020-02-19

0.9994 1 3
  • 关注作者
  • 收藏

什么是线性归一化

a       这种归一化方法比较适用在数值比较集中的情况,数据点没有因为特征的基本性质而产生较大差异,即确保数据处于同一数量级(同一量纲),提高不同特征数据的可比性。这种方法有个缺陷,如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代max和min。 把每个特征向量(特别是奇异样本数据)的值都缩放到相同数值范围。如[0,1]或[-

shauna570392

2020-02-19

0.9994 1 3
  • 关注作者
  • 收藏

朴素贝叶斯中的朴素二字是如何理解的?

朴素贝叶斯基于一个简单的假定:给定特征向量之间相互条件独立。 朴素体现: a 考虑到P(B1B2...Bn)对于所有类别都是一样的。而对于朴素贝叶斯的分类场景并需要准确得到某种类别的可能性,更多重点在于比较分类结果偏向那种类别的可能性更大。因此从简化度上,还可以对上述表达式进行优化。 简化公式: a 这也是朴素贝叶斯得以推广使用一个原因,一方面降低了计算的复杂度,一方面却没有很大程度上影响

shauna570392

2020-02-19

0.9994 1 3
  • 关注作者
  • 收藏

决策树参数的理解

class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None

shauna570392

2020-02-18

27.2492 1 1
  • 关注作者
  • 收藏

predict_proba函数的返回值

该函数很容易与predict函数的用法混淆        predict_proba返回的是一个 n 行 k 列的数组,第 i 行 第 j 列上的数值是模型预测 第 i 个预测样本为某个标签的概率,并且每一行的概率和为1。 举例 from sklearn.linear_model import LogisticRegression import numpy as np x_train =

shauna570392

2020-02-18

27.2492 1 3
  • 关注作者
  • 收藏

梯度下降怎样避免局部最优

1、假设函数 2、损失函数 在收敛过程中可能出现局部最小值的情况,这个时候可以通过改变不同的初始值来找到损失函数最小的值。

shauna570392

2020-02-18

27.2492 1 1
  • 关注作者
  • 收藏

特征进行标准化是否会自动排除分类型特征

分类型特征不会排除,数据会进行编码,编码后数据的显示形式会有改变,但是数据所保留的信息还是在,编码后可以进行标准化处理。

shauna570392

2020-02-18

27.2492 1 3
  • 关注作者
  • 收藏

线性回归的拟合问题

一、问题描述 对于一个服从线性回归的数据采用多项式线性回归的模型进行拟和,是否能达到更好的拟合效果。 二、解答 可以拟合,但是效果不一定好,可能会出现过拟合的情况,从而导致模型的泛化能力不好。

shauna570392

2020-02-18

27.2492 1 2
  • 关注作者
  • 收藏

多项式回归是不是不需要标准化

该模型和标准化没有特别必然的联系,标准化不是必要的,但是可以标准化,标准化后对模型的影响也不太大。

shauna570392

2020-02-18

28.2485 2 4
  • 关注作者
  • 收藏

R方公式中分母代表全部信息量还是分子代表全部信息量?

这个式子式用1减去y对回归方程的方差(未解释离差)与y的总方差的比值,y减去y尖也就是残差,是拟合方程中不能解释的部分,用1减去不能解释的部分,那么剩下的就是解释的部分,也就是说自变量解释了因变量变动的百分比的多少,那么r方的值肯定是越大越好,意味着该模型把y的变动解释得好,R方的范围是0到1。 分母方差代表全部信息量,方差越大,代表数据上的信息量越多。

shauna570392

2020-02-17

0.9994 1 3
  • 关注作者
  • 收藏

机器学习哪些算法需要做归一化处理?

机器学习为什么需要归一化? 1)归一化后加快了梯度下降求最优解的速度; 2)归一化有可能提高精度。 如下图所示, 蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大,X1区间是[0,2000],X2区间是[1,5],其所形成的等高线非常尖。当使用梯度下降法寻求最优解时,很有可能走“之字型”路线(垂直等高线走),从而导致需要迭代很多次才能收收敛; 而右图对两个原始

shauna570392

2020-02-17

0.9994 1 1
  • 关注作者
  • 收藏

Jupyter notebook打不开

一、问题描述 打开jupyter notebook 出现命令窗口但是不跳转。 二、解决方法 直接方法:将链接复制到浏览器即可打开。如果觉得每次复制粘贴麻烦,可以将链接收藏,下次打开jupyter后再点开浏览器收藏的链接。 彻底解决方法: 1、首先打开Anoconda Prompt,输入命令 jupyter notebook --generate-config,系统会自动产生一个名为jupyt

shauna570392

2020-02-14

0.9994 1 2
  • 关注作者
  • 收藏

python导入文件报错

一、问题描述 使用pandas语句导入csv表格时,显示Initializing from file failed a 二、如何解决 该情况没有导入成功可以从以下几个方面解决 1、检查路径是否错误,可以直接选择文件,shift 右键复制为路径,再粘贴。 2、使用相对路径,直接将文件放到ipynb文件的同一文件夹下,就不用填写路径了,直接写文件名就能导入。

shauna570392

2020-02-13

66.6667 1 1
  • 关注作者
  • 收藏
<1626364