数据科学专业问答社区，好文章，一字千金--CDA答疑社区

朴素贝叶斯算法的优缺点

素⻉叶斯的主要优点有： 1. 朴素⻉叶斯模型发源于古典数学理理论，有稳定的分类效率。 2. 对⼩规模的数据表现很好，能个处理多分类任务，适合增量式训练，尤其是数据量超出内存时，我们可以⼀批批的去增量训练。 3. 对缺失数据不太敏敏感，算法也⽐较简单，常⽤于⽂本分类。朴素⻉叶斯的主要缺点有： 1. 理论上，朴素⻉叶斯模型与其他分类⽅法⽐具有最⼩的误差率。但是实际上并⾮总是如此，这是因为朴素⻉叶

shauna570392

2020-02-19

0.9994 1 5

为什么要做平滑处理？

为了解决零概率问题，在计算实例概率时，如果某个量X，在观察样本库（训练集）中没有出现过，会导致整个实例的概率结果是0，所以需要做平滑处理。

shauna570392

2020-02-19

0.9994 1 1

什么是非线性归一化

经常用在数据分化比较大的场景，有些数值很大，有些很小。通过一些数学函数，将原始值进行映射。该方法包括 log、指数，正切等。需要根据数据分布的情况，决定非线性函数的曲线，比如log(V, 2)还是log(V, 10)等。

shauna570392

2020-02-19

0.0000 0 4

标准差归一化

经过处理的数据符合标准正态分布，即均值为0，标准差为1，其转化函数为： a 　　其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

shauna570392

2020-02-19

0.9994 1 3

什么是线性归一化

a 这种归一化方法比较适用在数值比较集中的情况，数据点没有因为特征的基本性质而产生较大差异，即确保数据处于同一数量级（同一量纲），提高不同特征数据的可比性。这种方法有个缺陷，如果max和min不稳定，很容易使得归一化结果不稳定，使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代max和min。把每个特征向量（特别是奇异样本数据）的值都缩放到相同数值范围。如[0,1]或[-

shauna570392

2020-02-19

0.9994 1 3

朴素贝叶斯中的朴素二字是如何理解的？

朴素贝叶斯基于一个简单的假定：给定特征向量之间相互条件独立。朴素体现: a 考虑到P(B1B2...Bn)对于所有类别都是一样的。而对于朴素贝叶斯的分类场景并需要准确得到某种类别的可能性，更多重点在于比较分类结果偏向那种类别的可能性更大。因此从简化度上，还可以对上述表达式进行优化。简化公式: a 这也是朴素贝叶斯得以推广使用一个原因，一方面降低了计算的复杂度，一方面却没有很大程度上影响

shauna570392

2020-02-19

0.9994 1 3

class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None

shauna570392

2020-02-18

27.2492 1 1

predict_proba函数的返回值

该函数很容易与predict函数的用法混淆 predict_proba返回的是一个 n 行 k 列的数组，第 i 行第 j 列上的数值是模型预测第 i 个预测样本为某个标签的概率，并且每一行的概率和为1。举例 from sklearn.linear_model import LogisticRegression import numpy as np x_train =

shauna570392

2020-02-18

27.2492 1 3

梯度下降怎样避免局部最优

1、假设函数 2、损失函数在收敛过程中可能出现局部最小值的情况，这个时候可以通过改变不同的初始值来找到损失函数最小的值。

shauna570392

2020-02-18

27.2492 1 1

特征进行标准化是否会自动排除分类型特征

分类型特征不会排除，数据会进行编码，编码后数据的显示形式会有改变，但是数据所保留的信息还是在，编码后可以进行标准化处理。

shauna570392

2020-02-18

27.2492 1 3

线性回归的拟合问题

一、问题描述对于一个服从线性回归的数据采用多项式线性回归的模型进行拟和，是否能达到更好的拟合效果。二、解答可以拟合，但是效果不一定好，可能会出现过拟合的情况，从而导致模型的泛化能力不好。

shauna570392

2020-02-18

27.2492 1 2

多项式回归是不是不需要标准化

该模型和标准化没有特别必然的联系，标准化不是必要的，但是可以标准化，标准化后对模型的影响也不太大。

shauna570392

2020-02-18

28.2485 2 4

R方公式中分母代表全部信息量还是分子代表全部信息量？

这个式子式用1减去y对回归方程的方差（未解释离差）与y的总方差的比值，y减去y尖也就是残差，是拟合方程中不能解释的部分，用1减去不能解释的部分，那么剩下的就是解释的部分，也就是说自变量解释了因变量变动的百分比的多少，那么r方的值肯定是越大越好，意味着该模型把y的变动解释得好，R方的范围是0到1。分母方差代表全部信息量，方差越大，代表数据上的信息量越多。

shauna570392

2020-02-17

0.9994 1 3

机器学习哪些算法需要做归一化处理？

机器学习为什么需要归一化？ 1）归一化后加快了梯度下降求最优解的速度； 2）归一化有可能提高精度。如下图所示，蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大，X1区间是[0,2000]，X2区间是[1,5]，其所形成的等高线非常尖。当使用梯度下降法寻求最优解时，很有可能走“之字型”路线（垂直等高线走），从而导致需要迭代很多次才能收收敛；而右图对两个原始

shauna570392

2020-02-17

0.9994 1 1

Jupyter notebook打不开

一、问题描述打开jupyter notebook 出现命令窗口但是不跳转。二、解决方法直接方法：将链接复制到浏览器即可打开。如果觉得每次复制粘贴麻烦，可以将链接收藏，下次打开jupyter后再点开浏览器收藏的链接。彻底解决方法： 1、首先打开Anoconda Prompt，输入命令 jupyter notebook --generate-config，系统会自动产生一个名为jupyt

shauna570392

2020-02-14

0.9994 1 2

python导入文件报错

一、问题描述使用pandas语句导入csv表格时，显示Initializing from file failed a 二、如何解决该情况没有导入成功可以从以下几个方面解决 1、检查路径是否错误，可以直接选择文件，shift 右键复制为路径，再粘贴。 2、使用相对路径，直接将文件放到ipynb文件的同一文件夹下，就不用填写路径了，直接写文件名就能导入。

shauna570392

2020-02-13

66.6667 1 1