朴素贝叶斯（Naive Bayes）和校正曲线（Calibration Curve）-CDA数据分析师官网

热线电话：13121318867

首页大数据时代朴素贝叶斯（Naive Bayes）和校正曲线（Calibration Curve）

朴素贝叶斯（Naive Bayes）和校正曲线（Calibration Curve）

2020-06-10

算法回顾

图片来源：https://medium.com/machine-learning-101/chapter-1-supervised-learning-and-naive-bayes-classification-part-1-theory-8b9e361897d5

贝叶斯分类算法属于有监督机器学习（Supervised Learning）。贝叶斯分类器是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。其中朴素贝叶斯分分类是贝叶斯分类中最简单的，也是最常见的一种分类方法。

朴素贝叶斯分类算法的核心如下公式：

P(A)：它是先验该率（Prior Probability），是A发生的概率。

P(B)：是边际可能性（Marginal Likelihood）：是B发生的概率。

P(B|A)：是可能性（likelihood），基于给定的A，B发生的概率，即已知A发生，B发生的概率。

P(A|B)：是后验概率（Posterior Probability）：基于给定的B，A发生的概率，即已知B发生，A发生的概率。

换个表达式可能理解的就会更加透彻：

以下是从Udemy上借鉴的一个例子：

假设有两个特征，分别为工资（Salary）和年龄（Age），已知有两种分类分别为：步行（Walks）和自驾（Drives），如上图所示。

当有一个新数据点进来时（如灰色点），基于给定它的特征工资和年龄，应该把它分为哪类？

其中，$P(Walks) = {10} \over {30}$，$P(Drives)={20} \over {30}$。

首先计算P(Walks|X)的概率，可以参见如下公式：

首先，需要自定义一个参考集，如下图中虚线所示。

先验概率（步行上班发生的概率）为：$P(Walks)={10} \over {40}$；
边际可能性为：$P(X)={4} \over {30}$；
可能性为：$P(X|Walks)={3} \over {10}$；
后验概率（给定特征情况下，步行上班发生的概率）为：$P(Walks|X) = {0.3 * 0.25} \over {4 \over 30} = 0.75$。

计算$P(Walks|X)$后计算$P(Drivers|X)$，通过比较两个概率的大小，来决定灰色点属于哪类（Walks 或者 Drives）。通过比较不难得出灰色点属于“步行上班”类别（此处省略计算过程）。

在机器学习中，朴素贝叶斯分类器是基于贝叶斯理论（该理论中有很强的特征间独立性假设）的一个简单“概率分类”的家族。因此，朴素贝叶斯分类算法属于概率的机器学习（probabilistic machine learning），并且可应用于很多分类的任务中。典型的应用有垃圾邮件筛选（filtering spam），分类文件（classifying documents），情绪预测（sentiment prediction）。

在scikit-learn中，一共提供三种朴素贝叶斯的方法，分别为高斯朴素贝叶斯（Gaussian Naive Bayes）、二项式朴素贝叶斯（Multinomial Naive Bayes），伯努利朴素贝叶斯（Bernoulli Naive Bayes）和补足朴素贝叶斯（Complement Naive Bayes）。官方文档中给出以高斯朴素贝叶斯为例的代码，示例如下：

>>> from sklearn.datasets import load_iris
>>> from sklearn.model_selection import train_test_split
>>> from sklearn.naive_bayes import GaussianNB
>>> X, y = load_iris(return_X_y=True)
>>> X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)
>>> gnb = GaussianNB()
>>> y_pred = gnb.fit(X_train, y_train).predict(X_test)
>>> print("Number of mislabeled points out of a total %d points : %d"
...       % (X_test.shape[0], (y_test != y_pred).sum()))
Number of mislabeled points out of a total 75 points : 4

概率校正

分类概率在一些机器模型中应用广泛，在scikit-learn中，大多数机器学习算法通过使用predict_proba函数，允许计算样本各类别的概率。这个功能对于一些情况下是极为有效的，例如，如果某一类的模型预测概率是大于欧90%的。但是，包括朴素贝叶斯等模型，它的模型预测概率与现实中的概率不尽相同。例如，函数predict_proba预测某个样本属于某类的样本概率是70%，而实际只有0.1或者0.99。尤其对于朴素贝叶斯模型而言，尽管不同目标类的预测概率有效（valid），但原始概率往往采用接仅0和1的极端值。

为了得到有意义的预测概率，需要采用模型“校正”（calibration）。在scikit-learn中，使用CalibratedClassifierCV分类，通过k折交叉验证（k-fold cross-validation）来生成“好的”校正的预测概率。在CalibratedClassifierCV中，训练集用于训练模型，测试集用于矫正模型预测概率。返回的预测概率是k-fold的均值。详见参考文章。

代码示例如下：

# 导入相关的库 
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
from sklearn.calibration import CalibratedClassifierCV 

# 载入莺尾花数据集 
iris = datasets.load_iris()
X = iris.data
y = iris.target 

# 构建朴素贝叶斯分类对象 
clf = GaussianNB() 

# 构建校正器 
clf_sigmoid = CalibratedClassifierCV(clf, cv=2, method='sigmoid') 

# 构建带有校正概率的分类器 
clf_sigmoid.fit(X, y) 

# 构建新样本 
new_observation = [[ 2.6,  2.6,  2.6,  0.4]]

# 得到矫正后的概率 
clf_sigmoid.predict_proba(new_observation)

根据Alexandru和Rich在2005年发表的题为“Predicting Good Probabilities With Supervised Learning”论文[1]中指出：对于朴素贝叶斯模型而言，对于不同校正集合的大小，Isotonic Regression的表现都优于Platt Scaling方法（在CalibratedClassifierCV中，用参数method定义）。因此，这对朴素贝叶斯模型的参数设置，可以优先考虑Isotonic Regression方法。

参考文章：

[1] Niculescu-Mizil, A., & Caruana, R. (2005, August). Predicting good probabilities with supervised learning. In Proceedings of the 22nd international conference on Machine learning (pp. 625-632).

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；