朴素贝叶斯算法的优缺点是什么？如何实现？-CDA数据分析师官网

热线电话：13121318867

首页大数据时代朴素贝叶斯算法的优缺点是什么？如何实现？

朴素贝叶斯算法的优缺点是什么？如何实现？

2020-07-24

在文本分类，垃圾邮件过滤的场景中，我们经常会用到的是朴素贝叶斯算法，今天小编就具体给大家介绍一下朴素贝叶斯算法

一、朴素贝叶斯算法简介

1.朴素贝叶斯算法概念

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。

2.朴素贝叶斯算法优缺点

优点：

(1)朴素贝叶斯模型发源于古典数学理论，分类效率比较稳定。

(2)对小规模的数据表现很好，能够用于多分类任务的处理，适合增量式训练，尤其是在数据量超出内存的情况下，能够一批批的去增量训练。

(3)算法简单，对缺失数据不太敏感。

缺点：

(1)理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间是相互独立的，而这个假设在实际应用中往往并不成立的。虽然在属性相关性较小时，朴素贝叶斯性能良好。但是，在属性个数比较多或者属性之间相关性较大时，分类效果并不好。

(2)需要知道先验概率，并且先验概率在很多时候多是取决于假设，假设的模型可以有多种，从而导致在某些时候会由于假设的先验模型而使得预测效果不佳。

(3)因为是通过先验和数据来决定后验的概率来决定分类的，所以分类决策存在一定的错误率。

(4)对输入数据的表达形式很敏感。

二、贝叶斯定理

既然，朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。那么接下来我们就来了解一下贝叶斯定理。

贝叶斯算法是英国数学家贝叶斯(约1701-1761)Thomas Bayes，生前提出为解决“逆概”问题而提出的。

条件概率就是事件 A 在另外一个事件 B 已经发生条件下的发生概率。条件概率表示为P(A|B)，读作“在 B 发生的条件下 A 发生的概率”。

联合概率表示两个事件共同发生(数学概念上的交集)的概率。A 与 B 的联合概率表示为

推导：

从条件概率的定义推导出贝叶斯定理。

根据条件概率的定义，在事件 B 发生的条件下事件 A 发生的概率为：

同样道理，在事件 A 发生的条件下事件 B 发生的概率为：

结合这两个方程式，能够得到：

这个引理有时称作概率乘法规则。上式两边同除以 P(A)，若P(A)是非零的，就能得到贝叶斯定理:

三、python实现文本分类

# 文本分类器
import numpy as np


# 数据样本
def loadDataSet():
    # dataset = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
    #     #            ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
    #     #            ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'hime'],
    #     #            ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
    #     #            ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
    #     #            ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    dataset = [['玩', '游', '戏', '吧'],
               ['玩', 'lol', '吧'],
               ['我', '要', '学', '习'],
               ['学', '习', '使', '我', '快', '了'],
               ['学', '习', '万', '岁'],
               ['我', '要', '玩', '耍']]
    label = [1, 1, 0, 0, 0, 1]
    return dataset, label


# 获取文档中出现的不重复词表
def createVocabList(dataset):
    vocaset = set([])  # 用集合结构得到不重复词表
    for document in dataset:
        vocaset = vocaset | set(document)  # 两个集合的并集
    return list(vocaset)


def setword(listvocaset, inputSet):
    newVocaset = [0] * len(listvocaset)
    for data in inputSet:
        if data in listvocaset:
            newVocaset[listvocaset.index(data)] = 1  # 如果文档中的单词在列表中，则列表对应索引元素变为1
    return newVocaset


def train(listnewVocaset, label):
    label = np.array(label)
    numDocument = len(listnewVocaset)  # 样本总数
    numWord = len(listnewVocaset[0])  # 词表的大小
    pInsult = np.sum(label) / float(numDocument)
    p0num = np.ones(numWord)  # 非侮辱词汇
    p1num = np.ones(numWord)  # 侮辱词汇
    p0Denom = 2.0  # 拉普拉斯平滑
    p1Denom = 2.0
    for i in range(numDocument):
        if label[i] == 1:
            p1num += listnewVocaset[i]
            p1Denom += 1
        else:
            p0num += listnewVocaset[i]
            p0Denom += 1
        # 取对数是为了防止因为小数连乘而造成向下溢出
        p0 = np.log(p0num / p0Denom)  # 属于非侮辱性文档的概率
        p1 = np.log(p1num / p1Denom)  # 属于侮辱性文档的概率
    return p0, p1, pInsult


# 分类函数
def classiyyNB(Inputdata, p0, p1, pInsult):
    # 因为取对数，因此连乘操作就变成了连续相加
    p0vec = np.sum(Inputdata * p0) + np.log(pInsult)
    p1vec = np.sum(Inputdata * p1) + np.log(1.0 - pInsult)
    if p0vec > p1vec:
        return 0
    else:
        return 1


def testingNB():
    dataset, label = loadDataSet()
    voast = createVocabList(dataset)
    listnewVocaset = []
    for listvocaset in dataset:
        listnewVocaset.append(setword(voast, listvocaset))
    p0, p1, pInsult = train(listnewVocaset, label)
    Inputdata = ['玩', '一', '玩']
    Inputdata = np.array(Inputdata)
    Inputdata = setword(voast, Inputdata)
    print("这句话对应的分类是：")
    print(classiyyNB(Inputdata, p0, p1, pInsult))


testingNB()

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；