朴素贝叶斯算法的优缺点是什么？如何实现？-CDA数据分析师官网

朴素贝叶斯算法的优缺点是什么？如何实现？

2020-07-24

在文本分类，垃圾邮件过滤的场景中，我们经常会用到的是朴素贝叶斯算法，今天小编就具体给大家介绍一下朴素贝叶斯算法

一、朴素贝叶斯算法简介

1.朴素贝叶斯算法概念

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。

2.朴素贝叶斯算法优缺点

优点：

(1)朴素贝叶斯模型发源于古典数学理论，分类效率比较稳定。

(2)对小规模的数据表现很好，能够用于多分类任务的处理，适合增量式训练，尤其是在数据量超出内存的情况下，能够一批批的去增量训练。

(3)算法简单，对缺失数据不太敏感。

缺点：

(1)理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间是相互独立的，而这个假设在实际应用中往往并不成立的。虽然在属性相关性较小时，朴素贝叶斯性能良好。但是，在属性个数比较多或者属性之间相关性较大时，分类效果并不好。

(2)需要知道先验概率，并且先验概率在很多时候多是取决于假设，假设的模型可以有多种，从而导致在某些时候会由于假设的先验模型而使得预测效果不佳。

(3)因为是通过先验和数据来决定后验的概率来决定分类的，所以分类决策存在一定的错误率。

(4)对输入数据的表达形式很敏感。

二、贝叶斯定理

既然，朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。那么接下来我们就来了解一下贝叶斯定理。

贝叶斯算法是英国数学家贝叶斯(约1701-1761)Thomas Bayes，生前提出为解决“逆概”问题而提出的。

条件概率就是事件 A 在另外一个事件 B 已经发生条件下的发生概率。条件概率表示为P(A|B)，读作“在 B 发生的条件下 A 发生的概率”。

联合概率表示两个事件共同发生(数学概念上的交集)的概率。A 与 B 的联合概率表示为

推导：

从条件概率的定义推导出贝叶斯定理。

根据条件概率的定义，在事件 B 发生的条件下事件 A 发生的概率为：

同样道理，在事件 A 发生的条件下事件 B 发生的概率为：

结合这两个方程式，能够得到：

这个引理有时称作概率乘法规则。上式两边同除以 P(A)，若P(A)是非零的，就能得到贝叶斯定理:

三、python实现文本分类

# 文本分类器
import numpy as np


# 数据样本
def loadDataSet():
    # dataset = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
    #     #            ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
    #     #            ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'hime'],
    #     #            ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
    #     #            ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
    #     #            ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    dataset = [['玩', '游', '戏', '吧'],
               ['玩', 'lol', '吧'],
               ['我', '要', '学', '习'],
               ['学', '习', '使', '我', '快', '了'],
               ['学', '习', '万', '岁'],
               ['我', '要', '玩', '耍']]
    label = [1, 1, 0, 0, 0, 1]
    return dataset, label


# 获取文档中出现的不重复词表
def createVocabList(dataset):
    vocaset = set([])  # 用集合结构得到不重复词表
    for document in dataset:
        vocaset = vocaset | set(document)  # 两个集合的并集
    return list(vocaset)


def setword(listvocaset, inputSet):
    newVocaset = [0] * len(listvocaset)
    for data in inputSet:
        if data in listvocaset:
            newVocaset[listvocaset.index(data)] = 1  # 如果文档中的单词在列表中，则列表对应索引元素变为1
    return newVocaset


def train(listnewVocaset, label):
    label = np.array(label)
    numDocument = len(listnewVocaset)  # 样本总数
    numWord = len(listnewVocaset[0])  # 词表的大小
    pInsult = np.sum(label) / float(numDocument)
    p0num = np.ones(numWord)  # 非侮辱词汇
    p1num = np.ones(numWord)  # 侮辱词汇
    p0Denom = 2.0  # 拉普拉斯平滑
    p1Denom = 2.0
    for i in range(numDocument):
        if label[i] == 1:
            p1num += listnewVocaset[i]
            p1Denom += 1
        else:
            p0num += listnewVocaset[i]
            p0Denom += 1
        # 取对数是为了防止因为小数连乘而造成向下溢出
        p0 = np.log(p0num / p0Denom)  # 属于非侮辱性文档的概率
        p1 = np.log(p1num / p1Denom)  # 属于侮辱性文档的概率
    return p0, p1, pInsult


# 分类函数
def classiyyNB(Inputdata, p0, p1, pInsult):
    # 因为取对数，因此连乘操作就变成了连续相加
    p0vec = np.sum(Inputdata * p0) + np.log(pInsult)
    p1vec = np.sum(Inputdata * p1) + np.log(1.0 - pInsult)
    if p0vec > p1vec:
        return 0
    else:
        return 1


def testingNB():
    dataset, label = loadDataSet()
    voast = createVocabList(dataset)
    listnewVocaset = []
    for listvocaset in dataset:
        listnewVocaset.append(setword(voast, listvocaset))
    p0, p1, pInsult = train(listnewVocaset, label)
    Inputdata = ['玩', '一', '玩']
    Inputdata = np.array(Inputdata)
    Inputdata = setword(voast, Inputdata)
    print("这句话对应的分类是：")
    print(classiyyNB(Inputdata, p0, p1, pInsult))


testingNB()

朴素贝叶斯文本分类特征先验概率 numpy python

数据分析咨询请扫描二维码

上一篇一文带你快速了解机器学习中的多元线性回归到底是什么？

下一篇数据清洗之python实现缺失值处理

朴素贝叶斯算法的优缺点是什么？如何实现？

考试指南

报考指南

热门栏目

最新资讯

政府、国央企、科研单位——中国航信-面向测试度量 ...

CDA内训丨深圳迈瑞生物医疗数据分析统计思维培训 ...

CDA数据分析师应合肥阳光新能源科技有限公司邀约开 ...

CDA走进海尔大学

苏州中行&CDA数据分析师开展数据分析师培训 ...

中国银行江苏分行-大数据应用培训

浙江农信数据建模及案例应用培训

华夏银行信用卡中心-机器学习培训

字节跳动-CDA案例实操及行业分析

长沙银行-Python集训营

数据分析在业务中的三大应用场景

AI提示词的使用方法详解及示例

CDA立足未来职场，拓展前沿视野

CDA 塑造未来职涯：构筑未来职业发展的数字基石 ...

随机森林（Random Forest）算法的优点和缺点都有哪 ...

方差分析的基本思想和原理是什么？

发现了一个好用到爆的数据分析利器

自从搞懂了回调函数，我对Python的理解上了一个台阶 ...

2020在学硕士达300万，失去学历光环的新生代何去何 ...

缓解就业焦虑的利器，证书真的越多越有保障吗？ ...