热线电话:13121318867

登录
2020-06-28 阅读量: 998
朴素贝叶斯总结

对于类别P(x)来说, 朴素贝叶斯的判定准则为:

image.png

根据大数定律, 当训练集包含充足的独立分布样本,P(c) 可通过各类样本出现的频率估计 P(c) = |D(c)| / |D|, 所以问题关键为如何求出条件概率P(x|c),根据数据集的种类(离散,连续), 使用场景, 朴素贝叶斯可分为三类:

(1) 高斯贝叶斯

高斯贝叶斯要求数据集是连续性且符合正态分布,则条件概率P(x|c) 可由正态分布密度函数求得:

image.png

其中, 均值与方差可由极大似然估计求得;

(2) 多项式贝叶斯

多项式贝叶斯偏向于数据集为离散型变量,常用于文字分类; 为了防止训练集样本不充分而导致概率估值为0 的问题,引入拉普拉斯修正(Laplacian correction),计算条件概率的公式为:

image.png

(3) 伯努利贝叶斯

伯努利贝叶斯应用于数据集为离散型且满足伯努利分布(可能有很多特征,但每一个都被假设为0/1),计算条件概率的公式为:

image.png

在文本识别应用中,在一些小的文件中,伯努利贝叶斯表现可能更好.


19.1182
1
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子