2020-06-28
阅读量:
998
朴素贝叶斯总结
对于类别P(x)来说, 朴素贝叶斯的判定准则为:
根据大数定律, 当训练集包含充足的独立分布样本,P(c) 可通过各类样本出现的频率估计 P(c) = |D(c)| / |D|, 所以问题关键为如何求出条件概率P(x|c),根据数据集的种类(离散,连续), 使用场景, 朴素贝叶斯可分为三类:
(1) 高斯贝叶斯
高斯贝叶斯要求数据集是连续性且符合正态分布,则条件概率P(x|c) 可由正态分布密度函数求得:
其中, 均值与方差可由极大似然估计求得;
(2) 多项式贝叶斯
多项式贝叶斯偏向于数据集为离散型变量,常用于文字分类; 为了防止训练集样本不充分而导致概率估值为0 的问题,引入拉普拉斯修正(Laplacian correction),计算条件概率的公式为:
(3) 伯努利贝叶斯
伯努利贝叶斯应用于数据集为离散型且满足伯努利分布(可能有很多特征,但每一个都被假设为0/1),计算条件概率的公式为:
在文本识别应用中,在一些小的文件中,伯努利贝叶斯表现可能更好.






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论