朴素贝叶斯的性质

詹惠儿

2018-11-30 阅读量: 1104

朴素贝叶斯的性质

为了减少参数的数量，我们制作朴素贝叶斯条件独立假设。我们假设属性值在给定类的情况下彼此独立：

我们这里引入了两个随机变量，使两个不同的生成模型显式化。

Xk是k文档中位置的随机变量，并从词汇表中获取值。是在课程文件中该术语将发生在位的概率。

是词汇术语的随机变量i，取值为0（缺席）和1（在场）。属于该类别的文档中的概率的术语将发生-在任何位置，并可能多次。

中国类以一定的概率为五个术语属性（多项式）或六个二元属性（伯努利）中的每一个生成值，与其他属性的值无关。事实上，中国的一个文件包含了台北这个术语，这个事实并不会使它更可能或更不可能包含北京。

实际上，条件独立性假设不适用于文本数据。条款是有条件地依赖于对方。但正如我们稍后将讨论的那样，尽管有条件独立性假设，NB模型表现良好。

即使假设条件独立，如果我们假设k文档中每个位置的概率分布不同，我们仍然有太多的多项式模型参数。文档中术语的位置本身并不包含有关该类的信息。虽然中国起诉法国和法国起诉中国之间存在差异，但在文件中第1位与第3位的中国的出现在NB分类中没有用，因为我们分别看每个术语。条件独立性假设使我们以这种方式处理证据。

0.0000

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子