詹惠儿

2019-01-05   阅读量: 531

数据分析师

朴素贝叶斯的用法

扫码加入数据分析学习群

中国类以一定的概率为五个术语属性(多项式)或六个二元属性(伯努利)中的每一个生成值,与其他属性的值无关。事实上,中国的一个文件包含了台北这个术语,这个事实并不会使它更可能或更不可能包含北京。

实际上,条件独立性假设不适用于文本数据。条款有条件地依赖于对方。但正如我们稍后将讨论的那样,尽管有条件独立性假设,NB模型表现良好。

即使假设条件独立,如果我们假设k文档中每个位置的概率分布不同,我们仍然有太多的多项式模型参数。文档中术语的位置本身并不包含有关该类的信息。虽然中国起诉法国和法国起诉中国之间存在差异,但在文件中第1位与第3位的中国的出现在NB分类中没有用,因为我们分别看每个术语。条件独立性假设使我们以这种方式处理证据。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 5 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子