詹惠儿

2018-11-30   阅读量: 713

数据分析师 数据挖掘 机器学习

怎么提高文本分类器的性能?

扫码加入数据分析学习群

1. 增加文档区域。

在文本分类问题中,通过差异加权来自不同文档区域的贡献,您可以经常获得有效提升效率。通常,增加标题词是特别有效的。根据经验,在文本分类问题中将标题词的权重加倍通常是有效的。您还可以从文本中没有明确定义区域的文本中增加单词来获取价值,但是文档结构或内容中的证据表明它们很重要。建议您也可以通过增加(新闻专线)文档的第一句话来获得价值(在临时检索环境中)。

2. 文档区域的单独功能空间。

有两种策略可用于文档区域。上面我们加权出现在某些区域中的单词。这意味着我们使用相同的功能(即参数是跨越不同的区域),但我们更加关注特定区域中术语的出现。另一种策略是为不同区域中出现的单词提供一组完全独立的特征和相应的参数。这原则上更有力:一句话通常可以表明中东在标题中的主题,但商品在文件正文中。但是,在实践中,绑定参数通常更成功。具有单独的特征集意味着具有两倍或更多倍的参数,其中许多将在训练数据中更加稀疏地看到,因此具有更差的估计,而增重没有这种类型的不良影响。而且,当出现在不同的区域时,词语具有不同的偏好是很常见的;主要是他们投票的力度应该调整。然而,最终这是一个偶然的结果,取决于训练数据的性质和数量。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 3 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子