詹惠儿

2018-11-30   阅读量: 552

数据分析师 机器学习 数据挖掘

连接到文本摘要来提高分类性能?

扫码加入数据分析学习群

我们之前提到了文本摘要的领域,以及该领域的大多数工作如何采用了有限的目标,即根据考虑句子位置的句子的特征来提取和组合被认为是中心的原始文本片段。内容。大部分工作可用于建议可能对文本分类特别有用的区域。考虑一种特征选择形式,您只需根据某些单词对文档进行分类区域。根据文本摘要研究,他们考虑使用(i)仅标题,(ii)仅第一段,(iii)仅标题词或关键词最多的段落,(iv)前两段或第一段和最后一段段落,或(v)所有具有最少标题词或关键词的句子。一般来说,这些位置特征选择方法与互信息产生了良好的结果,并产生了相当有竞争力的分类器。还从文本摘要研究中获取灵感,用标题中的单词或文档内容的核心单词来增加句子,从而使分类准确率提高近1%。这可能是有效的,因为大多数这样的句子在某种程度上对文件的关注更为重要。

练习。

  • 垃圾邮件通常会利用各种隐藏技术来尝试通过。一种方法是填充或替换字符以便击败基于单词的文本分类器。例如,您在垃圾邮件中看到如下字词:


讨论如何设计可能在很大程度上违背此策略的功能。

  • 电子邮件垃圾邮件提供者经常使用的另一种策略是使用来自另一个无害来源(例如新闻文章)的一段文本来跟踪他们希望发送的消息(例如购买廉价股票或其他什么)。为什么这种策略有效?如何通过文本分类器解决?
  • 还有哪些其他类型的功能似乎在电子邮件垃圾邮件分类器中有用?
添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 1 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子