2018-11-16
阅读量:
735
算法里特征提取和选择
如果数据没有足够的特征,模型很可能就会欠拟合。但如果数据有太多的
特征,模型又容易过拟合。那什么是特征呢,它们又从何而来?
特征(feature) 是指提供给模型的任何输入。在最简单的情况下,特征是直接提供给你的。
如果你想基于某人的工作年限来预测其薪水,那工作年限就是你所拥有的唯一的特征。
当数据变得更复杂时, 事情变得有趣起来。设想我们尝试建立一个垃圾邮件过滤器来预测
一封邮件是否是垃圾邮件。 大多数模型不知道如何处理原始邮件,邮件就是一组文本。你
需要提取特征,比如:
• 邮件中是否包含单词“Viagra” ;
• 字母 d 出现了多少次;
• 寄件人的域名是什么。
第一个问题的特征就是简单的是或否, 可以被典型地编码为 1 或 0。第二个问题的特征是
个数字。第三个问题的特征是从一个离散的选项集中做出的选择。
多数情况下, 我们会从符合这三种特征的数据中提取特征。此外,特征的类型限制了我们
所用模型的类型。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论