热线电话:13121318867

登录
2018-11-16 阅读量: 735
算法里特征提取和选择

如果数据没有足够的特征,模型很可能就会欠拟合。但如果数据有太多的

特征,模型又容易过拟合。那什么是特征呢,它们又从何而来?

特征(feature) 是指提供给模型的任何输入。在最简单的情况下,特征是直接提供给你的。

如果你想基于某人的工作年限来预测其薪水,那工作年限就是你所拥有的唯一的特征。

当数据变得更复杂时, 事情变得有趣起来。设想我们尝试建立一个垃圾邮件过滤器来预测

一封邮件是否是垃圾邮件。 大多数模型不知道如何处理原始邮件,邮件就是一组文本。你

需要提取特征,比如:

• 邮件中是否包含单词“Viagra” ;

• 字母 d 出现了多少次;

• 寄件人的域名是什么。

第一个问题的特征就是简单的是或否, 可以被典型地编码为 1 或 0。第二个问题的特征是

个数字。第三个问题的特征是从一个离散的选项集中做出的选择。

多数情况下, 我们会从符合这三种特征的数据中提取特征。此外,特征的类型限制了我们

所用模型的类型。

0.0000
0
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子