啊啊啊啊啊吖

2018-11-16   阅读量: 542

数据分析师 机器学习

算法里特征提取和选择

扫码加入数据分析学习群

如果数据没有足够的特征,模型很可能就会欠拟合。但如果数据有太多的

特征,模型又容易过拟合。那什么是特征呢,它们又从何而来?

特征(feature) 是指提供给模型的任何输入。在最简单的情况下,特征是直接提供给你的。

如果你想基于某人的工作年限来预测其薪水,那工作年限就是你所拥有的唯一的特征。

当数据变得更复杂时, 事情变得有趣起来。设想我们尝试建立一个垃圾邮件过滤器来预测

一封邮件是否是垃圾邮件。 大多数模型不知道如何处理原始邮件,邮件就是一组文本。你

需要提取特征,比如:

• 邮件中是否包含单词“Viagra” ;

• 字母 d 出现了多少次;

• 寄件人的域名是什么。

第一个问题的特征就是简单的是或否, 可以被典型地编码为 1 或 0。第二个问题的特征是

个数字。第三个问题的特征是从一个离散的选项集中做出的选择。

多数情况下, 我们会从符合这三种特征的数据中提取特征。此外,特征的类型限制了我们

所用模型的类型。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子