啊啊啊啊啊吖

2018-11-06   阅读量: 808

数据分析师 机器学习 数据挖掘

开发机器学习应用程序的步骤

扫码加入数据分析学习群

开发机器学习应用程序通常遵循以下的步骤。

(1) 收集数据。我们可以使用很多方法收集样本数据,如:制作网络爬虫从网站上抽取数据、

从RSS反馈或者API中得到信息、设备发送过来的实测数据(风速、血糖等)。提取数据的方法非

常多,为了节省时间与精力,可以使用公开可用的数据源。

(2) 准备输入数据。得到数据之后,还必须确保数据格式符合要求,本书采用的格式是Python

语言的List。使用这种标准数据格式可以融合算法和数据源,方便匹配操作。本书使用Python语

言构造算法应用,不熟悉的读者可以学习附录A。

此外还需要为机器学习算法准备特定的数据格式,如某些算法要求特征值使用特定的格式,

一些算法要求目标变量和特征值是字符串类型,而另一些算法则可能要求是整数类型。后续章节

我们还要讨论这个问题,但是与收集数据的格式相比,处理特殊算法要求的格式相对简单得多。

(3) 分析输入数据。此步骤主要是人工分析以前得到的数据。为了确保前两步有效,最简单

的方法是用文本编辑器打开数据文件,查看得到的数据是否为空值。此外,还可以进一步浏览数

据,分析是否可以识别出模式;数据中是否存在明显的异常值,如某些数据点与数据集中的其他

值存在明显的差异。通过一维、二维或三维图形展示数据也是不错的方法,然而大多数时候我们

得到数据的特征值都不会低于三个,无法一次图形化展示所有特征。本书的后续章节将会介绍提

炼数据的方法,使得多维数据可以压缩到二维或三维,方便我们图形化展示数据。

这一步的主要作用是确保数据集中没有垃圾数据。如果是在产品化系统中使用机器学习算法

并且算法可以处理系统产生的数据格式,或者我们信任数据来源,可以直接跳过第3步。此步骤

需要人工干预,如果在自动化系统中还需要人工干预,显然就降低了系统的价值。

(4) 训练算法。机器学习算法从这一步才真正开始学习。根据算法的不同,第4步和第5步是

机器学习算法的核心。我们将前两步得到的格式化数据输入到算法,从中抽取知识或信息。这里

得到的知识需要存储为计算机可以处理的格式,方便后续步骤使用。

如果使用无监督学习算法,由于不存在目标变量值,故而也不需要训练算法,所有与算法相

关的内容都集中在第5步。

(5) 测试算法。这一步将实际使用第4步机器学习得到的知识信息。为了评估算法,必须测试算

法工作的效果。对于监督学习,必须已知用于评估算法的目标变量值;对于无监督学习,也必须用

其他的评测手段来检验算法的成功率。无论哪种情形,如果不满意算法的输出结果,则可以回到第

4步,改正并加以测试。问题常常会跟数据的收集和准备有关,这时你就必须跳回第1步重新开始。

(6) 使用算法。将机器学习算法转换为应用程序,执行实际任务,以检验上述步骤是否可以

在实际环境中正常工作。此时如果碰到新的数据问题,同样需要重复执行上述的步骤。

下节我们将讨论实现机器学习算法的编程语言Python。之所以选择Python,是因为它具有其

他编程语言不具备的优势,如易于理解、丰富的函数库(尤其是矩阵操作)、活跃的开发者社区等。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子