zxq997

2018-11-14   阅读量: 970

数据分析师 SAS

SEMMA方法

扫码加入数据分析学习群

5个步骤中的主要任务,如图:

(1)数据整理

涉及数据采集、数据合并与抽样的操作,目的是为了构造分析用到的数据。分析人员根据维度分析获得的结果作为整理数据的依据,将散落在公司内部与外部的数据进行整合。

(2)样本探索

这个步骤的主要任务是对数据质量的探索。变量质量方面涉及错误值(年龄=-30)、恰当性(客户的某些业务指标为缺失值,实际上是没有这个业务,值应该为“0”)、缺失值(没有客户的收入信息)、一致性(收入单位为人民币,而支出单位为美元)、平稳性(某些数据的均值变化过于剧烈)、重复值(相同的交易被记录两次)和及时性(银行客户的财务数据更新的滞后时长)等方面。这部分的探索主要解决变量是错误时是否可以修改、是否可以使用的问题。

(3)变量修改

根据变量探索的结论,需要对数据质量问题和变量分布情况分别作变量修改。数据质量问题的修改涉及改正错误编码、缺失值填补、单位统一等操作。变量分布情况的修改涉及函数转换和标准化方法,具体的修改方法需要与后续的统计建模方法相结合。

(4)建模

根据分析的目的选取合适的模型,这部分内容在“数据分析方法分类介绍”已经作了详细的阐述,这里不再赘述。

(5)模型检验

这里指模型的样本内验证,即使用历史数据对模型表现的优劣进行评估。比如,对有监督学习、会使用ROC曲线和提升度等技术指标评估模型的预测能力。

0.1790 1 3 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子