5个步骤中的主要任务,如图:
(1)数据整理
涉及数据采集、数据合并与抽样的操作,目的是为了构造分析用到的数据。分析人员根据维度分析获得的结果作为整理数据的依据,将散落在公司内部与外部的数据进行整合。
(2)样本探索
这个步骤的主要任务是对数据质量的探索。变量质量方面涉及错误值(年龄=-30)、恰当性(客户的某些业务指标为缺失值,实际上是没有这个业务,值应该为“0”)、缺失值(没有客户的收入信息)、一致性(收入单位为人民币,而支出单位为美元)、平稳性(某些数据的均值变化过于剧烈)、重复值(相同的交易被记录两次)和及时性(银行客户的财务数据更新的滞后时长)等方面。这部分的探索主要解决变量是错误时是否可以修改、是否可以使用的问题。
(3)变量修改
根据变量探索的结论,需要对数据质量问题和变量分布情况分别作变量修改。数据质量问题的修改涉及改正错误编码、缺失值填补、单位统一等操作。变量分布情况的修改涉及函数转换和标准化方法,具体的修改方法需要与后续的统计建模方法相结合。
(4)建模
根据分析的目的选取合适的模型,这部分内容在“数据分析方法分类介绍”已经作了详细的阐述,这里不再赘述。
(5)模型检验
这里指模型的样本内验证,即使用历史数据对模型表现的优劣进行评估。比如,对有监督学习、会使用ROC曲线和提升度等技术指标评估模型的预测能力。
三个资料Q群下载不了也转发不了,先放这里Fine_tuning.zipLangChain.zipdata_clear.rar