登录
首页大数据时代python数据挖掘的基本流程有哪些?
python数据挖掘的基本流程有哪些?
2020-07-14
收藏

使用python对数据进行处理时,数据挖掘是极为重要的方式和阶段,目的是搜集大量数据,并从中通过算法搜索出隐藏在数据中的那些隐含的、先前未知的,并有具有潜在使用价值的信息。那么python数据挖掘的具体流程是怎样的,下面就跟小编一起来看吧。

1.定义挖掘目标

这一步骤主要是分析要python数据挖掘的目标,明确系统完成后想要达的效果,定义问题的相关范围。

首先结合具体业务,分析问题,之后明确用户需求,最后确定挖掘的方法和计划。

2.数据取样

在业务数据集中抽取和挖掘目标相关的数据样本子集。

抽取数据的标准,一是相关性,与挖掘目标密切相关;二是可靠性,质量要有所保证。三是有效性,可以先对数据进行筛选。

衡量样本数据质量的标准如下:

1)资料完整无缺,各类指标项齐全。

2)数据准确无误,反映的都是正常(而不是异常)状态下的水平。

3)数据集合部分能显现出规律性。

4)数据集合要能满足用户的需求。

3.数据探索

检验样本是否达到我们原来设想的要求,对数据进行探索,审核和必要的加工处理。

这一步骤是是为了把数据取样得到的数据进行检测的操作,从而保证样本数据的质量,从而为保证模型质量打下基础。

4.数据预处理

数据预处理是指在主要的处理以前对数据进行的一些处理操作。

采样数据中常常包含许多含有噪声、不完整,甚至不一致的数据,低质量的数据将会导致低质量的挖掘结果,因此对数据挖掘所涉及的数据对象必须进行预处理。

数据预处理主要包括:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等。

5.挖掘建模

这一步骤是python数据挖掘工作的核心环节。我们需要具体考虑,要用到那些算法进行模型构建。

6.模型评价

从这些模型中自动找出一个最好的模型,还要根据业务对模型进行解释和应用。

数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询