登录
首页精彩阅读注意这两点,你的数据挖掘工作成功率翻一番
注意这两点,你的数据挖掘工作成功率翻一番
2019-04-23
收藏

我们在进行数据挖掘工作的时候,我们需要使用一些模型,而模型中还需要对数据类型进行处理,我们一定要重视模型的使用,这样我们的数据挖掘模型的成功率就能够大增。我们在这篇文章中给大家介绍一下预测模型,同时也给大家介绍一下数据挖掘中使用的内容类型。

1.预测模型

在预测模型中,所有预测工具都要求我们预测连续数值。无法预测已保存为文本的数字。如果数据包含数据类型错误的数字列,可以使用Excel函数创建数字数据类型正确的列的副本。如果执行此操作,请务必删除包含文本数字的列的副本,以便值不会重复。当然,如果要创建回归模型的散点图,则输入变量也必须是连续数字。这样我们可以根据使用内容类型生成更好的模型。所谓“内容类型”是应用于列的属性,用来指定模型使用列数据的方式。执行分析时,算法可以使用内容类型作为说明或提示。如果使用在此外接程序中提供的向导和工具,则不必担心内容类型。但是,如果使用将模型添加到结构建模选项将新模型添加到现有数据,则可能会得到与内容类型相关的错误。

得到错误的原因我们就必须清楚导致错误的原因是,某些类型的模型要求某种类型的数据。这些工具根据特定要求处理这些列,并且还添加内容类型属性。因此,如果对完全不同的算法重复使用数据,则可能需要更改数据类型或内容类型。

2.数据挖掘中内容类型

我们现在给大家介绍一下数据挖掘中使用的内容类型,数据挖掘中使用的内容类型有离散、键、键序列、键时间。首先说一下离散,该列包含各值之间没有连续体的有限数量的值。例如,性别列是一个典型的离散属性列,这是因为该数据表示特定数量的类别。然后我们给大家说一下键,该列唯一标识某一行。通常,键列是数值或文本标识符,不应该用于分析,只应用于跟踪记录。时序键和序列键是例外。接着说一下键序列,该列包含表示事件序列的值。这些值是有序值,但不必按等差排列。键时间就是该列包含按顺序排列并表示时间刻度的值。仅当模型为时序模型或顺序分析和聚类分析模型时才能使用键时间内容类型。

数据挖掘工作中我们需要重视的有预测模型的内容以及数据挖掘中使用的内容类型,大家在做数据挖掘工作的时候切莫忽视这两个细节,只有这样我们才能够处理好当下的工作。

数据分析咨询请扫描二维码

客服在线
立即咨询