登录
首页精彩阅读如何将连续变量创建为分类变量
如何将连续变量创建为分类变量
2017-05-10
收藏

如何将连续变量创建为变量

要创建分类变量inccat:

数据编辑器窗口的菜单中选择:

转换> 可视离散化...

在初始的“可视离散化”对话框中,选择要为其创建新的离散化变量的刻度变量和/或 有序变量。离散化是指取两个或多个连续值并将其分组为同一类别。 由于可视离散化依赖于数据文件中的实际值以帮助您做出良好的离散化选择,因 而其需要先读取数据文件。如果您的数据文件包含大量个案,则完成此过程将需要一 段时间,因此,这一初始对话框还允许您限制要读取(“扫描”)的个案数。我们 的样本数据文件不需要此限制。尽管此数据文件包含6,000 多个案,但扫描这些 个案不需要太长时间。

将Household income in thousands [income] 从“变量”列表中拖放到“要离散的变量”列表中,然后单击继续。

在“可视离散化”主对话框中,选择“已扫描的变量列表”中的Household income in

thousands [income]。直方图显示了所选变量的分布(在此例中,分布严重偏斜)。

输入inccat2 作为新的离散化变量名称,输入Income category [in thousands] 作

为变量标签。

单击生成分割点。

选择等宽度间隔。

输入25 作为第一个分割点的位置,输入3 作为分割点数量,并输入25 作为宽度。离散化类别的数量比分割点数量多一个。因此在本示例中,新的离散化变量将具有四个类别,其中前三个类别中每个包含的范围为25(千),最后一个类别包含最高割点值75(千)以上的所有值。

单击应用。

网格中当前显示的值表示所定义的分割点,这些分割点是每个类别的上端点。直方图中的垂直线还指示了各分割点的位置。

默认情况下,这些分割点值将包含在相应的类别中。例如,第一个值25 将包含所有小于或等于25 的值。但在本示例中,我们希望这些类别对应于小于25、25–49、50–74 以及75 或更高。

在上端点组中,选择排除(<)。

然后单击生成标签。

这将自动为每个类别生成描述性值标签。由于为新的离散化变量指定的实际值只是从1开始的连续整数,因此这些值标签可能非常有用。还可以在网格中手动输入或更改分割点和标签,通过在直方图中拖放分割点线来更改分割点位置以及通过将分割点线拖出直方图来删除分割点。数据分析师培训

单击确定以创建新的离散化变量。

新变量将显示在数据编辑器中。由于该变量将添加到文件的末尾,因此显示在数据视图的最右侧一列,变量视图的最后一行中。


数据分析咨询请扫描二维码

客服在线
立即咨询