SPSS = 数据测量的类型-CDA数据分析师官网

SPSS = 数据测量的类型

2018-01-11

SPSS = 数据测量的类型

数据测量类型

查看IBM SPSS Modeler 帮助文档，解释如下：

• 默认值。具有未知存储类型和值的数据（例如，由于其尚未被读取)将显示为<默认值>。

• 连续。用于描述数字值，如范围 0 - 100 或 0.75 - 1.25。连续值可以是整数、实数或日期/时间。

• 分类。用于字符串值（可取的值的确切数量未知时）。这是一种非实例化数据类型，表示有关数据存储类型和用法的所有可用信息均未知。读取数据后，测量级别将为标志、名义或无类型，具体取决于“流属性”对话框中指定的最大名义字段数量。

• 标志。标志字段用于显示具有两个不同值的数据。

表示存在或不存在一个特性，如 true 和 false、Yes 和 No 或 0 和 1。所用值可能有所不同，但其中总会有个值代表“真”值，另一个代表“假”值。标志的存储类型数据可表示为文本、整数、实数、日期、时间或时间戳。

真。指定条件成立时字段的标志值。假。指定条件不成立时字段的标志值。

标签。为标志字段中的每个值指定标签。这些标签将按照您在“流属性”对话框中选择的选项出现在多个位置，如图形、表格、输出和模型浏览器中。

扩展：“字段选项”—“导出”设置导出为“标志”选项

Derive Flag 节点用于指明特定条件，如高血压或客户帐户停用。对于每条记录都会创建一个标志字段，当条件为真时，会在字段中添加代表真的标志值。

真值。指定针对满足以下指定条件的记录要在标志字段中包括的值。缺省值为 T。

假值。对于那些不满足以下指定条件的记录，指定其标志字段中的值。缺省值为 F。

以下情况时为真。指定某个 CLEM 条件，用于评估每条记录的某些值，并为记录赋予真值或假值（定义如上）。请注意，对于非假数字值，会将真值赋予记录。

注意：要返回空字符串，您应该输入一对引号，并且中间不包含任何内容，如 ""。例如，空字符串通常可用作假值，以使真值在表中更为明显。类似地，如果希望某个字符串值在其他情况下被视为数值，应使用引号

• 名义。用于描述具有多个不同值的数据，其中的每个值都被视为集合的一个成员，如 small/medium/large。名义数据可具有任何存储—数值、字符串或日期/时间。请注意，将测量级别设置为名义不会自动将值更改为字符串存储。
扩展：设置派生名义选项

Derive Nominal 节点用于执行一组 CLEM 条件，以确定每条记录满足的条件。当每条记录满足某个条件时，会将一个值（指示满足哪组条件）添加到新的导出字段。

缺省值。指定不满足任何条件时要使用的值。

将字段设置为。指定满足某个特定条件时要在新字段中输入的值。列表中的每个值都有一个关联条件，该条件由用户在相邻列中指定。
若此条件为真。为集合字段中要列出的每个成员指定条件。使用表达式构建器在可用的函数和字段中进行选择。可以使用箭头和删除按钮对条件进行重新排序或删除。

条件的工作原理是对数据集中特定字段的值进行检验。检验每个条件时，都会为新字段分配上述指定值，以指示满足哪个条件（如果有）。如果不满足任何条件，则会使用缺省值。

• 有序。用于描述具有顺序固定的不同值的数据。例如，工资类别或满意度排序可以归类为有序数据。顺序由数据元素的自然排列顺序定义。例如，1, 3, 5 是某个整数集合的默认排列顺序，而 HIGH, LOW, NORMAL（按字母升序）是某个字符串集合的顺序。使用有序测量级别可以将一组分类数据定义为有序数据，以进行可视化处理、模型构建以及导出到将有序数据识别为不同类型的其他应用程序（如 IBM® SPSS® Statistics）。您可以在任何能够使用名义字段的位置使用有序字段。此外，可以将任何存储类型（实数、整数、字符串、日期、时间等等）的字段定义为有序。

• 无类型。用于不属于任何上述类型的数据，具有单个值的字段，或集合的成员数超过定义的最大值的名义数据。当测量级别为包含许多成员（如帐号）的集合时，这种类型也将十分有用。当您为字段选择无类型时，角色将自动设为无，记录 ID 作为唯一的替代项。默认的集合最大容量为 250 个唯一值。可在“流属性”对话框（可通过“工具”菜单访问）的“选项”选项卡上调整或禁用该数字。

可以手动指定测量级别，也可以由软件读取数据并根据所读取的值确定其测量级别。
此外，如果有多个连续数据字段需视为类别数据，可以选择一个选项来转换它们。请参阅主题转换连续数据详细信息。

字段角色设置：
字段的角色用于指定其在模型构建过程中的用法 - 例如，字段是输入还是目标（预测的对象）。

注意：“分区”、“频率”和“记录标识”角色只能分别应用到单个字段。

可用的角色如下：

输入。字段将用作机器学习的输入（预测变量字段）。

目标。字段将用作机器学习的输出或目标（模型将尝试预测的字段之一）。

两者。字段将被 Apriori 节点同时用作输入和输出。所有其他建模节点都将忽略该字段。

无。机器学习将忽略该字段。测量级别已设置为无类型的字段将在角色列中自动设置为无。

分区。指明字段用于将数据分区为单独的样本（用于训练、测试，也可用于验证）。该字段必须属于实例化集合类型，具有两个或三个可能值（在“字段值”对话框中定义）。第一个值表示训练样本，第二个值表示测试样本，第三个值（如果存在）表示验证样本。所有其他值都将被忽略，且不能使用标志字段。请注意，要在分析中使用分区，必须在相应的模型构建或分析节点的“模型选项”选项卡中启用分区。启用分区时，会将对于分区字段具有空值的记录从分析中排除。如果已在流中定义多个分区字段，那么必须在每个相应建模节点的“字段”选项卡中指定单一分区字段。如果数据中不存在适合的字段，您可以使用“分区”节点或“派生”节点进行创建。请参阅主题分区节点，了解更多信息。

分割。（仅名义、有序和标志字段）指定为字段的每个可能值构建一个模型。

频率。（仅数字字段）设置此角色允许将字段值用作记录的频率加权因子。仅 C&R 树、CHAID、QUEST 和线性模型支持此功能；所有其他节点将忽略此角色。在支持此功能的建模节点的“字段”选项卡上，选择使用频率权重以启用频率加权。

记录标识。此字段将用作唯一记录标识。大多数节点都会忽略此特征；但它受线性模型支持，并且是 IBM Netezza 数据库内挖掘节点所必需的。

字段机器学习 Apriori 特征

数据分析咨询请扫描二维码

上一篇Excel/SPSS相关性及显著性水平分析

下一篇广告访问量平均数差异的显著性检验

SPSS = 数据测量的类型

考试指南

报考指南

热门栏目

最新资讯

政府、国央企、科研单位——中国航信-面向测试度量 ...

CDA内训丨深圳迈瑞生物医疗数据分析统计思维培训 ...

CDA数据分析师应合肥阳光新能源科技有限公司邀约开 ...

CDA走进海尔大学

苏州中行&CDA数据分析师开展数据分析师培训 ...

中国银行江苏分行-大数据应用培训

浙江农信数据建模及案例应用培训

华夏银行信用卡中心-机器学习培训

字节跳动-CDA案例实操及行业分析

长沙银行-Python集训营

数据分析在业务中的三大应用场景

AI提示词的使用方法详解及示例

CDA立足未来职场，拓展前沿视野

CDA 塑造未来职涯：构筑未来职业发展的数字基石 ...

随机森林（Random Forest）算法的优点和缺点都有哪 ...

方差分析的基本思想和原理是什么？

发现了一个好用到爆的数据分析利器

自从搞懂了回调函数，我对Python的理解上了一个台阶 ...

2020在学硕士达300万，失去学历光环的新生代何去何 ...

缓解就业焦虑的利器，证书真的越多越有保障吗？ ...