
SPSS分类分析:最近邻元素分析
一、最近邻元素分析(分析-分类-最近邻元素)
1、概念:根据个案间的相似性来对个案进行分类。类似个案相互靠近,而不同个案相互远离。因此,通过两个个案之间的距离可以测量他们的相似性。相互靠近的个案称为“邻元素。”当出现新个案(保持)时,将计算它与模型中每个个案之间的距离。计算得出最相似个案–最近邻元素–的分类,并将新个案放入包含最多最近邻元素的类别中。
2、变量:(分析-分类-最近邻元素-变量)
◎目标(可选)。如果未指定目标(因变量或响应),则过程仅查找k个最近邻元素–而不会执行任何分类或预测。◎标准化刻度特征。标准化特征具有相同的值范围,这可改进估计算法的性能。使用经调整后的标准化[2*(x min)/(max min)] 1。调整后的标准化值介于1和1之间。◎焦点个案标识(可选)。这可以标记感兴趣的个案。例如,研究员希望确定学区的测验分数–焦点个案–是否与类似学区的测验分数相当。他使用最近邻元素分析来查找在给定特征组方面最相似的学区。然后,他将焦点学区的测验分数与最近邻学区的分数进行比较。◎个案标签(可选)。在特征空间图表、对等图表和象限图中使用这些值来标记个案。
3、相邻元素:(分析-分类-最近邻元素-相邻元素)
1)最近邻元素的数目(k)。指定最近邻元素的数目。注意,使用大量的邻元素不一定会得到更准确的模型。2)距离计算。该度规用于指定在测量个案相似性中使用的距离度规。◎Euclidean度规。两个个案x和y之间的距离,为个案值之间的平方差在所有维度上之和的平方根。◎城市街区度规。两个个案之间的距离是个案值之间绝对差在所有维度上之和。又称为Manhattan距离。
如果在“变量”选项卡中指定了目标,使用“特征”选项卡可以为特征选择请求或指定选项。默认情况下,特征选择会考虑所有特征,但可以选择特征子集以强制纳入模型。
中止准则。在每一步上,如果添加特征可以使误差最小(计算为分类目标的误差率和刻度目标的平方和误差),则考虑将其纳入模型中。继续向前选择,直到满足指定的条件。◎指定的特征数目。除了那些强制纳入模型的特征外,算法还会添加固定数目的特征。指定一个正整数。减少所选择的数目值可以创建更简约的模型,但存在缺失重要特征的风险。增加所选择的数目值可以涵盖所有重要特征,但又存在因特征添加而增加模型误差的风险。◎绝对误差比率的最小变化。当绝对误差比率变化表明无法通过添加更多特征来进一步改进模型时,算法会停止。指定一个正数。减少最小变化值将倾向于包含更多特征,但存在包含对模型价值不大的特征的风险。增加最小变化值将倾向于排除更多特征,但存在丢失对模型较重要的特征的风险。最小变化的“最佳”值将取决于您的数据和具体应用。请参见输出中的“特征选择误差日志”,以帮助您评估哪些特征最重要。
使用“分区”选项卡可以将数据集划分为培训和坚持集,并在适当时候将个案分配给交叉验证折。
1)训练和坚持分区。此组指定将活动数据集划分为训练样本或坚持样本的方法。训练样本包含用于训练最近邻元素模型的数据记录;数据集中的某些个案百分比必须分配给训练样本以获得一个模型。坚持样本是用于评估最终模型的独立数据记录集;坚持样本的误差给出一个模型预测能力的“真实”估计值,因为坚持个案不用于构建模型。◎随机分配个案到分区。指定分配给训练样本的个案百分比。其余的分配给坚持样本。◎使用变量分配个案。指定一个将活动数据集中的每个个案分配到训练或坚持样本中的数值变量。变量为正值的个案被分配到训练样本中,值为0或负值的个案被分配到坚持样本中。具有系统缺失值的个案会从分析中排除。分区变量的任何用户缺失值始终视为有效。
2)交叉验证折。V折交叉验证用于确定“最佳”邻元素数目。因性能原因,它无法与特征选择结合使用。交叉验证将样本划分为许多子样本,或折。然后,生成最近邻元素模型,并依次排除每个子样本中的数据。第一个模型基于第一个样本折的个案之外的所有个案,第二个模型基于第二个样本折的个案之外的所有个案,依此类推。对于每个模型,估计其错误的方法是将模型应用于生成它时所排除的子样本。“最佳”最近邻元素数为在折中产生最小误差的数量。◎随机分配个案到折。指定应当用于交叉验证的折数。该过程将个案随机分配到折,从1编号到V(折数)。◎使用变量分配个案。指定一个将活动数据集中的每个个案分配到折中的数值变量。变量必须为数值,其值为从1到V的数字。如果此范围中的任何值缺失,且位于任何拆分上(如果拆分文件有效),这将导致误差。
3)为Mersenne扭曲器设置种子。设置种子允许您复制分析。使用此控件类似于将“Mersenne扭曲器”设为活动生成器并在“随机数生成器”对话框中指定固定起始点,两者的重大差别在于在此对话框中设置种子会保留随机数生成器的当前状态并在分析完成后恢复该状态。
二、结果说明(运行后的结果解释)
1、模型视图:在“输出”选项卡中选择图表和表时,过程会在查看器中创建“最近邻元素模型”对象。激活(双击)该对象,可获得模型的交互式视图。此模型视图有2个面板窗口:◎第一个面板显示模型概览,称为主视图。◎第二个面板显示两种视图类型之一
2、特征空间:特征空间图表是有关特征空间(如果存在3个以上特征,则为子空间)的交互式图形。每条轴代表模型中的某个特征,图表中的点位置显示个案这些特征在培训和坚持分区中的值。
3、变量重要性:通常,您将需要将建模工作专注于最重要的变量,并考虑删除或忽略那些最不重要的变量。变量重要性图表可以在模型估计中指示每个变量的相对重要性,从而帮助您实现这一点。由于它们是相对值,因此显示的所有变量的值总和为1.0。变量重要性与模型精度无关。它只与每个变量在预测中的重要性有关,而不涉及预测是否精确。
4、对等:该图表显示焦点个案及其在每个特征和目标上k个最近邻元素。它仅在“特征空间”图表中选择了焦点个案时可用。
5、最近邻元素距离:该表只显示焦点个案的k个最近邻元素与距离。它仅当在“变量”选项卡上指定了焦点个案标识符时可用,且仅显示由此变量标识的焦点个案。
6、象限图:该图表显示焦点个案及其在散点图(点图,取决于目标的测量级别)上k个最近邻元素。目标在y轴上,刻度特征在x轴上,按特征划分面板。它仅当存在目标,且在“特征空间”图表中选择了焦点个案时可用。
7、特征选择误差日志:对于该图表上的点,其y轴值为模型的误差(误差率或平方和误差,取决于目标的测量级别),x轴上列出模型的特征(加上x轴左侧的所有特征)。该图表仅当存在目标,且特征选择有效时可用。
8、K选择误差日志:对于该图表上的点,其y轴值为模型的误差(误差率或平方和误差,取决于目标的测量级别),x轴上为最近邻元素数目(k)。该图表仅当存在目标,且k选择有效时可用。
9、分类表:该表显示按分区对目标观察与预测值的交叉分类。它仅当存在分类目标时可用。坚持分区中的(缺失)行包含在目标上具有缺失值的坚持个案。这些个案对“坚持样本:整体百分比”有贡献,但对“正确百分比”无影响。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15