
SPSS分析:复杂样本
一、概念:
复杂样本在很多方面与简单随机样本不同。在简单随机样本中,各抽样单元是直接从整个总体中采用不放回方式以等概率(WOR)随机选择的。相比之下,给定的复杂样本具有以下部分或全部特征:
1、层次。分层抽样在总体的非重叠子组(即层次)中独立选择样本。例如,层次可以是社会经济组、工作类别、年龄组或种族组。通过分层,可以确保子组的样本大小足够大,提高整个估计值的精确度,并在不同层次使用不同抽样方法。
2、聚类。聚类抽样需要选择抽样单元组(即聚类)。例如,聚类可以是学校、医院或地理区域,抽样单元可以是学生、病人或市民。聚类在多阶段设计和区域(地理)样本中很常见。
3、多阶段。在多阶段抽样中,应基于聚类选择第一阶段样本。然后,通过从所选聚类抽取子样本创建第二阶段样本。如果第二阶段样本是基于子聚类的,则可以向样本添加第三阶段。例如,在调查的第一阶段,可以抽取城市样本。然后,从所选城市中,可以抽取家庭样本。最后,从所选家庭中,可以对个人进行民意调查。使用抽样和分析准备向导可以在一个设计中指定三个阶段。
4、非随机抽样。如果随机选择难以实现,则可以系统(以固定间隔)或顺序方式抽取单元。
5、不等选择概率。如果抽取的聚类包含的单元数不相等,可以使用与大小成正比(PPS)的概率进行抽样,以使聚类的选择概率与其所含单元的比例相等。PPS抽样还可以使用更多一般加权设计来选择单元。
6、无限制抽样。无限制抽样以放回方式(WR)选择单元。因此,单个单元可能多次选入样本中。
7、抽样权重。抽样权重是在抽取复杂样本时自动计算的,与目标总体中每个抽样单元代表的“频率”十分一致。因此,根据样本的权重总和可以估计总体大小。复杂样本分析过程需要抽样权重以正确分析复杂样本。请注意:这些权重应该在“复杂样本”选项内使用,而不应通过“加权个案”过程用于其他分析过程,该过程将权重视为个案重复。
二、设计变量(分析-复杂抽样-选择样本-设计样本-设计变量)
1、分层依据。分层变量的交叉分类定义了不同的子体,即层次。分别为各层获取了不同的样本。要提高估计值的精确度,层中单元的特征应尽量均一。
2、分群。分群变量定义观察单元组,即分群。如果从总体直接抽取观察单元很昂贵,或者不可能实现,就可以使用分群;可以从总体抽取分群,然后从所选分群抽取观察单元。但是,使用分群会在抽样单元之间引入相关性,导致精度下降。要使这种影响减到最小,分群中的单元的特征应尽量均一。必须至少定义一个分群变量才能计划多阶段设计。在使用多个不同抽样方法时,分群也是必不可少的。
3、输入样本权重。如果当前样本设计是更大样本设计的一部分,则可以从更大样本设计的以前阶段获得样本权重。在当前设计的第一阶段,可以指定一个包含这些权重的数值型变量。对于当前设计的后续阶段,样本权重将自动计算。
4、阶段标签。可为每个阶段指定一个可选的字符串标签。该标签用在输出中以帮助识别分阶段信息。
三、抽样方法(分析-复杂抽样-选择样本-设计样本-方法)
1、方法。该组中的控件用于选择一种选择方法。某些抽样类型允许选择放回抽样(WR)或不放回抽样(WOR)。请注意,某些与大小成正比的概率(PPS)类型只在定义聚类之后才可用,所有PPS类型只在设计的第一阶段才可用。此外,WR方法只在设计的最后阶段才可用。
1.1、简单随机抽样。以等概率选择单元。单元可以采用放回或不放回方式进行选择
1.2、简单系统。在整个抽样框架或层次(如果指定)中,采用不放回方式以固定间隔选择单元。在第一个区间内随机选择的单元即选作起始点。
1.3、简单顺序。采用不放回方式以等概率顺序地选择单元。
1.4、PPS。这是第一阶段方法,它以与大小成正比的概率随机选择单元。任何单元都可以采用放回方式选择;只有聚类可以采用不放回方式抽样。
1.5、PPS系统。这是第一阶段方法,它以与大小成正比的概率系统地选择单元。并且单元是以不放回方式选择的。
1.6、PPS顺序。这是第一阶段方法,它以与聚类大小成正比的概率采用不放回方式顺序选择单元。
1.7、PPS Brewer。这是第一阶段方法,它以与聚类大小成正比的概率采用不放回方式从每个层次选择两个聚类。要使用此方法,必须指定聚类变量。
1.8、PPS Murthy。这是第一阶段方法,它以与聚类大小成正比的概率采用不放回方式从每个层次选择两个聚类。要使用此方法,必须指定聚类变量。
1.9、PPS Sampford。这是第一阶段方法,它以与聚类大小成正比的概率从每个层次采用不放回方式选择两个以上聚类。它是Brewer方法的扩展。要使用此方法,必须指定聚类变量。
1.10、在分析中使用WR估计。缺省情况下,估计方法是在计划文件中指定的,与所选抽样方法一致。这样,即使抽样方法意味着WOR估计,也可以使用放回方式估计。此选项只在阶段1可用。
2、大小测量(MOS)。如果选择PPS方法,则必须指定定义每个单元大小的规模度量。这些规模可以在一个变量中显式定义,也可以根据数据计算。或者,可以设置MOS的上限和下限,覆盖所有MOS变量中的值或根据数据计算的值。这些选项只在阶段1可用。
四、准备复杂样本以进行分析(分析-复杂抽样-准备分析-创建计划文件)
1、分析准备向导将引导您完成创建或修改分析计划的各个步骤,以用于各种“复杂样本”分析过程。使用该向导之前,应先根据一项复杂设计完成样本抽取。如果不能访问用于抽取样本的抽样计划文件(该抽样计划包含一个缺省分析计划),则创建一个新的计划非常有用。如果确实可以访问用于抽取样本的抽样计划文件,则可以使用抽样计划文件包含的缺省分析计划,也可以覆盖缺省分析指定项并将更改保存到新文件中。
2、估计方法:
2.1、WR(放回式抽样)。在复杂抽样设计下估计方差时,WR估计不包括对有限总体抽样的修正(FPC)。在简单随机抽样(SRS)下估计方差时,可以选择包括或排除FPC。如果分析权重已进行标度,建议选择不包括用于SRS方差估计的FPC,以免分析权重增加总体大小。SRS方差估计用于计算类似于设计效果的统计量。只能在设计的最后阶段指定WR估计;如果选择WR估计,向导将不允许添加其他阶段。
2.2、等概率WOR(等概率不放回式抽样)。等概率WOR估计包括有限总体修正,并假设单元是等概率抽取的。等概率WOR可在设计的任何阶段指定。
2.3、不等概率WOR(不等概率不放回式抽样)。除了使用有限总体修正之外,不等概率WOR还考虑以不等概率选择的抽样单元(通常为聚类)。此估计方法仅在第一阶段可用。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01