热线电话:13121318867

登录
首页大数据时代【CDA干货】一文厘清主成分载荷矩阵与成分矩阵的核心区别
【CDA干货】一文厘清主成分载荷矩阵与成分矩阵的核心区别
2026-01-07
收藏

在主成分分析(PCA)的学习与实践中,“主成分载荷矩阵”和“成分矩阵”是两个高频出现但极易混淆的核心概念。两者均是主成分分析的重要输出结果,却承载着不同的数学内涵与应用价值——载荷矩阵聚焦原始变量与主成分的关联强度,成分矩阵则体现原始变量向主成分的转化系数。不少学习者因混淆两者,导致对主成分分析结果的解读出现偏差。本文将从定义、数学本质、核心作用、计算逻辑、应用场景五个核心维度,系统拆解两者的区别,结合实例说明其应用方法,帮助读者精准把握两者的核心差异与使用边界。

一、先明确:两个矩阵的核心定义与内涵

要区分两者,首先需明确其核心定义——两者的本质差异源于“描述对象”的不同:一个描述“关联程度”,一个描述“转化关系”。

1. 主成分载荷矩阵(Loading Matrix)

主成分载荷矩阵的核心是“载荷”,即原始变量与主成分之间的相关系数。矩阵中第i行第j列的元素,代表第i个原始变量与第j个主成分的线性相关系数,反映了原始变量对该主成分的“贡献程度”或“关联强度”。

通俗理解:载荷矩阵就像一份“关联清单”,清晰告知我们每个原始变量与各个主成分的紧密程度——载荷系数的绝对值越接近1,说明该原始变量与对应主成分的关联越强,该主成分越能反映这个原始变量的信息;绝对值越接近0,则关联越弱。

2. 成分矩阵(Component Matrix)

成分矩阵的核心是“系数”,即原始变量向主成分转化的线性组合系数(也常被称为“主成分得分系数”)。矩阵中第i行第j列的元素,是第i个原始变量在第j个主成分表达式中的系数,用于将标准化后的原始变量线性组合,得到主成分得分。

通俗理解:成分矩阵就像一套“转化公式”,指导我们如何将多个标准化后的原始变量,通过加权求和的方式,计算出每个样本的主成分得分——每个系数代表对应原始变量在该主成分中的“权重”,系数的正负则反映原始变量对主成分的影响方向。

关键前提:无论是载荷矩阵还是成分矩阵,均基于标准化后的原始变量计算。因为主成分分析对变量的量纲敏感,通常需先将原始变量标准化(均值为0、方差为1),再进行后续分析,两者的计算均依赖标准化后的变量。

二、核心区别:五个维度的全面对比

为更清晰地呈现两者的差异,以下从数学本质、核心作用、计算逻辑、数值范围、解读方式五个维度进行对比,形成完整的区别框架:

对比维度 主成分载荷矩阵 成分矩阵
数学本质 原始变量与主成分的相关系数矩阵 原始变量到主成分的线性组合系数矩阵
核心作用 1. 判断原始变量对主成分的贡献程度;2. 解释主成分的实际含义(如哪个变量主导该主成分);3. 筛选核心原始变量 1. 计算每个样本的主成分得分;2. 实现原始变量向主成分空间的转化;3. 用于后续的建模(如用主成分得分做回归分析
计算逻辑 载荷系数 = 原始变量与主成分的协方差 / (原始变量标准差 × 主成分标准差);因原始变量已标准化(标准差=1),简化为:载荷系数 = 原始变量与主成分的协方差 = 特征向量 × 主成分标准差特征值的平方根) 成分系数 = 特征向量(主成分对应的单位特征向量);即直接采用协方差矩阵(或相关矩阵)的特征向量作为组合系数
数值范围 [-1, 1](因是相关系数,符合相关系数的取值范围) 无固定范围,取决于原始变量的特征向量,可能大于1或小于-1
解读方式 重点看绝对值大小:绝对值越大,原始变量与主成分的关联越强,对主成分的解释力越强 重点看系数的大小与正负:系数绝对值越大,对应原始变量对主成分得分的影响越大;正系数表示正向影响,负系数表示负向影响

三、数学逻辑拆解:从计算过程看差异

要深刻理解两者的区别,需从主成分分析的核心数学逻辑入手——两者均源于“协方差矩阵的特征分解”,但计算过程中的“取舍”不同,最终导致内涵差异。

1. 主成分分析的核心数学基础

主成分分析的核心是对标准化后的原始变量协方差矩阵Σ(因变量已标准化,协方差矩阵等价于相关矩阵)进行特征分解,得到:

Σ = PΛPᵀ

其中:

  • P:特征向量矩阵,每一列是Σ的一个单位特征向量(长度为1),对应一个主成分的方向;

  • Λ:对角矩阵,对角线上的元素是Σ的特征值,特征值的大小代表对应主成分的方差贡献(特征值越大,主成分包含的原始信息越多)。

2. 成分矩阵的计算:直接取特征向量

成分矩阵的每一列就是特征向量矩阵P的对应列,即成分系数 = 特征向量p_j(第j列特征向量)。

主成分的表达式为:Z_j = p₁ⱼX₁ + p₂ⱼX₂ + ... + pₙⱼXₙ(其中Z_j为第j个主成分得分,X₁~Xₙ为标准化后的原始变量,pᵢⱼ为成分矩阵第i行第j列的系数)。

可见,成分矩阵的核心是“特征向量”,直接用于原始变量到主成分的线性转化。

3. 载荷矩阵的计算:特征向量×主成分标准差

主成分的标准差等于对应特征值的平方根(因主成分的方差特征值,标准差=√特征值)。结合相关系数的定义,载荷系数的计算为:

载荷系数λᵢⱼ = Cov(Xᵢ, Z_j) / (σ_Xᵢ × σ_Z_j)

因Xᵢ已标准化(σ_Xᵢ=1),且Cov(Xᵢ, Z_j) = pᵢⱼ×σ_Z_j(由主成分的方差性质推导),因此:

λᵢⱼ = pᵢⱼ×σ_Z_j = pᵢⱼ×√λ_j(其中λ_j为第j个主成分的特征值)

可见,载荷矩阵是“特征向量”与“主成分标准差”的乘积,本质是将特征向量缩放后得到的相关系数矩阵。

关键结论

成分矩阵是“原始的特征向量矩阵”,载荷矩阵是“特征向量矩阵经过主成分标准差缩放后的矩阵”;两者的核心关联是:载荷矩阵 = 成分矩阵 × 特征值平方根矩阵(对角矩阵,对角元素为各主成分特征值的平方根)。

四、实例演示:用具体数据看差异

以下通过一个简单的实例,直观展示载荷矩阵与成分矩阵的数值差异及解读方式。假设我们对3个标准化后的原始变量X₁、X₂、X₃进行主成分分析,得到以下核心结果:

  1. 方差矩阵的特征值:λ₁=2.1,λ₂=0.8,λ₃=0.1(特征值越大,主成分的信息含量越多);

  2. 特征向量矩阵(即成分矩阵):


成分矩阵 P = [
  [0.58,  0.72, -0.32],  # X₁对应的系数(第1行)
  [0.56, -0.68,  0.48],  # X₂对应的系数(第2行)
  [0.59,  0.10,  0.80]   # X₃对应的系数(第3行)
]
# 列1:第1主成分Z₁的系数;列2:第2主成分Z₂的系数;列3:第3主成分Z₃的系数

1. 计算载荷矩阵

根据载荷矩阵的计算逻辑,先计算各主成分的标准差(√特征值):

√λ₁=√2.1≈1.449,√λ₂=√0.8≈0.894,√λ₃=√0.1≈0.316

载荷矩阵 = 成分矩阵 × 特征值平方根矩阵(对角矩阵),计算得:


载荷矩阵 L = [
  [0.58×1.449≈0.84,  0.72×0.894≈0.64, -0.32×0.316≈-0.10],  # X₁与各主成分的相关系数
  [0.56×1.449≈0.81, -0.68×0.894≈-0.61,  0.48×0.316≈0.15],  # X₂与各主成分的相关系数
  [0.59×1.449≈0.85,  0.10×0.894≈0.09,  0.80×0.316≈0.25]   # X₃与各主成分的相关系数
]

2. 差异解读

  • 成分矩阵解读:第1主成分Z₁的表达式为Z₁=0.58X₁+0.56X₂+0.59X₃,三个原始变量的系数均为正且接近,说明Z₁是三个变量的“综合反映”;X₁在Z₂中的系数最大(0.72),且为正,说明X₁对Z₂的正向影响最强。

  • 载荷矩阵解读:X₃与Z₁的载荷系数最大(0.85),说明X₃与第1主成分的关联最强,对Z₁的解释力最强;X₂与Z₂的载荷系数为-0.61(绝对值较大),说明X₂与第2主成分呈中等强度的负相关;X₁、X₂、X₃与Z₃的载荷系数绝对值均较小(<0.3),说明三个变量与第3主成分的关联较弱,Z₃包含的原始信息较少(与特征值λ₃=0.1较小一致)。

五、应用场景:什么时候用载荷矩阵?什么时候用成分矩阵?

两者的应用场景严格对应其核心作用,实际分析中需根据需求选择:

1. 用载荷矩阵的场景

  • 主成分含义解释:当需要明确“每个主成分代表什么”时,需通过载荷矩阵判断——哪个原始变量与该主成分的载荷系数最大,该主成分就主要反映这个变量的信息。例如,在学生成绩分析中,若“数学”“物理”“化学”与第1主成分的载荷系数均较大,可将第1主成分命名为“理科综合能力”。

  • 原始变量筛选:若需从多个原始变量中筛选核心变量,可通过载荷矩阵选择——与前几个主要主成分(特征值>1的主成分)载荷系数较大的原始变量,即为核心变量(包含的信息更丰富)。

  • 主成分有效性验证:若某主成分与所有原始变量的载荷系数均较小,说明该主成分包含的有效信息少,可考虑舍弃(无需纳入后续分析)。

2. 用成分矩阵的场景

  • 计算主成分得分:当需要得到每个样本的主成分得分(如用主成分得分排名、比较样本差异)时,需用成分矩阵的系数构建线性表达式,代入标准化后的原始变量值计算。例如,根据上述实例的成分矩阵,某样本标准化后的X₁=1.2、X₂=0.8、X₃=1.0,则其第1主成分得分Z₁=0.58×1.2+0.56×0.8+0.59×1.0≈1.75。

  • 后续建模分析:当需要用主成分替代原始变量进行后续建模(如回归分析聚类分析)时,需先通过成分矩阵计算主成分得分,再用得分作为新的自变量/样本特征

  • 数据降维转化:主成分分析的核心目标是降维,成分矩阵是实现“原始高维数据→主成分低维数据”转化的核心工具,通过保留前几个主要主成分的得分,实现数据维度的压缩

六、常见误区:避开3个易混淆点

在实际应用中,以下3个误区最易导致两者混淆,需重点规避:

误区1:将载荷系数等同于成分系数

错误认知:认为载荷矩阵和成分矩阵的数值可以直接混用。

纠正:两者的数值的含义完全不同——载荷系数是相关系数([-1,1]),成分系数是组合权重(无固定范围);仅当主成分的特征值为1时,两者数值才相等(因√1=1,载荷矩阵=成分矩阵×1),其他情况下均不相等。

误区2:用载荷矩阵计算主成分得分

错误认知:直接用载荷矩阵的系数构建主成分表达式,计算得分。

纠正:主成分得分的计算必须用成分矩阵(特征向量),若误用载荷矩阵,会因系数缩放导致得分结果偏差,进而影响后续分析。

误区3:忽视变量标准化的影响

错误认知:未标准化原始变量就直接计算载荷矩阵和成分矩阵。

纠正:两者的计算均基于标准化后的变量——若原始变量未标准化,协方差矩阵会受量纲影响,特征向量(成分矩阵)和载荷矩阵的结果均会失真,无法准确反映原始变量与主成分的关系。

七、总结:核心逻辑与记忆口诀

主成分载荷矩阵与成分矩阵的核心区别,可总结为“一个看关联,一个做转化”:

  • 载荷矩阵:聚焦“关联强度”,回答“原始变量与主成分有多相关”,用于解释主成分含义、筛选变量;

  • 成分矩阵:聚焦“转化权重”,回答“如何将原始变量变成主成分”,用于计算得分、降维建模。

记忆口诀:“载荷看相关,成分算得分;载荷定含义,成分做转化”。

掌握两者的区别,是正确解读主成分分析结果的关键。在实际分析中,需先明确自身需求——若需解释主成分、筛选变量,重点关注载荷矩阵;若需计算得分、后续建模,重点关注成分矩阵。结合本文的数学逻辑与实例,多动手实践,就能精准把握两者的使用边界,让主成分分析的结果真正为决策提供支撑。

推荐学习书籍 《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~ !

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

数据分析师资讯
更多

OK
客服在线
立即咨询
客服在线
立即咨询