【CDA干货】成分得分系数矩阵与载荷矩阵：不是同一概念！从定义到实战的清晰区分-CDA数据分析师官网

热线电话：13121318867

首页大数据时代【CDA干货】成分得分系数矩阵与载荷矩阵：不是同一概念！从定义到实战的清晰区分

【CDA干货】成分得分系数矩阵与载荷矩阵：不是同一概念！从定义到实战的清晰区分

2025-11-12

在主成分分析（PCA）、因子分析等降维方法中，“成分得分系数矩阵” 与 “载荷矩阵” 是两个高频出现但极易混淆的核心矩阵 —— 有人误将载荷矩阵当作计算样本得分的依据，也有人将两者视为 “不同名称的同一矩阵”，最终导致主成分含义解读偏差或样本得分计算错误。

事实上，这两个矩阵服务于降维分析的不同环节：载荷矩阵聚焦 “变量与主成分的关联”，解释 “哪些变量对主成分贡献大”；成分得分系数矩阵聚焦 “样本与主成分的映射”，解决 “如何计算样本在主成分上的得分”。本文将从定义、计算、含义、用途四大维度彻底区分两者，结合实战案例演示其应用差异，帮助读者避免概念混淆。

一、先破后立：明确两者的核心定义（本质不同）

要区分两者，需先回归降维分析的核心逻辑：在 PCA 中，我们既要理解 “主成分代表什么”（依赖载荷矩阵），也要知道 “每个样本在主成分上的位置”（依赖成分得分系数矩阵）—— 两者分别对应 “变量层面” 和 “样本层面” 的分析需求。

1. 载荷矩阵（Factor Loading Matrix）：变量与主成分的 “关联说明书”

载荷矩阵（记为）是原始变量与主成分之间的相关系数矩阵，其每个元素表示 “第个原始变量与第个主成分的相关系数”，反映原始变量对主成分的 “贡献度” 与 “关联方向”。

核心特征：

维度：若原始数据有个变量、提取个主成分（），则载荷矩阵为矩阵（行对应变量，列对应主成分）；
含义解读：
- 绝对值越大（越接近 1 或 - 1）：变量与该主成分的关联越强，对主成分的解释力越强；
- 符号为正：变量与主成分呈正相关（变量增大，主成分增大）；
- 符号为负：变量与主成分呈负相关（变量增大，主成分减小）；
计算依据：基于原始变量的协方差矩阵或相关矩阵（PCA 的两种常见输入），通过特征值分解得到特征向量，再结合特征值计算：

若基于相关矩阵**** 做 PCA（适用于变量量纲差异大的场景），载荷矩阵（是个特征值构成的对角矩阵）；

若基于协方差矩阵**** 做 PCA（适用于变量量纲一致的场景），载荷矩阵（形式相同，但和来自协方差矩阵分解）。

核心用途：解释主成分的 “物理含义”—— 回答 “这个主成分代表什么”。

例如：对 “语文、数学、英语、物理、化学”5 科成绩做 PCA，若第一主成分与所有科目载荷系数均为 0.8~0.9（正相关），则可将第一主成分解读为 “综合学习能力”；若第二主成分与语文、英语的载荷系数为 0.7~0.8，与物理、化学的载荷系数为 - 0.6~-0.7，则可解读为 “文科倾向 - 理科倾向” 的对比维度。

2. 成分得分系数矩阵（Component Score Coefficient Matrix）：样本与主成分的 “映射公式”

成分得分系数矩阵（记为）是将原始变量转换为样本主成分得分的系数矩阵，其每个元素表示 “计算第个主成分得分时，第个原始变量的权重”—— 通过该矩阵，可将标准化后的原始变量线性组合，得到每个样本在主成分上的得分（即 “主成分得分”）。

核心特征：

维度：与载荷矩阵维度相同，为矩阵（行对应变量，列对应主成分）；
含义解读：元素是 “第个变量对第个主成分得分的贡献权重”—— 权重越大，该变量对样本在该主成分上的得分影响越大；
计算依据：依赖载荷矩阵和原始变量的统计特征（如标准差），核心逻辑是 “将原始变量标准化后，通过系数矩阵映射到主成分空间”：

若基于相关矩阵**** 做 PCA（此时原始变量已标准化，均值为 0、标准差为 1），成分得分系数矩阵（即特征向量矩阵），或等价于（载荷矩阵除以特征值的平方根）；

若基于协方差矩阵**** 做 PCA（原始变量未标准化），成分得分系数矩阵（是原始变量的标准差对角矩阵），确保消除量纲影响。

核心用途：计算样本的主成分得分 —— 回答 “每个样本在主成分上的位置如何”。

例如：通过成分得分系数矩阵，可得到 “样本主成分 1 得分 = 0.3× 语文 + 0.4× 数学 + 0.2× 英语 + 0.05× 物理 + 0.05× 化学” 这样的公式，代入每个学生的标准化成绩，即可得到其在 “综合学习能力” 维度上的得分，用于后续的样本排序、聚类或可视化（如 PCA 散点图）。

二、核心差异：6 个维度彻底区分（表格对比）

为直观呈现两者的不同，从计算、含义、用途等 6 个关键维度做对比：

对比维度	载荷矩阵（Factor Loading Matrix）	成分得分系数矩阵（Component Score Coefficient Matrix）
核心含义	原始变量与主成分的相关系数，反映变量对主成分的贡献度	计算主成分得分的权重系数，反映变量对样本得分的影响度
计算依据	依赖变量的协方差 / 相关矩阵的特征向量 + 特征值平方根	依赖载荷矩阵（或特征向量）与变量的标准差（消除量纲）
数学关系（标准化 PCA）	（为特征向量，为特征值对角矩阵）	（载荷矩阵除以特征值平方根）
与数据的关联	仅与变量相关（描述变量对主成分的贡献）	与样本 + 变量相关（用于计算样本在主成分上的得分）
核心用途	解释主成分的物理含义（如 “综合能力”“文科倾向”）	计算样本主成分得分（用于排序、聚类、可视化）
数值大小影响	绝对值越大，变量对主成分的解释力越强	绝对值越大，变量对样本主成分得分的权重越大

关键结论：即使维度相同，两者的数值、含义、用途也完全不同 —— 载荷矩阵是 “变量 - 主成分” 的关联系数，服务于 “解释主成分”；得分系数矩阵是 “变量 - 样本得分” 的权重，服务于 “计算样本位置”。

三、数学联系：仅在特定条件下存在关联（非同一概念）

虽然两者本质不同，但在 “基于相关矩阵的 PCA（原始变量已标准化）” 这一特殊场景下，存在明确的数学联系（但仍不是同一概念），需避免混淆 “联系” 与 “等同”。

1. 关联推导（标准化 PCA 场景）

当原始变量已标准化（均值，标准差），PCA 基于相关矩阵计算时：

载荷矩阵（为特征向量矩阵，为特征值对角矩阵）；
成分得分系数矩阵（因标准化后变量标准差为 1，无需额外调整）；
由此可推出：（载荷矩阵乘以特征值对角矩阵的逆平方根）。

2. 实例验证（简单数据集）

假设某数据集有 2 个标准化变量、，PCA 得到 1 个主成分，特征向量，特征值：

载荷矩阵（变量与主成分的相关系数均为 0.95，说明主成分是 “两变量的综合”）；
成分得分系数矩阵（用于计算样本主成分得分：）；
验证联系：，符合数学关系，但两者数值（0.95 vs 0.707）和含义完全不同。

四、实战案例：用 Python 演示两者的计算与差异

以 “学生成绩数据集”（含语文、数学、英语 3 个变量，10 个样本）为例，用 Python 的sklearn和numpy计算载荷矩阵与成分得分系数矩阵，直观展示差异。

1. 数据准备与 PCA 训练

import numpy as np

import pandas as pd

from sklearn.decomposition import PCA

from sklearn.preprocessing import StandardScaler

# 1. 构造学生成绩数据（10个样本，3个变量：语文、数学、英语）

data = np.array([

   [85, 92, 88], [78, 85, 80], [92, 95, 90], [65, 70, 68], [72, 68, 75],

   [88, 90, 92], [76, 78, 82], [90, 93, 89], [68, 72, 70], [80, 85, 83]

])

columns = ["语文", "数学", "英语"]

df = pd.DataFrame(data, columns=columns)

# 2. 标准化变量（基于相关矩阵做PCA，消除量纲影响）

scaler = StandardScaler()

data_std = scaler.fit_transform(df)  # 标准化后：均值=0，标准差=1

# 3. 训练PCA（提取2个主成分）

pca = PCA(n_components=2)

pc_scores = pca.fit_transform(data_std)  # 样本的主成分得分（依赖得分系数矩阵）

2. 计算并解读载荷矩阵

# 计算载荷矩阵：特征向量 × 特征值平方根

eigenvectors = pca.components_.T  # 特征向量矩阵（3×2，变量数×主成分数）

eigenvalues = pca.explained_variance_  # 特征值（2个）

loading_matrix = eigenvectors @ np.diag(np.sqrt(eigenvalues))  # 载荷矩阵（3×2）

# 整理为DataFrame便于解读

loading_df = pd.DataFrame(

   loading_matrix,

   index=columns,

   columns=["主成分1", "主成分2"]

)

print("载荷矩阵（变量与主成分的相关系数）：")

print(loading_df.round(4))

载荷矩阵结果与解读：

	主成分 1	主成分 2
语文	0.9743	-0.1867
数学	0.9816	0.1527
英语	0.9865	-0.0658

主成分 1：三个变量的载荷系数均接近 1（正相关），说明主成分 1 是 “综合成绩” 维度，解释了成绩的主要变异（可通过pca.explained_variance_ratio_查看，此处约 95%）；
主成分 2：语文、英语为负相关（-0.1867、-0.0658），数学为正相关（0.1527），可解读为 “数学倾向 vs 语文英语倾向” 维度，解释约 5% 的变异。

3. 计算并解读成分得分系数矩阵

# 计算成分得分系数矩阵：基于标准化PCA，得分系数矩阵=特征向量（或载荷矩阵 × 特征值逆平方根）

# 方法1：直接从PCA结果获取（等价于特征向量）

score_coef_matrix1 = pca.components_.T  # 3×2矩阵

# 方法2：通过载荷矩阵推导（验证数学关系）

score_coef_matrix2 = loading_matrix @ np.diag(1 / np.sqrt(eigenvalues))  # 载荷矩阵 × 特征值逆平方根

# 整理为DataFrame

score_coef_df = pd.DataFrame(

   score_coef_matrix1,

   index=columns,

   columns=["主成分1", "主成分2"]

)

print("n成分得分系数矩阵（计算主成分得分的权重）：")

print(score_coef_df.round(4))

成分得分系数矩阵结果与解读：

	主成分 1	主成分 2
语文	0.3284	-0.9308
数学	0.3310	0.7612
英语	0.3326	-0.3282

主成分 1 得分公式：（表示标准化后的值），三个变量权重接近，体现 “综合成绩” 的计算逻辑；
主成分 2 得分公式：，数学权重为正，语文 / 英语为负，体现 “数学倾向” 的计算逻辑；
验证样本得分：以第一个样本（标准化后语文 = 0.528，数学 = 0.845，英语 = 0.462）为例，，与pc_scores[0,0]（PCA 直接输出的得分）一致，说明得分系数矩阵正确。

五、常见误区与避坑指南

误区 1：将载荷矩阵当作得分系数矩阵，直接计算样本得分

错误做法：用载荷矩阵中的系数（如主成分 1 的 0.9743、0.9816、0.9865）代替得分系数，计算样本主成分得分；
后果：得分数值被放大（如第一个样本 PC1 得分会变成 0.9743×0.528 + 0.9816×0.845 + 0.9865×0.462≈1.99，远大于正确值 0.67），导致后续的样本排序、聚类结果完全错误；
避坑方法：计算样本得分时，必须使用成分得分系数矩阵（sklearn中pca.components_.T或通过载荷矩阵推导），而非载荷矩阵。

误区 2：认为 “载荷矩阵与得分系数矩阵数值相同，只是名称不同”

错误逻辑：在标准化 PCA 中，看到载荷矩阵和得分系数矩阵均与特征向量相关，就误以为两者是同一矩阵；
反例：本案例中，语文对主成分 1 的载荷系数是 0.9743，得分系数是 0.3284，数值差异显著；
避坑方法：牢记核心含义 —— 载荷矩阵是 “相关系数”，得分系数矩阵是 “权重系数”，即使数学上有关联，也不是同一概念。

误区 3：忽视量纲影响，混淆不同 PCA 场景下的矩阵计算

错误做法：在未标准化的 PCA（基于协方差矩阵）中，直接用特征向量作为得分系数矩阵；
后果：量纲大的变量（如 “收入” 单位为万元，“年龄” 单位为岁）会主导主成分得分，导致结果失真；
避坑方法：若变量量纲差异大，必须先标准化（基于相关矩阵做 PCA），再使用标准化后的得分系数矩阵；若基于协方差矩阵做 PCA，需用得分系数矩阵公式（为原始变量标准差）消除量纲影响。

六、总结：核心逻辑与应用建议

成分得分系数矩阵与载荷矩阵是 PCA 分析的 “左膀右臂”，但职责分明：

载荷矩阵：解决 “主成分是什么” 的问题，用于解释主成分的物理含义，是 “变量层面” 的分析工具；
成分得分系数矩阵：解决 “样本在主成分上的位置如何” 的问题，用于计算样本得分，是 “样本层面” 的分析工具。

应用建议：

先看载荷矩阵，再算得分：做 PCA 时，先通过载荷矩阵解读主成分含义（如 “综合能力”“风险维度”），明确分析方向后，再用得分系数矩阵计算样本得分；
工具使用注意：用sklearn时，pca.components_.T是成分得分系数矩阵（标准化 PCA 场景），载荷矩阵需手动计算（特征向量 × 特征值平方根）；用R的prcomp函数时，rotation参数输出的是载荷矩阵，x参数输出的是样本主成分得分（已用得分系数矩阵计算完成）；
报告规范：撰写分析报告时，需同时呈现两者（或根据需求选择），并明确标注 —— 若解释主成分含义，列出载荷矩阵；若展示样本得分计算逻辑，列出得分系数矩阵，避免读者混淆。