京公网安备 11010802034615号
经营许可证编号:京B2-20210330
在主成分分析(PCA)、因子分析等降维方法中,“成分得分系数矩阵” 与 “载荷矩阵” 是两个高频出现但极易混淆的核心矩阵 —— 有人误将载荷矩阵当作计算样本得分的依据,也有人将两者视为 “不同名称的同一矩阵”,最终导致主成分含义解读偏差或样本得分计算错误。
事实上,这两个矩阵服务于降维分析的不同环节:载荷矩阵聚焦 “变量与主成分的关联”,解释 “哪些变量对主成分贡献大”;成分得分系数矩阵聚焦 “样本与主成分的映射”,解决 “如何计算样本在主成分上的得分”。本文将从定义、计算、含义、用途四大维度彻底区分两者,结合实战案例演示其应用差异,帮助读者避免概念混淆。
要区分两者,需先回归降维分析的核心逻辑:在 PCA 中,我们既要理解 “主成分代表什么”(依赖载荷矩阵),也要知道 “每个样本在主成分上的位置”(依赖成分得分系数矩阵)—— 两者分别对应 “变量层面” 和 “样本层面” 的分析需求。
载荷矩阵(记为)是原始变量与主成分之间的相关系数矩阵,其每个元素表示 “第个原始变量与第个主成分的相关系数”,反映原始变量对主成分的 “贡献度” 与 “关联方向”。
维度:若原始数据有个变量、提取个主成分(),则载荷矩阵为矩阵(行对应变量,列对应主成分);
含义解读:
绝对值越大(越接近 1 或 - 1):变量与该主成分的关联越强,对主成分的解释力越强;
符号为正:变量与主成分呈正相关(变量增大,主成分增大);
符号为负:变量与主成分呈负相关(变量增大,主成分减小);
计算依据:基于原始变量的协方差矩阵或相关矩阵(PCA 的两种常见输入),通过特征值分解得到特征向量,再结合特征值计算:
例如:对 “语文、数学、英语、物理、化学”5 科成绩做 PCA,若第一主成分与所有科目载荷系数均为 0.8~0.9(正相关),则可将第一主成分解读为 “综合学习能力”;若第二主成分与语文、英语的载荷系数为 0.7~0.8,与物理、化学的载荷系数为 - 0.6~-0.7,则可解读为 “文科倾向 - 理科倾向” 的对比维度。
成分得分系数矩阵(记为)是将原始变量转换为样本主成分得分的系数矩阵,其每个元素表示 “计算第个主成分得分时,第个原始变量的权重”—— 通过该矩阵,可将标准化后的原始变量线性组合,得到每个样本在主成分上的得分(即 “主成分得分”)。
维度:与载荷矩阵维度相同,为矩阵(行对应变量,列对应主成分);
含义解读:元素是 “第个变量对第个主成分得分的贡献权重”—— 权重越大,该变量对样本在该主成分上的得分影响越大;
计算依据:依赖载荷矩阵和原始变量的统计特征(如标准差),核心逻辑是 “将原始变量标准化后,通过系数矩阵映射到主成分空间”:
若基于相关矩阵**** 做 PCA(此时原始变量已标准化,均值为 0、标准差为 1),成分得分系数矩阵(即特征向量矩阵),或等价于(载荷矩阵除以特征值的平方根);
若基于协方差矩阵**** 做 PCA(原始变量未标准化),成分得分系数矩阵(是原始变量的标准差对角矩阵),确保消除量纲影响。
例如:通过成分得分系数矩阵,可得到 “样本主成分 1 得分 = 0.3× 语文 + 0.4× 数学 + 0.2× 英语 + 0.05× 物理 + 0.05× 化学” 这样的公式,代入每个学生的标准化成绩,即可得到其在 “综合学习能力” 维度上的得分,用于后续的样本排序、聚类或可视化(如 PCA 散点图)。
为直观呈现两者的不同,从计算、含义、用途等 6 个关键维度做对比:
| 对比维度 | 载荷矩阵(Factor Loading Matrix) | 成分得分系数矩阵(Component Score Coefficient Matrix) |
|---|---|---|
| 核心含义 | 原始变量与主成分的相关系数,反映变量对主成分的贡献度 | 计算主成分得分的权重系数,反映变量对样本得分的影响度 |
| 计算依据 | 依赖变量的协方差 / 相关矩阵的特征向量 + 特征值平方根 | 依赖载荷矩阵(或特征向量)与变量的标准差(消除量纲) |
| 数学关系(标准化 PCA) | (为特征向量,为特征值对角矩阵) | (载荷矩阵除以特征值平方根) |
| 与数据的关联 | 仅与变量相关(描述变量对主成分的贡献) | 与样本 + 变量相关(用于计算样本在主成分上的得分) |
| 核心用途 | 解释主成分的物理含义(如 “综合能力”“文科倾向”) | 计算样本主成分得分(用于排序、聚类、可视化) |
| 数值大小影响 | 绝对值越大,变量对主成分的解释力越强 | 绝对值越大,变量对样本主成分得分的权重越大 |
关键结论:即使维度相同,两者的数值、含义、用途也完全不同 —— 载荷矩阵是 “变量 - 主成分” 的关联系数,服务于 “解释主成分”;得分系数矩阵是 “变量 - 样本得分” 的权重,服务于 “计算样本位置”。
虽然两者本质不同,但在 “基于相关矩阵的 PCA(原始变量已标准化)” 这一特殊场景下,存在明确的数学联系(但仍不是同一概念),需避免混淆 “联系” 与 “等同”。
当原始变量已标准化(均值,标准差),PCA 基于相关矩阵计算时:
假设某数据集有 2 个标准化变量、,PCA 得到 1 个主成分,特征向量,特征值:
载荷矩阵(变量与主成分的相关系数均为 0.95,说明主成分是 “两变量的综合”);
成分得分系数矩阵(用于计算样本主成分得分:);
验证联系:,符合数学关系,但两者数值(0.95 vs 0.707)和含义完全不同。
以 “学生成绩数据集”(含语文、数学、英语 3 个变量,10 个样本)为例,用 Python 的sklearn和numpy计算载荷矩阵与成分得分系数矩阵,直观展示差异。
import numpy as np
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
# 1. 构造学生成绩数据(10个样本,3个变量:语文、数学、英语)
data = np.array([
[85, 92, 88], [78, 85, 80], [92, 95, 90], [65, 70, 68], [72, 68, 75],
[88, 90, 92], [76, 78, 82], [90, 93, 89], [68, 72, 70], [80, 85, 83]
])
columns = ["语文", "数学", "英语"]
df = pd.DataFrame(data, columns=columns)
# 2. 标准化变量(基于相关矩阵做PCA,消除量纲影响)
scaler = StandardScaler()
data_std = scaler.fit_transform(df) # 标准化后:均值=0,标准差=1
# 3. 训练PCA(提取2个主成分)
pca = PCA(n_components=2)
pc_scores = pca.fit_transform(data_std) # 样本的主成分得分(依赖得分系数矩阵)
# 计算载荷矩阵:特征向量 × 特征值平方根
eigenvectors = pca.components_.T # 特征向量矩阵(3×2,变量数×主成分数)
eigenvalues = pca.explained_variance_ # 特征值(2个)
loading_matrix = eigenvectors @ np.diag(np.sqrt(eigenvalues)) # 载荷矩阵(3×2)
# 整理为DataFrame便于解读
loading_df = pd.DataFrame(
loading_matrix,
index=columns,
columns=["主成分1", "主成分2"]
)
print("载荷矩阵(变量与主成分的相关系数):")
print(loading_df.round(4))
载荷矩阵结果与解读:
| 主成分 1 | 主成分 2 | |
|---|---|---|
| 语文 | 0.9743 | -0.1867 |
| 数学 | 0.9816 | 0.1527 |
| 英语 | 0.9865 | -0.0658 |
主成分 1:三个变量的载荷系数均接近 1(正相关),说明主成分 1 是 “综合成绩” 维度,解释了成绩的主要变异(可通过pca.explained_variance_ratio_查看,此处约 95%);
主成分 2:语文、英语为负相关(-0.1867、-0.0658),数学为正相关(0.1527),可解读为 “数学倾向 vs 语文英语倾向” 维度,解释约 5% 的变异。
# 计算成分得分系数矩阵:基于标准化PCA,得分系数矩阵=特征向量(或载荷矩阵 × 特征值逆平方根)
# 方法1:直接从PCA结果获取(等价于特征向量)
score_coef_matrix1 = pca.components_.T # 3×2矩阵
# 方法2:通过载荷矩阵推导(验证数学关系)
score_coef_matrix2 = loading_matrix @ np.diag(1 / np.sqrt(eigenvalues)) # 载荷矩阵 × 特征值逆平方根
# 整理为DataFrame
score_coef_df = pd.DataFrame(
score_coef_matrix1,
index=columns,
columns=["主成分1", "主成分2"]
)
print("n成分得分系数矩阵(计算主成分得分的权重):")
print(score_coef_df.round(4))
成分得分系数矩阵结果与解读:
| 主成分 1 | 主成分 2 | |
|---|---|---|
| 语文 | 0.3284 | -0.9308 |
| 数学 | 0.3310 | 0.7612 |
| 英语 | 0.3326 | -0.3282 |
主成分 1 得分公式:(表示标准化后的值),三个变量权重接近,体现 “综合成绩” 的计算逻辑;
主成分 2 得分公式:,数学权重为正,语文 / 英语为负,体现 “数学倾向” 的计算逻辑;
验证样本得分:以第一个样本(标准化后语文 = 0.528,数学 = 0.845,英语 = 0.462)为例,,与pc_scores[0,0](PCA 直接输出的得分)一致,说明得分系数矩阵正确。
错误做法:用载荷矩阵中的系数(如主成分 1 的 0.9743、0.9816、0.9865)代替得分系数,计算样本主成分得分;
后果:得分数值被放大(如第一个样本 PC1 得分会变成 0.9743×0.528 + 0.9816×0.845 + 0.9865×0.462≈1.99,远大于正确值 0.67),导致后续的样本排序、聚类结果完全错误;
避坑方法:计算样本得分时,必须使用成分得分系数矩阵(sklearn中pca.components_.T或通过载荷矩阵推导),而非载荷矩阵。
反例:本案例中,语文对主成分 1 的载荷系数是 0.9743,得分系数是 0.3284,数值差异显著;
避坑方法:牢记核心含义 —— 载荷矩阵是 “相关系数”,得分系数矩阵是 “权重系数”,即使数学上有关联,也不是同一概念。
后果:量纲大的变量(如 “收入” 单位为万元,“年龄” 单位为岁)会主导主成分得分,导致结果失真;
避坑方法:若变量量纲差异大,必须先标准化(基于相关矩阵做 PCA),再使用标准化后的得分系数矩阵;若基于协方差矩阵做 PCA,需用得分系数矩阵公式(为原始变量标准差)消除量纲影响。
成分得分系数矩阵与载荷矩阵是 PCA 分析的 “左膀右臂”,但职责分明:
载荷矩阵:解决 “主成分是什么” 的问题,用于解释主成分的物理含义,是 “变量层面” 的分析工具;
成分得分系数矩阵:解决 “样本在主成分上的位置如何” 的问题,用于计算样本得分,是 “样本层面” 的分析工具。
先看载荷矩阵,再算得分:做 PCA 时,先通过载荷矩阵解读主成分含义(如 “综合能力”“风险维度”),明确分析方向后,再用得分系数矩阵计算样本得分;
工具使用注意:用sklearn时,pca.components_.T是成分得分系数矩阵(标准化 PCA 场景),载荷矩阵需手动计算(特征向量 × 特征值平方根);用R的prcomp函数时,rotation参数输出的是载荷矩阵,x参数输出的是样本主成分得分(已用得分系数矩阵计算完成);
报告规范:撰写分析报告时,需同时呈现两者(或根据需求选择),并明确标注 —— 若解释主成分含义,列出载荷矩阵;若展示样本得分计算逻辑,列出得分系数矩阵,避免读者混淆。
最终,两者的区分本质是 “理解 PCA 的双重视角”:既要通过载荷矩阵看透 “变量对主成分的贡献”,也要通过得分系数矩阵实现 “样本在主成分空间的映射”—— 唯有清晰区分,才能让降维分析真正服务于业务洞察(如用户分层、风险分类、特征解释)。

数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA中国官网是全国统一的数据分析师认证报名网站,由认证考试委员会与持证人会员、企业会员以及行业知名第三方机构共同合作,致 ...
2025-12-26在数字化转型浪潮下,审计行业正经历从“传统手工审计”向“大数据智能审计”的深刻变革。教育部发布的《大数据与审计专业教学标 ...
2025-12-26统计学作为数学的重要分支,是连接数据与决策的桥梁。随着数据规模的爆炸式增长和复杂问题的涌现,传统统计方法已难以应对高维、 ...
2025-12-26数字化浪潮席卷全球,数据已成为企业核心生产要素,“用数据说话、用数据决策”成为企业生存与发展的核心逻辑。在这一背景下,CD ...
2025-12-26箱线图(Box Plot)作为数据分布可视化的核心工具,凭借简洁的结构直观呈现数据的中位数、四分位数、异常值等关键信息,广泛应用 ...
2025-12-25在数据驱动决策的时代,基于历史数据进行精准预测已成为企业核心需求——无论是预测未来销售额、客户流失概率,还是产品需求趋势 ...
2025-12-25在数据驱动业务的实践中,CDA(Certified Data Analyst)数据分析师的核心工作,本质上是通过“指标”这一数据语言,解读业务现 ...
2025-12-25在金融行业的数字化转型进程中,SQL作为数据处理与分析的核心工具,贯穿于零售银行、证券交易、保险理赔、支付结算等全业务链条 ...
2025-12-24在数据分析领域,假设检验是验证“数据差异是否显著”的核心工具,而独立样本t检验与卡方检验则是其中最常用的两种方法。很多初 ...
2025-12-24在企业数字化转型的深水区,数据已成为核心生产要素,而“让数据可用、好用”则是挖掘数据价值的前提。对CDA(Certified Data An ...
2025-12-24数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-12-23在Power BI数据可视化分析中,矩阵是多维度数据汇总的核心工具,而“动态计算平均值”则是矩阵分析的高频需求——无论是按类别计 ...
2025-12-23在SQL数据分析场景中,“日期转期间”是高频核心需求——无论是按日、周、月、季度还是年度统计数据,都需要将原始的日期/时间字 ...
2025-12-23在数据驱动决策的浪潮中,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越“整理数据、输出报表”的基础层面,转 ...
2025-12-23在使用Excel数据透视表进行数据分析时,我们常需要在透视表旁添加备注列,用于标注数据背景、异常说明、业务解读等关键信息。但 ...
2025-12-22在MySQL数据库的性能优化体系中,索引是提升查询效率的“核心武器”——一个合理的索引能将百万级数据的查询耗时从秒级压缩至毫 ...
2025-12-22在数据量爆炸式增长的数字化时代,企业数据呈现“来源杂、格式多、价值不均”的特点,不少CDA(Certified Data Analyst)数据分 ...
2025-12-22在企业数据化运营体系中,同比、环比分析是洞察业务趋势、评估运营效果的核心手段。同比(与上年同期对比)可消除季节性波动影响 ...
2025-12-19在数字化时代,用户已成为企业竞争的核心资产,而“理解用户”则是激活这一资产的关键。用户行为分析系统(User Behavior Analys ...
2025-12-19在数字化转型的深水区,企业对数据价值的挖掘不再局限于零散的分析项目,而是转向“体系化运营”——数据治理体系作为保障数据全 ...
2025-12-19