京公网安备 11010802034615号
经营许可证编号:京B2-20210330
在主成分分析(PCA)、因子分析等降维方法中,“成分得分系数矩阵” 与 “载荷矩阵” 是两个高频出现但极易混淆的核心矩阵 —— 有人误将载荷矩阵当作计算样本得分的依据,也有人将两者视为 “不同名称的同一矩阵”,最终导致主成分含义解读偏差或样本得分计算错误。
事实上,这两个矩阵服务于降维分析的不同环节:载荷矩阵聚焦 “变量与主成分的关联”,解释 “哪些变量对主成分贡献大”;成分得分系数矩阵聚焦 “样本与主成分的映射”,解决 “如何计算样本在主成分上的得分”。本文将从定义、计算、含义、用途四大维度彻底区分两者,结合实战案例演示其应用差异,帮助读者避免概念混淆。
要区分两者,需先回归降维分析的核心逻辑:在 PCA 中,我们既要理解 “主成分代表什么”(依赖载荷矩阵),也要知道 “每个样本在主成分上的位置”(依赖成分得分系数矩阵)—— 两者分别对应 “变量层面” 和 “样本层面” 的分析需求。
载荷矩阵(记为)是原始变量与主成分之间的相关系数矩阵,其每个元素表示 “第个原始变量与第个主成分的相关系数”,反映原始变量对主成分的 “贡献度” 与 “关联方向”。
维度:若原始数据有个变量、提取个主成分(),则载荷矩阵为矩阵(行对应变量,列对应主成分);
含义解读:
绝对值越大(越接近 1 或 - 1):变量与该主成分的关联越强,对主成分的解释力越强;
符号为正:变量与主成分呈正相关(变量增大,主成分增大);
符号为负:变量与主成分呈负相关(变量增大,主成分减小);
计算依据:基于原始变量的协方差矩阵或相关矩阵(PCA 的两种常见输入),通过特征值分解得到特征向量,再结合特征值计算:
例如:对 “语文、数学、英语、物理、化学”5 科成绩做 PCA,若第一主成分与所有科目载荷系数均为 0.8~0.9(正相关),则可将第一主成分解读为 “综合学习能力”;若第二主成分与语文、英语的载荷系数为 0.7~0.8,与物理、化学的载荷系数为 - 0.6~-0.7,则可解读为 “文科倾向 - 理科倾向” 的对比维度。
成分得分系数矩阵(记为)是将原始变量转换为样本主成分得分的系数矩阵,其每个元素表示 “计算第个主成分得分时,第个原始变量的权重”—— 通过该矩阵,可将标准化后的原始变量线性组合,得到每个样本在主成分上的得分(即 “主成分得分”)。
维度:与载荷矩阵维度相同,为矩阵(行对应变量,列对应主成分);
含义解读:元素是 “第个变量对第个主成分得分的贡献权重”—— 权重越大,该变量对样本在该主成分上的得分影响越大;
计算依据:依赖载荷矩阵和原始变量的统计特征(如标准差),核心逻辑是 “将原始变量标准化后,通过系数矩阵映射到主成分空间”:
若基于相关矩阵**** 做 PCA(此时原始变量已标准化,均值为 0、标准差为 1),成分得分系数矩阵(即特征向量矩阵),或等价于(载荷矩阵除以特征值的平方根);
若基于协方差矩阵**** 做 PCA(原始变量未标准化),成分得分系数矩阵(是原始变量的标准差对角矩阵),确保消除量纲影响。
例如:通过成分得分系数矩阵,可得到 “样本主成分 1 得分 = 0.3× 语文 + 0.4× 数学 + 0.2× 英语 + 0.05× 物理 + 0.05× 化学” 这样的公式,代入每个学生的标准化成绩,即可得到其在 “综合学习能力” 维度上的得分,用于后续的样本排序、聚类或可视化(如 PCA 散点图)。
为直观呈现两者的不同,从计算、含义、用途等 6 个关键维度做对比:
| 对比维度 | 载荷矩阵(Factor Loading Matrix) | 成分得分系数矩阵(Component Score Coefficient Matrix) |
|---|---|---|
| 核心含义 | 原始变量与主成分的相关系数,反映变量对主成分的贡献度 | 计算主成分得分的权重系数,反映变量对样本得分的影响度 |
| 计算依据 | 依赖变量的协方差 / 相关矩阵的特征向量 + 特征值平方根 | 依赖载荷矩阵(或特征向量)与变量的标准差(消除量纲) |
| 数学关系(标准化 PCA) | (为特征向量,为特征值对角矩阵) | (载荷矩阵除以特征值平方根) |
| 与数据的关联 | 仅与变量相关(描述变量对主成分的贡献) | 与样本 + 变量相关(用于计算样本在主成分上的得分) |
| 核心用途 | 解释主成分的物理含义(如 “综合能力”“文科倾向”) | 计算样本主成分得分(用于排序、聚类、可视化) |
| 数值大小影响 | 绝对值越大,变量对主成分的解释力越强 | 绝对值越大,变量对样本主成分得分的权重越大 |
关键结论:即使维度相同,两者的数值、含义、用途也完全不同 —— 载荷矩阵是 “变量 - 主成分” 的关联系数,服务于 “解释主成分”;得分系数矩阵是 “变量 - 样本得分” 的权重,服务于 “计算样本位置”。
虽然两者本质不同,但在 “基于相关矩阵的 PCA(原始变量已标准化)” 这一特殊场景下,存在明确的数学联系(但仍不是同一概念),需避免混淆 “联系” 与 “等同”。
当原始变量已标准化(均值,标准差),PCA 基于相关矩阵计算时:
假设某数据集有 2 个标准化变量、,PCA 得到 1 个主成分,特征向量,特征值:
载荷矩阵(变量与主成分的相关系数均为 0.95,说明主成分是 “两变量的综合”);
成分得分系数矩阵(用于计算样本主成分得分:);
验证联系:,符合数学关系,但两者数值(0.95 vs 0.707)和含义完全不同。
以 “学生成绩数据集”(含语文、数学、英语 3 个变量,10 个样本)为例,用 Python 的sklearn和numpy计算载荷矩阵与成分得分系数矩阵,直观展示差异。
import numpy as np
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
# 1. 构造学生成绩数据(10个样本,3个变量:语文、数学、英语)
data = np.array([
[85, 92, 88], [78, 85, 80], [92, 95, 90], [65, 70, 68], [72, 68, 75],
[88, 90, 92], [76, 78, 82], [90, 93, 89], [68, 72, 70], [80, 85, 83]
])
columns = ["语文", "数学", "英语"]
df = pd.DataFrame(data, columns=columns)
# 2. 标准化变量(基于相关矩阵做PCA,消除量纲影响)
scaler = StandardScaler()
data_std = scaler.fit_transform(df) # 标准化后:均值=0,标准差=1
# 3. 训练PCA(提取2个主成分)
pca = PCA(n_components=2)
pc_scores = pca.fit_transform(data_std) # 样本的主成分得分(依赖得分系数矩阵)
# 计算载荷矩阵:特征向量 × 特征值平方根
eigenvectors = pca.components_.T # 特征向量矩阵(3×2,变量数×主成分数)
eigenvalues = pca.explained_variance_ # 特征值(2个)
loading_matrix = eigenvectors @ np.diag(np.sqrt(eigenvalues)) # 载荷矩阵(3×2)
# 整理为DataFrame便于解读
loading_df = pd.DataFrame(
loading_matrix,
index=columns,
columns=["主成分1", "主成分2"]
)
print("载荷矩阵(变量与主成分的相关系数):")
print(loading_df.round(4))
载荷矩阵结果与解读:
| 主成分 1 | 主成分 2 | |
|---|---|---|
| 语文 | 0.9743 | -0.1867 |
| 数学 | 0.9816 | 0.1527 |
| 英语 | 0.9865 | -0.0658 |
主成分 1:三个变量的载荷系数均接近 1(正相关),说明主成分 1 是 “综合成绩” 维度,解释了成绩的主要变异(可通过pca.explained_variance_ratio_查看,此处约 95%);
主成分 2:语文、英语为负相关(-0.1867、-0.0658),数学为正相关(0.1527),可解读为 “数学倾向 vs 语文英语倾向” 维度,解释约 5% 的变异。
# 计算成分得分系数矩阵:基于标准化PCA,得分系数矩阵=特征向量(或载荷矩阵 × 特征值逆平方根)
# 方法1:直接从PCA结果获取(等价于特征向量)
score_coef_matrix1 = pca.components_.T # 3×2矩阵
# 方法2:通过载荷矩阵推导(验证数学关系)
score_coef_matrix2 = loading_matrix @ np.diag(1 / np.sqrt(eigenvalues)) # 载荷矩阵 × 特征值逆平方根
# 整理为DataFrame
score_coef_df = pd.DataFrame(
score_coef_matrix1,
index=columns,
columns=["主成分1", "主成分2"]
)
print("n成分得分系数矩阵(计算主成分得分的权重):")
print(score_coef_df.round(4))
成分得分系数矩阵结果与解读:
| 主成分 1 | 主成分 2 | |
|---|---|---|
| 语文 | 0.3284 | -0.9308 |
| 数学 | 0.3310 | 0.7612 |
| 英语 | 0.3326 | -0.3282 |
主成分 1 得分公式:(表示标准化后的值),三个变量权重接近,体现 “综合成绩” 的计算逻辑;
主成分 2 得分公式:,数学权重为正,语文 / 英语为负,体现 “数学倾向” 的计算逻辑;
验证样本得分:以第一个样本(标准化后语文 = 0.528,数学 = 0.845,英语 = 0.462)为例,,与pc_scores[0,0](PCA 直接输出的得分)一致,说明得分系数矩阵正确。
错误做法:用载荷矩阵中的系数(如主成分 1 的 0.9743、0.9816、0.9865)代替得分系数,计算样本主成分得分;
后果:得分数值被放大(如第一个样本 PC1 得分会变成 0.9743×0.528 + 0.9816×0.845 + 0.9865×0.462≈1.99,远大于正确值 0.67),导致后续的样本排序、聚类结果完全错误;
避坑方法:计算样本得分时,必须使用成分得分系数矩阵(sklearn中pca.components_.T或通过载荷矩阵推导),而非载荷矩阵。
反例:本案例中,语文对主成分 1 的载荷系数是 0.9743,得分系数是 0.3284,数值差异显著;
避坑方法:牢记核心含义 —— 载荷矩阵是 “相关系数”,得分系数矩阵是 “权重系数”,即使数学上有关联,也不是同一概念。
后果:量纲大的变量(如 “收入” 单位为万元,“年龄” 单位为岁)会主导主成分得分,导致结果失真;
避坑方法:若变量量纲差异大,必须先标准化(基于相关矩阵做 PCA),再使用标准化后的得分系数矩阵;若基于协方差矩阵做 PCA,需用得分系数矩阵公式(为原始变量标准差)消除量纲影响。
成分得分系数矩阵与载荷矩阵是 PCA 分析的 “左膀右臂”,但职责分明:
载荷矩阵:解决 “主成分是什么” 的问题,用于解释主成分的物理含义,是 “变量层面” 的分析工具;
成分得分系数矩阵:解决 “样本在主成分上的位置如何” 的问题,用于计算样本得分,是 “样本层面” 的分析工具。
先看载荷矩阵,再算得分:做 PCA 时,先通过载荷矩阵解读主成分含义(如 “综合能力”“风险维度”),明确分析方向后,再用得分系数矩阵计算样本得分;
工具使用注意:用sklearn时,pca.components_.T是成分得分系数矩阵(标准化 PCA 场景),载荷矩阵需手动计算(特征向量 × 特征值平方根);用R的prcomp函数时,rotation参数输出的是载荷矩阵,x参数输出的是样本主成分得分(已用得分系数矩阵计算完成);
报告规范:撰写分析报告时,需同时呈现两者(或根据需求选择),并明确标注 —— 若解释主成分含义,列出载荷矩阵;若展示样本得分计算逻辑,列出得分系数矩阵,避免读者混淆。
最终,两者的区分本质是 “理解 PCA 的双重视角”:既要通过载荷矩阵看透 “变量对主成分的贡献”,也要通过得分系数矩阵实现 “样本在主成分空间的映射”—— 唯有清晰区分,才能让降维分析真正服务于业务洞察(如用户分层、风险分类、特征解释)。

在主成分分析(PCA)、因子分析等降维方法中,“成分得分系数矩阵” 与 “载荷矩阵” 是两个高频出现但极易混淆的核心矩阵 —— ...
2025-11-12大数据早已不是单纯的技术概念,而是渗透各行业的核心生产力。但同样是拥抱大数据,零售企业的推荐系统、制造企业的设备维护、金 ...
2025-11-12在数据驱动的时代,“数据分析” 已成为企业决策的核心支撑,但很多人对其认知仍停留在 “用 Excel 做报表”“写 SQL 查数据” ...
2025-11-12金融统计不是单纯的 “数据计算”,而是贯穿金融业务全流程的 “风险量化工具”—— 从信贷审批中的客户风险评估,到投资组合的 ...
2025-11-11这个问题很有实战价值,mtcars 数据集是多元线性回归的经典案例,通过它能清晰展现 “多变量影响分析” 的核心逻辑。核心结论是 ...
2025-11-11在数据驱动成为企业核心竞争力的今天,“不知道要什么数据”“分析结果用不上” 是企业的普遍困境 —— 业务部门说 “要提升销量 ...
2025-11-11在大模型(如 Transformer、CNN、多层感知机)的结构设计中,“每层神经元个数” 是决定模型性能与效率的关键参数 —— 个数过少 ...
2025-11-10形成购买决策的四个核心推动力的是:内在需求驱动、产品价值感知、社会环境影响、场景便捷性—— 它们从 “为什么买”“值得买吗 ...
2025-11-10在数字经济时代,“数字化转型” 已从企业的 “可选动作” 变为 “生存必需”。然而,多数企业的转型仍停留在 “上线系统、收集 ...
2025-11-10在数据分析与建模中,“显性特征”(如用户年龄、订单金额、商品类别)是直接可获取的基础数据,但真正驱动业务突破的往往是 “ ...
2025-11-07在大模型(LLM)商业化落地过程中,“结果稳定性” 是比 “单次输出质量” 更关键的指标 —— 对客服对话而言,相同问题需给出一 ...
2025-11-07在数据驱动与合规监管双重压力下,企业数据安全已从 “技术防护” 升级为 “战略刚需”—— 既要应对《个人信息保护法》《数据安 ...
2025-11-07在机器学习领域,“分类模型” 是解决 “类别预测” 问题的核心工具 —— 从 “垃圾邮件识别(是 / 否)” 到 “疾病诊断(良性 ...
2025-11-06在数据分析中,面对 “性别与购物偏好”“年龄段与消费频次”“职业与 APP 使用习惯” 这类成对的分类变量,我们常常需要回答: ...
2025-11-06在 CDA(Certified Data Analyst)数据分析师的工作中,“可解释性建模” 与 “业务规则提取” 是核心需求 —— 例如 “预测用户 ...
2025-11-06在分类变量关联分析中(如 “吸烟与肺癌的关系”“性别与疾病发病率的关联”),卡方检验 P 值与 OR 值(比值比,Odds Ratio)是 ...
2025-11-05CDA 数据分析师的核心价值,不在于复杂的模型公式,而在于将数据转化为可落地的商业行动。脱离业务场景的分析只是 “纸上谈兵” ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-04【2025最新版】CDA考试教材:CDA教材一级:商业数据分析(2025)__商业数据分析_cda教材_考试教材 (cdaglobal.com) ...
2025-11-04