
统计之 - 协方差_数据分析师
协方差分析是建立在方差分析和回归分析基础之上的一种统计分析方法。方差分析是从质量因子(qualitative)的角度探讨因素的不同水平对实验指标影响的差异。一般说来,质量因子是可以人为控制的。回归分析是从数量因子(quantitative)的角度出发,通过建立回归方程来研究实验指标与一个(或几个)因子之间的数量关系。但大多数情况下,数量因子是不可以人为加以控制的。
在概率论和统计学中,协方差用于衡量两个变量的总体误差,而方差是协方差的一种特殊情况,即当两个变量是相同的情况。在X和Y是独立的情况下,期望值分别为E[X]与E[Y]的两个实数随机变量X与Y之间的协方差定义为:
直观上来看,协方差表示的是两个变量总体误差的期望,或者更直白的说协方差用于判定两个变量的相互关联性:
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值
如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值
如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]。但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。
协方差Cov(X,Y)的度量单位是X的协方差乘以Y的协方差。而取决于协方差的相关性,是一个衡量线性独立的无量纲的数。
协方差为0的两个随机变量称为是不相关的。
两个不同参数之间的方差就是协方差,若两个随机变量X和Y相互独立,则E[(X-E(X))(Y-E(Y))]=0,因而若上述数学期望不为零,则X和Y必不是相互独立的,亦即它们之间存在着一定的关系。
E[(X-E(X))(Y-E(Y))]称为随机变量X和Y的协方差,记作Cov(X,Y),即Cov(X,Y)=E[(X-E(X))(Y-E(Y))]。
协方差与方差之间有如下关系:
D(X+Y)=D(X)+D(Y)+2Cov(X,Y)
D(X-Y)=D(X)+D(Y)-2Cov(X,Y)
协方差与期望值有如下关系:
Cov(X,Y)=E(XY)-E(X)E(Y)。
协方差的性质:
(1)Cov(X,Y)=Cov(Y,X);
(2)Cov(aX,bY)=abCov(X,Y),(a,b是常数);
(3)Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)。
由协方差定义,可以看出Cov(X,X)=D(X),Cov(Y,Y)=D(Y)。
协方差作为描述X和Y相关程度的量,在同一物理量纲之下有一定的作用,但同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异。为此引入如下概念:
定义称为随机变量X和Y的相关系数。
若ρXY=0,则称X与Y不相关。
即ρXY=0的充分必要条件是Cov(X,Y)=0,亦即不相关和协方差为零是等价的。
设ρXY是随机变量X和Y的相关系数,则有
(1)∣ρXY∣≤1;
(2)∣ρXY∣=1充分必要条件为P{Y=aX+b}=1,(a,b为常数,a≠0)
设X和Y是随机变量,若E(X^k),k=1,2,...存在,则称它为X的k阶原点矩,简称k阶矩。
若E{[X-E(X)]k},k=1,2,...存在,则称它为X的k阶中心矩。
若E{(X^k)(Y^p)},k、l=1,2,...存在,则称它为X和Y的k+p阶混合原点矩。
若E{[X-E(X)]^k[Y-E(Y)]^l},k、l=1,2,...存在,则称它为X和Y的k+l阶混合中心矩。
显然,X的数学期望E(X)是X的一阶原点矩,方差D(X)是X的二阶中心矩,协方差Cov(X,Y)是X和Y的二阶混合中心矩。
农业科学实验中,经常会出现可以控制的质量因子和不可以控制的数量因子同时影响实验结果的情况,这时就需要采用协方差分析的统计处理方法,将质量因子与数量因子(也称协变量)综合起来加以考虑。
比如,要研究3种肥料对苹果产量的实际效应,而各棵苹果树头年的“基础产量”不一致,但对试验结果又有一定的影响。要消除这一因素带来的影响,就需将各棵苹果树第1年年产量这一因素作为协变量进行协方差分析,才能得到正确的实验结果。
当两个变量相关时,用于评估它们因相关而产生的对应变量的影响。
当多个变量独立时,用方差来评估这种影响的差异。
当多个变量相关时,用协方差来评估这种影响的差异。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-24解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-24CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-24从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-23用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-23鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-23解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-22解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-22CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-22左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-22你是不是也经常刷到别人涨粉百万、带货千万,心里痒痒的,想着“我也试试”,结果三个月过去,粉丝不到1000,播放量惨不忍睹? ...
2025-07-21我是陈辉,一个创业十多年的企业主,前半段人生和“文字”紧紧绑在一起。从广告公司文案到品牌策划,再到自己开策划机构,我靠 ...
2025-07-21CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-21MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-21在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18刚入职场或是在职场正面临岗位替代、技能更新、人机协作等焦虑的打工人,想要找到一条破解职场焦虑和升职瓶颈的系统化学习提升 ...
2025-07-182025被称为“AI元年”,而AI,与数据密不可分。网易公司创始人丁磊在《AI思维:从数据中创造价值的炼金术 ...
2025-07-18CDA 数据分析师:数据时代的价值挖掘者 在大数据席卷全球的今天,数据已成为企业核心竞争力的重要组成部分。从海量数据中提取有 ...
2025-07-18