时序数据处理难题攻略（上）-CDA数据分析师官网

热线电话：13121318867

首页大数据时代时序数据处理难题攻略（上）

时序数据处理难题攻略（上）

2020-11-10

作者：计量与统计

来源：公众号计量与统计

时间序列分析是根据系统观测得到的时间序列数据，通过曲线拟合和参数估计来建立数学模型的理论和方法。它一般采用曲线拟合和参数估计方法（如非线性最小二乘法）进行。

一个时间序列通常由 4 种要素组成：趋势、季节变动、循环波动和不规则波动。辨识合适的随机模型,进行曲线拟合,即用通用随机模型去拟合时间序列的观测数据。对于短的或简单的时间序列，可用趋势模型和季节模型加上误差来进行拟合。

对于平稳时间序列，可用通用 ARMA 模型（自回归滑动平均模型）及其特殊情况的自回归模型、滑动平均模型或组合-ARMA 模型等来进行拟合。当观测值多于 50 个时一般都采用 ARMA 模型。对于非平稳时间序列则要先将观测到的时间序列进行差分运算，化为平稳时间序列，再用适当模型去拟合这个差分序列。

面板数据，即 Panel Data，也叫“平行数据”，是指在时间序列上取多个截面，在这些截面上同时选取样本观测值所构成的样本数据。面板数据分析方法是最近几十年来发展起来的新的统计方法，面板数据可以克服时间序列分析受多重共线性的困扰,能够提供更多的信息、更多的变化、更少共线性、更多的自由度和更高的估计效率，而面板数据的单位根检验和协整分析是当前最前沿的领域之一。

我们将分两期，从时间序列数据与面板数据分析两个方面入手，从数据检验（平稳性检验、模型滞后期、协整检验、格兰杰检验）、数据模型（VAR 模型、VEC 模型、脉冲响应函数等）、平衡与非平衡面板出发，进行比较和探究。

平稳性问题汇总

Q1:最重要最基础的！什么是面板数据？

面板数据，即 Panel Data，是截面数据与时间序列数据综合起来的一种数据类型。其有时间序列和截面两个维度，当这类数据按两个维度排列时，是排在一个平面上，与只有一个维度的数据排在一条线上有着明显的不同，整个表格像是一个面板,所以把 panel data 译作“面板数据”。

但是,如果从其内在含义上讲,把 panel data 译为“时间序列—截面数据” 更能揭示这类数据的本质上的特点。也有译作“平行数据”或“TS-CS 数据（Time Series - Cross Section）”。

如：城市名：北京、上海、重庆、天津的 GDP 分别为 10、11、9、8（单位亿元）。这就是截面数据，在一个时间点处切开，看各个城市的不同就是截面数据。

如：2000、2001、2002、2003、2004 各年的北京市 GDP 分别为 8、9、10、11、12（单位亿元）。这就是时间序列，选一个城市，看各个样本时间点的不同就是时间序列。

如：2000、2001、2002、2003、2004 各年中国所有直辖市的 GDP 分别为：

北京市分别为 8、9、10、11、12；

上海市分别为 9、10、11、12、13；

天津市分别为 5、6、7、8、9；

重庆市分别为 7、8、9、10、11（单位亿元），这就是面板数据。

Q2:balanced 和 unbalanced 面板数据到底有什么区别？

“平衡的意思是，如果按截面成员堆积数据，每个截面成员应包括正好相同的时期；如果按日期堆积数据，每个日期应包含相同数量的截面成员观测值，并按相同顺序排列。特别要指出的是，基础数据并不一定是平衡的，只要在输入文件中有表示即可。如果观测值中有缺失数据，一定要保证文件中给这些缺失值留有位置。”

——from 高铁梅

Q3:何为平稳性检验？

说到平稳，其实有两种平稳——宽平稳、严平稳。

严平稳相较于宽平稳来说，条件更多更严格，而我们时常运用的时间序列，大多宽平稳就够了。

•什么是严平稳：是在固定时间和位置的概率分布与所有时间和位置的概率分布相同的随机过程。这样，数学期望和方差这些参数也不随时间和位置变化。（比如白噪声）

•什么是宽平稳：宽平稳是使用序列的特征统计量来定义的一种平稳性。它认为序列的统计性质主要由它的低阶矩决定，所以只要保证序列低阶矩平稳（二阶），就能保证序列的主要性质近似稳定。

两者关系：

•一般关系：严平稳条件比宽平稳条件苛刻，通常情况下，严平稳（低阶矩存在）能推出宽平稳成立，而宽平稳序列不能反推严平稳成立。

•特例：不存在低阶矩的严平稳序列不满足宽平稳条件，例如服从柯西分布的严平稳序列就不是宽平稳序列。当序列服从多元正态分布时，宽平稳可以推出严平稳。

Q4:如何进行平稳性检验？

检查序列平稳性的标准方法是单位根检验。有 6 种单位根检验方法：ADF 检验、DFGLS检验、PP 检验、KPSS 检验、ERS 检验和 NP 检验，本节将介绍 DF 检验、ADF 检验。

ADF 检验和 PP 检验方法出现的比较早，在实际应用中较为常见，但是，由于这 2 种方法均需要对被检验序列作可能包含常数项和趋势变量项的假设，因此，应用起来带有一定的不便；其它几种方法克服了前 2 种方法带来的不便，在剔除原序列趋势的基础上，构造统计量检验序列是否存在单位根，应用起来较为方便。

ADF 检验是在 Dickey-Fuller 检验(DF 检验)基础上发展而来的。因为 DF 检验只有当序列为 AR(1)时才有效。如果序列存在高阶滞后相关，这就违背了扰动项是独立同分布的假设。在这种情况下，可以使用增广的 DF 检验方法（augmented Dickey-Fuller test ）来检验含有高阶序列相关的序列的单位根。

tips:

在进行 ADF 检验时，必须注意以下两个实际问题：

（1）必须为回归定义合理的滞后阶数，通常采用 AIC 准则来确定给定时间序列模型的滞后阶数。在实际应用中，还需要兼顾其他的因素，如系统的稳定性、模型的拟合优度等。

（2）可以选择常数和线性时间趋势，选择哪种形式很重要，因为检验显著性水平的 t 统计量在原假设下的渐近分布依赖于关于这些项的定义。

Q5:如果序列平稳了，那怎么看定阶啊？

AR 模型：自相关系数拖尾，偏自相关系数截尾；

MA 模型：自相关系数截尾，偏自相关函数拖尾；

ARMA 模型：自相关函数和偏自相关函数均拖尾。

P、Q的选择主要看从第几期开始快速收敛。

Q6:如何制定滞后数呢？

先找出最小的 AIC 和 SIC（不是绝对值），在此基础上看 ADF 检验是否通过，即判断是否是平稳序列。

补充一下关于 AIC 的信息：

AIC 信息准则：是衡量统计模型拟合优良性的一种标准，由于它为日本统计学家赤池弘次创立和发展的，因此又称赤池信息量准则。它建立在熵的概念基础上，可以权衡所估计模型的复杂度和此模型拟合数据的优良性。

在一般的情况下，AIC 可以表示为：AIC=2k-2ln(L)其中：k 是参数的数量，L 是似然函数。假设条件是模型的误差服从独立正态分布。让 n 为观察数，RSS 为剩余平方和，那么 AIC变为：AIC=2k+nln(RSS/n)增加自由参数的数目提高了拟合的优良性，AIC 鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是 AIC 值最小的那一个。赤池信息准则的方法是寻找可以最好地解释数据但包含最少自由参数的模型。

Q7：ADF 检验和协整检验是什么关系？

先做单位根检验，看变量序列是否平稳序列，若平稳，可构造回归模型等经典计量经济学模型；若非平稳，进行差分，当进行到第 i 次差分时序列平稳，则服从 i 阶单整（注意趋势、截距不同情况选择，根据 P 值和原假设判定）。

若所有检验序列均服从同阶单整，可构造 VAR 模型，做协整检验（注意滞后期的选择），判断模型内部变量间是否存在协整关系，即是否存在长期均衡关系。如果有，则可以构造 VEC 模型或者进行 Granger 因果检验，检验变量之间“谁引起谁变化”，即因果关系。

单位根检验是序列的平稳性检验，如果不检验序列的平稳性直接 OLS 容易导致伪回归。当检验的数据是非平稳（即存在单位根），并且各个序列是同阶单整（协整检验的前提），想进一步确定变量之间是否存在协整关系，可以进行协整检验，协整检验主要有 EG 两步法和 JJ 检验。

——热门课程推荐：

想学习PYTHON数据分析与金融数字化转型精英训练营，您可以点击>>>“人才转型”了解课程详情；

想从事业务型数据分析师，您可以点击>>>“数据分析师”了解课程详情；

想从事大数据分析师，您可以点击>>>“大数据就业”了解课程详情；

想成为人工智能工程师，您可以点击>>>“人工智能就业”了解课程详情；

想了解Python数据分析，您可以点击>>>“Python数据分析师”了解课程详情；

想咨询互联网运营，你可以点击>>>“互联网运营就业班”了解课程详情；

想了解更多优质课程，请点击>>>