用R检验配对股票的协整性-CDA数据分析师官网

热线电话：13121318867

用R检验配对股票的协整性

2018-03-11

用R检验配对股票的协整性

基于统计套利的配对交易策略是一种市场中性策略。具体地说，是指从市场上找出历史股价走势相近的股票进行配对，当配对股票价格差（Spread）偏离历史均值时，则做空股价偏高的股票，同时做多股价偏低的股票，等待它们回归到长期均衡关系，由此赚取两股票价格收敛的报酬。

进行配对交易，第一步也是最关键的一步是寻找符合配对条件的股票，即两支历史价格走势相近，具有长期稳定关系的股票。本文解释如何用R来实现协整检验。

假设你有两支股票，如TKR_Y和TKR_X，各自5分钟行情的历史数据，你想要知道它们是否存在协整关系；再假设这些数据是从PostgreSQL数据库（pairs_trading_test）中提取，数据表（tbl_quote）的结构为：

id #id

market #市场，如SH，SZ

symbol #代码，如600036

qdatetime #时间戳，YYYY-MM-DD HH:MM:SS

open #开盘价

high #最高价

low #最低价

close #收盘价

adj_close #调整后收盘价，指除权息后经调整的收盘价

数据表示

在R中，当然可以用向量（vector）或数据框（data frame）来表示你的时间序列数据，但其过程肯定乏味低效。强烈建议使用zoo包或xts包来进行时间序列分析，xts是zoo包的一个超集，包含极高的运算效率和其它一些方便实用的特点。此处，我们用zoo对象来表达时间序列数据。

一旦把数据加载到zoo对象，比如t，那么它的行为与数据框类似。一个zoo对象可以包含若干列，每一列是一个时间序列，每一行则是这些时间序列在同一时刻的观测值。对象也提供了另外一些附加属性，如：index(t)是一个日期向量，每次观察一个日期；第一个和最后一个日期可以分别用start(t)和end(t)获得。

加载数据

从数据库中读取并加载数据只需完成以下简单步骤：

library(zoo)

library(RpgSQL)

r_conn<-dbConnect(pgSQL(), user="postgres", password="postgres",

dbname="pairs_trading_test", host="localhost")

q<-paste("select qdatetime, log(close) from tbl_quote where market like '", X_market, "' and symbol like '", X_symbol, "'", sep="")

quote_x <- dbGetQuery(r_conn, q)

q<-paste("select qdatetime, log(close) from tbl_quote where market like '", Y_market, "' and symbol like '", Y_symbol, "'", sep="")

quote_y <- dbGetQuery(r_conn, q)

#用zoo函数来构造zoo对象，该函数有两个参数，一个数据向量，一个日期向量

quote_x <- zoo(quote_x$close, quote_x$qdatetime)

quote_y <- zoo(quote_y$close, quote_y$qdatetime)

# merge函数合并两个zoo对象，同时计算它们的交集（all=FALSE）或并集（all=TRUE）

t.zoo <- merge(quote_x, quote_y, all=FALSE)

#此时，t.zoo是一个包含两列：quote_x和quote_y的zoo对象。由于R中许多统计函数需要数据框作为输入项。在此，我们创建一个数据框对象

t <- as.data.frame(t.zoo)

#打印输出日期范围

cat("日期范围是：", format(start(t.zoo)), "至", format(end(t.zoo)), "\n")

#----------------------------------------------------------------------------------------------------------------

# X_market, X_symbol, Y_market, Y_symbol分别为股票TKR_X、TKR_Y的市场和代码

# log(close)表示取收盘价自然对数。取价格的对数序列是协整检验的常用做法，目的是消除数据中可能存在的异方差。

#----------------------------------------------------------------------------------------------------------------

构造价差序列

在Matlab、Eviews等软件中，一般是先检验协整关系，然后再构造价差序列。在R中，我们可以以另外一种方式完成同样的任务：先构造价差序列，然后对该序列进行单位根检验。如果价差序列有一个根位于单位圆内，则相应的股票就是协整的。

价差序列定义如下：

S = y - (β × x)

此处，β是对冲系数，用最小二乘法计算而得。移项，我们要知道的不过就是最适合以下方程的β：

y =（-β）× x

这是一个简单且没有y截距的线性方程。在R中，lm函数可以用来拟合这样的线性模型。

# lm函数用OLS构造线性回归模型。我们先构造一个截距为零的线性模型，然后提取模型的第2个回归系数。

m <- lm(quote_y ~ quote_x + 0, data = t)

beta <- coef(m)[1]

#现在，计算价差序列

sprd <- t$quote_y - beta * t$quote_x

传递给lm的第一个参数是一个指定线性模型的公式，公式quote_y ~ quote_x + 0表示模型如下：

quote_yi= β × quote_xi+ εi

（如果公式中省略掉"+ 0"，则R也会拟合一个y截距）

检验协整关系

ADF是单位根检验的一种基本方法，许多R包都提供该方法。这里，我们用tseries包中的adf.test函数。该函数返回一个包含测试结果，尤其是我们所需的P值，的对象。

library(tseries)

ht <- adf.test(sprd, alternative="stationary", k=0)

设置alternative="stationary"非常重要：

对统计学者而言，它指定了一个价差序列非平稳或发散的零假设

对其他人而言，它意味着如果P值很小，则价差是均值回复的。至于何为“小”，取决与你有多严格，一般是小于0.1或0.05（越小越好）

至此，协整检验就Ok了。我们可以将ADF检验结果解释如下：

#ht对象中包含ADF检验中得到的P值。p值是价差序列非均值回复的概率，因此，越小的P值意味序列非均值回复的概率越小。

if (ht$p.value < 0.05) {
cat("价差可能均值回复.\n")
} else {
cat("价差不满足均值回复.\n")
}

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

SQL 线性回归最小二乘

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇大数据就意味着更大的安全风险吗

下一篇使用R完成正太分布检验

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

用R检验配对股票的协整性

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据分析核心技能体系：从工具落地到业 ...

【CDA干货】企业价值市场法价值比率与线性回归分析 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

CDA持证人专访：赵君研谈金融行业数据分析与运营岗 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载