机器学习在量化投资中的应用：从技术分析谈起-CDA数据分析师官网

机器学习在量化投资中的应用：从技术分析谈起

2016-06-03

机器学习在量化投资中的应用：从技术分析谈起

在这篇文章里，我想讲的，是那些将技术分析和机器学习算法相结合的论文。首先，我会简要介绍一个最常用的技术分析方法：双移动平均线法。然后，我将简要介绍一下相关的论文。本文的重头戏是，我想跟大家一起，发现这些方法的问题，逐步把这些方法变成一个“看起来还蛮像样”的投资策略。我首先声明，这个方法是否work我也不知道，因为我没有细致地尝试。我想展示的，是一个思考问题的思路。

1 移动平均线法

下图展示了一个双移动平均线的例子。

双移动平均线的用法是：

(1)用两个长度不同的窗口，计算价格数据的移动平均值;

(2)当短的移动平均值穿过长移动平均值时，一个买入信号就诞生了。随着时间的推移，当短的移动平均值小于长的移动平均值时，就产生了一个卖出信号。

这个方法是如此的简单方便，很多散户都会或多或少地使用该方法。学术界对这个方法亦有很大的兴趣。文献[1]首先从假设检验的角度，去验证这个方法在实际数据上的盈利能力。而后有很多论文利用这篇文章中提供的方法，在不同的数据集上验证。他们的结果都表明，长期来看，如果不考虑交易费的话，这个方法貌似还有一点点的盈利能力，但是如果一点考虑交易费，这个能力就基本为0了。

2 移动平均与机器学习算法

那么，这样一个简单的移动平均的方法，是怎么被应用在机器学习算法中，进行投资的呢?千万不要小看研究人员的脑洞(不过这似乎也不需要太大的脑洞)。

让我们随手从机器学习的武器库里面挑个武器吧。恩，就神经网络好了，这玩意儿最近很火。要很深吗?咱们先用个浅的玩玩吧。我们需要给自己设定一个目标，这个目标是，我希望通过历史数据值，预测第二天的股价涨跌。有了这个目标，我们干脆把神经网络当成一个分类器用。在每一天t，我都基于历史数据，建立一个输入向量x_t。看，机会来了，我们可以把移动平均线产生的信号，当成这个特征向量的某个维度。如果移动平均线让我们在某天持有该股票，那么我们可以把这个维度设为1;而在其他的天数，我们则把它设为0。

除了移动平均线，股票的技术分析手段中还有好多可以产生类似信号的东西，比如MACD，RSI之类。所以，我们可以利用这些信号，把它们安放在不同的维度，构成我们输入向量x_t。标签y_t就容易了，如果t+1天收益率为正，则设为1，否则为0。至此，一个二分类问题的训练集构建，就搞定了。

这个方法看起来很简单，也确实没啥难想的。相关的文献不少，可以看参考文献[2, 3, 4]。在那个年代，这些文章都取得了相当的引用量。

3 问题与改进

显然，这样的方法是存在问题的。而且看起来图样图森破，甚至有点儿naive。在这一节，我们将一步一步，把这个方法变的“看起来还蛮像样”。

3.1 趋势的表示

使用技术分析手段的人，被认为是趋势跟随型的投资者(可能有误。。)。这些论文里面也声称，他们希望通过神经网络来预测趋势。但是，趋势就是明天股票收益的正负吗?让我们来看个例子。下图是我截取的苹果公司从2009年10月29日，到2011年10月24日的股价。这是一个非常明显的上升趋势。但是，在这个趋势中，日收益率为正的比率是多大?答案是只有55%。所以你看，把第二天股票收益率的正负当成趋势的表征，并不靠谱。

那么，能不能换一个靠谱一点儿的方式来表达趋势?也就是表达y_t?当然可以。一个简单的方法是，我们可以把计算t+1,t+2,…,t+N，这些天收益的平均值，观察其正负，构建新的y_t(正则1，否则置0)。当然，N是一个可以由你设置的量。

3.2 更进一步

经过上一步的改进，这个方法好像似乎有点儿像样了。我们来理一下思路。我们是怎么来解决这个问题的呢?步骤如下：(1)大喊一声“我要做趋势投资者”，(2)找到那些声称表征趋势的技术指标，构成输入向量x_t，(3)为这些向量配备一个表征趋势正负的y_t，(4)扔进一个神经网络训练，(5)利用训练好的神经网络预测。

还是有点儿naive，我们甚至都没用到神马金融上的概念。在3.1节的结尾，我们说要用t+1,t+2,…,t+N，这些天的收益的平均值，观其正负，来构建y_t。这似乎比较靠谱了。但是细细一想，假如这些天收益的平均值为0.02，但是标准差达到了0.04，我们这么做似乎有点儿慌。而如果这些天的收益平均值是0.01，但是标准差只有0.005，似乎这么做还是靠谱的。这就提醒我们，作为一个趋势投资者，在动荡里，我们如浮萍一般无依(当然，动荡则是另外一些交易者发家致富的机会)。我们构建y_t的时候，不能只去想收益的平均值，还要考虑它的波动。

有了这个概念，我们就可以重新思考下y_t的设定。我们将t+1,t+2,…,t+N这些天收益的平均值记为r_t，而标准差记为sigma_t。我们考虑这样一个量r_t – lambda * sigma_t的正负。这里，lambda是一个事先设定的常量，它有一个比较好的金融角度的意义：它体现了投资者对风险的厌恶程度。Lambda越大，厌恶性越强。

当然，你可能觉得这个波动率估计的太不准了。不是有个拿诺奖的工作，(G)ARCH，用来估算波动率的嘛。你也许也可以用它替代sigma_t。

3.3 再进一步

到此为止，我知道，你肯定还不满足。现在这个方法看起来还是有点儿naive，一个分类问题，有啥了不起?好吧，那我们跳出分类问题的框框吧。

我们已经有了x_t，也知道，对于每一天，我们有两种选择，即持有这只股票还是不持有(在我们之前的讨论里，并不允许做空，所以只有这两种)。让我们给x_t换个名字，叫它“状态”(state)，而把两种投资的选择，叫做动作(action)。你大概已经看出来了，我在往增强学习的框架里面靠。既然是增强学习，那么我们还得定义一个回报(reward)，恩，这是现成的嘛，r_t – lambda * sigma_t。

于是，我们就这样慢慢YY出了一个基于增强学习的量化投资方法。很巧，以前已经有人做过很类似的工作了，请参看[5]。

总结：

在这篇文章里，我们从前人看似naive的方法，一步一步地推进，搞出了一个“看起来还蛮像样”的投资策略。这个方法直接去用，估计是要失败的。如果你够细致，会发现我一直在做y_t的文章。也许y_t的文章已经做得差不多了，但是x_t怎么办?就用那些技术指标?或许，只有那些真正在实践中成功运用了机器学习方法的人，才拥有好的x_t吧。

机器学习神经网络特征特征向量假设检验

数据分析咨询请扫描二维码

机器学习在量化投资中的应用：从技术分析谈起

考试指南

报考指南

热门栏目