京公网安备 11010802034615号
经营许可证编号:京B2-20210330
机器学习在量化投资中的应用:那些年我犯过的错
机器学习的论文里面通常会有一张这样关于准确率的图:所有被比较的方法的准确率图线,都在文章提出的论文的方法的准确率图线之下。看到这张图,我们大概会觉得这个方法蛮不错的,可以一读。
如果还是抱着类似的想法去读机器学习在量化投资领域里的某些论文,那么你得当心了。让我们以文献[1]作为一个例子。在文献[1]里面,画出了’Total wealth achieved’的图线,我们截取其中的一幅,如下:
所谓的total wealth achieved,其实就是累计的收益。假设有一个人,第一天投资了1块钱,他在第t天的收益为r_t,那么到了第T天,他的累计收益就是(1+r_t)的连乘(直到T)。在这篇文章里,非常漂亮,所有既有的方法在累计收益的图线,被该文提出的方法(CWMR)完美压制,而且随着时间的变大,差距越来越大了。我一开始读这篇文章的时候,感觉该文提出的方法效果实在是太牛逼了。
下面我们将说明,累计收益图线是一条比较“然并卵”的图线。我们假设,有两个基金经理A和B,他们都从一块钱(这只是一个例子。。)开始起步。第一天,A表现出色,全线涨停,怒取10%的收益。B呢,押错了宝,本指望靠跟着国家队混口饭吃,结果被摆了一道,买的股票全跌停,损失10%。作为B的好基友,A看不下去了,他知道B不怎么会投资,于是跟B说,以后你每天就跟我混吧,我干嘛你干嘛。于是,从第二天开始,两人的每天的收益一模一样。假设从第二天起,他俩的收益在0.5% 到1%之间随机波动。那么投资了一千天之后,他俩的累计收益曲线是什么样子的呢?请看下图:
很明显,这两条曲线之间的差距也变的越来越大了,而我们知道,他俩其实只在第一天收益有所不同而已,而在其他的999天完全一样!
所以你看,累计收益的曲线,并不是一条很好表示算法表现的曲线。评价一个算法,我们还得综合很多其他的评价指标,如夏普比率,最大回撤等等。那累计收益曲线是不是一点用也没有呢?不是的,虽然它的绝对数值本身的意义有限,但是我们可以通过它清晰地看到策略的涨跌。
对使用范围的误解
使用机器学习做量化投资的论文,大体上有两类思路。第一类如我在上一篇文章中所讲,是设计个股的投资策略。另外一类就是类似文献[1],考察的如何设计合理的投资组合。其实这两种方法的目的是一致的,也就是大家常说的“寻找alpha”。
但是,投资的世界是如此复杂,并非所有的任务都是跟“寻找alpha”直接相关的。比如,如果你是一个交易员,你的老大告诉你,现在我有XX公司的一千万股必须要卖掉,你看着办吧。考虑到这是一个比较大的交易量,如果你按照平常的交易方式,在限价订单簿上挂这么大的卖单,那么那些买家立马就知道:这小子肯定有很大的卖出压力,那咱们果断要压价啊,压得再低这货都会卖的!为了防止在大单交易的时候出现这样的情况,有一种新的交易场所叫“暗池”。在暗池这个交易场所里,你不再关心能卖多少钱了(我的理解里,价格是由暗池的提供者以一种比较合理的、大家都可以接受的方式给出),你现在只想尽量多的把股票给卖出去(我们只讨论卖的情况,当然也有人买)。而且,在暗池里,你所能看到的,也就是你自己卖了多少股,其他信息都看不到了。由于暗池交易的参与者交易量都非常大,大家又没法看到其他人的单,所以,往往成交量有限。你挂了一个卖单,最后可能只有15%的股票给卖出去了。当然,市场上有不止一个暗池可供你操作。那么问题来了,你将如何把你的订单分配到这些暗池中呢?
好了,现在让我们来把这个问题具体化。这里我们只考虑卖股票的情况。假设,你在每个时间点t,都有V的t次方这么多的XXX公司的股票要卖出,而有K个暗池可以供你交易。你的目的就是,在每个时间点t,把V的t次方拆分成K份,分别放入不同的暗池,使得最多的股票可以被卖出。这就是Michael Kearns在[2]中所讲述的故事。这篇文章做了一个非常强的假设,如下图
这篇文章给我最大的启示在于,它告诉我,机器学习算法不止可以被用来“寻找alpha”,它也可以在一些其他的投资环节中起作用。它可以优化某些投资过程,把一些手动、半自动的投资方式变成自动化。即使这样的改变不能直接带来alpha,也一样大有用途。
对实证研究的漠视
我刚开始接触机器学习在算法交易中的应用的时候,以为这件事是很简单的:我只需要根据历史数据,用一个机器学习算法预测下一个时间点股价不就得了么。显然,这样的想法又too young too simple了,被我的导师无情批判过。
那么,究竟应该从什么样的一个出发点来设计一个算法呢?我的导师认为,应该是从股票数据上观察得到的某个性质出发。比如,我在上一篇文章里提到的方法,其实就是基于“某些股票数据呈现出趋势”这样一个性质入手,来开发一个交易策略的。而我们提到的文献[1],则是从“股票收益存在均值回归”这样一个性质入手的。
我应该从哪里得到这样的性质的?我相信业界的人应该有观察到一些数据的性质,但是他们不会去说出来,所以,对于一个普通人来说,可能就得依靠阅读实证性的文章了。有一些实证性的文章会去研究股票数据具有哪些固有的性质。比如说均值回归、动量,其实都是有实证研究的支持的。
对于一个想用机器学习来进行量化投资的研究者来说,阅读实证文章更是大有裨益。试想,如果一个研究者只知道股票有可能有趋势这一个性质,那么他设计的算法很可能就跟我在上一篇文章里设计出来的差不多。而这样的研究者是无论如何也设计不出基于“均值回归”这个数据性质的算法的。因此,我总结了一点,想发论文,最好从那些被别人忽略的数据性质入手。
对模型假设的忽视
关于这一点,这里只做一个简单的阐述。我希望在自己了解更深之后,针对这个问题写一篇专门的文章。
刚开始来中大的时候,我的导师问我:你如何判断一个模型能否work?我一时语塞,说不知道。然后老板就对我说,你得看,这个模型的假设与真实的数据是否是一致的。一个非常典型的例子,略懂投资组合的人都会知道Mean-Variance model [3]这个拿到诺贝尔奖、被称为现代投资组合研究开山之作的工作。但是,虽然这篇文章有着巨大的影响力,其实实际上并没有被太多人使用(至少是它的原始版本没有太多人用),究其原因,就是这个model中的诸多假设,与真实的股票数据根本就不相符,因此,当我们进行真实投资的时候,必然不会使用它。有朋友提醒我,说Mean-variance model并不属于机器学习的范畴。确实如此,但是也有些机器学习的研究者研究这个模型,提出了改进的模型,比如ICML11上的文章[4]。
总结
在这篇文章里,我总结了这两年中我曾经犯过的一些错误。我个人认为这些错误是可以帮助一些后来人少走一些弯路的,因为在与一些人的交谈中,我发现他们都或多或少的有跟我类似的错误认识。就写这么多,能抛砖引玉则足矣。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14在Python网络编程、接口测试、爬虫开发等场景中,HTTP请求的发送与响应处理是核心需求。Requests库作为Python生态中最流行的HTTP ...
2026-04-14 很多新人学完Python、SQL,拿到一张Excel表还是不知从何下手。 其实,90%的商业分析问题,都藏在表格的结构里。 ” 引言:为 ...
2026-04-14在回归分析中,因子(即自变量)的筛选是构建高效、可靠回归模型的核心步骤——实际分析场景中,往往存在多个候选因子,其中部分 ...
2026-04-13在机器学习模型开发过程中,过拟合是制约模型泛化能力的核心痛点——模型过度学习训练数据中的噪声与偶然细节,导致在训练集上表 ...
2026-04-13在数据驱动商业升级的今天,商业数据分析已成为企业精细化运营、科学决策的核心手段,而一套规范、高效的商业数据分析总体流程, ...
2026-04-13主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-13在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-13在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09