京公网安备 11010802034615号
经营许可证编号:京B2-20210330
如何搭建量化投资研究系统?(数据篇)
一、量化投资,数据是基础
量化投资的理念现在越来越被人熟知,不论是在学校还是在职场,对量化投资感兴趣,想要一试身手,甚至是将Quant定为职业目标的人也越来越多。不过许多朋友现在还只是临时搜罗有限的数据,做一些零星的研究、测试和计算。与其这样没有明确目标地小打小闹,不如着手建立一个比较完善的“量化投资研究系统”,下面我将和朋友们分享一下我在这方面尝试的心得。

中国有句古话叫做“兵马未动,粮草先行”,对于量化投资研究而言应该改为“模型未动,数据先行”,高质量的数据是出色研究的基础。需求决定功能,我们要做哪方面的量化投资研究,决定了我们需要哪些数据。
我所理解的量化投资研究大致包括3块内容:
学术化的研究工作,例如金融时间序列分析,这一块研究主要集中在各种金融产品的交易数据上,例如股票、期货、期权的价格,基金净值等等;
构建交易策略或投资组合,这一块研究需要交易数据、宏观经济指标和公司财务数据等等;
策略回测,这一块研究需要大量历史交易数据,用来测试评估交易策略和投资组合。
“天下没有免费的午餐”,为了获得数据,要么付出金钱成本,购买数据终端(例如Wind终端);要么付出时间成本,自己动手搭建维护一个金融数据库。如果没有机会摆弄万得、彭博,还是毛主席那句话——“自己动手,丰衣足食”。
信息时代,最大的数据源就是互联网,而且在绝大部分情况下,互联网可以提供公开免费的数据。所以我们要搭建的数据库实际上是依赖“网络爬虫”获取互联网上的数据。不过在讨论如何获取数据之前,为了确保将来的工作简单高效,先要“约法三章”:
尽量以下载文件,而不是抓取网页内容的方式获得数据;
尽量减少抓取网页的次数,换言之,一张网页上的数据要尽可能的多;
尽量抓取静态网页内容,而不是动态网页。(有一个简单的规则区别静态和动态网页,如果网页内容变化之后,地址栏里的URL链接跟着变化,就是静态网页,反之则是动态的。)
二、寻找金融数据源
废话不多说,下面正式讨论如建立自己的金融数据库(目前只限于股票和基金数据)。
首先来到上交所和深交所的网站,目的是找到股票代码和指数代码列表。深交所以文件下载的方式提供股票和指数代码(业界良心),上交所则是以网页形式提供。天天基金网以网页的形式提供了基金代码列表(网址http://www.1234567.com.cn/allfund.html)。
基金代码(天天基金网)
接下来看股票和指数的交易数据,要想获得这些数据,一个最自然的想法就是到主流门户网站上去找。事实上网易、新浪、和讯和东方财富等门户网站都以网页的形式提供每日交易数据。不过网易这一次成为了业界良心,网易提供数据下载服务,可以下载csv文件获得股票和指数的历史交易数据,以及股票最近一周的高频交易数据。网易提供的数据甚至包括除权调整过的昨收数据(妈妈再也不用担心我计算收益率了,真是业界良心啊)。
历史交易数据(平安银行)
成交明细(平安银行)
和交易相关的另一种重要数据是“复权因子”,可惜提供复权因子数据的网站并不多,新浪这一次成为了业界良心,新浪以静态网页的形式提供每日的复权因子。
复权因子(平安银行)
基金净值数据,和股票跟指数一样,门户网站大多以网页的形式提供历史净值数据,不过和讯这一次做了业界良心,和讯在基金的历史净值网页上展示了该基金所有的历史净值数据。
基金净值(华夏成长)
一些基本资料层面的数据,例如上市公司的基本资料,基金的基本资料等,对于这些数据,网站之间的大同小异区别不大。
最后看上市公司的财务数据,有些类型的量化投资特别需要研究公司财务数据,尤其是量化选股,需要大量财务数据构造因子,用来对股票估值和预测未来收益率。不过对比多家网站之后,不幸地发现不同网站提供的财务数据格式不尽相同,数据内容也是有出入。这一部分数据的搜集比想象的要复杂得多,将来会专门写一篇文章讨论这个问题,暂时搁置一下。
三、开始搭建金融数据库
通过上面的文章,数据源已经基本确定了,接下来就要“修渠引水,汇入水库”。水库的话,就选择最常用的数据库MySQL;水渠的话,这里用R语言。
前面讲过了,整个数据库依赖网络爬虫获得数据,所以修水渠之前要先掌握下面几个方面的基本知识:
R的语法,以及如何使用RCurl、XML、xml2等R包设计爬虫;
网页的基本结构,以及如何利用FireFox浏览器的FireBug插件或Chrome浏览器研究网页结构;
正则表达式;
XPath语法,以及使用XPath提取html文件中的特定节点。
看起来需要很多的知识准备,不过以我个人的经验,每个方面只要掌握最基本的知识就可以利用R做出一个靠谱的爬虫。如果想要集中时间系统化的学习上述知识,这里推荐两本书《AutomatedData
Collection with R》、《XML and WebTechnologies for Data Sciences with
R》和一篇网络教程《55分钟学会正则表达式》。
接下来用一个实例演示如何获得数据。
首先,到交易所网站手工收集整理A股的股票代码和指数代码列表,分别保存在文件SH.A.list.txt、SH.IDX.list.txt、SS.A.list.txt、SS.IDX.list.txt中。用R函数readLines读取称为相应的字符串向量,接着构造“市场代码向量”用来标识股票和指数对应的市场,沪市记为0深市记为1,将这些向量组合成数据框(data.frame,R中常用的数据结构,类似excel表格)A.list和IDX.list。
第二步,找到包含所需信息的网页,解析网页链接的模式。
以平安银行为例,现在想要获得股票的首次上市日。网易平安银行的网页链接是http://quotes.money.163.com/1000001.html,1000001中开头的1是市场代码,000001是股票代码。在Chrome中打开网页,按F12打开网页分析工具,找到“首次上市”节点,右键复制XPath,即“/html/body/div[2]/div[22]/div[2]/p[9]”。
在R中运行下面的语句:
# 加载xml2和stringr包
library(xml2)
library(stringr)
# 链接
url <- "http://quotes.money.163.com/1000001.html"
# 读取网页
html <- read_html(url)
# XPath
path <- "/html/body/div[2]/div[22]/div[2]/p[9]"
# 找到“首次上市”节点
date <- xml_find_all(html,
xpath = path)
# 转化成文本
date <- xml_text(date)
date
# 如果乱码,修改编码
Encoding(date) <- "UTF-8"
date
# 用正则表达式提取日期
date <- str_extract(date,
"[0-9]{4}-[0-9]{2}-[0-9]{2}")
date
最后得到date=”1991-04-03”,正是想要的首次上市日期。
如果是下载文件的话,先要通过浏览器获得下载地址,例如
其中蓝色的是市场代码,红色的是股票代码,绿色的是日期,紫色的是数据项。
R中的download.file函数可以用于下载文件,或是借助RCurl中的getBinaryURL函数,并配合使用writeBin函数。在R中运行下面的语句:
url <- "http://quotes.money.163.com/service/chddata.html?
code=1000001&start=19910403&end=20150629&fields=TCLOSE;
HIGH;LOW;TOPEN;LCLOSE;CHG;PCHG;TURNOVER;
VOTURNOVER;VATURNOVER;TCAP;MCAP"
# 方法一
download.file(url,
destfile = "000001.csv")
# 方法二
file <- getBinaryURL(url)
writeBin(file,
con = "000001.csv")
就可以下载平安银行的历史交易数据。
在成功获得数据,并保存到若干csv、txt文件之后,最后一步就是导入数据库MySQL。借助R包RMySQL,可以实现R和MySQL的连接,在R环境中直接操作MySQL数据库。
# 载入RMySQL包
library(RMySQL)
# 建立数据库连接
conn <- dbConnect(MySQL(),
dbname = "数据库名",
username = "用户名",
password = "密码")
# 启动非严格模式
dbSendQuery(conn,
"SET @@sql_mode=ANSI;")
# win7环境下如果汉字乱码,就运行这条命令
dbSendQuery(conn,
"SET NAMES GBK")
将文件中的数据导入数据库可以使用下面的R命令:
sql <- "load data infile ‘文件名’
into table 表名
character set GBK
fields terminated by ','
lines terminated by '\r\n';"
dbSendQuery(conn, sql)
至此,金融数据库从无到有。未来数据库的维护工作可以安排在周末,利用一个下午的时间,运行R程序获取这一周新增的数据,并导入MySQL。在实际操作中,建库和维护会遇到很多琐碎的细节问题,比如说网页编码、股票退市、新发股票、网站出现故障、表的设计等等,这里不能展开来讲,只能在动手的过程中自己摸索,具体问题具体分析具体解决。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
用户调研是企业洞察客户需求、优化产品服务、制定运营策略的核心前提,而调研数据的可靠性,直接决定了决策的科学性与有效性。在 ...
2026-05-11在市场竞争日趋激烈、流量成本持续攀升的今天,企业的核心竞争力已从“获取流量”转向“挖掘客户价值”。客户作为企业最宝贵的资 ...
2026-05-11 很多数据分析师精通Excel单元格操作,熟练应用多种公式,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质 ...
2026-05-11在互联网运营、产品优化、用户增长等领域,次日留存率是衡量产品价值、用户粘性与运营效果的核心指标,更是判断新用户是否认可产 ...
2026-05-09相关性分析是数据分析领域中用于探究两个或多个变量之间关联强度与方向的核心方法,广泛应用于科研探索、商业决策、医疗研究、社 ...
2026-05-09 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-05-09在数据驱动运营的时代,指标是连接业务目标与实际行动的核心桥梁,是企业解读业务现状、发现问题、预判趋势的“量化标尺”。一套 ...
2026-05-08在存量竞争日趋激烈的商业时代,“以客户为中心”早已从口号落地为企业运营的核心逻辑。而客户画像作为打通“了解客户”与“服务 ...
2026-05-08 很多数据分析师每天与Excel打交道,但当被问到“什么是表格结构数据”“它和表结构数据有什么区别”“表格结构数据有哪些核 ...
2026-05-08在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-05-07在数字化时代,商业竞争的核心已从“经验驱动”转向“数据驱动”,越来越多的企业意识到,商业分析不是简单的数据统计与报表呈现 ...
2026-05-06在Excel数据透视表的实操中,“引用”是连接透视表与公式、辅助数据的核心操作,而相对引用作为最基础、最常用的引用方式,其设 ...
2026-05-06 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-05-06在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29