京公网安备 11010802034615号
经营许可证编号:京B2-20210330
写量化策略时常用的技巧
1.善用panel保存数据
说明:pandas有三种数据结构,分别是Series(一维),DataFrame(二维),panel(三维)
例子:沪深300成分股所有股票[stock list]在某些特征指标如成交量、收盘价[indicator list]上的某时间区间内的历史序列[time series],
[stock list] * [indicator list] * [time series]=3维
Q:如何通过Windpy接口来形成我们的三维面板数据呢?
A:按个股循环,获取每只股票的序列数据(二维);再把300只个股合并成三维。
例代码1:获取面板原始数据(daily),后期再在这张大的面板数据上计算月度的情况,再排序形成组合。再形成一个新的面板。【思路:总-分-总】
ps1:缺点就是从总表中拆开按每个因子形成月度收益再concat合并,这个过程很麻烦,不如一开始就按因子分开处理好,再合并形成面板数据。

ps2:wind API每天12000条左右的记录限制,意味着300只股票,每天只能他爸爸的获取30天的数据,10年的数据(120个月)得花120天来下载,这很坑啊。。。肯定是要另外想办法的,平时写策略主要目的是训练思路和练手,对数据质量要求不太高,目前看来,聚宽是最好的选择,策略编写平台类似jupyter notebook,也支持python的所有package。
import pandas as pd
import copy
from WindPy import w
import datetime
w.start()
## 函数getAsharePanels(),获取A股历史面板数据
def getAsharePanels(stockcodes,start_date,end_date):
append_data=pd.DataFrame(columns=['trade_date','stock_code','open','high','low','close','volume']) #产生一个辅助数据集,帮助后面循环时汇总
individual_data=pd.DataFrame() #存放个股交易信息的数据集
result={} #result是一个三维的字典
for individual_stockcode in stockcodes:
# 依次生成个股数据集(变量包括:日期、代码、开盘价、最高价、最低价、收盘价、成交量)
stock=w.wsd(individual_stockcode, "trade_code,open,high,low,close,volume",start_date,end_date)
individual_data['trade_date']=stock.Times
individual_data['stock_code']=stock.Data[0]
individual_data['open']=stock.Data[1]
individual_data['high']=stock.Data[2]
individual_data['low']=stock.Data[3]
individual_data['close']=stock.Data[4]
individual_data['volume']=stock.Data[5]
# 通过300次迭代,把300只股票的df格式的individual_data数据放到result里,形成3维的字典
result[+1]=individual_data
rawdata = pd.Panel(result) #获取的沪深300成分股的3维数据保存在rawdata中
return rawdata
## 调用函数getAsharePanels(),获取A股历史面板数据
todayDate=datetime.datetime.strftime(datetime.date.today(),"%Y%m%d")
wsetdata=w.wset('SectorConstituent','date='+todayDate+';sectorId=1000000090000000;field=wind_code') #通过wset获取沪深300成分股代码
stockcodes=list(wsetdata.Data[0])
start_date='20120101' #样本数据起始日期
end_date='20171231' #样本数据结束日期
rawdata_panel=getAsharePanels(stockcodes,start_date,end_date)
例代码2:
【先分后合】
step1:
一维:先写好一系列函数,分开处理好各因子的历史序列数据(如:月度收益、排序形成portfolio等)
step2:写个两层的循环,把一维变成二维,再变成三维
二维(内层循环):再把一维按照因子类别作为二维的dataframe的列,以此思路来形成二维表,如:df[‘PE’]=seriesXXX
三维(外层循环):按monthly的时间来循环,把二维的截面数据加上时间维度,变成三维的,形成一张panel
Q:分开处理好数据以后,如何形成我们的三维面板数据呢?
A:最外层循环:按时间(换仓频率一般是月度)
最内层循环:调用windpy接口获取每只股票的所有因子的截面数据,按股票代码循环(成交等、价格等)
## 函数1:计算组合的月度收益率
def caculate_port_monthly_return(port,startdate,enddate,nextdate,CMV):
close1 = get_price(port, startdate, enddate, 'daily', ['close']) #三维面板数据
close2 = get_price(port, enddate, nextdate, 'daily',['close']) #面板数据
weighted_m_return = ((close2['close'].ix[0,:]/close1['close'].ix[0,:]-1)).mean() #等权加权
return weighted_m_return
## 函数2:计算benchmark组合的月度收益
def caculate_benchmark_monthly_return(startdate,enddate,nextdate):
close1 = get_price(['000001.XSHG'],startdate,enddate,'daily',['close'])['close']
#二维
close2 = get_price(['000001.XSHG'],enddate, nextdate, 'daily',['close'])['close']
benchmark_return = (close2.ix[0,:]/close1.ix[0,:]-1).sum()
print close1
return benchmark_return
## 核心策略:构建因子组合并计算每月换仓时不同组合的月收益率
# 得到结果monthly_return为panel数据,储存所有因子,在7×12个月内5个组合及benchmark的月收益率
factors = ['B/M','EPS','PEG','ROE','ROA','GP/R','P/R','L/A','FAP','CMV']
#因为研究模块取fundmental数据默认date为研究日期的前一天。所以要自备时间序列。按月取
year = ['2011','2012','2013','2014','2015','2016','2017']
month = ['01','02','03','04','05','06','07','08','09','10','11','12']
result = {}
for i in range(7*12):
startdate = year[i/12] + '-' + month[i%12] + '-01'
try:
enddate = year[(i+1)/12] + '-' + month[(i+1)%12] + '-01'
except IndexError:
enddate = '2016-01-01'
try:
nextdate = year[(i+2)/12] + '-' + month[(i+2)%12] + '-01'
except IndexError:
if enddate == '2018-01-01':
nextdate = '2018-02-01'
else:
nextdate = '2018-01-01'
#print 'time %s'%startdate
fdf = get_factors(startdate,factors)
CMV = fdf['CMV']
#5个组合,10个因子
df = DataFrame(np.zeros(6*10).reshape(6,10),index = ['port1','port2','port3','port4','port5','benchmark'],columns = factors)
for fac in factors:
score = fdf[fac].order()
port1 = list(score.index)[: len(score)/5]
port2 = list(score.index)[ len(score)/5+1: 2*len(score)/5]
port3 = list(score.index)[ 2*len(score)/5+1: -2*len(score)/5]
port4 = list(score.index)[ -2*len(score)/5+1: -len(score)/5]
port5 = list(score.index)[ -len(score)/5+1: ]
df.ix['port1',fac] = caculate_port_monthly_return(port1,startdate,enddate,nextdate,CMV)
df.ix['port2',fac] = caculate_port_monthly_return(port2,startdate,enddate,nextdate,CMV)
df.ix['port3',fac] = caculate_port_monthly_return(port3,startdate,enddate,nextdate,CMV)
df.ix['port4',fac] = caculate_port_monthly_return(port4,startdate,enddate,nextdate,CMV)
df.ix['port5',fac] = caculate_port_monthly_return(port5,startdate,enddate,nextdate,CMV)
df.ix['benchmark',fac] = caculate_benchmark_monthly_return(startdate,enddate,nextdate)
#print 'factor %s'%faesult[i+1]=df
monthly_return = pd.Panel(result)
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15