
量化投资、数据挖掘及matlab入门
量化投资模型的构建需要处理大量的数据,建立在对历史信息统计分析的基础上。数据挖掘(Data Mining)也称为数据开采、数据采掘等,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的,但是又潜在有用的信息和知识的过程。可以说,数据挖掘技术是量化模型产生的主要技术和手段。
量化投资和数据挖掘
数据挖掘和传统数据分析(查询,报表,OLAP)的本质区别在于其在没有明确假设的前提下去挖掘信息,发现知识。在发现知识的过程中需要用到数据库、统计学、应用数学、机器学习、可视化、信息科学、程序开发及其他学科的内容。数据挖掘的核心在于对输入和输出数据进行训练,得到模型,使模型能够最大程度上刻画数据从输入到输出之间的关系。然后利用该模型,对于新的输入预测其输出。目前数据挖掘技术主要应用在宏观经济分析,股票估值,量化选股,量化择时,算法交易等方面。数据挖掘的内容主要集中在六个方面, 关联、回归、分类、聚类、预测和诊断。
啤酒和尿布是典型的关联关系。若两个或多个变量的取值之间存在规律性,就称为关联。关联可以分为简单关联,时序关联和因果关联。
回归是确定两种或两种变量之间相互定量关系的一种统计方法,是数据挖掘中最为基础的方法,也是应用领域和场景最多的方法。
分类问题,在人们的日常生活中也经常会遇到,如垃圾分类投放,分类收纳衣物等等。数据挖掘中的分类问题也是类似,根据事物的数据层面特征将其归于不同的类别。
聚类分析,是根据“物以类聚”的原理,将事物归于不同的类或者簇中的一个过程,使得同一簇中的对象具有尽可能大的相似性,而不同簇中的对象具有尽可能大的相异性。和分类问题的不同在于聚类问题事先不知道类别,而分类问题事先已经定义好了类别。
预测基于历史数据建立模型,用来推算将来。
诊断的对象是离散点或称为孤立点。离散点代表了异常状态,包含了非常重要的信息,可以被用来发现欺诈行为,定位病灶等。
对于这六个方面内容的典型算法归纳如下,由于诊断主要基于其他5个方面的问题,在此并未列出其涉及的具体算法。
数据挖掘的过程主要包含六个阶段,如下图所示。实施数据挖掘的第一步是确定目标,要确定数据挖掘的目标,就必须了解数据和相关业务。数据挖掘的基础是数据,因此数据准备是数据挖掘中耗时最多的环节,包含数据选择,质量分析,预处理三个子环节。数据探索是对数据的初步研究,可以从描述统计,可视化等方面展开。模型建立是数据挖掘的核心,在这一步要确定具体的数据挖掘算法,训练出模型参数。模型评估阶段需要对数据挖掘过程进行一次全面的回顾,目的在于判断是否还存在一些重要的商业问题仍未得到充分的考虑。模型部署用于体现数据挖掘的成果,将其部署到实际业务系统中,进行知识消化。
工欲善其事,必先利其器。下面对数据挖掘常用的工具进行一下总结。工具眼花缭乱,各有长短,适合自己的便是最好,在后面的学习研究中,matlab就是我们的绝世好剑。
初识Matlab
Matlab软件是一种用于数值计算、可视化及编程的高级语言和交互式环境,支持命令行模式,脚本模式和面向对象模型。本例中,我们使用命令行模式来评估单只股票的风险。股票风险度量有各种各样的方法,为简便起见,本例使用最大回撤来定量度量单只股票的风险。
OS: win7 64bits
Matlab: R2012b 64bits
(1). 打开matlab,导入股票数据文件。
(2). 成功导入后,弹出如下窗口,点击“Import Selection", 将数据导入工作区(matlab运行内存)
(3). 回到软件主界面,可以看到工作区(workspace)已经显示了导入表格的字段内容,选中“DateNum”和“Pclose”两个字段,点击“plot”图标,会绘制出股价随时间序列变化的曲线,这个点击动作实际上是在命令行中执行了 plot(DateNum,Pclose);figure(gcf)命令。
(4). 在命令行中执行risk = maxdrawdown(Pclose)得到该只股票收盘价的最大回撤,并赋值给risk,值为0.1155,也就是该只股票从前一高点到最低点的最大跌幅为11.55%。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
如何考取数据分析师证书:以 CDA 为例 在数字化浪潮席卷各行各业的当下,数据分析师已然成为企业挖掘数据价值、驱动决策的 ...
2025-07-15CDA 精益业务数据分析:驱动企业高效决策的核心引擎 在数字经济时代,企业面临着前所未有的数据洪流,如何从海量数据中提取有 ...
2025-07-15MySQL 无外键关联表的 JOIN 实战:数据整合的灵活之道 在 MySQL 数据库的日常操作中,我们经常会遇到需要整合多张表数据的场景 ...
2025-07-15Python Pandas:数据科学的瑞士军刀 在数据驱动的时代,面对海量、复杂的数据,如何高效地进行处理、分析和挖掘成为关键。 ...
2025-07-15用 SQL 生成逆向回滚 SQL:数据操作的 “后悔药” 指南 在数据库操作中,误删数据、错改字段或误执行批量更新等问题时有发生。 ...
2025-07-14t检验与Wilcoxon检验的选择:何时用t.test,何时用wilcox.test? t 检验与 Wilcoxon 检验的选择:何时用 t.test,何时用 wilcox. ...
2025-07-14AI 浪潮下的生存与进阶: CDA数据分析师—开启新时代职业生涯的钥匙(深度研究报告、发展指导白皮书) 发布机构:CDA数据科 ...
2025-07-13LSTM 模型输入长度选择技巧:提升序列建模效能的关键 在循环神经网络(RNN)家族中,长短期记忆网络(LSTM)凭借其解决长序列 ...
2025-07-11CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-11数据透视表中两列相乘合计的实用指南 在数据分析的日常工作中,数据透视表凭借其强大的数据汇总和分析功能,成为了 Excel 用户 ...
2025-07-11尊敬的考生: 您好! 我们诚挚通知您,CDA Level I和 Level II考试大纲将于 2025年7月25日 实施重大更新。 此次更新旨在确保认 ...
2025-07-10BI 大数据分析师:连接数据与业务的价值转化者 在大数据与商业智能(Business Intelligence,简称 BI)深度融合的时代,BI ...
2025-07-10SQL 在预测分析中的应用:从数据查询到趋势预判 在数据驱动决策的时代,预测分析作为挖掘数据潜在价值的核心手段,正被广泛 ...
2025-07-10数据查询结束后:分析师的收尾工作与价值深化 在数据分析的全流程中,“query end”(查询结束)并非工作的终点,而是将数 ...
2025-07-10CDA 数据分析师考试:从报考到取证的全攻略 在数字经济蓬勃发展的今天,数据分析师已成为各行业争抢的核心人才,而 CDA(Certi ...
2025-07-09【CDA干货】单样本趋势性检验:捕捉数据背后的时间轨迹 在数据分析的版图中,单样本趋势性检验如同一位耐心的侦探,专注于从单 ...
2025-07-09year_month数据类型:时间维度的精准切片 在数据的世界里,时间是最不可或缺的维度之一,而year_month数据类型就像一把精准 ...
2025-07-09CDA 备考干货:Python 在数据分析中的核心应用与实战技巧 在 CDA 数据分析师认证考试中,Python 作为数据处理与分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的有力工具 在数据分析的广袤领域中,准确捕捉数据的趋势变化以及识别 ...
2025-07-08备战 CDA 数据分析师考试:需要多久?如何规划? CDA(Certified Data Analyst)数据分析师认证作为国内权威的数据分析能力认证 ...
2025-07-08