
随着金融业信息化建设的快速发展,金融数据量不断增多。如何对这些数据进行有效的分析成为研究的热点问题。近年来,针对金融数据动态、复杂、非线性的特点,人们将非线性理论引入,以期更加准确地从这些数据中揭示金融市场的运作规律。其中,分形技术是非线性理论中的一个分支,相关的研究表明在金融市场中分形现象是普遍存在的。
本文围绕金融数据分析领域中的热点和难点问题,对基于分形技术的数据分析方法进行研究。针对金融数据的特点,研究了金融一元、多元时间序列分形维数的定义、计算方法和意义;并在此基础上,将分形维数与数据挖掘算法相结合用于解决金融数据分析中的关键问题——相似性分析、维数约简以及预测等。 论文的主要工作如下: 1.论述了相关的研究背景和意义,介绍了分形理论的发展概况,总结了分形技术在金融数据分析中运用的原理和方法。 2.介绍了金融时间序列中常用的分形维数计算方法,并探讨了维数求解的后期过程中数据的拟合方法。论文分别运用最小二乘法和最小二乘分段方法对数据进行拟合,相关的实验结果表明最小二乘分段拟合方法能够提高拟合性能,进而提高维数计算的准确率。 3.为了更好地表征金融时间序列的波动特征,提出了一种趋势分形维数的定义和计算方法。该维数分为阴线维和阳线维。通过对股票数据、汇率数据和期货数据的实验研究,表明阳线维或阴线维相对于传统的分形维数能够更好地指示金融市场的跌涨情况。 4.研究了金融时间序列中的相似性分析方法。提出将趋势分形维数和K-means聚类算法相结合的相似性分析方法,并对股指序列进行了相似性聚类研究。该方法首先利用趋势分形维数对时间序列进行表示,进而利用K-means算法对表示后的序列进行聚类。通过与传统分形维数表示下的聚类结果相比较,利用趋势分形维数表示的聚类结果更加准确。说明趋势分形维数比传统分形维数具有更准确和更细致的描述能力。这也进一步表明了趋势分形维数的意义和作用。 5.分析和比较了多元时间序列分形维数计算方法的异同点。进而提出一种多元时间序列维数计算方法,实验表明该方法简便、可行,取得的计算效果较好。 6.针对多元金融时间序列降维问题,提出一种基于蚁群算法和分形维数的属性选择方法。并在属性选择的基础上对多元时间序列的预测问题进行了研究,研究表明该改进算法具有较好的性能,能够识别出关键属性,提高预测的准确率。
数据挖掘的任务是发现大量数据中尚未被发现的知识,特别是一些隐藏在大量数据中的关系和趋势。数据挖掘技术的这一特点和功能正是反洗钱监测分析系统所需求的。数据挖掘中的多种算法,在反洗钱领域都有着良好的应用前景。利用数据挖掘技术进行反洗钱数据监测和分析,是国内外研究的一个热点。因此,研究适合金融交易数据特点的关键的数据挖掘算法,并运用到中国反洗钱系统建设中,具有十分重要的理论研究和实际应用价值。 粗糙集理论是处理模糊和不确定知识的一种数学工具,已在人工智能与知识发现,模式识别与分类,故障检测等方面得到了较好应用。给出了基于粗糙集的挖掘算法生成决策模型,用于判定交易是否可疑。该算法首先实现属性约简,形成分辨矩阵,然后从中发现规则,这一算法适用于决策属性和分类属性依赖关系不明确、给定数据不完备的情况。
考虑到高维空间中数据分布较稀疏的特点,常用聚类算法多用数据之间的距离尺度来衡量数据间的相似度,然后聚类,不能产生很好的聚类效果。给出基于超图的聚类算法,把一个求解高维空间聚类问题转换为一个超图分隔寻优问题,高维空间的关系转化成超图,用超边的权重来描述空间点间的关系。对超图的分割实际上就是聚类的过程,将权重大的超边中包含的数据点尽量放在一个类中,同时使被切割的超边权重之和最小。不需要对数据集事先进行降维,即可完成聚类过程。能有效祛除噪声点,在高维空间获得较好的聚类结果。 针对传统聚类算法难以解释其聚类结果的问题,通过语义中心对聚类结果进行概念描述,使语义中心在最大限度上反映类簇的特征。由于分类型数据在金融数据中占着较大的比重,概念聚类相比传统基于数值型数据的聚类能够更好地适应分类数据。给出的基于解释规则的增量概念聚类算法能够给出聚类结果的大致涵义,并能够通过概念与属性之间的确信因子和包容因子的计算生成规则,在更深层度上挖掘隐含信息。
在上述研究基础上,根据我国具体的反洗钱的具体情况,借鉴美国、加拿大、澳大利亚等国反洗钱系统建设的成果和经验,研究适合中国国情的反洗钱信息系统。在分析了反洗钱系统的建设背景、已有的信息化基础的基础上,确定了系统的建设目标,设计了反洗钱系统的总体框架,包括信息辅助核查平台、检测分析平台、反洗钱数据挖掘平台三大部分。 基于上述理论和研究成果,结合数据集成与交换、数据仓库和OLAP技术,开发和实现了一个反洗钱信息系统,已成功应用于国家外汇管理局反洗钱实际应用,并在全国推广。该系统是我国研制的第一个专业化、智能型的反洗钱信息管理系统,实现并加强对反洗钱数据的分析和处理,提高反洗钱工作的效率和质量,取得满意的效果。该项目获中国人民银行2006年银行科技发展奖二等奖。
金融市场是融通资金的场所。金融市场实现了投资需求和筹资需求的对接,能有效的化解资本的供求矛盾。金融投资分析方法一直是金融领域的研究热点。随着金融市场的飞速发展,投资分析方法也得到不断的创新和进步。传统的时间序列模型的应用一方面依赖于某些假设条件,因而应用受到限制;另一方面,由于经济和商业时间序列的结构经常是逐渐变化的,应用结构固定的全局模型来描述并不十分合适。 随着信息技术在金融行业的普及以及人们收集数据能力的大幅提高,在金融市场的飞速发展过程中,积累了海量的包含丰富信息的数据。
数据挖掘方法为人们分析金融时间序列提供了新的思路和视野。本文以相空间重构技术为基础,以时间序列作为研究对象,分析面向时间序列数据的数据挖掘方法,并将研究结果应用于实际金融市场,以发现金融时间序列中隐含的规律、模式和知识,为市场分析和投资决策提供新的思路、方法和辅助决策信息。 本文从研究所处的背景出发,详细讨论了数据挖掘技术以及时间序列数据挖掘与金融数据挖掘的相关研究现状,并分析了相空间重构的相关理论和方法。为应用相空间重构进行时间序列数据挖掘的可行性提供了理论基础和技术保障。 通过对比时间序列模式挖掘的不同思路,本文指出时间序列数据挖掘框架TSDM所存在的问题。系统地提出了应用小波聚类进行序列时间模式挖掘的方法。应用小波变换的多分辨率特性和基于网格的划分方法,可以实现任意形状和不同精度的聚类。采用以事件指导的投资策略将方法应用于中国证券市场。结果表明,以时间模式预测事件为指导的投资策略能获得高于持有策略的收益;时间模式挖掘能有效识别事件点;事件序列与非事件序列存在显著差别。 在讨论了嵌入定理和时间序列的可预测性的基础上,本文从现有模糊神经网络存在的问题入手,结合非线性的空间聚类方法EM算法,对原有TS模糊神经网络模型进行改进,提出了基于相空间重构的EM聚类模糊神经网络预测模型。通过对重构空间进行EM模糊聚类,实现数据对象的分类训练以及隶属度的计算,以减少输入规则的条数简化神经网络的结构。同时,将该模型分别应用于深成指数和上证指数。结果表明,该预测模型的预测误差低于传统的BP模型,有效地提高了预测精度。
本文从序列异常的角度提出了时间序列的偏差异常检测方法。应用CC算法同时对嵌入维和嵌入延时进行估计进行重构以构造多维空间,应用偏差异常检测方法抽取异常模式,再通过符号离散化将问题转化为分类问题构建决策树实现异常的分类和预测。以决策树的分类标识为指导构建交易策略,在证券市场上进行了应用。结果表明,尽管在股市大势呈现下降趋势的情况下,应用分类标识为指导的交易策略仍能获得较高的收益。 本文应用相空间重构技术将时间序列分割成长度相同的子序列集合,并将其映射到多维特征空间,从而将有序的时间序列一维数据挖掘问题转换成为多维空间的无序数据集合的挖掘问题。本文的研究不仅为金融时间序列分析提供了新的方法,也为数据挖掘技术提供了新的研究思路。
短短的几年时间,数据挖掘风靡全球,成为 IT 业近年来非常热门和前沿的研究 方向之一,由于数据挖掘融合了人工智能、统计学、数据库、机器学习等各个领域的 理论与技术,使得不同学科领域的学者对 DM 的研究表现出了前所未有的热情和参与 精神,在世纪交替的特殊时期,这是又一轮规模空前的学科大融合。 数据挖掘目的是在大量的数据中发现令人感兴趣的模式,用以认识规律,提高效 率,预测未来,其核心技术具有很大的挑战性,由于数据的适时性和时间特征,诸如 Web 挖掘、金融挖掘、电子商务和市场调查等不可避免的会面临序列数据的处理, 其中以时间为序的又称为时间序列,因此序列数据挖掘就应运而生了,但和目前其它 分支不一样的是这方面的研究对模型的依赖严重得多,而众所周知时间序列分析在统 计中就以复杂和抽象著称,尤其是涉及到另一个挖掘中困难的课题:异常挖掘,并且 还要考虑序列中的异常挖掘,即使在统计学中也是非常艰难的,至今并没有很好的解 决方案。金融数据挖掘是另一个非常困难的方向,虽然金融数学提供了丰富的理论和 方法,但很多方法太抽象,实证效果也并不理想,作为普及方法推广是不现实的,数 据挖掘作为 IT 技术,简单快速是必不可少的,因此更多的从模型出发、以算法为基 础,建立切实可行的序列数据挖掘技术和理论体系是本文的目的。
我们在第一章的绪论中除了介绍相关的概念、基础知识和国内外研究现状外,介 绍了统计中非常实用的线性模型方法及在序列数据挖掘中的应用。 第二章主要研究了线性模型的参数估计方法,得到了很多非常深入的新结果。 第三章主要介绍了数据的可视化和序列数据的聚类研究、线性模式挖掘和异常挖 掘,同时应用于证券数据的挖掘,取得了不错的实证效果。 第四章我们主要研究了序列数据挖掘的预测问题,同样在证券实证分析中获得有 力的支持。 第五章针对实际更多出现的数据缺失深入研究了 EM 算法等数据修补技术和插 值技术,结果非常令人满意,最后进一步研究了向前搜索算法,通过聚类的预处理, 既节约时间又避免错误的发生,效果也比较理想。 序列数据挖掘的广博领域显然不是本研究所能穷尽的,我们在文末展望了该方向 今后的发展和进一步有待研究的若干问题。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25