
随着金融业信息化建设的快速发展,金融数据量不断增多。如何对这些数据进行有效的分析成为研究的热点问题。近年来,针对金融数据动态、复杂、非线性的特点,人们将非线性理论引入,以期更加准确地从这些数据中揭示金融市场的运作规律。其中,分形技术是非线性理论中的一个分支,相关的研究表明在金融市场中分形现象是普遍存在的。
本文围绕金融数据分析领域中的热点和难点问题,对基于分形技术的数据分析方法进行研究。针对金融数据的特点,研究了金融一元、多元时间序列分形维数的定义、计算方法和意义;并在此基础上,将分形维数与数据挖掘算法相结合用于解决金融数据分析中的关键问题——相似性分析、维数约简以及预测等。 论文的主要工作如下: 1.论述了相关的研究背景和意义,介绍了分形理论的发展概况,总结了分形技术在金融数据分析中运用的原理和方法。 2.介绍了金融时间序列中常用的分形维数计算方法,并探讨了维数求解的后期过程中数据的拟合方法。论文分别运用最小二乘法和最小二乘分段方法对数据进行拟合,相关的实验结果表明最小二乘分段拟合方法能够提高拟合性能,进而提高维数计算的准确率。 3.为了更好地表征金融时间序列的波动特征,提出了一种趋势分形维数的定义和计算方法。该维数分为阴线维和阳线维。通过对股票数据、汇率数据和期货数据的实验研究,表明阳线维或阴线维相对于传统的分形维数能够更好地指示金融市场的跌涨情况。 4.研究了金融时间序列中的相似性分析方法。提出将趋势分形维数和K-means聚类算法相结合的相似性分析方法,并对股指序列进行了相似性聚类研究。该方法首先利用趋势分形维数对时间序列进行表示,进而利用K-means算法对表示后的序列进行聚类。通过与传统分形维数表示下的聚类结果相比较,利用趋势分形维数表示的聚类结果更加准确。说明趋势分形维数比传统分形维数具有更准确和更细致的描述能力。这也进一步表明了趋势分形维数的意义和作用。 5.分析和比较了多元时间序列分形维数计算方法的异同点。进而提出一种多元时间序列维数计算方法,实验表明该方法简便、可行,取得的计算效果较好。 6.针对多元金融时间序列降维问题,提出一种基于蚁群算法和分形维数的属性选择方法。并在属性选择的基础上对多元时间序列的预测问题进行了研究,研究表明该改进算法具有较好的性能,能够识别出关键属性,提高预测的准确率。
数据挖掘的任务是发现大量数据中尚未被发现的知识,特别是一些隐藏在大量数据中的关系和趋势。数据挖掘技术的这一特点和功能正是反洗钱监测分析系统所需求的。数据挖掘中的多种算法,在反洗钱领域都有着良好的应用前景。利用数据挖掘技术进行反洗钱数据监测和分析,是国内外研究的一个热点。因此,研究适合金融交易数据特点的关键的数据挖掘算法,并运用到中国反洗钱系统建设中,具有十分重要的理论研究和实际应用价值。 粗糙集理论是处理模糊和不确定知识的一种数学工具,已在人工智能与知识发现,模式识别与分类,故障检测等方面得到了较好应用。给出了基于粗糙集的挖掘算法生成决策模型,用于判定交易是否可疑。该算法首先实现属性约简,形成分辨矩阵,然后从中发现规则,这一算法适用于决策属性和分类属性依赖关系不明确、给定数据不完备的情况。
考虑到高维空间中数据分布较稀疏的特点,常用聚类算法多用数据之间的距离尺度来衡量数据间的相似度,然后聚类,不能产生很好的聚类效果。给出基于超图的聚类算法,把一个求解高维空间聚类问题转换为一个超图分隔寻优问题,高维空间的关系转化成超图,用超边的权重来描述空间点间的关系。对超图的分割实际上就是聚类的过程,将权重大的超边中包含的数据点尽量放在一个类中,同时使被切割的超边权重之和最小。不需要对数据集事先进行降维,即可完成聚类过程。能有效祛除噪声点,在高维空间获得较好的聚类结果。 针对传统聚类算法难以解释其聚类结果的问题,通过语义中心对聚类结果进行概念描述,使语义中心在最大限度上反映类簇的特征。由于分类型数据在金融数据中占着较大的比重,概念聚类相比传统基于数值型数据的聚类能够更好地适应分类数据。给出的基于解释规则的增量概念聚类算法能够给出聚类结果的大致涵义,并能够通过概念与属性之间的确信因子和包容因子的计算生成规则,在更深层度上挖掘隐含信息。
在上述研究基础上,根据我国具体的反洗钱的具体情况,借鉴美国、加拿大、澳大利亚等国反洗钱系统建设的成果和经验,研究适合中国国情的反洗钱信息系统。在分析了反洗钱系统的建设背景、已有的信息化基础的基础上,确定了系统的建设目标,设计了反洗钱系统的总体框架,包括信息辅助核查平台、检测分析平台、反洗钱数据挖掘平台三大部分。 基于上述理论和研究成果,结合数据集成与交换、数据仓库和OLAP技术,开发和实现了一个反洗钱信息系统,已成功应用于国家外汇管理局反洗钱实际应用,并在全国推广。该系统是我国研制的第一个专业化、智能型的反洗钱信息管理系统,实现并加强对反洗钱数据的分析和处理,提高反洗钱工作的效率和质量,取得满意的效果。该项目获中国人民银行2006年银行科技发展奖二等奖。
金融市场是融通资金的场所。金融市场实现了投资需求和筹资需求的对接,能有效的化解资本的供求矛盾。金融投资分析方法一直是金融领域的研究热点。随着金融市场的飞速发展,投资分析方法也得到不断的创新和进步。传统的时间序列模型的应用一方面依赖于某些假设条件,因而应用受到限制;另一方面,由于经济和商业时间序列的结构经常是逐渐变化的,应用结构固定的全局模型来描述并不十分合适。 随着信息技术在金融行业的普及以及人们收集数据能力的大幅提高,在金融市场的飞速发展过程中,积累了海量的包含丰富信息的数据。
数据挖掘方法为人们分析金融时间序列提供了新的思路和视野。本文以相空间重构技术为基础,以时间序列作为研究对象,分析面向时间序列数据的数据挖掘方法,并将研究结果应用于实际金融市场,以发现金融时间序列中隐含的规律、模式和知识,为市场分析和投资决策提供新的思路、方法和辅助决策信息。 本文从研究所处的背景出发,详细讨论了数据挖掘技术以及时间序列数据挖掘与金融数据挖掘的相关研究现状,并分析了相空间重构的相关理论和方法。为应用相空间重构进行时间序列数据挖掘的可行性提供了理论基础和技术保障。 通过对比时间序列模式挖掘的不同思路,本文指出时间序列数据挖掘框架TSDM所存在的问题。系统地提出了应用小波聚类进行序列时间模式挖掘的方法。应用小波变换的多分辨率特性和基于网格的划分方法,可以实现任意形状和不同精度的聚类。采用以事件指导的投资策略将方法应用于中国证券市场。结果表明,以时间模式预测事件为指导的投资策略能获得高于持有策略的收益;时间模式挖掘能有效识别事件点;事件序列与非事件序列存在显著差别。 在讨论了嵌入定理和时间序列的可预测性的基础上,本文从现有模糊神经网络存在的问题入手,结合非线性的空间聚类方法EM算法,对原有TS模糊神经网络模型进行改进,提出了基于相空间重构的EM聚类模糊神经网络预测模型。通过对重构空间进行EM模糊聚类,实现数据对象的分类训练以及隶属度的计算,以减少输入规则的条数简化神经网络的结构。同时,将该模型分别应用于深成指数和上证指数。结果表明,该预测模型的预测误差低于传统的BP模型,有效地提高了预测精度。
本文从序列异常的角度提出了时间序列的偏差异常检测方法。应用CC算法同时对嵌入维和嵌入延时进行估计进行重构以构造多维空间,应用偏差异常检测方法抽取异常模式,再通过符号离散化将问题转化为分类问题构建决策树实现异常的分类和预测。以决策树的分类标识为指导构建交易策略,在证券市场上进行了应用。结果表明,尽管在股市大势呈现下降趋势的情况下,应用分类标识为指导的交易策略仍能获得较高的收益。 本文应用相空间重构技术将时间序列分割成长度相同的子序列集合,并将其映射到多维特征空间,从而将有序的时间序列一维数据挖掘问题转换成为多维空间的无序数据集合的挖掘问题。本文的研究不仅为金融时间序列分析提供了新的方法,也为数据挖掘技术提供了新的研究思路。
短短的几年时间,数据挖掘风靡全球,成为 IT 业近年来非常热门和前沿的研究 方向之一,由于数据挖掘融合了人工智能、统计学、数据库、机器学习等各个领域的 理论与技术,使得不同学科领域的学者对 DM 的研究表现出了前所未有的热情和参与 精神,在世纪交替的特殊时期,这是又一轮规模空前的学科大融合。 数据挖掘目的是在大量的数据中发现令人感兴趣的模式,用以认识规律,提高效 率,预测未来,其核心技术具有很大的挑战性,由于数据的适时性和时间特征,诸如 Web 挖掘、金融挖掘、电子商务和市场调查等不可避免的会面临序列数据的处理, 其中以时间为序的又称为时间序列,因此序列数据挖掘就应运而生了,但和目前其它 分支不一样的是这方面的研究对模型的依赖严重得多,而众所周知时间序列分析在统 计中就以复杂和抽象著称,尤其是涉及到另一个挖掘中困难的课题:异常挖掘,并且 还要考虑序列中的异常挖掘,即使在统计学中也是非常艰难的,至今并没有很好的解 决方案。金融数据挖掘是另一个非常困难的方向,虽然金融数学提供了丰富的理论和 方法,但很多方法太抽象,实证效果也并不理想,作为普及方法推广是不现实的,数 据挖掘作为 IT 技术,简单快速是必不可少的,因此更多的从模型出发、以算法为基 础,建立切实可行的序列数据挖掘技术和理论体系是本文的目的。
我们在第一章的绪论中除了介绍相关的概念、基础知识和国内外研究现状外,介 绍了统计中非常实用的线性模型方法及在序列数据挖掘中的应用。 第二章主要研究了线性模型的参数估计方法,得到了很多非常深入的新结果。 第三章主要介绍了数据的可视化和序列数据的聚类研究、线性模式挖掘和异常挖 掘,同时应用于证券数据的挖掘,取得了不错的实证效果。 第四章我们主要研究了序列数据挖掘的预测问题,同样在证券实证分析中获得有 力的支持。 第五章针对实际更多出现的数据缺失深入研究了 EM 算法等数据修补技术和插 值技术,结果非常令人满意,最后进一步研究了向前搜索算法,通过聚类的预处理, 既节约时间又避免错误的发生,效果也比较理想。 序列数据挖掘的广博领域显然不是本研究所能穷尽的,我们在文末展望了该方向 今后的发展和进一步有待研究的若干问题。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30