
处理不确定数据的方法研究
成果简介:不确定性是客观存在的大量现象和事物的特征,其表现形式也具有多样性,如随机性、模糊性、粗糙性以及多重不确定性等。随着研究范围的扩大、研究内容的深入,对不确定现象与事物的研究及其数据处理方法也亟待突破和落地应用。本研究针对不确定性的数学理论、算法及应用开展了多层次研究:数据分析师,在随机性数据处理方面,应用已有的成熟算法对实际生活中常见的不确定性现象开展分析,包括了多维标度法在亲属关系中的分析应用、Bayes判别法在医学领中的分析应用;在粗糙性数据处理方面,发展了若干处理不确定性数据的新方法,包括了合成集值信息系统的属性特征分析方法以及基于包含度的结构粗糙集近似方法研究。
成果内容提要:
随着信息技术的日星月异,一些具有海量、高维、动态等特征的大规模复杂数据不对涌现,这些数据以数字、语言、声音、图像等形式进行存储,并形成了大量的复杂信息系统,人们迫切需要去分析处理这些复杂数据,从中找到有价值的信息和知识。然而,(数据分析师)由于这些数据带有的高度不确定性,直接对这些数据进行处理面临着严重的计算问题。瞎子摸象的故事就反映了在信息不确定性下进行应用推理会产生认知的偏差。因此,如何有效、快速地处理不确定性数据,并提取出隐含其中、潜在有用的知识,一直是智能信息处理领域的一个研究热点。
作为知识获取和数据挖掘的重要理论,概率论与包含度理论是处理随机性和粗糙性数据工具的基础理论。本作品针对若干不确定性的数学理论、算法及应用开展了多层次研究,在随机和粗糙性数据处理方面取得了以下两方面的研究成果,对推动不确定性数据处理的理论、方法和实际应用研究具体重要的现实意义。
1、在随机性数据处理方面,应用基于概率论的统计分析算法对实际生活的常见不确定性现象开展分析。
(1)多维标度法在亲属关系中的分析应用:简单地介绍了多维标度法和加权多维标度法的理论及原理,对亲属关系间的不确定现象进行建模,采用多维标度法分析了亲属关系的亲密程度,展示了15种亲属关系可分为五大类,并由此得到在人们心中亲属的分类情况,最终根据这些分类来解释一些亲属间的关系,理解人际关系中的一些社会现象,帮助缓和彼此之间的一些矛盾。
(2)Bayes判别法在医学领中的分析应用:Bayes判别在进行判别分析时考虑到各总体出现的先验概率、预报的先验概率及错判造成的损失,其判别效能优于其他判别方法。在对Bayes判别方法详细介绍基础上,本研究利用R软件对一组舒张压和胆固醇数据分别进行Bayes判别分析、Fisher判别分析和基于距离的判别分析,对比三种不同方法下得到的判别结果。结果表明,Bayes判别分析得到的分类结果精度较高,在医学领域有较好的应用前景。
2、在粗糙性数据处理方面,发展了基于包含度理论的若干粗糙性数据处理新理论和新方法。
(1)合成集值信息系统的属性特征:属性特征是描述数据的重要表征,也是研究信息系统中属性重要性的方法之一。对一个信息系统而言,知识库中的属性并不是同等重要的,其中有些属性是冗余的,即不必要属性,而有些属性是必需的,即必要属性。而当信息系统中的数据是随机采集时,其冗余性更为普遍。因此,研究信息系统中属性的重要性即属性特征具有重要的理论与实际意义。本研究基于集值信息系统中的拟序关系,给出了对象合成、属性合成集值信息系统,讨论了集值信息系统与合成集值信息系统的协调集、属性特征之间的关系,进而定义了对象(属性)子集值信息系统,研究了子集值信息系统与原集值信息系统等的必要属性及不必要属性之间的关系。
(2)(数据分析师)基于包含度的结构粗糙集近似方法研究:基于包含度理论的粗糙集是一种处理不确定性和不完整性的数学工具,不仅能有效地分析不完整、不一致、不精确等不完备的信息,还能对数据进行分析与推理,从中发现隐含的的知识,揭示其潜在的规律。本研究在Pawlak下、上近似和Bryniarski下、上近似的基础上,研究了结构粗糙集近似及其性质,主要包括基于概率粗糙集近似研究及其性质,利用包含度度量等价类和被近似集之间的包含程度,基于包含度的粗糙集近似及其性质,以及基于包含度的结构粗糙集近似。
综上,上述两方面的理论和应用研究,有助于随机和粗糙性数据的合成、传播和修正,为不确定数据处理理论和应用研究提供了借鉴,同时也对产生新的不确定推理技术有着明显的指导作用。
社会反映:
当今世界处在一个信息时代,信息是人类社会认识世界和改造世界的知识源泉,人们接触到的各种各样的信息有时候是确定的,更多的时候是不确定的。信息本身的确定或不确定属性无所谓好坏,问题在于我们怎样去正视不确定性、认识不确定性、把握不确定性,确定与不确定揭示和反映事物变化发展过程中的必然与偶然、清晰与模糊、精确与近似之间的关系,确定性是指客观事物联系和发展过程中有规律的、必然的、清晰的、精确的属性,不确定性是指客观事物联系和发展的过程中无序的、或然的、模糊的、近似的属性,确定与不确定,既有本质区别,又有内在联系,两者之间的关系是辩证统一的。
不确定性的数据分析研究是在概率论、可信性理论、包含度理论等基础理论支撑逐渐开展的,是指对决策受到各种事前无法控制的外部因素变化与影响所进行的研究和估计,可以尽量弄清和减少不确定性因素对关注问题的影响。本研究旨在提供处理若干不确定性问题的理论分析和数学工具,内容包括随机性数据与粗糙性数据的处理两大方面,部分反映了不确定性数据处理的最新研究成果、研究方法和研究动向,在理论体系和方法上均有所创新。本作品可作为应用数学、运筹学、管理科学、计算机科学、系统科学、信息科学与工程技术等专业师生和研究人员探讨分析不确定性数据处理的参考资料,也可作为相关专业的教师和研究人员的参考书。
(1)多维标度法在亲属关系中的分析应用
(2)Bayes判别分析在医学中的应用
判别分析是用以判别个体所属群体的一种统计学方法,它产生于20世纪30年代,近年来,在许多自然科学的各个分支和技术部门中,得到了广泛应用。判别分析假设训练样本由一个因变量和个自变量的个样本点构成依据这样的训练样本,判别分析建立起因变量与自变量之间的关系,称为判别规则,然后依据这种判别规则针对待判样本的每一个样品做出该样本点应归属与哪一类判别分析的方法很多,大致上分为两大类,一类是以距离为判别准则; 另一类是以概率为判别准则的Bayes判别。距离判别最简单、最直观的一种判别方法,但其存在不足,在实际中常用的是基于概率的Bayes判别。本研究对Bayes判别分析进行了详细的研究,给出了Bayes判别思想并且应用R软件程序对一个医学实例进行Bayes判别分析,同时将Bayes判别分析与Fisher判别分析以及基于距离的判别分析方法得到的结果进行了比较,说明了Bayes判别分析的分类结果精度高。由此判断,Bayes判别分析在病例诊断等医学领域应用中可以发挥不可估量的作用,随着数据库技术的飞速发展以及人们获取数据手段的多样化,计算机辅助诊断将会有广泛的应用前景和发展空间。
(3)合成集值信息系统的属性特征
Pawlak粗糙集理论以论域中的对象在任意属性下取值为单个值的信息系统为研究对象,以等价关系为基础研究概念近似(上下近似)和属性约简。近年来,许多学者将Pawlak粗糙集进行了推广,提出了基于不同二元关系的粗糙集理论模型。然而,一方面,现实世界中的信息系统形式复杂多样,要保证每个对象的所有属性值的完整性和唯一性往往是非常困难的。在不确定信息或缺省信息,即不完备信息的情况下,就需要研究不完备信息系统。另一方面,数据库的合成与分解是实际应用中非常重要的一个问题,它所对应的数学模型是信息系统的合成与分解,而实际处理数据时,经常要研究基于取值为集合的集值信息系统,所以研究集值信息系统的合成与分解就变得非常必要。
属性特征是研究信息系统中属性重要性的一种重要方法。由于任意一个信息系统的知识库都是确定的,故可根据不同的要求对信息系统进行分类、知识获取和规则提取。在实际应用中,经常会出现在原信息系统上添加对象、增加或删除属性,进而在新的信息系统上进行分类、获取知识等。故而研究新的信息系统与原信息系统在知识库、知识获取、分类及规则提取等方面的关系是一个值得研究的问题。鉴于现实中存在着大量的信息是不确定、不完备或者是多值的系统,而等价关系又极大的限制了粗糙集的属性约简等方法的研究与应用。故而,本研究将上述单值信息系统的合成方法推广到集值信息系统中,研究合成的集值信息系统的属性特征。具体是研究了集值信息系统上拟序关系的性质,给出了集值信息系统的合成——对象合成集值信息系统与属性合成集值信息系统,研究了这两种合成集值信息系统与原集值信息系统的协调集及属性特征之间的关系;进而讨论了集值信息系统的分解问题,给出了对象及属性子集值信息系统,讨论了集值信息系统与其子集值信息系统的属性特征——必要属性与不必要属性之间的关系。上述理论的研究提供了一种处理不精确和不完全知识的工具,一定程度上解决了刻画粗糙集理论中属性重要性的核心问题。
(4)合成集值信息系统的属性特征
Zadeh L A于1965年提出的模糊集是对“经典集合”的扩充,从而刻画了“对象”的不确定性,包含度理论是对“包含关系”的扩充,从而包容了“关系”的不确定性。模糊集理论与包含度理论相辅相成,成为研究不确定性的重要工具,在各种关系型数据库中有着直接的应用。在包含度理论基础上,Pawlak在粗糙集理论中提出的上、下近似是利用等价关系产生的等价类与被近似集之间的关系来刻画未知的知识。1989年Bryniarski提出了利用等价类刻画未知知识的带有结构特征的下、上近似,它保留了Pawlak下、上近似中等价类与被近似集之间的关系,但给出了满足上述关系的结构信息。本研究是在Pawlak下、上近似和Bryniarski下、上近似的基础上,总结了近年来我国不确定系统研究工作者的最新成果,研究了结构粗糙集近似及其性质,发展了基于包含度的粒计算的理论与方法,对于人工智能、专家系统、模式识别、管理决策都有重要意义。数据分析师培训
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29