京公网安备 11010802034615号
经营许可证编号:京B2-20210330
处理不确定数据的方法研究
成果简介:不确定性是客观存在的大量现象和事物的特征,其表现形式也具有多样性,如随机性、模糊性、粗糙性以及多重不确定性等。随着研究范围的扩大、研究内容的深入,对不确定现象与事物的研究及其数据处理方法也亟待突破和落地应用。本研究针对不确定性的数学理论、算法及应用开展了多层次研究:数据分析师,在随机性数据处理方面,应用已有的成熟算法对实际生活中常见的不确定性现象开展分析,包括了多维标度法在亲属关系中的分析应用、Bayes判别法在医学领中的分析应用;在粗糙性数据处理方面,发展了若干处理不确定性数据的新方法,包括了合成集值信息系统的属性特征分析方法以及基于包含度的结构粗糙集近似方法研究。
成果内容提要:
随着信息技术的日星月异,一些具有海量、高维、动态等特征的大规模复杂数据不对涌现,这些数据以数字、语言、声音、图像等形式进行存储,并形成了大量的复杂信息系统,人们迫切需要去分析处理这些复杂数据,从中找到有价值的信息和知识。然而,(数据分析师)由于这些数据带有的高度不确定性,直接对这些数据进行处理面临着严重的计算问题。瞎子摸象的故事就反映了在信息不确定性下进行应用推理会产生认知的偏差。因此,如何有效、快速地处理不确定性数据,并提取出隐含其中、潜在有用的知识,一直是智能信息处理领域的一个研究热点。
作为知识获取和数据挖掘的重要理论,概率论与包含度理论是处理随机性和粗糙性数据工具的基础理论。本作品针对若干不确定性的数学理论、算法及应用开展了多层次研究,在随机和粗糙性数据处理方面取得了以下两方面的研究成果,对推动不确定性数据处理的理论、方法和实际应用研究具体重要的现实意义。
1、在随机性数据处理方面,应用基于概率论的统计分析算法对实际生活的常见不确定性现象开展分析。
(1)多维标度法在亲属关系中的分析应用:简单地介绍了多维标度法和加权多维标度法的理论及原理,对亲属关系间的不确定现象进行建模,采用多维标度法分析了亲属关系的亲密程度,展示了15种亲属关系可分为五大类,并由此得到在人们心中亲属的分类情况,最终根据这些分类来解释一些亲属间的关系,理解人际关系中的一些社会现象,帮助缓和彼此之间的一些矛盾。
(2)Bayes判别法在医学领中的分析应用:Bayes判别在进行判别分析时考虑到各总体出现的先验概率、预报的先验概率及错判造成的损失,其判别效能优于其他判别方法。在对Bayes判别方法详细介绍基础上,本研究利用R软件对一组舒张压和胆固醇数据分别进行Bayes判别分析、Fisher判别分析和基于距离的判别分析,对比三种不同方法下得到的判别结果。结果表明,Bayes判别分析得到的分类结果精度较高,在医学领域有较好的应用前景。
2、在粗糙性数据处理方面,发展了基于包含度理论的若干粗糙性数据处理新理论和新方法。
(1)合成集值信息系统的属性特征:属性特征是描述数据的重要表征,也是研究信息系统中属性重要性的方法之一。对一个信息系统而言,知识库中的属性并不是同等重要的,其中有些属性是冗余的,即不必要属性,而有些属性是必需的,即必要属性。而当信息系统中的数据是随机采集时,其冗余性更为普遍。因此,研究信息系统中属性的重要性即属性特征具有重要的理论与实际意义。本研究基于集值信息系统中的拟序关系,给出了对象合成、属性合成集值信息系统,讨论了集值信息系统与合成集值信息系统的协调集、属性特征之间的关系,进而定义了对象(属性)子集值信息系统,研究了子集值信息系统与原集值信息系统等的必要属性及不必要属性之间的关系。
(2)(数据分析师)基于包含度的结构粗糙集近似方法研究:基于包含度理论的粗糙集是一种处理不确定性和不完整性的数学工具,不仅能有效地分析不完整、不一致、不精确等不完备的信息,还能对数据进行分析与推理,从中发现隐含的的知识,揭示其潜在的规律。本研究在Pawlak下、上近似和Bryniarski下、上近似的基础上,研究了结构粗糙集近似及其性质,主要包括基于概率粗糙集近似研究及其性质,利用包含度度量等价类和被近似集之间的包含程度,基于包含度的粗糙集近似及其性质,以及基于包含度的结构粗糙集近似。
综上,上述两方面的理论和应用研究,有助于随机和粗糙性数据的合成、传播和修正,为不确定数据处理理论和应用研究提供了借鉴,同时也对产生新的不确定推理技术有着明显的指导作用。
社会反映:
当今世界处在一个信息时代,信息是人类社会认识世界和改造世界的知识源泉,人们接触到的各种各样的信息有时候是确定的,更多的时候是不确定的。信息本身的确定或不确定属性无所谓好坏,问题在于我们怎样去正视不确定性、认识不确定性、把握不确定性,确定与不确定揭示和反映事物变化发展过程中的必然与偶然、清晰与模糊、精确与近似之间的关系,确定性是指客观事物联系和发展过程中有规律的、必然的、清晰的、精确的属性,不确定性是指客观事物联系和发展的过程中无序的、或然的、模糊的、近似的属性,确定与不确定,既有本质区别,又有内在联系,两者之间的关系是辩证统一的。
不确定性的数据分析研究是在概率论、可信性理论、包含度理论等基础理论支撑逐渐开展的,是指对决策受到各种事前无法控制的外部因素变化与影响所进行的研究和估计,可以尽量弄清和减少不确定性因素对关注问题的影响。本研究旨在提供处理若干不确定性问题的理论分析和数学工具,内容包括随机性数据与粗糙性数据的处理两大方面,部分反映了不确定性数据处理的最新研究成果、研究方法和研究动向,在理论体系和方法上均有所创新。本作品可作为应用数学、运筹学、管理科学、计算机科学、系统科学、信息科学与工程技术等专业师生和研究人员探讨分析不确定性数据处理的参考资料,也可作为相关专业的教师和研究人员的参考书。
(1)多维标度法在亲属关系中的分析应用
(2)Bayes判别分析在医学中的应用
判别分析是用以判别个体所属群体的一种统计学方法,它产生于20世纪30年代,近年来,在许多自然科学的各个分支和技术部门中,得到了广泛应用。判别分析假设训练样本由一个因变量和个自变量的个样本点构成依据这样的训练样本,判别分析建立起因变量与自变量之间的关系,称为判别规则,然后依据这种判别规则针对待判样本的每一个样品做出该样本点应归属与哪一类判别分析的方法很多,大致上分为两大类,一类是以距离为判别准则; 另一类是以概率为判别准则的Bayes判别。距离判别最简单、最直观的一种判别方法,但其存在不足,在实际中常用的是基于概率的Bayes判别。本研究对Bayes判别分析进行了详细的研究,给出了Bayes判别思想并且应用R软件程序对一个医学实例进行Bayes判别分析,同时将Bayes判别分析与Fisher判别分析以及基于距离的判别分析方法得到的结果进行了比较,说明了Bayes判别分析的分类结果精度高。由此判断,Bayes判别分析在病例诊断等医学领域应用中可以发挥不可估量的作用,随着数据库技术的飞速发展以及人们获取数据手段的多样化,计算机辅助诊断将会有广泛的应用前景和发展空间。
(3)合成集值信息系统的属性特征
Pawlak粗糙集理论以论域中的对象在任意属性下取值为单个值的信息系统为研究对象,以等价关系为基础研究概念近似(上下近似)和属性约简。近年来,许多学者将Pawlak粗糙集进行了推广,提出了基于不同二元关系的粗糙集理论模型。然而,一方面,现实世界中的信息系统形式复杂多样,要保证每个对象的所有属性值的完整性和唯一性往往是非常困难的。在不确定信息或缺省信息,即不完备信息的情况下,就需要研究不完备信息系统。另一方面,数据库的合成与分解是实际应用中非常重要的一个问题,它所对应的数学模型是信息系统的合成与分解,而实际处理数据时,经常要研究基于取值为集合的集值信息系统,所以研究集值信息系统的合成与分解就变得非常必要。
属性特征是研究信息系统中属性重要性的一种重要方法。由于任意一个信息系统的知识库都是确定的,故可根据不同的要求对信息系统进行分类、知识获取和规则提取。在实际应用中,经常会出现在原信息系统上添加对象、增加或删除属性,进而在新的信息系统上进行分类、获取知识等。故而研究新的信息系统与原信息系统在知识库、知识获取、分类及规则提取等方面的关系是一个值得研究的问题。鉴于现实中存在着大量的信息是不确定、不完备或者是多值的系统,而等价关系又极大的限制了粗糙集的属性约简等方法的研究与应用。故而,本研究将上述单值信息系统的合成方法推广到集值信息系统中,研究合成的集值信息系统的属性特征。具体是研究了集值信息系统上拟序关系的性质,给出了集值信息系统的合成——对象合成集值信息系统与属性合成集值信息系统,研究了这两种合成集值信息系统与原集值信息系统的协调集及属性特征之间的关系;进而讨论了集值信息系统的分解问题,给出了对象及属性子集值信息系统,讨论了集值信息系统与其子集值信息系统的属性特征——必要属性与不必要属性之间的关系。上述理论的研究提供了一种处理不精确和不完全知识的工具,一定程度上解决了刻画粗糙集理论中属性重要性的核心问题。
(4)合成集值信息系统的属性特征
Zadeh L A于1965年提出的模糊集是对“经典集合”的扩充,从而刻画了“对象”的不确定性,包含度理论是对“包含关系”的扩充,从而包容了“关系”的不确定性。模糊集理论与包含度理论相辅相成,成为研究不确定性的重要工具,在各种关系型数据库中有着直接的应用。在包含度理论基础上,Pawlak在粗糙集理论中提出的上、下近似是利用等价关系产生的等价类与被近似集之间的关系来刻画未知的知识。1989年Bryniarski提出了利用等价类刻画未知知识的带有结构特征的下、上近似,它保留了Pawlak下、上近似中等价类与被近似集之间的关系,但给出了满足上述关系的结构信息。本研究是在Pawlak下、上近似和Bryniarski下、上近似的基础上,总结了近年来我国不确定系统研究工作者的最新成果,研究了结构粗糙集近似及其性质,发展了基于包含度的粒计算的理论与方法,对于人工智能、专家系统、模式识别、管理决策都有重要意义。数据分析师培训
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22