京公网安备 11010802034615号
经营许可证编号:京B2-20210330
处理不确定数据的方法研究
成果简介:不确定性是客观存在的大量现象和事物的特征,其表现形式也具有多样性,如随机性、模糊性、粗糙性以及多重不确定性等。随着研究范围的扩大、研究内容的深入,对不确定现象与事物的研究及其数据处理方法也亟待突破和落地应用。本研究针对不确定性的数学理论、算法及应用开展了多层次研究:数据分析师,在随机性数据处理方面,应用已有的成熟算法对实际生活中常见的不确定性现象开展分析,包括了多维标度法在亲属关系中的分析应用、Bayes判别法在医学领中的分析应用;在粗糙性数据处理方面,发展了若干处理不确定性数据的新方法,包括了合成集值信息系统的属性特征分析方法以及基于包含度的结构粗糙集近似方法研究。
成果内容提要:
随着信息技术的日星月异,一些具有海量、高维、动态等特征的大规模复杂数据不对涌现,这些数据以数字、语言、声音、图像等形式进行存储,并形成了大量的复杂信息系统,人们迫切需要去分析处理这些复杂数据,从中找到有价值的信息和知识。然而,(数据分析师)由于这些数据带有的高度不确定性,直接对这些数据进行处理面临着严重的计算问题。瞎子摸象的故事就反映了在信息不确定性下进行应用推理会产生认知的偏差。因此,如何有效、快速地处理不确定性数据,并提取出隐含其中、潜在有用的知识,一直是智能信息处理领域的一个研究热点。
作为知识获取和数据挖掘的重要理论,概率论与包含度理论是处理随机性和粗糙性数据工具的基础理论。本作品针对若干不确定性的数学理论、算法及应用开展了多层次研究,在随机和粗糙性数据处理方面取得了以下两方面的研究成果,对推动不确定性数据处理的理论、方法和实际应用研究具体重要的现实意义。
1、在随机性数据处理方面,应用基于概率论的统计分析算法对实际生活的常见不确定性现象开展分析。
(1)多维标度法在亲属关系中的分析应用:简单地介绍了多维标度法和加权多维标度法的理论及原理,对亲属关系间的不确定现象进行建模,采用多维标度法分析了亲属关系的亲密程度,展示了15种亲属关系可分为五大类,并由此得到在人们心中亲属的分类情况,最终根据这些分类来解释一些亲属间的关系,理解人际关系中的一些社会现象,帮助缓和彼此之间的一些矛盾。
(2)Bayes判别法在医学领中的分析应用:Bayes判别在进行判别分析时考虑到各总体出现的先验概率、预报的先验概率及错判造成的损失,其判别效能优于其他判别方法。在对Bayes判别方法详细介绍基础上,本研究利用R软件对一组舒张压和胆固醇数据分别进行Bayes判别分析、Fisher判别分析和基于距离的判别分析,对比三种不同方法下得到的判别结果。结果表明,Bayes判别分析得到的分类结果精度较高,在医学领域有较好的应用前景。
2、在粗糙性数据处理方面,发展了基于包含度理论的若干粗糙性数据处理新理论和新方法。
(1)合成集值信息系统的属性特征:属性特征是描述数据的重要表征,也是研究信息系统中属性重要性的方法之一。对一个信息系统而言,知识库中的属性并不是同等重要的,其中有些属性是冗余的,即不必要属性,而有些属性是必需的,即必要属性。而当信息系统中的数据是随机采集时,其冗余性更为普遍。因此,研究信息系统中属性的重要性即属性特征具有重要的理论与实际意义。本研究基于集值信息系统中的拟序关系,给出了对象合成、属性合成集值信息系统,讨论了集值信息系统与合成集值信息系统的协调集、属性特征之间的关系,进而定义了对象(属性)子集值信息系统,研究了子集值信息系统与原集值信息系统等的必要属性及不必要属性之间的关系。
(2)(数据分析师)基于包含度的结构粗糙集近似方法研究:基于包含度理论的粗糙集是一种处理不确定性和不完整性的数学工具,不仅能有效地分析不完整、不一致、不精确等不完备的信息,还能对数据进行分析与推理,从中发现隐含的的知识,揭示其潜在的规律。本研究在Pawlak下、上近似和Bryniarski下、上近似的基础上,研究了结构粗糙集近似及其性质,主要包括基于概率粗糙集近似研究及其性质,利用包含度度量等价类和被近似集之间的包含程度,基于包含度的粗糙集近似及其性质,以及基于包含度的结构粗糙集近似。
综上,上述两方面的理论和应用研究,有助于随机和粗糙性数据的合成、传播和修正,为不确定数据处理理论和应用研究提供了借鉴,同时也对产生新的不确定推理技术有着明显的指导作用。
社会反映:
当今世界处在一个信息时代,信息是人类社会认识世界和改造世界的知识源泉,人们接触到的各种各样的信息有时候是确定的,更多的时候是不确定的。信息本身的确定或不确定属性无所谓好坏,问题在于我们怎样去正视不确定性、认识不确定性、把握不确定性,确定与不确定揭示和反映事物变化发展过程中的必然与偶然、清晰与模糊、精确与近似之间的关系,确定性是指客观事物联系和发展过程中有规律的、必然的、清晰的、精确的属性,不确定性是指客观事物联系和发展的过程中无序的、或然的、模糊的、近似的属性,确定与不确定,既有本质区别,又有内在联系,两者之间的关系是辩证统一的。
不确定性的数据分析研究是在概率论、可信性理论、包含度理论等基础理论支撑逐渐开展的,是指对决策受到各种事前无法控制的外部因素变化与影响所进行的研究和估计,可以尽量弄清和减少不确定性因素对关注问题的影响。本研究旨在提供处理若干不确定性问题的理论分析和数学工具,内容包括随机性数据与粗糙性数据的处理两大方面,部分反映了不确定性数据处理的最新研究成果、研究方法和研究动向,在理论体系和方法上均有所创新。本作品可作为应用数学、运筹学、管理科学、计算机科学、系统科学、信息科学与工程技术等专业师生和研究人员探讨分析不确定性数据处理的参考资料,也可作为相关专业的教师和研究人员的参考书。
(1)多维标度法在亲属关系中的分析应用
(2)Bayes判别分析在医学中的应用
判别分析是用以判别个体所属群体的一种统计学方法,它产生于20世纪30年代,近年来,在许多自然科学的各个分支和技术部门中,得到了广泛应用。判别分析假设训练样本由一个因变量和个自变量的个样本点构成依据这样的训练样本,判别分析建立起因变量与自变量之间的关系,称为判别规则,然后依据这种判别规则针对待判样本的每一个样品做出该样本点应归属与哪一类判别分析的方法很多,大致上分为两大类,一类是以距离为判别准则; 另一类是以概率为判别准则的Bayes判别。距离判别最简单、最直观的一种判别方法,但其存在不足,在实际中常用的是基于概率的Bayes判别。本研究对Bayes判别分析进行了详细的研究,给出了Bayes判别思想并且应用R软件程序对一个医学实例进行Bayes判别分析,同时将Bayes判别分析与Fisher判别分析以及基于距离的判别分析方法得到的结果进行了比较,说明了Bayes判别分析的分类结果精度高。由此判断,Bayes判别分析在病例诊断等医学领域应用中可以发挥不可估量的作用,随着数据库技术的飞速发展以及人们获取数据手段的多样化,计算机辅助诊断将会有广泛的应用前景和发展空间。
(3)合成集值信息系统的属性特征
Pawlak粗糙集理论以论域中的对象在任意属性下取值为单个值的信息系统为研究对象,以等价关系为基础研究概念近似(上下近似)和属性约简。近年来,许多学者将Pawlak粗糙集进行了推广,提出了基于不同二元关系的粗糙集理论模型。然而,一方面,现实世界中的信息系统形式复杂多样,要保证每个对象的所有属性值的完整性和唯一性往往是非常困难的。在不确定信息或缺省信息,即不完备信息的情况下,就需要研究不完备信息系统。另一方面,数据库的合成与分解是实际应用中非常重要的一个问题,它所对应的数学模型是信息系统的合成与分解,而实际处理数据时,经常要研究基于取值为集合的集值信息系统,所以研究集值信息系统的合成与分解就变得非常必要。
属性特征是研究信息系统中属性重要性的一种重要方法。由于任意一个信息系统的知识库都是确定的,故可根据不同的要求对信息系统进行分类、知识获取和规则提取。在实际应用中,经常会出现在原信息系统上添加对象、增加或删除属性,进而在新的信息系统上进行分类、获取知识等。故而研究新的信息系统与原信息系统在知识库、知识获取、分类及规则提取等方面的关系是一个值得研究的问题。鉴于现实中存在着大量的信息是不确定、不完备或者是多值的系统,而等价关系又极大的限制了粗糙集的属性约简等方法的研究与应用。故而,本研究将上述单值信息系统的合成方法推广到集值信息系统中,研究合成的集值信息系统的属性特征。具体是研究了集值信息系统上拟序关系的性质,给出了集值信息系统的合成——对象合成集值信息系统与属性合成集值信息系统,研究了这两种合成集值信息系统与原集值信息系统的协调集及属性特征之间的关系;进而讨论了集值信息系统的分解问题,给出了对象及属性子集值信息系统,讨论了集值信息系统与其子集值信息系统的属性特征——必要属性与不必要属性之间的关系。上述理论的研究提供了一种处理不精确和不完全知识的工具,一定程度上解决了刻画粗糙集理论中属性重要性的核心问题。
(4)合成集值信息系统的属性特征
Zadeh L A于1965年提出的模糊集是对“经典集合”的扩充,从而刻画了“对象”的不确定性,包含度理论是对“包含关系”的扩充,从而包容了“关系”的不确定性。模糊集理论与包含度理论相辅相成,成为研究不确定性的重要工具,在各种关系型数据库中有着直接的应用。在包含度理论基础上,Pawlak在粗糙集理论中提出的上、下近似是利用等价关系产生的等价类与被近似集之间的关系来刻画未知的知识。1989年Bryniarski提出了利用等价类刻画未知知识的带有结构特征的下、上近似,它保留了Pawlak下、上近似中等价类与被近似集之间的关系,但给出了满足上述关系的结构信息。本研究是在Pawlak下、上近似和Bryniarski下、上近似的基础上,总结了近年来我国不确定系统研究工作者的最新成果,研究了结构粗糙集近似及其性质,发展了基于包含度的粒计算的理论与方法,对于人工智能、专家系统、模式识别、管理决策都有重要意义。数据分析师培训
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16