
达梦“模块化数据中心”筑梦大数据时代_数据分析师
模块化数据中心已经成为解决当今企业所面临的不断增长的数据处理需求的一种普遍的解决方案,越来越多的政府单位、企业正在考虑借助模块化数据中心的诸多优势和其独特的能力,以满足各方面的数据处理需求。
PB级大数据带来的挑战
互联网时代,尤其是社交网络、电子商务、移动通信等把人类带入一个以“PB”为单位的结构与非结构数据信息的新时代。那么PB级数据是什么概念?一提到数据量级,人们通常会联想到美国国会图书馆。麦肯锡首席分析师Michael Chui指出,美国国会图书馆“在2011年4月前已经收集了235TB的数据,而一个PB相当于它的4倍。”
未来10年之内人均,实时消费数据将达到PB级,是目前数据消费TB级的1000倍,如此大的数据处理需求将给现有的以计算为中心的传统数据中心带来一系列巨大挑战,包括实时数据处理、按需动态资源分配及调整、大规模系统运行的能效等诸多方面。从业务层面来看,亟需解决软硬件资源统一管理、按需分配、合理调度,信息资源的共享交换、池化管理,形成一套“合规”的资源服务池,并从该池中按需获取所需资源或服务。
“以数据为中心”的新型数据中心
在这种情况下,传统的数据中心必然需要转型,向以数据为中心的方向发展,能够灵活地将任务调度到数据位置较近的处理单元。传统数据中心的设计目标是能够持续工作,设计者们要求所设计的产品能够用几百年不损坏、保持正常工作。设计者心目中的数据中心是一大堆物理设备孤立的堆砌;事实上,建立传统数据中心最初的动机,就是管理好日益增多的物理设备,保持良好的环境,不要损坏和丢失,出了故障有人维修。并且传统的数据中心资源孤立、且不能实现在整个数据中心的实时、动态调度,这也是传统数据中心资源利用效率低下的根本原因。
随着数据中心的发展,传统数据中心的问题逐渐显露。达梦数据中心在充分吸收传统数据中心的问题基础上,推出了“以数据为中心”的新型数据中心理念。从逻辑上看,达梦的新型数据中心提供一个全局的资源目录,包含了各种应用系统的所有数据,构成了一个全局统一的逻辑数据库。当用户向这个虚拟的逻辑数据库发起数据访问请求时,它首先通过检索全局资源目录,回答该数据是否存在,然后从资源目录信息中获取其位置信息,如果该数据从物理位置上是存放在本地,则从本地物理库中获取,否则根据资源目录信息中获取的远程位置信息,通过统一的远程数据访问接口来获取实际数据。
由此可见,达梦的新型数据中心相当于是一个庞大的全局化逻辑库,可以根据业务的需要,采用某种算法。而实际的物理库中只会存放那些使用频率相对较多的数据,这样既可以节约存储资源,也能减少数据集中后所带来的数据更新的代价。同时根据数据的访问热度,可实现对物理库中数据的动态存储管理,将最常使用的数据放到速度最快的内存当中,次之的数据放到固态盘,一般的数据放到磁盘,较长时间不用的数据则移到外部磁盘磁带中,而长期无人使用的数据会被清除以腾出空间。
模块化实现高效部署
物联网、互联网等信息技术的快速发展带来了数据爆炸式增长,为了适应大数据的发展趋势,数据中心不断扩大规模、提升性能,以支持越来越复杂的海量数据管理需求。
出于性能的考虑,一般对于经常要使用的数据、以及分析应用所需要的数据,要从远程数据源中将数据抽取、交换到数据中心的目标数据库进行集中处理。数据集中带来处理方便、性能提升等好处的同时,也带来了数据一致性的问题。如何以较小的代价、最快的速度将数据源中发生变化的数据传递到数据中心目标数据库中进行更新,以保持两边数据的一致,已成为数据中心建设必须要考虑的问题。而达梦突破传统解决之道,采取“模块化”的数据中心建设思想,不仅实现数据同步、还实现了显著的性能优化。
首先,在数据交换层面,传统的数据交换采用时间戳、触发器、MD5等方式来捕获增量数据,使数据源的数据库产生较大负载,延时也比较大。当数据量很大,同步时间要求很短的时候,传统方案难以同时满足处理性能和数据一致性的要求。达梦的模块化数据中心则采用读取数据源的数据库运行日志文件的方法,从中分析出数据变化的情况,通过监控日志文件的变化,能近乎实时地捕获到数据变化,值得一提的是,这只占用的非常少量的操作系统监控和读取文件资源,对被监控的数据库实例的运行基本没有影响。
其次,在数据中心建设方面,传统的数据中心建设周期非常长,而达梦模块化数据中心在现场部署的速度非常高效,主要是因为模块化的数据分类预制,从数据处理的全生命周期这个角度来说,它主要分为数据采集抽取、数据整合管理、面向业务的数据服务、多样化数据应用等四个方面,各自拥有统一接口、统一标准、统一顶层设计的模块化产品,这些以达梦数据库产品为核心的产品集合,为模块化数据中心的快速部署奠定了坚实基础。我们沿着数据管理生命周期的顺序,通过了解模块化数据中心内部的管理机制,可发现达梦新型数据中心优于传统数据中心的特色亮点:
数据交换:从其他业务系统采集数据、访问数据时,数据交换平台可针对交换频繁、数据量极大的自动采集需求,使用达梦异构数据实时同步工具处理“海量密集,实时异构”的采集需求。而针对交换频度较低,但有一定清洗转换要求的自动采集需求,使用ETL工具定时处理“定期采集,清洗转换”的采集需求。针对涉密敏感、不允许直接交换的数据,使用请求服务引擎实现“按需访问,数据自治”的查询比对需求。
数据管理:在数据交换、采集完成后,需要对数据进行整合和梳理,数据管理平台可实现该类需求。对于整合来的各类项目数据资源,针对多种采集渠道、承载方式,数据资源管理平台均采用一致的方式进行可视化管理和维护,将碎片离散的信息整体呈现。同时,针对各类信息资源的业务属性描述、来源信息等内容,通过元数据管理进行统一描述、统一归集、统一管理,使信息资源的重用成为可能。针对数据归集过程中,数据不一致、不准确的情况,主要基于质量管理平台进行质量管理和提升,基于质量规则,发现各类数据质量问题,给出质量整改门户,推进数据整合的质量提升。针对数据整合后的梳理和编目需求,主要依靠数据资源目录系统,按照业务属性、提供单位、系统类型等因素进行编目梳理,使数据能够被成功访问和重用。针对所涉及的大量原始非结构数据,则是通过文档管理系统进行统一管理,可以有效节约存储空间,提供全文检索等增值能力。
数据分析:数据整合后进行服务发布运用的过程,主要基于数据分析服务平台来实现。针对数据整合建立数据仓库、联机分析的需求,主要采用BI分析平台来实现数据仓库建设、联机分析设计、联机分析呈现等功能。
数据呈现:针对数据选择性呈现需求,基于数据门户可实现数据的组合及筛选处理,完成数据面向不同人员、不同环节、不同方式的选择性呈现能力。
而数据服务平台,则提供基于已整合数据的非可视化(API,REST,WEBSERVICE)数据服务接口,来满足数据的横向比对、纵向比对、跨业务系统的对接需求。针对数据中心及业务系统运转的情况的可视化需求(如系统承载能力、访问状况、异常信息等),主要使用运维监控系统,通过监控门户、仪表盘、驾驶舱进行多角度可视化呈现。针对管数据的可视化呈现需求,基于数据展现应用提供基于已整合数据的可视化组件设计及呈现。
结语
在大数据时代,达梦数据库坚持创新发展的技术路线,业界率先推行新型模块化数据中心建设理念,以数据流为主线,实现从大数据存储、数据交换、数据管理、数据分析到数据应用的全生命周期管理,并结合多年的项目建设与实践经验,致力于为更多政府机关、各行业领域单位提供大数据平台咨询与技术服务,作为国产数据库品牌的中坚力量、领军企业,为国产信息化建设贡献力量!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
人工智能对CDA数据分析领域的影响 人工智能对 CDA(Certified Data Analyst,注册数据分析师)数据分析领域的影响是全方位、多层 ...
2025-08-07SPSS 语法使用详解 在当今数据驱动的时代,SPSS( Statistical Package for the Social Sciences)作为一款功能强大的统计分析软 ...
2025-08-07SASEM 决策树:理论与实践应用 在复杂的决策场景中,如何从海量数据中提取有效信息并制定科学决策,是各界关注的焦点。SASEM 决 ...
2025-08-07CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-07大数据时代对定性分析的影响 在大数据时代,海量、多样、高速且低价值密度的数据充斥着我们的生活与工作。而定性分析作为一 ...
2025-08-07K-S 曲线、回归与分类:数据分析中的重要工具 在数据分析与机器学习领域,K-S 曲线、回归和分类是三个核心概念与工具,它们各 ...
2025-08-07CDA 数据分析师考试全解析 在当今数字化时代,数据已成为企业发展的核心驱动力,数据分析师这一职业也愈发受到重视。CDA 数据分 ...
2025-08-07大数据时代的隐患:繁荣背后的隐忧 当我们在电商平台浏览商品时,系统总能 “精准” 推送心仪的物品;当我们刷短视频时,算法 ...
2025-08-07解析 F 边界检验:协整分析中的实用工具 在计量经济学的时间序列分析中,判断变量之间是否存在长期稳定的均衡关系(即协整关系) ...
2025-08-07CDA 数据分析师报考条件详解:迈向专业认证的指南 在数据分析行业蓬勃发展的当下,CDA 数据分析师认证成为众多从业者提升专业 ...
2025-08-07通过 COX 回归模型诊断异常值 一、COX 回归模型概述 COX 回归模型,又称比例风险回归模型,是一种用于生存分析的统计方法。它能 ...
2025-08-07评判两组数据与初始数据准确值的方法 在数据分析与研究中,我们常常会面临这样的情况:需要对通过不同方法、不同过程得到的两组 ...
2025-08-07CDA 数据分析师行业标准:构建数据人才的能力坐标系 在数据驱动决策成为企业核心竞争力的时代,CDA(数据分析师)行业标准作为 ...
2025-08-07反向传播神经网络:突破传统算法瓶颈的革命性力量 在人工智能发展的历史长河中,传统算法曾长期主导着数据处理与模式识别领域 ...
2025-08-07MySQL 统计连续每天数据:从业务需求到技术实现 在数据分析场景中,连续日期的数据统计是衡量业务连续性的重要手段 —— 无论是 ...
2025-08-07抖音数据分析师:驱动平台增长的幕后推手 在抖音这个日活用户数以亿计的超级平台上,每一次用户的滑动、点赞、评论,每一条 ...
2025-08-07基于 SPSS 的中介效应分析结果解读:揭示变量间的隐性关联 在社会科学与自然科学研究中,变量之间的关系往往并非简单的直接作用 ...
2025-08-07正态分布与偏态分布的核心区别解析 在统计学中,数据的分布形态是理解数据特征、选择分析方法的基础。正态分布与偏态分布作为两 ...
2025-08-07CDA 一级考试内容详解 CDA(Certified Data Analyst)即数据分析师认证,一级考试作为该认证体系中的入门级别考试,主要面向零基 ...
2025-08-07中介分析的 SPSS 结果解读:从原理到实践 在社会科学、医学、心理学等领域的研究中,变量之间的关系往往并非简单的直接影响,而 ...
2025-08-07