京公网安备 11010802034615号
经营许可证编号:京B2-20210330
达梦“模块化数据中心”筑梦大数据时代_数据分析师
模块化数据中心已经成为解决当今企业所面临的不断增长的数据处理需求的一种普遍的解决方案,越来越多的政府单位、企业正在考虑借助模块化数据中心的诸多优势和其独特的能力,以满足各方面的数据处理需求。
PB级大数据带来的挑战
互联网时代,尤其是社交网络、电子商务、移动通信等把人类带入一个以“PB”为单位的结构与非结构数据信息的新时代。那么PB级数据是什么概念?一提到数据量级,人们通常会联想到美国国会图书馆。麦肯锡首席分析师Michael Chui指出,美国国会图书馆“在2011年4月前已经收集了235TB的数据,而一个PB相当于它的4倍。”
未来10年之内人均,实时消费数据将达到PB级,是目前数据消费TB级的1000倍,如此大的数据处理需求将给现有的以计算为中心的传统数据中心带来一系列巨大挑战,包括实时数据处理、按需动态资源分配及调整、大规模系统运行的能效等诸多方面。从业务层面来看,亟需解决软硬件资源统一管理、按需分配、合理调度,信息资源的共享交换、池化管理,形成一套“合规”的资源服务池,并从该池中按需获取所需资源或服务。
“以数据为中心”的新型数据中心
在这种情况下,传统的数据中心必然需要转型,向以数据为中心的方向发展,能够灵活地将任务调度到数据位置较近的处理单元。传统数据中心的设计目标是能够持续工作,设计者们要求所设计的产品能够用几百年不损坏、保持正常工作。设计者心目中的数据中心是一大堆物理设备孤立的堆砌;事实上,建立传统数据中心最初的动机,就是管理好日益增多的物理设备,保持良好的环境,不要损坏和丢失,出了故障有人维修。并且传统的数据中心资源孤立、且不能实现在整个数据中心的实时、动态调度,这也是传统数据中心资源利用效率低下的根本原因。
随着数据中心的发展,传统数据中心的问题逐渐显露。达梦数据中心在充分吸收传统数据中心的问题基础上,推出了“以数据为中心”的新型数据中心理念。从逻辑上看,达梦的新型数据中心提供一个全局的资源目录,包含了各种应用系统的所有数据,构成了一个全局统一的逻辑数据库。当用户向这个虚拟的逻辑数据库发起数据访问请求时,它首先通过检索全局资源目录,回答该数据是否存在,然后从资源目录信息中获取其位置信息,如果该数据从物理位置上是存放在本地,则从本地物理库中获取,否则根据资源目录信息中获取的远程位置信息,通过统一的远程数据访问接口来获取实际数据。
由此可见,达梦的新型数据中心相当于是一个庞大的全局化逻辑库,可以根据业务的需要,采用某种算法。而实际的物理库中只会存放那些使用频率相对较多的数据,这样既可以节约存储资源,也能减少数据集中后所带来的数据更新的代价。同时根据数据的访问热度,可实现对物理库中数据的动态存储管理,将最常使用的数据放到速度最快的内存当中,次之的数据放到固态盘,一般的数据放到磁盘,较长时间不用的数据则移到外部磁盘磁带中,而长期无人使用的数据会被清除以腾出空间。
模块化实现高效部署
物联网、互联网等信息技术的快速发展带来了数据爆炸式增长,为了适应大数据的发展趋势,数据中心不断扩大规模、提升性能,以支持越来越复杂的海量数据管理需求。
出于性能的考虑,一般对于经常要使用的数据、以及分析应用所需要的数据,要从远程数据源中将数据抽取、交换到数据中心的目标数据库进行集中处理。数据集中带来处理方便、性能提升等好处的同时,也带来了数据一致性的问题。如何以较小的代价、最快的速度将数据源中发生变化的数据传递到数据中心目标数据库中进行更新,以保持两边数据的一致,已成为数据中心建设必须要考虑的问题。而达梦突破传统解决之道,采取“模块化”的数据中心建设思想,不仅实现数据同步、还实现了显著的性能优化。
首先,在数据交换层面,传统的数据交换采用时间戳、触发器、MD5等方式来捕获增量数据,使数据源的数据库产生较大负载,延时也比较大。当数据量很大,同步时间要求很短的时候,传统方案难以同时满足处理性能和数据一致性的要求。达梦的模块化数据中心则采用读取数据源的数据库运行日志文件的方法,从中分析出数据变化的情况,通过监控日志文件的变化,能近乎实时地捕获到数据变化,值得一提的是,这只占用的非常少量的操作系统监控和读取文件资源,对被监控的数据库实例的运行基本没有影响。
其次,在数据中心建设方面,传统的数据中心建设周期非常长,而达梦模块化数据中心在现场部署的速度非常高效,主要是因为模块化的数据分类预制,从数据处理的全生命周期这个角度来说,它主要分为数据采集抽取、数据整合管理、面向业务的数据服务、多样化数据应用等四个方面,各自拥有统一接口、统一标准、统一顶层设计的模块化产品,这些以达梦数据库产品为核心的产品集合,为模块化数据中心的快速部署奠定了坚实基础。我们沿着数据管理生命周期的顺序,通过了解模块化数据中心内部的管理机制,可发现达梦新型数据中心优于传统数据中心的特色亮点:
数据交换:从其他业务系统采集数据、访问数据时,数据交换平台可针对交换频繁、数据量极大的自动采集需求,使用达梦异构数据实时同步工具处理“海量密集,实时异构”的采集需求。而针对交换频度较低,但有一定清洗转换要求的自动采集需求,使用ETL工具定时处理“定期采集,清洗转换”的采集需求。针对涉密敏感、不允许直接交换的数据,使用请求服务引擎实现“按需访问,数据自治”的查询比对需求。
数据管理:在数据交换、采集完成后,需要对数据进行整合和梳理,数据管理平台可实现该类需求。对于整合来的各类项目数据资源,针对多种采集渠道、承载方式,数据资源管理平台均采用一致的方式进行可视化管理和维护,将碎片离散的信息整体呈现。同时,针对各类信息资源的业务属性描述、来源信息等内容,通过元数据管理进行统一描述、统一归集、统一管理,使信息资源的重用成为可能。针对数据归集过程中,数据不一致、不准确的情况,主要基于质量管理平台进行质量管理和提升,基于质量规则,发现各类数据质量问题,给出质量整改门户,推进数据整合的质量提升。针对数据整合后的梳理和编目需求,主要依靠数据资源目录系统,按照业务属性、提供单位、系统类型等因素进行编目梳理,使数据能够被成功访问和重用。针对所涉及的大量原始非结构数据,则是通过文档管理系统进行统一管理,可以有效节约存储空间,提供全文检索等增值能力。
数据分析:数据整合后进行服务发布运用的过程,主要基于数据分析服务平台来实现。针对数据整合建立数据仓库、联机分析的需求,主要采用BI分析平台来实现数据仓库建设、联机分析设计、联机分析呈现等功能。
数据呈现:针对数据选择性呈现需求,基于数据门户可实现数据的组合及筛选处理,完成数据面向不同人员、不同环节、不同方式的选择性呈现能力。
而数据服务平台,则提供基于已整合数据的非可视化(API,REST,WEBSERVICE)数据服务接口,来满足数据的横向比对、纵向比对、跨业务系统的对接需求。针对数据中心及业务系统运转的情况的可视化需求(如系统承载能力、访问状况、异常信息等),主要使用运维监控系统,通过监控门户、仪表盘、驾驶舱进行多角度可视化呈现。针对管数据的可视化呈现需求,基于数据展现应用提供基于已整合数据的可视化组件设计及呈现。
结语
在大数据时代,达梦数据库坚持创新发展的技术路线,业界率先推行新型模块化数据中心建设理念,以数据流为主线,实现从大数据存储、数据交换、数据管理、数据分析到数据应用的全生命周期管理,并结合多年的项目建设与实践经验,致力于为更多政府机关、各行业领域单位提供大数据平台咨询与技术服务,作为国产数据库品牌的中坚力量、领军企业,为国产信息化建设贡献力量!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-12-23CDA中国官网是全国统一的数据分析师认证报名网站,由认证考试委员会与持证人会员、企业会员以及行业知名第三方机构共同合作,致 ...
2025-12-23在Power BI数据可视化分析中,矩阵是多维度数据汇总的核心工具,而“动态计算平均值”则是矩阵分析的高频需求——无论是按类别计 ...
2025-12-23在SQL数据分析场景中,“日期转期间”是高频核心需求——无论是按日、周、月、季度还是年度统计数据,都需要将原始的日期/时间字 ...
2025-12-23在数据驱动决策的浪潮中,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越“整理数据、输出报表”的基础层面,转 ...
2025-12-23在使用Excel数据透视表进行数据分析时,我们常需要在透视表旁添加备注列,用于标注数据背景、异常说明、业务解读等关键信息。但 ...
2025-12-22在MySQL数据库的性能优化体系中,索引是提升查询效率的“核心武器”——一个合理的索引能将百万级数据的查询耗时从秒级压缩至毫 ...
2025-12-22在数据量爆炸式增长的数字化时代,企业数据呈现“来源杂、格式多、价值不均”的特点,不少CDA(Certified Data Analyst)数据分 ...
2025-12-22在企业数据化运营体系中,同比、环比分析是洞察业务趋势、评估运营效果的核心手段。同比(与上年同期对比)可消除季节性波动影响 ...
2025-12-19在数字化时代,用户已成为企业竞争的核心资产,而“理解用户”则是激活这一资产的关键。用户行为分析系统(User Behavior Analys ...
2025-12-19在数字化转型的深水区,企业对数据价值的挖掘不再局限于零散的分析项目,而是转向“体系化运营”——数据治理体系作为保障数据全 ...
2025-12-19在数据科学的工具箱中,析因分析(Factor Analysis, FA)、聚类分析(Clustering Analysis)与主成分分析(Principal Component ...
2025-12-18自2017年《Attention Is All You Need》一文问世以来,Transformer模型凭借自注意力机制的强大建模能力,在NLP、CV、语音等领域 ...
2025-12-18在CDA(Certified Data Analyst)数据分析师的时间序列分析工作中,常面临这样的困惑:某电商平台月度销售额增长20%,但增长是来 ...
2025-12-18在机器学习实践中,“超小数据集”(通常指样本量从几十到几百,远小于模型参数规模)是绕不开的场景——医疗领域的罕见病数据、 ...
2025-12-17数据仓库作为企业决策分析的“数据中枢”,其价值完全依赖于数据质量——若输入的是缺失、重复、不一致的“脏数据”,后续的建模 ...
2025-12-17在CDA(Certified Data Analyst)数据分析师的日常工作中,“随时间变化的数据”无处不在——零售企业的每日销售额、互联网平台 ...
2025-12-17在休闲游戏的运营体系中,次日留存率是当之无愧的“生死线”——它不仅是衡量产品核心吸引力的首个关键指标,更直接决定了后续LT ...
2025-12-16在数字化转型浪潮中,“以用户为中心”已成为企业的核心经营理念,而用户画像则是企业洞察用户、精准决策的“核心工具”。然而, ...
2025-12-16在零售行业从“流量争夺”转向“价值深耕”的演进中,塔吉特百货(Target)以两场标志性实践树立了行业标杆——2000年后的孕妇精 ...
2025-12-15