大数据时代如何构建高性能数据库平台
在数据爆炸的时代,给众多IT从业人员带来了相当大的困扰—伴随着大数据分析,商业智能的发展,数据量呈现指数增长,传统数据处理系统已不堪重负。在这样的背景下,“数据库平台的构建”逐渐成为一个备受关注的话题。
影响数据库性能的三要素
对于数据库系统而言,绝大多数情况下影响数据库性能的三个要素是:数据运算能力、数据读写时延和数据吞吐带宽,简称计算、时延、吞吐。计算指的是CPU的运算能力,时延是数据从存储介质跑到CPU所需的时间长短,吞吐则是数据从存储介质到CPU的道路宽度。一般情况下,关注计算和时延是比较多的,但是在数据量越来越多的情况下,吞吐也成为影响数据库性能的重要因素。如果吞吐带宽不够,会造成计算等待队列的增加,CPU占用率虚高不下。这种情况下,即使增加再多的计算资源也于事无补,相当于千军万马挤独木桥,马再好也是枉然。一个高性能的数据库平台,一定是计算、时延、吞吐三方面的能力齐头并进,相互匹配。
计算能力由CPU主频和核数决定,实践中看CPU占用率就能够大致确定CPU配置是否合适。时延的指标很简单,时间是衡量时延的唯一指标。吞吐量则是通过每秒在I/O流中传输的数据总量来衡量的。
从三要素到三方法
明确了影响性能的要素后,就可以着手改变各要素来提升数据库平台的性能。
1.计算能力:x86化的今天,提升计算能力就是:增加CPU内核数量或升级CPU主频。
2.时延能力:加快数据从存储介质到CPU的速度,即提升数据读写时延,从以下三方面努力:
a)降低存储介质的读写时延:使用电子寻址的Flash颗粒来替换旋转的机械磁头,是降低存储介质读写时延最有效的方法。实践中可结合数据吞吐量来确定是选择SAS总线上的SSD盘还是选择PCIE总线上的Flash卡。
b)降低网络的传送时延:网络时延则可以通过InfiniBand网络来解决,注意不要选择IPoIB,而是要使用RDS,相比传统UDP协议,网络延迟至少减一半。通过SRP协议,利用RDMA技术在网络层面传送SCSI指令和数据,使得数据库节点能够像操作本地SCSI设备一样读写远程的数据,对于时延的降低,不是FC网络能够企及的。
c)扩大存储层的数据缓存大小:存储层的数据缓存大小对时延也至关重要,如果有尽可能多的数据读写在缓存中进行,就避免了数据下盘。缓存的大小以及缓存算法都对缓存命中率有直接的影响,这一点往往被忽略。除了单点缓存之外,分布式缓存技术也是非常重要的,通过分布式缓存技术,可以避免单点缓存的局限性,扩大缓存的全局能力,增加缓存规模,提高缓存命中率。
3.吞吐能力:拓宽数据通路的方法有两种:使用高速InfiniBand网络、使用分布式存储。前者比较容易想到,实施也简单,基于FDR 的56Gb/s InfiniBand解决方案可实现每秒1.37亿条消息的信息通信速率,在16个计算节点上,性能表现比QDR 40Gb/s InfiniBand高出20%-30%,而与FC、万兆和4万兆以太网相比,性能更是领先了100%到300%,是最高效的计算和存储互联方案。对于后者,分布式存储,其好处在于不将数据集中存放在某几块存储介质上,而是将数据全部打散存放在多个存储节点的许多个介质上,这样避免在大规模数据并发读写访问时,存储介质的单点能力成为数据读写的瓶颈,通过分布式的并发能力来提升数据读写吞吐能力。注意的是,一定要使用高性能低时延的分布式块存储,分布式文件存储是无法满足性能要求的。
通过计算、时延、吞吐的三管齐下,通过使用SSD存储介质、InfiniBand网络交换以及分布式存储,数据库平台的性能将得到极大提升。
未来为是何种模样
高性能数据库系统未来向着内存化、云化的方向在不断发展。SAP的HANA内存数据库,Oracle 12c的内存特性,GemFire的分布式内存数据缓存,以及Spark的内存并行计算,都在昭示着内存化的未来方向,其本质还是通过内存的高速读写与高速总线来解决时延和吞吐问题。
数据库的云化,即DBaaS(数据库即服务),其核心就是整合IT基础设施中的硬软件,实现简单化、标准化和灵活性,提升可用性以及安全保障,同时降低成本。当然,云化在性能和QoS方面也对IT基础设施提出了更多增强性的挑战。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23大咖简介: 刘凯,CDA大咖汇特邀讲师,DAMA中国分会理事,香港金管局特聘数据管理专家,拥有丰富的行业经验。本文将从数据要素 ...
2025-04-22CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03