京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代如何构建高性能数据库平台
在数据爆炸的时代,给众多IT从业人员带来了相当大的困扰—伴随着大数据分析,商业智能的发展,数据量呈现指数增长,传统数据处理系统已不堪重负。在这样的背景下,“数据库平台的构建”逐渐成为一个备受关注的话题。
影响数据库性能的三要素
对于数据库系统而言,绝大多数情况下影响数据库性能的三个要素是:数据运算能力、数据读写时延和数据吞吐带宽,简称计算、时延、吞吐。计算指的是CPU的运算能力,时延是数据从存储介质跑到CPU所需的时间长短,吞吐则是数据从存储介质到CPU的道路宽度。一般情况下,关注计算和时延是比较多的,但是在数据量越来越多的情况下,吞吐也成为影响数据库性能的重要因素。如果吞吐带宽不够,会造成计算等待队列的增加,CPU占用率虚高不下。这种情况下,即使增加再多的计算资源也于事无补,相当于千军万马挤独木桥,马再好也是枉然。一个高性能的数据库平台,一定是计算、时延、吞吐三方面的能力齐头并进,相互匹配。
计算能力由CPU主频和核数决定,实践中看CPU占用率就能够大致确定CPU配置是否合适。时延的指标很简单,时间是衡量时延的唯一指标。吞吐量则是通过每秒在I/O流中传输的数据总量来衡量的。
从三要素到三方法
明确了影响性能的要素后,就可以着手改变各要素来提升数据库平台的性能。
1.计算能力:x86化的今天,提升计算能力就是:增加CPU内核数量或升级CPU主频。
2.时延能力:加快数据从存储介质到CPU的速度,即提升数据读写时延,从以下三方面努力:
a)降低存储介质的读写时延:使用电子寻址的Flash颗粒来替换旋转的机械磁头,是降低存储介质读写时延最有效的方法。实践中可结合数据吞吐量来确定是选择SAS总线上的SSD盘还是选择PCIE总线上的Flash卡。
b)降低网络的传送时延:网络时延则可以通过InfiniBand网络来解决,注意不要选择IPoIB,而是要使用RDS,相比传统UDP协议,网络延迟至少减一半。通过SRP协议,利用RDMA技术在网络层面传送SCSI指令和数据,使得数据库节点能够像操作本地SCSI设备一样读写远程的数据,对于时延的降低,不是FC网络能够企及的。
c)扩大存储层的数据缓存大小:存储层的数据缓存大小对时延也至关重要,如果有尽可能多的数据读写在缓存中进行,就避免了数据下盘。缓存的大小以及缓存算法都对缓存命中率有直接的影响,这一点往往被忽略。除了单点缓存之外,分布式缓存技术也是非常重要的,通过分布式缓存技术,可以避免单点缓存的局限性,扩大缓存的全局能力,增加缓存规模,提高缓存命中率。
3.吞吐能力:拓宽数据通路的方法有两种:使用高速InfiniBand网络、使用分布式存储。前者比较容易想到,实施也简单,基于FDR 的56Gb/s InfiniBand解决方案可实现每秒1.37亿条消息的信息通信速率,在16个计算节点上,性能表现比QDR 40Gb/s InfiniBand高出20%-30%,而与FC、万兆和4万兆以太网相比,性能更是领先了100%到300%,是最高效的计算和存储互联方案。对于后者,分布式存储,其好处在于不将数据集中存放在某几块存储介质上,而是将数据全部打散存放在多个存储节点的许多个介质上,这样避免在大规模数据并发读写访问时,存储介质的单点能力成为数据读写的瓶颈,通过分布式的并发能力来提升数据读写吞吐能力。注意的是,一定要使用高性能低时延的分布式块存储,分布式文件存储是无法满足性能要求的。
通过计算、时延、吞吐的三管齐下,通过使用SSD存储介质、InfiniBand网络交换以及分布式存储,数据库平台的性能将得到极大提升。
未来为是何种模样
高性能数据库系统未来向着内存化、云化的方向在不断发展。SAP的HANA内存数据库,Oracle 12c的内存特性,GemFire的分布式内存数据缓存,以及Spark的内存并行计算,都在昭示着内存化的未来方向,其本质还是通过内存的高速读写与高速总线来解决时延和吞吐问题。
数据库的云化,即DBaaS(数据库即服务),其核心就是整合IT基础设施中的硬软件,实现简单化、标准化和灵活性,提升可用性以及安全保障,同时降低成本。当然,云化在性能和QoS方面也对IT基础设施提出了更多增强性的挑战。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04