京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代如何构建高性能数据库平台
在数据爆炸的时代,给众多IT从业人员带来了相当大的困扰—伴随着大数据分析,商业智能的发展,数据量呈现指数增长,传统数据处理系统已不堪重负。在这样的背景下,“数据库平台的构建”逐渐成为一个备受关注的话题。
影响数据库性能的三要素
对于数据库系统而言,绝大多数情况下影响数据库性能的三个要素是:数据运算能力、数据读写时延和数据吞吐带宽,简称计算、时延、吞吐。计算指的是CPU的运算能力,时延是数据从存储介质跑到CPU所需的时间长短,吞吐则是数据从存储介质到CPU的道路宽度。一般情况下,关注计算和时延是比较多的,但是在数据量越来越多的情况下,吞吐也成为影响数据库性能的重要因素。如果吞吐带宽不够,会造成计算等待队列的增加,CPU占用率虚高不下。这种情况下,即使增加再多的计算资源也于事无补,相当于千军万马挤独木桥,马再好也是枉然。一个高性能的数据库平台,一定是计算、时延、吞吐三方面的能力齐头并进,相互匹配。
计算能力由CPU主频和核数决定,实践中看CPU占用率就能够大致确定CPU配置是否合适。时延的指标很简单,时间是衡量时延的唯一指标。吞吐量则是通过每秒在I/O流中传输的数据总量来衡量的。
从三要素到三方法
明确了影响性能的要素后,就可以着手改变各要素来提升数据库平台的性能。
1.计算能力:x86化的今天,提升计算能力就是:增加CPU内核数量或升级CPU主频。
2.时延能力:加快数据从存储介质到CPU的速度,即提升数据读写时延,从以下三方面努力:
a)降低存储介质的读写时延:使用电子寻址的Flash颗粒来替换旋转的机械磁头,是降低存储介质读写时延最有效的方法。实践中可结合数据吞吐量来确定是选择SAS总线上的SSD盘还是选择PCIE总线上的Flash卡。
b)降低网络的传送时延:网络时延则可以通过InfiniBand网络来解决,注意不要选择IPoIB,而是要使用RDS,相比传统UDP协议,网络延迟至少减一半。通过SRP协议,利用RDMA技术在网络层面传送SCSI指令和数据,使得数据库节点能够像操作本地SCSI设备一样读写远程的数据,对于时延的降低,不是FC网络能够企及的。
c)扩大存储层的数据缓存大小:存储层的数据缓存大小对时延也至关重要,如果有尽可能多的数据读写在缓存中进行,就避免了数据下盘。缓存的大小以及缓存算法都对缓存命中率有直接的影响,这一点往往被忽略。除了单点缓存之外,分布式缓存技术也是非常重要的,通过分布式缓存技术,可以避免单点缓存的局限性,扩大缓存的全局能力,增加缓存规模,提高缓存命中率。
3.吞吐能力:拓宽数据通路的方法有两种:使用高速InfiniBand网络、使用分布式存储。前者比较容易想到,实施也简单,基于FDR 的56Gb/s InfiniBand解决方案可实现每秒1.37亿条消息的信息通信速率,在16个计算节点上,性能表现比QDR 40Gb/s InfiniBand高出20%-30%,而与FC、万兆和4万兆以太网相比,性能更是领先了100%到300%,是最高效的计算和存储互联方案。对于后者,分布式存储,其好处在于不将数据集中存放在某几块存储介质上,而是将数据全部打散存放在多个存储节点的许多个介质上,这样避免在大规模数据并发读写访问时,存储介质的单点能力成为数据读写的瓶颈,通过分布式的并发能力来提升数据读写吞吐能力。注意的是,一定要使用高性能低时延的分布式块存储,分布式文件存储是无法满足性能要求的。
通过计算、时延、吞吐的三管齐下,通过使用SSD存储介质、InfiniBand网络交换以及分布式存储,数据库平台的性能将得到极大提升。
未来为是何种模样
高性能数据库系统未来向着内存化、云化的方向在不断发展。SAP的HANA内存数据库,Oracle 12c的内存特性,GemFire的分布式内存数据缓存,以及Spark的内存并行计算,都在昭示着内存化的未来方向,其本质还是通过内存的高速读写与高速总线来解决时延和吞吐问题。
数据库的云化,即DBaaS(数据库即服务),其核心就是整合IT基础设施中的硬软件,实现简单化、标准化和灵活性,提升可用性以及安全保障,同时降低成本。当然,云化在性能和QoS方面也对IT基础设施提出了更多增强性的挑战。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05