京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据流式处理一个不能忽视的问题_数据分析师
这要从数据处理的基本面:内存、存储、数据谈起。
大家都知道,一个大数据集群是由很多台计算机连上网络组成的。计算机里面都有CPU、内存、硬盘,计算机通过网络交换数据执行分布计算工作。集群会按照规则,同时运行着一批执行不同工作的分布计算任务,每次分布计算任务处理的数据容量也不尽相同,少的几十几百M,多的几十几百G,更大的有时候会达到TB的规模(我们在各地部署的Laxcus集群时常处理TB级的数据)。如果当集群中某个时刻迸发出一个超大数据容量的计算任务,这些数据要分散到不同的计算机上去执行计算工作,这个总的数据容量超过集群的内存容量的时候,怎么办?
在存储模式下,这个问题很容易解决:拿硬盘来做缓存过渡。数据进来,检查一下它的尺寸,如果太大,或者一时半会儿处理过不来,就先放到硬盘保存起来。毕竟现在硬盘都已经做到TB级,不差钱的话,一台计算机还可以多配几个。能够利用的存储空间比内存大得多。
放到了流式处理模式下,这个问题就纠结了。如果数据进入后硬盘再处理,就和存储模式没啥区别了。如果不是这样,数据就会太多而内存不足,内存就要溢出,数据就要丢失。集群里任何一台计算机出现这样的故障,整个分布计算任务就是失败。
缓解这个问题的一个办法是升级计算机,CPU换成64位的,然后装更多的内存。原因是32位计算机内存上限是4G,一个集群里,如果都是32位计算机,同时出现几个TB计算任务,那得要多少台计算机?64位计算机可以装更多内存,这样计算机数量可以少些。还顺带提醒一下,虽然内存的价格现在比以前是大大便宜了,但是和硬盘相比,单位容量还是贵得多!这样的成本问题一般运营商会比较在意。另外,这只是暂时的解决办法,谁也不知道下一次的超大数据计算任务啥时候发生,和同时会有几个这样的超大计算任务发生。
比较靠谱的解决办法是在任务计算前,在数据量和集群内存之间做一个评估。当计算任务进来的时候,判断一下它携带数据的最大尺寸,如果集群的内存足够,就把这些内存"预分配"给这个计算任务(这个工作要细划到每一台计算机)。如果不够,就让它等着,直到其它计算任务完成工作,内存被回收,新的内存足够时,才放它执行工作。第二种办法和存储模式差不多,数据先放在硬盘里存着,然后也是等到内存足够了,再执行它的工作。当然,这两种办法都会降低流式处理的计算效率,但也是没有办法的办法,总比出现内存溢出、计算任务失败这样的故障好吧。
综上所述,流式处理是一种成本和效费比都高的计算模式。如果你是土豪,像BAT一样,有足够的银子,只关注数据处理的高性能,不在乎往基础设施上多撒几个钱,尽可以配上强劲的CPU、超大的内存和硬盘或者固态盘,万兆的光纤网络,这时候加上流式处理是上选。如果你是一穷人,缺银子,计算机的性能差,手上一把的32位老式计算机(我们有一个Laxcus集群现在还在用PentiumIII图拉丁芯片,就因为这家伙省电,老而弥坚!),内存有限,网络也不咋的,掏不起太多的电费,不计较数据计算的快和慢,那么凑合凑合,还是考虑存储模式吧。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、机器学习的实操场景中,聚类分析与主成分分析(PCA)是两种高频使用的统计与数据处理方法。二者常被用于数据预处理 ...
2026-02-24在聚类分析的实操场景中,K-Means算法因其简单高效、易落地的特点,成为处理无监督分类问题的首选工具——无论是用户画像分层、 ...
2026-02-24数字化浪潮下,数据已成为企业核心竞争力,“用数据说话、用数据决策”成为企业发展的核心逻辑。CDA(Certified Data Analyst) ...
2026-02-24CDA一级知识点汇总手册 第五章 业务数据的特征、处理与透视分析考点52:业务数据分析基础考点53:输入和资源需求考点54:业务数 ...
2026-02-23CDA一级知识点汇总手册 第四章 战略与业务数据分析考点43:战略数据分析基础考点44:表格结构数据的使用考点45:输入数据和资源 ...
2026-02-22CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14在Power BI实操中,函数是实现数据清洗、建模计算、可视化呈现的核心工具——无论是简单的数据筛选、异常值处理,还是复杂的度量 ...
2026-02-13在互联网运营、产品迭代、用户增长等工作中,“留存率”是衡量产品核心价值、用户粘性的核心指标——而次日留存率,作为留存率体 ...
2026-02-13对CDA(Certified Data Analyst)数据分析师而言,指标是贯穿工作全流程的核心载体,更是连接原始数据与业务洞察的关键桥梁。CDA ...
2026-02-13在机器学习建模实操中,“特征选择”是提升模型性能、简化模型复杂度、解读数据逻辑的核心步骤——而随机森林(Random Forest) ...
2026-02-12在MySQL数据查询实操中,按日期分组统计是高频需求——比如统计每日用户登录量、每日订单量、每日销售额,需要按日期分组展示, ...
2026-02-12对CDA(Certified Data Analyst)数据分析师而言,描述性统计是贯穿实操全流程的核心基础,更是从“原始数据”到“初步洞察”的 ...
2026-02-12备考CDA的小伙伴,专属宠粉福利来啦! 不用拼运气抽奖,不用复杂操作,只要转发CDA真题海报到朋友圈集赞,就能免费抱走实用好礼 ...
2026-02-11在数据科学、机器学习实操中,Anaconda是必备工具——它集成了Python解释器、conda包管理器,能快速搭建独立的虚拟环境,便捷安 ...
2026-02-11在Tableau数据可视化实操中,多表连接是高频操作——无论是将“产品表”与“销量表”连接分析产品销量,还是将“用户表”与“消 ...
2026-02-11