京公网安备 11010802034615号
经营许可证编号:京B2-20210330
如何做好大数据的实时复杂查询
在过去的几年里,我们生活中几乎每一个功能都依赖于实时应用。无论是通过社交媒体更新我们的朋友圈,在线购物,还是等待客户服务的立即回应,我们已经变得越来越依赖快速有效的得到我们想要的信息。
然而我们不知道的是,这其中存在几个挑战:
在这些系统中流动着的大量数据
·需要一个高度可用的应用程序和数据存储
·高性能的要求·支持复杂查询。
·事务支持
我们可以尝试把这些挑战转化为3个部分:大数据,实时性和复杂查询。
第一个挑战-大数据
从大数据开始,要解决这些问题,我们有很多可以利用的解决方案。 最流行的解决方案是NoSQL数据库和Hadoop。 它们属于分布式环境,其中存在多个包含数据的分区。 通过分区间的复制,以确保在某一台服务器宕机时,我们可以从另一台服务器获取数据(大多数是最终一致的,这意味着副本可能没有最新的数据更新,但是这属于另外的讨论范畴)。 那么,如果我们采用这些NoSQL数据库,我以很容易地克服数据量和高可用性问题所带来的挑战。 它也是一种可扩展的解决方案,可以添加更多的计算和存储资源,这些将能够支持更多的数据和吞吐量。
第二个挑战-实时
实时是面临的主要挑战。目前主流的解决方案主要是基于磁盘的,这意味着没有对实时部分的支持,面对复杂的查询可能需要几分钟,有时甚至更多。 这就是为什么我们需要内存数据网格,它在内存中存储了部分数据或全部数据。 当数据存储在内存中,计算是可以做到非常快速的使用RAM而不是I / O访问。
但这种解决方案也不是那么容易。 我们也许可以在RAM中存储几个TB数据,但如果我们有更多的数据,那怎么办? 比如说50TB ......即使如今RAM变得便宜得多,但50TB也将是非常昂贵的。 此外,这也导致管理一个数据网格集群的机器数量过多。 一些内存数据网格解决方案提供了另一种方法,在磁盘中存储一些非活跃的数据。
固态硬盘可以为我们提供一个将二者合二为一的机会,前提是我们使用正确。虽然SSD并不像RAM一样快,但它比正常的磁盘快得多,而且比RAM便宜很多。 现在有2种方式,我们可以利用固态硬盘来实现非常大的集群和实时复杂查询:
*快速索引模式 - 我们将查询的字段存储在RAM中,将其余部分都存储在SSD上。 例如,如果我们有一个包含很多字段的大对象,我们只能在RAM中存储其中的一些索引,将一些次要字段存储在固态硬盘中,所以相比于常规磁盘,我们依然可以在它们之上进行非常快的查询。
*热数据---最近被使用的对象将被存储在RAM中,其他对象将被放入SSD。 这种方法还可能具有实时性的挑战,因为查询引擎在SSD上进行需要全部数据的复杂运算,而不是在RAM上。
第三个挑战-复杂查询
还剩下复杂查询这部分挑战,大多数应用在关系型数据库中有实时分析的需求,我们可以很容易地通过聚合查询实现 (avg, min, max, sum, group by)。而分布式环境中,这要复杂得多,因为数据在集群的分区中,聚和就意味着我们要么需要把所有的数据传输到客户端(这不是一种好的选择,因为它实在是太多了)或使用MapReduce逻辑模型,使用Map Reduce逻辑模型是一种不错解决方案,只不过没有简单SQL group by来的更直观而已。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在金融行业的数字化转型进程中,SQL作为数据处理与分析的核心工具,贯穿于零售银行、证券交易、保险理赔、支付结算等全业务链条 ...
2025-12-24在数据分析领域,假设检验是验证“数据差异是否显著”的核心工具,而独立样本t检验与卡方检验则是其中最常用的两种方法。很多初 ...
2025-12-24在企业数字化转型的深水区,数据已成为核心生产要素,而“让数据可用、好用”则是挖掘数据价值的前提。对CDA(Certified Data An ...
2025-12-24数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-12-23CDA中国官网是全国统一的数据分析师认证报名网站,由认证考试委员会与持证人会员、企业会员以及行业知名第三方机构共同合作,致 ...
2025-12-23在Power BI数据可视化分析中,矩阵是多维度数据汇总的核心工具,而“动态计算平均值”则是矩阵分析的高频需求——无论是按类别计 ...
2025-12-23在SQL数据分析场景中,“日期转期间”是高频核心需求——无论是按日、周、月、季度还是年度统计数据,都需要将原始的日期/时间字 ...
2025-12-23在数据驱动决策的浪潮中,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越“整理数据、输出报表”的基础层面,转 ...
2025-12-23在使用Excel数据透视表进行数据分析时,我们常需要在透视表旁添加备注列,用于标注数据背景、异常说明、业务解读等关键信息。但 ...
2025-12-22在MySQL数据库的性能优化体系中,索引是提升查询效率的“核心武器”——一个合理的索引能将百万级数据的查询耗时从秒级压缩至毫 ...
2025-12-22在数据量爆炸式增长的数字化时代,企业数据呈现“来源杂、格式多、价值不均”的特点,不少CDA(Certified Data Analyst)数据分 ...
2025-12-22在企业数据化运营体系中,同比、环比分析是洞察业务趋势、评估运营效果的核心手段。同比(与上年同期对比)可消除季节性波动影响 ...
2025-12-19在数字化时代,用户已成为企业竞争的核心资产,而“理解用户”则是激活这一资产的关键。用户行为分析系统(User Behavior Analys ...
2025-12-19在数字化转型的深水区,企业对数据价值的挖掘不再局限于零散的分析项目,而是转向“体系化运营”——数据治理体系作为保障数据全 ...
2025-12-19在数据科学的工具箱中,析因分析(Factor Analysis, FA)、聚类分析(Clustering Analysis)与主成分分析(Principal Component ...
2025-12-18自2017年《Attention Is All You Need》一文问世以来,Transformer模型凭借自注意力机制的强大建模能力,在NLP、CV、语音等领域 ...
2025-12-18在CDA(Certified Data Analyst)数据分析师的时间序列分析工作中,常面临这样的困惑:某电商平台月度销售额增长20%,但增长是来 ...
2025-12-18在机器学习实践中,“超小数据集”(通常指样本量从几十到几百,远小于模型参数规模)是绕不开的场景——医疗领域的罕见病数据、 ...
2025-12-17数据仓库作为企业决策分析的“数据中枢”,其价值完全依赖于数据质量——若输入的是缺失、重复、不一致的“脏数据”,后续的建模 ...
2025-12-17在CDA(Certified Data Analyst)数据分析师的日常工作中,“随时间变化的数据”无处不在——零售企业的每日销售额、互联网平台 ...
2025-12-17