京公网安备 11010802034615号
经营许可证编号:京B2-20210330
Google Analytics存储了全球范围内网站的大量静态数据,随着数据体积越来越大,检索的难度也必然随之增加。近日,Gen Furukaw在Dzone上撰文表示,Google Analytics的高效一定程度上归功于其兼职存储BigTable。
以下为译文
在Google,随时都可能存在大量应用程序被添加到其基础设施,而这些应用程序中,任意一个都可能给系统带来繁重的工作负载。迎合这样的资源需求并不简单,而在有限时间内做到这一点就更是难上加难了。
如果Google部署的是一个单节点上的传统数据库,那么一旦达到容量限制,他们必须为其更新硬件。鉴于Google应用程序的数量和存储数据的体积,这种硬件升级可能每天都会进行一次。虽然负载也可以分配到多个节点,但随着节点数的增加,系统维护的难度将变得不可思议。
综上所述,鉴于大规模系统升级和维护的难度,标准关系型数据库对Google来说并不可选。
寻找一个可扩展解决方案
为了保证速度,及避免频繁的更新硬件,Google定制了自己的存储解决方案——BigTable。取代关系型数据库将数据存放到表格中,BigTable使用了多维排序映射的方式对数据进行存储,也就是现在我们所说的键值存储类型。这种方式不仅提升了性能,也简化了扩展过程。
关系型数据库中的信息存储
关系型数据库将信息的每个部分都存放到独立的位置,通常是表中的一列。同时,在关系型数据库中,数据的规范化非常重要,这个过程保证了其他表格或者列中不会存在冗余数据。
举个例子,客户的“姓”必须存放在某个表格的对应列中。如果某个客户的姓在其他位置发现,那么它将被删除,信息的检索仍然会被指定到原始表格。
这种结构的缺点是数据库内部可能变得非常复杂,从而导致即使一个简单的查询都可能涉及到大量的执行路径,而所有这些路径都会在运行时进行计算以寻找最优路径。数据库越复杂,运行时就需要越多的资源来确定查询路径。
键值存储中的信息存储
在键值存储中,数据被允许存在多个备份。取代使用其他昂贵硬件资源来增加速度,这里的设计理念是利用磁盘空间,它更新起来非常容易,成本也不高。
对于简单查询来说,多备份非常有利,在键值存储中,相关的数据可以被存储到一起,从而避免在查询过程中访问多个路径以获得所需数据。
取代关系型数据中的表格存储类型,键值存储使用域,同时也无需预定义数据结构模式。域中存储的数据通过键定义,它们可以通过大量不同的属性访问。
这些属性可能是字符串,也可以是流行编程语言中匹配的任意数据类型,它可能会是数组、对象、整形、浮点型、布尔型以及编程语言中使用的任意基本数据类型。
在键值存储中,取代数据本身,数据完整性和逻辑通过应用程序代码维护,通过使用1个或多个API,开发者可以编写出最优的实现方法。这样一来,数据检索工作被转移到编写正确的逻辑上,而不是依赖数据库去优化在大量可能路径中选择一个最佳路径。
写在最后
当然,除了键值存储的使用之外,Google Analytics快还源于其优秀的编程逻辑,这点就不再一一详述了。本文来自:CDA数据分析师培训官网
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15