
大数据如何使得数据库变得更好
当在提及“数据库”时,大多数人第一时间想到的肯定都是已经主宰该领域超过30年的关系数据库管理系统(RDBMS)。然而,这种状况可能很快就会改变。
一系列全新的竞争对手,现在正在争夺这一关键的企业市场,尽管他们所采用的是不同的方法,但却都有一个共同点:专注于大数据领域。
推动这种新的替代品获得大规模扩散的大部分因素是源于大数据的“3V”基本属性,即:海量(volume)、高速(velocity)和多样(variety)。
从本质上讲,今天的数据传输速度比以往任何时候都快;而且其数据量也比以往任何时候都更大;其种类也更加多样化。换句话说,这是一个全新的数据化的世界,而传统的关系型数据库管理系统并不是真正为它设计的。
“基本上,传统的关系型数据库管理系统不能应对规模化的海量、或快速、或多样的数据。”一家数据科学咨询分析机构KDnuggets公司的总裁Gregory Piatetsky-Shapiro表示说。
这便是哈特·汉克斯最近的发现:截至到2013年左右,市场营销服务机构都在使用不同的数据库的组合,包括Microsoft SQL Server和甲骨文公司的Real Application Clusters (RAC)。
“我们注意到,随着数据随时间的增长,我们的系统处理信息的速度不够快。”该公司技术和开发负责人Sean Iannuzzi表示说。“就算是您企业能够不断地购买新的服务器,也只是刚刚能够赶上数据增长的节奏,而我们希望确保我们能够具备向外扩展的平台。”
减少干扰是一个重要的目标,Iannuzzi说,因此“我们不能只是切换到Hadoop。”
相反,其选择了Splice Machine公司的产品,这实质上是把完整的SQL数据库与流行的Hadoop大数据平台,使现有的应用程序来与之连接,他说。
哈特·汉克斯现在处在实施部署的初期阶段,但已经看到了效益,Iannuzzi说,包括提高了容错性、高可用性、冗余性、稳定性和“性能的全面提升。”
有一种完美的风暴推动了新的数据库技术的出现,IDC公司研究副总裁Carl Olofson表示说。
首先,“与过去相比,我们当前正在使用的设备能够快速、灵活地处理大型数据集。” Olofson指出。
在过去的日子里,这样的数据集“需要被放在旋转的磁盘上”,而且数据必须以特定的方式来结构化,他解释说。
现在有64位寻址能力,可以建立更大的存储空间,以及更快的网络,并能够串多台计算机一起,作为单个大型数据库。
“这些东西开辟了之前不可用的可能性,” Olofson说。
同时,工作负载也发生了变化。例如,10年前的网站在很大程度上都是静态的,而在今天我们都是现场的Web服务环境和互动的购物体验。这反过来,需要一个新水平的可扩展性,他说。
企业也在利用新的方式使用数据。虽然在传统上,我们大部分的精力都放在了处理我们的交易——例如,记录我们销售了多少,并将这些数据存储起来,以便进行分析——今天我们做得更多。
应用程序状态管理就是这方面的一个例子。
假设您正在玩一款网络游戏。技术必须记录您与系统的每一次操作,并将其连接在一起,以呈现出连续的体验,即使您换了设备或者是各种操作是通过不同的服务器进行处理的,Olofson解释说。
这些数据必须持久化,这样,企业可以分析这样的问题,例如:“为什么从来没有人穿过水晶厅。”在网络购物方面,类似需要分析的问题可能是:为什么越来越多的用户在点击了颜色选择之后,却并没有购买某品牌的鞋子。
“以前,我们并没有试图解决这些问题,或者说——就算我们试图去解决了,也只是试图将其挤压在一个不太合适的盒子里。”Olofson说。
在当今新的众多竞争者之中,Hadoop无疑是一款重量级的。虽然其本身并不是一个数据库,但它的成长在企业解决大数据方面扮演了关键性的填补角色作用。从本质上来说,Hadoop是一款用于运行高度并行化的应用程序的数据中心平台,具有很强的可扩展性。
通过允许企业以分布的方式“向外”扩展,而不是通过采用额外昂贵的服务器“向上”扩展,“使得我们可以很便宜地把一个大型的数据集合整合起来,然后分析该数据集合有什么。”Olofson说。
在其他新的RDBMS的替代品是NoSQL系列产品,其中包括MongoDB——目前是第四大最为流行的数据库管理系统,根据DB-Engines和MarkLogic的数据库排名显示。
“关系数据库管理系统成为一款伟大的技术已经有30年的历史了,但它是基于不同的时代的不同市场需求所构建的不同的技术。” MarkLogic的产品执行副总裁乔·帕卡说。
他说,大数据是不均匀的,但对于许多传统的技术,这仍然是一项基本要求。
“想象一下,在您笔记本电脑上唯一的一款程序是Excel会是怎样?”帕卡说。“再试着想象一下,您想要保持与网络上的朋友们的联系,或者您正在写一份合约,而Excel的那些行和列显然不适合满足这些需求。”
将数据集组合起来可能是特别棘手的工作。
“采用关系数据库管理系统的话,在您把所有这些数据集整合在一起之前,您必须决定如何对所有列实施排队。”他补充说。“而我们则可以采取任何形式或结构,并立即开始使用它。”
NoSQL数据库不使用一款关系数据模型,通常没有SQL接口。而许多NoSQL存储为了速度和其他因素而在一致性方面进行了妥协。而MarkLogic自身的产品是专为满足企业的一致性选择而量身定做的。
根据市场研究媒体Marketresearchmedia.com网站的介绍,在NoSQL市场已经呈现了可观的增长,但并非每个人都认为这是正确的方法——至少,不是在所有的情况下。
NoSQL系统“通过其横向扩展架构,解决了许多问题,但他们抛弃了SQL。” Splice Machine公司的CEO Monte Zweben说。这反过来,构成了现有代码中的问题。
Splice Machine公司的产品是称为NewSQL的,不同类别的替代品的一个例子——另一类预期在未来几年将获得强劲增长的产品。
“我们的理念是在保有SQL的同时,添加扩展架构。”Zweben说。“这是创造一些新的东西的时候了,但我们正努力使用户不必重写编写代码。”
大数据创业企业Deep Information Sciences公司也选择了坚持使用SQL,但他们则是以另一种方法。
该公司的DeepSQL数据库使用与MySQL相同的应用程序编程接口(API)和关系模型,这意味着为了使用它无需进行应用程序的改变。但它以不同的方式处理数据,使用机器学习。
DeepSQL可以使用任何工作负载组合自动适应物理,虚拟或云主机,该公司表示,从而省去了手动数据库优化的需要。
在这些都大大提高了性能以及扩展到 “千亿行”的能力,该公司的首席战略官Chad Jones表示。
另一种完全不同的方式来自Algebraix Data公司,该公司表示说,他们已经为数据开发了第一款真正的数学基础。
而计算机硬件已经在其建成之前进行了数学模型,而不是在软件的情况下,Algebraix公司首席执行官Charles Silver表示。
“软件,尤其是数据,从未建立在数学的基础上。”他说。“软件在很大程度上是语言学的问题。”
经过五年的研发,Algebraix公司创造了其所谓的“代数数据(algebra of data")”,这是一种利用数学集合论实现的“通用数据语言”。
“大数据的小秘密是,数据仍然在不与其他数据网格连接的小筒仓中。” Silver解释说。“我们已经证明,其可以用数学方法来表示,因此所有都是集成的。”
在这个基础上配备内置平台,Algebraix公司现在能够为企业用户提供业务分析作为一种服务。改进的性能,容量和速度都是Algebraix公司所为企业用户承诺的预期获益。
时间最终会证明哪些新的竞争者将获得成功。而在此期间,市场长期的领军,如甲骨文并不会完全停滞不前。
“软件是一个非常有时尚意识的行业。” 甲骨文数据库服务器技术的执行副总裁安德鲁·门德尔松表示说。 “事务往往从流行变为不受欢迎,然后又再次回到流行。”
他说,现在很多创业公司都仅仅是“把同一款旧东西炒冷饭之后加上一点点的抛光或打磨处理。这就类似于新的一代的毕业生重塑了事务。”
SQL是“唯一一款能够让业务分析师提问并得到答案的语言——他们不需要成为程序员。”门德尔松说。“大市场将始终是关系数据库。”
至于新的数据类型,关系型数据库产品发展为早在上世纪90年代就支持的非结构化数据,他说。在2013年,甲骨文的同名数据库在12c版本中增加了JSON(JavaScript对象表示法)支持。
门德尔松说,与其说是需要一款不同类型的数据库,更是一种商业模式的转变,而这正推动着整个行业的变革。
“云计算将是未来的发展方向,其将为现在的那些小企业带来破坏性的变革。”他说。“大企业都已经在云服务领域站稳脚跟了,所以在这一领域几乎已经没有容纳这些小型竞争者的地方了?”
“小企业们要通过采用亚马逊的云,并与亚马逊竞争吗?”他补充道。“这将是相当困难的。”
甲骨文拥有“最广泛的云服务。”门德尔松说。“我们对自己当前的市场地位感觉很好。”
Gartner的一名研究主管瑞克·格林沃尔德也倾向于类似的观点。
“较新的替代方案并不像传统的RDBMS那样功能齐全和强大。”格林沃尔德说。 “某些案例可以用新的竞争者的产品来解决,但并不是全部,当然也不是只有一款技术”。
展望未来,格林沃尔德预计,传统的RDBMS供应商将感受到价格压力越来越大,并为他们的产品增加新的功能。“有些供应商会甚至为其整个数据管理系统带来新的竞争者。”他说。
至于新的市场进入者,他预测,只有少数会幸存下来,“许多企业要么被收购或是耗尽其资金。”
今天的新技术并不代表数据分析传统的RDBMS的结束,“传统的RDBMS本身正在迅速发展。” IDC的Olofson对此也表示同意。“RDBMS需要明确定义的数据 - 总有需要有这样的角色。”
但是,他表示说,新的竞争者也会扮演一些角色,特别是在物联网和新兴技术领域,如非易失性双列直插式内存模块(Non-Volatile Dual In-line Memory Module,NVDIMM)正占据上风。
将会有无数的问题需要多种解决方案,Olofson补充说。“大量有趣的东西等待着人们去发掘。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29