京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据如何使得数据库变得更好
当在提及“数据库”时,大多数人第一时间想到的肯定都是已经主宰该领域超过30年的关系数据库管理系统(RDBMS)。然而,这种状况可能很快就会改变。
一系列全新的竞争对手,现在正在争夺这一关键的企业市场,尽管他们所采用的是不同的方法,但却都有一个共同点:专注于大数据领域。
推动这种新的替代品获得大规模扩散的大部分因素是源于大数据的“3V”基本属性,即:海量(volume)、高速(velocity)和多样(variety)。
从本质上讲,今天的数据传输速度比以往任何时候都快;而且其数据量也比以往任何时候都更大;其种类也更加多样化。换句话说,这是一个全新的数据化的世界,而传统的关系型数据库管理系统并不是真正为它设计的。
“基本上,传统的关系型数据库管理系统不能应对规模化的海量、或快速、或多样的数据。”一家数据科学咨询分析机构KDnuggets公司的总裁Gregory Piatetsky-Shapiro表示说。
这便是哈特·汉克斯最近的发现:截至到2013年左右,市场营销服务机构都在使用不同的数据库的组合,包括Microsoft SQL Server和甲骨文公司的Real Application Clusters (RAC)。
“我们注意到,随着数据随时间的增长,我们的系统处理信息的速度不够快。”该公司技术和开发负责人Sean Iannuzzi表示说。“就算是您企业能够不断地购买新的服务器,也只是刚刚能够赶上数据增长的节奏,而我们希望确保我们能够具备向外扩展的平台。”
减少干扰是一个重要的目标,Iannuzzi说,因此“我们不能只是切换到Hadoop。”
相反,其选择了Splice Machine公司的产品,这实质上是把完整的SQL数据库与流行的Hadoop大数据平台,使现有的应用程序来与之连接,他说。
哈特·汉克斯现在处在实施部署的初期阶段,但已经看到了效益,Iannuzzi说,包括提高了容错性、高可用性、冗余性、稳定性和“性能的全面提升。”
有一种完美的风暴推动了新的数据库技术的出现,IDC公司研究副总裁Carl Olofson表示说。
首先,“与过去相比,我们当前正在使用的设备能够快速、灵活地处理大型数据集。” Olofson指出。
在过去的日子里,这样的数据集“需要被放在旋转的磁盘上”,而且数据必须以特定的方式来结构化,他解释说。
现在有64位寻址能力,可以建立更大的存储空间,以及更快的网络,并能够串多台计算机一起,作为单个大型数据库。
“这些东西开辟了之前不可用的可能性,” Olofson说。
同时,工作负载也发生了变化。例如,10年前的网站在很大程度上都是静态的,而在今天我们都是现场的Web服务环境和互动的购物体验。这反过来,需要一个新水平的可扩展性,他说。
企业也在利用新的方式使用数据。虽然在传统上,我们大部分的精力都放在了处理我们的交易——例如,记录我们销售了多少,并将这些数据存储起来,以便进行分析——今天我们做得更多。
应用程序状态管理就是这方面的一个例子。
假设您正在玩一款网络游戏。技术必须记录您与系统的每一次操作,并将其连接在一起,以呈现出连续的体验,即使您换了设备或者是各种操作是通过不同的服务器进行处理的,Olofson解释说。
这些数据必须持久化,这样,企业可以分析这样的问题,例如:“为什么从来没有人穿过水晶厅。”在网络购物方面,类似需要分析的问题可能是:为什么越来越多的用户在点击了颜色选择之后,却并没有购买某品牌的鞋子。
“以前,我们并没有试图解决这些问题,或者说——就算我们试图去解决了,也只是试图将其挤压在一个不太合适的盒子里。”Olofson说。
在当今新的众多竞争者之中,Hadoop无疑是一款重量级的。虽然其本身并不是一个数据库,但它的成长在企业解决大数据方面扮演了关键性的填补角色作用。从本质上来说,Hadoop是一款用于运行高度并行化的应用程序的数据中心平台,具有很强的可扩展性。
通过允许企业以分布的方式“向外”扩展,而不是通过采用额外昂贵的服务器“向上”扩展,“使得我们可以很便宜地把一个大型的数据集合整合起来,然后分析该数据集合有什么。”Olofson说。
在其他新的RDBMS的替代品是NoSQL系列产品,其中包括MongoDB——目前是第四大最为流行的数据库管理系统,根据DB-Engines和MarkLogic的数据库排名显示。
“关系数据库管理系统成为一款伟大的技术已经有30年的历史了,但它是基于不同的时代的不同市场需求所构建的不同的技术。” MarkLogic的产品执行副总裁乔·帕卡说。
他说,大数据是不均匀的,但对于许多传统的技术,这仍然是一项基本要求。
“想象一下,在您笔记本电脑上唯一的一款程序是Excel会是怎样?”帕卡说。“再试着想象一下,您想要保持与网络上的朋友们的联系,或者您正在写一份合约,而Excel的那些行和列显然不适合满足这些需求。”
将数据集组合起来可能是特别棘手的工作。
“采用关系数据库管理系统的话,在您把所有这些数据集整合在一起之前,您必须决定如何对所有列实施排队。”他补充说。“而我们则可以采取任何形式或结构,并立即开始使用它。”
NoSQL数据库不使用一款关系数据模型,通常没有SQL接口。而许多NoSQL存储为了速度和其他因素而在一致性方面进行了妥协。而MarkLogic自身的产品是专为满足企业的一致性选择而量身定做的。
根据市场研究媒体Marketresearchmedia.com网站的介绍,在NoSQL市场已经呈现了可观的增长,但并非每个人都认为这是正确的方法——至少,不是在所有的情况下。
NoSQL系统“通过其横向扩展架构,解决了许多问题,但他们抛弃了SQL。” Splice Machine公司的CEO Monte Zweben说。这反过来,构成了现有代码中的问题。
Splice Machine公司的产品是称为NewSQL的,不同类别的替代品的一个例子——另一类预期在未来几年将获得强劲增长的产品。
“我们的理念是在保有SQL的同时,添加扩展架构。”Zweben说。“这是创造一些新的东西的时候了,但我们正努力使用户不必重写编写代码。”
大数据创业企业Deep Information Sciences公司也选择了坚持使用SQL,但他们则是以另一种方法。
该公司的DeepSQL数据库使用与MySQL相同的应用程序编程接口(API)和关系模型,这意味着为了使用它无需进行应用程序的改变。但它以不同的方式处理数据,使用机器学习。
DeepSQL可以使用任何工作负载组合自动适应物理,虚拟或云主机,该公司表示,从而省去了手动数据库优化的需要。
在这些都大大提高了性能以及扩展到 “千亿行”的能力,该公司的首席战略官Chad Jones表示。
另一种完全不同的方式来自Algebraix Data公司,该公司表示说,他们已经为数据开发了第一款真正的数学基础。
而计算机硬件已经在其建成之前进行了数学模型,而不是在软件的情况下,Algebraix公司首席执行官Charles Silver表示。
“软件,尤其是数据,从未建立在数学的基础上。”他说。“软件在很大程度上是语言学的问题。”
经过五年的研发,Algebraix公司创造了其所谓的“代数数据(algebra of data")”,这是一种利用数学集合论实现的“通用数据语言”。
“大数据的小秘密是,数据仍然在不与其他数据网格连接的小筒仓中。” Silver解释说。“我们已经证明,其可以用数学方法来表示,因此所有都是集成的。”
在这个基础上配备内置平台,Algebraix公司现在能够为企业用户提供业务分析作为一种服务。改进的性能,容量和速度都是Algebraix公司所为企业用户承诺的预期获益。
时间最终会证明哪些新的竞争者将获得成功。而在此期间,市场长期的领军,如甲骨文并不会完全停滞不前。
“软件是一个非常有时尚意识的行业。” 甲骨文数据库服务器技术的执行副总裁安德鲁·门德尔松表示说。 “事务往往从流行变为不受欢迎,然后又再次回到流行。”
他说,现在很多创业公司都仅仅是“把同一款旧东西炒冷饭之后加上一点点的抛光或打磨处理。这就类似于新的一代的毕业生重塑了事务。”
SQL是“唯一一款能够让业务分析师提问并得到答案的语言——他们不需要成为程序员。”门德尔松说。“大市场将始终是关系数据库。”
至于新的数据类型,关系型数据库产品发展为早在上世纪90年代就支持的非结构化数据,他说。在2013年,甲骨文的同名数据库在12c版本中增加了JSON(JavaScript对象表示法)支持。
门德尔松说,与其说是需要一款不同类型的数据库,更是一种商业模式的转变,而这正推动着整个行业的变革。
“云计算将是未来的发展方向,其将为现在的那些小企业带来破坏性的变革。”他说。“大企业都已经在云服务领域站稳脚跟了,所以在这一领域几乎已经没有容纳这些小型竞争者的地方了?”
“小企业们要通过采用亚马逊的云,并与亚马逊竞争吗?”他补充道。“这将是相当困难的。”
甲骨文拥有“最广泛的云服务。”门德尔松说。“我们对自己当前的市场地位感觉很好。”
Gartner的一名研究主管瑞克·格林沃尔德也倾向于类似的观点。
“较新的替代方案并不像传统的RDBMS那样功能齐全和强大。”格林沃尔德说。 “某些案例可以用新的竞争者的产品来解决,但并不是全部,当然也不是只有一款技术”。
展望未来,格林沃尔德预计,传统的RDBMS供应商将感受到价格压力越来越大,并为他们的产品增加新的功能。“有些供应商会甚至为其整个数据管理系统带来新的竞争者。”他说。
至于新的市场进入者,他预测,只有少数会幸存下来,“许多企业要么被收购或是耗尽其资金。”
今天的新技术并不代表数据分析传统的RDBMS的结束,“传统的RDBMS本身正在迅速发展。” IDC的Olofson对此也表示同意。“RDBMS需要明确定义的数据 - 总有需要有这样的角色。”
但是,他表示说,新的竞争者也会扮演一些角色,特别是在物联网和新兴技术领域,如非易失性双列直插式内存模块(Non-Volatile Dual In-line Memory Module,NVDIMM)正占据上风。
将会有无数的问题需要多种解决方案,Olofson补充说。“大量有趣的东西等待着人们去发掘。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15