京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据如何使得数据库变得更好
当在提及“数据库”时,大多数人第一时间想到的肯定都是已经主宰该领域超过30年的关系数据库管理系统(RDBMS)。然而,这种状况可能很快就会改变。
一系列全新的竞争对手,现在正在争夺这一关键的企业市场,尽管他们所采用的是不同的方法,但却都有一个共同点:专注于大数据领域。
推动这种新的替代品获得大规模扩散的大部分因素是源于大数据的“3V”基本属性,即:海量(volume)、高速(velocity)和多样(variety)。
从本质上讲,今天的数据传输速度比以往任何时候都快;而且其数据量也比以往任何时候都更大;其种类也更加多样化。换句话说,这是一个全新的数据化的世界,而传统的关系型数据库管理系统并不是真正为它设计的。
“基本上,传统的关系型数据库管理系统不能应对规模化的海量、或快速、或多样的数据。”一家数据科学咨询分析机构KDnuggets公司的总裁Gregory Piatetsky-Shapiro表示说。
这便是哈特·汉克斯最近的发现:截至到2013年左右,市场营销服务机构都在使用不同的数据库的组合,包括Microsoft SQL Server和甲骨文公司的Real Application Clusters (RAC)。
“我们注意到,随着数据随时间的增长,我们的系统处理信息的速度不够快。”该公司技术和开发负责人Sean Iannuzzi表示说。“就算是您企业能够不断地购买新的服务器,也只是刚刚能够赶上数据增长的节奏,而我们希望确保我们能够具备向外扩展的平台。”
减少干扰是一个重要的目标,Iannuzzi说,因此“我们不能只是切换到Hadoop。”
相反,其选择了Splice Machine公司的产品,这实质上是把完整的SQL数据库与流行的Hadoop大数据平台,使现有的应用程序来与之连接,他说。
哈特·汉克斯现在处在实施部署的初期阶段,但已经看到了效益,Iannuzzi说,包括提高了容错性、高可用性、冗余性、稳定性和“性能的全面提升。”
有一种完美的风暴推动了新的数据库技术的出现,IDC公司研究副总裁Carl Olofson表示说。
首先,“与过去相比,我们当前正在使用的设备能够快速、灵活地处理大型数据集。” Olofson指出。
在过去的日子里,这样的数据集“需要被放在旋转的磁盘上”,而且数据必须以特定的方式来结构化,他解释说。
现在有64位寻址能力,可以建立更大的存储空间,以及更快的网络,并能够串多台计算机一起,作为单个大型数据库。
“这些东西开辟了之前不可用的可能性,” Olofson说。
同时,工作负载也发生了变化。例如,10年前的网站在很大程度上都是静态的,而在今天我们都是现场的Web服务环境和互动的购物体验。这反过来,需要一个新水平的可扩展性,他说。
企业也在利用新的方式使用数据。虽然在传统上,我们大部分的精力都放在了处理我们的交易——例如,记录我们销售了多少,并将这些数据存储起来,以便进行分析——今天我们做得更多。
应用程序状态管理就是这方面的一个例子。
假设您正在玩一款网络游戏。技术必须记录您与系统的每一次操作,并将其连接在一起,以呈现出连续的体验,即使您换了设备或者是各种操作是通过不同的服务器进行处理的,Olofson解释说。
这些数据必须持久化,这样,企业可以分析这样的问题,例如:“为什么从来没有人穿过水晶厅。”在网络购物方面,类似需要分析的问题可能是:为什么越来越多的用户在点击了颜色选择之后,却并没有购买某品牌的鞋子。
“以前,我们并没有试图解决这些问题,或者说——就算我们试图去解决了,也只是试图将其挤压在一个不太合适的盒子里。”Olofson说。
在当今新的众多竞争者之中,Hadoop无疑是一款重量级的。虽然其本身并不是一个数据库,但它的成长在企业解决大数据方面扮演了关键性的填补角色作用。从本质上来说,Hadoop是一款用于运行高度并行化的应用程序的数据中心平台,具有很强的可扩展性。
通过允许企业以分布的方式“向外”扩展,而不是通过采用额外昂贵的服务器“向上”扩展,“使得我们可以很便宜地把一个大型的数据集合整合起来,然后分析该数据集合有什么。”Olofson说。
在其他新的RDBMS的替代品是NoSQL系列产品,其中包括MongoDB——目前是第四大最为流行的数据库管理系统,根据DB-Engines和MarkLogic的数据库排名显示。
“关系数据库管理系统成为一款伟大的技术已经有30年的历史了,但它是基于不同的时代的不同市场需求所构建的不同的技术。” MarkLogic的产品执行副总裁乔·帕卡说。
他说,大数据是不均匀的,但对于许多传统的技术,这仍然是一项基本要求。
“想象一下,在您笔记本电脑上唯一的一款程序是Excel会是怎样?”帕卡说。“再试着想象一下,您想要保持与网络上的朋友们的联系,或者您正在写一份合约,而Excel的那些行和列显然不适合满足这些需求。”
将数据集组合起来可能是特别棘手的工作。
“采用关系数据库管理系统的话,在您把所有这些数据集整合在一起之前,您必须决定如何对所有列实施排队。”他补充说。“而我们则可以采取任何形式或结构,并立即开始使用它。”
NoSQL数据库不使用一款关系数据模型,通常没有SQL接口。而许多NoSQL存储为了速度和其他因素而在一致性方面进行了妥协。而MarkLogic自身的产品是专为满足企业的一致性选择而量身定做的。
根据市场研究媒体Marketresearchmedia.com网站的介绍,在NoSQL市场已经呈现了可观的增长,但并非每个人都认为这是正确的方法——至少,不是在所有的情况下。
NoSQL系统“通过其横向扩展架构,解决了许多问题,但他们抛弃了SQL。” Splice Machine公司的CEO Monte Zweben说。这反过来,构成了现有代码中的问题。
Splice Machine公司的产品是称为NewSQL的,不同类别的替代品的一个例子——另一类预期在未来几年将获得强劲增长的产品。
“我们的理念是在保有SQL的同时,添加扩展架构。”Zweben说。“这是创造一些新的东西的时候了,但我们正努力使用户不必重写编写代码。”
大数据创业企业Deep Information Sciences公司也选择了坚持使用SQL,但他们则是以另一种方法。
该公司的DeepSQL数据库使用与MySQL相同的应用程序编程接口(API)和关系模型,这意味着为了使用它无需进行应用程序的改变。但它以不同的方式处理数据,使用机器学习。
DeepSQL可以使用任何工作负载组合自动适应物理,虚拟或云主机,该公司表示,从而省去了手动数据库优化的需要。
在这些都大大提高了性能以及扩展到 “千亿行”的能力,该公司的首席战略官Chad Jones表示。
另一种完全不同的方式来自Algebraix Data公司,该公司表示说,他们已经为数据开发了第一款真正的数学基础。
而计算机硬件已经在其建成之前进行了数学模型,而不是在软件的情况下,Algebraix公司首席执行官Charles Silver表示。
“软件,尤其是数据,从未建立在数学的基础上。”他说。“软件在很大程度上是语言学的问题。”
经过五年的研发,Algebraix公司创造了其所谓的“代数数据(algebra of data")”,这是一种利用数学集合论实现的“通用数据语言”。
“大数据的小秘密是,数据仍然在不与其他数据网格连接的小筒仓中。” Silver解释说。“我们已经证明,其可以用数学方法来表示,因此所有都是集成的。”
在这个基础上配备内置平台,Algebraix公司现在能够为企业用户提供业务分析作为一种服务。改进的性能,容量和速度都是Algebraix公司所为企业用户承诺的预期获益。
时间最终会证明哪些新的竞争者将获得成功。而在此期间,市场长期的领军,如甲骨文并不会完全停滞不前。
“软件是一个非常有时尚意识的行业。” 甲骨文数据库服务器技术的执行副总裁安德鲁·门德尔松表示说。 “事务往往从流行变为不受欢迎,然后又再次回到流行。”
他说,现在很多创业公司都仅仅是“把同一款旧东西炒冷饭之后加上一点点的抛光或打磨处理。这就类似于新的一代的毕业生重塑了事务。”
SQL是“唯一一款能够让业务分析师提问并得到答案的语言——他们不需要成为程序员。”门德尔松说。“大市场将始终是关系数据库。”
至于新的数据类型,关系型数据库产品发展为早在上世纪90年代就支持的非结构化数据,他说。在2013年,甲骨文的同名数据库在12c版本中增加了JSON(JavaScript对象表示法)支持。
门德尔松说,与其说是需要一款不同类型的数据库,更是一种商业模式的转变,而这正推动着整个行业的变革。
“云计算将是未来的发展方向,其将为现在的那些小企业带来破坏性的变革。”他说。“大企业都已经在云服务领域站稳脚跟了,所以在这一领域几乎已经没有容纳这些小型竞争者的地方了?”
“小企业们要通过采用亚马逊的云,并与亚马逊竞争吗?”他补充道。“这将是相当困难的。”
甲骨文拥有“最广泛的云服务。”门德尔松说。“我们对自己当前的市场地位感觉很好。”
Gartner的一名研究主管瑞克·格林沃尔德也倾向于类似的观点。
“较新的替代方案并不像传统的RDBMS那样功能齐全和强大。”格林沃尔德说。 “某些案例可以用新的竞争者的产品来解决,但并不是全部,当然也不是只有一款技术”。
展望未来,格林沃尔德预计,传统的RDBMS供应商将感受到价格压力越来越大,并为他们的产品增加新的功能。“有些供应商会甚至为其整个数据管理系统带来新的竞争者。”他说。
至于新的市场进入者,他预测,只有少数会幸存下来,“许多企业要么被收购或是耗尽其资金。”
今天的新技术并不代表数据分析传统的RDBMS的结束,“传统的RDBMS本身正在迅速发展。” IDC的Olofson对此也表示同意。“RDBMS需要明确定义的数据 - 总有需要有这样的角色。”
但是,他表示说,新的竞争者也会扮演一些角色,特别是在物联网和新兴技术领域,如非易失性双列直插式内存模块(Non-Volatile Dual In-line Memory Module,NVDIMM)正占据上风。
将会有无数的问题需要多种解决方案,Olofson补充说。“大量有趣的东西等待着人们去发掘。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28