大数据如何使得数据库变得更好-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读大数据如何使得数据库变得更好

大数据如何使得数据库变得更好

2016-07-18

大数据如何使得数据库变得更好

当在提及“数据库”时，大多数人第一时间想到的肯定都是已经主宰该领域超过30年的关系数据库管理系统(RDBMS)。然而，这种状况可能很快就会改变。

一系列全新的竞争对手，现在正在争夺这一关键的企业市场，尽管他们所采用的是不同的方法，但却都有一个共同点：专注于大数据领域。

推动这种新的替代品获得大规模扩散的大部分因素是源于大数据的“3V”基本属性，即：海量(volume)、高速(velocity)和多样(variety)。

从本质上讲，今天的数据传输速度比以往任何时候都快;而且其数据量也比以往任何时候都更大;其种类也更加多样化。换句话说，这是一个全新的数据化的世界，而传统的关系型数据库管理系统并不是真正为它设计的。

“基本上，传统的关系型数据库管理系统不能应对规模化的海量、或快速、或多样的数据。”一家数据科学咨询分析机构KDnuggets公司的总裁Gregory Piatetsky-Shapiro表示说。

这便是哈特·汉克斯最近的发现：截至到2013年左右，市场营销服务机构都在使用不同的数据库的组合，包括Microsoft SQL Server和甲骨文公司的Real Application Clusters (RAC)。

“我们注意到，随着数据随时间的增长，我们的系统处理信息的速度不够快。”该公司技术和开发负责人Sean Iannuzzi表示说。“就算是您企业能够不断地购买新的服务器，也只是刚刚能够赶上数据增长的节奏，而我们希望确保我们能够具备向外扩展的平台。”

减少干扰是一个重要的目标，Iannuzzi说，因此“我们不能只是切换到Hadoop。”

相反，其选择了Splice Machine公司的产品，这实质上是把完整的SQL数据库与流行的Hadoop大数据平台，使现有的应用程序来与之连接，他说。

哈特·汉克斯现在处在实施部署的初期阶段，但已经看到了效益，Iannuzzi说，包括提高了容错性、高可用性、冗余性、稳定性和“性能的全面提升。”

有一种完美的风暴推动了新的数据库技术的出现，IDC公司研究副总裁Carl Olofson表示说。

首先，“与过去相比，我们当前正在使用的设备能够快速、灵活地处理大型数据集。” Olofson指出。

在过去的日子里，这样的数据集“需要被放在旋转的磁盘上”，而且数据必须以特定的方式来结构化，他解释说。

现在有64位寻址能力，可以建立更大的存储空间，以及更快的网络，并能够串多台计算机一起，作为单个大型数据库。

“这些东西开辟了之前不可用的可能性，” Olofson说。

同时，工作负载也发生了变化。例如，10年前的网站在很大程度上都是静态的，而在今天我们都是现场的Web服务环境和互动的购物体验。这反过来，需要一个新水平的可扩展性，他说。

企业也在利用新的方式使用数据。虽然在传统上，我们大部分的精力都放在了处理我们的交易——例如，记录我们销售了多少，并将这些数据存储起来，以便进行分析——今天我们做得更多。

应用程序状态管理就是这方面的一个例子。

假设您正在玩一款网络游戏。技术必须记录您与系统的每一次操作，并将其连接在一起，以呈现出连续的体验，即使您换了设备或者是各种操作是通过不同的服务器进行处理的，Olofson解释说。

这些数据必须持久化，这样，企业可以分析这样的问题，例如：“为什么从来没有人穿过水晶厅。”在网络购物方面，类似需要分析的问题可能是：为什么越来越多的用户在点击了颜色选择之后，却并没有购买某品牌的鞋子。

“以前，我们并没有试图解决这些问题，或者说——就算我们试图去解决了，也只是试图将其挤压在一个不太合适的盒子里。”Olofson说。

在当今新的众多竞争者之中，Hadoop无疑是一款重量级的。虽然其本身并不是一个数据库，但它的成长在企业解决大数据方面扮演了关键性的填补角色作用。从本质上来说，Hadoop是一款用于运行高度并行化的应用程序的数据中心平台，具有很强的可扩展性。

通过允许企业以分布的方式“向外”扩展，而不是通过采用额外昂贵的服务器“向上”扩展，“使得我们可以很便宜地把一个大型的数据集合整合起来，然后分析该数据集合有什么。”Olofson说。

在其他新的RDBMS的替代品是NoSQL系列产品，其中包括MongoDB——目前是第四大最为流行的数据库管理系统，根据DB-Engines和MarkLogic的数据库排名显示。

“关系数据库管理系统成为一款伟大的技术已经有30年的历史了，但它是基于不同的时代的不同市场需求所构建的不同的技术。” MarkLogic的产品执行副总裁乔·帕卡说。

他说，大数据是不均匀的，但对于许多传统的技术，这仍然是一项基本要求。

“想象一下，在您笔记本电脑上唯一的一款程序是Excel会是怎样?”帕卡说。“再试着想象一下，您想要保持与网络上的朋友们的联系，或者您正在写一份合约，而Excel的那些行和列显然不适合满足这些需求。”

将数据集组合起来可能是特别棘手的工作。

“采用关系数据库管理系统的话，在您把所有这些数据集整合在一起之前，您必须决定如何对所有列实施排队。”他补充说。“而我们则可以采取任何形式或结构，并立即开始使用它。”

NoSQL数据库不使用一款关系数据模型，通常没有SQL接口。而许多NoSQL存储为了速度和其他因素而在一致性方面进行了妥协。而MarkLogic自身的产品是专为满足企业的一致性选择而量身定做的。

根据市场研究媒体Marketresearchmedia.com网站的介绍，在NoSQL市场已经呈现了可观的增长，但并非每个人都认为这是正确的方法——至少，不是在所有的情况下。

NoSQL系统“通过其横向扩展架构，解决了许多问题，但他们抛弃了SQL。” Splice Machine公司的CEO Monte Zweben说。这反过来，构成了现有代码中的问题。

Splice Machine公司的产品是称为NewSQL的，不同类别的替代品的一个例子——另一类预期在未来几年将获得强劲增长的产品。

“我们的理念是在保有SQL的同时，添加扩展架构。”Zweben说。“这是创造一些新的东西的时候了，但我们正努力使用户不必重写编写代码。”

大数据创业企业Deep Information Sciences公司也选择了坚持使用SQL，但他们则是以另一种方法。

该公司的DeepSQL数据库使用与MySQL相同的应用程序编程接口(API)和关系模型，这意味着为了使用它无需进行应用程序的改变。但它以不同的方式处理数据，使用机器学习。

DeepSQL可以使用任何工作负载组合自动适应物理，虚拟或云主机，该公司表示，从而省去了手动数据库优化的需要。

在这些都大大提高了性能以及扩展到 “千亿行”的能力，该公司的首席战略官Chad Jones表示。

另一种完全不同的方式来自Algebraix Data公司，该公司表示说，他们已经为数据开发了第一款真正的数学基础。

而计算机硬件已经在其建成之前进行了数学模型，而不是在软件的情况下，Algebraix公司首席执行官Charles Silver表示。

“软件，尤其是数据，从未建立在数学的基础上。”他说。“软件在很大程度上是语言学的问题。”

经过五年的研发，Algebraix公司创造了其所谓的“代数数据(algebra of data")”，这是一种利用数学集合论实现的“通用数据语言”。

“大数据的小秘密是，数据仍然在不与其他数据网格连接的小筒仓中。” Silver解释说。“我们已经证明，其可以用数学方法来表示，因此所有都是集成的。”

在这个基础上配备内置平台，Algebraix公司现在能够为企业用户提供业务分析作为一种服务。改进的性能，容量和速度都是Algebraix公司所为企业用户承诺的预期获益。

时间最终会证明哪些新的竞争者将获得成功。而在此期间，市场长期的领军，如甲骨文并不会完全停滞不前。

“软件是一个非常有时尚意识的行业。” 甲骨文数据库服务器技术的执行副总裁安德鲁·门德尔松表示说。 “事务往往从流行变为不受欢迎，然后又再次回到流行。”

他说，现在很多创业公司都仅仅是“把同一款旧东西炒冷饭之后加上一点点的抛光或打磨处理。这就类似于新的一代的毕业生重塑了事务。”

SQL是“唯一一款能够让业务分析师提问并得到答案的语言——他们不需要成为程序员。”门德尔松说。“大市场将始终是关系数据库。”

至于新的数据类型，关系型数据库产品发展为早在上世纪90年代就支持的非结构化数据，他说。在2013年，甲骨文的同名数据库在12c版本中增加了JSON(JavaScript对象表示法)支持。

门德尔松说，与其说是需要一款不同类型的数据库，更是一种商业模式的转变，而这正推动着整个行业的变革。

“云计算将是未来的发展方向，其将为现在的那些小企业带来破坏性的变革。”他说。“大企业都已经在云服务领域站稳脚跟了，所以在这一领域几乎已经没有容纳这些小型竞争者的地方了?”

“小企业们要通过采用亚马逊的云，并与亚马逊竞争吗?”他补充道。“这将是相当困难的。”

甲骨文拥有“最广泛的云服务。”门德尔松说。“我们对自己当前的市场地位感觉很好。”

Gartner的一名研究主管瑞克·格林沃尔德也倾向于类似的观点。

“较新的替代方案并不像传统的RDBMS那样功能齐全和强大。”格林沃尔德说。 “某些案例可以用新的竞争者的产品来解决，但并不是全部，当然也不是只有一款技术”。

展望未来，格林沃尔德预计，传统的RDBMS供应商将感受到价格压力越来越大，并为他们的产品增加新的功能。“有些供应商会甚至为其整个数据管理系统带来新的竞争者。”他说。

至于新的市场进入者，他预测，只有少数会幸存下来，“许多企业要么被收购或是耗尽其资金。”

今天的新技术并不代表数据分析传统的RDBMS的结束，“传统的RDBMS本身正在迅速发展。” IDC的Olofson对此也表示同意。“RDBMS需要明确定义的数据 - 总有需要有这样的角色。”

但是，他表示说，新的竞争者也会扮演一些角色，特别是在物联网和新兴技术领域，如非易失性双列直插式内存模块(Non-Volatile Dual In-line Memory Module，NVDIMM)正占据上风。

将会有无数的问题需要多种解决方案，Olofson补充说。“大量有趣的东西等待着人们去发掘。”

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

SQL 大数据 Hadoop 关系型数据库云计算机器学习数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

大数据如何使得数据库变得更好

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】销售额预测实战：基于时间序列与回归分 ...

【CDA干货】金融数据分析：为什么异常值处理是必做 ...

CDA数据分析师必备：指标与指标体系管理基础指南 ...

【CDA干货】数据呈现与数据分析：核心区别+实操边界 ...

【CDA干货】Pandas读取dat文件：提取第一行数据并转 ...

CDA数据分析师核心能力：数据建模实操指南，让数据 ...

【CDA干货】MySQL课时排序累加全指南：3种方法+实操 ...

【CDA干货】Tableau环比计算全指南：3种方法+实操步 ...

CDA数据分析师实操指南：从0到1开展数据治理，激活 ...

【CDA干货】方法验证核心统计：重复性用卡方分析， ...

【CDA干货】两组数据的单因素方差分析：什么时候用 ...

CDA数据分析师：深耕数据治理体系，激活数据资产核 ...

【CDA干货】转置卷积后需要激活函数吗？深度学习实 ...

【CDA干货】搞懂算术平均与几何平均：什么时候用？ ...

CDA数据分析师：锚定数据治理驱动因素，筑牢数据价 ...

【CDA干货】Excel表外引用数据透视表数据：4种方法+ ...

【CDA干货】Excel相关性分析：从操作到解读，小白也 ...

CDA数据分析师必备：用应用效应分解法，解锁时间序 ...

【CDA干货】数据透视表更新后数据消失？6大核心原因 ...

【CDA干货】机器学习引导下的有限元模型参数识别： ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载