数据库是现在最领先的一个数据管理模式,它可以把数据进行很好的归类,进行非常快速的检索,过去30年我们生活在数据库的时代。数据库的时代利用关系型代数这样一个非常美丽的数学概念,把数据都按两维空间很好的组织起来,进行很快的检索,而且能够进行交易型处理,使得你在这里订一张飞机票不会有另外一个人订同样的飞机票跟你坐同样的位置。正因为
关系型数据库的产生,使得现在很多的应用都能够非常顺利的进行开发。在过去的30年里,从最初的群雄争霸,有很多种不同的
关系型数据库以及其他的数据管理模式,到现在已经是一个非常稳定的市场。这个市场的领先者,包括大家熟悉的甲骨文公司、IBM公司、微软公司,都有很好的数据库技术满足客户的需要。
数据库大多都是在企业客户自己的数据中心里,在自己的防火墙后面。数据库各种各样,有为交易型的应用提供的交易型数据库,也有为平时的运营服务的,可以每天早晨给你一个图表,看今天的运营状况,在过去10几年里
数据仓库有了非常快的发展,可以以比较大的数量进行深层次的技术发掘。在数据库技术底下,其实现在IT业有非常好的开发和应用,为客户提供更高的价值。
看到这些大家可能会问,这个世界不是很美好的吗?起码对于甲骨文、微软和IBM是非常美好的世界,数据是非常有黏性的技术,是一个非常稳固的平台,由于上面转着几百、几千个不同的应用,使得用户很难把数据库换掉,而不换掉上面的应用。因为数据库的数据都在里面,数据的重力是非常强的,如果把数据从一种数据库迁移到另外一种数据库不是很容易的事情。但过去5年这种情况有了一些改变。我们注意到有五个比较大的趋势,使一家独大的数据库统一数据管理的状况有了颠覆性变化。
一、数据本身的改变。
过去的数据大多是人为产生的,它的数据是一条条记录式的,比较容易转化成
关系型数据库形式。对它的处理往往不是实时的,可以等待数据产生,而要应用它的时候,往往已经过了一段时间。在这种情况下,
关系型数据库是一个很好的数字化。举一个很简单的例子,我在年初去滑雪,然后去租雪橇,去了一家夫妻店,是一个很小的雪橇店,他们还没有电脑,没有数据库,完全是靠纸和笔记录每一笔交易。我看到他们有一盒子的卡片,每一笔交易就是一张卡片。还有另外一个盒子是他所有客户的信息,中间通过客户的信息可以查每个交易的信息。我再一看,这是用纸做的关系型的数据库,而这个夫妻店如果生意好,规模大了,就无法用纸和笔来完成,就必须要做成电脑上的数据库。这样的数据库有几个特点,大家都知道CRUD,需要能够保证有数据的产生,有数据的读和写以及更改,也要保证可以把数据删除,这是过去所谓的记录型的数据。而对这种数据的管理,数据库是一个非常优秀完美的技术。而现在产生数据的源更多了,很多的数据不再是由人产生了,而是由机器产生的。随着物联网的发展,各种各样的探测器,各种各样的RFID,各种各样的手机,各种各样的器件以及很多电脑、服务器会自动产生大量的数据,而这些数据往往是以流的形式产生的。即使是人为的,包括我们刚才提到的社交网络、微博,数据的形式和过去的形式也有些不一样。
我们看到新型的数据往往很少改变过去已经产生的东西,这些数据往往是产生一次,以后就再也不会更改。一个服务器的日志不会再改变昨天的日志,我昨天放上一个微博,也不会再进行改变,往往数据产生一次就不会改变。而这些数据很多时候是不会被删除,即使用户把它删除,在背后的基础架构里面往往也是不删除的。新兴的数据下我们注意到是CRAP的数据模式,是产生、读取、添加和处理。对于这样的数据来说,我们大家熟悉的
关系型数据库已经不能很好满足需要。处理大型的CRAP的数据,我们需要新型的数据管理技术和产品来帮助客户解决这个问题。这就是现在为什么包括
Hadoop这样的技术这样热门的原因,是因为过去的数据管理方式已经满足不了新型CRAP数据的需求。
二、云所带来的副作用。
云就在于你的应用不止是在你的防火墙之后。随着软件即服务的产生,我们会生活在一个生活云的时代。对于很多的企业来说,我们很多的应用会是在私有云里面,是在自己的数据中心当中。但是同时我们有越来越多的应用会由公有云进行提供,包括客户管理,包括人事管理,甚至以后包括财务管理,都会通过公有云来提供这样的应用。而这产生一个副作用,就在于数据往往是跟应用在一起的。当你的应用在你的防火墙之外了,它的数据也在防火墙之外。我作为一个软件即服务的提供商,提供给你应用,而数据都会在我这里。我作为一个企业来说,第一次面对这种情况,企业的数据已经不完全由我来掌控,我不可能把所有的数据都放在甲骨文的数据库当中。即使我作为CIO有这样的愿望,也无法达成这个现实。因为到底这个应用采用哪个数据库,已经不是由我这个IT部门说了算了。
在这么一个多地点、多来源的数据时代,怎么样对这些不同的数据方式、不同的数据材料进行统一的分析和处理,从它上面能够得到智能是新一代的挑战。在过去要做一个新的应用,只要连接到已有的数据库上就行了。而现在必须要有一个全球的云数据统一系统,才能够在上面开发出新的应用程序,使它能够提取到你私有云里面的数据,也能够提取到公有云的数据。所以这是另外一个云带来的趋势,使得数据管理模式会有一个比较根本的改变。
三、云的使用者在进行的改变。
云使用者的改变也是数据的使用者的改变,在中国很多公司里面,最富有的最有实力的500家公司里面,可能都会有比较好的
数据仓库系统可以对他的数据进行分析。但是,现在对于数据的需求已经不止是这500家最有实力的公司了,我觉得任何一家公司,任何一个规模的公司,或者任何公司里的任何一个部门,任何一个小组其实都有需要。为了他能够在商业上取胜,为了他能够更好地完成日常工作,都必须从数据当中提取他的智能。而我们现在所熟悉的
数据仓库系统,能够为数据提供智能的系统是非常昂贵的系统,需要几百万美元,几千万人民币的投入,需要专业的团队,需要很长的时间才能够得到需要的智能,而并不是所有的公司都能够有这么多的钱、人力和专家来达到这个结果。我们的需求就在于怎么样能够有一个低门槛的系统,使得无论是大公司还是小公司,无论是公司里面大团队还是小团队,都能很容易的从数据当中看到你想看到的信息。我们需要使这个数据的分析系统低门槛,能够实时的产生这些智能,能够更加平民化,提供更多的可视性,这也是一个非常大的趋势。相信在将来的几年里面,我们会发现更多的解决方案,而现在已有的解决方案并不能满足这方面的需要。
随着这三大趋势,我相信会因为它们产生一个新的数据云的时代,从过去数据库一家独大到新的数据云,会产生新的需求,产生更大的数据,更快的数据,分布更广,更多样的数据,同时这些数据能够为千家万户,为所有的用户提供服务。当然,数据库并不会消失,数据库仍旧有它非常重要的作用。在很长的时间里,这两边的技术会是共存的。还有两个非常重要的在业界的趋势,会帮助在更好的管理数据库的同时,能够迎接这个数据云时代的到来,而且使两边能够共同和谐的生存。
四、虚拟化的技术。
虚拟化的技术使得底层架构更加的灵活,更加的业绩化,使得你很容易有资源池。一方面能够减低管理数据库的开支,能够使更多的资金用于数据云时代。另一方面,可以使得同样一个基础架构,同样一个资源池,可以既满足数据库的需求,也能满足数据云的需求,来降低运营成本。所以产生虚拟化、混合云的基础架构,对于数据库和数据云能够并存,是一个非常关键的技术。
五、开源软件的趋势。
大家都知道,数据库是一个非常好的技术,但是它同时也是一个非常成熟的技术,所以开源软件在数据库这边有一个降低成本的好处,任何一个成熟的技术,它都会使得最好的解决方案以及这个开源的解决方案中间的差距会越来越少。大家在用数据库的时候,可能一方面非常有用,另一方面会感到真贵,要维护一个大型的数据库系统需要很多的人力物力,需要给这些厂家很多的钱。但是随着开源这个软件的出现,或者基于开源软件,包括一些关系型的数据库,他们之间的差距离市场领先数据库的差距会越来越小,会给客户更多的选择来部署你的数据库。
更重要的开源效果是对于数据云时代的帮助,数据管理云系统,现在走过一个分久必合到合久必分这么一个转型的时代。在30年前可能是群雄混战,有很多的数据库产生,而在过去的20年、15年逐渐的甲骨文一家做大,成为业界的领袖。但是现在这个时代,我们的皇帝也老了,新一代的技术产生,我们又进入一个群雄混战的时代。现在大家熟悉的大数据技术,包括
Hadoop,包括新的为开发者所欢迎的技术已经产生,而这样的技术大多数是以开源技术的形式出现的。以开源技术的形式,就使得作为客户可以非常低门槛的能够应用到这个技术,不需要很多的初始投资,可以尝试这个新的技术到底是否满足自己的需求,鼓励这么一种百花齐放的形式,开源就给这个百花齐放提供了一片土壤,看最后到底哪一朵花最投其所好。
根据这些趋势,传统的数据库就Hold不住所有的应用了,传统的只要给我一个数据库我就搞定了。
CDA数据分析师考试相关入口一览(建议收藏):
▷ 想报名CDA认证考试,点击>>>
“CDA报名”
了解CDA考试详情;
▷ 想学习CDA考试教材,点击>>> “CDA教材” 了解CDA考试详情;
▷ 想加入CDA考试题库,点击>>> “CDA题库” 了解CDA考试详情;
▷ 想了解CDA考试含金量,点击>>> “CDA含金量” 了解CDA考试详情;