大数据的五大进化趋势-CDA数据分析师官网

热线电话：13121318867

大数据的五大进化趋势

2016-04-24

大数据的五大进化趋势

仅仅数年时间，大数据就从大型互联网公司高管嘴里的专业术语，演变成了决定我们未来数字生活方式的重大技术命题。无论是消费者，传统企业还是互联网创业公司，对大数据趋势的洞察和把握都是改变命运的重要思考。为了方便大家理解大数据将如何改变我们生产和消费数据的方式，GigaOM作者Derrick Harris在下面罗列了大数据的五大发展趋势，也欢迎读者留言评论，说出你们眼中的大数据趋势。

一、数据科学的普及化

在数据科学领域，最重大的变化来自数据科学家人才库的壮大。新的在线教育平台（如Coursera和Udacity）向学生传授各种数据科学知识，从基础统计到自然语言处理和机器学习。此外，Oxdata这样的产品还致力于让R这样的经典统计分析工具更加易用和强大。而Quid则让机器学习和人工智能与优美的用户界面无缝结合。Kaggle这样的平台则为预测型分析提供了一个众包解决方案。

一个总的趋势是，最终任何一个有点想象力的，懂点基本的计算机科学知识，但是商业嗅觉敏锐的人将能够更好地利用他们手头的数据。大数据分析将不再高高在上，Datahero、INnfogram和Statwing这样的公司都在试图让门外汉也能从事数据分析，给出漂亮的数据分析结果。

二、Hadoop的MapReduce时代终结

Hadoop作为单一的MapReduce运行平台的日子已经一去不复返了。进化开始于Apache hadoop的2.0版本，新增的YARN功能让Hadoop支持新的处理框架，例如Cloudera的商业发行版目前包括一个SQL查询引擎，以及一些围绕mapReduce的互动分析方法。要想让数据分析师访问Hadoop数据，Hadoop还必须支持更多的功能。

Doing <a href='/map/hadoop/' style='color:#000;font-size:inherit;'>Hadoop</a>-powered BI with Platfora

用Platfora进行基于Hadoop的BI分析

总之，MapReduce对于Hadoop来说越来越不重要了。Hadoop社区目前最关心的事情是如何让Hadoop平台的分布处理支持实时分析，更好的服务于下一代数据分析应用（例如商业智能的实时互动分析）。如果Hadoop在这方面进展缓慢，将很快被Storm和Druid这样的技术取而代之。

基于Hadoop分布式文件系统HDFS之上的HBase NoSQL数据库就是一个很好的例子，证明摆脱MapReduce的框架制约后，Hadoop还有很大的价值拓展潜力。目前Facebook和eBay等互联网公司已经开始使用HBase来跑交易应用，而Drawn to Scale和Splice Machine等创业公司则使用HBase作为交易SQL数据库的基础。而一些新的产品或项目，如Graph database Giraph使用HDFS文件系统是因为其可扩展性、相对成熟，而且有一个不断成长的生态环境。

更多人使用大数据应用

大数据的价值在于应用和普及，而不仅仅是数据科学家手里的高深工具。未来越来越多的人都都将能够使用大数据应用，例如开发者。创业公司Continuuity、Infochimps甚至Precog（大数据BI引擎）都在开发面向开发者的大数据工具，使开发者能更容易地将应用与大数据后端对接，这方面的工作大大简化，有时候开发者只需要在程序中植入一个脚本或者一段代码。

大数据应用普及的另外一个趋势是产品化，针对特定应用场景开发出开箱即用的大数据产品，例如分析用户行为、网络安全、人工智能、客户服务等的大数据应用。最早采用大数据技术的公司如Google、Facebook等需要自行开发相关大数据应用，但是对于更多的企业来说，现成的产品才是引爆大数据商业价值的关键。其实今天很多移动或互联网应用中都已经有了大数据的影子，从用户购买决策到好友匹配等。

机器学习无处不在

过去几年，机器学习（Machine Learning）逐渐流行开来，容易让人误以为机器学习并不难。机器学习的流行原因很简单，在一个消费者（以及广告主）需要更多个性化，而计算机系统正被四面八方飞速增长的数据包围的年代，编写能够透视数据的模型总是一件诱人的事情。

以下是我们梳理的，依赖机器学习的一些应用（网站）：Prismatic, Summly, Trifacta, CloudFlare, Twitter, Google, Facebook, Bidgely, Healthrageous, Predilytics, BloomReach, DataPop, Gravity.

Prismatic learning my interests

用Prismatic分析个人兴趣图谱

现在，很难想象一家新成立的科技公司，完全不考虑用机器学习模型让他们的产品或者服务更加智能。甚至微软公司都将机器学习视为一个新的业务和收入增长点而投入巨资。

移动数据将成为人工智能（AI）的引擎

saga_now-copy

在天网发动机器推翻人类统治之前，我们手里的移动电话已经比我们自己更了解我们的下一步举动。Google的Project Glass增强现实眼镜已经出炉，类似的移动应用将捕获和产生大量个人数据。而机器学习、语音识别等技术，则能帮我们充分利用这些数据。

如今，移动应用知道我们去哪，我们的朋友是谁，我们的日程是什么，我们在网络上搜索什么。新一代应用如Siri、Saga和Google Now都试图扮演智能个人助理的角色，我们的电话知道我们在说什么，了解我们常去哪家餐馆吃饭，知道我们何时回家，工作或郊游。这些应用的开发者声称这些应用能为用户选择最佳赴约路线，城里某处有家从未光顾过的餐馆有我们最喜欢的菜。

一场大规模竞赛已经启动，开发者比拼谁的应用最智能，整合的数据最全面，以及如何在四寸大的屏幕上交付最美妙的用户体验。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；