登录
首页职业发展马如悦:大规模数据分析系统的搭建
马如悦:大规模数据分析系统的搭建
2016-02-23
收藏

马如悦:大规模数据分析系统的搭建

大数据全球技术峰会在北京富力万丽酒店召开。本次峰会将围绕大数据基础架构与上层应用的生态系统,解决大规模数据引发的问题,探索大数据基础的解决方案,激发数据挖掘带来的竞争力,让数据发出声音。51CTO作为本次峰会的主办方,将全程视频、图文直播报道这场数据的盛宴,



 在第二天的数据挖掘与实时分析专场,第一场演讲由百度基础架构部高级工程师马如悦带来,他的主题是大规模数据分析系统的搭建。马讲师预测,到2015、2016年,数据分析将和移动、云计算一样热门,因此现在未雨绸缪很有必要。

马讲师首先提出了两个观点,数据系统和分层设计。数据系统必须包括storage和query,因此mysql是数据系统,而HBase、NoSQL只能算存储层。另外,大数据必须采用分层设计,包括:垂直分层-时效性库,水平分层-OLTP、OLAP、NoSql等。分层可以减少设计复杂性、减少使用运维复杂性、资源效率使用最高。

为什么要提出这两个观点呢,因为第一,从小数据到大数据,数据的存储、处理都是不同的;第二,大数据系统也是storage+query;第三,大数据因为过于heavy,需要分层考虑。

另外,马讲师还提到了最近大数据系统的趋势,Newsql和Interactive analysis开始被人提及和研究,nosql太过原始,sql容量性能有限,newsql相当于sql和nosql的中间实现,即带有事物处理的nosql;Hive响应太慢,数据库容量性能有限,而Interactive analysis可以解决这些问题。

最后,马讲师讲到了大数据分析的架构设计,底层是ETL-1,然后装进数据仓库,然后通过ETL-2,对数据进行分析,以前我们关注的都是底层,但是数据挖掘和分析缺乏关注。发展趋势是数据量越来越大,维度越来越多,从以人为主到以机器为主,用户专业度越来越高,但数量减少。

大数据系统搭建的一些解决方案,分别是商业版和开源版。开源版还没有很成熟的产品来构建大数据下的OLAP,中等规模可以用HPCC解决方案,可以代替一些商业产品。

在QA环节,来自Oracle的参会者和马讲师就商业与开源进行了精彩的辩论,马讲师讲到,如果数据是公司的核心竞争力,那么采用开源方案可以不依赖他人,并且有自己的技术专利。

数据分析咨询请扫描二维码

客服在线
立即咨询