京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据的挑战问题和发展趋势_数据分析师
Hadoop大会是2008年的时候几十个人在金融所的楼里面讨论的Hadoop IN China,从去年开始上千人到今年有更多的人参加本身就反映了一种趋势。也就是说为什么今年把名字改成了Hadoop与大数据技术大会,实际上大数据不是今年就一定有。大数据的时代已经到来了,五年前我们组织Hadoop IN CHINA这个会已经和今天的大数据的主题比较切合,今年大数据的概念比较大,所以我们把题目改成了Hadoop与大数据技术大会大会。
当然,大数据不仅仅与Hadoop相关,传统的关系数据库和结构化存储相关的技术,在大数据时代的时候是不是有什么新的问题,有什么新的挑战,业界、学术界以及政府部门对相关的大数据是怎么看的。我估计今年至少从10月份以来,国内关于大数据的会议已经开了7、8次了,往后还会陆陆续续要开。这种情况下,中国计算机学会组织大数据专家委员会,不是为了赶热闹,而是组织专家委员会以及把Hadoop归到大数据专家委员会来统一组织实际上是有它内在的理由和原因的。
为什么第一个报告我来讲,去年的Hadoop大会叫数据掘宝,主题已经是跟大数据相关了。今年的主题叫大数据开源与技术共享,这实际上是大数据今年发展面临的关键的问题。今天我是代表中国计算机学会专家委员会来发布大数据的热点及未来的发展趋势做一些调研跟大家分享。
这个工作的过程简单地介绍一下,大数据执行委从今年10月在中国计算机大会上成立以来有70名委员,其中学术界有46位,产业界14位,还有海外学术界委员10位。我们在大连开会的时候探讨过,既然大数据这么热,而且在CNCC大会上有1600、1700人差不多每个人都说自己是做的大数据,无论是做物联网的还是做高清计算的,所有人都说我做的是大数据。当时我们在想,既然整个计算机界人做的都是大数据,那什么是大数据。
我们是不是在赶时髦用同样的一个词装各自所说的酒,也是基于这样的考虑,大数据专家为第一次开会的时候希望能不能邀请业界的人士共同探讨大数据的科学问题是什么、边界是什么,以及为什么大数据成为热点的词以及大大数据技术上的挑战到底是什么。当时的会议上我们提出了这样的议案,最后在很短的时间内从调研分析以及具体的提案到侯选问题的征集到最后专家的投票、委员的投票会聚了现在的结果,这个过程持续了一个多月。
这只是初步的结果。
针对大数据问题我们搜集了14个选项,包括科学问题相关的数据的科学问题、大数据的基本内涵、计算模式,跟技术相关的是大数据的多样性和数据态、大数据的空间维问题、时间维问题,如何将大数据变小及数据的价值提炼。数字都是70位委员的投票数。也包括了大数据的关键应用领域,以及大数据对IT技术和架构提出的安全与占、数据的安全和隐私。最后一个是大数据的生态问题。侯选项相互之间是有一定的重叠,而且颗粒度也不完全一致,完全是由专家自己提出来的,我们给他做了会聚,没有做一些很精细的加工。但基本上大家的投票结果来看,投票率还是非常高的,比如说数据的计算模式问题关注度非常高。投票的初始结果我们给出了大数据热点问题的八个方面。第一个方面是数据科学与大数据的学科边界问题,涉及到侯选项的两项,讲到了数据界、物理界与人的关联是什么,数据是不是客观存在的空间和现象。还有数据有没有独立的问题。大数据的基本学科边界有一个内涵和外延的限定,以及区别于其他数据的关键特征。最近有一本出版的数讲的是大数据不见得规模大,而是比较全。当然这是一种新的说法的。也就是说大数据的基本问题和边界是什么。这是我们关心的第一个大的方面。
第二个方面是数据计算的基本模式和范式问题,包括了数据密集型计算的基本范式是什么,以及数据计算的基本评估和数据计算的复杂性,以数据为中心去中心化的自主计算模式是不是数据计算的主要的模式。第三个热点问题是大数据的特性和数据态的问题。从数据的复杂性来讲,数据的关联模式、关系为复杂,数据的空间为复杂,包括数据在人机物三个空间里以及柔性密度的所产生的空间维度的复杂性,以及跟时间相关的特性。我们把它总结为大数据的基本特性和数据态的问题。
第四个热点问题是大数据的作用力与变化反应。包括了两个方面,第一个方面是如何将大数据变小,在尽量不损失价值的情况下减少数据的规模,像数据的清洗、去除等等,也是如何有效地处理大数据类似物理的作用把大数据的规模变小但不损失价值。第二个是化学作用,从一个平面的大数据提炼出高附加值的概念、知识和智慧。大数据的探索和可视性在这里面可以得到很大的发挥。计算方面我们通过群体指挥以及认知等方面发挥和提炼。
第五个问题是大数据的安全和隐私问题。投票是59票。
第六个问题是大数据对IT技术的挑战,包括存储、传出和分布式计算相关的整体架构的变化。今天的Hadoop实际上是应对大数据及大数据处理的相关的架构,虽然它目前的影响力很大了,但离成熟还有很远的距离,也就是说大数据的发展和爆发对IT架构提出了大的挑战。
第七个问题是大数据的应用和产业链的问题,。大数据有大价值,但在产业上如何形成有效增益的环境,以及大数据到底在什么样的应用领域里能够发挥绝对的价值,比如说跟社会科学、跟金融相关的,后面还会有一些分析,这个投票方面有大数据的应用和产业链。
第八个问题是大数据的生态环境问题,如果大数据时代真正地来临,从数据变成资产、数据的加工和制造,甚至在前期讨论有数据的制药,有新的数据工业和数据衍生品,这种数据市场和数据衍生品带来的市场的繁荣,另一方面是政策、环境包括投资环境和管理政策方面以及科研、研究所、学生的培养和国家政策的扶持方面形成的生态环境是大数据的第八个关键热点问题。由于大数据广泛的使用也会带来政治伦理政治方面的问题,我们统称为大数据的生态问题。
这是我们提炼出14个侯选项广泛地参与意见和投票之后提炼出的大数据时代的核心问题,这是目前的认识,也许未来这个问题包括在座的每一位同仁们可能有自己的想法,我们只是抛砖引玉,对大数据的核心问题提炼出八点。
第二方面的议题是发展趋势。任何的预测都是有问题的,我们发布的时候其实心里面是没有底气的,题目是在2013年在最近的距离内可预测的大数据的发展趋势是哪些方面,搜集了一些相关的内容,包括了70多位专家以及跟数学领域的专家合作,大家提炼出的发展趋势有37项,包括大数据的整体态势和发展趋势,大数据与学术、大数据与人类的活动,大数据的安全隐私、关键应用、系统处理和整个产业的影响。这方面总共有37项。大数据的整体态势上,数据的规模更大,数据资源化、数据的价值凸显、数据私有化出现和联盟共享。大数据有没有形成新的学科,当然仁者见仁智者见智,有很多人提出很多的想法。跟学术相关的包括数据科学的兴起,数学学科发生了很多的变革,由于数据学科的产生反过来影响为物理学和数学提出的新的要求,需求促使了技术学科的发展和变革。颗粒度不太一样,还有一些自主计算,基于海量知识的智能的革命性
的方法。有更奇妙的人机互联。大数据的隐私安全及跟国家安全相关的问题,我们也希望提出一个问号,总令人瞩目的大数据的应用到底是什么。还有基于大数据的决策支持、大数据的预测和清洗,大数据跟大企业的信息的推荐。大数据的系统处理上处理能力难以满足需要,处理模式多样化以及带来的网络带宽的压力。如果大数据来了以后把数据的价值充分发挥出来,网络的传输、网络的管理会带来一些非常突出的压力。资本会不会高度关注
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21 很多数据分析师每天盯着几十个指标,但当被问到“这套指标要支撑什么业务目标”“指标之间是什么逻辑关系”“业务变化时如何 ...
2026-05-21在数据驱动决策的时代,数据质量直接决定分析结果的可靠性与准确性,而异常值作为数据清洗中的核心痛点,往往会扭曲分析结论、误 ...
2026-05-20 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-05-20Agent的能力边界,很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill,但这条路很快会遇到瓶颈。业务 ...
2026-05-20在统计分析中,方差分析(ANOVA)是一种常用的假设检验方法,核心用于分析“一个或多个自变量对单个因变量的影响”,广泛应用于 ...
2026-05-19 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“什么是指标”“指标和维度有什么区别”“如何定义指标值的计算规则和 ...
2026-05-19想高效备考 CDA 一级,拒绝盲目刷题、冗余学习?《CDA 一级教材知识手册》重磅来袭!以官方教材为核心,浓缩 13 章 103 个核心考 ...
2026-05-19在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18小陈是某电商平台的数据分析师。老板交给他一个任务:“我们平台的注册用户已经突破1000万了,想了解一下用户的平均月消费金额。 ...
2026-05-18【专访摘要】本次CDA持证专访邀请到拥有丰富物流供应链数据分析经验的赖尧,他结合自身在京东、华莱士、兰格赛等企业的从业经历 ...
2026-05-15在数字化时代,企业的每一次业务优化、每一项技术迭代,都需要回答一个核心问题:这个动作到底能带来多少价值?是提升了用户转化 ...
2026-05-15