京公网安备 11010802034615号
经营许可证编号:京B2-20210330
互联网大数据的科学大思考_数据分析师
摩尔定律带动了微电子的发展,信息技术信息流经历了获取、传输到计算存储,而大数据进一步推动了技术的变革。近日,北京航空航天大学校长怀进鹏院士分享了互联网大数据的科学大思考。
北京航空航天大学校长怀进鹏院士
科学世界的摩尔定律
在过去的二十年,计算速度和存储容量由于微电子的发展,CPU的性能提高了3500倍,但内存和硬盘的价格却下降了45000倍和360万倍。带宽的低廉程度已经远远超过了摩尔定律,单机进入了网络计算,离线进入了在线时代。新的技术变革正在开启。
当上网获取信息资源变得越来越低成本、通讯带宽超越摩尔定律的时候,就使得互联网的应用进入了第二次价值挖掘。人们不需要知道服务方在哪里,只需关注获取的服务和相应的资源。
由于互联网的应用,过去技术单向交流的方式开始进入了双向交流的时代,也进一步加速了互联网的发展和新能力的创造。
互联网模式的三个典型时代
“过去互联网模式走过三个典型的时代,即主机时代、网络计算时代,到现在云计算时代。从封闭可控的平台进入了开放和没有集中控制的网络环境。到最终未来的发展当中,在宽带不断发展、微电子的价格不断下降,而资源获取能力增强的时候,就出现了计算模式的新变化。由于带宽和成本的不断变化,导致一种新的计算模式的变化。” 怀进鹏说到。
上个世纪八十年代出现了第一次计算机变革,是由于PC时代造成的,软件第一次成为商品,可以通过购买copyright作为看不见的商品在市场上流行;到九十年代的网络时代,出现互联网有效规模的应用,就成为信息获取和信息交换的平台;目前的云计算模式正在推动新的、前所未有的、从量的积累到质的变化的时代。对于任何一个IT领域的技术和产品,时间的开放窗口并不长,比如像PC、手机和互联网,一旦形成技术的标准或一定规模的成熟,对于追随者就再也没有机会了,或者只能处于它的旁观者。
高速的互联网发展过程中,对提升高端计算的利用率和应用性、提升低端计算的事务处理能力和服务的能力,都会有重要变化。
科学计算奠定了大数据的基础
互联网也改变了人们的交换行为模式。社交网络如facebook、人人网、微博等改变了人们的上网规模和方式,与此同时,生产控制系统、嵌入式系统、传感器所传递的系统,也改变了应用模式。所以,科学计算是大数据产生的基础。
无论是从商业、工业,还是科学计算以及社会计算,给现实社会带来了新的问题。互联网二次价值的开发和新的挑战在哪里?云计算作为一种计算模式,正在人们的生活发挥着作用,云计算背后要处理在现实应用当中或者是实际需求中的问题,人们提出大数据也是其中一个选择。
对大数据有很多说法,从外显特征来看,简单叫做4V或者5V,从规模和变化频度以及种类和价值密度的角度。维基百科也对大数据给出了外在的定义,即量级很大但是又无法处理的数据。
对于大数据,不能简单看它就叫做一个数据,更重要的人们如何面对数据从量到质的变化过程。所以它已经不是过去我们说的大批量数据、海量数据到大数据,不是简单的从量的规模考虑,而是发生了规模的质的变化以后,给人们带来的问题。即传统数据,从静态进入动态,从简单、多维变成了巨量的维,而且它的种类是没有办法控制的。
因此,如何驾驭数据显得非常重要。驾驭数据是指数据过度泛滥或者数据不容易像处理商业数据。因为有的数据没有很忙特别价值。人们需要找到一种新的方式,从很多的数据中选择有用的数据。
在2010年《经济学人》有一篇专题标题就叫做“数据洪灾” “数据泛滥”的报道,文中提到数据从稀缺走向丰富的时候,会有很多新的麻烦。在这篇专题当中也谈到了关于数据经济的问题,即数据进入了新的经济时代。
从过去科学研究当中,由于信息的发展创造了很多人为的数据,和非自然的数据。所以需要从数据的关联发现和数据统计特征找出新的价值。这也是很多科学价值研究的重要内容。
“那么大数据有多大的作用?在推特上,日本的海啸信息提前传播,对受灾信息提前报警;去年7月21日,北京的暴雨,有900万多条微博,把可能救助的方案提前在微博中发布。关于钓鱼岛,反映出社会的信息和情绪建议,如何更有效地处理这样的问题;2008年甲流爆发前几周谷歌提前预测冬季流感的传播和甲型流感的问题;阿里巴巴的马云对于金融危机的预感、百度的个性化搜索等,这是都是大数据作用的例子。” 怀进鹏举例子说到。
在西方国家,利用微博、社交网络创造了很多新的价值,比如说根据民众的情绪或者对某一只股票的影响,对冲基金可以根据对企业的分析决定是否购买股票,以及对于上市的企业是否破产,都可以给金融分析进行帮助。
实际上在数据的经济社会发展的价值当中,体现了如何对它进行归类和分析,并进行有效的预测。因此,拥有大数据,拥有大规模真实可运行的数据,并能够对它进行分析和处理,也许就是我们不断提高竞争能力的重要力量。
大数据未来投资和发展的价值
大数据未来投资和发展的价值有多大?Gartner曾经预测,认为云计算和大数据的发展将在未来获得重要的机会。当然,咨询预测总是有风险的。对当前大数据的投资领域来看,给出了当前已经超过30%左右和未来进一步投资领域的划分,列举了像教育、交通、医疗等,在这些领域可能并且已经正在投入的行为。
大数据改变了人们的经济生活,淘宝和亚马逊的例子可以了解到用户的购物习惯;大数据改变了科学途径,即从理论研究、实验验证加仿真变成以计算为主的数据密集型的科学。
计算模式的变化的影响
首先所谓的近似性,从4V到3I,以数据的计算来看。近似性就是传统的精确处理不再适用,允许在一定范围区间内追求近似解。例如当你买一双鞋的时候,不会跑遍北京所有的鞋店,而是根据你对一定目标的理解和趋势的判断。
第二是数据的增量性。数据是源源不断的动态的变化,传统是有一个封闭的假设,所有数据都齐全了再计算。因此,在大数据动态变化特征当中需要有增量计算。就像微博,可以使用音频,视频,还有文字等表达相同的事件,甚至跨越不同的区域,甚至是完全无关的区域。因此,如何有效地归纳,也是一个重要的问题。
未来大数据的计算模式
在大数据云计算的背景下,软件在数据服务和运行模式当中也会有新的机遇。第一个机遇是未来数据的服务和软件的服务将成为主要的软件设计和开发的模式。第二个机遇是面临软件的设计开发和维护方式的调整,第三个需要面对的问题是用户的隐私问题。
总之,计算模式的变迁是会成就时代的智者。大数据不仅是产业,也是资源、更是科学。在这个领域当中,有未知的很多科学问题,也有未知的需要实践和很多技术、系统问题,还有需要政策和未来发展的有效支持。大数据将是未来的重要科学。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22