京公网安备 11010802034615号
经营许可证编号:京B2-20210330
互联网大数据的科学大思考_数据分析师
摩尔定律带动了微电子的发展,信息技术信息流经历了获取、传输到计算存储,而大数据进一步推动了技术的变革。近日,北京航空航天大学校长怀进鹏院士分享了互联网大数据的科学大思考。
北京航空航天大学校长怀进鹏院士
科学世界的摩尔定律
在过去的二十年,计算速度和存储容量由于微电子的发展,CPU的性能提高了3500倍,但内存和硬盘的价格却下降了45000倍和360万倍。带宽的低廉程度已经远远超过了摩尔定律,单机进入了网络计算,离线进入了在线时代。新的技术变革正在开启。
当上网获取信息资源变得越来越低成本、通讯带宽超越摩尔定律的时候,就使得互联网的应用进入了第二次价值挖掘。人们不需要知道服务方在哪里,只需关注获取的服务和相应的资源。
由于互联网的应用,过去技术单向交流的方式开始进入了双向交流的时代,也进一步加速了互联网的发展和新能力的创造。
互联网模式的三个典型时代
“过去互联网模式走过三个典型的时代,即主机时代、网络计算时代,到现在云计算时代。从封闭可控的平台进入了开放和没有集中控制的网络环境。到最终未来的发展当中,在宽带不断发展、微电子的价格不断下降,而资源获取能力增强的时候,就出现了计算模式的新变化。由于带宽和成本的不断变化,导致一种新的计算模式的变化。” 怀进鹏说到。
上个世纪八十年代出现了第一次计算机变革,是由于PC时代造成的,软件第一次成为商品,可以通过购买copyright作为看不见的商品在市场上流行;到九十年代的网络时代,出现互联网有效规模的应用,就成为信息获取和信息交换的平台;目前的云计算模式正在推动新的、前所未有的、从量的积累到质的变化的时代。对于任何一个IT领域的技术和产品,时间的开放窗口并不长,比如像PC、手机和互联网,一旦形成技术的标准或一定规模的成熟,对于追随者就再也没有机会了,或者只能处于它的旁观者。
高速的互联网发展过程中,对提升高端计算的利用率和应用性、提升低端计算的事务处理能力和服务的能力,都会有重要变化。
科学计算奠定了大数据的基础
互联网也改变了人们的交换行为模式。社交网络如facebook、人人网、微博等改变了人们的上网规模和方式,与此同时,生产控制系统、嵌入式系统、传感器所传递的系统,也改变了应用模式。所以,科学计算是大数据产生的基础。
无论是从商业、工业,还是科学计算以及社会计算,给现实社会带来了新的问题。互联网二次价值的开发和新的挑战在哪里?云计算作为一种计算模式,正在人们的生活发挥着作用,云计算背后要处理在现实应用当中或者是实际需求中的问题,人们提出大数据也是其中一个选择。
对大数据有很多说法,从外显特征来看,简单叫做4V或者5V,从规模和变化频度以及种类和价值密度的角度。维基百科也对大数据给出了外在的定义,即量级很大但是又无法处理的数据。
对于大数据,不能简单看它就叫做一个数据,更重要的人们如何面对数据从量到质的变化过程。所以它已经不是过去我们说的大批量数据、海量数据到大数据,不是简单的从量的规模考虑,而是发生了规模的质的变化以后,给人们带来的问题。即传统数据,从静态进入动态,从简单、多维变成了巨量的维,而且它的种类是没有办法控制的。
因此,如何驾驭数据显得非常重要。驾驭数据是指数据过度泛滥或者数据不容易像处理商业数据。因为有的数据没有很忙特别价值。人们需要找到一种新的方式,从很多的数据中选择有用的数据。
在2010年《经济学人》有一篇专题标题就叫做“数据洪灾” “数据泛滥”的报道,文中提到数据从稀缺走向丰富的时候,会有很多新的麻烦。在这篇专题当中也谈到了关于数据经济的问题,即数据进入了新的经济时代。
从过去科学研究当中,由于信息的发展创造了很多人为的数据,和非自然的数据。所以需要从数据的关联发现和数据统计特征找出新的价值。这也是很多科学价值研究的重要内容。
“那么大数据有多大的作用?在推特上,日本的海啸信息提前传播,对受灾信息提前报警;去年7月21日,北京的暴雨,有900万多条微博,把可能救助的方案提前在微博中发布。关于钓鱼岛,反映出社会的信息和情绪建议,如何更有效地处理这样的问题;2008年甲流爆发前几周谷歌提前预测冬季流感的传播和甲型流感的问题;阿里巴巴的马云对于金融危机的预感、百度的个性化搜索等,这是都是大数据作用的例子。” 怀进鹏举例子说到。
在西方国家,利用微博、社交网络创造了很多新的价值,比如说根据民众的情绪或者对某一只股票的影响,对冲基金可以根据对企业的分析决定是否购买股票,以及对于上市的企业是否破产,都可以给金融分析进行帮助。
实际上在数据的经济社会发展的价值当中,体现了如何对它进行归类和分析,并进行有效的预测。因此,拥有大数据,拥有大规模真实可运行的数据,并能够对它进行分析和处理,也许就是我们不断提高竞争能力的重要力量。
大数据未来投资和发展的价值
大数据未来投资和发展的价值有多大?Gartner曾经预测,认为云计算和大数据的发展将在未来获得重要的机会。当然,咨询预测总是有风险的。对当前大数据的投资领域来看,给出了当前已经超过30%左右和未来进一步投资领域的划分,列举了像教育、交通、医疗等,在这些领域可能并且已经正在投入的行为。
大数据改变了人们的经济生活,淘宝和亚马逊的例子可以了解到用户的购物习惯;大数据改变了科学途径,即从理论研究、实验验证加仿真变成以计算为主的数据密集型的科学。
计算模式的变化的影响
首先所谓的近似性,从4V到3I,以数据的计算来看。近似性就是传统的精确处理不再适用,允许在一定范围区间内追求近似解。例如当你买一双鞋的时候,不会跑遍北京所有的鞋店,而是根据你对一定目标的理解和趋势的判断。
第二是数据的增量性。数据是源源不断的动态的变化,传统是有一个封闭的假设,所有数据都齐全了再计算。因此,在大数据动态变化特征当中需要有增量计算。就像微博,可以使用音频,视频,还有文字等表达相同的事件,甚至跨越不同的区域,甚至是完全无关的区域。因此,如何有效地归纳,也是一个重要的问题。
未来大数据的计算模式
在大数据云计算的背景下,软件在数据服务和运行模式当中也会有新的机遇。第一个机遇是未来数据的服务和软件的服务将成为主要的软件设计和开发的模式。第二个机遇是面临软件的设计开发和维护方式的调整,第三个需要面对的问题是用户的隐私问题。
总之,计算模式的变迁是会成就时代的智者。大数据不仅是产业,也是资源、更是科学。在这个领域当中,有未知的很多科学问题,也有未知的需要实践和很多技术、系统问题,还有需要政策和未来发展的有效支持。大数据将是未来的重要科学。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20