
继移动互联网后的又一个浪潮:大数据
数据成为 DT 时代的核心要素。 今年上半年互联网热出现一个新动向,就是入口和应用场景的争夺已到了短兵相接、贴身肉搏的激烈程度。巨头们争夺的最终目标是数据资源。数据已成为 DT(数据技术)时代的核心要素。世界经济论坛报告曾经预测: “未来的大数据 将成为新的财富高地,其价值可能会堪比石油”,成为战略性资源。
被低估的影响:大数据将指引人类走向智能社会。 一方面大数据“量”和“质”的双提升奠定人工智能的基础,另一方面数据驱动颠覆传统计算机算法,导致人工智能出现突破性进展,而人工智能又进一步加速了大数据价值的挖掘和应用,使人类社会进入了向智能社会 发展的“正循环”。
政府:推动大数据应用的最关键力量。 政府拥有最多且最具应用价值的核心数据,一方面大数据已经上升至各国国家战略,政府推进大数据开放已经是大势所趋: 美国等发达国家纷纷布局大数据产业,推出大数据相关政策。大数据对整个世界的影响力呈现快速增长趋 势,将引发新一轮大国竞争。 另一方面我国对大数据的政策支持力度上不断提升,大数据战略将上升至国家战略, 国务院已经下达各部委大数据工作任务行动时间表,大数据发展紧迫性和必要性可见一斑,同时也意味着我国大数据发展面临历史性机遇。
数据价值正在被不断发现。 互联网早期有句名言 “在网上,没有人知道你是一条狗。 ”如今有了大数据,在网上,不仅有人知道你是一条“狗”,而且还知道你是一条什么样的“狗”,爱吃什么、什么时候睡。大数据除了具有挖掘商机、精准营销、决策支持、提高效 率等发现价值功能,还有创造价值的功能:能创造新的消费体验、创造新的商业模式和创造新的消费需求。
大数据产业链: 一是数据收集, 其途径:
1、自行收集。如今年 1 月工行“融e 购”商城正式上线,其目的是希望通过发展电商来获得大数据方面的主动权;
2、与第三方合作。如平安银行携手 eBay 推出“贷贷平安商务卡”;
3、“线下数据”转变为“线上数据”。传统行业的“线下数据”转变为“线上数据”将是 DT 时代的血液之一。 “线下数据”就是传统行业的优势。
二是数据处理,数据处理包括鉴别、整理、归类以及建模分析、挖掘利用等,数据科学家可能成为未来最热门职业。三是技术支撑,包括硬件和软件两部分。
大数据与产业的聚合效应。 大数据与生物医药、农业、电信、视频、 互联网金融、工业互联网、车联网、信息安全等产业的结合将产生巨大的化学反应。
1. 大数据: DT 时代的核心要素
1.1. 大数据是未来社会的核心资源
大数据是“互联网+”的核心要素。 互联网的未来在于连接一切,从连接人与人向连接人与服务、人与物、物与物扩散, 使得海量数据的生产和连通变成现实,成为大数据应用的基础。 尤其在传统行业,信息及数据是被忽视的, 缺乏有效的手段进行充分利用, 互联 网与传统产业融合的重要目的在于将潜在信息和数据的价值进行释放, 因此,评价“互联网 +”的指标绝非是简单的信息化,而是对企业的整体生态系统进行数据化, 让企业的一切业务都变得可以分析, 进而更好的识别市场和用户。
从某种程度上来说, 数据是现实世界在虚拟世界的一个“映像”, 可以通过数据挖掘对“虚拟映像”进行分析, 进而对工作流程、商业模式、产品设计产生巨大的影响, 服务于产业本身。 正如马化腾所说,“互联网 +”代表的是一种“信息能源”,能够促使互联网 与传统产业不断融合。
数据逐渐成为整个经济社会的核心资源。十八世纪的农业社会,经济整体以农业为主,十九世纪制造业起步, 1950 年 GDP 大部分是制造业, 而未来数字经济占据经济的主体地位已经成为必然的趋势。全球经济从农业经济到工业经济再到信息经济演变的驱动力来自于 技术的突破,技术在改变生产力和生产关系。信息要素全面升级,尤其是云计算正在变成基础设施,数据在变成整个经济社会的核心资源。
1.2. 被低估的影响: 大数据将指引人类走向智能社会
1.2.1. 大数据“量”和“质”的双提升奠定机器智能的基础
第一,万物互联造就了数据“量”的阶跃发展。 从人类文明出现到 2003 年,人类总共才产生了 5EB(ExaBytes)的数据。计算机出现后, 尤其是近年来移动互联网和物联网的出现, 数据产生的速度和规模开始急剧提升, 过去几年产生的数据比以往 4 万年的数据总 量还要多。预计随着互联网与产业的加速融合,未来数据体量的增速将呈现指数上升态势。 IDC 预计 2020 年全球数据使用量将达到 40ZB(ZettaBytes),需要约 429 亿个 1TB的硬盘进行存储,届时中国产生的数据量将占到全球总量的 21%。
第二,数据逐步趋向与由“端”产生, 从“质”上讲兼具多维性与完备性。 数据的产生一定会在云、端、网这三个视角产生。 2014 年全球互联网用户有 30 亿, Facebook 有 22亿注册用户,月活跃用户超过 13 亿人口。我们在 2014 年全球智能手机出货量突破 13 亿,连网设备超过 300 亿个。 未来可能会有 80-90%数据基于用户智能终端和联网设备产生,由于这些数据连接人体、连接环境、连接物体、连接思想, 将原来看似无关的维度(时间、地域、食品、做法,成分,人的身份和收入情况等)联系了起来, 构成了今天的非常 生动的数据社会的景象,这种数据连接起来才能流动共享,真正实现数据的社会经济价值。
1.2.2. 数据驱动颠覆传统计算机算法, 导致人工智能出现突破性进展
互联网的发展为训练机器模型提供了足够多的数据量,而这种数据驱动算法以深度学习为代表,不但颠覆了传统的计算机算法,也使得人工智能出现突破性拐点。一个典型的例子是 2005 年 NIST 对全世界各家机器翻译系统评测的结果中,从未做过机器翻译的Google, 不仅一举夺得了各项评比的第一名,而且将其它单位的系统远远抛在了后面,而 Google 系统和其他系统主要的优势就在于使用了其他对手近万倍的数据量。 而国内人工智能代表公司科大讯飞近几年在采用深度学习算法,利用大数据训练后,近几年其语音识别和手写识 别错误率均保持 30%-50%的下降。
1.2.3. 大数据与人工智能相互促进,实现发展的正循环
人工智能是解决大数据的数量和效率之间矛盾的关键
传统的机器学习通过标记数据进行有监督学习,随着其处理数据量的增大, 需要外界的支持和帮助也就不断增加, 且计算结果准确性也会受到影响。 因此越来越多的数据将成为负担,也更容易达到极限或产生错误结果。人工智能的突破性技术——深度学习是从未经标 记的数据展开学习,更接近人脑的学习方式,可以通过训练之后自行掌握概念,且输出结果会随着数据处理量的增大而更加准确。同时,深度学习在加速回归定律的指引下会使得进化过程中产物(输出结果)获得指数级增长,当深度学习的效率变得更高,就会吸引更多 的资源向它聚合,使其发展更为迅速。
大数据利用人工智能实现大数据应用的正循环
百度首席科学家吴恩达层提出 : 从优秀产品到大量用户,再到海量数据,最后返回优秀产品是一个良性循环,但最后一个环节“海量数据到优秀产品”会出现问题,因为当数据积累过多时,就无法对这些数据进行完整和准确的处理。
以百度为例, 百度的数据处理自上而下分成开放云、数据工厂和百度大脑三个层级,最底层的开放云收集数据,数据工厂对数据库进行管理,最上层百度大脑的模拟神经网络通过机器学习高效的输出结果,从而实现行业应用,百度大脑就是在最后一个环节体现出巨大价 值,带来更好的信息处理能力,从而产生更加广泛和深入的行业应用,比如百度大数据此前在医疗、交通和金融领域的应用。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15