京公网安备 11010802034615号
经营许可证编号:京B2-20210330
继移动互联网后的又一个浪潮:大数据
数据成为 DT 时代的核心要素。 今年上半年互联网热出现一个新动向,就是入口和应用场景的争夺已到了短兵相接、贴身肉搏的激烈程度。巨头们争夺的最终目标是数据资源。数据已成为 DT(数据技术)时代的核心要素。世界经济论坛报告曾经预测: “未来的大数据 将成为新的财富高地,其价值可能会堪比石油”,成为战略性资源。
被低估的影响:大数据将指引人类走向智能社会。 一方面大数据“量”和“质”的双提升奠定人工智能的基础,另一方面数据驱动颠覆传统计算机算法,导致人工智能出现突破性进展,而人工智能又进一步加速了大数据价值的挖掘和应用,使人类社会进入了向智能社会 发展的“正循环”。
政府:推动大数据应用的最关键力量。 政府拥有最多且最具应用价值的核心数据,一方面大数据已经上升至各国国家战略,政府推进大数据开放已经是大势所趋: 美国等发达国家纷纷布局大数据产业,推出大数据相关政策。大数据对整个世界的影响力呈现快速增长趋 势,将引发新一轮大国竞争。 另一方面我国对大数据的政策支持力度上不断提升,大数据战略将上升至国家战略, 国务院已经下达各部委大数据工作任务行动时间表,大数据发展紧迫性和必要性可见一斑,同时也意味着我国大数据发展面临历史性机遇。
数据价值正在被不断发现。 互联网早期有句名言 “在网上,没有人知道你是一条狗。 ”如今有了大数据,在网上,不仅有人知道你是一条“狗”,而且还知道你是一条什么样的“狗”,爱吃什么、什么时候睡。大数据除了具有挖掘商机、精准营销、决策支持、提高效 率等发现价值功能,还有创造价值的功能:能创造新的消费体验、创造新的商业模式和创造新的消费需求。
大数据产业链: 一是数据收集, 其途径:
1、自行收集。如今年 1 月工行“融e 购”商城正式上线,其目的是希望通过发展电商来获得大数据方面的主动权;
2、与第三方合作。如平安银行携手 eBay 推出“贷贷平安商务卡”;
3、“线下数据”转变为“线上数据”。传统行业的“线下数据”转变为“线上数据”将是 DT 时代的血液之一。 “线下数据”就是传统行业的优势。
二是数据处理,数据处理包括鉴别、整理、归类以及建模分析、挖掘利用等,数据科学家可能成为未来最热门职业。三是技术支撑,包括硬件和软件两部分。
大数据与产业的聚合效应。 大数据与生物医药、农业、电信、视频、 互联网金融、工业互联网、车联网、信息安全等产业的结合将产生巨大的化学反应。
1. 大数据: DT 时代的核心要素
1.1. 大数据是未来社会的核心资源
大数据是“互联网+”的核心要素。 互联网的未来在于连接一切,从连接人与人向连接人与服务、人与物、物与物扩散, 使得海量数据的生产和连通变成现实,成为大数据应用的基础。 尤其在传统行业,信息及数据是被忽视的, 缺乏有效的手段进行充分利用, 互联 网与传统产业融合的重要目的在于将潜在信息和数据的价值进行释放, 因此,评价“互联网 +”的指标绝非是简单的信息化,而是对企业的整体生态系统进行数据化, 让企业的一切业务都变得可以分析, 进而更好的识别市场和用户。
从某种程度上来说, 数据是现实世界在虚拟世界的一个“映像”, 可以通过数据挖掘对“虚拟映像”进行分析, 进而对工作流程、商业模式、产品设计产生巨大的影响, 服务于产业本身。 正如马化腾所说,“互联网 +”代表的是一种“信息能源”,能够促使互联网 与传统产业不断融合。
数据逐渐成为整个经济社会的核心资源。十八世纪的农业社会,经济整体以农业为主,十九世纪制造业起步, 1950 年 GDP 大部分是制造业, 而未来数字经济占据经济的主体地位已经成为必然的趋势。全球经济从农业经济到工业经济再到信息经济演变的驱动力来自于 技术的突破,技术在改变生产力和生产关系。信息要素全面升级,尤其是云计算正在变成基础设施,数据在变成整个经济社会的核心资源。

1.2. 被低估的影响: 大数据将指引人类走向智能社会
1.2.1. 大数据“量”和“质”的双提升奠定机器智能的基础
第一,万物互联造就了数据“量”的阶跃发展。 从人类文明出现到 2003 年,人类总共才产生了 5EB(ExaBytes)的数据。计算机出现后, 尤其是近年来移动互联网和物联网的出现, 数据产生的速度和规模开始急剧提升, 过去几年产生的数据比以往 4 万年的数据总 量还要多。预计随着互联网与产业的加速融合,未来数据体量的增速将呈现指数上升态势。 IDC 预计 2020 年全球数据使用量将达到 40ZB(ZettaBytes),需要约 429 亿个 1TB的硬盘进行存储,届时中国产生的数据量将占到全球总量的 21%。
第二,数据逐步趋向与由“端”产生, 从“质”上讲兼具多维性与完备性。 数据的产生一定会在云、端、网这三个视角产生。 2014 年全球互联网用户有 30 亿, Facebook 有 22亿注册用户,月活跃用户超过 13 亿人口。我们在 2014 年全球智能手机出货量突破 13 亿,连网设备超过 300 亿个。 未来可能会有 80-90%数据基于用户智能终端和联网设备产生,由于这些数据连接人体、连接环境、连接物体、连接思想, 将原来看似无关的维度(时间、地域、食品、做法,成分,人的身份和收入情况等)联系了起来, 构成了今天的非常 生动的数据社会的景象,这种数据连接起来才能流动共享,真正实现数据的社会经济价值。

1.2.2. 数据驱动颠覆传统计算机算法, 导致人工智能出现突破性进展
互联网的发展为训练机器模型提供了足够多的数据量,而这种数据驱动算法以深度学习为代表,不但颠覆了传统的计算机算法,也使得人工智能出现突破性拐点。一个典型的例子是 2005 年 NIST 对全世界各家机器翻译系统评测的结果中,从未做过机器翻译的Google, 不仅一举夺得了各项评比的第一名,而且将其它单位的系统远远抛在了后面,而 Google 系统和其他系统主要的优势就在于使用了其他对手近万倍的数据量。 而国内人工智能代表公司科大讯飞近几年在采用深度学习算法,利用大数据训练后,近几年其语音识别和手写识 别错误率均保持 30%-50%的下降。

1.2.3. 大数据与人工智能相互促进,实现发展的正循环
人工智能是解决大数据的数量和效率之间矛盾的关键
传统的机器学习通过标记数据进行有监督学习,随着其处理数据量的增大, 需要外界的支持和帮助也就不断增加, 且计算结果准确性也会受到影响。 因此越来越多的数据将成为负担,也更容易达到极限或产生错误结果。人工智能的突破性技术——深度学习是从未经标 记的数据展开学习,更接近人脑的学习方式,可以通过训练之后自行掌握概念,且输出结果会随着数据处理量的增大而更加准确。同时,深度学习在加速回归定律的指引下会使得进化过程中产物(输出结果)获得指数级增长,当深度学习的效率变得更高,就会吸引更多 的资源向它聚合,使其发展更为迅速。
大数据利用人工智能实现大数据应用的正循环
百度首席科学家吴恩达层提出 : 从优秀产品到大量用户,再到海量数据,最后返回优秀产品是一个良性循环,但最后一个环节“海量数据到优秀产品”会出现问题,因为当数据积累过多时,就无法对这些数据进行完整和准确的处理。

以百度为例, 百度的数据处理自上而下分成开放云、数据工厂和百度大脑三个层级,最底层的开放云收集数据,数据工厂对数据库进行管理,最上层百度大脑的模拟神经网络通过机器学习高效的输出结果,从而实现行业应用,百度大脑就是在最后一个环节体现出巨大价 值,带来更好的信息处理能力,从而产生更加广泛和深入的行业应用,比如百度大数据此前在医疗、交通和金融领域的应用。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27数据分析的基础范式,是支撑数据工作从“零散操作”走向“标准化落地”的核心方法论框架,它定义了数据分析的核心逻辑、流程与目 ...
2026-01-27在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26在数字化浪潮下,数据分析已成为企业决策的核心支撑,而CDA数据分析师作为标准化、专业化的数据人才代表,正逐步成为连接数据资 ...
2026-01-26数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22在数字化运营场景中,用户每一次点击、浏览、交互都构成了行为轨迹,这些轨迹交织成海量的用户行为路径。但并非所有路径都具备业 ...
2026-01-22在数字化时代,企业数据资产的价值持续攀升,数据安全已从“合规底线”升级为“生存红线”。企业数据安全管理方法论以“战略引领 ...
2026-01-22在SQL数据分析与业务查询中,日期数据是高频处理对象——订单创建时间、用户注册日期、数据统计周期等场景,都需对日期进行格式 ...
2026-01-21在实际业务数据分析中,单一数据表往往无法满足需求——用户信息存储在用户表、消费记录在订单表、商品详情在商品表,想要挖掘“ ...
2026-01-21在数字化转型浪潮中,企业数据已从“辅助资源”升级为“核心资产”,而高效的数据管理则是释放数据价值的前提。企业数据管理方法 ...
2026-01-21在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20定量报告的核心价值是传递数据洞察,但密密麻麻的表格、复杂的计算公式、晦涩的数值罗列,往往让读者望而却步,导致核心信息被淹 ...
2026-01-20在CDA(Certified Data Analyst)数据分析师的工作场景中,“精准分类与回归预测”是高频核心需求——比如预测用户是否流失、判 ...
2026-01-20在建筑工程造价工作中,清单汇总分类是核心环节之一,尤其是针对楼梯、楼梯间这类包含多个分项工程(如混凝土浇筑、钢筋制作、扶 ...
2026-01-19