京公网安备 11010802034615号
经营许可证编号:京B2-20210330
从大数据到大知识的探索
大数据正在为人们的生活提供种种便利,读书、购物、存储等的时间大大缩短,关于大数据的讨论已经渗透到经济、社会、生活各个领域,一天一天,一年一年,工程师们发现一个惊人的现实:大数据已经开始独立于人,在人类社会加自然界的二元空间之外,形成单独的信息空间。
在11月17日北京举办的数字化知识服务科学与工程2015国际高端研讨会上,中国工程院院士潘云鹤表示,“五十年以前人类还是二元空间,那时候的信息还依靠人来发出,信息来自于人类社会。人写书,人开会交流,人使用媒体,计算机的信息都是人输进去的。后来人们开始把信息进行互联,有了互联网、移动通信和搜索技术,信息通过互联网开始直接来自于物理世界,去年相关调查发现,网络信息60%不是人发送的,而是爬虫发送的,绝大部分网络上信息的流量不是被人所占用,而是被机器人所占用,这是非常令人惊讶的时代。”潘云鹤说。
大数据时代真的主打“数据”吗?许多国家开始着手对“数据”做文章。2001年中国政府和美国自然科学基金开始进入一项国际合作项目:数字图书馆。目标是让所有人不论何时何地都能通过互联网访问到全人类的知识,这个项目一共实现了250万册图书的数字化。
“虽然项目一开始是为了向全世界提供图书和资料,但是后来发现它不但可以借书,而且可以有很多新的服务,比如通过它可以实现在网上访问名胜古迹,里面有敦煌石窟数字化三维造型,比如该项目把中国900多个书法家4000多件作品进行了数字化,因此它可以帮助全世界学习汉语和书法的人练习书法,也可以用它进行书法的设计。”潘云鹤说。
甚至有浙江大学的一个博士生利用大数据编成了一本“红楼菜谱”,而他所要做的就是把《红楼梦》当中各种各样的烹调内容和各种各样的菜谱联系在了一起,把电视台中各种关于烹调的过程找出来,还把植物学和农业当中植物种植方式和营养的内容找出来。
“我们发现海量数据如果能彼此打通,从这中间可以产生出大量新的知识,我们把彼此联通的海量知识称为数据海,图书馆如果拥有数字海的话就可能发展成为数字图书馆,就和原有的图书馆具有完全不同的性能。”潘云鹤说。
因此,大数据时代不是只“主打”一组组的数据,这些数据可以产生更多的功能,仅仅挖掘大数据是不够的,应该从大数据走向大知识。
在研讨会上,记者了解到浙江大学正在将中医大数据变为新的知识。他们把各种各样的方剂、疾病、医生、病人互相打通,将互联网、数字图书馆、专业数据联系起来,进行深度的搜索。这样一来,既可以研究中药里某种化合物的成分,还可以对药材进行各种各样的鉴别,对药材如何组合进行分析,这对于医生探索新的药方有非常大的帮助。
正是基于大数据到大知识的探索,中国工程院在2014年成立了国际工程科技知识中心,希望把多个数字图书馆、多个专业数据库和世界上各种各样跟工程科技有关的网站连在一起,让大量的数据形成数据海,用数据海的特点从不同角度获得新的知识和新的认识。
潘云鹤说:“国际工程科技知识中心将为各个院士提供研究我国战略所需要的知识,中心发展到一定程度后向全体工程师们开放,让我国的工程师利用其开发新的产品,了解全世界在该领域的研究进程。此外,这个中心还要承担支持我国的产业转型的重任。”
中国工程院院长周济在研讨会上表示,大数据与智能终端、移动互联等相互结合,进一步推动了信息化和工业化的深度融合,进一步开拓了技术创新与经济发展的模式,进一步提升了政治统领和行业发展的决策科学化水平,我们正在经历新一轮以大数据为主的信息革命和产业变革。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05