
大数据时代的基础科学新变
今天,世界已经进入大数据时代,如何适应这样的时代、引领这样的时代,是每一个科学领域必须要面对的问题。从某种程度上说,基础科学的进展依赖于数据的获取与分析。今天,数据量爆炸式增长、数据处理工具不断改进,给基础科学带来了新机遇和新挑战。
1 大数据赋予基础研究新特征
面对大数据时代空前的数据爆炸、更复杂的经济社会需求,基础研究被赋予新的特征和功能,在促进原始性重大创新、孕育源头技术和颠覆性技术、解决社会实际问题、应对长期挑战等方面被寄予厚望
基础科学是人类对自然界基本规律认识的总和。从事基础科学问题研究的活动统称为基础科学研究,简称基础研究。基础研究自提出以来,一直都是一个比较宽泛的概念,内涵性质和关键推动因素不断丰富。也正是由于其界限模糊,才被各国政府和学者通过不同的政策含义、资助框架、制度安排和研究成果不断地重新界定。
科技界、政府和社会在不同发展阶段对基础研究有不同的认知。
1945年,美国科学家布什在《科学:无尽的前沿》中首次提出了基础研究和应用研究分类,成为“基础研究-应用研究-技术开发-商业应用”线性模式的思想源头,影响了很长一段时期主要国家的科学技术政策。
20世纪60年代,经合组织系统地开展了R&D(研究与开发)统计调查:将基础研究分为纯基础研究与定向基础研究,把定向基础研究和战略应用研究统称为战略研究。这种分类既反映了知识生产方式的融合趋势,也反映出政府研发投入对国家战略目标的关注。在接下来的几十年中,基础科学的内涵和定义也在不断发生变化。
今天,基础研究已经发展为“生态模式”,资源基础结构不断演变,驱动因素不断丰富,必然带来管理政策和评价方式的转变。
从历史发展进程看,基础研究的内涵界定都是为了适应特定阶段社会发展和政策制定的需要。传统纯基础研究活动的特征界定是:“不以任何特定的实际应用为目的,保持相对独立并由科学家按照自身意愿去开展工作。”但随着基础研究投入日益多元化以及组织模式持续变革,主要国家在鼓励科学家自由探索的同时,更加强调战略需求导向和知识的转化应用。
基础科学事关国家当前和长远战略利益,本身就是战略需求。政府支持基础研究的政策导向已经由纠正市场失灵演化为提供公共产品服务、保证经济长期繁荣发展、营造创新生态和赢得创新竞争等诸多方面。
2 数据科学改变基础科学研究范式
数据科学正以势不可当的力量席卷而来,科学界、政府和社会公众都需要重新认识大数据时代基础研究的新特征及其影响,特别是对经济社会的影响机制和战略价值
1998年度图灵奖得主吉姆·格雷于2007年初最早提出“科学方法的革命”,将科学研究分为四类范式(Paradigm,指科技界普遍遵循的科学规范和普遍运用的研究套路),依次为实验归纳,模型推演,仿真模拟和数据密集型科学发现。数据密集型科学发现以大数据为主要特征和战略资源,即“大数据科学”和“科学大数据”。大数据可以帮助科学家们打开探索未知领域的大门,科学家们将以“分析全样本、接收非精确、发现相关性”的新思维探索科学研究。
虽然大数据时代带来了思维方式等认知层面的转向,但基础科学主体的发展依然遵循物理、化学、信息、生命科学等基础学科自身的规律,并且具有交叉、融合与渗透的逻辑性。不过改变已经愈加清晰:与传统数据的科学研究相比,无论是大型望远镜列阵收集回来的各种宇宙星系图像,还是从DNA测序仪形成的各种基因组,或是社交网站的点击次数,都可以成为数据收集目标。以前需要10年才能完成的人类DNA测序,现在一天左右就能完成。基于统计机器学习、神经网络以及深度学习,人工智能的思考能力在提升,人类对未来的预测上变得前所未有地精确。
计算科学和大数据方法在提高科学发现概率、拓宽科学研究视野、促进交叉聚合的同时,也在催生新学科创新增长,使新技术研发应用变得更加快捷、简洁、高效。但是,“大数据科学”和“科学大数据”会对科学哪一领域哪一阶段的发展产生突破性影响和行业带动?大数据对基础研究的影响到底是阶段性的还是长久性的、局部的还是全面的?这些问题还并不清楚,需要引起科技界、政府和包括公众在内的更多相关者予以关注。
3 大数据时代要求基础科学组织方式与时俱进
大数据的意义并不只是海量、多样的数据,而是如何采取更合适的支持方式和支持力度将其规模大、种类多、跨界融合的特征运用到基础研究和知识转化应用之中
无论从组织方式、资助方式还是从科研行为上,大数据使传统的基础研究活动和知识生产模式呈现出了新的交叉、融合与渗透特征,不仅促进了不同领域、不同学科科学共同体的深度整合和精细分化,还促进了基础研究的推动因素和利益相关者的多样化。这些特征无疑将对基础科学的发展,尤其是给基础科学的管理及决策带来巨大影响。
在“大数据科学”和“科学大数据”的支撑下,数学、物理、生物等不同领域、学科的思维、模式、方法、工具、概念和数据交叉融合在一起,会激变产生出新的原创性发现、理论、知识、思路和方法。基础研究不再是某一学科、某一领域中的某个科研团队独立进行,科学家们可以共享不同学科、不同领域中的其他科研团队的成果数据,使用功能更加强大的研发工具,发掘更多原始性发现和新知识。事实上,这一共享不只是数据的交叉、融合,更是科学共同体内部、外部的交叉与融合,将吸引更多不同学科和领域的研究人员加入到基础研究中,使得基础研究的功能得以进一步拓展和融合。
随着大数据时代的到来,人类认知的“去等级化”转向,在本质上带来了科技创新领域的平等化趋势,虽然这一转向并不能彻底消除科技领域“马太效应”的存在,但阶层的分化会增加,层级差异会逐渐缩小。这一发展趋势必然对基础科学的资助方式、管理模式以及评价体系产生重要的影响。从无到有的原始性创新,更需要“尊重科学研究灵感瞬间性、方式随意性、路径不确定性的特点,允许科学家自由畅想、大胆假设、认真求证”。
总之,大数据时代为我国基础科学跨越式发展带来了变革性机遇和复杂性挑战。研究范式的深度改变要求我们加快建立更加包容和宽容、支持非共识创新项目的基础研究制度,鼓励变革性学术思想,促进创新治理体系从跟踪型向引领型转变。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15