京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代历史研究新方法
16世纪的“科学革命”后,自然和人文社会科学的学术传统出现分流:自然科学追求发现和认识“未知”事物,形成“求是型学术”(Scholarship of Discovery);人文社会科学注重解释和理解“已知”现象,形成“解释型学术”(Scholarship of Interpretation)。历史学的主要任务也逐步从“重构”历史发展到“建构”和“解释”历史。如今,随着信息化程度的加深和大数据时代的到来,将“求是型学术”引入人文社会科学,在两种研究方法或认识论间架起桥梁,已成为诸多学科因应时代发展、寻求学科对话和提升影响的重要手段。对处于边缘化危机中的历史学来说,这或许是一次难得的时代发展机遇。
研究方法脱节:历史学边缘化趋势加剧
就目前全球学术界的情况而言,历史学的境遇可谓不佳,其学科地位有不断边缘化趋势,对青年人才的吸引也愈发无力。举例来说,最近50年来,美国以人文学科为主业的学生比例从14%下降到7%,即便哈佛这样以基础人文学研究久负盛名的一流大学,人文学科为主业的学生比例也从近40%大幅下降到20%。而中国某些大学的历史院系中,一些学生被“调剂”而来,专业思想不稳固,对史学专业缺乏兴趣,出现“混学位”等现象。有学者毫不客气地指出,这反映了历史等人文学科的窘境:在全球经济竞争时代无所贡献,对学生就业缺乏帮助,在技术革命的浪潮前显得老旧不堪。
一些学者认为,这种现象的出现是市场经济条件下历史学自身实用性不强,难以“致用”所致,但笔者以为,这更可能是历史学科的研究方法脱节所致——无法“致用”于其他学科以发挥其基础学科的功效,形成了学科体系中的“孤岛”。近二三十年来,越来越多的社会科学注重依托大数据平台,开展可比较的量化研究。这些大数据平台使得不同学科对同一材料的不同解读和互补研究、探索成为可能,大大促进了这些学科间的交流和学者间的合作,相关学科的活力和影响也由此得以彰显。但历史学界,尤其是中国历史学界对此方法的认识还相当有限,实践更是匮乏。在这种情况下,史学家掌握的丰富、珍贵的史料和深刻、细碎的历史知识在一定程度上反而阻碍了其他学者参与研究和学术对话,成为导致今日历史学边缘化趋势持续的重要原因。
新研究范式为历史学提供机遇
吊诡的是,若抛开学科地位不论,历史学无论是作为资料宝库还是认识视角,其本身的价值和功能并未边缘化,甚至愈发重要。近年来,随着大规模历史量化数据库在收集、整理和构建方面的重大进展,越来越多的非历史学者借助量化历史数据平台进行社会和自然科学研究,取得重要成就,显示了历史学发展“求是型学术”的可能和前景。这种学术研究多基于系统化、标准化的历史人口或事件档案构建起的量化数据库,重视对长时段、大规模记录中各种人口和社会行为的统计描述及彼此间相互关联的分析,从而揭示隐藏在“大人口”(Big Population)中的历史过程与规律。它不仅容易发现很多可以验证或挑战现有理论的事实,还长于开展跨时段、跨地域的比较研究,为理解社会历史和人类行为提供了全球化的认识基础,进而构建起一种新的自下而上、由繁入简的研究方法和史观。
这一研究方法的兴起也是互联网时代史学发展的必然。从20世纪80年代开始的可检索文献数据库到90年代学术出版物数据库,再到21世纪初量化历史数据库,历史研究所依靠的各种材料逐渐出现了数据化发展倾向。史料拥有权的“唯一性”对史料获取的障碍大大降低。依靠互联网提供的技术和无限“连接”的可能,史料出现新的“连接”趋势,形成新的资料平台和“试验场”。对各个“试验场”的共同兴趣又可以“连接”或凝聚起一批不分国界和文化背景的研究团队。这种团队化的研究工作与自然科学接近,成为史学发展的新趋向。地方化或地域化的史学研究将渐渐转变成真正的全球史学研究。
量化数据库推动“求是型学术”发展
中国历史研究中不仅同样存在着丰富的大数据,而且许多涉及重要议题的“大数据”史料我们早已系统梳理和深入研究过。中国文献记载历时长、覆盖广,在世界各个文明中少有其匹。像户籍登记、土地分配以及科考履历等材料,都非常适合成为推动新的“求是型学术”的“大数据”。
作为社会科学化历史研究的倡导者,美国学者李中清(James Z. Lee)和康文林(Cameron Campbell) 自20世纪80年代起,历经20多年努力构建起的中国多代人口数据库(CMGPD)就被证明对人口统计学、家庭与婚姻、社会分层、卫生健康等多个研究领域有重要价值,产生了一系列新的认识。2005年起,北京大学和哈佛大学联合推进的“中国历代人物传记资料数据库”(CBDB)目前尽管尚未全部完成,但其无可替代的学术价值已经引起学界关注。最近几年,上海交通大学、山西大学等高校的学者也已开始构建自己的历史数据库。大数据思维下的“互联网+”历史研究新格局在中国已然不是空中楼阁。
依靠量化数据库发扬“求是型学术”的历史研究这一“新事物”,必然还有很多有待解决的技术问题。如应注意区分文献型数据库和真正对“求是型学术”有帮助的量化数据库。所有大型历史数据库的建设与研究都需要一个依托互联网技术支撑的国际化、跨学科研究团队,而如何构建这样的团队和开展管理,对习惯了“单打独斗”的历史学家来说也是一大挑战。此外,我们的科研管理体系也需更新,要给予数据库应有的科研成果地位和正确评价团队成员的工作贡献。2013年教育部社科委历史学部年度工作会议的主题恰是历史资料的整理、研究和数字化建设。显然,中国史学界已经意识到大数据时代历史研究的转变与挑战,而只要看准潮流,认清问题,我们就能抓住机遇,实现历史学的突破和发展。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27在数字化时代,企业积累的海量数据如同散落的珍珠,若缺乏有效的梳理与分类,终将难以发挥实际价值。CDA(Certified Data Analys ...
2026-02-27在问卷调研中,我们常遇到这样的场景:针对同一批调查对象,在不同时间点(如干预前、干预后、随访期)发放相同或相似的问卷,收 ...
2026-02-26在销售管理的实操场景中,“销售机会”是核心抓手—— 从潜在客户接触到最终成交,每一个环节都藏着业绩增长的关键,也暗藏着客 ...
2026-02-26在CDA数据分析师的日常工作中,数据提取、整理、加工是所有分析工作的起点,而“创建表”与“创建视图”,则是数据库操作中最基 ...
2026-02-26在机器学习分析、数据决策的全流程中,“数据质量决定分析价值”早已成为行业共识—— 正如我们此前在运用机器学习进行分析时强 ...
2026-02-25在数字化时代,数据已成为企业决策、行业升级的核心资产,但海量杂乱的原始数据本身不具备价值—— 只有通过科学的分析方法,挖 ...
2026-02-25