京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代历史研究新方法
16世纪的“科学革命”后,自然和人文社会科学的学术传统出现分流:自然科学追求发现和认识“未知”事物,形成“求是型学术”(Scholarship of Discovery);人文社会科学注重解释和理解“已知”现象,形成“解释型学术”(Scholarship of Interpretation)。历史学的主要任务也逐步从“重构”历史发展到“建构”和“解释”历史。如今,随着信息化程度的加深和大数据时代的到来,将“求是型学术”引入人文社会科学,在两种研究方法或认识论间架起桥梁,已成为诸多学科因应时代发展、寻求学科对话和提升影响的重要手段。对处于边缘化危机中的历史学来说,这或许是一次难得的时代发展机遇。
研究方法脱节:历史学边缘化趋势加剧
就目前全球学术界的情况而言,历史学的境遇可谓不佳,其学科地位有不断边缘化趋势,对青年人才的吸引也愈发无力。举例来说,最近50年来,美国以人文学科为主业的学生比例从14%下降到7%,即便哈佛这样以基础人文学研究久负盛名的一流大学,人文学科为主业的学生比例也从近40%大幅下降到20%。而中国某些大学的历史院系中,一些学生被“调剂”而来,专业思想不稳固,对史学专业缺乏兴趣,出现“混学位”等现象。有学者毫不客气地指出,这反映了历史等人文学科的窘境:在全球经济竞争时代无所贡献,对学生就业缺乏帮助,在技术革命的浪潮前显得老旧不堪。
一些学者认为,这种现象的出现是市场经济条件下历史学自身实用性不强,难以“致用”所致,但笔者以为,这更可能是历史学科的研究方法脱节所致——无法“致用”于其他学科以发挥其基础学科的功效,形成了学科体系中的“孤岛”。近二三十年来,越来越多的社会科学注重依托大数据平台,开展可比较的量化研究。这些大数据平台使得不同学科对同一材料的不同解读和互补研究、探索成为可能,大大促进了这些学科间的交流和学者间的合作,相关学科的活力和影响也由此得以彰显。但历史学界,尤其是中国历史学界对此方法的认识还相当有限,实践更是匮乏。在这种情况下,史学家掌握的丰富、珍贵的史料和深刻、细碎的历史知识在一定程度上反而阻碍了其他学者参与研究和学术对话,成为导致今日历史学边缘化趋势持续的重要原因。
新研究范式为历史学提供机遇
吊诡的是,若抛开学科地位不论,历史学无论是作为资料宝库还是认识视角,其本身的价值和功能并未边缘化,甚至愈发重要。近年来,随着大规模历史量化数据库在收集、整理和构建方面的重大进展,越来越多的非历史学者借助量化历史数据平台进行社会和自然科学研究,取得重要成就,显示了历史学发展“求是型学术”的可能和前景。这种学术研究多基于系统化、标准化的历史人口或事件档案构建起的量化数据库,重视对长时段、大规模记录中各种人口和社会行为的统计描述及彼此间相互关联的分析,从而揭示隐藏在“大人口”(Big Population)中的历史过程与规律。它不仅容易发现很多可以验证或挑战现有理论的事实,还长于开展跨时段、跨地域的比较研究,为理解社会历史和人类行为提供了全球化的认识基础,进而构建起一种新的自下而上、由繁入简的研究方法和史观。
这一研究方法的兴起也是互联网时代史学发展的必然。从20世纪80年代开始的可检索文献数据库到90年代学术出版物数据库,再到21世纪初量化历史数据库,历史研究所依靠的各种材料逐渐出现了数据化发展倾向。史料拥有权的“唯一性”对史料获取的障碍大大降低。依靠互联网提供的技术和无限“连接”的可能,史料出现新的“连接”趋势,形成新的资料平台和“试验场”。对各个“试验场”的共同兴趣又可以“连接”或凝聚起一批不分国界和文化背景的研究团队。这种团队化的研究工作与自然科学接近,成为史学发展的新趋向。地方化或地域化的史学研究将渐渐转变成真正的全球史学研究。
量化数据库推动“求是型学术”发展
中国历史研究中不仅同样存在着丰富的大数据,而且许多涉及重要议题的“大数据”史料我们早已系统梳理和深入研究过。中国文献记载历时长、覆盖广,在世界各个文明中少有其匹。像户籍登记、土地分配以及科考履历等材料,都非常适合成为推动新的“求是型学术”的“大数据”。
作为社会科学化历史研究的倡导者,美国学者李中清(James Z. Lee)和康文林(Cameron Campbell) 自20世纪80年代起,历经20多年努力构建起的中国多代人口数据库(CMGPD)就被证明对人口统计学、家庭与婚姻、社会分层、卫生健康等多个研究领域有重要价值,产生了一系列新的认识。2005年起,北京大学和哈佛大学联合推进的“中国历代人物传记资料数据库”(CBDB)目前尽管尚未全部完成,但其无可替代的学术价值已经引起学界关注。最近几年,上海交通大学、山西大学等高校的学者也已开始构建自己的历史数据库。大数据思维下的“互联网+”历史研究新格局在中国已然不是空中楼阁。
依靠量化数据库发扬“求是型学术”的历史研究这一“新事物”,必然还有很多有待解决的技术问题。如应注意区分文献型数据库和真正对“求是型学术”有帮助的量化数据库。所有大型历史数据库的建设与研究都需要一个依托互联网技术支撑的国际化、跨学科研究团队,而如何构建这样的团队和开展管理,对习惯了“单打独斗”的历史学家来说也是一大挑战。此外,我们的科研管理体系也需更新,要给予数据库应有的科研成果地位和正确评价团队成员的工作贡献。2013年教育部社科委历史学部年度工作会议的主题恰是历史资料的整理、研究和数字化建设。显然,中国史学界已经意识到大数据时代历史研究的转变与挑战,而只要看准潮流,认清问题,我们就能抓住机遇,实现历史学的突破和发展。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28随着大数据技术的快速普及,各行各业积累了海量的用户数据、交易数据、生产数据与行为数据。单纯的数据统计与报表分析只能呈现表 ...
2026-05-28在Python网络请求、接口测试、数据爬取、业务对接开发中,Requests库是最简洁、最高效的HTTP请求工具,凭借简洁的语法、完善的适 ...
2026-05-272025 年,零售与服务行业的竞争已从 “经验驱动” 全面转向 “数据驱动”。中小企业门店普遍面临数据零散、分析浅层、决策凭感觉 ...
2026-05-27 很多数据分析师每天都在写SQL,但当被问到“数据查询语言(DQL)的本质是什么”“SELECT语句中各子句的书写顺序与实际执行顺 ...
2026-05-27在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25