
经济学家为何在大数据浪潮面前如此淡定
大数据如今被各行业追捧,但是有个现象还是值得注意的——在经济学领域,关于大数据应用的文章却不多。按理说,经济学是社会科学中最“科学”的一支,又以其“帝国主义”的霸权思想全方位侵入各个社科领域,为何在大数据浪潮面前如此淡定?不冲上去做一个弄潮儿?
小编个人觉得这大概与数据的特性有关,经济学使用数据的重点在于identification,而当前的大数据因为数据生产过程不透明及样本偏差等,难以做出学界认可的结果。
不明白的话,我们来看一个研究的例子,来说明为什么是这样:
之前某公共号推送了一篇文章,讲施新政、李宏彬和吴斌珍三位老师合作撰写的American Economic Review Papers and Proceedings论文“The Retirement Consumption Puzzle in China”,实证考察了中国居民的退休消费情况。文章的背景如下:
根据平滑消费理论,人们会调整一生各阶段的消费水平使之大致相当。然而,大量文献却发现人们的消费水平会在退休后发生大幅度下降,这与平滑消费理论发生了冲突。许多学者都试图从不同角度对此进行解释,本文作者也加入了这一行列。
在介绍作者思路之前,先来思考一下,如果我们用“大数据”要怎么做?
首先搞消费研究那得找万能的淘宝和京东啊,假设我们拿到了所有淘宝、京东的数据,知道大家都买买买了什么。然而这里有个问题,要研究的是消费水平是否会在退休后大幅度下降,退休的人都用这两个平台吗?!这里面临了大数据的问题一:所有的企业的用户数据和真实的人口都存在偏差,而且往往偏差很大。就拿相对最全的银行数据来说(金融方面),覆盖的也往往是本行的用户数,选择某一银行的人可能本身就有样本偏差,而且还不一定能覆盖其它如股票、信托等金融方式。
那么我们假设所有中国人都用淘宝和京东,这样是不是就可以了呢?
也不行。
因为你不是所有东西都在这上面买,我买个包子、买根葱,总不至于也上京东吧?
那我们假设全国菜市场也都联网了,我知道你都买了多少菜,多少鱼,总行了吧?
可能还是不行。
因为我如果根本就不去买,退休后在家里自己种菜呢?自己蒸馒头呢?而且这种现象恐怕不稀少吧?这都会造成数据的系统性偏差。
让我们来看看作者们是怎么分析数据中消费品类型的影响的:
在本文作者看来,现有研究的实证分析尚存在一些不足:首先,现有研究对消费的定义并不完善。消费中有一部分是与工作相关或者可以被家庭内部生产所替代。在考察退休前后消费是否满足平滑消费理论时,应该先将这一部分剔除。然而,大多数现有研究由于数据的局限而未能这么做。其次,现有研究面临内生性问题。退休与否是一个高度内生的决策变量,不考虑退休内生性的实证考察结果很有可能存在偏误,进而也无法明确得到退休与消费之间的因果联系。
作者们在处理这一研究问题的时候还是采用了“传统数据”,中国城市家庭调查数据(China's Urban Household Survey, UHS),对消费内容进行了细致的分解,分出了工作相关消费、可被家庭生产替代的消费及其他消费。
对于内生性的问题:本文利用中国的强制退休政策,借助断点回归策略(RD)有效处理了内生性问题。中国的很多单位都实行强制退休政策(主要是政府、公共部门、国有企业、集体企业,男性60岁、女性55岁),作者基于此比较考察了退休前后年龄段人群所在家庭的消费变化情况。
作者们得出的结论是:
退休确实会使家庭的非耐用品消费显著下降21个百分点。不过这一下降主要是由工作相关开支减少、食品消费由在外进行转变为在家进行所造成的。其中后者主要是由于家庭内部食品消费价格更加低廉,而且退休群体有充足的时间在家准备食品。在剔除了这两项之后,作者发现退休并未对其他非耐用品消费造成显著影响,即平滑消费理论针对其他非耐用消费品仍然成立。
当然,要知道UHS的数据可不是想拿就能拿到的,现在经济学研究高质量数据变得非常非常重要,而且只要数据质量够好,根本不需要复杂的模型。有研究表明,经济学主流期刊上面OLS仍然是使用最多的回归方式,而不是什么DID,RD,GMM。
结论
其实经济学家对数据是非常敏锐的,早已经不局限在传统的统计年鉴、普查数据,他们扒地方志及历史文献,用气象数据、遥感数据,现在也有非常多的研究开始写爬虫抓互联网数据。所以经济学家不是不用数据,也不是不用大量的数据,而是对“大数据”的使用持审慎的态度。
本文举的例子主要是想说明数据的选择与研究问题的需求密不可分,这一点不论数据"大小"。很多时候,研究人员并不能很好地了解拿到的大数据的产生方式,及可能存在的偏差,导致使用起来会比较盲目。特别地,互联网公司的业务变化速度非常快,算法脚本经常更新,用户结构性的变化也不小,这些对于外部研究者都是很难了解的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
透视表内计算两个字段乘积的实用指南 在数据处理与分析的过程中,透视表凭借其强大的数据汇总和整理能力,成为了众多数据工 ...
2025-06-20CDA 一级考试备考时长全解析,助你高效备考 CDA(Certified Data Analyst)一级认证考试,作为数据分析师领域的重要资格认证, ...
2025-06-20统计学模型:解锁数据背后的规律与奥秘 在数据驱动决策的时代,统计学模型作为挖掘数据价值的核心工具,发挥着至关重要的作 ...
2025-06-20Logic 模型特征与选择应用:构建项目规划与评估的逻辑框架 在项目管理、政策制定以及社会服务等领域,Logic 模型(逻辑模型 ...
2025-06-19SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的利器 在数据分析的众多方法中,Mann-Kendall(MK)检验凭借其对数据分 ...
2025-06-19CDA 数据分析能力与 AI 的一体化发展关系:重塑数据驱动未来 在数字化浪潮奔涌的当下,数据已然成为企业乃至整个社会发展进 ...
2025-06-19CDA 干货分享:统计学的应用 在数据驱动业务发展的时代浪潮中,统计学作为数据分析的核心基石,发挥着无可替代的关键作用。 ...
2025-06-18CDA 精益业务数据分析:解锁企业增长新密码 在数字化浪潮席卷全球的当下,数据已然成为企业最具价值的资产之一。如何精准地 ...
2025-06-18CDA 培训:开启数据分析师职业大门的钥匙 在大数据时代,数据分析师已成为各行业竞相争夺的关键人才。CDA(Certified Data ...
2025-06-18CDA 人才招聘市场分析:机遇与挑战并存 在数字化浪潮席卷各行业的当下,数据分析能力成为企业发展的核心竞争力之一,持有 C ...
2025-06-17CDA金融大数据案例分析:驱动行业变革的实践与启示 在金融行业加速数字化转型的当下,大数据技术已成为金融机构提升 ...
2025-06-17CDA干货:SPSS交叉列联表分析规范与应用指南 一、交叉列联表的基本概念 交叉列联表(Cross-tabulation)是一种用于展示两个或多 ...
2025-06-17TMT行业内审内控咨询顾问 1-2万 上班地址:朝阳门北大街8号富华大厦A座9层 岗位描述 1、为客户提供高质量的 ...
2025-06-16一文读懂 CDA 数据分析师证书考试全攻略 在数据行业蓬勃发展的今天,CDA 数据分析师证书成为众多从业者和求职者提升竞争力的重要 ...
2025-06-16数据分析师:数字时代的商业解码者 在数字经济蓬勃发展的今天,数据已成为企业乃至整个社会最宝贵的资产之一。无论是 ...
2025-06-16解锁数据分析师证书:开启数字化职业新篇 在数字化浪潮汹涌的当下,数据已成为驱动企业前行的关键要素。从市场趋势研判、用 ...
2025-06-16CDA 数据分析师证书含金量几何?一文为你讲清楚 在当今数字化时代,数据成为了企业决策和发展的重要依据。数据分析师这一职业 ...
2025-06-13CDA 数据分析师:数字化时代的关键人才 在当今数字化浪潮席卷全球的时代,数据已然成为驱动企业发展、推动行业变革的核心要素。 ...
2025-06-13CDA 数据分析师报考条件全解析 在大数据和人工智能时代,数据分析师成为了众多行业追捧的热门职业。CDA(Certified Data Analyst ...
2025-06-13“纲举目张,执本末从。”若想在数据分析领域有所收获,一套合适的学习教材至关重要。一套优质且契合需求的学习教材无疑是那关键 ...
2025-06-09