
大数据改变经济预测范式:经济预测中大数据应用的挑战
经济预测是经济学最重要的职能之一,也是政府、企业、个人等进行决策的参考和依据。基于计量经济方法实施的经济预测,特别是宏观经济预测,离不开经济统计的支撑。经济统计是经济预测得以实施的前提,为经济预测提供了最基础的数据指标。
大数据对经济预测的影响涉及数据来源、预测方法、预测结果等几乎每一个环节,在某种程度上改变了常规经济预测所遵循的基本范式。首先,经济预测的数据基础发生很大变化。经济统计不再是数据指标的唯一来源,基于互联网技术产生的搜索数据、社交媒体数据、在线新闻、交易支付数据以及快递服务数据等都可以用于经济预测。其次,数据指标的生成也不再完全依赖传统的抽样调查、经济普查。基于搜索数据、社交媒体数据等网络数据资源可以实时生成不同的数据指标。再次,对经济预测所采用的方法、工具有了新的要求,通常是将传统的计量经济方法与机器学习、统计学习等分析手段相互结合,以适应大数据处理的需要。最后,大数据有助于经济预测结果的改善。一方面,在既有的计量经济预测模型中引入大数据及相应的处理方法,能够较为显著地减少误差、提高预测精度。另一方面,预测的时效性进一步增强。在网络在线数据的支撑下,数据指标的滞后问题得以解决,近乎实时的即时预测已经出现。
搜索数据的应用提高预测精度
谈及搜索数据在经济预测中的应用,必然离不开对谷歌趋势(Google Trends)数据的介绍。谷歌趋势数据是针对某个地区不同时间特定关键词查询数量生成的查询指数,其构造过程大致如下:(1)计算查询份额(Query Share),即某个地区某个时间段包含某个关键词的查询数量占所有查询的比重;(2)生成查询指数(Query Index),将一段时间内查询份额的最高值标准化为100,并将初始时点的查询份额标准化为0。谷歌将搜索查询分成30个一级大类,并进一步细分为250个二级类别,这样便可很容易获得数百个谷歌趋势查询指数,查询指数数据最早可追溯到2004年1月1日。
谷歌趋势数据最早是由著名经济学家哈尔·瓦里安(Hal Varian)引入到经济预测中的。自2008年以来,瓦里安教授与其合作者发布了一系列利用谷歌趋势数据进行经济预测的研究成果,预测内容涉及汽车及零部件销售额、失业救济申领人数、旅行目的地、消费者信心等。其基本思路是,在传统的时间序列预测模型基础上,加入谷歌趋势生成的查询指数,以提高预测精度。瓦里安教授的预测实践表明,借助谷歌趋势,能够有助于即时预测精度的提高。相关事例还表明,在出现拐点时期,加入谷歌趋势指数作为变量,也能取得较好的预测效果。这恰恰是以计量经济模型为基础的常规经济预测一直未解决的难题。
近两年来,越来越多的欧美机构及学者将谷歌趋势数据运用于不同类型经济活动的预测中。例如,德国劳工研究所的学者利用谷歌趋势数据对住房贷款违约比例进行即时预测,发现效果明显优于基础的自回归模型。爱尔兰中央银行的学者利用谷歌趋势的相关概率指标,对其宏观经济预测模型进行随时调整,成功提高了即时预测精度。
除了谷歌趋势数据外,其他搜索引擎如必应、百度等,其搜索数据也被用于经济预测。百度公司推出了与谷歌趋势类似的“百度指数”,相关数据指标也被用于经济预测。2014年,中国科学院大学的几位学者将“百度关键字指数”纳入到他们开发的“中国股票市场预测模型”中,将预测平均误差值从之前的3.8%降低到1.4%。
媒体数据的应用增强预测时效性
大数据处理和分析技术的快速发展,使得来自社交网站、在线新闻等渠道的文本数据也能够被有效整理和量化,并用于经济预测。
荷兰统计局(Statistics Netherlands)的学者尝试利用社交媒体数据对消费者信心指数进行预测。其大致思路是:(1)收集所有推特(Twitter)、脸书(Facebook)、领英(LinkedIn)等社交媒体数据,分别构造“基于社交媒体数据的消费者信心指数”;(2)分析官方统计调查得到的“消费者信心指数”与社交媒体消费者信心指数之间的相关性;(3)基于两者之间的相关关系,以社交媒体“消费者信心指数”对官方统计“消费者信心指数”进行预测。根据分析,以脸书数据构造的指数与官方指数之间不仅高度相关且存在协整关系。以推特数据构造的指数与官方指数同样存在相关关系。与官方指数相比,社交媒体指数最大的优势在于及时性,能够以两周一次甚至一周一次的频率构造并发布。
比利时安特卫普大学的学者通过文本挖掘(Text mining)技术对与宏观经济复苏相关的“经济政策不确定性指数”(Economic Policy Uncertainty Index,EPU)进行改造。文本挖掘的对象是六种来源的佛兰芒语新闻报道。改造后的EPU可用于分析和预测宏观经济复苏情况。
除了宏观经济关联指数的构造和分析外,媒体文本数据还被广泛应用于对金融市场的相关变化进行预测。伦敦大学学院的学者对路透新闻档案、经纪人报告、英格兰银行内部市场评论等文本进行挖掘,聚焦于那些有可能推动金融市场行为变化的叙述和情绪。该学者发现,当兴奋情绪很高而焦虑情绪很少时,往往是金融危机发生的警示信号。法兰克福大学的学者以脸书国民幸福指数(Facebook’s Gross National Happiness,GNH)为基础构造“投资信心指数”(Index of Investment Sentiment)。而GNH本身又是通过对脸书中的情感语汇进行文本分析而构造出来的。研究发现,利用GNH能预测美国股票市场每天回报和交易量的变化情况;一个标准差的GNH指数增加大致能够带来次日股票指数11.23个点的上涨。
其他可挖掘在线数据十分丰富
除了搜索数据、网络媒体数据外,在线销售及支付数据、卫星遥感数据、邮政快递数据等也被应用于经济预测中。
美国麻省理工学院的学者领导了一个名为“十亿价格”(Billion Prices Project,BPP)的研究项目。该项目与网络零售商合作,每天下载成千上万种在线零售商品的实时价格,生成每天的价格指数,可以实现以每天一次的频率发布价格变动和通货膨胀数据。利用BPP在线价格指数,可以较为准确地判断出未来一定时期特别是2—3个月时间内的通货膨胀变化趋势。最值得一提的是,BPP在线价格指数在预测通胀趋势变化拐点方面特别有效。
加拿大麦吉尔大学的学者利用包括银行卡在内的电子支付大数据,通过多个模型的不同组合对加拿大GDP进行即时预测;并以此项工作为基础构建了一个全新的GDP月度数据库,预测精度显著提高。
万国邮政联盟(Universal Postal Union,UPU)的学者将国际邮政物流体系每天所产生的商品交换数据,与每日的国际汇率变动数据相结合,对国际间的电子商务套利行为进行预测分析。这一尝试表明,利用国际邮政物流数据有助于提高预测能力。
在澳大利亚,其官方统计部门正在采取相关措施,以便将特定来源的大数据纳入到常规官方统计体系中。在统计实践中,澳大利亚统计局已经着手构建基于大数据的统计推断框架。一个典型的例子就是,利用遥感数据对澳大利亚的农业数据进行统计和预测。
经济预测中大数据应用的挑战
近年来各国机构和学者的探索表明,利用各种不同来源的大数据能够有效提高经济预测的精度,在某些领域甚至能够进行拐点预测。不过,在经济预测实践中如何更加有效地利用大数据仍然面临诸多挑战。
第一,大数据的可获得性将直接限制大数据在经济预测中的推广应用。无论是政府部门数据还是私人公司数据,都不可能为经济预测者随意使用;对于私人公司数据来说,通常需要通过签订合作协议并严格执行保密条款才能获取数据;至于政府部门公共数据,大多存在开放限制,往往需要通过机构内部人员才能获取数据。
第二,来自搜索查询、社交媒体等不同渠道的非结构化原始数据既杂乱无章,又存在非常复杂的内在关联,将其提炼并转换为结构化的有用信息需要有足够的技巧,并且耗费大量人力、物力和财力。
第三,充裕的数据信息还会带来过度识别问题。以谷歌趋势数据为例,谷歌每天产生的数十亿个查询记录,即便利用谷歌趋势进行分类仍有数百个指数;而每个指数即便从2004年1月开始,至今也最多不过一百多个序列。变量个数大于序列长度,必然导致过度识别问题。
第四,同任何传统经济预测一样,大数据的应用也无法解决“卢卡斯批评”问题。虽然大数据提高了预测精度,但如果预测模型被用于决定采用何种干预政策,那么最终的实际结果可能不会如模型所预测,因为政策的变化会影响到后续行为,而变量之间的关系恰恰是由相应数据所反映。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29