京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据改变经济预测范式:经济预测中大数据应用的挑战
经济预测是经济学最重要的职能之一,也是政府、企业、个人等进行决策的参考和依据。基于计量经济方法实施的经济预测,特别是宏观经济预测,离不开经济统计的支撑。经济统计是经济预测得以实施的前提,为经济预测提供了最基础的数据指标。
大数据对经济预测的影响涉及数据来源、预测方法、预测结果等几乎每一个环节,在某种程度上改变了常规经济预测所遵循的基本范式。首先,经济预测的数据基础发生很大变化。经济统计不再是数据指标的唯一来源,基于互联网技术产生的搜索数据、社交媒体数据、在线新闻、交易支付数据以及快递服务数据等都可以用于经济预测。其次,数据指标的生成也不再完全依赖传统的抽样调查、经济普查。基于搜索数据、社交媒体数据等网络数据资源可以实时生成不同的数据指标。再次,对经济预测所采用的方法、工具有了新的要求,通常是将传统的计量经济方法与机器学习、统计学习等分析手段相互结合,以适应大数据处理的需要。最后,大数据有助于经济预测结果的改善。一方面,在既有的计量经济预测模型中引入大数据及相应的处理方法,能够较为显著地减少误差、提高预测精度。另一方面,预测的时效性进一步增强。在网络在线数据的支撑下,数据指标的滞后问题得以解决,近乎实时的即时预测已经出现。
搜索数据的应用提高预测精度
谈及搜索数据在经济预测中的应用,必然离不开对谷歌趋势(Google Trends)数据的介绍。谷歌趋势数据是针对某个地区不同时间特定关键词查询数量生成的查询指数,其构造过程大致如下:(1)计算查询份额(Query Share),即某个地区某个时间段包含某个关键词的查询数量占所有查询的比重;(2)生成查询指数(Query Index),将一段时间内查询份额的最高值标准化为100,并将初始时点的查询份额标准化为0。谷歌将搜索查询分成30个一级大类,并进一步细分为250个二级类别,这样便可很容易获得数百个谷歌趋势查询指数,查询指数数据最早可追溯到2004年1月1日。
谷歌趋势数据最早是由著名经济学家哈尔·瓦里安(Hal Varian)引入到经济预测中的。自2008年以来,瓦里安教授与其合作者发布了一系列利用谷歌趋势数据进行经济预测的研究成果,预测内容涉及汽车及零部件销售额、失业救济申领人数、旅行目的地、消费者信心等。其基本思路是,在传统的时间序列预测模型基础上,加入谷歌趋势生成的查询指数,以提高预测精度。瓦里安教授的预测实践表明,借助谷歌趋势,能够有助于即时预测精度的提高。相关事例还表明,在出现拐点时期,加入谷歌趋势指数作为变量,也能取得较好的预测效果。这恰恰是以计量经济模型为基础的常规经济预测一直未解决的难题。
近两年来,越来越多的欧美机构及学者将谷歌趋势数据运用于不同类型经济活动的预测中。例如,德国劳工研究所的学者利用谷歌趋势数据对住房贷款违约比例进行即时预测,发现效果明显优于基础的自回归模型。爱尔兰中央银行的学者利用谷歌趋势的相关概率指标,对其宏观经济预测模型进行随时调整,成功提高了即时预测精度。
除了谷歌趋势数据外,其他搜索引擎如必应、百度等,其搜索数据也被用于经济预测。百度公司推出了与谷歌趋势类似的“百度指数”,相关数据指标也被用于经济预测。2014年,中国科学院大学的几位学者将“百度关键字指数”纳入到他们开发的“中国股票市场预测模型”中,将预测平均误差值从之前的3.8%降低到1.4%。
媒体数据的应用增强预测时效性
大数据处理和分析技术的快速发展,使得来自社交网站、在线新闻等渠道的文本数据也能够被有效整理和量化,并用于经济预测。
荷兰统计局(Statistics Netherlands)的学者尝试利用社交媒体数据对消费者信心指数进行预测。其大致思路是:(1)收集所有推特(Twitter)、脸书(Facebook)、领英(LinkedIn)等社交媒体数据,分别构造“基于社交媒体数据的消费者信心指数”;(2)分析官方统计调查得到的“消费者信心指数”与社交媒体消费者信心指数之间的相关性;(3)基于两者之间的相关关系,以社交媒体“消费者信心指数”对官方统计“消费者信心指数”进行预测。根据分析,以脸书数据构造的指数与官方指数之间不仅高度相关且存在协整关系。以推特数据构造的指数与官方指数同样存在相关关系。与官方指数相比,社交媒体指数最大的优势在于及时性,能够以两周一次甚至一周一次的频率构造并发布。
比利时安特卫普大学的学者通过文本挖掘(Text mining)技术对与宏观经济复苏相关的“经济政策不确定性指数”(Economic Policy Uncertainty Index,EPU)进行改造。文本挖掘的对象是六种来源的佛兰芒语新闻报道。改造后的EPU可用于分析和预测宏观经济复苏情况。
除了宏观经济关联指数的构造和分析外,媒体文本数据还被广泛应用于对金融市场的相关变化进行预测。伦敦大学学院的学者对路透新闻档案、经纪人报告、英格兰银行内部市场评论等文本进行挖掘,聚焦于那些有可能推动金融市场行为变化的叙述和情绪。该学者发现,当兴奋情绪很高而焦虑情绪很少时,往往是金融危机发生的警示信号。法兰克福大学的学者以脸书国民幸福指数(Facebook’s Gross National Happiness,GNH)为基础构造“投资信心指数”(Index of Investment Sentiment)。而GNH本身又是通过对脸书中的情感语汇进行文本分析而构造出来的。研究发现,利用GNH能预测美国股票市场每天回报和交易量的变化情况;一个标准差的GNH指数增加大致能够带来次日股票指数11.23个点的上涨。
其他可挖掘在线数据十分丰富
除了搜索数据、网络媒体数据外,在线销售及支付数据、卫星遥感数据、邮政快递数据等也被应用于经济预测中。
美国麻省理工学院的学者领导了一个名为“十亿价格”(Billion Prices Project,BPP)的研究项目。该项目与网络零售商合作,每天下载成千上万种在线零售商品的实时价格,生成每天的价格指数,可以实现以每天一次的频率发布价格变动和通货膨胀数据。利用BPP在线价格指数,可以较为准确地判断出未来一定时期特别是2—3个月时间内的通货膨胀变化趋势。最值得一提的是,BPP在线价格指数在预测通胀趋势变化拐点方面特别有效。
加拿大麦吉尔大学的学者利用包括银行卡在内的电子支付大数据,通过多个模型的不同组合对加拿大GDP进行即时预测;并以此项工作为基础构建了一个全新的GDP月度数据库,预测精度显著提高。
万国邮政联盟(Universal Postal Union,UPU)的学者将国际邮政物流体系每天所产生的商品交换数据,与每日的国际汇率变动数据相结合,对国际间的电子商务套利行为进行预测分析。这一尝试表明,利用国际邮政物流数据有助于提高预测能力。
在澳大利亚,其官方统计部门正在采取相关措施,以便将特定来源的大数据纳入到常规官方统计体系中。在统计实践中,澳大利亚统计局已经着手构建基于大数据的统计推断框架。一个典型的例子就是,利用遥感数据对澳大利亚的农业数据进行统计和预测。
经济预测中大数据应用的挑战
近年来各国机构和学者的探索表明,利用各种不同来源的大数据能够有效提高经济预测的精度,在某些领域甚至能够进行拐点预测。不过,在经济预测实践中如何更加有效地利用大数据仍然面临诸多挑战。
第一,大数据的可获得性将直接限制大数据在经济预测中的推广应用。无论是政府部门数据还是私人公司数据,都不可能为经济预测者随意使用;对于私人公司数据来说,通常需要通过签订合作协议并严格执行保密条款才能获取数据;至于政府部门公共数据,大多存在开放限制,往往需要通过机构内部人员才能获取数据。
第二,来自搜索查询、社交媒体等不同渠道的非结构化原始数据既杂乱无章,又存在非常复杂的内在关联,将其提炼并转换为结构化的有用信息需要有足够的技巧,并且耗费大量人力、物力和财力。
第三,充裕的数据信息还会带来过度识别问题。以谷歌趋势数据为例,谷歌每天产生的数十亿个查询记录,即便利用谷歌趋势进行分类仍有数百个指数;而每个指数即便从2004年1月开始,至今也最多不过一百多个序列。变量个数大于序列长度,必然导致过度识别问题。
第四,同任何传统经济预测一样,大数据的应用也无法解决“卢卡斯批评”问题。虽然大数据提高了预测精度,但如果预测模型被用于决定采用何种干预政策,那么最终的实际结果可能不会如模型所预测,因为政策的变化会影响到后续行为,而变量之间的关系恰恰是由相应数据所反映。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05