
大数据改变经济预测范式:经济预测中大数据应用的挑战
经济预测是经济学最重要的职能之一,也是政府、企业、个人等进行决策的参考和依据。基于计量经济方法实施的经济预测,特别是宏观经济预测,离不开经济统计的支撑。经济统计是经济预测得以实施的前提,为经济预测提供了最基础的数据指标。
大数据对经济预测的影响涉及数据来源、预测方法、预测结果等几乎每一个环节,在某种程度上改变了常规经济预测所遵循的基本范式。首先,经济预测的数据基础发生很大变化。经济统计不再是数据指标的唯一来源,基于互联网技术产生的搜索数据、社交媒体数据、在线新闻、交易支付数据以及快递服务数据等都可以用于经济预测。其次,数据指标的生成也不再完全依赖传统的抽样调查、经济普查。基于搜索数据、社交媒体数据等网络数据资源可以实时生成不同的数据指标。再次,对经济预测所采用的方法、工具有了新的要求,通常是将传统的计量经济方法与机器学习、统计学习等分析手段相互结合,以适应大数据处理的需要。最后,大数据有助于经济预测结果的改善。一方面,在既有的计量经济预测模型中引入大数据及相应的处理方法,能够较为显著地减少误差、提高预测精度。另一方面,预测的时效性进一步增强。在网络在线数据的支撑下,数据指标的滞后问题得以解决,近乎实时的即时预测已经出现。
搜索数据的应用提高预测精度
谈及搜索数据在经济预测中的应用,必然离不开对谷歌趋势(Google Trends)数据的介绍。谷歌趋势数据是针对某个地区不同时间特定关键词查询数量生成的查询指数,其构造过程大致如下:(1)计算查询份额(Query Share),即某个地区某个时间段包含某个关键词的查询数量占所有查询的比重;(2)生成查询指数(Query Index),将一段时间内查询份额的最高值标准化为100,并将初始时点的查询份额标准化为0。谷歌将搜索查询分成30个一级大类,并进一步细分为250个二级类别,这样便可很容易获得数百个谷歌趋势查询指数,查询指数数据最早可追溯到2004年1月1日。
谷歌趋势数据最早是由著名经济学家哈尔·瓦里安(Hal Varian)引入到经济预测中的。自2008年以来,瓦里安教授与其合作者发布了一系列利用谷歌趋势数据进行经济预测的研究成果,预测内容涉及汽车及零部件销售额、失业救济申领人数、旅行目的地、消费者信心等。其基本思路是,在传统的时间序列预测模型基础上,加入谷歌趋势生成的查询指数,以提高预测精度。瓦里安教授的预测实践表明,借助谷歌趋势,能够有助于即时预测精度的提高。相关事例还表明,在出现拐点时期,加入谷歌趋势指数作为变量,也能取得较好的预测效果。这恰恰是以计量经济模型为基础的常规经济预测一直未解决的难题。
近两年来,越来越多的欧美机构及学者将谷歌趋势数据运用于不同类型经济活动的预测中。例如,德国劳工研究所的学者利用谷歌趋势数据对住房贷款违约比例进行即时预测,发现效果明显优于基础的自回归模型。爱尔兰中央银行的学者利用谷歌趋势的相关概率指标,对其宏观经济预测模型进行随时调整,成功提高了即时预测精度。
除了谷歌趋势数据外,其他搜索引擎如必应、百度等,其搜索数据也被用于经济预测。百度公司推出了与谷歌趋势类似的“百度指数”,相关数据指标也被用于经济预测。2014年,中国科学院大学的几位学者将“百度关键字指数”纳入到他们开发的“中国股票市场预测模型”中,将预测平均误差值从之前的3.8%降低到1.4%。
媒体数据的应用增强预测时效性
大数据处理和分析技术的快速发展,使得来自社交网站、在线新闻等渠道的文本数据也能够被有效整理和量化,并用于经济预测。
荷兰统计局(Statistics Netherlands)的学者尝试利用社交媒体数据对消费者信心指数进行预测。其大致思路是:(1)收集所有推特(Twitter)、脸书(Facebook)、领英(LinkedIn)等社交媒体数据,分别构造“基于社交媒体数据的消费者信心指数”;(2)分析官方统计调查得到的“消费者信心指数”与社交媒体消费者信心指数之间的相关性;(3)基于两者之间的相关关系,以社交媒体“消费者信心指数”对官方统计“消费者信心指数”进行预测。根据分析,以脸书数据构造的指数与官方指数之间不仅高度相关且存在协整关系。以推特数据构造的指数与官方指数同样存在相关关系。与官方指数相比,社交媒体指数最大的优势在于及时性,能够以两周一次甚至一周一次的频率构造并发布。
比利时安特卫普大学的学者通过文本挖掘(Text mining)技术对与宏观经济复苏相关的“经济政策不确定性指数”(Economic Policy Uncertainty Index,EPU)进行改造。文本挖掘的对象是六种来源的佛兰芒语新闻报道。改造后的EPU可用于分析和预测宏观经济复苏情况。
除了宏观经济关联指数的构造和分析外,媒体文本数据还被广泛应用于对金融市场的相关变化进行预测。伦敦大学学院的学者对路透新闻档案、经纪人报告、英格兰银行内部市场评论等文本进行挖掘,聚焦于那些有可能推动金融市场行为变化的叙述和情绪。该学者发现,当兴奋情绪很高而焦虑情绪很少时,往往是金融危机发生的警示信号。法兰克福大学的学者以脸书国民幸福指数(Facebook’s Gross National Happiness,GNH)为基础构造“投资信心指数”(Index of Investment Sentiment)。而GNH本身又是通过对脸书中的情感语汇进行文本分析而构造出来的。研究发现,利用GNH能预测美国股票市场每天回报和交易量的变化情况;一个标准差的GNH指数增加大致能够带来次日股票指数11.23个点的上涨。
其他可挖掘在线数据十分丰富
除了搜索数据、网络媒体数据外,在线销售及支付数据、卫星遥感数据、邮政快递数据等也被应用于经济预测中。
美国麻省理工学院的学者领导了一个名为“十亿价格”(Billion Prices Project,BPP)的研究项目。该项目与网络零售商合作,每天下载成千上万种在线零售商品的实时价格,生成每天的价格指数,可以实现以每天一次的频率发布价格变动和通货膨胀数据。利用BPP在线价格指数,可以较为准确地判断出未来一定时期特别是2—3个月时间内的通货膨胀变化趋势。最值得一提的是,BPP在线价格指数在预测通胀趋势变化拐点方面特别有效。
加拿大麦吉尔大学的学者利用包括银行卡在内的电子支付大数据,通过多个模型的不同组合对加拿大GDP进行即时预测;并以此项工作为基础构建了一个全新的GDP月度数据库,预测精度显著提高。
万国邮政联盟(Universal Postal Union,UPU)的学者将国际邮政物流体系每天所产生的商品交换数据,与每日的国际汇率变动数据相结合,对国际间的电子商务套利行为进行预测分析。这一尝试表明,利用国际邮政物流数据有助于提高预测能力。
在澳大利亚,其官方统计部门正在采取相关措施,以便将特定来源的大数据纳入到常规官方统计体系中。在统计实践中,澳大利亚统计局已经着手构建基于大数据的统计推断框架。一个典型的例子就是,利用遥感数据对澳大利亚的农业数据进行统计和预测。
经济预测中大数据应用的挑战
近年来各国机构和学者的探索表明,利用各种不同来源的大数据能够有效提高经济预测的精度,在某些领域甚至能够进行拐点预测。不过,在经济预测实践中如何更加有效地利用大数据仍然面临诸多挑战。
第一,大数据的可获得性将直接限制大数据在经济预测中的推广应用。无论是政府部门数据还是私人公司数据,都不可能为经济预测者随意使用;对于私人公司数据来说,通常需要通过签订合作协议并严格执行保密条款才能获取数据;至于政府部门公共数据,大多存在开放限制,往往需要通过机构内部人员才能获取数据。
第二,来自搜索查询、社交媒体等不同渠道的非结构化原始数据既杂乱无章,又存在非常复杂的内在关联,将其提炼并转换为结构化的有用信息需要有足够的技巧,并且耗费大量人力、物力和财力。
第三,充裕的数据信息还会带来过度识别问题。以谷歌趋势数据为例,谷歌每天产生的数十亿个查询记录,即便利用谷歌趋势进行分类仍有数百个指数;而每个指数即便从2004年1月开始,至今也最多不过一百多个序列。变量个数大于序列长度,必然导致过度识别问题。
第四,同任何传统经济预测一样,大数据的应用也无法解决“卢卡斯批评”问题。虽然大数据提高了预测精度,但如果预测模型被用于决定采用何种干预政策,那么最终的实际结果可能不会如模型所预测,因为政策的变化会影响到后续行为,而变量之间的关系恰恰是由相应数据所反映。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15