京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代对统计学和经济学有何影响
统计学具体不太了解, 大数据对经济学的影响如下:
短答案: 经济学界追求 causal inference 和 大数据追求的 predictive modeling 被广大经济学家认为有天壤之别, 所以大数据 (或者准确的说 statistical learning方法) 对目前经济学研究, 公共政策指定还没有实质性的帮助. 但是提供了不少实证方面的新思路新方法, 也对计量经济学提出新挑战 ( 社交网络数据 ). 未来障碍一个个突破后, 会有很大的应用.
经济学家是很追求效益的, 对于大的数据库肯定要尽可能的获取好处, 排除坏处. 大数据并不会替代常识, 经济学理论, 以及细致的研究设计. 大数据只会在这些方面进行弥补.
长答案:
1. 大数据的"大"
大数据最显著的特征就是 数据量大 ( large scope ) + 即时性 ( real time data )
比如: 你在超市收银机的数据, 网购的记录, 或者在线阅读( 比如在知乎的关注文章 ) 等等.
同时大数据时代带来了很多新的数据类型 (新在于对比以往经济学上运用的数据)
比如: 社交网络上发的微博或者朋友圈里所包含的文字数据 (这是以往经济分析中不太会使用的).
计量经济中的数据结构经常是矩阵型的, 也就是说通常收集 N 个观察项, K 个变量 (且 K << N)
大数据的数据结构显然不是这样, 很多情况下 K > N
计量中经常假设观察项之间是独立的, 但是在社交网络中观察项之间却是经常互相联结, 计量经济学未来在使用社交网络数据时如何处理这种观察项间的影响将成为一个关键.
2. 目前时髦的大数据应用: 预测建模 ( predictive modeling )
简而言之, 预测建模可以理解为: 已知 N 个观察 通过 K 个预测变量 来推导出相关性最强的 N 个结果.
大数据时代数据虽然丰富多了, 但是数据的质量却很容易下降.
比如: 纵使你有全国层次上百万级的观察项, 而你所研究的课题却是在市县层次. 容易造成大量不相关且描述不够详尽的数据.
而且这种统计方法面临一个权衡取舍:
在 K > N 的时候, 模型的样本外预测效果 ( out-of-sample performance ) 就会很差. 但是模型的样本内预测效果 (in-sample performance) 会很好.
而当经济学家考虑运用数据分析软件机器学习的方法时, 很容易想到卢卡斯批评( Lucas Critique ): 如果一个预测模型通过收集市场上已知的经济行为, 从而用来预测最优的政府干预政策时, 预测的结果可能并不准确, 因为预测出来的干预政策会改变市场的经济行为( 而这些正是和原模型中相关联的 )
3. 大数据时代已经为实证经济学研究提供了新的思路
美国统计局调查通货膨胀是使用派发问卷的方式, 回收的数据再分类到不同的通货膨胀指标中 (eg CPI). 大数据领域的 Billion Price Project ( BPP ) 运用实时的在线商店数据提供了一种 CPI 的替代指标 (这一指标在美国被验证 BPP 与 CPI 有很强的相关性).
其他的还有穆迪分析通过 MasterCard 和 Visa 的 Spending Pulse 来提供行业就业率的观测指标.
然而这些大数据还不够完美, 很显然这些数据的样本本身就不具有代表性. 比如: 利用 MasterCard 和 Visa 推导出的就业率指数首先就要求被调查者要至少有一张 MasterCard 或者 Visa.
4. 对经济学家的挑战
大数据分析: 公共领域以及政府数据是否容易获得.
数据管理以及编辑能力: 经济学家是否有能力快速的把大数据高效地应用在经济学思想.
最重要的, 急需开发出创新的数据总结, 描述和分析的方法.
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
B+树作为数据库索引的核心数据结构,其高效的查询、插入、删除性能,离不开节点间指针的合理设计。在日常学习和数据库开发中,很 ...
2026-01-30在数据库开发中,UUID(通用唯一识别码)是生成唯一主键、唯一标识的常用方式,其标准格式包含4个短横线(如550e8400-e29b-41d4- ...
2026-01-30商业数据分析的价值落地,离不开标准化、系统化的总体流程作为支撑;而CDA(Certified Data Analyst)数据分析师,作为经过系统 ...
2026-01-30在数据分析、质量控制、科研实验等场景中,数据波动性(离散程度)的精准衡量是判断数据可靠性、稳定性的核心环节。标准差(Stan ...
2026-01-29在数据分析、质量检测、科研实验等领域,判断数据间是否存在本质差异是核心需求,而t检验、F检验是实现这一目标的经典统计方法。 ...
2026-01-29统计制图(数据可视化)是数据分析的核心呈现载体,它将抽象的数据转化为直观的图表、图形,让数据规律、业务差异与潜在问题一目 ...
2026-01-29箱线图(Box Plot)作为数据分布可视化的核心工具,能清晰呈现数据的中位数、四分位数、异常值等关键统计特征,广泛应用于数据分 ...
2026-01-28在回归分析、机器学习建模等数据分析场景中,多重共线性是高频数据问题——当多个自变量间存在较强的线性关联时,会导致模型系数 ...
2026-01-28数据分析的价值落地,离不开科学方法的支撑。六种核心分析方法——描述性分析、诊断性分析、预测性分析、规范性分析、对比分析、 ...
2026-01-28在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27数据分析的基础范式,是支撑数据工作从“零散操作”走向“标准化落地”的核心方法论框架,它定义了数据分析的核心逻辑、流程与目 ...
2026-01-27在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26在数字化浪潮下,数据分析已成为企业决策的核心支撑,而CDA数据分析师作为标准化、专业化的数据人才代表,正逐步成为连接数据资 ...
2026-01-26数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22