京公网安备 11010802034615号
经营许可证编号:京B2-20210330
异质性和共性是大数据两大挑战_数据时分析师考试
什么是大数据?大数据究竟能做什么?大数据时代的机会与挑战分别是什么?
如今面对无处不在的大数据,却很少有人可以清楚地回答出以上这三个问题。
日前,以“大数据时代,统计无处不在”为主题的问学讲堂在复旦大学管理学院举行。在此期间,《国际金融报》记者遇见了美国普林斯顿大学运筹与金融工程系系主任范剑青。由于对统计学重要而广泛的贡献,范剑青教授荣获2000年度的COPSS总统奖,该奖为国际统计学领域的最高奖,于2008年当选国际数理统计学会(IMS)主席,是该会创会以来70多位主席中惟一的中国人。
在这位统计学大师级的教授眼中,大数据不仅大,而且很复杂,既有结构性的数据,也有非结构性的数据,与生物、工程、自然科学、社会科学等息息相关。
在接受《国际金融报》记者的采访中,范剑青指出,大数据有两方面富有挑战的问题,异质性和共性。异质性能提供个性化的产品、服务等,共性则存在于不断的变化之中。“研究大数据,不仅能够预测未来,更重要的是探索其中的因果联系。”
大数据没那么美好
大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多;发出的社区帖子达200万个;卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……
更重要的是,数据已经不仅仅是数据本身了,这俨然是一场革命。
“大数据的影响包括数据获得、 数据管理、计算基础建设、计算优化等方面。大数据对统计分析的影响则包括噪声叠加、假相关、内生性、误差、异质性等。”范剑青告诉记者,在大数据时代,机会与挑战并存。
大规模的数据集很有诱惑力,能促使人们展开积极的分析,而且分析者希望能够从中获取有获奖可能性的科学发现。但有时,利用大数据意味着最终得到的是糟糕数据。要从大数据中得出高见,给计算机科学、统计推断方法甚至科学方法本身带来了巨大的挑战。
“当然,计算机领域的科学家通过开发出卓越的计算能力和信息存储技术,让大数据的积累成为可能。但是收集数据及存储信息与理解这些内容并不是一回事。”范剑青指出,了解大数据的真正意义并不等同于对小数据进行解读,就像明白鸟群的行为特征并不能解释一只孤独的海鸥所发出的叫声一样。
范剑青指出,标准的统计检验和计算程序原本是要分析从大的群体中提取的小样本,从而得出科学推断。但是大数据提供的样本极大,有时甚至包括整个群体或者群体的大部分。任务之艰巨会给实施计算过程从而完成统计检验带来问题。
“统计学的梦想,在于找到有效的统计方法,运用合适的计算手段,预测未来。”范剑青向记者表达出了他的统计学梦想。
无法取代传统收集法
目前,阿里、腾讯、京东由于坐拥电商的交易数据、社交信息数据等,都在“试水”利用大数据来搭建信用评价体系。但事实上,基于社交网络上的数据来进行信用评分、描绘一个人的画像,在国际上也没有成功的先例。那么,互联网社交数据究竟靠谱吗?
在范剑青在采访时候表示,“大数据肯定对于信用评估非常有帮助,比如在网上购买了什么东西、社交网络上有哪些朋友、你的朋友的违约程度,把这些相关数据整合在一起,显然可以勾勒出一个人基本的信用情况。但我认为,这也不太可能完全取代传统的数据收集方法,因为人们在网上的行为跟平时在网下的行为不完全是一样的。”
范剑青指出,针对个人信用的评价,美国至少有3家公司在收集相关数据,还有一个独立的公司把这些数据综合在一起。其实,非常关键的就是数据收集,因为人的行为是很多样化的。“在这方面,中国可能刚刚开始起步,最重要的还是央行的征信系统。但我相信,线上与线下的结合可以对于个人信用作出更为合理的评价。”
“过去10年至15年来,基于互联网的信息技术革命已给全人类带来了颠覆性影响,信息科学从某种程度上说,已成为推动经济发展的一个重要引擎。现在还可以预见的是:在未来的几十年时间里,更多与经济社会发展相关的决策,都会被大数据推着走。”范剑青表示,对大数据的研究固然涉及众多学科、领域,但按照目前美国学术界的共同看法,数学、统计学和计算机科学的三者结合是构成分析、研究大数据的基础。
防范金融系统风险
金融危机之后,各国都提高了对金融系统性风险的防范意识,其中大数据便是一个非常有效的工具。
作为大数据领域的专家, 范剑青多次受美国证监会邀请讲授大数据金融相关知识。“金融危机之后,美国相继成立了各种金融研究办公室,目的就是统筹收集各种公司的信贷数据,以及持有的相关金融产品的数据,就像防范恐怖袭击一样,给予金融风险不同等级的社会警示。”
事实上,大数据为金融行业带来的变革将首先体现在两个方面:精准营销。大数据改变信息结构,金融机构通过对客户数据的收集和分析,推出更有个体针对性的服务;风险管控。大数据改变风险管理模式,云计算推进最精确和最低成本的风险测算。这也进一步意味着运营效率和绩效的提升。
2012年,华尔街“德温特资本市场”公司利用电脑程序分析全球3.4亿社交账户的留言,进而判断民众情绪并决定如何处理手中的股票。判断便是:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售。2012年第一季度,公司因此获得了7%的收益率。
然而,对于利用大数据预知市场,范剑青仍然持保留意见。
“预知市场是很困难的,这其中包括两方面内容,一是投资,二是投机。在投资方面,一些历史数据或许可以有所帮助,比如市盈率、利率、市场信贷情况等,这些数据对于市场是否存在泡沫可以有一个大概的指导,但金融市场间的定价体系很多程度上还依赖于投资者行为,而投资者行为中究竟有多少投机成分,至少目前没有一个模型可以精确地预测。”范剑青如此指出。
值得注意的是,大数据的发展推动了互联网金融、移动金融等各种新业态的不断涌现。不少以技术为主导的互联网新兴企业也将参与到金融行业中来,一起分享大数据带来的饕餮盛宴。
“互联网的盛行,使得很多操作和信息披露变得特别快,买卖交易也变得更迅速,许多过去需要用几年才能完成的事情,在当今市场中过程便会缩得特别短。”范剑青指出,这也意味着市场的波动性可能会在互联网时代的影响下变得比前几年更大。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-10在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-10在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07在数据分析与统计推断中,p值是衡量假设检验结果显著性的核心指标,其本质是在原假设(通常为“无效应”“无差异”)成立的前提 ...
2026-04-07在数字经济深度渗透的今天,数据已成为企业生存发展的核心资产,企业的竞争本质已转变为数据利用能力的竞争。然而,大量来自生产 ...
2026-04-07Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02在数字化交互的全场景中,用户的每一次操作都在生成动态的行为轨迹——电商用户的“浏览商品→点击详情→加入购物车”,内容APP ...
2026-04-02在数字化转型深度推进的今天,企业数据已成为驱动业务增长、构建核心竞争力的战略资产,而数据安全则是守护这份资产的“生命线” ...
2026-04-02在数据驱动决策的浪潮中,数据挖掘与数据分析是两个高频出现且极易被混淆的概念。有人将二者等同看待,认为“做数据分析就是做数 ...
2026-04-01