
异质性和共性是大数据两大挑战_数据时分析师考试
什么是大数据?大数据究竟能做什么?大数据时代的机会与挑战分别是什么?
如今面对无处不在的大数据,却很少有人可以清楚地回答出以上这三个问题。
日前,以“大数据时代,统计无处不在”为主题的问学讲堂在复旦大学管理学院举行。在此期间,《国际金融报》记者遇见了美国普林斯顿大学运筹与金融工程系系主任范剑青。由于对统计学重要而广泛的贡献,范剑青教授荣获2000年度的COPSS总统奖,该奖为国际统计学领域的最高奖,于2008年当选国际数理统计学会(IMS)主席,是该会创会以来70多位主席中惟一的中国人。
在这位统计学大师级的教授眼中,大数据不仅大,而且很复杂,既有结构性的数据,也有非结构性的数据,与生物、工程、自然科学、社会科学等息息相关。
在接受《国际金融报》记者的采访中,范剑青指出,大数据有两方面富有挑战的问题,异质性和共性。异质性能提供个性化的产品、服务等,共性则存在于不断的变化之中。“研究大数据,不仅能够预测未来,更重要的是探索其中的因果联系。”
大数据没那么美好
大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多;发出的社区帖子达200万个;卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……
更重要的是,数据已经不仅仅是数据本身了,这俨然是一场革命。
“大数据的影响包括数据获得、 数据管理、计算基础建设、计算优化等方面。大数据对统计分析的影响则包括噪声叠加、假相关、内生性、误差、异质性等。”范剑青告诉记者,在大数据时代,机会与挑战并存。
大规模的数据集很有诱惑力,能促使人们展开积极的分析,而且分析者希望能够从中获取有获奖可能性的科学发现。但有时,利用大数据意味着最终得到的是糟糕数据。要从大数据中得出高见,给计算机科学、统计推断方法甚至科学方法本身带来了巨大的挑战。
“当然,计算机领域的科学家通过开发出卓越的计算能力和信息存储技术,让大数据的积累成为可能。但是收集数据及存储信息与理解这些内容并不是一回事。”范剑青指出,了解大数据的真正意义并不等同于对小数据进行解读,就像明白鸟群的行为特征并不能解释一只孤独的海鸥所发出的叫声一样。
范剑青指出,标准的统计检验和计算程序原本是要分析从大的群体中提取的小样本,从而得出科学推断。但是大数据提供的样本极大,有时甚至包括整个群体或者群体的大部分。任务之艰巨会给实施计算过程从而完成统计检验带来问题。
“统计学的梦想,在于找到有效的统计方法,运用合适的计算手段,预测未来。”范剑青向记者表达出了他的统计学梦想。
无法取代传统收集法
目前,阿里、腾讯、京东由于坐拥电商的交易数据、社交信息数据等,都在“试水”利用大数据来搭建信用评价体系。但事实上,基于社交网络上的数据来进行信用评分、描绘一个人的画像,在国际上也没有成功的先例。那么,互联网社交数据究竟靠谱吗?
在范剑青在采访时候表示,“大数据肯定对于信用评估非常有帮助,比如在网上购买了什么东西、社交网络上有哪些朋友、你的朋友的违约程度,把这些相关数据整合在一起,显然可以勾勒出一个人基本的信用情况。但我认为,这也不太可能完全取代传统的数据收集方法,因为人们在网上的行为跟平时在网下的行为不完全是一样的。”
范剑青指出,针对个人信用的评价,美国至少有3家公司在收集相关数据,还有一个独立的公司把这些数据综合在一起。其实,非常关键的就是数据收集,因为人的行为是很多样化的。“在这方面,中国可能刚刚开始起步,最重要的还是央行的征信系统。但我相信,线上与线下的结合可以对于个人信用作出更为合理的评价。”
“过去10年至15年来,基于互联网的信息技术革命已给全人类带来了颠覆性影响,信息科学从某种程度上说,已成为推动经济发展的一个重要引擎。现在还可以预见的是:在未来的几十年时间里,更多与经济社会发展相关的决策,都会被大数据推着走。”范剑青表示,对大数据的研究固然涉及众多学科、领域,但按照目前美国学术界的共同看法,数学、统计学和计算机科学的三者结合是构成分析、研究大数据的基础。
防范金融系统风险
金融危机之后,各国都提高了对金融系统性风险的防范意识,其中大数据便是一个非常有效的工具。
作为大数据领域的专家, 范剑青多次受美国证监会邀请讲授大数据金融相关知识。“金融危机之后,美国相继成立了各种金融研究办公室,目的就是统筹收集各种公司的信贷数据,以及持有的相关金融产品的数据,就像防范恐怖袭击一样,给予金融风险不同等级的社会警示。”
事实上,大数据为金融行业带来的变革将首先体现在两个方面:精准营销。大数据改变信息结构,金融机构通过对客户数据的收集和分析,推出更有个体针对性的服务;风险管控。大数据改变风险管理模式,云计算推进最精确和最低成本的风险测算。这也进一步意味着运营效率和绩效的提升。
2012年,华尔街“德温特资本市场”公司利用电脑程序分析全球3.4亿社交账户的留言,进而判断民众情绪并决定如何处理手中的股票。判断便是:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售。2012年第一季度,公司因此获得了7%的收益率。
然而,对于利用大数据预知市场,范剑青仍然持保留意见。
“预知市场是很困难的,这其中包括两方面内容,一是投资,二是投机。在投资方面,一些历史数据或许可以有所帮助,比如市盈率、利率、市场信贷情况等,这些数据对于市场是否存在泡沫可以有一个大概的指导,但金融市场间的定价体系很多程度上还依赖于投资者行为,而投资者行为中究竟有多少投机成分,至少目前没有一个模型可以精确地预测。”范剑青如此指出。
值得注意的是,大数据的发展推动了互联网金融、移动金融等各种新业态的不断涌现。不少以技术为主导的互联网新兴企业也将参与到金融行业中来,一起分享大数据带来的饕餮盛宴。
“互联网的盛行,使得很多操作和信息披露变得特别快,买卖交易也变得更迅速,许多过去需要用几年才能完成的事情,在当今市场中过程便会缩得特别短。”范剑青指出,这也意味着市场的波动性可能会在互联网时代的影响下变得比前几年更大。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25