京公网安备 11010802034615号
经营许可证编号:京B2-20210330
异质性和共性是大数据两大挑战_数据时分析师考试
什么是大数据?大数据究竟能做什么?大数据时代的机会与挑战分别是什么?
如今面对无处不在的大数据,却很少有人可以清楚地回答出以上这三个问题。
日前,以“大数据时代,统计无处不在”为主题的问学讲堂在复旦大学管理学院举行。在此期间,《国际金融报》记者遇见了美国普林斯顿大学运筹与金融工程系系主任范剑青。由于对统计学重要而广泛的贡献,范剑青教授荣获2000年度的COPSS总统奖,该奖为国际统计学领域的最高奖,于2008年当选国际数理统计学会(IMS)主席,是该会创会以来70多位主席中惟一的中国人。
在这位统计学大师级的教授眼中,大数据不仅大,而且很复杂,既有结构性的数据,也有非结构性的数据,与生物、工程、自然科学、社会科学等息息相关。
在接受《国际金融报》记者的采访中,范剑青指出,大数据有两方面富有挑战的问题,异质性和共性。异质性能提供个性化的产品、服务等,共性则存在于不断的变化之中。“研究大数据,不仅能够预测未来,更重要的是探索其中的因果联系。”
大数据没那么美好
大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多;发出的社区帖子达200万个;卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……
更重要的是,数据已经不仅仅是数据本身了,这俨然是一场革命。
“大数据的影响包括数据获得、 数据管理、计算基础建设、计算优化等方面。大数据对统计分析的影响则包括噪声叠加、假相关、内生性、误差、异质性等。”范剑青告诉记者,在大数据时代,机会与挑战并存。
大规模的数据集很有诱惑力,能促使人们展开积极的分析,而且分析者希望能够从中获取有获奖可能性的科学发现。但有时,利用大数据意味着最终得到的是糟糕数据。要从大数据中得出高见,给计算机科学、统计推断方法甚至科学方法本身带来了巨大的挑战。
“当然,计算机领域的科学家通过开发出卓越的计算能力和信息存储技术,让大数据的积累成为可能。但是收集数据及存储信息与理解这些内容并不是一回事。”范剑青指出,了解大数据的真正意义并不等同于对小数据进行解读,就像明白鸟群的行为特征并不能解释一只孤独的海鸥所发出的叫声一样。
范剑青指出,标准的统计检验和计算程序原本是要分析从大的群体中提取的小样本,从而得出科学推断。但是大数据提供的样本极大,有时甚至包括整个群体或者群体的大部分。任务之艰巨会给实施计算过程从而完成统计检验带来问题。
“统计学的梦想,在于找到有效的统计方法,运用合适的计算手段,预测未来。”范剑青向记者表达出了他的统计学梦想。
无法取代传统收集法
目前,阿里、腾讯、京东由于坐拥电商的交易数据、社交信息数据等,都在“试水”利用大数据来搭建信用评价体系。但事实上,基于社交网络上的数据来进行信用评分、描绘一个人的画像,在国际上也没有成功的先例。那么,互联网社交数据究竟靠谱吗?
在范剑青在采访时候表示,“大数据肯定对于信用评估非常有帮助,比如在网上购买了什么东西、社交网络上有哪些朋友、你的朋友的违约程度,把这些相关数据整合在一起,显然可以勾勒出一个人基本的信用情况。但我认为,这也不太可能完全取代传统的数据收集方法,因为人们在网上的行为跟平时在网下的行为不完全是一样的。”
范剑青指出,针对个人信用的评价,美国至少有3家公司在收集相关数据,还有一个独立的公司把这些数据综合在一起。其实,非常关键的就是数据收集,因为人的行为是很多样化的。“在这方面,中国可能刚刚开始起步,最重要的还是央行的征信系统。但我相信,线上与线下的结合可以对于个人信用作出更为合理的评价。”
“过去10年至15年来,基于互联网的信息技术革命已给全人类带来了颠覆性影响,信息科学从某种程度上说,已成为推动经济发展的一个重要引擎。现在还可以预见的是:在未来的几十年时间里,更多与经济社会发展相关的决策,都会被大数据推着走。”范剑青表示,对大数据的研究固然涉及众多学科、领域,但按照目前美国学术界的共同看法,数学、统计学和计算机科学的三者结合是构成分析、研究大数据的基础。
防范金融系统风险
金融危机之后,各国都提高了对金融系统性风险的防范意识,其中大数据便是一个非常有效的工具。
作为大数据领域的专家, 范剑青多次受美国证监会邀请讲授大数据金融相关知识。“金融危机之后,美国相继成立了各种金融研究办公室,目的就是统筹收集各种公司的信贷数据,以及持有的相关金融产品的数据,就像防范恐怖袭击一样,给予金融风险不同等级的社会警示。”
事实上,大数据为金融行业带来的变革将首先体现在两个方面:精准营销。大数据改变信息结构,金融机构通过对客户数据的收集和分析,推出更有个体针对性的服务;风险管控。大数据改变风险管理模式,云计算推进最精确和最低成本的风险测算。这也进一步意味着运营效率和绩效的提升。
2012年,华尔街“德温特资本市场”公司利用电脑程序分析全球3.4亿社交账户的留言,进而判断民众情绪并决定如何处理手中的股票。判断便是:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售。2012年第一季度,公司因此获得了7%的收益率。
然而,对于利用大数据预知市场,范剑青仍然持保留意见。
“预知市场是很困难的,这其中包括两方面内容,一是投资,二是投机。在投资方面,一些历史数据或许可以有所帮助,比如市盈率、利率、市场信贷情况等,这些数据对于市场是否存在泡沫可以有一个大概的指导,但金融市场间的定价体系很多程度上还依赖于投资者行为,而投资者行为中究竟有多少投机成分,至少目前没有一个模型可以精确地预测。”范剑青如此指出。
值得注意的是,大数据的发展推动了互联网金融、移动金融等各种新业态的不断涌现。不少以技术为主导的互联网新兴企业也将参与到金融行业中来,一起分享大数据带来的饕餮盛宴。
“互联网的盛行,使得很多操作和信息披露变得特别快,买卖交易也变得更迅速,许多过去需要用几年才能完成的事情,在当今市场中过程便会缩得特别短。”范剑青指出,这也意味着市场的波动性可能会在互联网时代的影响下变得比前几年更大。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、机器学习的实操场景中,聚类分析与主成分分析(PCA)是两种高频使用的统计与数据处理方法。二者常被用于数据预处理 ...
2026-02-24在聚类分析的实操场景中,K-Means算法因其简单高效、易落地的特点,成为处理无监督分类问题的首选工具——无论是用户画像分层、 ...
2026-02-24数字化浪潮下,数据已成为企业核心竞争力,“用数据说话、用数据决策”成为企业发展的核心逻辑。CDA(Certified Data Analyst) ...
2026-02-24CDA一级知识点汇总手册 第五章 业务数据的特征、处理与透视分析考点52:业务数据分析基础考点53:输入和资源需求考点54:业务数 ...
2026-02-23CDA一级知识点汇总手册 第四章 战略与业务数据分析考点43:战略数据分析基础考点44:表格结构数据的使用考点45:输入数据和资源 ...
2026-02-22CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14在Power BI实操中,函数是实现数据清洗、建模计算、可视化呈现的核心工具——无论是简单的数据筛选、异常值处理,还是复杂的度量 ...
2026-02-13在互联网运营、产品迭代、用户增长等工作中,“留存率”是衡量产品核心价值、用户粘性的核心指标——而次日留存率,作为留存率体 ...
2026-02-13对CDA(Certified Data Analyst)数据分析师而言,指标是贯穿工作全流程的核心载体,更是连接原始数据与业务洞察的关键桥梁。CDA ...
2026-02-13在机器学习建模实操中,“特征选择”是提升模型性能、简化模型复杂度、解读数据逻辑的核心步骤——而随机森林(Random Forest) ...
2026-02-12在MySQL数据查询实操中,按日期分组统计是高频需求——比如统计每日用户登录量、每日订单量、每日销售额,需要按日期分组展示, ...
2026-02-12对CDA(Certified Data Analyst)数据分析师而言,描述性统计是贯穿实操全流程的核心基础,更是从“原始数据”到“初步洞察”的 ...
2026-02-12备考CDA的小伙伴,专属宠粉福利来啦! 不用拼运气抽奖,不用复杂操作,只要转发CDA真题海报到朋友圈集赞,就能免费抱走实用好礼 ...
2026-02-11在数据科学、机器学习实操中,Anaconda是必备工具——它集成了Python解释器、conda包管理器,能快速搭建独立的虚拟环境,便捷安 ...
2026-02-11在Tableau数据可视化实操中,多表连接是高频操作——无论是将“产品表”与“销量表”连接分析产品销量,还是将“用户表”与“消 ...
2026-02-11