京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据的财富与陷阱_数据分析师考试
大数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。
2013年10月28日,三名新疆籍恐怖分子驾吉普车冲撞天安门,恐怖分子当场全部烧死,可是警方仅用了10多个小时就全部抓住了5名同伙。警方如何快速锁定嫌疑犯,这是国家秘密,但是从媒体披露的蛛丝马迹中,我们还是能发现无处不在的监控视频和电信追踪起到了至关重要的作用。从天安门广场追溯过去的海量信息,通过一些模糊匹配方法能快速地过滤信息,最后找出恐怖活动与嫌疑犯的相关性——这就是大数据的威力。
没有最大,只有更大 维基百科这样定义大数据(Big data):大数据或巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大,以至于无法在合理时间内通过人工截取、管理、处理并整理成为人类所能解读的信息。我们举个例子,IBM团队为了让电脑战胜国际象棋冠军卡斯帕罗夫,收集了将近100年来的60万盘高手的棋谱,这个就是大数据,人脑是无法记忆所有这些棋谱并加以有效利用的。1997年,国际象棋特级大师卡斯帕罗夫在《危险边缘》(jeopardy)节目中首次输给了IBM深蓝电脑,成为轰动一时的新闻。电脑能战胜人脑,秘诀就在于存储在深蓝电脑内的棋谱大数据。科学家们研制了人工智能博弈软件,能从大量的棋谱中找出最合适的步骤,这是人脑所无法企及的。
有人把大数据的特征归纳为4V:Volume(量大)、Variety(多样)、Velocity(高速)、Value(价值密度低)。让我们来回顾一下刚刚过去的“双十一”节,那天淘宝商城达成了1.88亿笔交易,总交易额达创纪录的350.19亿元。这些交易记录就形成了那天疯狂网购的大数据。 这样的记录首先体现在数据量巨大上。我们知道一部高清电影的容量大约有1GB,而1024个GB就是一个TB,再1024个TB就是一个PB,而大数据往往达到PB数量级,可见数据量大得无法想象。
其次,就是数据的多样性,交易的品种、卖家的信息、买家的信息、快递的信息、支付的信息,构成了一个行业多样化的数据链。第三,就是数据产生的速度极快,检索结果的速度也要求快,要在几百万件商品中查找出一类商品,其检索速度只需要1秒,这是传统技术无法达到的。最后,需要说明的是,大数据的内容虽然真实、完整地反映了客观世界,但它的价值密度很低,如果不去研究挖掘,大数据是不会自动产生有用结果的。
比如,在街景的海量监控视频中,犯罪分子留下的踪影也许只有几秒钟。 大数据时代 英国的大数据权威专家维克托·迈尔-舍恩伯格(Viktor Mayer-Schönberger)写过一本书,书名就叫《大数据时代》,书中首次断言人类已经无可逆转地跨入了大数据时代。据他估算,人类在2000年时大约只有四分之一的信息实现了数字化,其他的四分之三的信息仍然以报纸、书籍、胶片、磁带等形式存在,但是到了2007年人类存储的数据超过了300艾字节,相当于3000亿GB的信息量。大数据时代在生活、工作和思维上给人们带来了巨大变革。 首先,是数据的形式由原来的关系型数据(如电子表格形式)更多地表现为非关系型数据(如用户评论、图片等);数据存储方式也由原来集中式存储变为分布式存储,大型数据不得不存储在不同地方的存储服务器中,通过网络进行互联访问,构成所谓的云存储。
其次,是对数据处理的方式发生了根本变化,人们已无法只用一台电脑处理数据,必须依赖网络后面的云平台,进行云计算,才能有效处理大数据。在对大数据处理上,我们可以看到三个有趣的变化:在小数据时代,人们限于获取数据的困难,只能采用随机抽样的方式获取数据样本,然后根据样本数据进行分析预测。一旦样本出现偏差,那推导出的结果就会产生很大的误差。
而在大数据时代,我们能轻易地得到数据全体,而不再需要样本。譬如,阿里巴巴能得到所有买家的数据,它能轻易地统计“光棍节”那天的交易金额,算出哪个地区交易最活跃,可以通过媒体实时转播交易盛况。这就是大数据的全数据模式,数据处理的范围是全体,而不再是样本。第二个变化,是不再一味地追求数据的精确性。由于大数据的多样性、丰富性、动态性(在处理的同时,数据还在大量产生),强调数据的精确性是做不到的,也没有必要。纷繁的数据会混杂在一起,看起来好像全无用处,甚至有些还是错误的数据,但是没有关系,这就是大数据的本性,看似无关无用的一堆数据却蕴含着无限商机。
想一想,当人们在百度上比以往更多地搜索“感冒”“发热”等关键字时,往往意味着某地将要爆发流感,甚至还能预测是什么流感,这就是大数据的威力。第三个变化,是关注数据之间的相关性,而不是因果关系。比方说,通过挖掘天猫商城的交易数据,发现购买德龙咖啡机的买家,会有很高的比例购买宠物粮食,那商家会不失时机地推荐你购买皇家狗粮。咖啡机与狗粮没有因果关系,但却有内在的相关性。数据之间的相关性,就是大数据所蕴含的价值,也是商家追求的商机。大数据的相关性,告诉我们在面对错综繁杂的大数据时,我们不需要去研究“为什么”,只要知道“是什么”就足够了。
最后,大数据时代将催生一个数据挖掘行业,出现一批数字科学家。简单地说,数据挖掘就是从收集的数据中用一定的算法分析计算,得到我们所需要信息和知识的过程。传统的统计分析是将数据按已知的类别进行分类统计,然后寻找有价值的数据。如果给定的分类是不合理的或是错误的,那统计出来的结果就不会产生最好的效果。而数据挖掘采用的是一种叫“聚类”的方法,它事先不需要人工分类,而是由算法分析数据的属性,将数据自动聚集成“类”,使“类”间的相似性尽量小,“类”内的相似性尽量大。比方说,保险业务涵盖各类人群、各种职业,所以设计某个险种潜在的客户目标群,需要对大量数据进行挖掘,才能找出不同的客户群和重要系数,这不是事先人为设定的。要“让数据自己说话”,这样才能因地制宜地制订营销计划,科学测算盈亏平衡,为保险企业创造更多利润。
大数据的红利 有人断言,数据将成为人类的重要资产,成为比石油和黄金更为重要的可重复开发使用的资源。笔者也认同这个观点。最近,媒体报道“三马”联手买保险新闻,这是一个攒取大数据红利的例子。
“三马”利用阿里巴巴、腾讯和平安保险三家公司掌握大数据的优势,成立了网络保险公司——众安在线,这是具里程碑的互联网金融创新,旨在利用大数据对保险消费者进行准确定位和精准营销,瞄准的主要是80后、90后的消费者。可见,利用大数据技术将是未来各保险公司抢夺市场非常关键的一环。
另一个有益的应用将是利用大数据来防范电信诈骗。电信诈骗是当今社会的一大顽疾,如果电信、银行、互联网、公安等各方摈弃利益纠结,共享各自的大数据,那么最大限度地杜绝电信诈骗是完全可能的。我们只要分析挖掘各方的大数据,找出电信诈骗相关性的数据因数,然后建立动态监控模型,那么一旦相关数据出现,公安就能根据数据链快速找到诈骗犯。
炒股的高手都想赚取大数据概念股的红利。大数据的红利在哪里?存在于大数据的拥有者、大数据技术公司和大数据价值挖掘者(也就是提供思维的数据科学家)。马云说过:未来的世界是数据的世界。大数据时代已经撼动了世界的方方面面,从工业、农业、商业、科技到政府、医疗、教育、文化以及社会的其他各个领域,人们的生活日益被数据所改变。
可以说,大数据是一种比石油、黄金还要珍贵的资源,谁掌握了足够多的数据,谁就抢占了制高点,增强了竞争力,也就掌握了未来。 大数据的负面清单 大数据无疑是一个资源宝库,它蕴藏着巨大的价值,有待人们去挖掘。但是,就像硬币有两面一样,大数据也有其负面清单,我把它归结为数据垄断、侵犯隐私和数据误导三个主要方面。
数据垄断是大数据的最大隐患。我们知道,大数据技术使得人类的态度、情绪、行为等以往认为难以测量的方面,都可以变为数据来进行分析和预测。一旦大数据掌握在少数企业或政府部门之间,他们为了维护自己的利益而拒绝信息流动,这不仅浪费了数据资源,而且会阻碍数据创新,形成数据垄断。比方说,全国的房产数据如果能共享,这对国家了解房产的整体、真实情况非常有益,也能轻易挖出贪污腐败的嫌疑分子,但是这些数据往往掌握在地方部门之间,不能形成有效共享。
侵犯隐私是大数据的影子,只有将大数据置于法律的阳光下才能驱除。被斯诺登揭露的美国“棱镜计划”,就是利用访问大数据的能力,监控互联网、电信等九大营运商的数据库,从中挖掘“有用信息”,达到收集情报、秘密监控的目的。电话、电邮、文档、视频、照片、聊天记录等几乎所有的信息都暴露在“棱镜”之下,大数据为侵犯隐私开了方便之门。如果不对大数据的获取、访问、共享加以法律约束,那么个人隐私将不复存在。
美国最近有一款照片分享软件(Snapchat)应用很火,因为它能满足年轻人保护隐私的需要。在Snapchat中如果你分享一张照片给你的朋友,它将在对方阅读后马上自动删除,同时禁止在阅读时屏幕截图,具有“阅后即焚”的功效。因此,Snapchat也适合于发送商业机密或者敏感信息,焚毁后的照片不会在网上留下痕迹。这是人们反抗大数据的一个案例。但是在日常生活中,人们无法避开使用电信、互联网、微博、微信、QQ等服务,透过这些服务所记录的大数据,几乎透明无遗地显露了一个人的社交关系网。 数据误导是大数据风险的一个侧面,如果不对数据挖掘的结果加以评估验证,那利用大数据可能带来错误结果。虽然大数据容忍有数据差错,但如何有人主动地弄“脏”数据,整个大数据就会被人为扭曲,加进了虚假信息。
比如,我们在上淘宝网时,总是非常关注卖家的信用等级,但是总有一些卖家弄虚作假,通过自卖自买等虚构交易,来“攒评分”“刷信用”,有的卖家甚至雇人来“刷钻冲冠”。如果一个皇冠卖家的信用是靠“脏数据”获取的,那买家的上当受骗就是大概率事件。 大数据的红利目前只能被有权有势的大企业或政府部门瓜分,这对整个社会的健康、和谐发展是不利的。我们呼吁尽快立法,建立大数据共享平台,打破数据垄断,消除数据鸿沟,保护个人隐私,让大数据成为新经济最重要的生产要素,让普通人也能分享大数据的红利。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15