京公网安备 11010802034615号
经营许可证编号:京B2-20210330
如何让大数据真正产生价值_数据分析师考试
如果有一天你可以预测未来,你要做的第一件事情是什么?买彩票?第二件、第三件事情呢? 先卖个关子,我们后面再说这件事情。
大数据是个产业,广义上指的是在这个信息过载时代围绕着海量信息产生、传播、收集、处理、创造价值的整个产品链条;狭义上一般指大数据存储与处理、数据挖掘的相关产业。目前市场上利用大数据最多的一般在于分析和预测。
根据本人10年来在这个行业的从业经验,大数据与前两年的云计算、再往前的网格计算、并行计算都是相同产业链上几个环节,它是作为概念被媒体和从业者炒作起来的。但不可否认的是,我们的社会正处于信息爆炸的时代,各行业的信息量都在几何级数增长,高效利用好这些数据确实能为工作和生活带来巨大变革。
观点1:数据本身不产生价值,如何分析和利用大数据对实际业务产生帮助才是关键
例如,它可以帮助控制美国占17.6%GDP的医疗支出,为医药行业带来超过3000亿美元的成本节省和收益(来自麦肯锡的报告)
Netflix 制作《纸牌屋》的故事很多人都听过,说的是这家公司利用大数据分析了用户最喜欢的情节、最喜欢的演员组合、最喜欢的编剧等等,组合起来之后自己制作了一部电视剧最终取得巨大成功。
虽然听过故事的人很多,但几乎没有人注意到,这家公司是处于大数据应用链的顶端。与提供分析服务、提供大数据存储、提供数据清洗的基础产业中下游公司不同,Netflix除了自身产生数据且具备分析能力外,关键的是具备把分析结果转化为产品的能力,这才是产生高利润和竞争力的核心。
观点2:从事大数据的生意要重视投入与产出
大数据门槛很低,用一个Excel就可以起步,但随着研究的深入,想利用大数据分析进行获利,还是需要一定的预算和投入。
比如:需要专业的团队,如大数据分析师,10年前这个职位就存在,叫BI(商业智能),工作的内容就是分析大量的数据并通过建模等方式帮助制定战略或进行商业决策。
有了分析师就需要有配套的工程师配合,从海量的数据中挖掘出有价值的东西。
服务器:大数据另一个要消耗的资源就是服务器,从存储到计算再到带宽,都是需要不断的进行投入的。
所以商业公司进入这个行业前要考虑下是否有足够的预算,但同时上述的几点也孕育了不少新的机会,比如amazon就是全球最大的云计算基础设施厂商,splunk和前一段上市的Tableau都是对分析师提供数据处理服务的,相当于替代了一部分昂贵的工程师的工作。
观点3:大数据不是最近才有的,数据一直存在,分析数据的技术近几年有了革命性的突破
处理海量数据在技术界一直是个课题,几个革命性的技术在近10年相继出现,奠定了我们目前大数据的基础,其中包括虚拟化技术、Map-Reduce & Bigtable 、 NoSQL数据库、Deep Learning技术等。
虚拟化造就了今天的amazon云服务基础设施, map reduce造就了帮助我们进行高速云计算的hadoop开源软件,之前处理几天的数据现在几分钟就可以处理完。NoSQL数据库已经广泛应用在了拥有大量数据及高访问量的网站上,性能比传统数据库提升了许多。
观点4:许多人已经默默地通过大数据获利
商业公司通过长期研究,一旦发现了通过大数据获利的秘诀,多数情况下还是选择独乐乐而不是众乐乐。因为分析方法和数据源一旦公开,竞争对手必然会跟进,会导致了方法同质化最终体现在收益降低。
精准营销是个众所周知的领域,通过对每个人的信息进行分类建模,进行不同种类的营销。比如搜索引擎中,你长期搜索一些新的楼盘信息,搜索引擎会根据你的搜索历史判断你极有可能是潜在的买房者,美国target百货公司就曾因为根据用户的购物记录判断出一女孩怀孕并给其家里投送孕妇购物手册而名声大噪。在淘宝中搜索了旅行背包后,在新浪上都能看到相关旅游用品的广告。
但实际上大数据公司为了提高竞争优势,已经并不满足于这种有直接联系的数据,纷纷通过更多的途径收集数据。 根据笔者这些年的见闻,在保护行业机密的前提下在这里分享一些读者之前没听过的干货。
1、路由器,之前只是上网的小盒子,在数据采购市场是极为炙手可热的渠道。原因是近些年随着手机硬件的发展(路由器和手机等移动设备使用相似的芯片),尤其是处理器计算能力的几何式增长,小小的路由器里面已经可以运行很多程序,这些程序在用户上网时默默的分析着各种各样的数据,包括你常联系的好友信息,上网记录等。
2、网络运营商,运营商喜欢在用户浏览网页时插入一些广告,相信多数人都遇到过,和路由器的数据分析原理一样,运营商并不满足于千篇一律的固定展示广告,也在与时俱进,利用大数据进行精准的个性化广告营销。
3、基础软件,如浏览器、输入法。不仅是电脑还包括手机,你用输入法在各个软件里提交的查询请求,在浏览器里鼠标移到某个商品上却没有点击等等, 这些大数据都会被储存到了云上,供厂商进行分析。
4、金融公司。
提到革命性的技术,就不得不提到金融行业。我们在文中前面提到过的大数据成本问题在金融行业就不是问题了,因为在这个行业新技术带来的收益的提升都远高于成本,故我们可以看到每一项新技术往往都会第一时间在金融业应用。大数据也不例外,其实在很多年前大数据的数据挖掘已经广泛应用到了金融领域。这里我们要把博彩行业也归为金融业。
直到今年美国才有零星应用的"商场人流量大数据监测系统"其实在许多年前就被应用到了澳门和美国拉斯维加斯的赌场,一家赌场安装有上千个摄像头,从顾客进门开始就通过面部识别技术开始追踪,结合每个人的交易情况进行数据挖掘,除了找出老千等不受欢迎的人外,还能挑选大客户,鼓励非理性的赌客加大赌注等方式获取更多利润。
股市是除了博彩行业外另一个大数据市场,几十年前的股市就是一个利用信息不对称获利的市场,如今大数据分析成为了新一代有效的工具。股票市场每时每刻都有海量的交易信息,大数据分析技术一直伴随着证券行业发展成长。
之前很多写大数据的文章都会提到印第安纳大学的研究人员研究发现通过分析twitter信息中人们的情绪可以准确预测股市的涨跌,但在google搜索利用twitter数据进行交易的对冲基金只能找到伦敦的DCM一家。原因正如上一段提到的,商业公司尤其是对冲基金都不会轻易暴露自己的运算逻辑,这个道理和《三体》中的“黑暗森林”逻辑是相同的。
但实际上,我们可以通过种种蛛丝马迹发现twitter信息已经广泛被市场中的对冲基金使用。比如只要好莱坞女星海瑟薇出现在头条,"股神"沃伦-巴菲特的公司的A股股价就会上涨。原因很简单,女星海瑟薇的名字是Anne Hathaway,巴菲特的公司叫伯克希尔-哈撒韦公司(Berkshire Hathaway),两者都包括Hathaway这个词,说明不少对冲基金都使用了实时分析twitter和新闻大数据的技术。
另外一个例子:一则假消息在twitter发布:白宫发生了两起爆炸事件,总统奥巴马(Barack Obama)在事件中受伤,导致股市、欧元等相关全线在第一时间下挫,道指2分钟下跌100多点,欧元也是强势下行,美国股市市值短暂蒸发约1,400亿美元。 一次偶然的黑客恶作剧,又导致许多使用twitter数据对冲基金被暴露出来。
再举个发生在身边的例子,大家知道到券商开户为什么要填写一张详细的表格吗?上面会要求你填写你的收入、投资经历等,因为在华尔街,有非常成熟的模型可以通过你填写的表格预测你未来的收益,同时分析大量的交易记录针对不同种类的用户进行相应的营销与服务,目标同样是提高利润。
金融领域另一块大的领域是信贷市场,国内最近也异常火热,包括阿里巴巴等公司早已进入。新的P2P产业除了在商业模式、效率、用户来源等与传统银行不同外,最关键因素之一就是大数据。通过大数据可以解决信贷产业最核心的坏账率问题。阿里巴巴通过其平台上用户的交易数据、好评率等完整的结构化数据可以非常容易的对用户进行信用评估,但其他平台没有阿里巴巴的数据优势,就需要更多的数据挖掘才能降低坏账率从而盈利,国外最大的P2P公司比如Lending Club是经过了6年不断完善才首次实现盈利,可见这个巨大的市场中我们面对的挑战之大。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15