京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据利用率仅1% 大量商业价值被浪费_数据分析师考试
许多人都会被震惊,如果他们知道研究人员只是从收集到数据中1%的数据进行分析和提取见解。而就是这1%被分析的数据支配了革新和见解,现在我们称之为“大数据”。而在每天收集的1 quintillion(百万3次方)字节的数据中,有99%的数据完全未被利用。
Gurjeet Singht是Ayasdi的联合创始人兼CEO。在Gigaom上带来了关于当下大数据技术的看法,Singht认为:从查询开始分析数据本身就是一个死胡同,并指出了当下的大数据只完成了万里长征的第一步。
以下为译文:
许多人都会被震惊,如果他们知道研究人员只是从收集到数据中1%的数据进行分析和提取见解。而就是这1%被分析的数据支配了革新和见解,现在我们称之为“大数据”。而在每天收集的1 quintillion(百万3次方)字节的数据中,有99%的数据完全未被利用。
我们都知道使用大数据非常的有前途,然而基于当下的许多因素,数据的有效利用仍然是个瓶颈。药物研发过程中,数据的使用多于化学过程;新能源的探测中,数据的使用超过地质学;恐怖分子的追踪、预防欺骗中同样如此。
现在我们已经认识到的上述的这些问题和其它一些全局性问题,都是数据使用的瓶颈所造成的。这种情况催生了大数据上的海量投资,而数据工作同样成为了最热门的岗位 数据科学家,更把私人数据分析服务提供商的估值推到数十亿美元。然而,你能想象到将分析的数据从1%提升到100%的前景吗。
对已有数据分析的见解
如果你拥有一个和人类基因一样庞大的数据集,你该如何开始比如,奥巴马最近提倡对人类大脑进行绘制为了突破,我们需要解决这个世界上最复杂的问题,我们需要根本上改变从数据中获取知识的途径。这里我们必须首先思考的是:
从查询开始必然是一个死胡同:查询本身并没有问题。事实上一旦你知道问什么问题,查询是至关重要的。同样这也是关键所在:从查询开始的初衷是从大量的数据中发现一个指针,然而他们并未做到。
数据是有开销的:大部分情况下,数据的储存已经不再昂贵。而且通过使用类似Hadoop或Redshift的工具,即使查询大量的数据都变得非常划算。当然,这只是从硬件的角度上讲。
见解就是金钱:我们愿意承担花销唯一理由就是数据中的见解可以释放价值。遗憾的是,我们失去了已收集数据中大部分的价值。虽然收集数据的成本可能会很高,但是无效分析带来的成本显然更高。当下并不存在什么工具可以直接从数据中提取见解,我们依赖着非常聪明的人去提出假设,然后使用我们的工具去证实(或者是否定)这些臆测。因为依赖的是臆测,这个途径存在着天生的缺陷。
你已经拥有了足够多的数据:这里经常存在的信念就是 “如果我们拥有了足够多的数据,我们肯定会得到我们想要的。”太多的时间和精力被浪费在新的数据收集上,其实你可以用你手中的数据做更多的事情。举个例子,Ayasdi最近在Nature Scientific Reports公布的从12岁乳腺癌患者身上获得的新见解,就已经被深入分析了10多年之久。
大数据只是起步,并不是终点
基于查询的分析在某些方面确实可以起到很多作用,但是很显然并没有满足人们对大数据的期望。
经常会听到我们在癌症研究、能源勘探、药物发现、金融欺诈检测等领域取得了关键性突破,如果因为炒作出来的“大数据泡沫”导致人们因为各种原因在数据分析投资上的失败,这与犯罪又有何不同
所以我们需要给予数据分析更高的期望,我们更需要认识到下一代解决方案必须满足:
授权领域专家:数据科学家出现的频率已完全跟不上企业的需求。这里不妨这么做,停止继续为他们(数据科学家)开发工具;取而代之的是,给商业用户(生物学家、地质学家、安全分析师等)开发对应的工具。他们比任何人都明白问题出现的环境,但可能跟不上最新的技术或数学。
加速探索:我们需要更快的获得关键见解。事实证明大数据技术的处理速度并没有承诺的那么快。如果一直这样发展下去,可能我们永远都得不到足够快的关键见解获得速度,因为我们永远都不可能针对所有数据提出所有的问题。
人机整合:为了更快的获得见解,我们需要加大对机器智能的投资。我们需要机器能在数据点之间寻求连接和关系时担当更多的重任,让其给商业用户一个更好的起点去探索见解。事实上通过算法途径解决这些问题是完全可行的,并且人们本身永远都不可能发现大型数据集上的显著特征。例如在最近的一项研究中,通过算法查询网络搜索引擎日志发现了之前未报告过的药物副作用。
分析各种形式的数据:当然,研究人员需要分析结构化和非结构化的数据。同样我们需要认识非结构化数据的多样性:所有语言、声音、视频和面部识别文档。
当谈到大数据演变,我们只处于其初级阶段。显而易见如果我们继续分析百分之一的数据,那么我们只能挖掘其1%的价值。如果我们能够分析其它的99%,那么想象一下我们可以从各种方面推动世界进步。我们可以加速经济增长、治愈癌症及其他疑难杂症、减少恐怖袭击、以及在一些其它的挑战上拿到入场卷。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12很多小伙伴都在问CDA考试的问题,以下是结合 2025 年最新政策与行业动态更新的 CDA 数据分析师认证考试 Q&A,覆盖考试内容、报考 ...
2025-12-11在Excel数据可视化中,柱形图因直观展示数据差异的优势被广泛使用,而背景色设置绝非简单的“换颜色”——合理的背景色能突出核 ...
2025-12-11在科研实验、商业分析或医学研究中,我们常需要判断“两组数据的差异是真实存在,还是偶然波动”——比如“新降压药的效果是否优 ...
2025-12-11在CDA(Certified Data Analyst)数据分析师的工作体系中,数据库就像“数据仓库的核心骨架”——所有业务数据的存储、组织与提 ...
2025-12-11在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01