京公网安备 11010802034615号
经营许可证编号:京B2-20210330
在Paradigm4(也就是开源计算数据库管理系统SciDB的缔造者)本周发布的一份面向超过一百位数据科学家的调查报告当中,他们发现有71%的受访数据科学家认为随着数据源种类以及数据规模的不断增加、他们的工作难度也随之逐步攀升。
值得注意的是,只有48%的受访者在调查中表示他们曾经在工作当中使用过Hadoop或者Spark,而且76%的受访者认为Hadoop的执行速度太过缓慢、在建立规划时需要投入大量精力或者存在其它严重局限。
“数据源种类的不断增加正迫使数据科学家们寻找处理问题的捷径,否则数据量与财政预算之间的矛盾将变得不可调和,”Paradigm4公司 CEO Marilyn Matz表示。“目前对于数据规模的关注掩盖了分析工作当中的真正挑战所在。只有解决对不同类型数据加以利用这一重大难题,我们才有可能释放分析手段当中 所蕴藏的巨大潜能。”
即使抛开Hadoop平台周边存在的诸多挑战性因素,其本身也仍然无法令人满意。约有半数受访者在调查中表示(49%),他们发现自己的数据很 难与关系型数据库表相适应。59%的受访者指出他们所在的企业已经开始使用复杂的分析机制——包括协方差分析等数学手段、集群化、机器学习、主成分分析与 图形操作,而非商务智能报告等“基础分析”手段——对业务数据进行分析。
另有15%的受访者计划在未来一年中开始使用复杂分析机制,16%的受访者则将复杂分析机制的引入规划设定在未来两年内。只有4%的受访者表示他们所在的企业尚无计划使用复杂分析方案。
Paradigm4认为这意味着大数据这一“唾手可得的价值果实”已经开始转化为实际收益,而数据科学家们将需要进一步深入研究、从而最大程度提升其附加价值。
“大数据发展进程中由简单向复杂分析的过渡预示着分析机制将逐步走向规模化道路,而这个过程将超越单一服务器内存容量限制、将分散且易于忽略的 价值作为关注重点并需要以适当的混合采样频率作为依托——这一切都将成为分析领域的新兴需求,”Paradigm4在报告中写道。“这些复杂分析方法同时 也会给数据科学家带来众多不受监管且无从假设的实际处理方案,并最终让数据自身有能力给出结论。”
有时候单靠Hadoop还远远不够
Paradigm4还认为,Hadoop已经被不切实际地夸大成了一套具有普遍性与颠覆性的大数据解决方案。报告指出,在某些特定复杂分析用例 当中,Hadoop根本不能算是可行的解决方案。Paradigm4表示,基础分析已经成为一种“高度并行机制”(也被称为‘数据并行机制’),而复杂分 析则并非如此。
所谓高度并行问题可以被拆分成多个独立的子问题且能够并行运作——不同任务之间几乎甚至完全不存在关联性,因此大家不需要一次性访问全部数据内 容。这也正是Hadoop MapReduce在处理数据时所遵循的办法。而非高度并行类分析任务,例如众多复杂分析问题,要求一次性使用并共享全部数据内容并在处理过程当中随时进 行结果通信。
22%的受访数据科学家在调查中表示,Hadoop与Spark并不适合自己的分析实例。Paradigm4公司还发现,35%的受访数据科学家曾经尝试过Hadoop或者Spark,但最终放弃了将其引入实际业务环境的打算。
Paradigm4在报告中提到的111位美国数据科学家来自由创新研究企业Innovation Enterprise自2014年3月27日到4月23日进行的调查群体。Paradigm4在下面这份图表当中汇总了全部相关调查结果。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10