京公网安备 11010802034615号
经营许可证编号:京B2-20210330
告别大数据 掌握“广数据”才是关键
大数据的概念确实有点歧义。当然,来自网络、电话、和其他数据源的信息确实数据量很大,但数据的主要价值并不在规模中。要从大数据中获取真正的商业价值,用户和BI供应商等还需要关注对广泛来源的数据的集成和分析,简言之,就是广数据。
未来商业的成功,依赖于大数据和企业主流数据系统中的数据能否有机地结合。很多供应商开发了很多技术来实现,比如在NoSQL数据库和Hadoop资源池上实现SQL查询。这种技术趋势很利于行业发展,因为新技术和老技术终究要结合起来。
对于管理大量非结构化数据来说,Hadoop是个好东西,但要实现精益分析,尤其是针对既有结构化数据、又有非结构化数据的数据结构时,Hadoop就显得力不从心了。另一方面,传统关系型数据库在利用几乎同一调用方式访问异构数据源方面,有着悠久的历史。而且从事数据分析的技术人员更熟悉的也是SQL语言。
另外,大多数用户想要的都是技术上的稳步革新,而不是彻底的变革。这意味着企业在采用新技术的同时,要最大限度地使其能够和现有IT生态系统融合,保护历史资产。因此,Hadoop集群、NoSQL数据库中的信息需要和传统的数据库和数据仓库的数据有效集成,这样才能更好地构建客户、市场趋势、企业运营视图。比如社交媒体的客户情感数据固然有价值,但如何不能和其他客户数据、市场数据相联,反应的情况也是片面的。
物联网数据不能孤立
物联网(IoT)也是大数据的重要数据源之一。安装在产品和机器设备上的传感器可以捕捉数据,并通过互联网将数据发送回运营系统。物联网大多应用于大型制造业,比如石油管道的远程传感器监控,卡车、货车等车辆的维护相关信息收集。
物联网的作用很大。传感器发回的大量信息可以帮助用户更好地监控质量问题、了解地域差异等等。物联网数据增长迅猛,随着时间的发展,很可能会差多Web数据。但同样,如果只是狭义地关注物联网数据,没有把它和众多其他数据源的数据集成,企业会错过很多有价值的信息。
数据仓库的潜力还没有完全发挥出来。一个主要的原因就是数据仓库很难利用实时数据。另一方面看,数据仓库处理的多是历史数据等变化缓慢的数据,处理这些数据根本不需要像处理实时数据一样。因此,好的BI和分析平台应该是既能处理历史数据,又能处理实时数据。将数据仓库和大数据技术结合起来,可以考虑内存处理。
下一代大数据技术应该解决的难题
更广义来看,大数据还应包括数据的流动,即数据从数据源产生到交到用户手里的过程。很多专家责难企业数据仓库没有“单一真相”,同样的数据产生出五花八门的分析结果,以及难以实现有效的数据治理。
现在,移动设备和自服务BI工具极大地改变了信息的传播范围。当数据进入移动设备,你很难监管它的传播。都有谁看了该信息?信息传播的轨迹是怎样的?有效的BI和大数据管理不只是收集和处理信息,也是管理信息的流通和传播。
数据规模确实是一个技术难题,但核心的问题在于广数据。如何将多种数据源的数据集成起来,如何处理,再如何让广大的用户用于业务决策和分析,这才是技术应该最主要关注的问题。要做到支持广泛的数据环境,供应商需要关注这些问题:
提供结构化数据和非结构化数据的访问,并能有效集成能够以不同的方式有效管理不同的数据集支持强大的数据治理模型
下一代BI和大数据技术必须能够解决数据的广度和复杂度的问题,而不仅仅是数据量。大数据不仅仅是数据量的大,更包含数据的广泛性。用户和供应商最好能在这一点上达成共识。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12很多小伙伴都在问CDA考试的问题,以下是结合 2025 年最新政策与行业动态更新的 CDA 数据分析师认证考试 Q&A,覆盖考试内容、报考 ...
2025-12-11在Excel数据可视化中,柱形图因直观展示数据差异的优势被广泛使用,而背景色设置绝非简单的“换颜色”——合理的背景色能突出核 ...
2025-12-11在科研实验、商业分析或医学研究中,我们常需要判断“两组数据的差异是真实存在,还是偶然波动”——比如“新降压药的效果是否优 ...
2025-12-11在CDA(Certified Data Analyst)数据分析师的工作体系中,数据库就像“数据仓库的核心骨架”——所有业务数据的存储、组织与提 ...
2025-12-11在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01