
深层数据:推动大数据成功的关键所在
毫无疑问,大家肯定都听说过“大数据”,但“深层数据”呢?答案恐怕是否定的。不用紧张,我并不打算给硬塞给大家新的专业词汇。不过鉴于近期以来企业用户正持续就需要收集并管理的数据量展开争论,我认为深层数据的概念应当进入各位关注数据潜力的企业用户的扁当中。专注于建筑行业能源利用效率的分析企业FirstFuel公司CTO兼首席数据官Badri Raghavan对此有着自己的独到见解。该公司的客户们,包括政府机关与能源机构,都在使用FirstFuel的能源分析服务以推动更为环保、更具成本效益的方案向办公环境、学校以及其它设施建设领域的普及。
在一次电话采访当中,Raghavan谈到了他对于“深层数据”的看法以及FirstFuel公司如何将这一理念转化为自身竞争优势。
“我们所谓的‘深层数据’其实是相关领域多种专业性知识储备的综合体——对于我们来说,也就是能源行业与数据科学的结合——旨在帮助技术人员从宏观规模角度对建筑的能源使用情况作出分析,”他告诉我们。
深层数据的概念与信息密度拥有密不可分的关联。“给定数据流当中可能包含大量信息,”Raghavan表示。“相反,大家也有可能收集到大量缺乏足够结论性内容或者信息的数据。”
大家可能已经猜到了,Raghavan本人对于数据收集或者尽可能汇总更多信息的作法并不认同。但目前很多企业都是这样做的,即在尚不确定是否有意义的情况下盲目汇集规模庞大的数据总量。
数据收集的真正核心在于效率,或者说“对目前已经掌握的数据资产加以利用。要实现这一目标,我们需要首先明确自己需要解决哪些技术或者业务难题。在大家可资利用的资源当中,哪一种数据流的作用最为重要?”
在FirstFuel所从事的行业当中——即分析大型建筑物的能源消耗情况——单一数据流往往成为最重要的计量数据。
“我们会把计量数据作为一栋建筑物的扫描结果。利用我们的数据科学算法,我们可以对建筑物的健康状况作出分析、找出其中的薄弱环节以及仍有效率提升空间的部分。”
他指出,这就是深层数据实际起效的一类极佳实例。计量数据是“一种相对精练的数据流,但其中包含的内容却相当丰富,”FirstFuel得以借此定位其最感兴趣的问题:找出能源消耗当中有违效率优先原则的状况。
当然,对于很多企业来说最重要的是摸清哪些数据流最具分析价值,而后还需要将其与其它数据加以结合以获得新的分析结论。
FirstFuel已经找到了几种通常最具潜在价值的数据流类型。
“计量数据能够告诉我们与建筑物相关的大量信息,”Raghavan指出。“接下来我们开始使用高分辨率航空影像——是的,就是谷歌地球,我们在工作中大量使用这类资料。从我们的角度来看,其中包含丰富的潜在信息。它能告诉我们这些建筑物楼顶布置有哪些类型的设备,”而FirstFuel能够借此大体判断对应建筑物需要消费的能源总量。
这家分析企业还将来自国家气象服务中心的数据纳入考量范畴。
“我们着手进行设置,并逐步逐步再逐步将其引入。只要能够对信息分析结论起到改进作用,我们就会将相关数据流纳入考量。”
而根据他的说法,这就是深层数据的基本概念。“大家可以对规模相对较小的数据集进行深层研究,而不再像过去那样长期面对浩如烟海的数据总和……并试图从其中捞到象征有价值结论的小针。”
举例来说,FirstFuel完全可以收集多种额外数据——其中包括与交通流量及泊车状况有关的信息,此外Twitter数据流也有涉及——但事实上根本没有明确的理由驱使他们选择这样费力的方式。
“相对于直接跃入存在海量数据可资进行潜在分析的大数据海洋、却往往最终几乎甚至完全得不到有价值信息,我们更倾向于从规模相对较小的数据量中获得更大收益——即将注意力集中在那些能够切实反映建筑物客观状况的数据身上,”Raghavan指出。“在制定出这样的解决思路后,接下来我们会逐步把想法变成现实。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
t 检验与 Wilcoxon 检验:数据差异比较的两大统计利器 在数据分析中,“比较差异” 是核心需求之一 —— 如新药疗效是否优于旧药 ...
2025-08-26季节性分解外推法:解锁时间序列预测的规律密码 在商业决策、资源调度、政策制定等领域,准确的预测是规避风险、提升效率的关键 ...
2025-08-26CDA 数据分析师:数据治理驱动下的企业数据价值守护者 在数字经济时代,数据已成为企业核心战略资产,其价值的释放离不开高 ...
2025-08-26基于 SPSS 的 ROC 曲线平滑调整方法与实践指南 摘要 受试者工作特征曲线(ROC 曲线)是评估诊断模型或预测指标效能的核心工具, ...
2025-08-25神经网络隐藏层神经元个数的确定方法与实践 摘要 在神经网络模型设计中,隐藏层神经元个数的确定是影响模型性能、训练效率与泛 ...
2025-08-25CDA 数据分析师与数据思维:驱动企业管理升级的核心力量 在数字化浪潮席卷全球的当下,数据已成为企业继人力、物力、财力之后的 ...
2025-08-25CDA数据分析师与数据指标:基础概念与协同逻辑 一、CDA 数据分析师:数据驱动时代的核心角色 1.1 定义与行业价值 CDA(Certified ...
2025-08-22Power Query 移动加权平均计算 Power Query 移动加权平均设置全解析:从原理到实战 一、移动加权平均法的核心逻辑 移动加权平均 ...
2025-08-22描述性统计:CDA数据分析师的基础核心与实践应用 一、描述性统计的定位:CDA 认证的 “入门基石” 在 CDA(Certified Data Analy ...
2025-08-22基于 Python response.text 的科技新闻数据清洗去噪实践 在通过 Python requests 库的 response.text 获取 API 数据后,原始数据 ...
2025-08-21基于 Python response.text 的科技新闻综述 在 Python 网络爬虫与 API 调用场景中,response.text 是 requests 库发起请求后获取 ...
2025-08-21数据治理新浪潮:CDA 数据分析师的战略价值与驱动逻辑 一、数据治理的多维驱动引擎 在数字经济与人工智能深度融合的时代,数据治 ...
2025-08-21Power BI 热力地图制作指南:从数据准备到实战分析 在数据可视化领域,热力地图凭借 “直观呈现数据密度与分布趋势” 的核心优势 ...
2025-08-20PyTorch 矩阵运算加速库:从原理到实践的全面解析 在深度学习领域,矩阵运算堪称 “计算基石”。无论是卷积神经网络(CNN)中的 ...
2025-08-20数据建模:CDA 数据分析师的核心驱动力 在数字经济浪潮中,数据已成为企业决策的核心资产。CDA(Certified Data Analyst)数据分 ...
2025-08-20KS 曲线不光滑:模型评估的隐形陷阱,从原因到破局的全指南 在分类模型(如风控违约预测、电商用户流失预警、医疗疾病诊断)的评 ...
2025-08-20偏态分布:揭开数据背后的非对称真相,赋能精准决策 在数据分析的世界里,“正态分布” 常被视为 “理想模型”—— 数据围绕均值 ...
2025-08-19CDA 数据分析师:数字化时代的价值创造者与决策智囊 在数据洪流席卷全球的今天,“数据驱动” 已从企业战略口号落地为核心 ...
2025-08-19CDA 数据分析师:善用 Power BI 索引列,提升数据处理与分析效率 在 Power BI 数据分析流程中,“数据准备” 是决定后续分析质量 ...
2025-08-18CDA 数据分析师:巧用 SQL 多个聚合函数,解锁数据多维洞察 在企业数据分析场景中,单一维度的统计(如 “总销售额”“用户总数 ...
2025-08-18