京公网安备 11010802034615号
经营许可证编号:京B2-20210330
物联网驱动下的大数据管理
物联网的价值在于其数据,而物联网带来的史无前例的数据规模将驱动现在的数据服务企业发生根本性改变,这要求企业调整其大数据战略。
具有“大数据时代预言家”之称的维克托·迈尔曾经在自己的著名论著《大数据时代》中预言——物联网(IOT)技术的发展将极大地改变传统数据存储分析领域。这就难怪有那么多的公司正试图投身物联网大潮。据麦肯锡全球研究院的最新报告显示:到2025年,物联网行业的总营收将达6.2万亿美元。
但正如维克托担心的一样——这些弄潮儿们真的为物联网将造就的大数据时代做好准备了吗?
当然,除了技术层面的考虑,安全问题也不容忽视。但是,笔者更关心的是:全球大多数的数据中心(包括那些专门非盈利性的数据存储和分析机构)对由物联网即将带来的海量数据似乎毫无准备。
当然有一些科技公司仍然坚持认为自己完全有能力管理好自己的数据中心,但是当数据量以PB或者EB为单位增加时,不知道这些公司是否还认为笔者庸人自扰?如果依旧固执己见,那么他们就不得不对相应的基础设施进行大笔的投资。而相对聪明的公司会选择业界领先的云存储公司作为自己的战略同盟。所以,由物联网引起的大数据潮流将会助推云存储和云计算的发展。
物联网产生的大数据处理过程可以归结为三个基本步骤:数据采集、数据存储和数据分析。数据采集和存储是基本的功能,而大数据时代真正的价值蕴含在数据分析中。对于大数据时代的到来,有专家曾经估计有半数以上的大数据公司可能夭折,而原因是他们未能掌握数据采集相关技术。当然也并不是说过了数据采集这个难关就可以万事大吉,接下来在数据存储方面仍有一连串的挑战。比如,公司必须掌握如分布式计算、并行计算等先进的存储计算方法。
2009年,甲型H1N1流感病毒肆虐全球。与流感病毒传播速度相比,美国政府对流感病例的申告制度显得效率低下。这时候人们才重新注意流感病毒爆发前几周,谷歌公司几位工程师在《Nature》上发表的一篇文章。在文章中,谷歌公司通过对全美境内5000万条最频繁检索的词条和美国疾控心公布的季节性流感传播数据进行比较发现:在未来一段时间很可能爆发一次大规模的流感疫情,而且清楚预测出了具体的地区和州。最后疫情爆发的时候,疾控中心惊讶地发现谷歌公司的预测竟然与疫情爆发地精准吻合。所以,对于大数据时代而言真正的意义在于数据分析。
数据分析的挑战还在于将新的物联网数据和已有的数据库整合。iDoNews认为,有两个方面最令人头疼。首先,软件方面——原来的数据库与物联网数据库之间使用的存储方法不同,这时候就要求公司不得不靠大量的人工重新定义原来的海量数据。第二,硬件方面——两种数据库之间所使用硬件介质(服务器、磁盘等存储介质和网络等基础设施)不同,这将导致公司需要进行更大规模的基础设施建设。
这时候如果还有公司想靠自己一方的努力管理本公司数据,那无疑是作死。
为此,真正有眼光的企业可以采用如下三种方案:
第一种,也是最流行的方式——利用成熟的第三方数据库服务(DBaaS),如亚马逊的Redshift.这种模式的优势在于,客户公司不需要具备安装、管理和运行任何大型数据库的经验和技术。
第二种,利用大数据托管服务。托管服务供应商(MSP)将负责数据收集、数据库管理并提供进行分析和提取数据集的服务。这种模式不仅使企业专注于其商业价值所在的数据分析而将一些较难处理的事情外包,而且还使企业用户无需大量先期投入就可以快速进入大数据应用的市场化阶段,同时也解决了很多企业在该领域的技术短缺。
第三种,基于云计算的数据库矩阵解决方案。这种模式主要针对那些具有多种不同类型、甚至非联系型数据库的公司。这些公司通常要求数据存放于多个数据中心,并且既存于公共端也可能存在私有的云端。公司不仅要求不同类型数据库的解决方案,而且对自身的大数据也有不同的应用需求。美国主机服务商ServePath下的GoGrid云计算平台正致力于这种数据库管理服务。
物联网的价值在于其数据,而物联网带来的史无前例的数据规模将驱动现在的数据服务企业发生根本性改变,这要求企业调整其大数据战略。等着瞧吧,物联网必然催生出大数据管理领域的大赢家。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22