
实时大数据分析是网络分析的一种新方法
当被分解到其最简单的形式时,大数据分析包括两部分,以便将自身与数据仓库和商业智能进行区分:
实时行动
分布式,并行处理
大数据分析能够解决处理大量无关且不能存放在一个单一的服务器或数据库的数据集所带来的普遍的挑战问题。而这个问题可以通过使用分布式并行处理分布在多个服务器的大型数据集得以解决,每台服务器处理并行数据的一部分。大数据分析可以与结构化和非结构化数据工作,因为它并不需要一个特定的结构。这种做法的一个例子将使用Hadoop的MapReduce,其也可以看作是大数据对今天的深远影响。
尽管目前有方法来处理大量的数据,大数据处理缩小以便能够在指定的时间内完成。现在,时限这一概念比以往任何时候都越来越都多的与“实时”相关。
尽管RTBDA仍然是一个相对较新的概念,但其解决了实时主动或被动的采取措施的需求。而这是基于互联网内容和服务提供商们了解到了正在发生的事情,检查情况并实时采取行动。
理解“实时”电信
在实时大数据分析:新兴架构大会上,迈克巴洛问道,“所谓的实时到底有多'实时'?”“这取决于你的目标,问题的答案会有动态的变化。在某些情况下,秒或毫秒就足够了,而在另一些情况下,实时需要更快。
这个问题是从电信方面很有趣。它揭示了当前的电信运营商们如果想要成功的解决OTT公司所带来的流量挑战所必须面临的一个潜在的弱点。这样的话,目前在电信行业所能够接受的“实时”的标准就显得不再足够了。
此前,电信网络使用面向连接的技术。程序只能进行集中在一个高度结构化的进程,前一分钟的网络与后一分钟并没有多大的修改,甚至时间跨度一小时也不会有太大改变。在这些情况下,在一致的时间间隔从网络上收集信息就知道发生了什么。该协议的管理信息丰富,能够从一个协议聚集大量的洞察力。在这种情况下,“实时”可以在几秒钟之内甚至几分钟内定义,这就是为什么他们通过每5到15分钟收集呼叫详细记录(CDR)就能充分获得完全的洞察力的原因了。
同样的情形在今天已经不再可能。向LTE的过渡使电信运营商完成过渡到基于以太网和IP的数据包网络,其功能与面向连接的技术和协议是完全不同的。
IP网络的一个基本原则是:网络是自给自足的。网络提供了流量传输的通道,并依据流量拥堵和其他情况进行网络路径重定向。这个特点使网络能够迅速就相关的改变做出回应。缺点是无法确切地预测流量。这种情况又因以太网和IP协议变得复杂,缺乏面向连接的协议所能提供的同等水平的管理信息。
分组传输网络(Packet networks )本质上也是动态的,因为其设计初衷是为多个用户共享相同的基础设施提供服务的。在较长的一段时间,网络的消耗看起来很低,但在现实中流量传输需求很大,可能消耗掉所有可用的带宽。在这种情况下,对IP网络应该做出反馈,确保流量是在稳定的网络上传输。最终,在网络中可能从一个IP包或以太网帧到下一个发生变化。
电信网络管理和数据分析的中心问题是他们都依靠事件详细记录(EDRs),CDRs和IP详细记录(IPDRs)来深入了解实时发生的状况。
在过去,“实时”这一定义每隔几分钟就已经足够了。当我们考虑到以太网帧在10 Gbps网络可以以每帧短短67纳秒的时间在之间以太网帧传输,我们就开始理解在一个分组传输网络的“实时”指的是什么了。在现如今这个快节奏的环境“实时”的概念已经不仅不是分钟,也不是秒来。今天,其是以纳秒为时间间隔了。
实时评估
使用CDRs,EDRs和IPDRs进行大数据分析是一个好主意,这取决于企业正在努力完成的任务。大数据分析可以以两种方式制定决策:
实时决策
根据趋势及预测分析加强规划,以及服务和网络的优化
利用明细记录、以及其他结构化和非结构化数据源进行优化和规划是必要的。这些记录包括丰富的信息,帮助预测有用的趋势。除非辅以分组网络的实时信息,提供关于发生了什么的精确细节,否则这些信息将无法提供一个完整的视图。
不幸的是,详细的记录不能用于实时决策,因为其只是每5至15分钟的时间间隔进行收集。这个时间间隔与我们对什么是真正分组网络实时的理解不兼容。其需要不断收集,存储和分析真正的实时网络信息,进行决策。要理解网络正在发生什么,必须对所有相关的以太网帧与IP数据包进行实时审查。
通过以这种方式捕获和存储网络信息,我们不仅具备了能够分析使用实时信息的能力,同时也可以为我们提供一个了解在信息网络发生了什么事件的基础的详细可靠的方式,以补充其他大数据的活动的洞察。
RTBDA在电信行业的应用
实时数据采集层可以为决策制定提供可操作的、层出不穷的材料。无论是电信管理论坛和IP网络监控的服务质量智能支持(IPNQSIS)项目,以及欧洲Celtic-Plus计划的一部分,都曾研究过这个需求,作为提升各自客户体验管理的努力的一部分。这两个项目的结论是,探头和设备对于了解在网络中正在发生的事情的可靠,实时洞察是必要的。
典型地,探头数据采集器将数据传送到其他管理系统,而设备使用相同的技术,而且能够分析数据,并可以在本地存储信息。通常情况下,设备集中于一个特定的任务,比如性能监控,测试和测量,或安全性,并且往往被视为满足非常具体的要求。在另一方面,探头和设备可以作为大数据分析的实时数据源发挥更多的战术作用,并帮助实现RTBDA战略。下文中提供了一个这样的基础设施如何实现的三个步骤的视图。
实现部署
最初的步骤需要数据采集设备的部署。这里的一个关键因素是以太网帧和IP数据包必须被实时捕获,不管在什么情况下,以线速度且零数据包丢失。这种可见性证实了源源不断的可靠信息的收集。
每帧必须被赋予独特的时间间隔,以保证精确的时间表可以被建立,不仅涵盖本地的设备,同时还能跨多个设备。这些时间间隔精度必须是以纳秒为计量单位。例如,在10 Gbps的网络以太网帧只有67纳秒的时间间隔,时间间隔分辨率必须小于67纳秒。否则,两个以太网帧都会收到相同的时间间隔,使得其很难区分。在一个100 Gbps的网络,这段时间间隔将减少到6.7纳秒。
结合零数据包丢失捕捉纳秒级精度的实时数据,确保了我们能够掌握一致的,准确的数据分析信息流。
存储
其次,收集的信息应该实时被存储。几个设备提供捕捉的数据存储到磁盘,允许实时的数据可以直接存储到本地硬盘。另外,这些数据可以被转移到一个存储区域网络(SAN)或其他位置。捕获的数据可以被用来在网络上创建一个历史年表,以精确的细节记录发生了什么。其可能用来重现到底发生了什么事,当进行重现时,使用这些数据。
这段细节记录历史是数据分析的一个丰富的信息源。这种类型的数据可以为数据信息的使用和行为模式提供洞察。如果设备具有深度数据包检测(DPI)的功能,那么,使用服务,包括互联网服务,可以监视和分析时间,地点和设备类型使用方面的趋势。
这种信息本身对于网络和服务的优化是一种宝贵的资源。可以据此来规划新的,有针对性的服务,以匹配用户的喜好。此外,这些信息可以为互联网内容服务提供商提供洞察,让运营商能够向潜在客户提供令人信服的服务能力。
实时评估
最后,实时的数据存储有助于实现实时决策。捕获到磁盘的历史信息可帮助开发预期行为的配置文件。当数据与网络活动的实时信息并置时,能够检测出意想不到的事件或异常。这些问题可能是一个安全威胁,也有可能是性能下降或有机会为客户提供一个数据扩展包或互补性的服务。
从RTBDA的角度来看,这种能力与OTT内容及服务提供商执行的能力是非常接近的,基于对对目前正在发生的事情,并与过去的事情比较进行理解做出实时的反应。
RTBDA战略基础
遵循这三个步骤来实施,通过探头和设备提供的实时信息可以用来实现RTBDA电信网络以及在大数据分析战略规划中用其他信息来源以补充。
这一技术和产品用来实现战略部署不仅仅是可用的,而且已经被广泛使用了,只是不以这方面的目的。更有趣的是,当今绝大多数企业,金融,政府和电信网络所使用的设备都是基于现成的服务器技术,其是与未来的运营计划相兼容的。
软件定义的网络(SDN)和网络虚拟化功能(NFV)策略的基石都是基于现成的服务器硬件。
RTBDA在未来的电信业的展望
现在是时候需要现代电信网络重新考虑“实时”这一概念的意义,以及他们所使用的大数据分析的信息源了。电信运营商必须开始评估在网络中使用探头和设备技术等更多的战术方法来提供RTBDA了。这样,不仅能够为规划决策提供更准确的信息,同时也可以创造新的机会,提供更好的服务,不仅为最终用户,也为OTT服务提供商自身。这种能力最终可以帮助电信网络的OTT解决流量的货币化问题。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01