京公网安备 11010802034615号
经营许可证编号:京B2-20210330
实时大数据分析是网络分析的一种新方法
当被分解到其最简单的形式时,大数据分析包括两部分,以便将自身与数据仓库和商业智能进行区分:
实时行动
分布式,并行处理
大数据分析能够解决处理大量无关且不能存放在一个单一的服务器或数据库的数据集所带来的普遍的挑战问题。而这个问题可以通过使用分布式并行处理分布在多个服务器的大型数据集得以解决,每台服务器处理并行数据的一部分。大数据分析可以与结构化和非结构化数据工作,因为它并不需要一个特定的结构。这种做法的一个例子将使用Hadoop的MapReduce,其也可以看作是大数据对今天的深远影响。
尽管目前有方法来处理大量的数据,大数据处理缩小以便能够在指定的时间内完成。现在,时限这一概念比以往任何时候都越来越都多的与“实时”相关。
尽管RTBDA仍然是一个相对较新的概念,但其解决了实时主动或被动的采取措施的需求。而这是基于互联网内容和服务提供商们了解到了正在发生的事情,检查情况并实时采取行动。
理解“实时”电信
在实时大数据分析:新兴架构大会上,迈克巴洛问道,“所谓的实时到底有多'实时'?”“这取决于你的目标,问题的答案会有动态的变化。在某些情况下,秒或毫秒就足够了,而在另一些情况下,实时需要更快。
这个问题是从电信方面很有趣。它揭示了当前的电信运营商们如果想要成功的解决OTT公司所带来的流量挑战所必须面临的一个潜在的弱点。这样的话,目前在电信行业所能够接受的“实时”的标准就显得不再足够了。
此前,电信网络使用面向连接的技术。程序只能进行集中在一个高度结构化的进程,前一分钟的网络与后一分钟并没有多大的修改,甚至时间跨度一小时也不会有太大改变。在这些情况下,在一致的时间间隔从网络上收集信息就知道发生了什么。该协议的管理信息丰富,能够从一个协议聚集大量的洞察力。在这种情况下,“实时”可以在几秒钟之内甚至几分钟内定义,这就是为什么他们通过每5到15分钟收集呼叫详细记录(CDR)就能充分获得完全的洞察力的原因了。
同样的情形在今天已经不再可能。向LTE的过渡使电信运营商完成过渡到基于以太网和IP的数据包网络,其功能与面向连接的技术和协议是完全不同的。
IP网络的一个基本原则是:网络是自给自足的。网络提供了流量传输的通道,并依据流量拥堵和其他情况进行网络路径重定向。这个特点使网络能够迅速就相关的改变做出回应。缺点是无法确切地预测流量。这种情况又因以太网和IP协议变得复杂,缺乏面向连接的协议所能提供的同等水平的管理信息。
分组传输网络(Packet networks )本质上也是动态的,因为其设计初衷是为多个用户共享相同的基础设施提供服务的。在较长的一段时间,网络的消耗看起来很低,但在现实中流量传输需求很大,可能消耗掉所有可用的带宽。在这种情况下,对IP网络应该做出反馈,确保流量是在稳定的网络上传输。最终,在网络中可能从一个IP包或以太网帧到下一个发生变化。
电信网络管理和数据分析的中心问题是他们都依靠事件详细记录(EDRs),CDRs和IP详细记录(IPDRs)来深入了解实时发生的状况。
在过去,“实时”这一定义每隔几分钟就已经足够了。当我们考虑到以太网帧在10 Gbps网络可以以每帧短短67纳秒的时间在之间以太网帧传输,我们就开始理解在一个分组传输网络的“实时”指的是什么了。在现如今这个快节奏的环境“实时”的概念已经不仅不是分钟,也不是秒来。今天,其是以纳秒为时间间隔了。
实时评估
使用CDRs,EDRs和IPDRs进行大数据分析是一个好主意,这取决于企业正在努力完成的任务。大数据分析可以以两种方式制定决策:
实时决策
根据趋势及预测分析加强规划,以及服务和网络的优化
利用明细记录、以及其他结构化和非结构化数据源进行优化和规划是必要的。这些记录包括丰富的信息,帮助预测有用的趋势。除非辅以分组网络的实时信息,提供关于发生了什么的精确细节,否则这些信息将无法提供一个完整的视图。
不幸的是,详细的记录不能用于实时决策,因为其只是每5至15分钟的时间间隔进行收集。这个时间间隔与我们对什么是真正分组网络实时的理解不兼容。其需要不断收集,存储和分析真正的实时网络信息,进行决策。要理解网络正在发生什么,必须对所有相关的以太网帧与IP数据包进行实时审查。
通过以这种方式捕获和存储网络信息,我们不仅具备了能够分析使用实时信息的能力,同时也可以为我们提供一个了解在信息网络发生了什么事件的基础的详细可靠的方式,以补充其他大数据的活动的洞察。
RTBDA在电信行业的应用
实时数据采集层可以为决策制定提供可操作的、层出不穷的材料。无论是电信管理论坛和IP网络监控的服务质量智能支持(IPNQSIS)项目,以及欧洲Celtic-Plus计划的一部分,都曾研究过这个需求,作为提升各自客户体验管理的努力的一部分。这两个项目的结论是,探头和设备对于了解在网络中正在发生的事情的可靠,实时洞察是必要的。
典型地,探头数据采集器将数据传送到其他管理系统,而设备使用相同的技术,而且能够分析数据,并可以在本地存储信息。通常情况下,设备集中于一个特定的任务,比如性能监控,测试和测量,或安全性,并且往往被视为满足非常具体的要求。在另一方面,探头和设备可以作为大数据分析的实时数据源发挥更多的战术作用,并帮助实现RTBDA战略。下文中提供了一个这样的基础设施如何实现的三个步骤的视图。
实现部署
最初的步骤需要数据采集设备的部署。这里的一个关键因素是以太网帧和IP数据包必须被实时捕获,不管在什么情况下,以线速度且零数据包丢失。这种可见性证实了源源不断的可靠信息的收集。
每帧必须被赋予独特的时间间隔,以保证精确的时间表可以被建立,不仅涵盖本地的设备,同时还能跨多个设备。这些时间间隔精度必须是以纳秒为计量单位。例如,在10 Gbps的网络以太网帧只有67纳秒的时间间隔,时间间隔分辨率必须小于67纳秒。否则,两个以太网帧都会收到相同的时间间隔,使得其很难区分。在一个100 Gbps的网络,这段时间间隔将减少到6.7纳秒。
结合零数据包丢失捕捉纳秒级精度的实时数据,确保了我们能够掌握一致的,准确的数据分析信息流。
存储
其次,收集的信息应该实时被存储。几个设备提供捕捉的数据存储到磁盘,允许实时的数据可以直接存储到本地硬盘。另外,这些数据可以被转移到一个存储区域网络(SAN)或其他位置。捕获的数据可以被用来在网络上创建一个历史年表,以精确的细节记录发生了什么。其可能用来重现到底发生了什么事,当进行重现时,使用这些数据。
这段细节记录历史是数据分析的一个丰富的信息源。这种类型的数据可以为数据信息的使用和行为模式提供洞察。如果设备具有深度数据包检测(DPI)的功能,那么,使用服务,包括互联网服务,可以监视和分析时间,地点和设备类型使用方面的趋势。
这种信息本身对于网络和服务的优化是一种宝贵的资源。可以据此来规划新的,有针对性的服务,以匹配用户的喜好。此外,这些信息可以为互联网内容服务提供商提供洞察,让运营商能够向潜在客户提供令人信服的服务能力。
实时评估
最后,实时的数据存储有助于实现实时决策。捕获到磁盘的历史信息可帮助开发预期行为的配置文件。当数据与网络活动的实时信息并置时,能够检测出意想不到的事件或异常。这些问题可能是一个安全威胁,也有可能是性能下降或有机会为客户提供一个数据扩展包或互补性的服务。
从RTBDA的角度来看,这种能力与OTT内容及服务提供商执行的能力是非常接近的,基于对对目前正在发生的事情,并与过去的事情比较进行理解做出实时的反应。
RTBDA战略基础
遵循这三个步骤来实施,通过探头和设备提供的实时信息可以用来实现RTBDA电信网络以及在大数据分析战略规划中用其他信息来源以补充。
这一技术和产品用来实现战略部署不仅仅是可用的,而且已经被广泛使用了,只是不以这方面的目的。更有趣的是,当今绝大多数企业,金融,政府和电信网络所使用的设备都是基于现成的服务器技术,其是与未来的运营计划相兼容的。
软件定义的网络(SDN)和网络虚拟化功能(NFV)策略的基石都是基于现成的服务器硬件。
RTBDA在未来的电信业的展望
现在是时候需要现代电信网络重新考虑“实时”这一概念的意义,以及他们所使用的大数据分析的信息源了。电信运营商必须开始评估在网络中使用探头和设备技术等更多的战术方法来提供RTBDA了。这样,不仅能够为规划决策提供更准确的信息,同时也可以创造新的机会,提供更好的服务,不仅为最终用户,也为OTT服务提供商自身。这种能力最终可以帮助电信网络的OTT解决流量的货币化问题。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16