
大数据与大规模网络安全感知技术初探
快速发展的互联网技术不断地改变人们的生活方式,然而,多层面的安全威胁和安全风险也不断出现。对于一个大型网络,在网络安全层面,除了访问控制、入侵检测、身份识别等基础技术手段,需要安全运维和管理人员能够及时感知网络中的异常事件与整体安全态势。对于安全运维人员来说,如何从成千上万的安全事件和日志中找到最有价值、最需要处理和解决的安全问题,从而保障网络的安全状态,是他们最关心也是最需要解决的问题。与此同时,对于安全管理者和高层管理者而言,如何描述当前网络安全的整体状况,如何预测和判断风险发展的趋势,如何指导下一步安全建设与规划,则是一道持久的难题。
随着大数据技术的成熟、应用与推广,网络安全态势感知技术有了新的发展方向,大数据技术特有的海量存储、并行计算、高效查询等特点,为大规模网络安全态势感知的关键技术创造了突破的机遇。本文将对大规模网络环境下的安全态势感知、大数据技术在安全感知方面的促进做一些探讨。
对于一个大规模的网络而言,面临的风险也是巨大的,可分为广度风险和深度风险。从广度上讲,以中国移动的CMNET网络为例,所辖IP地址超过3000万个,提供对外服务的网站数千个,规模大、节点类型丰富多样,伴随其中的安全问题随网络节点数量的增加呈指数级上升。从深度上讲,下一代移动互联网安全威胁主要表现在传统攻击依然存在且手段多样、APT(高级持续性威胁)攻击逐渐增多且造成的损失不断增大。而攻击者的工具和手段呈现平台化、集成化和自动化的特点,具有更强的隐蔽性、更长的攻击与潜伏时间、更加明确和特定的攻击目标。以上造成了下一代安全威胁具有更强的杀伤能力与逃避能力。结合广度风险与深度风险来看,大规模网络所引发的安全保障的复杂度激增,主要面临的问题包括:安全数据量巨大;安全事件被割裂,从而难以感知;安全的整体状况无法描述。
网络安全感知能力具体可分为资产感知、脆弱性感知、安全事件感知和异常行为感知4个方面。资产感知是指自动化快速发现和收集大规模网络资产的分布情况、更新情况、属性等信息;脆弱性感知则包括3个层面的脆弱性感知能力:不可见、可见、可利用;安全事件感知是指能够确定安全事件发生的时间、地点、人物、起因、经过和结果;异常行为感知是指通过异常行为判定风险,以弥补对不可见脆弱性、未知安全事件发现的不足,主要面向的是感知未知的攻击。
一个相对完整的网络安全感知的能力模型与架构设计如下图所示:
随着Hadoop、NoSQL等技术的兴起,BigData大数据的应用逐渐增多和成熟,而大数据自身拥有Velocity快速处理、Volume大数据量存储、Variety支持多类数据格式三大特性。大数据的这些天生特性,恰巧可以用于大规模网络的安全感知。首先,多类数据格式可以使网络安全感知获取更多类型的日志数据,包括网络与安全设备的日志、网络运行情况信息、业务与应用的日志记录等;其次,大数据量存储与快速处理为高速网络流量的深度安全分析提供了技术支持,可以为高智能模型算法提供计算资源;最后,在异常行为的识别过程中,核心是对正常业务行为与异常攻击行为之间的未识别行为进行离群度分析,大数据使得在分析过程中采用更小的匹配颗粒与更长的匹配时间成为可能。
中国移动自2010年起在云计算和大数据方面就开始了积极探索。中国移动的“大云”系统目前已实现了分布式海量数据仓库、分布式计算框架、云存储系统、弹性计算系统、并行数据挖掘工具等关键功能。在“大云”系统的基础上,中国移动的网络安全感知也具备了一定的技术积累,进行了大规模网络安全感知和防御体系的技术研究,在利用云平台进行脆弱性发现方面的智能型任务调度算法、主机和网络异常行为发现模式等关键技术上均有突破,在安全运维中取得了一些显著的效果。
大数据的出现,扩展了计算和存储资源,提供了基础平台和大数据量处理的技术支撑,为安全态势的分析、预测创造了无限可能。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15