
如何评估大数据安全分析产品?五大要素必不可少
网络犯罪以及其他恶意行为的不断增加正促使企业部署更多的安全控制、收集越来越多的相关数据。结果,大数据分析方面的进展被用于以更宽和更深的分析为目的的安全监控中,以保护昂贵的企业资源。大数据安全分析技术融合了大数据的可扩展性,并将其与Advanced Analytic和安全事件管理系统( security event and incident management systems,SIEM)结合起来。在不久的将来,大数据安全分析将会变成像病毒检测和漏洞扫描一样常见。
因此,大数据安全分析适用于很多用例,但也不是所有的用例都适用。考虑一下探测和阻挡高持续性威胁(Advanced Persistent Threat,APT)的技术挑战。采用这些技术的攻击者或许会采用慢节奏的、低可见性的攻击方式来避免以避免被探测到。传统的日志和监控技术会漏过这种类型的攻击。攻击的各步可能发生在不同的设备的不同时间段,而且看起来是毫无关联的。这样,一个攻击者杀招的关键部分可能与正常行为差别不大。针对可疑行为的日志和网络流扫描有时也会漏掉这些东西。避免遗漏数据的一种方法就是收集尽可能多的信息。这就是大数据安全分析平台所采用的方法。
正如字面意思所言,该安全分析的方法利用了专门为收集、分析和管理大规模、高速度数据而设计的工具。这些技术也同样用于相关产品,如针对流视频用户的电影推荐系统和为优化车队的运输效率而设计的车辆性能特性分析平台等。此外,这些技术还可以应用于信息安全。本文重点分析Cybereason、Fortscale、Hawkeye、IBM、LogRhythm、RSA和Splunk等若干大数据安全工具供应商的最主要的产品特性。其分析主要依据实现这些平台所有好处的五大必需要素:
•统一的数据管理
•支持日志、漏洞和流等多种数据类型
•可扩展的数据获取
•信息安全相关的分析工具
•合规报告
因素1:统一的数据管理
统一的数据管理是一个大数据安全分析系统的基础,负责存储和查询企业数据。由于关联数据库在扩展时比分布式NoSQL数据库代价要高,处理大规模数据通常会使用Cassandra或Accumulo等这样的分布式数据库。当然,这些数据库也其缺点。例如,实现ACID transaction等这些理所当然存在的数据库特征的分布式版本就变得非常困难。
因此,大数据安全分析产品背后的数据管理平台需要在数据管理特性和代价、可扩展性之间进行权衡。数据库应该具备在不阻塞的情况下实时写入新数据的能力。相似的,查询也要能够支持针对流入的安全数据的实时分析。
由于Hadoop已经成为流行的大数据管理平台和相关的生态系统,采用它作基础的大数据安全分析平台也很常见。例如,Fortscale就使用了Cloudera的Hadoop平台。这使得Fortscale平台可以随着集群中新加入节点的数量而线性扩展。
IBM的QRadar使用了提供数据存储水平扩展功能的分布式数据管理系统。在一些情况下,SIEM或许只需要访问本地数据。但是,在取证分析等情况下,用户或许需要跨分布式平台搜索信息。IBM的QRadar还集成了一个能够跨平台或本地检索的搜索引擎。同时,该大数据SIEM系统使用的是数据节点,而非存储域网(SAN)。这可以帮组减少花费和管理复杂度。这个基于数据节点的分布式存储模型可以扩展到P字节的存储空间——可以很好满足那些需要很多大规模长期存储的组织的需求。
RSA安全分析也采用了分布式的联合架构来保证线性扩展。当扩展到大规模数据时,RSA工具中的分析工作流解决了一个关键需求:区分事件和任务的优先级,以改善分析的效率。
Hawkeye分析平台(Hawkeye AP)是基于一个专门处理安全事件数据的数据仓库平台构建而成。除了拥有底层、可扩展的数据管理(例如,在跨多个服务器的镀铬文件中存储大规模数据的能力)功能,拥有以结构化的方式查询数据的工具也很关键。Hawkeye AP采用了分时存储数据的方式,避免了全局重建索引的工作。而且,它被设计为了只读的数据库。一方面,它使能了性能优化;另一个更重要方面,它可以保证数据在写完成后不会被篡改。最后,Hawkeye AP采用了专门针对分析应用有所优化的列导向数据存储,而非行导向的存储。
因素2:支持多种数据类型
容量、速度和种类是大数据的三个关键特性。安全事件数据的多样性使得把数据集成到一个大数据安全分析产品变得富有挑战性。
事件数据的收集粒度是不同的。例如,网络报文就是底层、细粒度的数据;而有关任何管理员密码变化的日志项就是粗粒度的。尽管数据的收集粒度不同,他们之间仍然是有关联的。网络报文就可能包含了攻击者访问服务器,甚至在取得访问权限后修改管理员密码的相关信息。
不同类型的事件数据的含义也各不相同。网络报文信息可以帮助分析人员了解两个终端之间传输的内容,而一份漏斗扫描日志在某种意义上描述了服务器或其他设备在一段时间内的运行状态。大数据安全分析平台需要理解这些数据类型的含义,以更好的进行数据集成。
RSA Security Analytics的解决办法是采用一个模块化的结构,以此保证在维持增量添加其他源的能力的同时,支持多种数据类型。平台本身是为了捕获大规模的满报文、NetFlow数据、末端数据和日志。
有时,多个数据类型就意味着多种安全工具。例如,IBM的QRadar就有一个漏洞管理组件。该组件专门负责从各种各样的漏洞扫描器中整合数据,并把网络使用相关的信息添加到数据中。IBM的Security QRadar Incident Forensics是另外一个专门利用网络流数据和full-packet抓包来分析安全事故的模块。该取证工具包括了一个能够对TB级别的网络数据进行检索的引擎。
LogRhythm的Security Intelligence Platform是另外一个大数据安全分析平台的例子。该平台支持非常多的数据类型,包括系统日志、安全事件、审计日志、机器数据、应用日志以及流数据。通过分析来自这些源的原始数据,它可以产生有关文件完整性、进程活跃度、网络通信情况、用户以及活动的二级数据。
Splunk Enterprise Security允许分析人员检索数据并执行可视化关联,以此识别恶意事件和收集有关这些事件上下文的数据。
因素3:可扩展的数据获取
大数据分析安全产品必须要能够从服务器、终端、网络和其他架构组件中获得数据。这些设备的状态是一直都在发生变化的。数据获取组件的主要风险在于它是否能够及时接收流入的数据。一旦数据获取组件出现问题,数据就会丢失,威胁到整个平台的存在意义。
系统可以通过维护一个容量很大、吞吐率很高的队列来实现可扩展的数据获取。此外,一些数据库通过对写操作只追加的方法来支持大规模写。这样,新流入的数据直接添加到commit日志的末尾,而非磁盘的某个块。该方法可以大大减少随机写操作的延迟。或者,数据管理系统会维护一个写缓冲区。如果消息出现突发传输或者磁盘出现写失效,缓冲区可以帮助暂时存储数据,等待数据库恢复正常。
Splunk是一个广为人知的数据获取平台。该平台不仅提供了连接到数据源的连接器,还允许定制这些连接器。其中,获取后的数据以比较松散的形式进行存储和索引,以保证支持变化的数据类型和快速的查询反馈。
IBM QRadar支持从单设备到跨地域的分布式系统的不同规模的部署。与其他产品类似,该大数据产品是为了满足大公司的需求。它曾被用于处理每秒钟几十万的真实应用事件。一些小的机构或刚开始使用IBM QRadar的企业或许会选择在云环境中部署该产品,以减少硬件开销和管理。混合部署也是可以的。这样,事件和流或许在云端处理,而整理后的事件数据发送会本地系统进行处理。
另外一个重要的整合类型就是数据增强。它是指在收集事件数据的同时,把相关的信息也一并添加进去。例如,RSA Security Analytics就会把有关网络回话、威胁指示器等细节添加到网络数据中,帮助分析人员更好的理解底层安全数据所面临的情况。
一个大数据分析平台如何收集收据是另外一个要考虑的关键点。收集数据所需要的时间使得探测安全事件的速度可以有所放缓。数据收集点的位置决定了它所收集的数据的宽度和类型。例如,Cybereason Platform部署的传感器就运行在终端操作系统的用户空间。这样,数据收集就可以在影响用户体验和更底层内核功能的情况下进行。即使是在设备无法连接企业网络时,Cybereason的传感器仍然可以收集数据。
因素4:安全分析工具
Hadoop和Spark等大数据平台都是通用型的工具。尽管它们可以被用于构建安全工具,它们本身并不是安全分析工具。大数据安全分析工具应该能够扩展,以满足企业所产生的大规模数据的分析需求。而Hadoop和Spark等这样的工具正好满足了这样的条件。同时,分析人员也应该能够以信息安全的角度所应该取得的抽象层次来查询事件数据。例如,一个分析人员应该能够查询工作在特定服务器或应用的用户的联系以及这些机器/应用之间的联系。这种类型的查询就需要图型分析工具,而非传统的关联数据库中的行查询或列查询。
Fortscale采用了数据科学中常见的机器学习和统计分析技术,以适应安全环境中的变化。这些技术使得Fortscale可以执行基于数据而非预定义规则的分析。当网络中的基准行为发生变化时,机器学习算法可以在没有人为更新规则集的情况下自动探测到这些变化。
RSA Security Analytics包括了预定义的报告和规则,使得分析人员可以很快开始使用SIEM收集到的数据。
安全分析也同样非常依赖恶意行为相关的知识。RSA Security Analytics包括的RSA Live服务负责将数据处理和关联规则发送到部署的设备中。这些新的规则可被用于分析刚到达的实时数据和存储在RSA Security Analytics系统的历史数据。与Fortscale类似,RSA Security Analytics也采用了数据科学的相关技术来增强分析的质量。
此外,LogRhythm的分析工作流包括了处理、机器分析和取证分析三个阶段。处理阶段负责数据转换,提高原始数据被有用的模式探测到的可能性。它包括了事件标准化、数据分类、metadata标记和风险上下文分析。
因素5:合规报告、警告和监控
合规报告是当今企业所必须要具备的功能。很多用于合规目的的数据元素都和最好的安全实践绑定在一起。甚至对于那些对合规报告没有硬性需求的公司而言,合规报告也可以很好的用于内部规划。。了解一个大数据安全平台的报告制度满足了企业对于合规方面的特殊需求,是非常重要的。
IBM Security QRadar的Risk Manager插件提供了网络设备配置的合规及风险管理的工具。该插件的功能包括自动监控、多供应商产品审计的支持、合规策略评估以及威胁建模。
就像之前所提到的,Fortscale使用机器学习算法来不断评估基准活动的变化和探测异常事件。当系统探测到这些事件时,它可以生成警告,并提供事件的相关信息。
为了节约终端用户的时间,RSA Security Analytics本身就带有近90种模板,以满足SOX、HIPAA、PCI DSS等的报告需求。
SIEM系统中的报告和警告远远超过了固定报告和简单警告的形式。例如,Cybereason Platform就可以自动探测恶意活动。该平台还提供了一个调查窗口,用来将攻击时间线、受影响的用户和设备等信息汇总并以图形的方式展示出来。
Splunk Enterprise Security提供了包含关键安全和性能指针以及趋势指针的仪表盘,以进行不间断的监控。而且该平台还支持工作流的优先级。Splunk平台还支持高优先级用户的追踪和关键应用程序的访问报告。
Hawkeye AP本身包含了400种报告,而且支持根据特殊需求进行修改。由于Hawkeye AP使用关联数据技术,并支持ANSI Standard SQL、ODBC和JDBC驱动,用户可以可以使用流行的企业级报告工具来创建定制化的报告。
LogRhythm的平台包括了分级后的风险的警告、标准报告和一个实时的报告仪表盘。而且,它还包括了案例管理工具、证据锁以及事件追踪数据等额外工具用于取证分析。
大数据安全分析工具的功能:
大数据安全分析工具可以分析很多种的数据类型,也可以处理大规模的数据。当然,并非所有的机构都需要用到当前大数据安全分析产品的所有功能。但是,正在寻找保护企业数据安全工具的机构应该考虑大数据安全分析工具所能扮演的角色。
对于大企业和需要存储详细的事件数据的企业,IBM QRadar是一个不错的选择。该平台能够扩展到P字节规模的能力将会是一个很大的亮点。Hawkeye的数据仓库模型和列导向存储使得它能够针对信息安全进行商业智能的报告。这样,当企业需要高级报告或者定制化的报告时,Hawkeye AP就是一个很好的选择。而当企业需要在设备离线的情况下继续捕获事件数据时,它可以考虑Cybereason。此外,RSA Security Analytics和LogRhythm's Security Intelligence Platform可以很好的配合来处理很多数据类型的情况。Splunk提供了大量的数据源连接器,可以很好满足拥有大量数据源的企业的需求。
大数据安全分析目前主要被大企业所采用。但是,随着相关工具的花费和复杂度不断降低,中等规模的企业、甚至小企业最后也肯定会意识到该技术的好处。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29