
大数据时代 先学会保护自己的数据
在如今这个大数据的时代里,人人都希望能够借助大数据的力量:电商希望能够借助大数据进一步获悉用户的消费需求,实现更为精准的营销;网络安全从业者希望通过大数据更早洞悉恶意攻击者的意图,实现主动、超前的安全防护;而骇客们也在利用大数据,更加详尽的挖掘出被攻击目标信息,降低攻击发起的难度。
大数据应用最为典型的案例是国外某著名零售商,通过对用户购买物品等数据的分析,向该用户——一位少女寄送了婴儿床和衣服的优惠券,而少女的家人在此前对少女怀孕的事情一无所知。大数据的威力正在逐步显现,银行、保险公司、医院、零售商等等诸多企业都愈发动力十足的开始搜集整理自己用户的各类数据资料。但与之相比极度落后的数据安全防护措施,却让骇客们乐了:如此重要的数据不仅可以轻松偷盗,而且还是整理好的,凭借这些数据骇客能够发起更具“真实性”的欺诈攻击。好在安全防御者们也开始发现利用大数据抵抗各类恶意攻击的方法了。
扰动安全的大数据
2014年IDC在“未来全球安全行业的展望报告”中指出,预计到2020年信息安全市场规模将达到500亿美元。与此同时,安全威胁的不断变化、IT交付模式的多样性、复杂性以及数据量的剧增,针对信息安全的传统以控制为中心的方法将站不住脚。预计到2020年,60%的企业信息化安全预算将会分配到以大数据分析为基础的快速检测和响应的产品上。
瀚思(HanSight)联合创始人董昕认为,借助大数据技术网络安全即将开启“上帝之眼”模式。“你不能保护你所不知道的”已经成为安全圈的一句名言,即使部署再多的安全防御设备仍然会产生“不为人知”的信息,在各种不同设备产生的海量日志中发现安全事件的蛛丝马迹非常困难。而大数据技术能将不同设备产生的海量日志进行集中存储,通过数据格式的统一规整、自动归并、关联分析、机器学习等方法,自动发现威胁和异常行为,让安全分析更简单。同时通过丰富的可视化技术,将威胁及异常行为可视化呈现出来,让安全看得见。
爱加密CEO高磊提出,基于大数据技术能够从海量数据中分析已经发生的安全问题、病毒样本、攻击策略等,对于安全问题的分析能够以宏观角度和微观思路双管齐下找到问题根本的存在。所以,在安全领域使用大数据技术,可以使原本单一攻防分析转为基于大数据的预防和安全策略。大数据的意义在于提供了一种新的安全思路和解决办法,而不仅仅是一种工具,单纯的海量数据是没有意义的。如果大数据领域运用得当,可以十分便捷地和安全领域进行结合,通过对数据分析所得出的结论反映出安全领域所存在漏洞问题的方向,从而针对该类漏洞问题制定出相对应的解决方法。
卡巴斯基技术开发(北京)有限公司大中华区技术总监陈羽兴强调,大数据对于安全公司是件杀敌利器,对于黑客来说也是一块巨大的“奶酪”,而这块“奶酪”有时候不仅仅是存放在一个地方,如果仍然使用传统的防范手段——端点、网络、加密等——是不足以抵挡黑客的,所以作为安全公司不仅要着力去完善自家的解决方案,同时在整个产业链各个环节的企业都要开放,形成产业协同。
其实云计算的大热,就已经让用户和云服务提供商愈加意识到云安全的重要性,云安全则更需要大数据。作为客户数据托管方的云服务提供商,客户最关注的是服务提供商保证他们的数据安全:既不丢失也不被非法访问,且遵从法规要求。即使是在企业的私有云中,各个部门之间的信息安全也必须考虑,特别是财务数据、客户信息等。由于数据的集中,云所需要处理的数据可能是PB级甚至更大,如此大的数据量是传统安全分析手段根本处理不了的,只有依靠大数据分布式计算技术对海量数据进行安全分析。
排兵布阵情报先行
近两年,安全企业就如何运用大数据于网络安全中费尽了脑筋,而安全威胁情报可以说是大数据技术在网络安全防御环节里比较成熟的应用。
什么是安全威胁情报?形象地说,人们经常可以从CERT、安全服务厂商、防病毒厂商、政府机构和安全组织那里看到安全预警通告、漏洞通告、威胁通告等等,这些都属于典型的安全威胁情报。而随着新型威胁的不断增长,也出现了新的安全威胁情报,例如僵尸网络地址情报(Zeus/SpyEye Tracker)、0day漏洞信息、恶意URL地址情报,等等。
陈羽兴举了一个十分有趣的例子:中国股市刚刚兴起时,人们要去证券大厅了解行情,门口摆摊卖茶叶蛋的老太太虽然不懂股票,但是她懂一个道理:茶叶蛋生意清淡的时候买入、茶叶蛋生意火爆的时候卖出。其实茶叶蛋本身的销量数据不会直接导致股票的涨跌,但是这两者之间存在“相关性”,大数据环境下的安全威胁情报也是如此。
目前,无论国内还是国外对安全威胁情报系统的建设都普遍参考STIX标准框架,它有几个关键点:时效性、完整的攻击链条(包括:攻击行动、攻击入口、攻击目标、Incident事件、TTP——攻击战术、技术和过程、攻击特征指标、攻击表象、行动方针等)以及威胁情报共享。而传统漏洞和病毒库只是在安全厂家捕获到样本后将对应的特征码更新到漏洞或病毒数据库里,并没有将整个攻击过程完整描述下来,且缺少相互共享合作。
大数据时代下,通过大数据的计算能力、算法和机器学习优势可以快速、自动的在海量数据中发现安全问题,提升安全情报的时效性。其次由于大数据分析的数据来自网络、终端、认证系统等各个维度,便于分析整个安全攻击链条形成安全威胁情报。最后,随着一些新兴的大数据厂商兴起,用户至上、信息共享等互联网思维逐步形成,使安全威胁情报共享得以实现。
瀚思采用“图分析”结合强大情报系统(域名Whois、被动DNS、黑名单)所实现的极速感知可疑域名方法,就是通过将每天各个渠道收集到的几十万域名及其相关信息导入图数据库,根据节点关系快速绘制连接边,形象直观的展现节点之间内在联系,将有问题的域名暴露在安全分析人员的眼前,使得以域名为基础的恶意行为无处躲藏,并以最快的速度查出恶意网站。
卡巴斯基则在10年前就建立了自己的安全网络KSN,通过多年的数据搜集与研究,再加上其所设立的全球威胁分析团队(Great team),已经能够对未来威胁走向进行相对比较准确的预判。
而绿盟科技的研究团队在吸收“杀伤链(Kill Chain)”和“攻击树(Attack Tree)”等相关理论,形成独特推理决策引擎后,借助大数据安全分析系统的分布式数据库,实现了对网络入侵态势的感知。
高磊认为,其实大数据从诞生开始就用于统计与记录安全情报。它能够帮助情报分析人员发现藏匿于数据中的威胁,通过大数据分析处理获取威胁情报、预测攻击事件。与传统情报获取方法不同的是,真正意义的大数据安全情报是能够基于更多的数据(不是仅仅一些工具)分析半年以上的重点风险,预测未来的风险趋势。
玩转大数据安全分析
如何才能实现对数据的有效深入分析呢?
绿盟科技的安全专家发现,大数据安全分析主要的问题在于将业务目标与技术实现混淆以及业务目标不明确两个方面。而大数据安全分析的三大瓶颈分别是:大数据仅仅是一种技术手段而不是一个业务目标,安全分析才是实际要解决的核心问题;大数据安全分析能够在安全防御里起到很重要的作用,但并不能解决全部的安全问题;大数据安全分析需要极为详细的业务梳理、安全分析、数据分析等一系列工作,而不是简单的数据堆叠。要想解决这些问题,需要明确业务目标,明确目标的分解落实,还要在项目启动前进行安全咨询,并基于安全咨询结果编制目标及项目阶段,分阶段实现项目目标,同时进行专业分析人员的培养工作。
陈羽兴提出要想实现对数据的有效安全分析,首先要有统一的数据管理平台,要能够支持多种数据类型——大数据分析平台需要足够掌握不同安全类型的语义信息以便进行整合和关联分析,还要有诸如Hadoop、Spark等专业的安全分析工具,以及富有经验的专业安全分析人员。
高磊强调“如果无法对数据进行分析筛选,获取有价值的信息,就不是真正的大数据安全分析。”例如,爱加密采集的APP超过1000万个,其会对所有的APP进行拆包分析,对病毒样本进行记录保存,并对应用的类型、大小、签名、包名等多方面参数进行记录存储,对样本进行详细分析,录入特征值,并对数据进行统计分析,生成报表。
瀚思在大数据安全分析上的经验是,“首先在底层架构上采用了主流大数据分布式架构,即Hadoop+Spark+Elasticsearch,它能准实时处理几百TB以上的数据;其次在安全应用上则采用一些自动化分析的手段,瀚思做了比较多的机器学习、算法工作,通过模型给用户、业务来建模,并建立正常访问基线,这个环节称之为异常检查(anomaly detection),并基于此实现Web访问安全、反欺诈、内部核心资源等传统安全很难解决的问题;第三在算法层面上,瀚思主要使用基于用户行为序列和基于时间序列的建模。”机器学习是自动化和提升日志数据洞察力的关键。不同的机器学习技术要应对不同类型的日志数据和分析挑战。瀚思能够提前确定机器学习要查找的关联性和其他模式,采用非监督式学习的方式,并辅助专家准备供参考的“练习数据”集,以便于机器学习算法能够识别具有重大联系的模式,帮助企业提早发现风险,防患于未然。最后就是将分析安全问题及异常行为通过可视化的手段呈现出来,让安全问题看得见、看得懂。
在安全世界里大数据可以做得更多
网络安全防御主要分为三个环节:预防、保护和查找攻击,大数据能够为这三个环节提供强大的数据支撑。面对0-day漏洞、APT攻击等未知威胁,利用大数据分析手段可以进行快速检测和响应。组织在建立安全防御体系过程中,也可以利用大数据影响人和管理流程,通过大数据的反馈更有针对性的提高用户的安全意识,对安全管理的模式进行更新。借助大数据还可以实现用户异常行为检测、敏感数据泄露检测、DNS异常分析、反欺诈等。
未来,大数据还可能会成为网络安全智能化的推动者。设想一下:某平台系统在分析知道攻击者的攻击目标或者攻击方式时,能够通过大数据分析,智能关闭有关服务或者端口,防止信息泄露,又或者在受到攻击之后,系统从经验中知道问题所在,及时采取切断连接等手段,实现网络安全智能化。
陈羽兴表示,引导人的行为和事物的发展向更安全的目标走近,这是大数据能给人们带来的更大意义所在。
大数据时代下的大安全
“大数据时代下,安全将经历数据统计阶段、数据分析阶段、网络安全智能化阶段。”高磊表示,数据统计阶段只能通过经验和案例分析所需记录数据类型,尽可能的获取到所需信息。数据分析阶段则要注重完善数据库的效率和针对性。而网络安全智能化阶段将基本上不依赖人力即可控制系统自主进行智能保护、自主查找可能的攻击源,此时需要做好测试工作,搭建虚拟数据库,防止智能系统落后。
董昕提出,一个完整的大数据安全生态应该包括安全情报、企业级大数据安全分析系统、安全即服务这三部分,只有三者相互配合才能组成完整的安全闭环。“当然,专业的安全研究团队和服务团队也是少不了的。”瀚思除了传统精通于攻防、漏洞、合规等方面的专家外,还拥有多名精通安全与数据分析的跨界专家。例如瀚思联合创始人兼首席科学家万晓川先生就是核心安全分析、算法、Sandbox领域以及异常检测和用户行为分析的世界级专家,他拥有多项美国专利,并一直在倡导将机器学习应用于信息安全。这也是数据驱动安全闭环中必不可少的一点。
Gartner早在2010年的一份报告中指出,“未来的信息安全将是情境感知的和自适应的”。如今,大数据正在很好的诠释“情景感知”与“自适应”。
人们常说安全性与便利性是矛盾的,但陈羽兴认为,随着大数据时代的来临人们会越来越发现,这两者并非不可调和,有时甚至可以相辅相成。
大数据时代下,安全正在变得更为广义。但同时需要注意,大数据的本质是数据,所以广大用户要更为注重自身数据的安全,防止自己的有效数据被恶意利用。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29