大数据之安全漫谈-CDA数据分析师官网

热线电话：13121318867

大数据之安全漫谈

2015-11-01

大数据之安全漫谈

大数据(big data)、数据科学(data science)、数据挖掘(data mining)、机器学习(machine learning)、深度学习(deep learning)、模式识别(pattern recognition)、可视化(visualization)、自然语言处理(natural language processing)、推荐系统(recommendation system)、数据分析(data analysis 相较而言，这个是最不潮最实在的词了)、人工智能(Artificial Intelligence)、NoSQL 是2014年的IT潮词，他们从传统的金融、科研行业席卷到IT的各个角落，甚至是比较边缘的安全行业了，催生了一些诸如安全数据分析师(专家)的岗位，为了在和同事们聊天的过程不显得那么白痴，于是查阅了一些资料，来写写"大数据"在安全行业的应用。

大数据的发展，让我们看到了更好的数据收集、数据处理、数据存储、数据计算、数据检索与数据可视化方案，我们有了hadoop、spark、storm等优秀的计算框架，我们有了thrift、avro、Protocol Buffer数据序列化方案，我们有了flume、scribe、chukwa来完成分布式日志收集，我们有了kafka来完成消息队列调度，我们有了mongoDB、redis、cassandra、neo4j来完成数据的存储，我们有了elasticsearch、sphinx来完成数据检索，我们有了Gephi、D3、Graphviz来完成漂亮的图表。我们甚至有了日志分析领域的三剑客kibana-logstash-elasticsearch套装，然而我们在如此优秀的支撑环境下我们常看到的输出结果是什么呢?TopN攻击报表、攻击可视化地图(单指国内产品)。
我想或许是因为最关键的阶段-数据分析阶段缺失了。缺失或许是因为门槛较高吧，它综合了高等数学、线性代数、概率统计、机器学习等知识，而且必须与计算机基础知识(编程、数据存储)、行业领域知识(例如安全领域知识)与反复的模型修正才能发挥作用，而作用是否显著则取决于所解决问题的重要程度。大家在平衡了付出与收益后，就倾向于选择用代价更小的方法来解决问题(例如基本使用静态攻击签名特征，而很少使用动态行为分析未知攻击)，但互联网支付行业的发展，云平台的发展，让我们看到市场还是巨大的，特别是在金融行业(电商、支付、理财)、云服务方面。
应用场景

场景1、仿冒站点的检测

计算网页相似度，包括内容(文本)相似性、结构(DOM)相似性与视觉相似性。其中文本挖掘(Text Mining)/自然语言处理(Nature Language Process)已经单独成为一个分支了。

场景2、垃圾邮件检测

基于朴素贝叶斯分类算法

场景3、订单欺诈检测

基于神经网络算法来实现交易数据欺诈检测

场景4、攻击源识别

基于CART来区分访问源，然后细化机器行为，扫描器?爬虫?搜索引擎?采集器?CC攻击，产出攻击源信誉库(匿名代理，Tor，扫描器，恶意爬虫，僵尸网络，URL黑库)

区分对待大规模自动化攻击，精细定位人工攻击才能有效的减少冗余数据

场景5、web攻击中的异常请求检测

基于HMM来识别异常请求;基于随机森林来分类区分异常请求

场景6、webshell检测

包括通过计算信息熵来检测文件内容异常、图论来检测访问异常

场景7、恶意网站识别

场景8、广告欺诈检测

场景9、恶意软件(家族)识别

场景10、色情图片/验证码识别

场景11、反网站抓取(盗取网站原创内容)

场景12、流量型攻击检测

CC、精准洪泛攻击(我自己编的术语，意思是对API接口的海量调用、例如短信接口、验证码接口)、垃圾信息注入

产品化道路

1、集成到IDS/IPS/Firewall/WAF/SIEM/审计/风控/取证/AV等单独或综合性的安全产品中

几乎每个安全产商都会用“大数据"、“机器学习”、“安全智能”、“基于业务的动态行为建模”当成卖点，来标明自己是“下一代”安全产品

已有成功案例：Imperva

2、综合到日志分析产品中来支撑安全功能的实现

将web服务器日志、数据库日志、操作系统日志、邮件日志等进行关联分析，实现风险控制、审计管理、监控、SIEM(攻击事件响应与取证)。

已有的成功案例：sumologic、splunk

对安全产品而言，宣传标语和奥运会类似

更快——不要滞后，发现与响应都要快，滞后的安全不是健康预防，甚至不是医生急救，而是法医验尸

更全——不要遗漏， 0day、未公开的漏洞，捕获他们，识别他们，评估他们

更准——不要误伤，预警狼来了运维人员很伤，访问阻塞用户很伤

瓶颈

“因为数据量巨大，会造成性能瓶颈，因此以处理的数据量为指标或宣传点”这是个误区，我们最最缺少的是有效的数据分析模型来发现“未知”。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

大数据数据分析机器学习 spark D3 SQL 朴素贝叶斯推荐系统

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

大数据之安全漫谈

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】AARRR用户增长漏斗模型全解析：从理论到 ...

【CDA干货】随机森林特征重要性分析全解析：从原理 ...

CDA数据分析师：精通表格结构数据核心功能，解锁高 ...

【CDA干货】一文读懂Excel箱线图含义：用简单图表解 ...

【CDA干货】ROC曲线阈值优化指南：如何科学提高阈值 ...

CDA数据分析师：以专业报告呈现，解锁数据洞察的落 ...

【CDA干货】主成分分析（PCA）实战全解析：从原理简 ...

【CDA干货】解析数据分析中基准比的本质：离基准值 ...

CDA数据分析师：驾驭业务数据分析全步骤，赋能业务 ...

【CDA干货】信贷违约率的统计分布特征与测算方法研 ...

【CDA干货】业务效果AB增量评估体系：搭建、实操与 ...

CDA数据分析师：以战略分析方法为翼，赋能企业长远 ...

【CDA干货】复杂抽样的统计描述：方法、要点与实操 ...

【CDA干货】详解聚合函数：可一次使用多个吗？实操 ...

CDA数据分析师视角：战略数据分析与业务数据分析的 ...

【CDA干货】详解B+树叶子节点指针：双向还是单向？ ...

【CDA干货】警惕！REPLACE(UUID(), '-', '')用于INS ...

CDA数据分析师与商业数据分析总体流程：全链路实操 ...

【CDA干货】通过标准差与平均值关系衡量数据波动性 ...

【CDA干货】基于GB标准的t检验、F检验与显著性差异 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载