京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据安全 的六大挑战_数据分析师考试
大数据的价值为大家公认。业界通常以4个“V”来概括大数据的基本特征——Volume(数据体量巨大)、Variety(数据类型繁多)、Value(价值密度低)、Velocity(处理速度快)。当你准备对大数据所带来的各种光鲜机遇大加利用的同时,请别忘记大数据也会引入新的安全威胁,存在于大数据时代“潘多拉魔盒”中的魔鬼可能会随时出现。
挑战一:大数据的巨大体量使得信息管理成本显著增加
4个“V”中的第一个“V”(Volume),描述了大数据之大,这些巨大、海量数据的管理问题是对每一个大数据运营者的最大挑战。在网络空间,大数据是更容易被“发现”的显著目标,大数据成为网络攻击的第一演兵场所。一方面,大量数据的集中存储增加了泄露风险,黑客的一次成功攻击能获得比以往更多的数据量,无形中降低了黑客的进攻成本,增加了“攻击收益”;另一方面,大数据意味着海量数据的汇集,这里面蕴藏着更复杂、更敏感、价值巨大的数据,这些数据会引来更多的潜在攻击者。
在大数据的消费者方面,公司在未来几年将处理更多的内部生成的数据。然而在许多组织中,不同的部门像财务、工程、生产、市场、IT等之间的信息仍然是孤立的,各部门之间相互设防,造成信息无法共享。那些能够在不破坏壁垒和部门现实优势的前提下更透明地沟通的公司将更具竞争优势。
【解决方案】 首先要找到有安全管理经验并受过大数据管理所需要技能培训的人员,尤其是在今天人力成本和培训成本不断上升的节奏中,这一定足以让许多CEO肝颤,但这些针对大数据管理人员的巨额教育和培训成本,是一种非常必要的开销。
与此同时,在流程的设计上,一定要将数据分散存储,任何一个存储单元被“黑客”攻破,都不可能拿到全集,同时对于不同安全域要进行准确的评估,像关键信息索引的保护一定要加强,“好钢用在刀刃上”,作为数据保全,能够应对部分设施的灾难性损毁。
挑战二:大数据的繁多类型使得信息有效性验证工作大大增加
4个“V”中的第二个“V”(Variety),描述了数据类型之多,大数据时代,由于不再拘泥于特定的数据收集模式,使得数据来自于多维空间,各种非结构化的数据与结构化的数据混杂在一起。
未来面临的挑战将会是从数据中提取需要的数据,很多组织将不得不接受的现实是,太多无用的信息造成的信息不足或信息不匹配。我们可以考虑这样的逻辑:依托于大数据进行算法处理得出预测,但是如果这些收集上来的数据本身有问题又该如何呢?也许大数据的数据规模可以使得我们无视一些偶然非人为的错误,但是如果有个敌手故意放出干扰数据呢?现在非常需要研究相关的算法来确保数据来源的有效性,尤其是比较强调数据有效性的大数据领域。
正是因为这个原因,对于正在收集和储存大量客户数据的公司来说,最显而易见的威胁就是在过去的几年里,存放于企业数据库中数以TB计,不断增加的客户数据是否真实可靠,依然有效。
众所周知,海量数据本身就蕴藏着价值,但是如何将有用的数据与没有价值的数据进行区分看起来是一个棘手的问题,甚至引发越来越多的安全问题。
【解决方案】 尝试尽可能使数据类型具体化,增加对数据更细粒度的了解,使数据本身更加细化,缩小数据的聚焦范围,定义数据的相关参数,数据的筛选要做得更加精致。与此同时,进一步健全特征库,加强数据的交叉验证,通过逻辑冲突去伪存真。
挑战三:大数据的低密度价值分布使得安全防御边界有所扩展
4个“V”中的第三个“V”(Value),描述了大数据单位数据的低价值。这种广种薄收似的价值量度,使得信息效能被摊薄了,大数据的安全预防与攻击事件的分析过程更加复杂,相当于安全管理范围被放大了。
大数据时代的安全与传统信息安全相比,变得更加复杂,具体体现在三个方面:一方面,大量的数据汇集,包括大量的企业运营数据、客户信息、个人的隐私和各种行为的细节记录,这些数据的集中存储增加了数据泄露风险;另一方面,因为一些敏感数据的所有权和使用权并没有被明确界定,很多基于大数据的分析都未考虑到其中涉及的个体隐私问题;再一方面,大数据对数据完整性、可用性和秘密性带来挑战,在防止数据丢失、被盗取、被滥用和被破坏上存在一定的技术难度,传统的安全工具不再像以前那么有用。
【解决方案】 确立有限管理边界,依据保护要求,加强重点保护,构建一体化的数据安全管理体系,遵循网络防护和数据自主预防并重的原则,并不是实施了全面的网络安全护理就能彻底解决大数据的安全问题,数据不丢失只是传统的边界网络安全的一个必要补充,我们还需要对大数据安全管理的盲区进行监控,只有将二者结合在一起,才是一个全面的一体化安全管理的解决方案
挑战四:大数据的快速处理要求使得独立决策的比例显著降低
“4个“V”中最后一个“V”(Velocity),决定了利用海量数据快速得出有用信息的属性。
大数据时代,对事物因果关系的关注,转变为对事物相关关系的关注。如果大数据系统只是一种辅助决策系统,这还不是最可怕的。事实上,今天大数据分析日益成为一项重要的业务决策流程,越来越多的决策结果来自于大数据的分析建议,对于领导者最艰难的事情之一,是让我的逻辑思考来做决定,还是由机器的数据分析做决定,可怕的是,今天看来,机器往往是正确的,这不得不让我们产生依赖。试想一下,如果收集的数据已经被修正过,或是系统逻辑已经被控制了呢!但是面对海量的数据收集、存储、管理、分析和共享,传统意义上的对错分析和奇偶较验已失去作用。
【解决方案】 在依靠大数据进行分析、决策的同时,还应辅助其他的传统决策支持系统,尽可能明智地使用数据所告诉我们的结果,让大数据为我们所用。但绝对不要片面地依赖于大数据系统。
挑战五:大数据独特的导入方式使得攻防双方地位的不对等性大大降低
在大数据时代,数据加工和存储链条上的时空先后顺序已被模糊,可扩展的数据联系使得隐私的保护更加困难。过去传统的安全防护工作,是先扎好篱笆、筑好墙,等待“黑客”的攻击,我们虽然不知道下一个“黑客”是谁,但我们一定知道,它是通过寻求新的漏洞,从前面逐层进入。守方在明处,但相比攻方有明显的压倒性优势。而在大数据时代,任何人都可以是信息的提供者和维护者,这种由先天的结构性导入设计所带来的变化,你很难知道“它”从哪里进来,“哪里”才是前沿。这种变化,使得攻、防双方的力量对比的不对等性大大下降。
同时,由于这种不对等性的降低,在我们用数据挖掘和数据分析等大数据技术获取有价值信息的同时,“黑客”也可以利用这些大数据技术发起新的攻击。“黑客”会最大限度地收集更多有用信息,比如社交网络、邮件、微博、电子商务、电话和家庭住址等信息,大数据分析使“黑客”的攻击更加精准。此外,“黑客”可能会同时控制上百万台傀儡机,利用大数据发起僵尸网络攻击。
【解决方案】 面对大数据所带来新的安全问题,有针对性地更新安全防护手段,增加新型防护手段,混合生产数据和经营数据,多种业务流并行,增加特征标识建设内容,增强对数据资源的管理和控制。
挑战六:大数据网络的相对开放性使得安全加固策略的复杂性有所降低
在大数据环境下,数据的使用者同时也是数据的创造者和供给者,数据间的联系是可持续扩展的,数据集是可以无限延伸的,上述原因就决定了关于大数据的应用策略要有新的变化,并要求大数据网络更加开放。大数据要对复杂多样的数据存储内容做出快速处理,这就要求很多时候,安全管理的敏感度和复杂度不能定得太高。此外,大数据强调广泛的参与性,这将倒逼系统管理者调低许多策略的安全级别。
当然,大数据的大小也影响到安全控制措施能否正确地执行,升级速度无法跟上数据量非线性增长的步伐,就会暴露大数据安全防护的漏洞。
【解决方案】 使用更加开放的分布式部署方式,采用更加灵活、更易于扩充的信息基础设施,基于威胁特征建立实时匹配检测,基于统一的时间源消除高级可持续攻击(APT)的可能性,精确控制大数据设计规模,削弱“黑客”可以利用的空间。
大数据时代已经到来,大数据已经产生出巨大影响力,并对我们的社会经济活动带来深刻影响。充分利用大数据技术来挖掘信息的巨大价值,从而实现并形成强有力的竞争优势,必将是一种趋势。面对大数据时代的六种安全挑战,如果我们能够予以足够重视,采取相应措施,将可以起到未雨绸缪的作用。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21 很多数据分析师每天盯着几十个指标,但当被问到“这套指标要支撑什么业务目标”“指标之间是什么逻辑关系”“业务变化时如何 ...
2026-05-21在数据驱动决策的时代,数据质量直接决定分析结果的可靠性与准确性,而异常值作为数据清洗中的核心痛点,往往会扭曲分析结论、误 ...
2026-05-20 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-05-20Agent的能力边界,很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill,但这条路很快会遇到瓶颈。业务 ...
2026-05-20在统计分析中,方差分析(ANOVA)是一种常用的假设检验方法,核心用于分析“一个或多个自变量对单个因变量的影响”,广泛应用于 ...
2026-05-19 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“什么是指标”“指标和维度有什么区别”“如何定义指标值的计算规则和 ...
2026-05-19想高效备考 CDA 一级,拒绝盲目刷题、冗余学习?《CDA 一级教材知识手册》重磅来袭!以官方教材为核心,浓缩 13 章 103 个核心考 ...
2026-05-19在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18