京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据意味着大风险
大数据不仅仅只是大量的数据
从某种意义上说,当一家企业开始收集和存储大量的数据信息时,其就已然成为了一个相当显眼的黑客攻击目标。但更广泛地说,对那些收集了大量有价值的非结构化数据信息的企业而言,其数据信息可能并不存在任何根本性的新威胁。
罗伯特·麦加维引用Brainloop公司全球营销副总裁David Topping的话说:“ 对于黑客攻击而言,那些PB级存储的大数据信息是安全的,因为这些数据的量对于黑客而言根本就太大了。也许除了那些资金雄厚的赞助商之外,一般的黑客都缺乏相关的分析工具来从如此庞大的数据量中提取有意义的信息。换句话说,企业也和这些黑客一样,面临同样严峻而显着的问题:如何从他们所收集的庞大数据中提取有价值的东西出来。因此,对于个别大型数据存储库而言,考虑增加任何超出其它类型数据库的安全性措施并无太大的实施意义,尤其是考虑到这些黑客相对于各大机构的能力往往是有限的。”
环境和细粒度的安全
但仅仅只是因为这些数据是非结构化的或更难进行筛选分析,并不意味着大数据必然是更安全。如果所有的大数据存储库都是有用的,就不能将所有每一条信息都进行同等的维护。正如InfoWorld的安得烈C.奥利弗指出的那样:“您企业所收集的数据越多,保持这些数据细粒度的任务和挑战也就越艰巨。企业如何才能在不牺牲大数据性能的前提下牢牢把握所有这些数据的所有权,并遵守相关的监管规定呢?这促使企业首先需要选择一款大数据解决方案。”
细粒度的数据安全分区对数据访问进行了分类。例如,企业的某部分员工可能只能够访问非财务方面的数据,而较高级的员工则有权访问更多的信息。此外,某些信息可能由另一个部门所拥有,或者对其的使用会被加以限制。我们面临的挑战是如何良好的对一个有组织且安全的系统进行维护,尽管面临着一定的环境困境。因此当企业在面临着在安全和盈利能力之间进行权衡的问题时,他们可以很容易地进行响应:“是的,我们有标准的网络安全,所以我们的数据是安全的。”
大数据不能被匿名化
您企业所受收集的数据越详细,就越是可能涉及到更多的个体私人信息,因此,对于个人隐私和安全问题的关注度也应提高。有CSO指出:“计算机科学家表示他们可以使用不涉及个人可识别信息的数据来重建相关人员的身份数据。例如,如果一家品牌企业或政府机构获得了覆盖某地区一年的客户GPS记录列表,那么,他们可以用该列表来了解一人或多人的身份信息。”在这种情况下,找到一个人的身份信息是非常简单的。例如,在某个时间段根据GPS进行定位,然后从互联网上搜索与该位置有关用户的姓名。一般情况下,这个过程可能会更复杂一点,但从概念上讲,其是一个很容易解决的简单问题。
尽管企业纷纷试图使大数据匿名化,这些企业最好的方法也只是使这些数据“假名化”--让一些信息是假名的,当然仍还是可与一个真实的身份相联系。这一有限制性的匿名化是大数据危险的一部分:黑客和其他恶意方可能无法完成数据的精细分析,但考虑到这些有限信息种类的丰富性,他们可以收集各种可利用的结论,进行欺诈,偷盗或者更糟的行为。
虽然原始数据需要保护,即使其是非结构化大数据存储库的一部分,但大数据所面临的更大的威胁是企业支付了巨大的成本才从大数据分析中获得的有价值的信息。麦加维再次引用 David Topping的话说:“许多企业浪费了太多的预算以保障大数据存储。而他们真正的风险则在相关数据信息的输出方面。由于企业往往很少监视或保护这些数据,围绕着企业分析得出的洞察输出是如何产生的… 大多数安全专家都认为,企业的雇员往往表现得很无辜,但有的的确是大数据被破坏最常见的罪魁祸首。”
企业需要保护大数据,尽管其涉及到某些原始信息,但我们需要将更多的重点放到通过对原始数据分析所获得的洞察见解方面。特别是,这些见解必须至少被视为比原始数据更为重要。
处理大数据的安全问题
接下来的问题便是如何解决这些企业担忧的安全问题。一种方法是为黑客提供一个有吸引力的假目标,以便使得企业能够学习更安全的研究方法来应对攻击,实施保护措施。这一战略或不甚理想,因为其只能当系统已经有一些漏洞时才能发挥作用。但这些弱点是可能被识别和解决的。
引用Forrester公司研究题为《未来的数据安全和隐私报告:关于大数据的控制》IBM指出,“安全专业人士在网络边缘最好进行控制。然而,如果攻击者穿透你的周边,他们将有充分的和不受限制的机会访问你的数据。” 当然,解决方案就在于为数据提供一个安全层,让简单地访问网络还不足以获得如此大的权限。
加密,特别是当处理大数据分析洞察见解时,是保护一种有效的信息保护方式,但其肯定不是一个新概念。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据工作的全流程中,数据清洗是最基础、最耗时,同时也是最关键的核心环节,无论后续是做常规数据分析、可视化报表,还是开展 ...
2026-03-20在大数据与数据驱动决策的当下,“数据分析”与“数据挖掘”是高频出现的两个核心概念,也是很多职场人、入门学习者容易混淆的术 ...
2026-03-20在CDA(Certified Data Analyst)数据分析师的全流程工作闭环中,统计制图是连接严谨统计分析与高效业务沟通的关键纽带,更是CDA ...
2026-03-20在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12