京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据意味着大风险
大数据不仅仅只是大量的数据
从某种意义上说,当一家企业开始收集和存储大量的数据信息时,其就已然成为了一个相当显眼的黑客攻击目标。但更广泛地说,对那些收集了大量有价值的非结构化数据信息的企业而言,其数据信息可能并不存在任何根本性的新威胁。
罗伯特·麦加维引用Brainloop公司全球营销副总裁David Topping的话说:“ 对于黑客攻击而言,那些PB级存储的大数据信息是安全的,因为这些数据的量对于黑客而言根本就太大了。也许除了那些资金雄厚的赞助商之外,一般的黑客都缺乏相关的分析工具来从如此庞大的数据量中提取有意义的信息。换句话说,企业也和这些黑客一样,面临同样严峻而显着的问题:如何从他们所收集的庞大数据中提取有价值的东西出来。因此,对于个别大型数据存储库而言,考虑增加任何超出其它类型数据库的安全性措施并无太大的实施意义,尤其是考虑到这些黑客相对于各大机构的能力往往是有限的。”
环境和细粒度的安全
但仅仅只是因为这些数据是非结构化的或更难进行筛选分析,并不意味着大数据必然是更安全。如果所有的大数据存储库都是有用的,就不能将所有每一条信息都进行同等的维护。正如InfoWorld的安得烈C.奥利弗指出的那样:“您企业所收集的数据越多,保持这些数据细粒度的任务和挑战也就越艰巨。企业如何才能在不牺牲大数据性能的前提下牢牢把握所有这些数据的所有权,并遵守相关的监管规定呢?这促使企业首先需要选择一款大数据解决方案。”
细粒度的数据安全分区对数据访问进行了分类。例如,企业的某部分员工可能只能够访问非财务方面的数据,而较高级的员工则有权访问更多的信息。此外,某些信息可能由另一个部门所拥有,或者对其的使用会被加以限制。我们面临的挑战是如何良好的对一个有组织且安全的系统进行维护,尽管面临着一定的环境困境。因此当企业在面临着在安全和盈利能力之间进行权衡的问题时,他们可以很容易地进行响应:“是的,我们有标准的网络安全,所以我们的数据是安全的。”
大数据不能被匿名化
您企业所受收集的数据越详细,就越是可能涉及到更多的个体私人信息,因此,对于个人隐私和安全问题的关注度也应提高。有CSO指出:“计算机科学家表示他们可以使用不涉及个人可识别信息的数据来重建相关人员的身份数据。例如,如果一家品牌企业或政府机构获得了覆盖某地区一年的客户GPS记录列表,那么,他们可以用该列表来了解一人或多人的身份信息。”在这种情况下,找到一个人的身份信息是非常简单的。例如,在某个时间段根据GPS进行定位,然后从互联网上搜索与该位置有关用户的姓名。一般情况下,这个过程可能会更复杂一点,但从概念上讲,其是一个很容易解决的简单问题。
尽管企业纷纷试图使大数据匿名化,这些企业最好的方法也只是使这些数据“假名化”--让一些信息是假名的,当然仍还是可与一个真实的身份相联系。这一有限制性的匿名化是大数据危险的一部分:黑客和其他恶意方可能无法完成数据的精细分析,但考虑到这些有限信息种类的丰富性,他们可以收集各种可利用的结论,进行欺诈,偷盗或者更糟的行为。
虽然原始数据需要保护,即使其是非结构化大数据存储库的一部分,但大数据所面临的更大的威胁是企业支付了巨大的成本才从大数据分析中获得的有价值的信息。麦加维再次引用 David Topping的话说:“许多企业浪费了太多的预算以保障大数据存储。而他们真正的风险则在相关数据信息的输出方面。由于企业往往很少监视或保护这些数据,围绕着企业分析得出的洞察输出是如何产生的… 大多数安全专家都认为,企业的雇员往往表现得很无辜,但有的的确是大数据被破坏最常见的罪魁祸首。”
企业需要保护大数据,尽管其涉及到某些原始信息,但我们需要将更多的重点放到通过对原始数据分析所获得的洞察见解方面。特别是,这些见解必须至少被视为比原始数据更为重要。
处理大数据的安全问题
接下来的问题便是如何解决这些企业担忧的安全问题。一种方法是为黑客提供一个有吸引力的假目标,以便使得企业能够学习更安全的研究方法来应对攻击,实施保护措施。这一战略或不甚理想,因为其只能当系统已经有一些漏洞时才能发挥作用。但这些弱点是可能被识别和解决的。
引用Forrester公司研究题为《未来的数据安全和隐私报告:关于大数据的控制》IBM指出,“安全专业人士在网络边缘最好进行控制。然而,如果攻击者穿透你的周边,他们将有充分的和不受限制的机会访问你的数据。” 当然,解决方案就在于为数据提供一个安全层,让简单地访问网络还不足以获得如此大的权限。
加密,特别是当处理大数据分析洞察见解时,是保护一种有效的信息保护方式,但其肯定不是一个新概念。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10