京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据意味着大风险
大数据不仅仅只是大量的数据
从某种意义上说,当一家企业开始收集和存储大量的数据信息时,其就已然成为了一个相当显眼的黑客攻击目标。但更广泛地说,对那些收集了大量有价值的非结构化数据信息的企业而言,其数据信息可能并不存在任何根本性的新威胁。
罗伯特·麦加维引用Brainloop公司全球营销副总裁David Topping的话说:“ 对于黑客攻击而言,那些PB级存储的大数据信息是安全的,因为这些数据的量对于黑客而言根本就太大了。也许除了那些资金雄厚的赞助商之外,一般的黑客都缺乏相关的分析工具来从如此庞大的数据量中提取有意义的信息。换句话说,企业也和这些黑客一样,面临同样严峻而显着的问题:如何从他们所收集的庞大数据中提取有价值的东西出来。因此,对于个别大型数据存储库而言,考虑增加任何超出其它类型数据库的安全性措施并无太大的实施意义,尤其是考虑到这些黑客相对于各大机构的能力往往是有限的。”
环境和细粒度的安全
但仅仅只是因为这些数据是非结构化的或更难进行筛选分析,并不意味着大数据必然是更安全。如果所有的大数据存储库都是有用的,就不能将所有每一条信息都进行同等的维护。正如InfoWorld的安得烈C.奥利弗指出的那样:“您企业所收集的数据越多,保持这些数据细粒度的任务和挑战也就越艰巨。企业如何才能在不牺牲大数据性能的前提下牢牢把握所有这些数据的所有权,并遵守相关的监管规定呢?这促使企业首先需要选择一款大数据解决方案。”
细粒度的数据安全分区对数据访问进行了分类。例如,企业的某部分员工可能只能够访问非财务方面的数据,而较高级的员工则有权访问更多的信息。此外,某些信息可能由另一个部门所拥有,或者对其的使用会被加以限制。我们面临的挑战是如何良好的对一个有组织且安全的系统进行维护,尽管面临着一定的环境困境。因此当企业在面临着在安全和盈利能力之间进行权衡的问题时,他们可以很容易地进行响应:“是的,我们有标准的网络安全,所以我们的数据是安全的。”
大数据不能被匿名化
您企业所受收集的数据越详细,就越是可能涉及到更多的个体私人信息,因此,对于个人隐私和安全问题的关注度也应提高。有CSO指出:“计算机科学家表示他们可以使用不涉及个人可识别信息的数据来重建相关人员的身份数据。例如,如果一家品牌企业或政府机构获得了覆盖某地区一年的客户GPS记录列表,那么,他们可以用该列表来了解一人或多人的身份信息。”在这种情况下,找到一个人的身份信息是非常简单的。例如,在某个时间段根据GPS进行定位,然后从互联网上搜索与该位置有关用户的姓名。一般情况下,这个过程可能会更复杂一点,但从概念上讲,其是一个很容易解决的简单问题。
尽管企业纷纷试图使大数据匿名化,这些企业最好的方法也只是使这些数据“假名化”--让一些信息是假名的,当然仍还是可与一个真实的身份相联系。这一有限制性的匿名化是大数据危险的一部分:黑客和其他恶意方可能无法完成数据的精细分析,但考虑到这些有限信息种类的丰富性,他们可以收集各种可利用的结论,进行欺诈,偷盗或者更糟的行为。
虽然原始数据需要保护,即使其是非结构化大数据存储库的一部分,但大数据所面临的更大的威胁是企业支付了巨大的成本才从大数据分析中获得的有价值的信息。麦加维再次引用 David Topping的话说:“许多企业浪费了太多的预算以保障大数据存储。而他们真正的风险则在相关数据信息的输出方面。由于企业往往很少监视或保护这些数据,围绕着企业分析得出的洞察输出是如何产生的… 大多数安全专家都认为,企业的雇员往往表现得很无辜,但有的的确是大数据被破坏最常见的罪魁祸首。”
企业需要保护大数据,尽管其涉及到某些原始信息,但我们需要将更多的重点放到通过对原始数据分析所获得的洞察见解方面。特别是,这些见解必须至少被视为比原始数据更为重要。
处理大数据的安全问题
接下来的问题便是如何解决这些企业担忧的安全问题。一种方法是为黑客提供一个有吸引力的假目标,以便使得企业能够学习更安全的研究方法来应对攻击,实施保护措施。这一战略或不甚理想,因为其只能当系统已经有一些漏洞时才能发挥作用。但这些弱点是可能被识别和解决的。
引用Forrester公司研究题为《未来的数据安全和隐私报告:关于大数据的控制》IBM指出,“安全专业人士在网络边缘最好进行控制。然而,如果攻击者穿透你的周边,他们将有充分的和不受限制的机会访问你的数据。” 当然,解决方案就在于为数据提供一个安全层,让简单地访问网络还不足以获得如此大的权限。
加密,特别是当处理大数据分析洞察见解时,是保护一种有效的信息保护方式,但其肯定不是一个新概念。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在信贷业务中,违约率是衡量信贷资产质量、把控信用风险、制定风控策略的核心指标,其统计分布特征直接决定了风险定价的合理性、 ...
2026-02-03在数字化业务迭代中,AB测试已成为验证产品优化、策略调整、运营活动效果的核心工具。但多数业务场景中,单纯的“AB组差异对比” ...
2026-02-03企业战略决策的科学性,决定了其长远发展的格局与竞争力。战略分析方法作为一套系统化、专业化的思维工具,为企业研判行业趋势、 ...
2026-02-03在统计调查与数据分析中,抽样方法分为简单随机抽样与复杂抽样两大类。简单随机抽样因样本均匀、计算简便,是基础的抽样方式,但 ...
2026-02-02在数据驱动企业发展的今天,“数据分析”已成为企业经营决策的核心支撑,但实践中,战略数据分析与业务数据分析两个概念常被混淆 ...
2026-02-02在数据驱动企业发展的今天,“数据分析”已成为企业经营决策的核心支撑,但实践中,战略数据分析与业务数据分析两个概念常被混淆 ...
2026-02-02B+树作为数据库索引的核心数据结构,其高效的查询、插入、删除性能,离不开节点间指针的合理设计。在日常学习和数据库开发中,很 ...
2026-01-30在数据库开发中,UUID(通用唯一识别码)是生成唯一主键、唯一标识的常用方式,其标准格式包含4个短横线(如550e8400-e29b-41d4- ...
2026-01-30商业数据分析的价值落地,离不开标准化、系统化的总体流程作为支撑;而CDA(Certified Data Analyst)数据分析师,作为经过系统 ...
2026-01-30在数据分析、质量控制、科研实验等场景中,数据波动性(离散程度)的精准衡量是判断数据可靠性、稳定性的核心环节。标准差(Stan ...
2026-01-29在数据分析、质量检测、科研实验等领域,判断数据间是否存在本质差异是核心需求,而t检验、F检验是实现这一目标的经典统计方法。 ...
2026-01-29统计制图(数据可视化)是数据分析的核心呈现载体,它将抽象的数据转化为直观的图表、图形,让数据规律、业务差异与潜在问题一目 ...
2026-01-29箱线图(Box Plot)作为数据分布可视化的核心工具,能清晰呈现数据的中位数、四分位数、异常值等关键统计特征,广泛应用于数据分 ...
2026-01-28在回归分析、机器学习建模等数据分析场景中,多重共线性是高频数据问题——当多个自变量间存在较强的线性关联时,会导致模型系数 ...
2026-01-28数据分析的价值落地,离不开科学方法的支撑。六种核心分析方法——描述性分析、诊断性分析、预测性分析、规范性分析、对比分析、 ...
2026-01-28在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27数据分析的基础范式,是支撑数据工作从“零散操作”走向“标准化落地”的核心方法论框架,它定义了数据分析的核心逻辑、流程与目 ...
2026-01-27在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26