京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据来袭 企业如何保护非结构化大数据
目前企业已经进入全新的大数据时代。在高带宽、移动的、网络环境中工作和生活的我们,会产生大量的数据,这些都成为大数据的来源,而这些信息很少存在于同一个地方。在几微秒中,信息就能够发布给世界各地的很多人。企业的高管门(包括CEO、CIO、CSO等)都必须面对因为大数据带来的风险和安全挑战,并规划好如何去应对他们。本文将讨论如何看待非结构化数据相对于传统的结构化数据带来的安全风险和挑战以及多层面防护方法。
识别非结构化数据与结构化数据安全保护的差异
信息通常被归类为结构化形式的或非结构化形式的。不同的类型有不同的保护方法。举个例子来说,非结构化的Excel电子数据表实际上包含结构化 的数据。在经典的术语中,结构化的数据是指数据符合某种严格的数据模型和限制的模型。比如,模型可以定义一个业务流程控制信息流经过一些面向服务的架构(SOA)系统,或者也可定义数据如何在内存的一个数组中存储。但是对于大多数IT和数据库管理专家来说,结构化数据是驻留在数据库中,并基于数据库架构和相关数据库规则被组织的信息。而作为一个安全专家来说,这就意味着两个重要的事情:
数据库驻留在数据中心,周围是物理安全设施(包括砖墙、金属柜子等)、网络防火墙和其他安全措施,允许你能够控制对数据的访问。
数据本身的结构化方式通常允许对数据的简单分类。举个例子,你能在数据库中识别一个特定的人的医疗记录和应用相应的安全控制。
所以,因为你知道结构化数据是什么样的以及它驻留在哪里,你有严格的控制机制来决定谁能访问它。对于结构化数据定义和应用安全控制相对简单,要么使用结构内置的特性或者专门为特定结构设计的第三方工具即可完成控制。
而在相比之下,非结构化数据的管理和安全更加困难。非结构化数据能在任何地方、以任何格式、在任何设备上存在,并且在大数据时代能够跨越任何网 络。举个例子说明非结构化数据的应用复杂性,一个病人的记录从数据库中被提取出来显示在一个网页上,从网页拷贝到数据表格中,附在电子邮件中,然后发送到 另外一个网络的邮箱中。
并且,非结构化的数据没有严格的格式。当然,我们的Word文档,电子邮件等符合定义它们内部结构的标准;然而,它们其中包含的数据几乎没有限 制。比如上面列举的那个病人记录的例子,假设一个用户改变内容后把它从网页上拷贝到数据表格中,可能删除了某些字段和标题。因为这个信息从一种格式转变成 了另外一种格式,它原始的机构被有效的改变了。
保护存储成结构化的数据和信息是相对简单的。但是随着一个信息从结构化的形式移转变为非结构化的时候,这个情况就会变得非常的复杂。考虑这样一 个例子,很多分析人士的报告表明在当前的企业组织中,80%或者超过80%的电子信息是非结构化的,还有非结构化数据增长的速度是结构化数据的10到20 倍。也考虑一下媒体上的新闻文章不断强调知识产权的窃取、信息的意外丢失、数据的恶意使用等,最核心的问题就是非结构化的数据。在2010年,全球总的非 结构化的数据估计大概有100万PB(1048576000000GB),被认为将以每年25%的速度增加。我们显然需要去理解我们如何保护非结构化数据 的安全。
非结构化数据需安全保护的“三态”
非结构化的数据在任何给定的时间总是处在三种状态中的一种:非使用、传输中、使用中。非使用也就是在存储设备中;它可能在传输中意味着它从一个地方被拷贝到另一个地方。或者,它可能在使用中(被一些应用程序打开着)。比如一个PDF文件,它可能存储在一个USB设备上,不在使用状态;同一个PDF文件可能从USB设备拷贝,并附在电子邮件中发送到因特网上。PDF从USB设备上被拷贝,通过很多州到电子邮件服务器,通过网络从发件箱到收件箱。最后,收件人收到邮件并打开PDF文件,在那个时刻非结构化数据处于使用状态(驻留在内存中),在一个应用程序的控制下(例如Adobe Reader阅读器),并被呈现给可以交互的用户。
结构化数据转化为非结构化数据带来风险
基于上面三种状态的描述,可以更加详细地讨论目前对保护非结构化数据的挑战。假设企业组织有一个HR的应用程序,它包括一个维护每个员工信息的数据库,包括他们的年度工资、以前的纪律处分信息、个人数据(例如家庭地址和社会安全号码)等。如同大多数现代的HR应用程序一样,它是基于网页的,所以当一个认证的用户运行一个报表的时候,报表是从结构化的数据库过渡到非结构化的数据,以HTML的格式传递给网页浏览器。 用户应用程序能够很容易从浏览器的拷贝和粘贴这个信息到电子邮箱信息和通过其他方式转发。当这个信息一旦添加到邮件正文中,它失去了与原始的应用程序所有 结构和关联。用户可能也会选择只拷贝和粘贴一部分信息,更改一部分信息,或者在原始的信息中添加一些新的内容。收到用户发的电子邮件的人可能会拷贝和粘贴 数据到电子表格。这些电子表格信息可能被用来创建一个图示的信息,使用的原始的一些文本信息在图形上作为标签。如同这个情况所示,结构化信息很快就被三种 状态的改变而转化成了非结构化数据,这些结构化数据从以前的数据库中改变并重构、存储在较小的数据格式中,它们包括电子邮件,文档,图片,视频等等。
企业可能已经很好的定义了安全模型去控制访问HR的应用程序和包含HR信息的数据库。然而,信息需要传递给对有意义的人们或者应用程序。如果它通过网络传输了,企业和用户能确定访问网络是安全的,然而,当信息到达用户时,它能够被转换成数千种不同的格式,发送给各 种各样的应用程序和网络。每个信息存在的地方能够有保护的,它可能应用访问控制对共享文件和控制对数据驻留(内容)的地方和网络的访问;然而,你的非结构 化信息可能在任何地方被终结,因此很难对它保护。事实上,甚至很难对它定位、识别和分类信息。一旦HR的数据终结在电子邮件中,意外的转发给错误的人,它 就没有存储在数据库原始数据的良好结构了。它在从数据库到一个未授权的用户的收件箱的传输过程中,也被复制了好几次。
事实上,在大数据时代,非结构化的数据不断的发生变化,数据终结在你没有预期的地方,特别是因特网提供了一个令人难以置信的由擅长传输非结构化数据的计算机组成的大型网络。大量的金钱和精力投入到去建设社交网络(SNS), 文件共享和协助服务,点对点的应用。点对点提供了无数种将非结构化数据在几秒钟内发布给数十亿的用户。所以我们经常听到关于数据丢失的例子就不足为奇,现 在我们创造了这么多令人惊讶的方法允许信息简单的离开我们保护的边界,我们的网络控制用来阻止攻击者范围受我们保护的数据不再足以让它安全了。
因此,企业高层管理者要充分意识到大数据时代非结构化数据带来的安全风险和冲击,并提前准备好相应的措施来应对它。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-10在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-10在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07在数据分析与统计推断中,p值是衡量假设检验结果显著性的核心指标,其本质是在原假设(通常为“无效应”“无差异”)成立的前提 ...
2026-04-07在数字经济深度渗透的今天,数据已成为企业生存发展的核心资产,企业的竞争本质已转变为数据利用能力的竞争。然而,大量来自生产 ...
2026-04-07Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02在数字化交互的全场景中,用户的每一次操作都在生成动态的行为轨迹——电商用户的“浏览商品→点击详情→加入购物车”,内容APP ...
2026-04-02在数字化转型深度推进的今天,企业数据已成为驱动业务增长、构建核心竞争力的战略资产,而数据安全则是守护这份资产的“生命线” ...
2026-04-02在数据驱动决策的浪潮中,数据挖掘与数据分析是两个高频出现且极易被混淆的概念。有人将二者等同看待,认为“做数据分析就是做数 ...
2026-04-01