gracejpw1117

2020-07-10   阅读量: 1147

大数据

数据中台之数据质量和安全

扫码加入数据分析学习群

数据质量和安全在很多架构图中归属于资产管理模块,但是笔者认为数据质量和安全应该是贯穿整个数据中台的。数据汇聚和数据开发的时候显然也应该考虑质量和安全问题,所以笔者倾向于将数据质量单独拿出来作为一个模块。

数据质量

我们会遇到无处不在的数据质量问题,包括业务系统脏数据、数据不一致不准确等。影响数据使用和上层决策。

为什么会出现数据质量问题呢?大部分是如下几个原因

  • 开发代码的BUG

  • 数据源变更:比如由于MYSQL表结构变更,导致HIVE同步MYSQL任务失败。

  • 基础设施和服务不稳定或资源不足:比如流量猛增的情况导致OOM

由于这些原因,会导致数据不符合以下"四性",因此存在数据质量问题:

  • 完整性:指的是数据信息是否存在缺失的状况,可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。

  • 一致性:是指数据是否遵守了统一的规范,数据集合是否保持了统一的格式。比如商品购买率=商品购买用户数 / 商品访问量,如果在不同的模型中,商品购买用户数是1W、商品访问量10W,商品购买率20%,那这三个指标就存在不一致。

  • 准确性:是指数据记录的信息是否存在异常或错误。比如数据格式是否为正确的ip。

  • 及时性:是指数据从产生到可以查询的时间间隔,也叫数据的延时时长。

而数据质量无疑是非常重要的一部分,就算你数据再多再快,不准也无用。因此数据质量管理平台尤为重要。数据质量管理是支持多种异构数据源的质量校验、通知、管理服务的一站式平台。包括数据探查、对比、质量监控、SQL扫描和智能报警等功能。数据质量监控可以全程监控数据加工流水线,根据质量规则及时发现问题,并通过报警通知负责人及时处理。

在实际生产中,可从以下几个方面做好数据质量工作:

  • 离线数据:数据是否完整、一致和准确,比如HIVE离线同步业务库MYSQL数据,同步完需要对比数据条数。

  • 实时数据:除了数据是否完整、一致和准确,还需要检测数据是否断流、数据是否延迟。

  • 报警监控:支持短信、微信告警到对应负责人。

数据安全

数据安全的重要性不用多说,如果你把用户信息泄露了,严重会导致整个公司都倒闭。因此对于全链路的数据,都应该做好数据安全工作。比如应该把业务库/日志的敏感数据进行脱敏,为身份证、银行卡等常用的数据类型提供掩盖脱敏策略。以及日志审计等。

数据生命周期安全可以分为以下几个部分:

  • 数据采集安全:包括数据源鉴别以及记录等

  • 数据传输安全:包括数据传输加密等

  • 数据存储安全:包括存储介质安全、数据备份恢复等

  • 数据处理安全:包括数据脱敏等

  • 数据交换安全:包括数据共享安全、导入导出安全等

  • 数据销毁安全:包括数据销毁和介质销毁等


添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
24.3632 4 1 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子