数据治理

Catalogue
  1. 一、背景
    1. 1.1 为什么做数据治理(why)
    2. 1.2 需要治理哪些问题(what)
    3. 1.3 数据该如何治理(how)
    4. 1.4 数据治理的目标
  2. 二、数据治理实践
    1. 2.1 业务场景治理
    2. 2.2 平台化建设
      1. 2.2.1 数据规范流程(基础)
        1. 数据标准管理
        2. 元数据管理
        3. 生命周期管理
      2. 2.2.2 数据质量管控(保障)
      3. 2.2.3 数据安全与合规(底线)
      4. 2.2.4 数据价值挖掘(目标)
  3. 三、工具集成
    1. 2.1 Atlas
    2. 2.2 DataHub
  4. 四、问题

数据已成为很多公司的核心资产,我们做数据开发就是将原始数据资产化的过程。但这个过程中会引入各种问题,包括数据质量、安全、效率、成本、标准。而数据治理就是不断的消除引入的这些问题,保证数据准确、全面和完整,安全的为业务创造价值。 数据治理在如今已经是很多公司一项非常重要的核心能力。

本文系统的介绍了数据治理方面的理论与实践。

一、背景

1.1 为什么做数据治理(why)

企业数字化、数智化转型时代,数据的重要新不言而喻。各企业都在将数据打造成公司的核心资产,从而驱动业务的发展。在数据领域中,“数据治理”概念仅年来尤为火热,各企业都在做数据治理的工作。

那为什么要做数据治理呢?
主要是因为在数据的全生命周期中, 每个环节都可能引入各种质量、效率、安全、成本相关的问题。
在公司早期阶段,这些问题对公司发展影响并不是很大,公司对问题的容忍度相对也比较高。
但随着业务发展,公司利用数据资产创造价值的时候,对数据质量和稳定性有了一定的要求。此外,公司对数据精细化运营程度的要求随着数据量的增加也有所提高,逐渐发现很多需要治理的问题。

1.2 需要治理哪些问题(what)

数据治理是一项长期持续的工程,我们通过建立一个满足企业需求的数据决策体系。在数据资产管理过程中行驶权利、管控、决策等活动,这里也涉及组织、流程、管理制度和技术体系等多方面。一般日常的治理工作基本围绕以下问题展开:
质量问题:这是基础的重要的问题。例如数仓的及时性、准确性、规范性、以及数据应用指标的逻辑一致性问题等。
标准问题:公司业务部门比较多的时候,各部门、团队的数据标准不一致,数据打通和整合过程中都会出现很多问题。早起的烟囱式发展。
成本问题:大数据基础设施上的成本投入,随着数据量的增加,成本也将继续攀升。
效率问题:数据运营效率,多场景下数据使用时的沟通和使用成本。无法有效积累和沉淀知识。
安全问题:数据权限管控标准。避免数据泄漏带来的安全风险和商业损失。

1.3 数据该如何治理(how)

要解决以上问题,Data Governance:涉及4件事,数据架构和模型数据标准规范流程(流转规则、组织权责与操作流程)、数据质量监控数据安全管控

数据治理一定包含 静态的数据标准模型管理和动态的数据生命周期的管理。
数据架构和模型(数据标准模型管理):数据治理广义的定义,涉及到数据架构和数据模型的内容;狭义定义仅涉及前三个。「是治理的核心」
数据规范流程(生命周期管理):主要明确数据全生命周期(产生→集成→存储→使用→退役)的流转规则,
   配套组织权责与操作流程,让数据管理有章可循。
数据质量和安全:保障数据的可用、可信、合规。关键维度包括:准确、完整、一致、及时、唯一;泄露、篡改、丢失、违规。

「治理框架」
结合DAMA、DCMM数据管理成熟的模型(核心内容做简化)

「相关概念」
数据架构,离不开企业架构、4A架构。数据架构设计一定离不开业务。

当提到数据架构是,其离不开企业的(4A架构)。 数据架构之前一定会涉及到企业业务价值链、价值流的分析,业务架构的规划设计。
通过业务架构的规划设计,到了业务建模阶段,逐渐的识别出关键的业务对象,然后再把这个业务对象转成数据对象。
接着进入到数据对象里面的概念模型、逻辑模型和物理模型。

TOGAF / 企业架构蓝图(简版)

1.4 数据治理的目标

以上了解了数据治理的问题和解决方法, 那针对不同业务场景,各企业关注的侧重点有所不同,可结合实际定目标实施。
其核心目的主要是是保证数据“可信、合规、好用”。保障数据的准确性、一致性、完整性、安全性;降低数据使用成本,释放数据价值,支撑业务决策与数字化转型;确保数据合规使用等。
对数据生命周期全链路进行体系化治理,保持数据体系的长期稳定。 具体的目标包括:

建立开发标准规范:公司业务部门比较多的时候,各部门、团队的数据标准不一致,数据打通和整合过程中都会出现很多问题。早起的烟囱式发展。
成本控制:合理控制数据的生命周期,避免数据重复建设,减少数据冗余,及时归档和清理冷数据。
效率问题:提高数据工程师的开发和运维效率,减少数据运营的时间投入,提高数据运营的自动化、系统化程度。
安全问题:…

二、数据治理实践

2.1 业务场景治理

2.2 平台化建设

2.2.1 数据规范流程(基础)

核心解决 “数据如何被统一定义、有序流转、可被理解” 的问题,为数据质量校验、数据安全管控提供前提。
(比如:没有统一的数据标准,数据质量就没有校验依据;没有元数据支撑,数据安全的分级分类就无法落地)。

数据标准管理

「数据标准管理:数据的“统一语言”」

  • 核心目标:解决数据 “口径不一、命名混乱” 问题,实现数据一致性。
  • 落地方式:制定标准文档、嵌入数据开发流程(如建表时自动校验命名规范)、定期稽核标准执行情况。

元数据管理

「元数据管理:数据治理的 “字典”」

  • 核心目标:让数据 “可识别、可理解”,明确数据的来源、定义、关系。
  • 工具支撑:Apache Atlas、DataHub、Alibaba DataWorks 元数据中心。

datameta..

分为:数据血缘、数据字典、数据特征。

生命周期管理

「数据生命周期管理:全流程管控」

  • 核心目标:优化数据存储成本,避免数据冗余,保障数据全流程可追溯。
  • 落地方式:制定生命周期策略、通过调度工具自动执行归档 / 清理任务。

核心目标:优化数据存储成本,确保数据全流程可管控、可追溯。
核心内容:数据分级分类(如核心数据、普通数据、过期数据)、数据存储策略(热数据存内存、冷数据存低成本存储)、数据归档(历史数据归档)、数据退役(过期数据销毁)。

2.2.2 数据质量管控(保障)

核心是「让数据 “干净、可用”」

核心内容:制定数据质量规则(准确性、完整性、一致性等校验规则)、数据清洗(处理缺失值、错误值、重复值)、数据质量监控(实时 / 定时检测数据质量)、数据问题溯源与整改。

核心目标:剔除 “脏数据”,确保数据可信,避免错误数据导致决策偏差。

2.2.3 数据安全与合规(底线)

核心是「让数据 “安全、合规”」

核心目标:防范数据泄露、篡改、滥用,守住数据合规底线。
核心内容:数据权限管控(最小权限原则,如谁能查看敏感数据)、敏感数据脱敏(如手机号显示 138**5678)、数据加密(传输 / 存储加密)、操作审计(日志追溯)、合规管控(符合《个人信息保护法》)。

2.2.4 数据价值挖掘(目标)

目标层,如数据服务、数据资产化

数据架构和模型 我们在 单独的 数据架构章节展开。 这里提到

三、工具集成

了解Atlas、DataHub 数据治理工具

2.1 Atlas

聚焦 Hadoop 生态的开源元数据管理与数据治理平台。

2.2 DataHub

该名称对应两款不同定位的工具,分别适配开源元数据管理和云平台流式数据处理场景:

  1. Linkedin 开源的元数据管理平台
  2. 阿里云流式数据总线 DataHub

四、问题

系统的介绍下数据治理?
数据治理的目的:解决数据生命周期中引入的各种问题,主要围绕几个问题,有相关的几种解法。
每种解法如何实施

大厂如何做数据治理?

  • 数据标准规范流程:
  • 数据架构和模型:
  • 数据质量:

企业信息化和数字化转型中的数据治理?

什么是企业信息化、数字化;和互联网大厂的 系统平台 有什么区别?核心是「让数据 “干净、可用”」

核心内容:制定数据质量规则(准确性、完整性、一致性等校验规则)、数据清洗(处理缺失值、错误值、重复值)、数据质量监控(实时 / 定时检测数据质量)、数据问题溯源与整改。

核心目标:剔除 “脏数据”,确保数据可信,避免错误数据导致决策偏差。