数据治理
数据已成为很多公司的核心资产,我们做数据开发就是将原始数据资产化的过程。但这个过程中会引入各种问题,包括数据质量、安全、效率、成本、标准。而数据治理就是不断的消除引入的这些问题,保证数据准确、全面和完整,安全的为业务创造价值。 数据治理在如今已经是很多公司一项非常重要的核心能力。
本文系统的介绍了数据治理方面的理论与实践。
一、背景
1.1 为什么做数据治理(why)
企业数字化、数智化转型时代,数据的重要新不言而喻。各企业都在将数据打造成公司的核心资产,从而驱动业务的发展。在数据领域中,“数据治理”概念仅年来尤为火热,各企业都在做数据治理的工作。
那为什么要做数据治理呢?
主要是因为在数据的全生命周期中, 每个环节都可能引入各种质量、效率、安全、成本相关的问题。
在公司早期阶段,这些问题对公司发展影响并不是很大,公司对问题的容忍度相对也比较高。
但随着业务发展,公司利用数据资产创造价值的时候,对数据质量和稳定性有了一定的要求。此外,公司对数据精细化运营程度的要求随着数据量的增加也有所提高,逐渐发现很多需要治理的问题。
1.2 需要治理哪些问题(what)
数据治理是一项长期持续的工程,我们通过建立一个满足企业需求的数据决策体系。在数据资产管理过程中行驶权利、管控、决策等活动,这里也涉及组织、流程、管理制度和技术体系等多方面。一般日常的治理工作基本围绕以下问题展开:
质量问题:这是基础的重要的问题。例如数仓的及时性、准确性、规范性、以及数据应用指标的逻辑一致性问题等。
标准问题:公司业务部门比较多的时候,各部门、团队的数据标准不一致,数据打通和整合过程中都会出现很多问题。早起的烟囱式发展。
成本问题:大数据基础设施上的成本投入,随着数据量的增加,成本也将继续攀升。
效率问题:数据运营效率,多场景下数据使用时的沟通和使用成本。无法有效积累和沉淀知识。
安全问题:数据权限管控标准。避免数据泄漏带来的安全风险和商业损失。
1.3 数据该如何治理(how)
要解决以上问题,Data Governance:涉及4件事,数据架构和模型、数据标准规范流程(流转规则、组织权责与操作流程)、数据质量监控、数据安全管控。
数据治理一定包含 静态的数据标准模型管理和动态的数据生命周期的管理。
数据架构和模型(数据标准模型管理):数据治理广义的定义,涉及到数据架构和数据模型的内容;狭义定义仅涉及前三个。「是治理的核心」
数据规范流程(生命周期管理):主要明确数据全生命周期(产生→集成→存储→使用→退役)的流转规则,
配套组织权责与操作流程,让数据管理有章可循。
数据质量和安全:保障数据的可用、可信、合规。关键维度包括:准确、完整、一致、及时、唯一;泄露、篡改、丢失、违规。
「治理框架」
结合DAMA、DCMM数据管理成熟的模型(核心内容做简化)
「相关概念」
数据架构,离不开企业架构、4A架构。数据架构设计一定离不开业务。
当提到数据架构是,其离不开企业的(4A架构)。 数据架构之前一定会涉及到企业业务价值链、价值流的分析,业务架构的规划设计。
通过业务架构的规划设计,到了业务建模阶段,逐渐的识别出关键的业务对象,然后再把这个业务对象转成数据对象。
接着进入到数据对象里面的概念模型、逻辑模型和物理模型。
1.4 数据治理的目标
以上了解了数据治理的问题和解决方法, 那针对不同业务场景,各企业关注的侧重点有所不同,可结合实际定目标实施。
其核心目的主要是是保证数据“可信、合规、好用”。保障数据的准确性、一致性、完整性、安全性;降低数据使用成本,释放数据价值,支撑业务决策与数字化转型;确保数据合规使用等。
对数据生命周期全链路进行体系化治理,保持数据体系的长期稳定。 具体的目标包括:
建立开发标准规范:公司业务部门比较多的时候,各部门、团队的数据标准不一致,数据打通和整合过程中都会出现很多问题。早起的烟囱式发展。
成本控制:合理控制数据的生命周期,避免数据重复建设,减少数据冗余,及时归档和清理冷数据。
效率问题:提高数据工程师的开发和运维效率,减少数据运营的时间投入,提高数据运营的自动化、系统化程度。
安全问题:…
二、数据治理实践
2.1 业务场景治理
2.2 平台化建设
2.2.1 数据规范流程(基础)
核心解决 “数据如何被统一定义、有序流转、可被理解” 的问题,为数据质量校验、数据安全管控提供前提。
(比如:没有统一的数据标准,数据质量就没有校验依据;没有元数据支撑,数据安全的分级分类就无法落地)。
数据标准管理
「数据标准管理:数据的“统一语言”」
- 核心目标:解决数据 “口径不一、命名混乱” 问题,实现数据一致性。
- 落地方式:制定标准文档、嵌入数据开发流程(如建表时自动校验命名规范)、定期稽核标准执行情况。
元数据管理
「元数据管理:数据治理的 “字典”」
- 核心目标:让数据 “可识别、可理解”,明确数据的来源、定义、关系。
- 工具支撑:Apache Atlas、DataHub、Alibaba DataWorks 元数据中心。
datameta..
分为:数据血缘、数据字典、数据特征。
生命周期管理
「数据生命周期管理:全流程管控」
- 核心目标:优化数据存储成本,避免数据冗余,保障数据全流程可追溯。
- 落地方式:制定生命周期策略、通过调度工具自动执行归档 / 清理任务。
核心目标:优化数据存储成本,确保数据全流程可管控、可追溯。
核心内容:数据分级分类(如核心数据、普通数据、过期数据)、数据存储策略(热数据存内存、冷数据存低成本存储)、数据归档(历史数据归档)、数据退役(过期数据销毁)。
2.2.2 数据质量管控(保障)
核心是「让数据 “干净、可用”」
核心内容:制定数据质量规则(准确性、完整性、一致性等校验规则)、数据清洗(处理缺失值、错误值、重复值)、数据质量监控(实时 / 定时检测数据质量)、数据问题溯源与整改。
核心目标:剔除 “脏数据”,确保数据可信,避免错误数据导致决策偏差。
2.2.3 数据安全与合规(底线)
核心是「让数据 “安全、合规”」
核心目标:防范数据泄露、篡改、滥用,守住数据合规底线。
核心内容:数据权限管控(最小权限原则,如谁能查看敏感数据)、敏感数据脱敏(如手机号显示 138**5678)、数据加密(传输 / 存储加密)、操作审计(日志追溯)、合规管控(符合《个人信息保护法》)。
2.2.4 数据价值挖掘(目标)
目标层,如数据服务、数据资产化
数据架构和模型 我们在 单独的 数据架构章节展开。 这里提到
三、工具集成
了解Atlas、DataHub 数据治理工具
2.1 Atlas
聚焦 Hadoop 生态的开源元数据管理与数据治理平台。
2.2 DataHub
该名称对应两款不同定位的工具,分别适配开源元数据管理和云平台流式数据处理场景:
- Linkedin 开源的元数据管理平台
- 阿里云流式数据总线 DataHub
四、问题
系统的介绍下数据治理?
数据治理的目的:解决数据生命周期中引入的各种问题,主要围绕几个问题,有相关的几种解法。
每种解法如何实施
大厂如何做数据治理?
- 数据标准规范流程:
- 数据架构和模型:
- 数据质量:
企业信息化和数字化转型中的数据治理?
什么是企业信息化、数字化;和互联网大厂的 系统平台 有什么区别?核心是「让数据 “干净、可用”」
核心内容:制定数据质量规则(准确性、完整性、一致性等校验规则)、数据清洗(处理缺失值、错误值、重复值)、数据质量监控(实时 / 定时检测数据质量)、数据问题溯源与整改。
核心目标:剔除 “脏数据”,确保数据可信,避免错误数据导致决策偏差。