数据管理

两大核心支柱: 数据治理(Data Governance) 和数据建模(Data Modeling);
二者协同作用,确保数据高质量、可复用、可管控

一、数据治理

关键词:数据标准、数据质量、数据安全、数据生命周期

1.1 定义

数据治理 就是给数据制定一套“管理规则”,让数据变得准确、好用、安全,最终帮助企业赚钱。

数据治理是指对组织内部数据的管理和控制策略,它涉及数据的质量、完整性、保护、隐私、合规性等各个方面

解决的核心问题包括:数据不准(统一标准)、数据难用(建立目录和血缘,方便查找和复用)、数据风险(权限和合规检查)

核心目标是:

  • 数据可信:解决“数据不准、不可用”问题
  • 数据合规:满足GDPR、CCPA等法律要求
  • 数据价值:通过数据资产化支撑业务决策

1.2 数据治理框架

(DAMA-DMBOK)

DAMA-DMBOK(Data Management Association - Data Management Body of Knowledge),数据管理知识体系指南)是由国际数据管理协会(DAMA)发布的权威框架,系统定义了数据管理的10大职能领域和5大基本原则。

数据治理需要覆盖以下10大职能领域:

数据服务:提供API、数据集等数据共享能力

1.3 数据治理的挑战

数据孤岛:不同部门或系统的数据不连贯,难以统一管理。

合规风险:不遵守法律法规可能导致重大合规风险。

数据的动态变化:数据的快速变化导致治理难度增加。

1.4 主要组成部分

数据质量管理:确保数据是准确、完整、一致的。数据质量管理通常包括数据清洗、数据校验和标准化等过程。

数据安全和隐私:保护数据免受未经授权的访问,确保合规性(如GDPR、CCPA等法规)。这包括数据加密、访问控制和审计等措施。

数据合规性:确保数据的收集、存储和使用符合相关的法律法规要求。例如,遵守隐私政策和数据保护法。

数据生命周期管理:从数据创建、存储、使用到废弃的整个过程中,确保数据得到有效管理。

角色和责任:明确数据治理中的职责分配,如数据拥有者、数据管理员和数据消费者等。

1.5 实施步骤

  1. 顶层设计
    成立数据治理委员会:CTO、业务部门、法务等共同决策
    指定数据战略:明确治理范围(先什么后什么)

  2. 标准和制度
    数据标准:定义字段命名规则、编码规范(如性别用M/F)
    数据质量规则:例如(订单金额必须大于0,手机号必须11位)

  3. 工具落地
    元数据管理:Apache Atlas、DataHub
    数据质量工具:Great Expectations、Deequ
    主数据工具:Information MDM、IBM InfoSphere

  4. 持续运营
    数据质量监控
    数据资产目录

二、数据建模

2.1 定义

数据建模是将现实世界的业务需求、实体及其关系,通过结构化方式表示成计算机可处理的数据模型的过程。
本质上是现实世界到数据世界的”翻译”,是数据管理系统的设计基础。

2.2 主流建模方法论

2.2.1 规范化建模(关系型)

遵循关系数据库范式(1NF/2NF/3NF…)
优点:减少冗余、保证数据一致性
局限:可能影响查询性能- 适合:OLTP系统(如交易系统)

建模过程:实体和关系的定义

2.2.2 维度建模(数据仓库)

星型模式/雪花模式
事实表+维度表
优点:易于OLAP分析,优化查询性能
适合:BI系统、数据报表

2.2.3 面向文档建模

嵌套结构/文档集合
灵活Schema- 优点:快速开发,适合非结构化数据
适合:MongoDB等文档数据库

2.2.4 图数据建模

节点+边的设计
属性图/三元组
优点:高效处理复杂关系
适合:Neo4j等图数据库,社交关系分析

2.2.5 时序数据建模

时间序列优化存储
压缩算法
适合:IoT、监控数据

2.3 数据建模的输出物

可视化模型图(ER图/类图等)
数据字典(元数据定义)
业务规则文档
技术规范文档(如建表语句)
主数据/参考数据标准

2.4 现代数据建模趋势

自顶向下+自底向上结合
DataOps:建模流程自动化
敏捷建模:迭代式快速建模
多模型:同一系统混合使用多种建模方法
机器学习:智能辅助建模(如基于代码推断模型)

业务数据的抽象和结构化表达

  1. 最直观的问题? 工作中遇到的, 怎么解决的?
  2. 数据同学分别都在做什么? 日常数据生产??