数据管理

Catalogue
  1. 一、数据治理
    1. 1.1 定义
    2. 1.2 数据治理框架
    3. 1.3 数据治理的挑战
    4. 1.4 主要组成部分
    5. 1.5 实施步骤
  2. 二、数据建模
    1. 2.1 定义
    2. 2.2 主流建模方法论
      1. 2.2.1 规范化建模(关系型)
      2. 2.2.2 维度建模(数据仓库)
      3. 2.2.3 面向文档建模
      4. 2.2.4 图数据建模
      5. 2.2.5 时序数据建模
    3. 2.3 数据建模的输出物
    4. 2.4 现代数据建模趋势

两大核心支柱: 数据治理(Data Governance) 和数据建模(Data Modeling);
二者协同作用,确保数据高质量、可复用、可管控

一、数据治理

关键词:数据标准、数据质量、数据安全、数据生命周期

1.1 定义

数据治理 就是给数据制定一套“管理规则”,让数据变得准确、好用、安全,最终帮助企业赚钱。

数据治理是指对组织内部数据的管理和控制策略,它涉及数据的质量、完整性、保护、隐私、合规性等各个方面

解决的核心问题包括:数据不准(统一标准)、数据难用(建立目录和血缘,方便查找和复用)、数据风险(权限和合规检查)

核心目标是:

  • 数据可信:解决“数据不准、不可用”问题
  • 数据合规:满足GDPR、CCPA等法律要求
  • 数据价值:通过数据资产化支撑业务决策

1.2 数据治理框架

(DAMA-DMBOK)

DAMA-DMBOK(Data Management Association - Data Management Body of Knowledge),数据管理知识体系指南)是由国际数据管理协会(DAMA)发布的权威框架,系统定义了数据管理的10大职能领域和5大基本原则。

数据治理需要覆盖以下10大职能领域:

数据服务:提供API、数据集等数据共享能力

1.3 数据治理的挑战

数据孤岛:不同部门或系统的数据不连贯,难以统一管理。

合规风险:不遵守法律法规可能导致重大合规风险。

数据的动态变化:数据的快速变化导致治理难度增加。

1.4 主要组成部分

数据质量管理:确保数据是准确、完整、一致的。数据质量管理通常包括数据清洗、数据校验和标准化等过程。

数据安全和隐私:保护数据免受未经授权的访问,确保合规性(如GDPR、CCPA等法规)。这包括数据加密、访问控制和审计等措施。

数据合规性:确保数据的收集、存储和使用符合相关的法律法规要求。例如,遵守隐私政策和数据保护法。

数据生命周期管理:从数据创建、存储、使用到废弃的整个过程中,确保数据得到有效管理。

角色和责任:明确数据治理中的职责分配,如数据拥有者、数据管理员和数据消费者等。

1.5 实施步骤

  1. 顶层设计
    成立数据治理委员会:CTO、业务部门、法务等共同决策
    指定数据战略:明确治理范围(先什么后什么)

  2. 标准和制度
    数据标准:定义字段命名规则、编码规范(如性别用M/F)
    数据质量规则:例如(订单金额必须大于0,手机号必须11位)

  3. 工具落地
    元数据管理:Apache Atlas、DataHub
    数据质量工具:Great Expectations、Deequ
    主数据工具:Information MDM、IBM InfoSphere

  4. 持续运营
    数据质量监控
    数据资产目录

二、数据建模

2.1 定义

数据建模是将现实世界的业务需求、实体及其关系,通过结构化方式表示成计算机可处理的数据模型的过程。
本质上是现实世界到数据世界的”翻译”,是数据管理系统的设计基础。

2.2 主流建模方法论

2.2.1 规范化建模(关系型)

遵循关系数据库范式(1NF/2NF/3NF…)
优点:减少冗余、保证数据一致性
局限:可能影响查询性能- 适合:OLTP系统(如交易系统)

建模过程:实体和关系的定义

2.2.2 维度建模(数据仓库)

星型模式/雪花模式
事实表+维度表
优点:易于OLAP分析,优化查询性能
适合:BI系统、数据报表

2.2.3 面向文档建模

嵌套结构/文档集合
灵活Schema- 优点:快速开发,适合非结构化数据
适合:MongoDB等文档数据库

2.2.4 图数据建模

节点+边的设计
属性图/三元组
优点:高效处理复杂关系
适合:Neo4j等图数据库,社交关系分析

2.2.5 时序数据建模

时间序列优化存储
压缩算法
适合:IoT、监控数据

2.3 数据建模的输出物

可视化模型图(ER图/类图等)
数据字典(元数据定义)
业务规则文档
技术规范文档(如建表语句)
主数据/参考数据标准

2.4 现代数据建模趋势

自顶向下+自底向上结合
DataOps:建模流程自动化
敏捷建模:迭代式快速建模
多模型:同一系统混合使用多种建模方法
机器学习:智能辅助建模(如基于代码推断模型)

业务数据的抽象和结构化表达

  1. 最直观的问题? 工作中遇到的, 怎么解决的?
  2. 数据同学分别都在做什么? 日常数据生产??