数据领域知识体系

Catalogue
  1. 一、数据体系概述
    1. 1.1 企业数据蓝图
    2. 1.2 核心概念决策
    3. 1.3 数据架构介绍
    4. 1.4 四大核心分支
  2. 二、数据架构概述
    1. 2.1 企业数据蓝图
    2. 2.2 数据平台架构
    3. 2.3 专项子架构
  3. 三、四大核心分支
    1. 3.1 数据工程
      1. 3.1.1 采集与集成
      2. 3.1.2 存储与架构
      3. 3.1.3 处理与计算
    2. 3.2 数据分析
    3. 3.3 数据治理/合规
      1. 3.3.1 数据安全
      2. 3.3.2 数据合规
    4. 3.4 数据科学

「背景」当下无论是企业需求还是社会发展趋势,数据领域的知识都非常重要。具体体现在企业决策与创新需要、数字化转型的适应、前沿技术和趋势的探索「企业需求」数据已成为现代企业的核心资产,企业通过数据驱动决策、通过数据推动业务创新(掌握数据帮助企业发现新的商业模式和市场机会);「社会发展趋势」另外随着数字化转型的浪潮,数据作为其核心要素发挥重要作用、推送技术和业务的融合;「前沿技术基础」在如今人工智能迅速发展,数据也作为其基础,为探索前沿技术奠定基础。

「目的」因此,本部分主要围绕数据领域的知识,逐一拆解核心分支的技术属性和业务价值。让读者有清晰、完整、详细的认识,以提升数据相关的职业竞争力。

首先是数据体系概述,介绍演进过程中的核心概念和和解决的问题。其次 围绕4大核心分支,展开具体的定义和实践,其中包括常见的数据工程任务,还有数据分析、数据科学、数据合规与治理,另外包括数据工程架构/数据仓库等核心概念的下探总结。旨在帮助读者系统的了解数据领域相关技能和知识,能运用在企业和前沿技术实践中,助力个人职业发展。

一、数据体系概述

每一个技术概念和体系,到底解决了什么问题? 先定义问题,再介绍是什么,以及怎么做(why、what、how)

  • 黄金圈法则(Golden Circle) 的实践。 「这里有些偏差,Golden Circle是why、how、what」
    “问题驱动 → 概念定义 → 落地实践” 的逻辑链,既符合技术研发的底层逻辑,也适合学习、求职、项目落地等场景。
    「核心项解决的问题」
    大数据平台:作为技术基础,在数字化时代数据驱动决策,解决决策效率/风险问题、趋势预判、成本问题、核心资产问题等。
    数据仓库:数据杂乱无章、使用效率低;企业的账算明白、数据驱动的实现基础;是大数据平台的核心组成部分。
    数据湖:数据仓库互补、非结构化数据、AI依赖的数据
    湖仓一体:数据湖无法解决数据仓库的规矩,未治理的数据湖就是Data Swamp,不能发挥价值。
    数据中台:重复造轮子、烟囱式发展。What:方法论、组织、技术架构的顶层设计和融合。OneData!OneService!

1.1 企业数据蓝图

如今数据的核心价值主要作用在商业智能人工智能,以及各行业智能化应用。BI方面包括:决策支持、趋势分析、实时分析;AI方面包括自动化、智能应用等
数据不仅是企业做出决策的基础,还推动了AI技术的发展,改变了企业的运营方式和市场竞争方式。(对决策的支持和对智能化应用的推动作用)

那数据到底是如何推动的?以及如何在企业实践数据架构以解决BI和AI的问题呢?
以下从(多层次的)企业数据架构及数字化蓝图,系统的介绍下数据的价值和如何构建数据架构。

  • 顶层的是业务价值:解决企业BI、AI、创新与产品研发、运营效率、风险控制等业务问题。
  • 左侧的核心问题:是在构建数据仓库/数据体系过程中涉及的核心数据问题,主要影响数据效率和数据成本
  • 中间层:是核心的数据架构,包括数据仓库以及自底向上的数据构建链路
  • 右侧的大数据平台:是企业数据架构的核心技术实现,助力数据生命周期高效安全的发挥价值「技术基础
  • 数据中台:在大数据平台基础上,提供更加业务导向的、高效的数据服务。「面向业务的数据服务化
    核心解决效率和成本问题、实现数据可信、为业务赋能(驱动创新与智能决策)

1.2 核心概念决策

1.概念轰炸:隔壁老张的公司都上“湖仓一体”了!咱们现在到底是个啥?是还在搞仓库? 还是上了中台?能不能给个准活!
回答:A,老板我们底层是大数据平台; B,不核心架构是数据仓库! C,明年规划做数据湖!
2.灵魂拷问:别管那些词。我就问一句:销售部要的那个新指标,从提需求到看见数,周期缩短了吗?口径赫尔财务对上了吗?
3.尴尬的沉默:如果都没有解决,那你堆砌再多名词,也是给破车刷绿漆——-假装新能源。
4.一图破迷障:这五个词根本不是线性升级的关系!大家之所以晕,是因为没想清楚
是因为没想清楚 自己是想“算账”、“存货”、还是“搞政治”

概念(角色定义) 问题定义 解释 解决的问题
(1)数据仓库
Data Warehourse
(老会计)就是给老板算账的地方。是企业的“后视镜”。 别跟我谈什么“探索”! 我要的是确定性!入库必须清洗!口径必须统一!模型必须星型!
(老会计)严苛的门槛(新业务非结构化数据)拿走!格式不对!字段补全!这脏数据进来了,老板的额报表就不准了!我容不得沙子!
(市场变化)现实的痛点 市场都变了!我要看实时的!我要改指标! 改模型要走流程,排期三周。痛点:业务野蛮生长时,这位严谨的老爷子就是最大的瓶颈。
(2)大数据平台
Big Data Platform
(光有厨房没有初始)(秀肌肉的误区)海量数据随便存!亿级计算秒级跑!我是基础设施! 有肌肉没脑子? 不关心报表什么时候出

数据湖:是“后路”还是“沼泽”??囤积癖的狂欢:来着不拒!先存进来再说(Schema-on-read)!
万一以后有用呢? 这叫保留数据的原汁原味!

理想VS现实: (核心问题)没有治理的数据湖 ,就是垃圾场。 它现在的唯一作用就是做做个心里安慰备份盘———-看着东西都在,其实谁也不敢用!

Data Swamp(数据沼泽)。 问题如何解决。

数据中台: 其实是场“权利的游戏”。 为什么每个部门都在重复造轮子?! 为什么数据大家?!
中台真面目:以后公共指标 我说了算! 轮子统一去库里领!(OneData!OneService!)

激烈的博弈:凭什么把我的数据拿出来共享? 这是我的私产!(数据资产) 「中台本质是组织变革」

  • 很多中台烂尾,不是技术不行,是“人”搞不定。 没人愿意为公共资产负责。

湖仓一体:“成年人务实折中”。 混血儿诞生。 仓的规矩不能丢,湖的便宜和灵活也饿想要。 于是搞出了这个折中的方案。

1.3 数据架构介绍

数据领域架构,除了常见的 数据处理架构 之外,还包括数仓架构。 另外还包括 数据中台架构、数据湖架构、数据治理架构、实时数据架构、湖仓一体架构、云原生数据架构、数据安全架构等。以上架构的理解以及核心架构的深入,是数据架构师必备的技能和知识体系。

架构理解。对这些架构的核心关联理解,可以用 “底座 - 处理 - 服务 - 保障” 四层逻辑串联所有架构:

  1. 存储底座层:数据湖架构、数仓架构、湖仓一体架构
  2. 数据处理层:Lambda/Kappa 架构、实时数据架
  3. 能力服务层:数据中台架构
  4. 安全保障层:数据治理架构、数据安全架构
  5. 部署形态层:云原生数据架构

它们并非孤立存在,而是相互支撑、层层递进,共同构成企业数据能力的完整技术底座。

具体的架构介绍和实践在[5]数据架构中详细展开。

1.4 四大核心分支

企业级数据架构主要从更高层面解决数据流转问题。但除此之外,数据领域的核心应用及工作也围绕各个环节、各个应用分支展开,
按 “技术属性 + 业务价值” 可拆解为 4 大核心分支,覆盖从底层技术到上层应用的全链条。

核心分支 核心定义 典型工作/岗位 解决的问题
(1)数据工程
Data Engineering
负责数据 “采集、存储、流转、加工” 的底层技术搭建,是数据领域的 “基础设施建设” 数据开发工程师、ETL 工程师、数据平台运维、 数据架构师 数据湖 / 数仓搭建、实时流计算链路设计、数据治理
(2)数据分析
Data Analysis
衔接数据与业务,负责 “数据解读、报表呈现、业务诊断”,是数据领域的 “业务连接器” 业务分析师、商业分析师、BI 分析师 销售报表制作、业务问题诊断(之前的描述性 / 诊断性问题)
(3)数据合规与治理
Data Governance
负责数据 “质量、安全、合规” 的规则制定与落地,是数据领域的 “安全保障” 数据治理专员、数据安全专家、合规顾问 数据标准制定、隐私脱敏、合规审查(之前的跨组织数据协同合规问题)
(4)数据科学
Data Science
聚焦数据 “规律挖掘、预测、决策支持”,是数据领域的 “价值提炼核心” 数据科学家、数据挖掘工程师、算法工程师(偏分析) 用户分群、销量预测、风险识别(之前的预测性 / 决策性问题)

除了以上 4 大核心分支, 大家常关注和工作相关的的内容还包括: 数据架构/工程/仓库 的建设,数据平台架构、存储等架构。

二、数据架构概述

2.1 企业数据蓝图

2.2 数据平台架构

2.3 专项子架构

三、四大核心分支

数据架构和数据领域的四大核心分支(数据工程、数据分析、数据科学、数据合规治理)是相互联系的,共同构成了数据管理与应用的完整体系。

数据架构为数据的各个领域提供了支持的框架,而四大核心分支分别从不同的角度管理和利用数据,协同工作形成了完整的数据管理和应用体系。在实际操作中,数据架构与各个领域紧密相连,确保数据从采集到使用的全过程中能够高效、合规、准确地流动和分析。

3.1 数据工程

「定义」
用工程化手段打通数据全链路,把 “原始数据” 变成 “可信资产”,为所有数据相关工作提供稳定、高效的底层支撑,解决业务的实际问题
数据工程涵盖了数据的整个生命周期,包括采集集成、存储架构、处理计算、治理质量、平台服务等;数据架构是更高层次的设计,以高效、可靠、高质量的交付数据

「划分」

数据工程工作的2大核心方向(从业务价值落地和技术效率角度看) ,可以划分为:
(1)数据链路的建设(业务导向):通过数据工程链路解决业务实际问题
(2)数据平台开发(效率导向):解决数据链路的效率问题,包括数据开发、生产、分析、使用等全链路的效率

从技术属性、业务价值角度看,可拆解为以下几个核心的分支:
(其它抽象的核心关键词:(方法论)[数据建模、数仓建模] )

核心分支 核心定义 解决的问题 业务价值 典型场景 / 工具
采集与集成 多源异构数据接入(批量 / 实时)、数据源对接、数据传输链路搭建与监控 数据 “拿不到、传不畅”:跨系统数据孤岛、实时数据延迟、 异构数据源格式不兼容 全渠道数据统一汇聚,标准化。为后续所有数据工作提供 “源头活水”,支撑实时 / 离线业务需求 APP 埋点实时采集(Kafka)、ERP 与 CRM 数据批量同步(CDC 工具)、物联网传感器数据接入(Flume)
存储与架构 存储方案选型、分布式存储搭建、数据分层建模(数仓 / 数据湖 / 中台)、存储性能优化 数据 “存不下、查的慢”:海量数据存储成本高、结构化/非结构化数据存储冲突、查询响应慢 构建灵活可扩展的数据存储底座, 平衡存储成本与访问效率,支撑多场景数据应用(离线分析 / 实时决策) 湖仓一体架构搭建(Delta Lake+Snowflake)、数仓分层设计(ODS/DWD/DWS)、非结构化数据存储(MinIO)
处理与计算 批量 / 实时数据处理、ETL/ELT 流程开发、数据清洗 / 转换 / 标准化、分布式计算性能优化 数据 “用不了、算得慢”:原始数据质量差、海量数据计算效率低、数据格式不统一 把原始数据转化为 “干净、标准、可用” 的数据集,降低下游分析 / 建模的数据准备成本,提升数据处理效率 订单数据批量清洗(Spark)、实时销量计算(Flink)、用户 ID 统一标准化处理(Python 脚本)
治理与质量 数据标准制定、数据质量监控、元数据管理、数据血缘追踪、数据安全合规(脱敏 / 权限) 数据 “不可信、不合规”:数据质量低导致决策偏差、敏感数据泄露风险、数据权责不清晰 保障数据的准确性、一致性、安全性,让数据成为 “可信资产”,规避合规风险,提升数据使用效率 订单金额完整性监控(Great Expectations)、用户手机号脱敏(DataMasking 工具)、数据血缘可视化(Atlas)
服务与平台 数据接口开发、数据服务封装、数据平台搭建(含运维监控)、BI 工具对接、自助数据服务支撑 数据 “不好用、用不起”:业务人员取数门槛高、数据接口不稳定、平台运维成本高 降低数据使用门槛,实现数据 “按需取用”,支撑业务快速决策与创新,同时保障数据平台稳定运行 用户画像查询 API 开发(Spring Boot)、数据可视化看板搭建(Superset)、大数据平台监控告警(Prometheus)

3.1.1 采集与集成

「「定义」」
「数据采集」
数据采集(Data Collection / Data Ingestion)
是整个数据体系的第一层,用于将不同来源、不同格式、不同协议的数据获取并传输到数据平台或数据湖(存储层)内。
数据采集是整个 数据中台、数仓、MLOps Pipeline 的入口

「数据集成」
采集 = 把数据拉/推出来
集成 = 把拉出来的数据洗好、分发好、落库好

各企业包括大厂的完整链路:数据源 → 采集 → 集成 → 存储 → 消费

「「体系架构」」
数据采集&集成体系:把几百上千个异构数据源的数据可靠、可控、可观测地搬到数据湖/数据仓库里

1.数据采集(Ingestion):把数据从源头“搬出来”。提供多源的数据采集能力,实现不同渠道的数据高效采集
2.数据集成(Integration / Pipeline):通过集成平台化,实现把采集到的“脏数据”清洗、标准化、再路由。
3.存储层:数据仓库和数据湖,核心的数据存储(提供高效读写)
4.数据治理层:纵向贯穿整个数据生命周期的“全局控制层”(绘图工具限制

集成通道-消息队列:Streaming Bus(Kafka) 统一消息队列,实现缓冲、解耦、支持重放
采集层负责“把数据搬出来” → 交给Kafka → 集成层(Flink为主)负责“把数据洗好用好” → 落湖(Hudi/Iceberg为主)

flowchart LR
    style B1 fill:#FFE599
    style B4 fill:#FFE599
    style B2 fill:#FFE599
    style A1 fill:#FFE599
    style A2 fill:#FFE599
    style A5 fill:#FFE599
    style Governance fill:#FFE599
    style Ingestion fill:#e8f6f0
    style Pipeline fill:#e8f6f0
    style C0 fill:#e8f6f0,stroke:#D6B656;
    style E0 fill:#FFE599,stroke:#D6B656;
    style D0 fill:#ffffde,stroke:#D6B656;
    style Table fill:#FFE599
    %% =========== 数据来源 ==============
    subgraph Sources[数据来源层-Sources]
        A1[业务数据库
MySQL / PostgreSQL / Oracle] A2[日志系统
Nginx / App Log] A3[消息系统
MQ / Kafka] A4[第三方服务
API / Webhook] A5[IoT设备
传感器 / APP埋点] end %% =========== 数据采集方式 ============== subgraph Ingestion[数据采集层-Ingestion] B1[批量采集
Sqoop / DataX] B2[实时采集
Flume / Filebeat] B3[日志采集
Logstash / Fluentd] B4[CDC 变更数据捕获
Debezium / Canal] B5[API 拉取
Airflow / Python 脚本] end %% =========== 数据接入通道 ============== subgraph Pipeline[数据集成-接入/加工通道] C0[数据清洗 / 标准化] C1[消息队列
Kafka / Pulsar] C2[实时处理引擎
Flink / Spark Streaming] C4[Airflow + Python
dbt] C3[批处理引擎
Spark / Hive] end %% =========== 数据落地存储 ============== subgraph Storage[存储层-Lakehouse] D1[对象存储
S3 / OSS / COS] D0[数据存储] D2[数据湖
Hudi / Iceberg / Delta Lake] Table[Hudi表、Iceberg表、Delta Lake] D3[数据仓库
Hive / ClickHouse / Snowflake] end %% =========== 数据治理(纵向) ============== subgraph Governance[数据治理层-Governance] direction TB E1[元数据管理
Atlas / DataHub] E0[数据合规与治理-贯穿全局] E2[数据质量
DQ / Great Expectations] E3[数据血缘
Amundsen] E4[审计 & 安全
Ranger] end %% =========== 数据消费 ============== subgraph Consumption[数据消费层] F1[指标平台
Superset / Grafana] F2[数仓模型
DIM / DWD / DWS / ADS] F3[数据服务
API Gateway] F4[机器学习
Feature Store / MLflow] end %% ============== 把“数据接入通道-集成”大框改成虚线 ============== classDef dashedBox stroke-dasharray: 8 4, stroke:#555, stroke-width: 1px class Pipeline dashedBox class Governance dashedBox %% ======== 数据流动 =========== A1 --> B1 A1 --> B4 A2 --> B3 A3 --> B2 A4 --> B5 A5 --> B2 B1 --> C3 B2 --> C1 B3 --> C1 B4 --> C1 B5 --> C3 C1 --> C2 C2 --> D1 C2 --> D2 C3 --> D3 C2 -.-> D3 D0 --> E0 Storage --> Governance Governance --> F1

「「体系详解」」

「数据来源」

分类 核心定义
① 业务数据库(OLTP) 结构化数据:MySQL、PostgreSQL、SQL Server、Oracle、MariaDB
采集方式:CDC(Change Data Capture)
② 日志与事件数据 非结构化或半结构化:Nginx / Apache Logs、App 埋点数据、SDK 上传事件、Server Logs(业务日志)、业务事件流(event logs)
格式:JSON、KV、Text、Protobuf
③ 第三方 API / SaaS 服务 微信小程序、Stripe / PayPal、阿里云 / AWS Cloudwatch、Google Analytics、CRM(Salesforce、Hubspot)
方式:Pull / Webhook / Batch
④ IoT 与传感器数据 设备传感器(温湿度、心率、GPS);车辆、工业、智能硬件
特点:高频、实时、持续流式
⑤ 文件系统数据 CSV、Excel;图片、音频、视频;文档(PDF、文本)
来源:FTP / SFTP;企业 NAS;Object Storage(S3 / OSS / COS / MinIO)
用于 ML(CV、NLP)时尤其关键。
⑥ 消息队列 / 流系统 Kafka、Pulsar、RabbitMQ、Kinesis、MQTT(IoT 常用)
这里的数据本身已经是流式数据。

「采集方式」
按照时间维度

方式 核心定义
① 批处理(Batch Ingestion) 周期:分钟、小时、天
常见工具:DataX(阿里)、Sqoop(Hadoop:大量数据导入)、Airflow 批作业
特点:数据量大、延迟高、成本低;适合:报表、数仓数据
② 实时采集(Streaming Ingestion) 采集延迟:毫秒 - 秒级
常见工具:Flume、Flink、Kafka Connect、Logstash
特点:高吞吐、连续流式;适合:监控、风控、实时推荐系统
③ CDC(Change Data Capture) 捕获数据库增量变化
工具:Debezium(通用 CDC(强推荐))、Maxwell(MySQL CDC → JSON)、Canal(阿里)、
Kafka Connect(标准化 CDC 组件)
特点:实时同步、对源库压力小;适合:业务库到数仓的同步(强烈推荐)

「典型工具 / 组件」
数据库同步类: DataX、Sqoop、Canal、Maxwell、Debezium、Kafka Connect
日志 / 事件流采集:Flume[日志采集 → HDFS / Kafka]、Logstash[日志解析与转换]、Filebeat[轻量日志采集]、Fluentd[日志收集与转发]、Vector(Datadog 开源)[高性能日志采集(新趋势)]
流处理与实时加工:Flink[实时计算 + 流式 ETL]、Spark Streaming[微批处理]、Kafka Streams[轻量实时逻辑]、Pulsar Functions[事件函数]
API / 外部数据获取:Airflow[定时调用 API 抓取]、Prefect[编排 + API 抓取]、python[requests / aiohttp]
IoT 数据采集:MQTT Broker(EMQX、Mosquitto)、AWS IoT / 阿里云 IoT Hub
文件数据采集:MinIO Client (mc)、S3 API、Hadoop FS、FTP/SFTP 同步工具、Airflow 定时同步

「工程最佳实践」

  1. 优先使用 CDC,同步成本最低、稳定性最高
  2. 日志 → 优先 Kafka + Flink,保证实时性 + 容错
  3. 多来源 → 用 Kafka Connect 形成标准化 Connector 系统
  4. 所有数据最终进入数据湖(Iceberg/Hudi)再分层处理
  5. ML 场景:数据采集要关联元数据(s3 路径、标签、特征版本)
  6. 配合 MLOps → 接入 MLflow、Feature Store(Feast)
  7. 构建统一 Data Ingestion API,避免大量 ad-hoc 脚本

3.1.2 存储与架构

「「定义」」
作为采集集成的目的地,存储是以“数据资产化”为最高目标,实现低成本高性能读写一体化(批流)事务一致性与的企业级统一存储底座。

同时兼顾Schema演化、多场景查询加速。提供分层、分格式、分时效管理。
也是下游分析、报表、AI、实时服务的数据唯一来源。

「「体系架构」」
存储架构 = 采集集成的终点站 + 数据资产的托管银行 + 全公司所有分析场景的唯一数据源

我们的存储架构不是简单的磁盘,而是全公司数据资产的银行金库——采集集成只管把钱(数据)存进来,我们负责保值、增值、随时取用、还能生利息(新业务、新模型)。

flowchart LR
    %% 采集与集成
    subgraph Ingestion[数据采集与集成]
        direction TB
        In[全量数据
统一接入

Kafka
Flink
Spark] end %% 核心:大数据存储架构(重点高亮) subgraph Storage[大数据存储架构\n唯一目的地 & 唯一来源] direction TB Raw[Raw Zone
原始落地区] Bronze[Bronze 层
原始结构化副本] Silver[Silver 层
清洗宽表区
Hudi / Iceberg / Delta] Gold[Gold 层
业务指标区
高性能聚合表] end %% 消费场景 subgraph Down[消费场景] BI[BI 大屏 / 报表] API[实时 API 服务] ML[机器学习 / 推荐] SEARCH[日志 / 站内搜索] end %% 连线 Ingestion --> Raw Raw --> Bronze --> Silver --> Gold Gold --> BI Gold --> API Gold --> ML Silver --> SEARCH %% 高亮存储架构金库 classDef core fill:#e3f2fd,stroke:#1976d2,stroke-width:1px class Storage core %% 可选:把采集集成也标个颜色 classDef up fill:#fff3e0,stroke:#ef6c00 class Up up

3.1.3 处理与计算

3.2 数据分析

todo

3.3 数据治理/合规

3.3.1 数据安全

3.3.2 数据合规

3.4 数据科学