数据领域知识体系

「背景」当下无论是企业需求还是社会发展趋势,数据领域的知识都非常重要。具体体现在企业决策与创新需要、数字化转型的适应、前沿技术和趋势的探索「企业需求」数据已成为现代企业的核心资产,企业通过数据驱动决策、通过数据推动业务创新(掌握数据帮助企业发现新的商业模式和市场机会);「社会发展趋势」另外随着数字化转型的浪潮,数据作为其核心要素发挥重要作用、推送技术和业务的融合;「前沿技术基础」在如今人工智能迅速发展,数据也作为其基础,为探索前沿技术奠定基础。

「目的」因此,本部分主要围绕数据领域的知识,逐一拆解核心分支的技术属性和业务价值。让读者有清晰、完整、详细的认识,以提升数据相关的职业竞争力。

首先是数据体系概述,介绍演进过程中的核心概念和和解决的问题。其次 围绕4大核心分支,展开具体的定义和实践,其中包括常见的数据工程任务,还有数据分析、数据科学、数据合规与治理,另外包括数据工程架构/数据仓库等核心概念的下探总结。旨在帮助读者系统的了解数据领域相关技能和知识,能运用在企业和前沿技术实践中,助力个人职业发展。

一、数据体系概述

每一个技术概念和体系,到底解决了什么问题? 先定义问题,再介绍是什么,以及怎么做(why、what、how)

  • 黄金圈法则(Golden Circle) 的实践。 「这里有些偏差,Golden Circle是why、how、what」
    “问题驱动 → 概念定义 → 落地实践” 的逻辑链,既符合技术研发的底层逻辑,也适合学习、求职、项目落地等场景。
    「核心项解决的问题」
    大数据平台:作为技术基础,在数字化时代数据驱动决策,解决决策效率/风险问题、趋势预判、成本问题、核心资产问题等。
    数据仓库:数据杂乱无章、使用效率低;企业的账算明白、数据驱动的实现基础;是大数据平台的核心组成部分。
    数据湖:数据仓库互补、非结构化数据、AI依赖的数据
    湖仓一体:数据湖无法解决数据仓库的规矩,未治理的数据湖就是Data Swamp,不能发挥价值。
    数据中台:重复造轮子、烟囱式发展。What:方法论、组织、技术架构的顶层设计和融合。OneData!OneService!

1.1 企业数据蓝图

如今数据的核心价值主要作用在商业智能人工智能,以及各行业智能化应用。BI方面包括:决策支持、趋势分析、实时分析;AI方面包括自动化、智能应用等
数据不仅是企业做出决策的基础,还推动了AI技术的发展,改变了企业的运营方式和市场竞争方式。(对决策的支持和对智能化应用的推动作用)

那数据到底是如何推动的?以及如何在企业实践数据架构以解决BI和AI的问题呢?
以下从(多层次的)企业数据架构及数字化蓝图,系统的介绍下数据的价值和如何构建数据架构。

  • 顶层的是业务价值:解决企业BI、AI、创新与产品研发、运营效率、风险控制等业务问题。
  • 左侧的核心问题:是在构建数据仓库/数据体系过程中涉及的核心数据问题,主要影响数据效率和数据成本
  • 中间层:是核心的数据架构,包括数据仓库以及自底向上的数据构建链路
  • 右侧的大数据平台:是企业数据架构的核心技术实现,助力数据生命周期高效安全的发挥价值「技术基础
  • 数据中台:在大数据平台基础上,提供更加业务导向的、高效的数据服务。「面向业务的数据服务化
    核心解决效率和成本问题、实现数据可信、为业务赋能(驱动创新与智能决策)

1.2 核心概念决策

1.概念轰炸:隔壁老张的公司都上“湖仓一体”了!咱们现在到底是个啥?是还在搞仓库? 还是上了中台?能不能给个准活!
回答:A,老板我们底层是大数据平台; B,不核心架构是数据仓库! C,明年规划做数据湖!
2.灵魂拷问:别管那些词。我就问一句:销售部要的那个新指标,从提需求到看见数,周期缩短了吗?口径赫尔财务对上了吗?
3.尴尬的沉默:如果都没有解决,那你堆砌再多名词,也是给破车刷绿漆——-假装新能源。
4.一图破迷障:这五个词根本不是线性升级的关系!大家之所以晕,是因为没想清楚
是因为没想清楚 自己是想“算账”、“存货”、还是“搞政治”

概念(角色定义) 问题定义 解释 解决的问题
(1)数据仓库
Data Warehourse
(老会计)就是给老板算账的地方。是企业的“后视镜”。 别跟我谈什么“探索”! 我要的是确定性!入库必须清洗!口径必须统一!模型必须星型!
(老会计)严苛的门槛(新业务非结构化数据)拿走!格式不对!字段补全!这脏数据进来了,老板的额报表就不准了!我容不得沙子!
(市场变化)现实的痛点 市场都变了!我要看实时的!我要改指标! 改模型要走流程,排期三周。痛点:业务野蛮生长时,这位严谨的老爷子就是最大的瓶颈。
(2)大数据平台
Big Data Platform
(光有厨房没有初始)(秀肌肉的误区)海量数据随便存!亿级计算秒级跑!我是基础设施! 有肌肉没脑子? 不关心报表什么时候出

数据湖:是“后路”还是“沼泽”??囤积癖的狂欢:来着不拒!先存进来再说(Schema-on-read)!
万一以后有用呢? 这叫保留数据的原汁原味!

理想VS现实: (核心问题)没有治理的数据湖 ,就是垃圾场。 它现在的唯一作用就是做做个心里安慰备份盘———-看着东西都在,其实谁也不敢用!

Data Swamp(数据沼泽)。 问题如何解决。

数据中台: 其实是场“权利的游戏”。 为什么每个部门都在重复造轮子?! 为什么数据大家?!
中台真面目:以后公共指标 我说了算! 轮子统一去库里领!(OneData!OneService!)

激烈的博弈:凭什么把我的数据拿出来共享? 这是我的私产!(数据资产) 「中台本质是组织变革」

  • 很多中台烂尾,不是技术不行,是“人”搞不定。 没人愿意为公共资产负责。

湖仓一体:“成年人务实折中”。 混血儿诞生。 仓的规矩不能丢,湖的便宜和灵活也饿想要。 于是搞出了这个折中的方案。

1.3 数据架构介绍

数据领域架构,除了常见的 数据处理架构 之外,还包括数仓架构。 另外还包括 数据中台架构、数据湖架构、数据治理架构、实时数据架构、湖仓一体架构、云原生数据架构、数据安全架构等。以上架构的理解以及核心架构的深入,是数据架构师必备的技能和知识体系。

架构理解。对这些架构的核心关联理解,可以用 “底座 - 处理 - 服务 - 保障” 四层逻辑串联所有架构:

  1. 存储底座层:数据湖架构、数仓架构、湖仓一体架构
  2. 数据处理层:Lambda/Kappa 架构、实时数据架
  3. 能力服务层:数据中台架构
  4. 安全保障层:数据治理架构、数据安全架构
  5. 部署形态层:云原生数据架构

它们并非孤立存在,而是相互支撑、层层递进,共同构成企业数据能力的完整技术底座。

具体的架构介绍和实践在[5]数据架构中详细展开。

1.4 四大核心分支

企业级数据架构主要从更高层面解决数据流转问题。但除此之外,数据领域的核心应用及工作也围绕各个环节、各个应用分支展开,
按 “技术属性 + 业务价值” 可拆解为 4 大核心分支,覆盖从底层技术到上层应用的全链条。

核心分支 核心定义 典型工作/岗位 解决的问题
(1)数据工程
Data Engineering
负责数据 “采集、存储、流转、加工” 的底层技术搭建,是数据领域的 “基础设施建设” 数据开发工程师、ETL 工程师、数据平台运维、 数据架构师 数据湖 / 数仓搭建、实时流计算链路设计、数据治理
(2)数据分析
Data Analysis
衔接数据与业务,负责 “数据解读、报表呈现、业务诊断”,是数据领域的 “业务连接器” 业务分析师、商业分析师、BI 分析师 销售报表制作、业务问题诊断(之前的描述性 / 诊断性问题)
(3)数据合规与治理
Data Governance
负责数据 “质量、安全、合规” 的规则制定与落地,是数据领域的 “安全保障” 数据治理专员、数据安全专家、合规顾问 数据标准制定、隐私脱敏、合规审查(之前的跨组织数据协同合规问题)
(4)数据科学
Data Science
聚焦数据 “规律挖掘、预测、决策支持”,是数据领域的 “价值提炼核心” 数据科学家、数据挖掘工程师、算法工程师(偏分析) 用户分群、销量预测、风险识别(之前的预测性 / 决策性问题)

除了以上 4 大核心分支, 大家常关注和工作相关的的内容还包括: 数据架构/工程/仓库 的建设,数据平台架构、存储等架构。

二、数据架构概述

2.1 企业数据蓝图

2.2 数据平台架构

2.3 专项子架构

三、四大核心分支

数据架构和数据领域的四大核心分支(数据工程、数据分析、数据科学、数据合规治理)是相互联系的,共同构成了数据管理与应用的完整体系。

数据架构为数据的各个领域提供了支持的框架,而四大核心分支分别从不同的角度管理和利用数据,协同工作形成了完整的数据管理和应用体系。在实际操作中,数据架构与各个领域紧密相连,确保数据从采集到使用的全过程中能够高效、合规、准确地流动和分析。

3.1 数据工程

「定义」
用工程化手段打通数据全链路,把 “原始数据” 变成 “可信资产”,为所有数据相关工作提供稳定、高效的底层支撑,解决业务的实际问题
数据工程涵盖了数据的整个生命周期,包括采集集成、存储架构、处理计算、治理质量、平台服务等;数据架构是更高层次的设计,以高效、可靠、高质量的交付数据

「划分」

数据工程工作的2大核心方向(从业务价值落地和技术效率角度看) ,可以划分为:
(1)数据链路的建设(业务导向):通过数据工程链路解决业务实际问题
(2)数据平台开发(效率导向):解决数据链路的效率问题,包括数据开发、生产、分析、使用等全链路的效率

从技术属性、业务价值角度看,可拆解为以下几个核心的分支:
(其它抽象的核心关键词:(方法论)[数据建模、数仓建模] )

核心分支 核心定义 解决的问题 业务价值 典型场景 / 工具
采集与集成 多源异构数据接入(批量 / 实时)、数据源对接、数据传输链路搭建与监控 数据 “拿不到、传不畅”:跨系统数据孤岛、实时数据延迟、 异构数据源格式不兼容 全渠道数据统一汇聚,标准化。为后续所有数据工作提供 “源头活水”,支撑实时 / 离线业务需求 APP 埋点实时采集(Kafka)、ERP 与 CRM 数据批量同步(CDC 工具)、物联网传感器数据接入(Flume)
存储与架构 存储方案选型、分布式存储搭建、数据分层建模(数仓 / 数据湖 / 中台)、存储性能优化 数据 “存不下、查的慢”:海量数据存储成本高、结构化/非结构化数据存储冲突、查询响应慢 构建灵活可扩展的数据存储底座, 平衡存储成本与访问效率,支撑多场景数据应用(离线分析 / 实时决策) 湖仓一体架构搭建(Delta Lake+Snowflake)、数仓分层设计(ODS/DWD/DWS)、非结构化数据存储(MinIO)
处理与计算 批量 / 实时数据处理、ETL/ELT 流程开发、数据清洗 / 转换 / 标准化、分布式计算性能优化 数据 “用不了、算得慢”:原始数据质量差、海量数据计算效率低、数据格式不统一 把原始数据转化为 “干净、标准、可用” 的数据集,降低下游分析 / 建模的数据准备成本,提升数据处理效率 订单数据批量清洗(Spark)、实时销量计算(Flink)、用户 ID 统一标准化处理(Python 脚本)
治理与质量 数据标准制定、数据质量监控、元数据管理、数据血缘追踪、数据安全合规(脱敏 / 权限) 数据 “不可信、不合规”:数据质量低导致决策偏差、敏感数据泄露风险、数据权责不清晰 保障数据的准确性、一致性、安全性,让数据成为 “可信资产”,规避合规风险,提升数据使用效率 订单金额完整性监控(Great Expectations)、用户手机号脱敏(DataMasking 工具)、数据血缘可视化(Atlas)
服务与平台 数据接口开发、数据服务封装、数据平台搭建(含运维监控)、BI 工具对接、自助数据服务支撑 数据 “不好用、用不起”:业务人员取数门槛高、数据接口不稳定、平台运维成本高 降低数据使用门槛,实现数据 “按需取用”,支撑业务快速决策与创新,同时保障数据平台稳定运行 用户画像查询 API 开发(Spring Boot)、数据可视化看板搭建(Superset)、大数据平台监控告警(Prometheus)

3.1.1 采集与集成

「「定义」」
「数据采集」
数据采集(Data Collection / Data Ingestion)
是整个数据体系的第一层,用于将不同来源、不同格式、不同协议的数据获取并传输到数据平台或数据湖(存储层)内。
数据采集是整个 数据中台、数仓、MLOps Pipeline 的入口

「数据集成」
采集 = 把数据拉/推出来
集成 = 把拉出来的数据洗好、分发好、落库好

各企业包括大厂的完整链路:数据源 → 采集 → 集成 → 存储 → 消费

「「体系架构」」
数据采集&集成体系:把几百上千个异构数据源的数据可靠、可控、可观测地搬到数据湖/数据仓库里

1.数据采集(Ingestion):把数据从源头“搬出来”。提供多源的数据采集能力,实现不同渠道的数据高效采集
2.数据集成(Integration / Pipeline):通过集成平台化,实现把采集到的“脏数据”清洗、标准化、再路由。
3.存储层:数据仓库和数据湖,核心的数据存储(提供高效读写)
4.数据治理层:纵向贯穿整个数据生命周期的“全局控制层”(绘图工具限制

集成通道-消息队列:Streaming Bus(Kafka) 统一消息队列,实现缓冲、解耦、支持重放
采集层负责“把数据搬出来” → 交给Kafka → 集成层(Flink为主)负责“把数据洗好用好” → 落湖(Hudi/Iceberg为主)

flowchart LR
    style B1 fill:#FFE599
    style B4 fill:#FFE599
    style B2 fill:#FFE599
    style A1 fill:#FFE599
    style A2 fill:#FFE599
    style A5 fill:#FFE599
    style Governance fill:#FFE599
    style Ingestion fill:#e8f6f0
    style Pipeline fill:#e8f6f0
    style C0 fill:#e8f6f0,stroke:#D6B656;
    style E0 fill:#FFE599,stroke:#D6B656;
    style D0 fill:#ffffde,stroke:#D6B656;
    style Table fill:#FFE599
    %% =========== 数据来源 ==============
    subgraph Sources[数据来源层-Sources]
        A1[业务数据库
MySQL / PostgreSQL / Oracle] A2[日志系统
Nginx / App Log] A3[消息系统
MQ / Kafka] A4[第三方服务
API / Webhook] A5[IoT设备
传感器 / APP埋点] end %% =========== 数据采集方式 ============== subgraph Ingestion[数据采集层-Ingestion] B1[批量采集
Sqoop / DataX] B2[实时采集
Flume / Filebeat] B3[日志采集
Logstash / Fluentd] B4[CDC 变更数据捕获
Debezium / Canal] B5[API 拉取
Airflow / Python 脚本] end %% =========== 数据接入通道 ============== subgraph Pipeline[数据集成-接入/加工通道] C0[数据清洗 / 标准化] C1[消息队列
Kafka / Pulsar] C2[实时处理引擎
Flink / Spark Streaming] C4[Airflow + Python
dbt] C3[批处理引擎
Spark / Hive] end %% =========== 数据落地存储 ============== subgraph Storage[存储层-Lakehouse] D1[对象存储
S3 / OSS / COS] D0[数据存储] D2[数据湖
Hudi / Iceberg / Delta Lake] Table[Hudi表、Iceberg表、Delta Lake] D3[数据仓库
Hive / ClickHouse / Snowflake] end %% =========== 数据治理(纵向) ============== subgraph Governance[数据治理层-Governance] direction TB E1[元数据管理
Atlas / DataHub] E0[数据合规与治理-贯穿全局] E2[数据质量
DQ / Great Expectations] E3[数据血缘
Amundsen] E4[审计 & 安全
Ranger] end %% =========== 数据消费 ============== subgraph Consumption[数据消费层] F1[指标平台
Superset / Grafana] F2[数仓模型
DIM / DWD / DWS / ADS] F3[数据服务
API Gateway] F4[机器学习
Feature Store / MLflow] end %% ============== 把“数据接入通道-集成”大框改成虚线 ============== classDef dashedBox stroke-dasharray: 8 4, stroke:#555, stroke-width: 1px class Pipeline dashedBox class Governance dashedBox %% ======== 数据流动 =========== A1 --> B1 A1 --> B4 A2 --> B3 A3 --> B2 A4 --> B5 A5 --> B2 B1 --> C3 B2 --> C1 B3 --> C1 B4 --> C1 B5 --> C3 C1 --> C2 C2 --> D1 C2 --> D2 C3 --> D3 C2 -.-> D3 D0 --> E0 Storage --> Governance Governance --> F1

「「体系详解」」

「数据来源」

分类 核心定义
① 业务数据库(OLTP) 结构化数据:MySQL、PostgreSQL、SQL Server、Oracle、MariaDB
采集方式:CDC(Change Data Capture)
② 日志与事件数据 非结构化或半结构化:Nginx / Apache Logs、App 埋点数据、SDK 上传事件、Server Logs(业务日志)、业务事件流(event logs)
格式:JSON、KV、Text、Protobuf
③ 第三方 API / SaaS 服务 微信小程序、Stripe / PayPal、阿里云 / AWS Cloudwatch、Google Analytics、CRM(Salesforce、Hubspot)
方式:Pull / Webhook / Batch
④ IoT 与传感器数据 设备传感器(温湿度、心率、GPS);车辆、工业、智能硬件
特点:高频、实时、持续流式
⑤ 文件系统数据 CSV、Excel;图片、音频、视频;文档(PDF、文本)
来源:FTP / SFTP;企业 NAS;Object Storage(S3 / OSS / COS / MinIO)
用于 ML(CV、NLP)时尤其关键。
⑥ 消息队列 / 流系统 Kafka、Pulsar、RabbitMQ、Kinesis、MQTT(IoT 常用)
这里的数据本身已经是流式数据。

「采集方式」
按照时间维度

方式 核心定义
① 批处理(Batch Ingestion) 周期:分钟、小时、天
常见工具:DataX(阿里)、Sqoop(Hadoop:大量数据导入)、Airflow 批作业
特点:数据量大、延迟高、成本低;适合:报表、数仓数据
② 实时采集(Streaming Ingestion) 采集延迟:毫秒 - 秒级
常见工具:Flume、Flink、Kafka Connect、Logstash
特点:高吞吐、连续流式;适合:监控、风控、实时推荐系统
③ CDC(Change Data Capture) 捕获数据库增量变化
工具:Debezium(通用 CDC(强推荐))、Maxwell(MySQL CDC → JSON)、Canal(阿里)、
Kafka Connect(标准化 CDC 组件)
特点:实时同步、对源库压力小;适合:业务库到数仓的同步(强烈推荐)

「典型工具 / 组件」
数据库同步类: DataX、Sqoop、Canal、Maxwell、Debezium、Kafka Connect
日志 / 事件流采集:Flume[日志采集 → HDFS / Kafka]、Logstash[日志解析与转换]、Filebeat[轻量日志采集]、Fluentd[日志收集与转发]、Vector(Datadog 开源)[高性能日志采集(新趋势)]
流处理与实时加工:Flink[实时计算 + 流式 ETL]、Spark Streaming[微批处理]、Kafka Streams[轻量实时逻辑]、Pulsar Functions[事件函数]
API / 外部数据获取:Airflow[定时调用 API 抓取]、Prefect[编排 + API 抓取]、python[requests / aiohttp]
IoT 数据采集:MQTT Broker(EMQX、Mosquitto)、AWS IoT / 阿里云 IoT Hub
文件数据采集:MinIO Client (mc)、S3 API、Hadoop FS、FTP/SFTP 同步工具、Airflow 定时同步

「工程最佳实践」

  1. 优先使用 CDC,同步成本最低、稳定性最高
  2. 日志 → 优先 Kafka + Flink,保证实时性 + 容错
  3. 多来源 → 用 Kafka Connect 形成标准化 Connector 系统
  4. 所有数据最终进入数据湖(Iceberg/Hudi)再分层处理
  5. ML 场景:数据采集要关联元数据(s3 路径、标签、特征版本)
  6. 配合 MLOps → 接入 MLflow、Feature Store(Feast)
  7. 构建统一 Data Ingestion API,避免大量 ad-hoc 脚本

3.1.2 存储与架构

「「定义」」
作为采集集成的目的地,存储是以“数据资产化”为最高目标,实现低成本高性能读写一体化(批流)事务一致性与的企业级统一存储底座。

同时兼顾Schema演化、多场景查询加速。提供分层、分格式、分时效管理。
也是下游分析、报表、AI、实时服务的数据唯一来源。

「「体系架构」」
存储架构 = 采集集成的终点站 + 数据资产的托管银行 + 全公司所有分析场景的唯一数据源

我们的存储架构不是简单的磁盘,而是全公司数据资产的银行金库——采集集成只管把钱(数据)存进来,我们负责保值、增值、随时取用、还能生利息(新业务、新模型)。

flowchart LR
    %% 采集与集成
    subgraph Ingestion[数据采集与集成]
        direction TB
        In[全量数据
统一接入

Kafka
Flink
Spark] end %% 核心:大数据存储架构(重点高亮) subgraph Storage[大数据存储架构\n唯一目的地 & 唯一来源] direction TB Raw[Raw Zone
原始落地区] Bronze[Bronze 层
原始结构化副本] Silver[Silver 层
清洗宽表区
Hudi / Iceberg / Delta] Gold[Gold 层
业务指标区
高性能聚合表] end %% 消费场景 subgraph Down[消费场景] BI[BI 大屏 / 报表] API[实时 API 服务] ML[机器学习 / 推荐] SEARCH[日志 / 站内搜索] end %% 连线 Ingestion --> Raw Raw --> Bronze --> Silver --> Gold Gold --> BI Gold --> API Gold --> ML Silver --> SEARCH %% 高亮存储架构金库 classDef core fill:#e3f2fd,stroke:#1976d2,stroke-width:1px class Storage core %% 可选:把采集集成也标个颜色 classDef up fill:#fff3e0,stroke:#ef6c00 class Up up

3.1.3 处理与计算

3.2 数据分析

todo

3.3 数据治理/合规

3.3.1 数据安全

3.3.2 数据合规

3.4 数据科学