数据领域知识体系
「背景」当下无论是企业需求还是社会发展趋势,数据领域的知识都非常重要。具体体现在企业决策与创新需要、数字化转型的适应、前沿技术和趋势的探索。「企业需求」数据已成为现代企业的核心资产,企业通过数据驱动决策、通过数据推动业务创新(掌握数据帮助企业发现新的商业模式和市场机会);「社会发展趋势」另外随着数字化转型的浪潮,数据作为其核心要素发挥重要作用、推送技术和业务的融合;「前沿技术基础」在如今人工智能迅速发展,数据也作为其基础,为探索前沿技术奠定基础。
「目的」因此,本部分主要围绕数据领域的知识,逐一拆解核心分支的技术属性和业务价值。让读者有清晰、完整、详细的认识,以提升数据相关的职业竞争力。
这里主要分4大核心分支,包括常见的数据工程任务,还有数据分析、数据科学、数据合规与治理,另外包括数据工程架构/数据仓库等核心概念的下探总结。旨在帮助读者系统的了解数据领域相关技能和知识,能运用在企业和前沿技术实践中,助力个人职业发展。
零、全景图
数据领域, 按 “技术属性 + 业务价值” 可拆解为 4 大核心分支,覆盖从底层技术到上层应用的全链条。
| 核心分支 | 核心定义 | 典型工作/岗位 | 解决的问题 |
|---|---|---|---|
| (1)数据工程 Data Engineering |
负责数据 “采集、存储、流转、加工” 的底层技术搭建,是数据领域的 “基础设施建设” | 数据开发工程师、ETL 工程师、数据平台运维、 数据架构师 | 数据湖 / 数仓搭建、实时流计算链路设计、数据治理 |
| (2)数据分析 Data Analysis |
衔接数据与业务,负责 “数据解读、报表呈现、业务诊断”,是数据领域的 “业务连接器” | 业务分析师、商业分析师、BI 分析师 | 销售报表制作、业务问题诊断(之前的描述性 / 诊断性问题) |
| (3)数据合规与治理 Data Governance |
负责数据 “质量、安全、合规” 的规则制定与落地,是数据领域的 “安全保障” | 数据治理专员、数据安全专家、合规顾问 | 数据标准制定、隐私脱敏、合规审查(之前的跨组织数据协同合规问题) |
| (4)数据科学 Data Science |
聚焦数据 “规律挖掘、预测、决策支持”,是数据领域的 “价值提炼核心” | 数据科学家、数据挖掘工程师、算法工程师(偏分析) | 用户分群、销量预测、风险识别(之前的预测性 / 决策性问题) |
除了以上 4 大核心分支, 大家常关注和工作相关的的内容还包括: 数据架构/工程/仓库 的建设,数据平台架构、存储等架构。
一、数据工程
「定义」
用工程化手段打通数据全链路,把 “原始数据” 变成 “可信资产”,为所有数据相关工作提供稳定、高效的底层支撑,解决业务的实际问题
数据工程涵盖了数据的整个生命周期,包括采集集成、存储架构、处理计算、治理质量、平台服务等;数据架构是更高层次的设计,以高效、可靠、高质量的交付数据
「划分」
数据工程工作的2大核心方向(从业务价值落地和技术效率角度看) ,可以划分为:
(1)数据链路的建设(业务导向):通过数据工程链路解决业务实际问题
(2)数据平台开发(效率导向):解决数据链路的效率问题,包括数据开发、生产、分析、使用等全链路的效率
从技术属性、业务价值角度看,可拆解为以下几个核心的分支:
(其它抽象的核心关键词:(方法论)[数据建模、数仓建模] )
| 核心分支 | 核心定义 | 解决的问题 | 业务价值 | 典型场景 / 工具 |
|---|---|---|---|---|
| 采集与集成 | 多源异构数据接入(批量 / 实时)、数据源对接、数据传输链路搭建与监控 | 数据 “拿不到、传不畅”:跨系统数据孤岛、实时数据延迟、 异构数据源格式不兼容 | 全渠道数据统一汇聚,标准化。为后续所有数据工作提供 “源头活水”,支撑实时 / 离线业务需求 | APP 埋点实时采集(Kafka)、ERP 与 CRM 数据批量同步(CDC 工具)、物联网传感器数据接入(Flume) |
| 存储与架构 | 存储方案选型、分布式存储搭建、数据分层建模(数仓 / 数据湖 / 中台)、存储性能优化 | 数据 “存不下、查的慢”:海量数据存储成本高、结构化/非结构化数据存储冲突、查询响应慢 | 构建灵活可扩展的数据存储底座, 平衡存储成本与访问效率,支撑多场景数据应用(离线分析 / 实时决策) | 湖仓一体架构搭建(Delta Lake+Snowflake)、数仓分层设计(ODS/DWD/DWS)、非结构化数据存储(MinIO) |
| 处理与计算 | 批量 / 实时数据处理、ETL/ELT 流程开发、数据清洗 / 转换 / 标准化、分布式计算性能优化 | 数据 “用不了、算得慢”:原始数据质量差、海量数据计算效率低、数据格式不统一 | 把原始数据转化为 “干净、标准、可用” 的数据集,降低下游分析 / 建模的数据准备成本,提升数据处理效率 | 订单数据批量清洗(Spark)、实时销量计算(Flink)、用户 ID 统一标准化处理(Python 脚本) |
| 治理与质量 | 数据标准制定、数据质量监控、元数据管理、数据血缘追踪、数据安全合规(脱敏 / 权限) | 数据 “不可信、不合规”:数据质量低导致决策偏差、敏感数据泄露风险、数据权责不清晰 | 保障数据的准确性、一致性、安全性,让数据成为 “可信资产”,规避合规风险,提升数据使用效率 | 订单金额完整性监控(Great Expectations)、用户手机号脱敏(DataMasking 工具)、数据血缘可视化(Atlas) |
| 服务与平台 | 数据接口开发、数据服务封装、数据平台搭建(含运维监控)、BI 工具对接、自助数据服务支撑 | 数据 “不好用、用不起”:业务人员取数门槛高、数据接口不稳定、平台运维成本高 | 降低数据使用门槛,实现数据 “按需取用”,支撑业务快速决策与创新,同时保障数据平台稳定运行 | 用户画像查询 API 开发(Spring Boot)、数据可视化看板搭建(Superset)、大数据平台监控告警(Prometheus) |
1.1 采集与集成
1.1.1 定义
「数据采集」
数据采集(Data Collection / Data Ingestion)
是整个数据体系的第一层,用于将不同来源、不同格式、不同协议的数据获取并传输到数据平台或数据湖(存储层)内。
数据采集是整个 数据中台、数仓、MLOps Pipeline 的入口
「数据集成」
采集 = 把数据拉/推出来
集成 = 把拉出来的数据洗好、分发好、落库好
各企业包括大厂的完整链路:数据源 → 采集 → 集成 → 存储 → 消费
1.1.2 体系架构
数据采集&集成体系:把几百上千个异构数据源的数据可靠、可控、可观测地搬到数据湖/数据仓库里
1.数据采集(Ingestion):把数据从源头“搬出来”。提供多源的数据采集能力,实现不同渠道的数据高效采集
2.数据集成(Integration / Pipeline):通过集成平台化,实现把采集到的“脏数据”清洗、标准化、再路由。
3.存储层:数据仓库和数据湖,核心的数据存储(提供高效读写)
4.数据治理层:纵向贯穿整个数据生命周期的“全局控制层”(绘图工具限制)
集成通道-消息队列:Streaming Bus(Kafka) 统一消息队列,实现缓冲、解耦、支持重放
采集层负责“把数据搬出来” → 交给Kafka → 集成层(Flink为主)负责“把数据洗好用好” → 落湖(Hudi/Iceberg为主)
flowchart LR
style B1 fill:#FFE599
style B4 fill:#FFE599
style B2 fill:#FFE599
style A1 fill:#FFE599
style A2 fill:#FFE599
style A5 fill:#FFE599
style Governance fill:#FFE599
style Ingestion fill:#e8f6f0
style Pipeline fill:#e8f6f0
style C0 fill:#e8f6f0,stroke:#D6B656;
style E0 fill:#FFE599,stroke:#D6B656;
style D0 fill:#ffffde,stroke:#D6B656;
style Table fill:#FFE599
%% =========== 数据来源 ==============
subgraph Sources[数据来源层-Sources]
A1[业务数据库
MySQL / PostgreSQL / Oracle]
A2[日志系统
Nginx / App Log]
A3[消息系统
MQ / Kafka]
A4[第三方服务
API / Webhook]
A5[IoT设备
传感器 / APP埋点]
end
%% =========== 数据采集方式 ==============
subgraph Ingestion[数据采集层-Ingestion]
B1[批量采集
Sqoop / DataX]
B2[实时采集
Flume / Filebeat]
B3[日志采集
Logstash / Fluentd]
B4[CDC 变更数据捕获
Debezium / Canal]
B5[API 拉取
Airflow / Python 脚本]
end
%% =========== 数据接入通道 ==============
subgraph Pipeline[数据集成-接入/加工通道]
C0[数据清洗 / 标准化]
C1[消息队列
Kafka / Pulsar]
C2[实时处理引擎
Flink / Spark Streaming]
C4[Airflow + Python
dbt]
C3[批处理引擎
Spark / Hive]
end
%% =========== 数据落地存储 ==============
subgraph Storage[存储层-Lakehouse]
D1[对象存储
S3 / OSS / COS]
D0[数据存储]
D2[数据湖
Hudi / Iceberg / Delta Lake]
Table[Hudi表、Iceberg表、Delta Lake]
D3[数据仓库
Hive / ClickHouse / Snowflake]
end
%% =========== 数据治理(纵向) ==============
subgraph Governance[数据治理层-Governance]
direction TB
E1[元数据管理
Atlas / DataHub]
E0[数据合规与治理-贯穿全局]
E2[数据质量
DQ / Great Expectations]
E3[数据血缘
Amundsen]
E4[审计 & 安全
Ranger]
end
%% =========== 数据消费 ==============
subgraph Consumption[数据消费层]
F1[指标平台
Superset / Grafana]
F2[数仓模型
DIM / DWD / DWS / ADS]
F3[数据服务
API Gateway]
F4[机器学习
Feature Store / MLflow]
end
%% ============== 把“数据接入通道-集成”大框改成虚线 ==============
classDef dashedBox stroke-dasharray: 8 4, stroke:#555, stroke-width: 1px
class Pipeline dashedBox
class Governance dashedBox
%% ======== 数据流动 ===========
A1 --> B1
A1 --> B4
A2 --> B3
A3 --> B2
A4 --> B5
A5 --> B2
B1 --> C3
B2 --> C1
B3 --> C1
B4 --> C1
B5 --> C3
C1 --> C2
C2 --> D1
C2 --> D2
C3 --> D3
C2 -.-> D3
D0 --> E0
Storage --> Governance
Governance --> F1
1.1.3 体系详解
「数据来源」
| 分类 | 核心定义 |
|---|---|
| ① 业务数据库(OLTP) | 结构化数据:MySQL、PostgreSQL、SQL Server、Oracle、MariaDB 采集方式:CDC(Change Data Capture) |
| ② 日志与事件数据 | 非结构化或半结构化:Nginx / Apache Logs、App 埋点数据、SDK 上传事件、Server Logs(业务日志)、业务事件流(event logs)
格式:JSON、KV、Text、Protobuf |
| ③ 第三方 API / SaaS 服务 | 微信小程序、Stripe / PayPal、阿里云 / AWS Cloudwatch、Google Analytics、CRM(Salesforce、Hubspot)
方式:Pull / Webhook / Batch |
| ④ IoT 与传感器数据 | 设备传感器(温湿度、心率、GPS);车辆、工业、智能硬件 特点:高频、实时、持续流式 |
| ⑤ 文件系统数据 | CSV、Excel;图片、音频、视频;文档(PDF、文本)
来源:FTP / SFTP;企业 NAS;Object Storage(S3 / OSS / COS / MinIO) 用于 ML(CV、NLP)时尤其关键。 |
| ⑥ 消息队列 / 流系统 | Kafka、Pulsar、RabbitMQ、Kinesis、MQTT(IoT 常用) 这里的数据本身已经是流式数据。 |
「采集方式」
按照时间维度
| 方式 | 核心定义 |
|---|---|
| ① 批处理(Batch Ingestion) | 周期:分钟、小时、天 常见工具:DataX(阿里)、Sqoop(Hadoop:大量数据导入)、Airflow 批作业 特点:数据量大、延迟高、成本低;适合:报表、数仓数据 |
| ② 实时采集(Streaming Ingestion) | 采集延迟:毫秒 - 秒级 常见工具:Flume、Flink、Kafka Connect、Logstash 特点:高吞吐、连续流式;适合:监控、风控、实时推荐系统 |
| ③ CDC(Change Data Capture) | 捕获数据库增量变化 工具:Debezium(通用 CDC(强推荐))、Maxwell(MySQL CDC → JSON)、Canal(阿里)、 Kafka Connect(标准化 CDC 组件) 特点:实时同步、对源库压力小;适合:业务库到数仓的同步(强烈推荐) |
「典型工具 / 组件」
数据库同步类: DataX、Sqoop、Canal、Maxwell、Debezium、Kafka Connect
日志 / 事件流采集:Flume[日志采集 → HDFS / Kafka]、Logstash[日志解析与转换]、Filebeat[轻量日志采集]、Fluentd[日志收集与转发]、Vector(Datadog 开源)[高性能日志采集(新趋势)]
流处理与实时加工:Flink[实时计算 + 流式 ETL]、Spark Streaming[微批处理]、Kafka Streams[轻量实时逻辑]、Pulsar Functions[事件函数]
API / 外部数据获取:Airflow[定时调用 API 抓取]、Prefect[编排 + API 抓取]、python[requests / aiohttp]
IoT 数据采集:MQTT Broker(EMQX、Mosquitto)、AWS IoT / 阿里云 IoT Hub
文件数据采集:MinIO Client (mc)、S3 API、Hadoop FS、FTP/SFTP 同步工具、Airflow 定时同步
「工程最佳实践」
- 优先使用 CDC,同步成本最低、稳定性最高
- 日志 → 优先 Kafka + Flink,保证实时性 + 容错
- 多来源 → 用 Kafka Connect 形成标准化 Connector 系统
- 所有数据最终进入数据湖(Iceberg/Hudi)再分层处理
- ML 场景:数据采集要关联元数据(s3 路径、标签、特征版本)
- 配合 MLOps → 接入 MLflow、Feature Store(Feast)
- 构建统一 Data Ingestion API,避免大量 ad-hoc 脚本
1.2 存储与架构
1.2.1 定义
作为采集集成的目的地,存储是以“数据资产化”为最高目标,实现低成本、高性能读写、一体化(批流)、事务一致性与的企业级统一存储底座。
同时兼顾Schema演化、多场景查询加速。提供分层、分格式、分时效管理。
也是下游分析、报表、AI、实时服务的数据唯一来源。
1.2.2 体系架构
存储架构 = 采集集成的终点站 + 数据资产的托管银行 + 全公司所有分析场景的唯一数据源
我们的存储架构不是简单的磁盘,而是全公司数据资产的银行金库——采集集成只管把钱(数据)存进来,我们负责保值、增值、随时取用、还能生利息(新业务、新模型)。
flowchart LR
%% 采集与集成
subgraph Ingestion[数据采集与集成]
direction TB
In[全量数据
统一接入
Kafka
Flink
Spark]
end
%% 核心:大数据存储架构(重点高亮)
subgraph Storage[大数据存储架构\n唯一目的地 & 唯一来源]
direction TB
Raw[Raw Zone
原始落地区]
Bronze[Bronze 层
原始结构化副本]
Silver[Silver 层
清洗宽表区
Hudi / Iceberg / Delta]
Gold[Gold 层
业务指标区
高性能聚合表]
end
%% 消费场景
subgraph Down[消费场景]
BI[BI 大屏 / 报表]
API[实时 API 服务]
ML[机器学习 / 推荐]
SEARCH[日志 / 站内搜索]
end
%% 连线
Ingestion --> Raw
Raw --> Bronze --> Silver --> Gold
Gold --> BI
Gold --> API
Gold --> ML
Silver --> SEARCH
%% 高亮存储架构金库
classDef core fill:#e3f2fd,stroke:#1976d2,stroke-width:1px
class Storage core
%% 可选:把采集集成也标个颜色
classDef up fill:#fff3e0,stroke:#ef6c00
class Up up
1.3 处理与计算
二、数据分析
三、数据合规与治理
3.1 数据安全
3.2 数据合规
四、数据科学
五、数据架构/工程/仓库
数据架构、数据工程、数据仓库三者是 “顶层规划→工程落地→核心载体” 的层层支撑关系,共同构成企业数据资产建设的 “从蓝图到落地” 全链路
数据架构(规划层):负责定义:数据仓库的技术选型(如用 Snowflake 还是 ClickHouse)、数据分层标准(ODS/DWD/DWS)、数据主题边界(如 “销售主题”“用户主题”);
不直接落地,而是输出 “数据仓库建设规范”,指导数据工程的具体工作。
数据工程(执行层)
按数据架构的规范,落地数据仓库的全流程:
采集:从业务系统 / 日志等多源数据接入;
加工:通过 ETL/ELT 清洗、转换数据,按主题建模(星型 / 雪花模型);
存储:将加工后的数据加载到数据仓库;
治理:监控数据仓库的质量、维护元数据;
同时,数据工程还会落地数据湖、实时流等其他载体,不局限于数据仓库。
数据仓库(载体层)
是数据工程的核心产出物之一,存储 “结构化、集成化、主题化” 的数据;
支撑下游应用(如 BI 报表、业务分析),是数据价值释放的关键节点。
5.2 数据架构与建模
核心关系:数据架构是数据建模的 “前提与约束”,数据建模是数据架构的 “具象化落地”
数据建模将数据架构的 “蓝图转化为实体”(无建模,架构是空壳)
两者协同迭代(架构指导建模,建模反哺架构)
数据架构和数据建模是 “一体两面”:数据架构是 “道”(规则与方向),数据建模是 “术”(落地与实现);
todo: 分别做一个 数据架构 、数据建模的 事情。