数据架构概述
数据领域架构,除了常见的 数据处理架构 之外,还包括数仓架构、数据平台架构。 另外还包括 数据中台架构、数据治理架构、实时数据架构、数据湖架构、湖仓一体架构、云原生数据架构、数据安全架构等。以上架构的理解以及核心架构的深入,是数据架构师必备的技能和知识体系。
一、架构理解
企业数据架构蓝图是企业数据能力建设的顶层规划与全景视图,而数据平台架构是落地这一蓝图的核心载体。
围绕数据平台架构这一整体技术架构,展开各专项组件架构或子架构,包括 数仓架构、湖仓一体架构、数据中台架构等,为平台提供特定能力支撑。
对这些架构的核心关联理解,可以用 “底座 - 处理 - 服务 - 保障” 四层逻辑串联所有架构:
- 存储底座层:数据湖架构、数仓架构、湖仓一体架构
- 数据处理层:Lambda/Kappa 架构、实时数据架构
- 能力服务层:数据中台架构、AI 中台 / 算法平台架构
- 安全保障层:数据治理架构、数据安全架构
- 部署形态层:云原生数据架构
它们并非孤立存在,而是相互支撑、层层递进,共同构成企业数据能力的完整技术底座。
「明确各层架构的 “协同边界”,避免落地时割裂」
以上框架定义了核心架构的“分层”,但实际落地,层与层之间是协同而非独立的,需要考虑(补充)协同规则,否则容易出现 “数据存了但用不起来”、“服务建了但数据不可信” 的问题。
1.1 企业数据架构蓝图
数字化、数智化转型 背景下…
1.2 数据平台架构
数据平台架构是一个覆盖 “数据采集 - 存储 - 计算 - 治理 - 服务 - 安全” 全链路的综合性平台技术架构。
1.3 核心架构理解
1.3.1 数仓架构
数据仓库(数仓)架构:面向主题、集成的、非易失的、随时间变化的数据集合,专门用于支持管理决策。典型架构是分层架构(ODS 层→DW 层→DM 层)。
解决的问题:解决业务数据分散、数据口径不一致、历史数据难以追溯的问题,为报表分析、经营决策提供统一数据底座。
核心特点:结构化数据为主,数据写入后一般不修改,遵循严格的 schema(数据模型)。
1 |
|
1.3.2 湖仓一体架构
融合数据湖的灵活性和数据仓库的规范性的架构,在数据湖的基础上,增加数仓的管理能力(如 ACID 事务、数据索引、数据治理)。
解决数据湖和数据仓 “各自为政” 的问题,让一份数据既可以支持探索性分析,又可以支持标准化报表。
代表技术:Delta Lake、Iceberg、Hudi。
1.3.3 数据中台架构
不是存储层面的架构,而是组织和能力层面的架构,通过整合企业全域数据,构建统一的数据资产中心,为业务前台提供可复用的数据服务。
解决的问题:解决数据孤岛、重复造轮子(各业务线重复开发数据需求)的问题,实现 “数据资产化、服务化”。
核心组成:通常包含数据采集、数据治理、数据开发、数据服务、资产目录等模块,底层可以对接数仓、数据湖或湖仓一体架构。
1.3.4 数据治理架构
核心定义:贯穿数据全生命周期的管理架构,目标是保证数据的 “准确性、完整性、一致性、安全性、可用性”。
解决的问题:解决数据质量差、数据权责不清、数据安全风险高的问题,让数据成为可信的资产。
核心模块:数据标准、数据质量、数据血缘、数据安全、元数据管理、数据生命周期管理。
1.3.5 数据安全架构
核心定义:保障数据在采集、传输、存储、使用、销毁全生命周期的安全架构,防范数据泄露、篡改、滥用风险。
核心内容:包含数据分级分类、访问权限控制、数据脱敏、数据加密、审计监控等能力。
定位:是所有数据架构的 “安全底座”,任何数据架构都必须嵌入数据安全能力。
1.3.6 AI中台 / 算法平台架构
当企业需要用数据做预测、建模时,会需要专门的 AI 中台架构 —— 它基于数据湖 / 湖仓一体的原始数据,提供特征工程、模型训练、模型部署的能力,本质也是数据能力的服务化输出,属于能力服务层的重要组成。
1.4 架构的“协同”
以上框架定义了核心架构的“分层”,但实际落地,层与层之间是协同而非独立的,需要考虑(补充)协同规则,否则容易出现 “数据存了但用不起来”、“服务建了但数据不可信” 的问题。
「存储底座与数据处理的协同」
湖仓一体架构之所以能替代传统数仓 + 数据湖的组合,核心是它打通了批处理和实时处理的存储层(比如 Delta Lake 支持流批一体),不需要在数仓和数据湖之间做数据拷贝。
实时数据架构的底层存储,既可以用 Kafka 这类消息队列(实时暂存),也需要对接湖仓一体(长期存储),二者是 “实时流转 + 长期沉淀” 的关系。
「能力服务与安全保障的协同」
数据中台的 “数据服务” 不能脱离数据治理 —— 中台对外提供的每一个数据 API,都必须有数据血缘、数据质量、权限管控的加持,否则就是 “裸奔的服务”。
数据安全架构是贯穿所有层级的:存储层要做数据加密,处理层要做脱敏计算,服务层要做接口鉴权,不能只把它当成独立的 “保障层”。
「部署形态层是 “赋能所有层” 的基础」
云原生数据架构不是一个 “独立叠加” 的层,而是改造所有层的技术底座:
存储底座层用云对象存储(S3/OSS)替代传统 HDFS;
数据处理层用 K8s 做计算资源的弹性调度;
能力服务层用微服务架构做数据中台的模块拆分。
它的核心是 “让所有上层架构更敏捷、更省钱”。
二、数据平台架构
作为综合性技术平台,把蓝图的战略目标,转化为可落地的技术架构,覆盖 “数据采集 - 存储 - 计算 - 治理 - 服务 - 安全” 全链路。
数据平台架构就是五层能力的集合体—— 底座、处理、服务、保障、部署这五层,共同构成了数据平台的完整能力。
三、专项子架构
2.1 数仓架构
2.1.1 概念关系
数据架构、数据工程、数据仓库三者是 “顶层规划→工程落地→核心载体” 的层层支撑关系,共同构成企业数据资产建设的 “从蓝图到落地” 全链路
数据架构(规划层):负责定义:数据仓库的技术选型(如用 Snowflake 还是 ClickHouse)、数据分层标准(ODS/DWD/DWS)、数据主题边界(如 “销售主题”“用户主题”);
不直接落地,而是输出 “数据仓库建设规范”,指导数据工程的具体工作。
数据工程(执行层)
按数据架构的规范,落地数据仓库的全流程:
采集:从业务系统 / 日志等多源数据接入;
加工:通过 ETL/ELT 清洗、转换数据,按主题建模(星型 / 雪花模型);
存储:将加工后的数据加载到数据仓库;
治理:监控数据仓库的质量、维护元数据;
同时,数据工程还会落地数据湖、实时流等其他载体,不局限于数据仓库。
数据仓库(载体层)
是数据工程的核心产出物之一,存储 “结构化、集成化、主题化” 的数据;
支撑下游应用(如 BI 报表、业务分析),是数据价值释放的关键节点。
数据仓库架构主要关注的是: 面向分析的结构化数据资产化,围绕数据整合、口径统一、高效查询、稳定支撑业务决策四大核心目标
2.2 算法平台架构
2.3 AI中台
与算法平台架构的关系:算法平台架构是 AI 中台的技术底座。
AI 中台是算法平台能力的价值放大器。AI 中台通过能力封装、场景化适配、权限管控,把算法平台的 “技术工具” 转化为 “业务服务”:
- 比如把算法平台的 “分类模型” 封装成 “智能客服意图识别接口”;
- 把 “回归模型” 封装成 “商品销量预测服务”。
这样业务人员不用懂算法,直接调用接口就能实现 AI 赋能,让算法能力从 “实验室” 走向 “业务一线”。
「架构层面的整合关系」
在企业数据架构的能力服务层中,AI 中台和算法平台架构是一体化整合的,具体体现为:
- 数据链路打通:算法平台架构直接对接企业的存储底座层(湖仓一体..),获取训练数据;AI 中台则对接业务系统,获取推理数据并输出结果。
- 模型生命周期联动:从模型训练(算法平台)→ 模型注册 → 模型封装(AI 中台)→ 模型调用 → 模型监控与迭代(算法平台),形成闭环。
- 治理能力统一:二者共享企业的数据治理和数据安全架构能力 —— 比如特征数据的质量管控、模型接口的权限校验、敏感数据的脱敏处理,都遵循统一的治理规范。