数据领域知识体系

Catalogue
  1. 一、数据工程
    1. 1.1 核心价值
    2. 1.2 应用场景
  2. 二、数据架构
  3. 三、数据治理
  4. 四、数据安全

「背景」当下无论是企业需求还是社会发展趋势、个人职业发展,数据领域的知识都非常重要。具体体现在企业决策与创新需要、数字化转型的适应、前沿技术和趋势的探索、提升职业竞争力。「企业需求」数据已成为现代企业的核心资产,企业通过数据驱动决策、通过数据推动业务创新(掌握数据帮助企业发现新的商业模式和市场机会);「社会发展趋势」另外随着数字化转型的浪潮,数据作为其核心要素发挥重要作用、推送技术和业务的融合;在如今人工智能迅速发展,数据作为其基础,也为探索前沿技术奠定基础。

「目的」因此,对于数据领域的学习和总结很有必要。本章节主要涉及 数据工程、数据架构、数据治理、数据安全相关。旨在帮助读者系统的了解数据领域相关技能和知识,能运用这些技能在企业和前沿技术实践中。

其中数据工程涵盖了数据的整个生命周期;数据架构是更高层次的设计,以高效、可靠、高质量的交付数据

一、数据工程

其中数据工程专注于构建和维护数据基础设施,目标是构建一个高效、可靠、可扩展的数据基础架构,确保数据能够以正确的方式、在正确的时间、以正确的质量交付给数据科学家、分析师、业务用户或机器学习系统。「范围」其范围包括数据的采集、存储、处理和分析、数据管应用等,涵盖了数据源到数据应用的整个生命周期。我们从技术的应用层划分为 实时数仓(风控/安全/搜推等领域)「采集/管道、处理、存储、访问/服务;也需考虑数据治理」、实时数据分析。

1.1 核心价值

效率:自动化数据处理流程,减少人工干预。
质量:确保数据准确、一致、可信。
速度:支持实时或近实时的业务决策。
规模:处理海量数据,适应业务增长。

1.2 应用场景

从应用场景上看,包括:

- 说明 关键词
实时数据
分析与监控
场景 实时监控业务指标、用户行为或系统性能。 Flink、实时数仓(ClickHouse)、行为分析、监控
例子 电商平台:实时分析用户购买行为,监测库存变化,提供动态定价
(如双11期间订单量激增时的实时数据处理)。
金融行业:实时检测欺诈交易,通过流式数据管道分析交易模式。
作用 构建实时数据管道(如 Kafka + Flink),支持实时数仓(如 ClickHouse),实现低延迟查询。
商业智能与报表生成 场景 为管理层或业务团队提供数据洞察。 数据洞察、ETL、数据仓库、报表
例子 零售业:生成每日销售报表,分析不同门店的业绩。
营销团队:跟踪广告投放效果(如点击率、转化率),优化预算分配。
作用 设计 ETL流程,将分散的数据整合到数据仓库(如 Snowflake),
支持 BI 工具(如 Tableau、Power BI)。
机器学习与人工智能 场景 为模型训练和推理提供高质量数据;基于数据提供个性化服务 特征工程、数据预处理、采集、存储、HBase
例子 推荐系统:为 Netflix 或抖音的推荐算法提供用户行为数据(如观看记录、点赞)。
自动驾驶:处理传感器数据(如激光雷达、摄像头),为模型训练提供结构化数据集。
作用 清洗和预处理数据,构建数据湖(如 AWS S3),支持特征工程和模型部署
实时采集用户数据,存储到分布式系统(如 HBase),支持快速查询和分析
数据合规与治理 场景 满足法律或行业监管要求 数据治理、数据管理、数据血缘、数据安全
例子 医疗行业:确保患者数据的隐私性,符合 HIPAA 法规。
金融服务:追踪交易数据以满足反洗钱(AML)要求。
作用 构建元数据管理系统,实施数据加密和访问控制,记录数据血缘
大数据分析处理 场景 支持学术研究或前沿技术开发 分布式存储和计算、Hadoop、Spark、大规模并行处理
例子 天文学:处理望远镜产生的海量观测数据,寻找新星系
基因研究:分析 DNA 序列数据,研究疾病相关基因。
作用 构建分布式存储和计算系统(如 Hadoop、Spark),支持大规模并行处理
数据平台 目的 数据平台:基础设施(管理、处理、使用数据,支持决策、业务运营和创新) 数据平台、数据集成、数据孤岛
例子 数据整合与集中化:数据集成、整合到统一环境,打破数据孤岛,便于全局访问和管理
支持数据处理与分析:通过提供ETL(提取、转换、加载)流程、数据清洗和存储功能,让原始数据变成可分析的格式,为报表、预测模型或实时分析奠定基础。
支持扩展与创新、数据治理与安全性、提高效率与自动化、提升业务决策能力
作用 将数据转化为企业的核心资产,帮助组织更高效地利用数据来实现业务目标

风控、安全、搜索、推荐 场景 ETL(数据处理流程:提取、转换、加载);机器学习; 规则引擎(CEP);特征工程等。

二、数据架构

三、数据治理

四、数据安全