数据领域知识体系
「背景」当下无论是企业需求还是社会发展趋势、个人职业发展,数据领域的知识都非常重要。具体体现在企业决策与创新需要、数字化转型的适应、前沿技术和趋势的探索、提升职业竞争力。「企业需求」数据已成为现代企业的核心资产,企业通过数据驱动决策、通过数据推动业务创新(掌握数据帮助企业发现新的商业模式和市场机会);「社会发展趋势」另外随着数字化转型的浪潮,数据作为其核心要素发挥重要作用、推送技术和业务的融合;在如今人工智能迅速发展,数据作为其基础,也为探索前沿技术奠定基础。
「目的」因此,对于数据领域的学习和总结很有必要。本章节主要涉及 数据工程、数据架构、数据治理、数据安全相关。旨在帮助读者系统的了解数据领域相关技能和知识,能运用这些技能在企业和前沿技术实践中。
其中数据工程涵盖了数据的整个生命周期;数据架构是更高层次的设计,以高效、可靠、高质量的交付数据
一、数据工程
其中数据工程专注于构建和维护数据基础设施,目标是构建一个高效、可靠、可扩展的数据基础架构,确保数据能够以正确的方式、在正确的时间、以正确的质量交付给数据科学家、分析师、业务用户或机器学习系统。「范围」其范围包括数据的采集、存储、处理和分析、数据管应用等,涵盖了数据源到数据应用的整个生命周期。我们从技术的应用层划分为 实时数仓(风控/安全/搜推等领域)「采集/管道、处理、存储、访问/服务;也需考虑数据治理」、实时数据分析。
1.1 核心价值
效率:自动化数据处理流程,减少人工干预。
质量:确保数据准确、一致、可信。
速度:支持实时或近实时的业务决策。
规模:处理海量数据,适应业务增长。
1.2 应用场景
从应用场景上看,包括:
域 | - | 说明 | 关键词 | |
---|---|---|---|---|
实时数据 分析与监控 |
场景 | 实时监控业务指标、用户行为或系统性能。 | Flink、实时数仓(ClickHouse)、行为分析、监控 | |
例子 | 电商平台:实时分析用户购买行为,监测库存变化,提供动态定价 (如双11期间订单量激增时的实时数据处理)。 金融行业:实时检测欺诈交易,通过流式数据管道分析交易模式。 |
|||
作用 | 构建实时数据管道(如 Kafka + Flink),支持实时数仓(如 ClickHouse),实现低延迟查询。 | |||
商业智能与报表生成 | 场景 | 为管理层或业务团队提供数据洞察。 | 数据洞察、ETL、数据仓库、报表 | |
例子 | 零售业:生成每日销售报表,分析不同门店的业绩。 营销团队:跟踪广告投放效果(如点击率、转化率),优化预算分配。 |
|||
作用 | 设计 ETL流程,将分散的数据整合到数据仓库(如 Snowflake), 支持 BI 工具(如 Tableau、Power BI)。 |
|||
机器学习与人工智能 | 场景 | 为模型训练和推理提供高质量数据;基于数据提供个性化服务 | 特征工程、数据预处理、采集、存储、HBase | |
例子 | 推荐系统:为 Netflix 或抖音的推荐算法提供用户行为数据(如观看记录、点赞)。 自动驾驶:处理传感器数据(如激光雷达、摄像头),为模型训练提供结构化数据集。 |
|||
作用 | 清洗和预处理数据,构建数据湖(如 AWS S3),支持特征工程和模型部署 实时采集用户数据,存储到分布式系统(如 HBase),支持快速查询和分析 |
|||
数据合规与治理 | 场景 | 满足法律或行业监管要求 | 数据治理、数据管理、数据血缘、数据安全 | |
例子 | 医疗行业:确保患者数据的隐私性,符合 HIPAA 法规。 金融服务:追踪交易数据以满足反洗钱(AML)要求。 |
|||
作用 | 构建元数据管理系统,实施数据加密和访问控制,记录数据血缘。 | |||
大数据分析处理 | 场景 | 支持学术研究或前沿技术开发 | 分布式存储和计算、Hadoop、Spark、大规模并行处理 | |
例子 | 天文学:处理望远镜产生的海量观测数据,寻找新星系 基因研究:分析 DNA 序列数据,研究疾病相关基因。 |
|||
作用 | 构建分布式存储和计算系统(如 Hadoop、Spark),支持大规模并行处理 | |||
数据平台 | 目的 | 数据平台:基础设施(管理、处理、使用数据,支持决策、业务运营和创新) | 数据平台、数据集成、数据孤岛 | |
例子 | 数据整合与集中化:数据集成、整合到统一环境,打破数据孤岛,便于全局访问和管理 支持数据处理与分析:通过提供ETL(提取、转换、加载)流程、数据清洗和存储功能,让原始数据变成可分析的格式,为报表、预测模型或实时分析奠定基础。 支持扩展与创新、数据治理与安全性、提高效率与自动化、提升业务决策能力 |
|||
作用 | 将数据转化为企业的核心资产,帮助组织更高效地利用数据来实现业务目标 |
风控、安全、搜索、推荐 场景 ETL(数据处理流程:提取、转换、加载);机器学习; 规则引擎(CEP);特征工程等。