使用 Databricks 执行数据工程

2025-06-11

Databricks 提供 Lakeflow，这是一种端到端的数据工程解决方案，它使数据工程师、软件开发人员、SQL 开发人员、分析师和数据科学家能够为下游分析、AI 和运营应用程序提供高质量的数据。 Lakeflow 是用于引入、转换和协调数据的统一解决方案，包括 Lakeflow Connect、Lakeflow 声明性管道和 Lakeflow 作业。

Lakeflow Connect

Lakeflow Connect 通过提供连接到热门企业应用程序、数据库、云存储、消息总线和本地文件的连接器，简化了数据引入流程。请参阅 Lakeflow Connect。

功能 / 特点	DESCRIPTION
托管连接器	托管连接器提供简单的用户界面和基于配置的引入服务，以最小化运营开销，无需使用底层的 Lakeflow 声明性管道 API 和基础设施。
标准连接器	标准连接器提供从 Lakeflow 声明性管道或其他查询中访问来自更多数据源的数据的功能。

Lakeflow 声明性管道

Lakeflow 声明性管道是一个声明性框架，可降低生成和管理高效批处理和流式处理数据管道的复杂性。 Lakeflow 声明性管道在性能优化的 Databricks Runtime 上运行。此外，Lakeflow 声明性管道通过将流、接收器、流式处理表和物化视图封装并作为管道运行，自动协调其执行。请参阅 Lakeflow 声明性管道。

功能 / 特点	DESCRIPTION
流	流处理 Lakeflow 声明性管道中的数据。流 API 使用与 Apache Spark 和结构化流式处理相同的数据帧 API。流可以使用流式处理语义写入流式处理表和接收器（例如 Kafka 主题），也可以使用批处理语义写入具体化视图。
流式处理表	流式处理表是 Delta 表，具有支持流式或增量数据处理的额外功能。它是 Lakeflow 声明式管道中一个或多个流的目标。
具体化视图	具体化视图是一种具有缓存结果的视图，可以更快地进行访问。具体化视图充当 Lakeflow Declarative Pipelines 的目标。
接收器	Lakeflow 声明性管道支持将外部数据汇集点作为目标。这些接收器可以包括事件流式处理服务，如 Apache Kafka 或 Azure 事件中心，以及由 Unity Catalog 管理的外部表。

Lakeflow 任务

Lakeflow 作业为任何数据和 AI 工作负载提供可靠的编排和生产监控。作业可以包含一个或多个任务，这些任务运行笔记本、管道、托管连接器、SQL 查询、机器学习训练以及模型部署和推理。作业还支持自定义控制流逻辑，例如使用 if/else 语句进行分支，以及使用 for each 语句进行循环。请参阅 Lakeflow Jobs。

功能 / 特点	DESCRIPTION
作业	作业是协调的主要资源。它们表示你想要按计划执行的过程。
任务	作业中的特定工作单元。在作业中可以执行的任务类型有多种，为您提供了多种选项。
作业中的控制流	控制流任务允许你控制是运行其他任务，还是运行任务的顺序。

用于 Apache Spark 的 Databricks Runtime

Databricks Runtime 是运行 Spark 工作负载（包括批处理和流式处理）的可靠且性能优化的计算环境。 Databricks Runtime 提供 Photon（一种高性能的 Databricks 原生矢量化查询引擎），以及各种基础结构优化，例如自动缩放。可以通过将 Spark 程序生成为笔记本、JAR 或 Python wheel，在 Databricks Runtime 上运行 Spark 和结构化流式处理工作负载。请参阅适用于 Apache Spark 的 Databricks Runtime。

功能 / 特点	DESCRIPTION
Databricks 上的 Apache Spark	Spark 是 Databricks 数据智能平台的核心。
结构化数据流	结构化流式处理是用于流数据的 Spark 准实时处理引擎。

Delta 实时表（DLT）出了什么问题？

以前称为 Delta Live Tables（DLT）的产品现在是 Lakeflow 声明式管道。无需迁移即可使用 Lakeflow 声明性管道。

注释

Databricks 中仍有一些对 DLT 名称的引用。 Lakeflow 声明性管道的经典 SKU 仍以开头 DLT，名称中带有 DLT 的 API 尚未更改。

其他资源

数据工程概念介绍了 Azure Databricks 中的数据工程概念。
Delta Lake 是经过优化的存储层，为 Azure Databricks 中湖屋中的表提供了基础。
数据工程最佳做法介绍了 Azure Databricks 中数据工程的最佳做法。
Databricks 笔记本是用于协作和开发的常用工具。
Databricks SQL 介绍如何在 Azure Databricks 中使用 SQL 查询和 BI 工具。
Databricks 马赛克 AI 介绍了构建机器学习解决方案。

通过

使用 Databricks 执行数据工程

Lakeflow Connect

Lakeflow 声明性管道

Lakeflow 任务

用于 Apache Spark 的 Databricks Runtime

Delta 实时表（DLT）出了什么问题？

其他资源

反馈

其他资源