使用 Databricks 执行数据工程

Databricks 提供 Lakeflow,这是一种端到端的数据工程解决方案,它使数据工程师、软件开发人员、SQL 开发人员、分析师和数据科学家能够为下游分析、AI 和运营应用程序提供高质量的数据。 Lakeflow 是用于引入、转换和协调数据的统一解决方案,包括 Lakeflow Connect、Lakeflow 声明性管道和 Lakeflow 作业。

Lakeflow Connect

Lakeflow Connect 通过提供连接到热门企业应用程序、数据库、云存储、消息总线和本地文件的连接器,简化了数据引入流程。 请参阅 Lakeflow Connect

功能 / 特点 DESCRIPTION
托管连接器 托管连接器提供简单的用户界面和基于配置的引入服务,以最小化运营开销,无需使用底层的 Lakeflow 声明性管道 API 和基础设施。
标准连接器 标准连接器提供从 Lakeflow 声明性管道或其他查询中访问来自更多数据源的数据的功能。

Lakeflow 声明性管道

Lakeflow 声明性管道是一个声明性框架,可降低生成和管理高效批处理和流式处理数据管道的复杂性。 Lakeflow 声明性管道在性能优化的 Databricks Runtime 上运行。 此外,Lakeflow 声明性管道通过将流、接收器、流式处理表和物化视图封装并作为管道运行,自动协调其执行。 请参阅 Lakeflow 声明性管道

功能 / 特点 DESCRIPTION
流处理 Lakeflow 声明性管道中的数据。 流 API 使用与 Apache Spark 和结构化流式处理相同的数据帧 API。 流可以使用流式处理语义写入流式处理表和接收器(例如 Kafka 主题),也可以使用批处理语义写入具体化视图。
流式处理表 流式处理表是 Delta 表,具有支持流式或增量数据处理的额外功能。 它是 Lakeflow 声明式管道中一个或多个流的目标。
具体化视图 具体化视图是一种具有缓存结果的视图,可以更快地进行访问。 具体化视图充当 Lakeflow Declarative Pipelines 的目标。
接收器 Lakeflow 声明性管道支持将外部数据汇集点作为目标。 这些接收器可以包括事件流式处理服务,如 Apache Kafka 或 Azure 事件中心,以及由 Unity Catalog 管理的外部表。

Lakeflow 任务

Lakeflow 作业为任何数据和 AI 工作负载提供可靠的编排和生产监控。 作业可以包含一个或多个任务,这些任务运行笔记本、管道、托管连接器、SQL 查询、机器学习训练以及模型部署和推理。 作业还支持自定义控制流逻辑,例如使用 if/else 语句进行分支,以及使用 for each 语句进行循环。 请参阅 Lakeflow Jobs

功能 / 特点 DESCRIPTION
作业 作业是协调的主要资源。 它们表示你想要按计划执行的过程。
任务 作业中的特定工作单元。 在作业中可以执行的任务类型有多种,为您提供了多种选项。
作业中的控制流 控制流任务允许你控制是运行其他任务,还是运行任务的顺序。

用于 Apache Spark 的 Databricks Runtime

Databricks Runtime 是运行 Spark 工作负载(包括批处理和流式处理)的可靠且性能优化的计算环境。 Databricks Runtime 提供 Photon(一种高性能的 Databricks 原生矢量化查询引擎),以及各种基础结构优化,例如自动缩放。 可以通过将 Spark 程序生成为笔记本、JAR 或 Python wheel,在 Databricks Runtime 上运行 Spark 和结构化流式处理工作负载。 请参阅 适用于 Apache Spark 的 Databricks Runtime

功能 / 特点 DESCRIPTION
Databricks 上的 Apache Spark Spark 是 Databricks 数据智能平台的核心。
结构化数据流 结构化流式处理是用于流数据的 Spark 准实时处理引擎。

Delta 实时表(DLT)出了什么问题?

以前称为 Delta Live Tables(DLT)的产品现在是 Lakeflow 声明式管道。 无需迁移即可使用 Lakeflow 声明性管道。

注释

Databricks 中仍有一些对 DLT 名称的引用。 Lakeflow 声明性管道的经典 SKU 仍以开头 DLT,名称中带有 DLT 的 API 尚未更改。

其他资源