Databricks 提供 Lakeflow,这是一种端到端的数据工程解决方案,它使数据工程师、软件开发人员、SQL 开发人员、分析师和数据科学家能够为下游分析、AI 和运营应用程序提供高质量的数据。 Lakeflow 是用于引入、转换和协调数据的统一解决方案,包括 Lakeflow Connect、Lakeflow 声明性管道和 Lakeflow 作业。
Lakeflow Connect
Lakeflow Connect 通过提供连接到热门企业应用程序、数据库、云存储、消息总线和本地文件的连接器,简化了数据引入流程。 请参阅 Lakeflow Connect。
功能 / 特点 | DESCRIPTION |
---|---|
托管连接器 | 托管连接器提供简单的用户界面和基于配置的引入服务,以最小化运营开销,无需使用底层的 Lakeflow 声明性管道 API 和基础设施。 |
标准连接器 | 标准连接器提供从 Lakeflow 声明性管道或其他查询中访问来自更多数据源的数据的功能。 |
Lakeflow 声明性管道
Lakeflow 声明性管道是一个声明性框架,可降低生成和管理高效批处理和流式处理数据管道的复杂性。 Lakeflow 声明性管道在性能优化的 Databricks Runtime 上运行。 此外,Lakeflow 声明性管道通过将流、接收器、流式处理表和物化视图封装并作为管道运行,自动协调其执行。 请参阅 Lakeflow 声明性管道。
功能 / 特点 | DESCRIPTION |
---|---|
流 | 流处理 Lakeflow 声明性管道中的数据。 流 API 使用与 Apache Spark 和结构化流式处理相同的数据帧 API。 流可以使用流式处理语义写入流式处理表和接收器(例如 Kafka 主题),也可以使用批处理语义写入具体化视图。 |
流式处理表 | 流式处理表是 Delta 表,具有支持流式或增量数据处理的额外功能。 它是 Lakeflow 声明式管道中一个或多个流的目标。 |
具体化视图 | 具体化视图是一种具有缓存结果的视图,可以更快地进行访问。 具体化视图充当 Lakeflow Declarative Pipelines 的目标。 |
接收器 | Lakeflow 声明性管道支持将外部数据汇集点作为目标。 这些接收器可以包括事件流式处理服务,如 Apache Kafka 或 Azure 事件中心,以及由 Unity Catalog 管理的外部表。 |
Lakeflow 任务
Lakeflow 作业为任何数据和 AI 工作负载提供可靠的编排和生产监控。 作业可以包含一个或多个任务,这些任务运行笔记本、管道、托管连接器、SQL 查询、机器学习训练以及模型部署和推理。 作业还支持自定义控制流逻辑,例如使用 if/else 语句进行分支,以及使用 for each 语句进行循环。 请参阅 Lakeflow Jobs。
功能 / 特点 | DESCRIPTION |
---|---|
作业 | 作业是协调的主要资源。 它们表示你想要按计划执行的过程。 |
任务 | 作业中的特定工作单元。 在作业中可以执行的任务类型有多种,为您提供了多种选项。 |
作业中的控制流 | 控制流任务允许你控制是运行其他任务,还是运行任务的顺序。 |
用于 Apache Spark 的 Databricks Runtime
Databricks Runtime 是运行 Spark 工作负载(包括批处理和流式处理)的可靠且性能优化的计算环境。 Databricks Runtime 提供 Photon(一种高性能的 Databricks 原生矢量化查询引擎),以及各种基础结构优化,例如自动缩放。 可以通过将 Spark 程序生成为笔记本、JAR 或 Python wheel,在 Databricks Runtime 上运行 Spark 和结构化流式处理工作负载。 请参阅 适用于 Apache Spark 的 Databricks Runtime。
功能 / 特点 | DESCRIPTION |
---|---|
Databricks 上的 Apache Spark | Spark 是 Databricks 数据智能平台的核心。 |
结构化数据流 | 结构化流式处理是用于流数据的 Spark 准实时处理引擎。 |
Delta 实时表(DLT)出了什么问题?
以前称为 Delta Live Tables(DLT)的产品现在是 Lakeflow 声明式管道。 无需迁移即可使用 Lakeflow 声明性管道。
注释
Databricks 中仍有一些对 DLT 名称的引用。 Lakeflow 声明性管道的经典 SKU 仍以开头 DLT
,名称中带有 DLT
的 API 尚未更改。
其他资源
- 数据工程概念 介绍了 Azure Databricks 中的数据工程概念。
- Delta Lake 是经过优化的存储层,为 Azure Databricks 中湖屋中的表提供了基础。
- 数据工程最佳做法 介绍了 Azure Databricks 中数据工程的最佳做法。
- Databricks 笔记本 是用于协作和开发的常用工具。
- Databricks SQL 介绍如何在 Azure Databricks 中使用 SQL 查询和 BI 工具。
- Databricks 马赛克 AI 介绍了构建机器学习解决方案。