在 Lakeflow 声明性管道中使用笔记本开发和调试 ETL 管道

重要

此功能目前以公共预览版提供。

本文介绍如何使用 Lakeflow 声明性管道中的笔记本开发和调试 ETL 管道。 这是 Lakeflow 声明性管道中的默认开发体验。

注释

如果为 Lakeflow 声明性管道配置了多文件编辑器,请参阅 使用 Lakeflow 声明性管道中的多文件编辑器开发和调试 ETL 管道

Lakeflow 声明性管道中的笔记本概述

处理配置为现有管道源代码的 Python 或 SQL 笔记本时,可以直接将笔记本连接到管道。 将笔记本连接到管道后,可以使用以下功能:

  • 从笔记本启动并验证管道。
  • 查看管道的数据流图和事件日志以了解笔记本中的最新更新。
  • 在笔记本编辑器中查看管道诊断。
  • 在笔记本中查看管道群集的状态。
  • 从笔记本访问 Lakeflow 声明性管道 UI。

先决条件

  • 您必须有一个现有的管道,其中的 Python 或 SQL 笔记本已配置为源代码。
  • 你必须是管道的所有者或拥有 CAN_MANAGE 权限。

局限性

  • 本文介绍的功能仅在 Azure Databricks 笔记本中可用。 不支持工作区文件。
  • 连接到管道时,Web 终端不可用。 因此,它不会在底部面板中显示为一个标签页。

将笔记本连接到管道

在笔记本中,单击用于选择计算的下拉菜单。 下拉菜单显示使用此笔记本作为源代码的所有 Lakeflow 声明式管道。 若要将笔记本连接到管道,请从列表中选择它。

查看管道的群集状态

为了方便用户了解管道群集的状态,该状态会显示在计算下拉菜单中,绿色表示群集正在运行。

验证管道代码

可以验证管道以检查源代码中的语法错误,而无需处理任何数据。

若要验证管道,请执行以下操作之一:

  • 在笔记本的右上角,单击“验证”
  • 在任一笔记本单元格中按 Shift+Enter
  • 在单元格的下拉菜单中,单击“验证管道”

注释

如果你在现有更新已运行时尝试验证管道,则会显示一个对话框,询问你是否要终止现有更新。 如果单击“是”,则现有更新将会停止,并自动开始验证更新

启动管道更新

若要开始更新管道,请单击笔记本右上角的“开始”按钮。 请参阅 在 Lakeflow 声明性管道中运行更新

查看更新状态

笔记本中的顶部面板会显示管道更新状态:

  • 正在启动
  • 验证中
  • 正在停止

查看错误和诊断

启动管道更新或验证后,任何错误都以红色下划线显示。 将光标悬停在错误上以了解更多信息。

查看管道事件

附加到管道时,笔记本底部有 Lakeflow 声明性管道事件日志选项卡。

事件日志

查看管道数据流图形

若要查看管道的数据流图,请使用笔记本底部的 Lakeflow 声明性管道图选项卡。 选择图形中的节点会在右侧面板中显示其架构。

数据流图形

如何从笔记本访问 Lakeflow 的“声明性管道”用户界面

若要轻松跳转到 Lakeflow 声明性管道 UI,请使用笔记本右上角的菜单。

从笔记本在 LDP UI 中打开

从笔记本访问驱动程序日志和 Spark UI

可以从笔记本的“视图”菜单轻松访问与正在开发的管道关联的驱动程序日志和 Spark UI

访问驱动程序日志和 Spark UI