databricks_step 模块

包含用于在 DBFS 上运行 Databricks 笔记本或 Python 脚本的 Azure ML 管道步骤的功能。

DatabricksStep

创建 Azure ML 管道步骤,以将 DataBricks 笔记本、Python 脚本或 JAR 添加为节点。

有关使用 DatabricksStep 的示例,请参阅笔记本 https://aka.ms/pl-databricks

创建 Azure ML 管道步骤,以将 DataBricks 笔记本、Python 脚本或 JAR 添加为节点。

有关使用 DatabricksStep 的示例,请参阅笔记本 https://aka.ms/pl-databricks

:p aram python_script_name:[必需] 相对于 source_directoryPython 脚本的名称。 如果脚本采用输入和输出,则这些输入和输出将作为参数传递给脚本。 如果 python_script_name 已指定,则 source_directory 还必须指定。

指定确切的一个notebook_pathpython_script_pathpython_script_namemain_class_name

如果将 DataReference 对象指定为 具有 data_reference_name=input1 的输入,并将 PipelineData 对象指定为 name=output1 的输出,则将输入和输出作为参数传递给脚本。 这就是它们的外观,你需要分析脚本中的参数以访问每个输入和输出的路径:“-input1”、“wasbs:///test”,“-output1”、“wasbs://test@storagename.blob.core.windows.nettest@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1”

此外,脚本中将提供以下参数:

  • AZUREML_RUN_TOKEN:用于使用 Azure 机器学习进行身份验证的 AML 令牌。
  • AZUREML_RUN_TOKEN_EXPIRY:AML 令牌到期时间。
  • AZUREML_RUN_ID:此运行的 Azure 机器学习运行 ID。
  • AZUREML_ARM_SUBSCRIPTION:AML 工作区的 Azure 订阅。
  • AZUREML_ARM_RESOURCEGROUP:Azure 机器学习工作区的 Azure 资源组。
  • AZUREML_ARM_WORKSPACE_NAME:Azure 机器学习工作区的名称。
  • AZUREML_ARM_PROJECT_NAME:Azure 机器学习试验的名称。
  • AZUREML_SERVICE_ENDPOINT:AML 服务的终结点 URL。
  • AZUREML_WORKSPACE_ID:Azure 机器学习工作区的 ID。
  • AZUREML_EXPERIMENT_ID:Azure 机器学习试验的 ID。
  • AZUREML_SCRIPT_DIRECTORY_NAME:复制source_directory的 DBFS 中的目录路径。
  (This parameter is only populated when `python_script_name` is used.  See more details below.)

使用 DatabricksStep 参数source_directorypython_script_name从 Databricks 上的本地计算机上执行 Python 脚本时,source_directory将复制到 DBFS,DBFS 上的目录路径在开始执行时作为参数传递给脚本。 此参数标记为 –AZUREML_SCRIPT_DIRECTORY_NAME。 需要使用字符串“dbfs://”或“/dbfs/”作为前缀才能访问 DBFS 中的目录。