AdlaStep 类

创建 Azure ML Pipeline 步骤,以便使用 Azure Data Lake Analytics 运行 U-SQL 脚本。

有关使用此 AdlaStep 的示例,请参阅笔记本 https://aka.ms/pl-adla

创建 Azure ML Pipeline 步骤,以使用 Azure Data Lake Analytics 运行 U-SQL 脚本。

构造函数

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

参数

名称 说明
script_name
必需
str

[必需]相对于 . 的 U-SQL 脚本 source_directory的名称。

name
str

步骤的名称。 如果未指定,则使用 script_name

默认值: None
inputs

输入端口绑定的列表。

默认值: None
outputs

输出端口绑定的列表。

默认值: None
params

名称值对的字典。

默认值: None
degree_of_parallelism
int

用于此作业的并行度。 这必须大于 0。 如果设置为小于 0,则默认值为 1。

默认值: None
priority
int

用于当前作业的优先级值。 较低的数字具有更高的优先级。 默认情况下,作业的优先级为 1000。 指定的值必须大于 0。

默认值: None
runtime_version
str

Data Lake Analytics 引擎的运行时版本。

默认值: None
compute_target

[必需]要用于此作业的 ADLA 计算。

默认值: None
source_directory
str

包含脚本、程序集等的文件夹。

默认值: None
allow_reuse

指示使用相同设置重新运行时,该步骤是否应重复使用以前的结果。 默认情况下启用重用。 如果步骤内容(脚本/依赖项)以及输入和参数保持不变,则重复使用此步骤上一次运行的输出。 重用步骤时,将立即向任何后续步骤提供上一次运行的结果,而不是将作业提交到计算。 如果使用 Azure 机器学习数据集作为输入,则重复使用取决于数据集的定义是否已更改,而不是由基础数据是否已更改决定。

默认值: True
version
str

可选版本标记,表示步骤的功能更改。

默认值: None
hash_paths

已弃用:不再需要。

检查步骤内容更改时哈希的路径列表。 如果未检测到任何更改,管道将重复使用上一次运行中的步骤内容。 默认情况下,除 .amlignore 或 .gitignore 中列出的文件外,对内容 source_directory 进行哈希处理。

默认值: None
script_name
必需
str

[必需]相对于 . 的 U-SQL 脚本 source_directory的名称。

name
必需
str

步骤的名称。 如果未指定,则使用 script_name

inputs
必需

输入端口绑定列表

outputs
必需
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]

输出端口绑定的列表。

params
必需

名称值对的字典。

degree_of_parallelism
必需
int

用于此作业的并行度。 这必须大于 0。 如果设置为小于 0,则默认值为 1。

priority
必需
int

用于当前作业的优先级值。 较低的数字具有更高的优先级。 默认情况下,作业的优先级为 1000。 指定的值必须大于 0。

runtime_version
必需
str

Data Lake Analytics 引擎的运行时版本。

compute_target
必需

[必需]要用于此作业的 ADLA 计算。

source_directory
必需
str

包含脚本、程序集等的文件夹。

allow_reuse
必需

指示使用相同设置重新运行时,该步骤是否应重复使用以前的结果。 默认情况下启用重用。 如果步骤内容(脚本/依赖项)以及输入和参数保持不变,则重复使用此步骤上一次运行的输出。 重用步骤时,将立即向任何后续步骤提供上一次运行的结果,而不是将作业提交到计算。 如果使用 Azure 机器学习数据集作为输入,则重复使用取决于数据集的定义是否已更改,而不是由基础数据是否已更改决定。

version
必需
str

用于表示步骤功能更改的可选版本标记。

hash_paths
必需

已弃用:不再需要。

检查步骤内容更改时哈希的路径列表。 如果未检测到任何更改,管道将重复使用上一次运行中的步骤内容。 默认情况下,除 .amlignore 或 .gitignore 中列出的文件外,对内容 source_directory 进行哈希处理。

注解

可以在脚本中使用 @@name@@ 语法来引用输入、输出和参数。

  • 如果 名称 是输入或输出端口绑定的名称,则脚本中的任何 @@name@@ 都替换为相应端口绑定的实际数据路径。

  • 如果 名称参数 听写中的任何键匹配, 则@@name@@ 的任何匹配项都将替换为听写中的相应值。

AdlaStep 仅适用于 Data Lake Analytics 帐户的默认 Data Lake Storage 中存储的数据。 如果数据位于非默认存储中,则使用 a 将 DataTransferStep 数据复制到默认存储。 可以在 Azure 门户中打开 Data Lake Analytics 帐户,然后在左窗格中的“设置”下导航到“数据源”项来查找默认存储。

以下示例演示如何在 Azure 机器学习管道中使用 AdlaStep。


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

完整示例可从 https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

方法

create_node

从 AdlaStep 步骤创建节点并将其添加到指定的图形。

此方法不用于直接使用。 使用此步骤实例化管道时,Azure ML 会自动传递通过此方法所需的参数,以便可以将该步骤添加到表示工作流的管道图中。

create_node

从 AdlaStep 步骤创建节点并将其添加到指定的图形。

此方法不用于直接使用。 使用此步骤实例化管道时,Azure ML 会自动传递通过此方法所需的参数,以便可以将该步骤添加到表示工作流的管道图中。

create_node(graph, default_datastore, context)

参数

名称 说明
graph
必需

图形对象。

default_datastore
必需

默认数据存储。

context
必需
<xref:azureml.pipeline.core._GraphContext>

图形上下文。

返回

类型 说明

节点对象。