AdlaStep 类

创建 Azure ML Pipeline 步骤，以便使用 Azure Data Lake Analytics 运行 U-SQL 脚本。

有关使用此 AdlaStep 的示例，请参阅笔记本 https://aka.ms/pl-adla。

创建 Azure ML Pipeline 步骤，以使用 Azure Data Lake Analytics 运行 U-SQL 脚本。

构造函数

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

参数

名称	说明
script_name 必需	str [必需]相对于 . 的 U-SQL 脚本 `source_directory`的名称。
name	str 步骤的名称。如果未指定，则使用 `script_name`。默认值: None
inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] 输入端口绑定的列表。默认值: None
outputs	list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]] 输出端口绑定的列表。默认值: None
params	dict 名称值对的字典。默认值: None
degree_of_parallelism	int 用于此作业的并行度。这必须大于 0。如果设置为小于 0，则默认值为 1。默认值: None
priority	int 用于当前作业的优先级值。较低的数字具有更高的优先级。默认情况下，作业的优先级为 1000。指定的值必须大于 0。默认值: None
runtime_version	str Data Lake Analytics 引擎的运行时版本。默认值: None
compute_target	AdlaCompute, str [必需]要用于此作业的 ADLA 计算。默认值: None
source_directory	str 包含脚本、程序集等的文件夹。默认值: None
allow_reuse	bool 指示使用相同设置重新运行时，该步骤是否应重复使用以前的结果。默认情况下启用重用。如果步骤内容（脚本/依赖项）以及输入和参数保持不变，则重复使用此步骤上一次运行的输出。重用步骤时，将立即向任何后续步骤提供上一次运行的结果，而不是将作业提交到计算。如果使用 Azure 机器学习数据集作为输入，则重复使用取决于数据集的定义是否已更改，而不是由基础数据是否已更改决定。默认值: True
version	str 可选版本标记，表示步骤的功能更改。默认值: None
hash_paths	list 已弃用：不再需要。检查步骤内容更改时哈希的路径列表。如果未检测到任何更改，管道将重复使用上一次运行中的步骤内容。默认情况下，除 .amlignore 或 .gitignore 中列出的文件外，对内容 `source_directory` 进行哈希处理。默认值: None
script_name 必需	str [必需]相对于 . 的 U-SQL 脚本 `source_directory`的名称。
name 必需	str 步骤的名称。如果未指定，则使用 `script_name`。
inputs 必需	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] 输入端口绑定列表
outputs 必需	list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]] 输出端口绑定的列表。
params 必需	dict 名称值对的字典。
degree_of_parallelism 必需	int 用于此作业的并行度。这必须大于 0。如果设置为小于 0，则默认值为 1。
priority 必需	int 用于当前作业的优先级值。较低的数字具有更高的优先级。默认情况下，作业的优先级为 1000。指定的值必须大于 0。
runtime_version 必需	str Data Lake Analytics 引擎的运行时版本。
compute_target 必需	AdlaCompute, str [必需]要用于此作业的 ADLA 计算。
source_directory 必需	str 包含脚本、程序集等的文件夹。
allow_reuse 必需	bool 指示使用相同设置重新运行时，该步骤是否应重复使用以前的结果。默认情况下启用重用。如果步骤内容（脚本/依赖项）以及输入和参数保持不变，则重复使用此步骤上一次运行的输出。重用步骤时，将立即向任何后续步骤提供上一次运行的结果，而不是将作业提交到计算。如果使用 Azure 机器学习数据集作为输入，则重复使用取决于数据集的定义是否已更改，而不是由基础数据是否已更改决定。
version 必需	str 用于表示步骤功能更改的可选版本标记。
hash_paths 必需	list 已弃用：不再需要。检查步骤内容更改时哈希的路径列表。如果未检测到任何更改，管道将重复使用上一次运行中的步骤内容。默认情况下，除 .amlignore 或 .gitignore 中列出的文件外，对内容 `source_directory` 进行哈希处理。

注解

可以在脚本中使用 @@name@@ 语法来引用输入、输出和参数。

如果名称是输入或输出端口绑定的名称，则脚本中的任何 @@name@@ 都替换为相应端口绑定的实际数据路径。
如果名称与参数听写中的任何键匹配， 则@@name@@ 的任何匹配项都将替换为听写中的相应值。

AdlaStep 仅适用于 Data Lake Analytics 帐户的默认 Data Lake Storage 中存储的数据。如果数据位于非默认存储中，则使用 a 将 DataTransferStep 数据复制到默认存储。可以在 Azure 门户中打开 Data Lake Analytics 帐户，然后在左窗格中的“设置”下导航到“数据源”项来查找默认存储。

以下示例演示如何在 Azure 机器学习管道中使用 AdlaStep。


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

完整示例可从 https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

方法

create_node

从 AdlaStep 步骤创建节点并将其添加到指定的图形。

此方法不用于直接使用。使用此步骤实例化管道时，Azure ML 会自动传递通过此方法所需的参数，以便可以将该步骤添加到表示工作流的管道图中。

create_node

从 AdlaStep 步骤创建节点并将其添加到指定的图形。

此方法不用于直接使用。使用此步骤实例化管道时，Azure ML 会自动传递通过此方法所需的参数，以便可以将该步骤添加到表示工作流的管道图中。

create_node(graph, default_datastore, context)

参数

名称	说明
graph 必需	Graph 图形对象。
default_datastore 必需	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] 默认数据存储。
context 必需	<xref:azureml.pipeline.core._GraphContext> 图形上下文。

类型	说明
Node	节点对象。

通过

AdlaStep 类

构造函数

参数

注解

方法

create_node

参数

返回

反馈