SKLearn 类

为 Scikit-learn 试验中的训练创建估算器。

荒废的。 将 ScriptRunConfig 对象与自己的已定义环境或 AzureML-Tutorial 特选环境一起使用。 有关使用 ScriptRunConfig 配置 SKLearn 试验运行的简介,请参阅 使用 Azure 机器学习大规模训练 scikit-learn 模型

此估算器仅支持单节点 CPU 训练。

支持的版本:0.20.3

初始化 Scikit-learn 估算器。

构造函数

SKLearn(source_directory, *, compute_target=None, vm_size=None, vm_priority=None, entry_script=None, script_params=None, use_docker=True, custom_docker_image=None, image_registry_details=None, user_managed=False, conda_packages=None, pip_packages=None, conda_dependencies_file_path=None, pip_requirements_file_path=None, conda_dependencies_file=None, pip_requirements_file=None, environment_variables=None, environment_definition=None, inputs=None, shm_size=None, resume_from=None, max_run_duration_seconds=None, framework_version=None, _enable_optimized_mode=False, _disable_validation=True, _show_lint_warnings=False, _show_package_warnings=False)

参数

名称 说明
source_directory
必需
str

包含试验配置文件的本地目录。

compute_target
必需

将进行训练的计算目标。 这可以是对象,也可以是字符串“local”。

vm_size
必需
str

将针对训练创建的计算目标的 VM 大小。

支持的值:任何 Azure VM 大小

vm_priority
必需
str

将为训练创建的计算目标的 VM 优先级。 如果未指定,则使用“专用”。

支持的值:“dedicated”和“lowpriority”。

这仅在输入中指定的时间 vm_size param 生效。

entry_script
必需
str

一个字符串,表示用于开始训练的文件的相对路径。

script_params
必需

要传递给在 entry_script中指定的训练脚本的命令行参数的字典。

custom_docker_image
必需
str

将从中生成要用于训练的映像的 Docker 映像的名称。 如果未设置,则默认基于 CPU 的映像将用作基础映像。

image_registry_details
必需

Docker 映像注册表的详细信息。

user_managed
必需

指定 Azure ML 是否重复使用现有的 Python 环境。 False 表示 AzureML 将基于 conda 依赖项规范创建 Python 环境。

conda_packages
必需

表示要添加到试验的 Python 环境的 conda 包的字符串列表。

pip_packages
必需

表示要添加到试验的 Python 环境的 pip 包的字符串列表。

conda_dependencies_file_path
必需
str

一个字符串,表示 conda 依赖项 yaml 文件的相对路径。 如果指定,Azure ML 将不会安装任何与框架相关的包。 这可以与 conda_packages 参数结合使用。 荒废的。 使用 conda_dependencies_file 参数。

pip_requirements_file_path
必需
str

一个字符串,表示 pip 要求文本文件的相对路径。 这可以与 pip_packages 参数结合使用。 荒废的。 使用 pip_requirements_file 参数。

conda_dependencies_file
必需
str

一个字符串,表示 conda 依赖项 yaml 文件的相对路径。 如果指定,Azure ML 将不会安装任何与框架相关的包。 这可以与 conda_packages 参数结合使用。

pip_requirements_file
必需
str

一个字符串,表示 pip 要求文本文件的相对路径。 这可以与 pip_packages 参数结合使用。

environment_variables
必需

环境变量名称和值的字典。 这些环境变量是在执行用户脚本的进程上设置的。

environment_definition
必需

试验的环境定义包括 PythonSection、DockerSection 和环境变量。 可以使用参数设置 environment_definition 未通过其他参数直接公开给估算器构造的任何环境选项。 如果指定此参数,它将优先于其他与环境相关的参数,例如use_gpucustom_docker_imageconda_packagespip_packages。 错误将报告无效组合。

inputs
必需

要用作输入的对象DataReferenceDatasetConsumptionConfig列表。

shm_size
必需
str

Docker 容器的共享内存块的大小。 如果未设置,则使用默认azureml.core.environment._DEFAULT_SHM_SIZE。

resume_from
必需

包含从中恢复试验的检查点或模型文件的数据路径。

max_run_duration_seconds
必需
int

运行允许的最大时间。 如果运行时间超过此值,Azure ML 将尝试自动取消运行。

framework_version
必需
str

用于执行训练代码的 Scikit-learn 版本。 SKLearn.get_supported_versions() 返回当前 SDK 支持的版本列表。

source_directory
必需
str

包含试验配置文件的本地目录。

compute_target
必需

将进行训练的计算目标。 这可以是对象,也可以是字符串“local”。

vm_size
必需
str

将针对训练创建的计算目标的 VM 大小。 支持的值:任何 Azure VM 大小

vm_priority
必需
str

将为训练创建的计算目标的 VM 优先级。 如果未指定,则使用“专用”。

支持的值:“dedicated”和“lowpriority”。

这仅在输入中指定的时间 vm_size param 生效。

entry_script
必需
str

一个字符串,表示用于开始训练的文件的相对路径。

script_params
必需

要传递给在 entry_script中指定的训练脚本的命令行参数的字典。

use_docker
必需

一个布尔值,该值指示运行试验的环境是否应基于 Docker。

custom_docker_image
必需
str

将从中生成要用于训练的映像的 Docker 映像的名称。 如果未设置,则默认基于 CPU 的映像将用作基础映像。

image_registry_details
必需

Docker 映像注册表的详细信息。

user_managed
必需

指定 Azure ML 是否重复使用现有的 Python 环境。 False 表示 AzureML 将基于 conda 依赖项规范创建 Python 环境。

conda_packages
必需

表示要添加到试验的 Python 环境的 conda 包的字符串列表。

pip_packages
必需

表示要添加到试验的 Python 环境的 pip 包的字符串列表。

conda_dependencies_file_path
必需
str

一个字符串,表示 conda 依赖项 yaml 文件的相对路径。 如果指定,Azure ML 将不会安装任何与框架相关的包。 这可以与 conda_packages 参数结合使用。 荒废的。 使用 conda_dependencies_file 参数。

pip_requirements_file_path
必需
str

一个字符串,表示 pip 要求文本文件的相对路径。 这可以与 pip_packages 参数结合使用。 荒废的。 使用 pip_requirements_file 参数。

conda_dependencies_file
必需
str

一个字符串,表示 conda 依赖项 yaml 文件的相对路径。 如果指定,Azure ML 将不会安装任何与框架相关的包。 这可以与 conda_packages 参数结合使用。

pip_requirements_file
必需
str

一个字符串,表示 pip 要求文本文件的相对路径。 这可以与 pip_packages 参数结合使用。

environment_variables
必需

环境变量名称和值的字典。 这些环境变量是在执行用户脚本的进程上设置的。

environment_definition
必需

试验的环境定义包括 PythonSection、DockerSection 和环境变量。 可以使用参数设置 environment_definition 未通过其他参数直接公开给估算器构造的任何环境选项。 如果指定此参数,它将优先于其他与环境相关的参数,例如use_gpucustom_docker_imageconda_packagespip_packages。 错误将报告无效组合。

inputs
必需

azureml.data.data_reference的列表。要用作输入的 DataReference 对象。

shm_size
必需
str

Docker 容器的共享内存块的大小。 如果未设置,则使用默认azureml.core.environment._DEFAULT_SHM_SIZE。

resume_from
必需

包含从中恢复试验的检查点或模型文件的数据路径。

max_run_duration_seconds
必需
int

运行允许的最大时间。 如果运行时间超过此值,Azure ML 将尝试自动取消运行。

framework_version
必需
str

用于执行训练代码的 Scikit-learn 版本。 SKLearn.get_supported_versions() 返回当前 SDK 支持的版本列表。

_enable_optimized_mode
必需

使用预生成的框架映像启用增量环境生成,以加快环境准备速度。 预建框架映像基于预安装的框架依赖项的 Azure ML 默认 CPU/GPU 基础映像构建。

_disable_validation
必需

在运行提交之前禁用脚本验证。 默认值为 True。

_show_lint_warnings
必需

显示脚本 linting 警告。 默认值为 False。

_show_package_warnings
必需

显示包验证警告。 默认值为 False。

注解

提交训练作业时,Azure ML 在 Docker 容器中的 conda 环境中运行脚本。 SKLearn 容器已安装以下依赖项。

依赖项 |Scikit-learn 0.20.3 |———————- |—————– |Python |3.6.2 |azureml-defaults |最新 |IntelMpi |2018.3.222 |scikit-learn |0.20.3 |numpy |1.16.2 |miniconda |4.5.11 |scipy |1.2.1 |joblib |0.13.2 |git |2.7.4 |

Docker 映像扩展 Ubuntu 16.04。

如果需要安装其他依赖项,可以使用pip_packagesconda_packages参数,也可以提供或pip_requirements_fileconda_dependencies_file文件。 或者,可以生成自己的映像并将参数传递给 custom_docker_image 估算器构造函数。

属性

DEFAULT_VERSION

DEFAULT_VERSION = '0.20.3'

FRAMEWORK_NAME

FRAMEWORK_NAME = 'SKLearn'