FileDatasetFactory 类

包含为 Azure 机器学习创建文件数据集的方法。

A FileDataset 是从 from_files 此类中定义的方法创建的。

有关使用文件数据集的详细信息，请参阅笔记本 https://aka.ms/filedataset-samplenotebook。

构造函数

FileDatasetFactory()

方法

from_files	创建 FileDataset 来表示文件流。
upload_directory	从源目录创建数据集。

from_files

创建 FileDataset 来表示文件流。

static from_files(path, validate=True, partition_format=None, is_file=False)

参数

名称	说明
path 必需	Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]] 源文件的路径，可以是单个值或 URL 字符串列表（http[s]\|abfs[s]\|wasb[s]）、 DataPath 对象或相对路径的 Datastore 元组。请注意，路径列表不能同时包含 URL 和数据存储。
validate 必需	bool 指示是否验证是否可以从返回的数据集加载数据。默认为 True。验证要求可从当前计算访问数据源。
partition_format 必需	str 指定路径的分区格式。默认为 None。每个路径的分区信息将基于指定的格式提取到列中。设置部件“{column_name}”的格式将创建字符串列，“{column_name：yyyy/MM/dd/HH/mm/ss}”创建日期时间列，其中“yy”、“MM”、“dd”、“HH”、“mm”和“ss”用于提取日期时间类型的年、月、日、小时、分钟和秒。格式应从第一个分区键的位置开始，直到文件路径的末尾。例如，给定路径 “../Accounts/2019/01/01/data.jsonl'，其中分区按部门名称和时间划分， partition_format=“/{Department}/{PartitionDate：yyyy/MM/dd}/data.jsonl”创建一个字符串列“Department”，其值为“Accounts”，日期/时间列“PartitionDate”的值为“2019-01-01”。
is_file 必需	bool 指示所有输入路径是否指向文件。默认情况下，数据集引擎会尝试检查输入路径是否指向文件。当所有输入路径都是文件以加快数据集创建速度时，将此标志设置为 True。

类型	说明
FileDataset	FileDataset 对象。

注解

from_files 创建类的对象，该对象 FileDataset 定义从提供的路径加载文件流的作。

若要使 Azure 机器学习可以访问数据，指定的文件 path 必须位于 Blob、ADLS Gen1 和 ADLS Gen2 的公共 Web URL 或 URL 中 Datastore 或可访问。

如果用户的 AAD 令牌直接调用以下函数之一，则会在笔记本或本地 python 程序中使用：FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files Experiment.submit 提交的作业中将用于计算目标的标识以进行数据访问身份验证。了解详细信息：https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

从源目录创建数据集。

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

参数

名称	说明
src_dir 必需	str 要上传的本地目录。
target 必需	Union[DataPath, Datastore, tuple(Datastore, str)] 必需，文件将上传到的数据存储路径。
pattern 必需	str 可选，如果提供，将筛选与给定模式匹配的所有路径名称，类似于 Python glob 包，支持“*”、“？”和用 [] 表示的字符范围。
show_progress 必需	bool 可选，指示是否在控制台中显示上传的进度。默认值为 True。

类型	说明
FileDataset	已注册的数据集。

通过

FileDatasetFactory 类

构造函数

方法

from_files

参数

返回

注解

upload_directory

参数

返回

反馈