你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

文档智能工作室自定义项目

此内容适用于: v4.0 (GA)checkmark以前的版本: | blue-checkmarkv3.0 (GA)blue-checkmark

文档智能工作室是一种联机工具,用于在应用程序中通过文档智能服务直观地浏览、了解和集成功能。 本快速入门旨在指导你在文档智能工作室中设置自定义项目。

适用于新用户的先决条件

有关订阅、资源和身份验证设置的详细信息, 请参阅Document Intelligence Studio 入门

适用于自定义项目的其他先决条件

除了 Azure 帐户和文档智能或 Azure AI Foundry 资源外,还需要:

Azure Blob 存储容器

标准性能 Azure Blob 存储帐户。 你将创建容器用于存储和组织存储帐户中的训练文档。 如果不知道如何使用容器创建 Azure 存储帐户,请按照以下快速入门中的说明操作:

  • 创建存储帐户。 创建存储帐户时,请确保在“实例详细信息”→“性能”字段中选择“标准”性能 。
  • 创建容器。 创建容器时,在“新建容器”窗口中将“公共访问级别”字段设置为“容器”(对容器和 Blob 进行匿名读取访问) 。

Azure 角色分配

对于自定义项目,不同方案需要以下角色分配。

  • 基本

    • 认知服务用户:需要在文档智能或 Azure AI Foundry资源中具有此角色,来训练自定义模型或使用训练的模型进行分析。
    • 存储 Blob 数据参与者:需要在存储帐户中具有此角色,来创建项目和标记数据。
  • 高级

    • 存储帐户参与者:存储帐户需要此角色才能设置 CORS 设置(如果重复使用同一存储帐户,此操作是一次性的工作量)。
    • 参与者:需要此角色来创建资源组和资源。

    注意

    如果为文档智能服务资源和存储帐户禁用了本地(基于密钥)身份验证,请务必分别获取“认知服务用户”和“存储 Blob 数据参与者”角色,以便拥有足够的权限来使用文档智能工作室存储帐户参与者参与者角色仅允许列出密钥,但不允许在禁用密钥访问时使用资源。

配置 CORS

需要在 Azure 存储帐户上配置 CORS(跨源资源共享),以便可以从文档智能工作室进行访问。 若要在 Azure 门户中配置 CORS,需要访问存储帐户的 CORS 选项卡。

  1. 选择存储帐户的 CORS 选项卡。

    Azure 门户中 CORS 设置菜单的屏幕截图。

  2. 首先,在 Blob 服务中创建一个新的 CORS 条目。

  3. 将“允许的源”设置为“”。

    显示存储帐户的 CORS 配置的屏幕截图。

    提示

    可以使用通配符“*”(而不是指定域)允许所有源域通过 CORS 发出请求。

  4. 为“允许的方法”选择所有可用的 8 个选项。

  5. 通过在每个字段中输入 * 来批准所有“允许的标头”和“公开的标头” 。

  6. 将“最长时间”设置为 120 秒或任何可接受的值。

  7. 若要保存更改,选择页面顶部的“保存”按钮。

现在,CORS 应已配置为使用文档智能工作室中的存储帐户。

示例文档集

  1. 登录到 Azure 门户,然后导航到“存储帐户”“数据存储”>“容器”。

    Azure 门户中的数据存储菜单的屏幕截图。

  2. 从列表中选择一个容器。

  3. 从页面顶部的菜单中选择“上传”。

    Azure 门户中的容器上传按钮的屏幕截图。

  4. 此时会显示“上传 Blob”窗口。

  5. 选择要上传的文件。

    Azure 门户中的上传 Blob 窗口的屏幕截图。

注意

默认情况下,Studio 使用位于容器根目录的文档。 但是,可以通过在自定义表单项目创建步骤中指定文件夹路径,来使用在文件夹中组织的数据。 请参阅在子文件夹中整理数据

使用文档智能工作室功能

使用预构建模型或你自己的模型自动标记文档

  • 在自定义提取模型标记页面,现在可以使用文档智能服务预构建的模型或训练好的模型自动标记文档。

    动态屏幕截图显示工作室中的自动标记功能。

  • 某些文档在运行自动标记后可能会出现重复的标签。 请确保修改标签,以便标记页面之后不存在重复的标签。

    屏幕截图显示自动标记后的重复标签警告。

自动标记表

  • 在自定义提取模型标记页面,现在无需手动标记表即可自动标记文档中的表。

    动态屏幕截图显示工作室中的自动标记表的功能。

将测试文件直接添加到训练数据集

  • 训练好自定义提取模型后,如果需要,可将测试文档上传到训练数据集,以利用测试页面来提高模型质量。

  • 如果某些标签返回的置信度分数较低,则请确保正确地标记它们。 如果存在标记错误,请将其添加到训练数据集并重新标记以提高模型质量。

    动态屏幕截图显示了如何将测试文件添加到训练数据集。

在自定义项目中充分利用文档列表选项和筛选器

  • 使用自定义提取模型标记页面,通过利用搜索、筛选和按功能排序轻松浏览训练文档。

  • 利用网格视图预览文档或使用列表视图更轻松地在文档间滚动浏览。

    文档列表视图选项和筛选器的屏幕截图。

项目共享

轻松共享自定义提取项目。 有关详细信息,请参阅使用自定义模型进行项目共享

后续步骤

  • 请遵循文档智能 v3.1 迁移指南,了解与 REST API 先前版本的区别。
  • 请浏览 v4.0 SDK 快速入门,以使用新的客户端库在应用程序中试用 v3.0 功能
  • 请参阅 v4.0 REST API 快速入门,以使用新的 REST API 试用 v3.0 功能

文档智能工作室入门