你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要
借助 Azure AI 内容理解分类器,可以检测和识别应用程序中处理的文档。 内容理解分类器可以对整个输入文件执行分类,或者识别输入文件中单个文档的多个文档或多个实例。
业务用例
分类器可以处理各种格式和模板的复杂文档:
- 发票:对来自多个供应商的发票进行分类,以根据需要使用不同的内容理解分析器处理每个类别。
- 税务文档:将多个税务文档分类为不同类型的税单,例如 1040、1099 等。
- 合同:现在可以对长期非结构化合同进行分类,以简化作,以了解不同类型的协议及其特定的法律影响。
内容理解分类器功能
内容理解分类器可以分析单文件或多文件文档,以确定输入文件是否可以分类为定义的类别。 以下是当前支持的情况:
- 包含一种文档类型的单个文件,例如贷款申请表单。
- 包含多种文档类型的单个文件。 例如,贷款申请包中包含了贷款申请表单、工资单和银行对帐单。
- 单个文件中包含了同一文档的多个实例。 例如,一组经过扫描的发票。
- 默认情况下,也有一个
$OTHER
类,我们用它来将页面分类为任何定义的类别似乎不适合的情况。
如何使用内容理解分类器
内容理解分类器不需要任何训练数据集。 定义最多 50 个类别名称和说明,并创建分类器。 默认情况下,整个文件被视为单个内容对象,这意味着文件/对象与单个类别相关联。
但是,如果文件中有多个文档,分类器可以使用拆分功能标识输入文件中包含的不同文档类型。 分类器响应包含识别到的包含在某个文件中的每种文档类型的页范围。 此响应可以包含同一文档类型的多个实例。
调用分类器时,analyze
操作包括一个splitMode
属性,该属性提供对拆分行为的精细控制。 还可以指定页码以仅分析输入文档的某些页面。
- 将整个输入文件视为单个文档,以便将分类设置为
splitMode
none
。 执行此作时,该服务只返回整个输入文件的一个类别。 - 若要对输入文件的每个页面进行分类,请
splitMode
将其设置为perPage
. 服务会尝试将每一页作为单个文档来进行分类。 - 将
splitMode
设置为auto
,服务将标识文档和关联的页面范围。
可选分析
对于完整的端到端流,可以将分类器类别与现有分析器链接。 对于使用链接分析器分类为类别的每个内容对象,该服务将使用相应的分析器自动调用对内容对象的分析。 例如,此链接可用于创建分类器,该分类器仅从 PDF 中识别和分析可能包含多种类型的表单的发票。
- 将
analyzerId
设置为现有分析器,以便从已分类的文档或页面路由和执行字段提取。
分类器限制
有关支持的输入文档格式和分类器限制的信息,请参阅我们的 服务配额和限制 页。
最佳做法
为了提高分类和拆分质量,必须提供良好的类别名称和说明,以便模型可以了解具有某些上下文的类别。 有关类别名称和说明的详细信息, 请参阅最佳做法。
主要优势
- 准确性和可靠性: 确保精确的文档分类、减少错误并提高效率。
- 可伸缩性:无缝横向扩展文档处理以满足业务需求。
- 定制: 调整文档分类器以适应特定的工作流。
支持的语言和区域
有关支持的语言和区域的详细列表,请访问我们的语言和区域支持页面。
数据隐私和安全性
使用内容理解的开发人员应查看 Microsoft 有关客户数据的策略。 有关详细信息,请访问我们的“数据、保护和隐私”页面。
后续步骤
- 尝试使用 Azure AI Foundry 中的内容理解处理文档内容。
- 学习分析文档内容分析器模板。