SharePoint 中的非结构化文档处理概述

注意

从 2025 年 3 月 1 日开始，非结构化文档处理的价格从每页 0.05 美元降至每页 0.005 美元。

注意

到 2025 年 6 月，如果设置了即用即付计费，则可以免费试用有限数量的非结构化文档处理和其他所选内容服务。有关信息和限制，请参阅试用即用即付服务。

使用非结构化文档处理模型 (教学方法) 自动对文件和提取信息进行分类。它最适用于非结构化文档，例如信函或合同。

注意

Microsoft尊重用于在 Syntex 中训练和处理模型的数据的隐私和所有权。 Microsoft使用或传输任何组织数据来训练 AI 模型、大语言模型或任何其他模型。数据安全地保留在组织的租户中。有关详细信息，请参阅 Microsoft数据保护和隐私。

非结构化模型简介

非结构化文档处理模型使用人工智能 (AI) 来分析和提取文档中的信息。这些模型依赖于基于短语或模式的可识别文本来确定文档的分类和要提取的数据。

注意

有关如何使用 Syntex 和方案示例的详细信息，请参阅开始推动采用Microsoft Syntex和方案以及Microsoft Syntex的用例。

在 SharePoint 内容中心中创建和管理非结构化文档处理模型。将模型应用于 SharePoint 文档库时，该模型与包含用于存储提取信息的列的内容类型相关联。可以创建新的内容类型，也可以使用 SharePoint 内容类型库中的现有内容类型。

注意

无法更新只读或密封内容类型，因此无法在模型中使用它们。

将分类器和提取器添加到非结构化文档处理模型，以执行以下作：

分类器用于识别上载到文档库的文档并对其进行分类。例如，一个分类器可通过“训练有素”来标识上载到库的所有合同续订文档。当你创建分类器时，合同续订内容类型由你定义。
提取器从这些文档提取信息。例如，对于文档库中标识的每个合同续订文档，将显示显示每个文档 的服务开始日期 和 客户端 的列。

使用示例文件来训练和测试分类器和提取器。这些文件可帮助模型了解标识和提取数据时要查找的内容。例如，使用组织提供的实际合同续订文档训练合同续订模型。还可以使用这些文件来验证模型的准确性。

发布模型后，请使用内容中心将其应用到你有权访问的任何 SharePoint 文档库。

有关选择此模型时要考虑的要求的信息，请参阅非结构化文档处理的要求和限制。