你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI Foundry 模型的部署类型

Azure AI Foundry 模型使用 Azure AI Foundry 服务(以前称为 Azure AI 服务)中的模型部署概念提供模型。 模型部署也是 Azure 资源,创建时,它们在特定配置下授予对给定模型的访问权限。 此类配置包括处理请求所需的基础结构。

Azure AI Foundry 模型为客户提供了适合其业务和使用模式的托管结构的选择。 这些选项将转换为 Azure AI Foundry 资源中模型部署时可用的不同部署类型(或 SKU)。 该服务提供两种主要类型的部署:标准和预配。 对于给定的部署类型,客户可以通过选择 Azure 地理区域(StandardProvisioned-Managed)、Microsoft 指定的数据区域(DataZone-StandardDataZone Provisioned-Managed)或全局(Global-StandardGlobal Provisioned-Managed)处理选项,使其工作负载与数据处理要求相匹配。

对于微调的模型,新增的 Developer 部署类型提供了一种经济高效的方式来进行自定义模型评估,但不提供数据驻留功能。

所有部署都可以执行完全相同的推理操作,但计费、规模和性能却大不相同。 作为解决方案设计的一部分,需要做出两个关键决策:

  • 数据处理位置
  • 调用量

Azure AI Foundry 部署数据处理位置

对于标准部署,有三种部署类型选项可供选择 - 全局、数据区域和 Azure 地理位置。 对于预配部署,有两种部署类型选项可供选择 - 全局和 Azure 地理位置。 建议以全球标准为起点。

全球部署利用 Azure 的全球基础结构,将客户流量动态路由到可用性最好的数据中心,以满足客户的推理请求。 这意味着,你将获得全局最高的初始吞吐量限制和最佳模型可用性,同时仍提供运行时间 SLA 和低延迟。 对于标准层和全局标准上指定使用层以上的大容量工作负荷,可能会遇到延迟差异增加的情况。 对于在大型工作负荷使用量上需要较小的延迟差异的客户,我们建议利用预配的部署类型。

我们的全球部署将是所有新模型和功能的首发地。 根据呼叫量,具有大量和低延迟差异要求的客户应考虑我们的预配部署类型。

数据区域部署利用 Azure 的全球基础结构,将客户流量动态路由到 Microsoft 定义的数据区域中可用性最好的数据中心,以满足客户的推理请求。 数据区域部署位于 Azure 地理位置和全局部署产品/服务之间,提供提升的配额限制,同时在 Microsoft 指定数据区域中保留数据处理。 静态存储的数据将继续保留在 Azure AI Foundry 资源的地理位置(例如,对于在瑞典中部 Azure 区域中创建的 AI Foundry 资源,Azure 地理为瑞典)。

如果数据区域部署中使用的 Azure AI Foundry 资源位于美国,则数据将在美国进行处理。 如果数据区域部署中使用的 Azure AI Foundry 资源位于欧盟成员国,则会在欧盟成员国家/地区内处理数据。 对于所有 Azure AI Foundry 部署类型,静态存储的任何数据将继续保留在 Azure AI Foundry 资源的地理位置中。 Azure 数据处理和合规性承诺仍然适用。

对于标记为“全局”的任何 部署类型 ,可以在部署相关 Azure AI Foundry 模型的任何地理位置(详细了解 模型的区域可用性)中处理提示和响应。 对于任何标记为“DataZone”的部署类型,可以在 Microsoft 定义的指定数据区域内的任何地理位置处理提示和响应。 如果在位于美国的 Azure AI Foundry 资源中创建 DataZone 部署,则可以在美国的任何位置处理提示和响应。 如果在位于欧盟成员国的 Azure AI Foundry 资源中创建 DataZone 部署,则可以在该或任何其他欧盟成员国中处理提示和响应。 不管是“全球”部署类型还是“DataZone”部署类型,任何静态存储的数据(例如上传的数据)都存储在客户指定的地理位置。 仅当客户在 Azure AI Foundry 资源中使用全局部署类型或 DataZone 部署类型时,处理位置才会受到影响;Azure 数据处理和合规性承诺仍然适用。

注释

如果主要区域的服务出现中断,最初路由到该区域的所有流量都会受到影响,这在使用全局标准和数据区域标准部署类型时尤其如此。 若要了解详细信息,请参阅 业务连续性和灾难恢复指南

全球标准

重要

静态存储的数据仍保留在指定的 Azure 地理位置中,而数据可能会被处理,以便在任何 Azure AI Foundry 位置进行推理。 详细了解数据驻留

代码中的 SKU 名称:GlobalStandard

全局部署与非全局部署类型位于同一 Azure AI Foundry 资源中,但允许你利用 Azure 的全球基础结构动态将流量路由到数据中心,并为每个请求提供最佳可用性。 全球标准提供最高的默认配额,且无需跨多个资源进行负载均衡。

具有稳定大流量的客户可能会遇到更大的延迟变化。 为每个模型设置阈值。 有关详细信息,请参阅“配额”页。 对于在大型工作负载使用中需要较小的延迟差异的应用程序,我们建议购买预配的吞吐量。

全局预配

重要

静态存储的数据仍保留在指定的 Azure 地理位置中,而数据可能会被处理,以便在任何 Azure AI Foundry 位置进行推理。 详细了解数据驻留

代码中的 SKU 名称:GlobalProvisionedManaged

全局部署与非全局部署类型位于同一 Azure AI Foundry 资源中,但允许你利用 Azure 的全球基础结构动态将流量路由到数据中心,并为每个请求提供最佳可用性。 全局预配部署使用 Azure 全局基础结构为高吞吐量和可预测的吞吐量提供预留模型处理容量。

全局批处理

重要

静态存储的数据仍保留在指定的 Azure 地理位置中,而数据可能会被处理,以便在任何 Azure AI Foundry 位置进行推理。 详细了解数据驻留

全局批处理的设计是为了高效处理大规模和大容量处理任务。 处理具有单独配额的异步请求组,目标周转时间为 24 小时,成本比全局标准低 50%。 使用批处理,你可以在单个文件中发送大量请求,而不是一次发送一个请求。 全局批处理请求具有单独的入队令牌配额,避免对你的在线工作负载造成任何中断。

代码中的 SKU 名称:GlobalBatch

关键用例包括:

  • 大规模数据处理:并行快速分析广泛的数据集。

  • 内容生成:创建大量文本,例如产品说明或文章。

  • 文档审查和总结:自动执行对长篇文档的审查和总结。

  • 客户支持自动化:同时处理大量查询,以提高响应速度。

  • 数据提取和分析:从大量非结构化数据中提取和分析信息。

  • 自然语言处理 (NLP) 任务:对大型数据集执行情绪分析或翻译等任务。

  • 营销和个性化:大规模生成个性化内容和建议。

数据区域标准

重要

静止存储的数据仍保留在指定的 Azure 地区,而数据可能会在 Microsoft 指定的数据区内的任何 Azure AI Foundry 位置进行推断处理。 详细了解数据驻留

代码中的 SKU 名称:DataZoneStandard

数据区域标准部署与所有其他 Azure AI Foundry 部署类型位于同一 Azure AI Foundry 资源中,但允许你利用 Azure 全局基础结构动态将流量路由到Microsoft定义的数据区域中的数据中心,并为每个请求提供最佳可用性。 数据区域标准提供的默认配额高于基于 Azure 地理的部署类型。

具有稳定大流量的客户可能会遇到更大的延迟变化。 为每个模型设置阈值。 有关详细信息,请参阅“配额和限制”页。 对于需要大量低延迟差异的工作负荷,我们建议利用预配的部署产品/服务。

数据区域预配

重要

处于静止状态的数据仍然保留在指定的 Azure 地理位置,而数据可能会在 Microsoft 指定的数据区域内的任何 Azure AI Foundry 位置被处理以进行推断。详细了解数据驻留

代码中的 SKU 名称:DataZoneProvisionedManaged

数据区域预配部署与所有其他 Azure AI Foundry 部署类型位于同一 Azure AI Foundry 资源中,但允许你利用 Azure 全局基础结构动态将流量路由到Microsoft指定数据区域中的数据中心,并为每个请求提供最佳可用性。 数据区域预配部署在 Microsoft 指定数据区域中使用 Azure 基础结构为高吞吐量和可预测的吞吐量提供预留模型处理容量。

数据区域批处理

重要

静止存储的数据仍保留在指定的 Azure 地区,而数据可能会在 Microsoft 指定的数据区内的任何 Azure AI Foundry 位置进行推断处理。 详细了解数据驻留

代码中的 SKU 名称:DataZoneBatch

数据区域批处理部署提供与全局批处理部署相同的所有功能,同时支持利用 Azure 全球基础结构,将流量仅动态路由到 Microsoft 定义的数据区域内的数据中心,从而为每个请求提供最佳可用性。

标准

代码中的 SKU 名称:Standard

标准部署针对所选模型提供按调用付费的计费模型。 提供最快速的入门方法,因为只需为使用的内容付费。 每个区域中可用的模型以及吞吐量可能很有限。

标准部署针对低到中等流量、高突发性的工作负荷进行优化。 具有稳定大流量的客户可能会遇到更大的延迟变化。

区域预配

代码中的 SKU 名称:ProvisionedManaged

使用区域预配部署可以指定部署中所需的吞吐量量。 然后该服务会分配必要的模型处理容量,并确保随时可用。 吞吐量是根据预配的吞吐量单位 (PTU) 定义的,是表示部署吞吐量的规范化方式。 每个模型版本对需要不同的 PTU 量来部署,并提供不同的每 PTU 吞吐量。 从我们的预配吞吐量概念文章中了解详细信息。

如何禁用对订阅中的全球部署的访问权限

Azure Policy 可帮助实施组织标准并大规模评估合规性。 Azure Policy 通过其合规性仪表板提供一个聚合视图来评估环境的整体状态,并允许用户按资源、按策略粒度向下钻取。 它还通过对现有资源的批量修正以及对新资源的自动修正,帮助资源符合规范。 详细了解 Azure Policy 和 AI 服务的特定内置控件

可以使用以下策略来禁用对任何 Azure AI Foundry 部署类型的访问。 要禁用对特定部署类型的访问,请将 GlobalStandard 替换为你要禁用访问的部署类型的 SKU 名称。

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

开发人员(针对微调的模型)

重要

静态存储的数据仍保留在指定的 Azure 地理位置中,而数据可能会被处理,以便在任何 Azure AI Foundry 位置进行推理。 详细了解数据驻留

代码中的 SKU 名称:Developer

微调的模型支持专为支持自定义模型评估而设计的开发人员部署。 它不提供数据驻留保证,也不提供 SLA。 若要详细了解如何使用开发人员部署类型,请参阅 微调指南

部署模型

显示 Azure AI Foundry 门户中的模型部署对话框的屏幕截图,其中突出显示了三种部署类型。

若要了解如何创建资源和部署模型,请参阅资源创建指南

另请参阅