你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI Foundry 模型中的 Azure OpenAI 配额和限制

本文包含有关 Azure OpenAI 配额和限制的快速参考和详细说明。

配额与限制参考

以下部分提供适用于 Azure OpenAI 默认配额和限制的快速指南:

限制名称 限制值
每个 Azure 订阅每个区域的 Azure OpenAI 资源 30
默认 DALL-E 2 配额限制 2 个并发请求
默认 DALL-E 3 配额限制 2 个容量单位(每分钟 6 个请求)
默认 GPT-image-1 配额限制 2 个容量单位(每分钟 6 个请求)
默认 Sora 配额限制 每分钟 60 个请求
默认语音转文本音频 API 配额限制 每分钟 3 个请求
每个请求的最大提示令牌数 每个模型不同。 有关详细信息,请参阅 Azure OpenAI 模型
每个资源的最大标准部署数 32
最大微调模型部署 5
每个资源的训练作业总数 100
每个资源同时运行训练作业的最大数目 1
排队的最大训练作业数 20
每个资源的最大文件数(优调) 50
每个资源的所有文件的总大小(优调) 1GB
最大训练作业时间(如果超过,作业将失败) 720 小时
最大训练作业大小(训练文件中的标记数)×(时期数) 20 亿
每次上传的所有文件的最大大小(数据上的 Azure OpenAI) 16 MB
数组中具有 /embeddings 的最大输入数 2048
最大 /chat/completions 消息数 2048
最大 /chat/completions 函数数 128
最大 /chat completions 工具数 128
每个部署预配的吞吐量单位数上限 100,000
每个助手或线程的文件数上限 使用 API 或 Azure AI Foundry 门户时为 10,000。
助手和微调的最大文件大小 512 MB

通过 Azure AI Foundry 门户 200 MB
助手所有上传文件的最大允许大小 200 GB
助手令牌限制 令牌限制为 2,000,000
GPT-4o 和 GPT-4.1 每个请求的最大图像数(消息数组/对话历史记录中的图像数) 50
GPT-4 vision-preview 和 GPT-4 turbo-2024-04-09 默认最大代币数 16

增加 max_tokens 参数值以避免响应被截断。 GPT-4o 的最大令牌数默认是 4096。
API 请求中的最大自定义标头数1 10
消息字符限制 1048576
音频文件的消息大小 20 MB

1 当前 API 最多允许 10 个自定义标头(通过管道传递并返回)。 一些客户现在超过了此标头计数,从而导致 HTTP 431 错误。 除了减少标头量之外,此错误没有其他解决方案。 在未来的 API 版本中,我们将不再传递自定义标头。 我们不建议客户在未来的系统体系结构中依赖自定义标头。

注意

配额限制可能会更改。

批次限制

限制名称 限制值
每个资源的最大文件数 500
最大输入文件大小 200 MB
每个文件的最大请求数 100,000

批处理配额

该表展示了批次配额限制。 全局批处理的配额值以入队令牌表示。 提交用于批处理的文件时,会计算文件中存在的令牌数。 在批处理作业达到终端状态之前,这些令牌将计入总入队令牌限制。

全局批处理

型号 企业协议 默认 基于信用卡的每月订阅 MSDN 订阅 面向学生的 Azure 免费试用版
gpt-4o 5 B 200米 50米 90 K 非适用
gpt-4o-mini 15 B 1 B 50米 90 K 非适用
gpt-4-turbo 300米 80米 40 M 90 K 非适用
gpt-4 150 M 30 M 5百万 100 K 非适用
gpt-35-turbo 10 B 1 B 100 M 2百万 5万
o3-mini 15 B 1 B 50米 90 K 非适用

B = 十亿 | M = 百万 | K = 千

数据区域批处理

型号 企业协议 默认 基于信用卡的每月订阅 MSDN 订阅 面向学生的 Azure 免费试用版
gpt-4o 500米 30 M 30 M 90 K 非适用
gpt-4o-mini 1.5 B 100 M 50米 90 K 非适用
o3-mini 1.5 B 100 M 50米 90 K 非适用

GPT-4 速率限制

GPT-4.5 预览全球标准

型号 每分钟令牌的配额限制 (TPM) 每分钟请求数
gpt-4.5 企业层 200 K 200
gpt-4.5 默认 150 K 150

GPT-4.1 系列

型号 每分钟令牌的配额限制 (TPM) 每分钟请求数
gpt-4.1 (2025-04-14) 企业层 5百万 5公里
gpt-4.1 (2025-04-14) 默认 1百万 1 K
gpt-4.1-nano (2025-04-14) 企业层 5百万 5公里
gpt-4.1-nano (2025-04-14) 默认 1百万 1 K
gpt-4.1-mini (2025-04-14) 企业层 5百万 5公里
gpt-4.1-mini (2025-04-14) 默认 1百万 1 K

GPT-4 Turbo

gpt-4turbo-2024-04-09) 的速率限制层为某些客户类型设定了更高的限制。

型号 每分钟令牌的配额限制 (TPM) 每分钟请求数
gpt-4 (turbo-2024-04-09) 企业协议 2百万 12 K
gpt-4 (turbo-2024-04-09) 默认 450 K 2.7 K

模型路由器速率限制

型号 每分钟令牌的配额限制 (TPM) 每分钟请求数
model-router (2025-05-19) 企业层 10 M 10 K
model-router (2025-05-19) 默认 1百万 1 K

computer-use-preview 全球标准速率限制

型号 每分钟令牌的配额限制 (TPM) 每分钟请求数
computer-use-preview 企业层 30 M 300 K
computer-use-preview 默认 450 K 4.5 K

o 系列速率限制

重要

与较旧的聊天完成模型相比,o1 系列模型的配额的 RPM/TPM 比率的工作原理不同:

  • 较旧的聊天模型:1 个容量单位 = 6 RPM 和 1000 TPM。
  • o1 和 o1-preview:1 个容量单位 = 1 RPM 和 6,000 TPM。
  • o3 1 单位容量 = 每 1000 TPM 1 RPM
  • o4-mini 1 单位容量 = 每 1000 TPM 1 RPM
  • o3-mini:1 单位容量 = 每 10000 TPM 1 RPM。
  • o1-mini:1 单位容量 = 每 10000 TPM 1 RPM。

对于程序化模型部署来说,这一点尤其重要,因为 RPM/TPM 比率的这种更改可能导致配额分配不足的意外情况,特别是如果仍假设按照旧的聊天完成模型所采用的1:1000比率。

配额 /使用情况 API 存在一个已知问题,其中假定旧比率适用于新的 o1 系列模型。 API 返回了正确的基准容量数字,但未应用正确的比率来准确计算 TPM。

O-系列全球标准

型号 每分钟令牌的配额限制 (TPM) 每分钟请求数
o4-mini 企业协议 10 M 10 K
o3 企业协议 10 M 10 K
o3-mini 企业协议 50米 5公里
o1 & o1-preview 企业协议 30 M 5公里
o1-mini 企业协议 50米 5公里
o4-mini 默认 1百万 1 K
o3 默认 1百万 1 K
o3-mini 默认 5百万 500
o1 & o1-preview 默认 3百万 500
o1-mini 默认 5百万 500

o 系列数据区域标准

型号 每分钟令牌的配额限制 (TPM) 每分钟请求数
o3-mini 企业协议 20 M 2 K
o3-mini 默认 2百万 200
o1 企业协议 6 M 1 K
o1 默认 600 K 100

o1-preview 和 o1-mini 标准

型号 每分钟令牌的配额限制 (TPM) 每分钟请求数
o1-preview 企业协议 600 K 100
o1-mini 企业协议 1百万 100
o1-preview 默认 300 K 50
o1-mini 默认 500 K 50

gpt-4o 速率限制

gpt-4ogpt-4o-mini 提供对某些客户类型限制更高的速率限制层。

gpt-4o 全球标准

型号 每分钟令牌的配额限制 (TPM) 每分钟请求数
gpt-4o 企业协议 30 M 180 K
gpt-4o-mini 企业协议 50米 300 K
gpt-4o 默认 450 K 2.7 K
gpt-4o-mini 默认 2百万 12 K

M = 百万 | K = 千

gpt-4o 数据区域标准

型号 每分钟令牌的配额限制 (TPM) 每分钟请求数
gpt-4o 企业协议 10 M 60 K
gpt-4o-mini 企业协议 20 M 120 K
gpt-4o 默认 300 K 1.8 K
gpt-4o-mini 默认 1百万 6 K

M = 百万 | K = 千

gpt-4o 标准

型号 每分钟令牌的配额限制 (TPM) 每分钟请求数
gpt-4o 企业协议 1百万 6 K
gpt-4o-mini 企业协议 2百万 12 K
gpt-4o 默认 150 K 900
gpt-4o-mini 默认 450 K 2.7 K

M = 百万 | K = 千

gpt-4o 音频

每个 gpt-4o 音频模型部署的速率限制为 100 K TPM 和 1 K RPM。 在预览期间, Azure AI Foundry 门户 和 API 可能会不准确地显示不同的速率限制。 即使尝试设置不同的速率限制,实际速率限制为 100 K TPM 和 1 K RPM。

型号 每分钟令牌的配额限制 (TPM) 每分钟请求数
gpt-4o-audio-preview 默认 450 K 1 K
gpt-4o-realtime-preview 默认 800开氏度 1 K
gpt-4o-mini-audio-preview 默认 2百万 1 K
gpt-4o-mini-realtime-preview 默认 800开氏度 1 K

M = 百万 | K = 千

GPT-image-1 速率限制

GPT0-image-1 全球标准

型号 每分钟令牌的配额限制 (TPM) 每分钟请求数
gpt-image-1 企业协议 非适用 20
gpt-image-1 默认 非适用 6

使用级别

全球标准部署使用 Azure 的全球基础结构,将客户流量动态路由到可用性最好的数据中心,以满足客户的推理请求。 同样,数据区域标准部署允许你使用 Azure 全局基础结构将流量动态路由到Microsoft定义的数据区域中的数据中心,并为每个请求提供最佳可用性。 这样,对于流量低到中等级别的客户,这可实现更一致的延迟。 持续高使用量级别的客户可能会发现响应延迟的可变性更大。

使用限制决定了使用水平,超过该水平客户可能会看到响应延迟的可变性更高。 客户的使用情况按每个模型定义,是指给定租户在所有地区、所有订阅中的所有部署中消耗的令牌总数。

注意

使用层仅适用于标准、数据区域标准和全球标准部署类型。 使用层不适用于全局批处理和预配的吞吐量部署。

GPT-4o 全球标准、数据区域标准和标准

型号 每月使用情况层级
gpt-4o 120 亿个令牌
gpt-4o-mini 850 亿个令牌

GPT-4 标准

型号 每月使用情况层级
gpt-4 + gpt-4-32k(所有版本) 60 亿

其他套餐类型

如果 Azure 订阅链接到某些 产品/服务类型,则最大配额值低于上述表中指示的值。

每分钟令牌的配额限制 (TPM)
Azure for Students 1 K (所有模型)
异常 o-series 和 GPT-4.1 与 GPT 4.5 预览:0
MSDN GPT-4o-mini:200 K
GPT 3.5 涡轮增压系列:200 K
GPT-4 系列:50 K
computer-use-preview: 8 K
gpt-4o-realtime-preview:1 K
o-series:0
GPT 4.5 预览版:0
GPT-4.1:50 K
GPT-4.1-nano:200 K
Standard GPT-4o-mini:200 K
GPT 3.5 涡轮增压系列:200 K
GPT-4 系列:50 K
computer-use-preview:30 K
o-series:0
GPT 4.5 预览版:0
GPT-4.1:50 K
GPT-4.1-nano:200 K
Azure_MS-AZR-0111P
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
GPT-4o-mini:200 K
GPT 3.5 涡轮增压系列:200 K
GPT-4 系列:50 K
CSP Integration Sandbox* 所有模型:0
Lightweight trial
Free Trials
Azure Pass
所有模型:0

*这仅适用于少量旧版 CSP 沙盒订阅。 使用以下查询确定与订阅关联的内容 quotaId

若要确定与订阅关联的产品/服务类型,可以检查订阅的 quotaId。 如果你的 quotaId 未在此表中列出,你的订阅将符合默认配额。

API 参考

az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

输出

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}
配额分配/套餐类型 订阅配额 ID
企业 EnterpriseAgreement_2014-09-01
即用即付 PayAsYouGo_2014-09-01
MSDN MSDN_2014-09-01
CSP 集成沙盒 CSPDEVTEST_2018-05-01
面向学生的 Azure AzureForStudents_2018-01-01
免费试用版 FreeTrial_2014-09-01
Azure Pass AzurePass_2014-09-01
Azure_MS-AZR-0111P AzureInOpen_2014-09-01
Azure_MS-AZR-0150P LightweightTrial_2016-09-01
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
MPN_2014-09-01
Azure_MS-AZR-0023P
Azure_MS-AZR-0060P
Azure_MS-AZR-0148P
Azure_MS-AZR-0148G
MSDNDevTest_2014-09-01
默认 此表中未列出的任何配额编号

保持在速率限制范围内的一般最佳做法

若要最大程度地减少与速率上限相关的问题,可以遵循以下方法:

  • 在应用程序中实现重试逻辑
  • 避免工作负载的急剧变化。 逐步增大工作负载。
  • 测试不同负载增加模式。
  • 增加分配给部署的配额。 如有必要,从另一个部署中移动配额。

如何请求增加配额

可以通过配额增加请求表单提交配额增加请求。 由于需求较高,会接受配额增加请求,并按接收的顺序进行填充。 将优先考虑生成消耗现有配额分配的流量的客户。如果不满足此条件,你的请求可能会被拒绝。

对于其他速率限制,请提交服务请求

区域配额容量限制

可以在 Azure AI Foundry 门户中按订阅的区域查看配额可用性。

或者,若要按区域查看特定模型/版本的配额容量,可以查询订阅的 容量 API 。 提供 subscriptionIdmodel_namemodel_version,API 将返回该模型在所有区域的可用容量以及订阅的部署类型。

注意

目前,Azure AI Foundry 门户和容量 API 返回 已停用 且不再可用的模型的配额/容量信息。

API 参考

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

后续步骤

探索如何管理 Azure OpenAI 部署的配额。 详细了解为 Azure OpenAI 提供支持的基础模型