你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
本文包含有关 Azure OpenAI 配额和限制的快速参考和详细说明。
配额与限制参考
以下部分提供适用于 Azure OpenAI 默认配额和限制的快速指南:
限制名称 | 限制值 |
---|---|
每个 Azure 订阅每个区域的 Azure OpenAI 资源 | 30 |
默认 DALL-E 2 配额限制 | 2 个并发请求 |
默认 DALL-E 3 配额限制 | 2 个容量单位(每分钟 6 个请求) |
默认 GPT-image-1 配额限制 | 2 个容量单位(每分钟 6 个请求) |
默认 Sora 配额限制 | 每分钟 60 个请求 |
默认语音转文本音频 API 配额限制 | 每分钟 3 个请求 |
每个请求的最大提示令牌数 | 每个模型不同。 有关详细信息,请参阅 Azure OpenAI 模型 |
每个资源的最大标准部署数 | 32 |
最大微调模型部署 | 5 |
每个资源的训练作业总数 | 100 |
每个资源同时运行训练作业的最大数目 | 1 |
排队的最大训练作业数 | 20 |
每个资源的最大文件数(优调) | 50 |
每个资源的所有文件的总大小(优调) | 1GB |
最大训练作业时间(如果超过,作业将失败) | 720 小时 |
最大训练作业大小(训练文件中的标记数)×(时期数) | 20 亿 |
每次上传的所有文件的最大大小(数据上的 Azure OpenAI) | 16 MB |
数组中具有 /embeddings 的最大输入数 |
2048 |
最大 /chat/completions 消息数 |
2048 |
最大 /chat/completions 函数数 |
128 |
最大 /chat completions 工具数 |
128 |
每个部署预配的吞吐量单位数上限 | 100,000 |
每个助手或线程的文件数上限 | 使用 API 或 Azure AI Foundry 门户时为 10,000。 |
助手和微调的最大文件大小 | 512 MB 通过 Azure AI Foundry 门户 200 MB |
助手所有上传文件的最大允许大小 | 200 GB |
助手令牌限制 | 令牌限制为 2,000,000 |
GPT-4o 和 GPT-4.1 每个请求的最大图像数(消息数组/对话历史记录中的图像数) | 50 |
GPT-4 vision-preview 和 GPT-4 turbo-2024-04-09 默认最大代币数 |
16 增加 max_tokens 参数值以避免响应被截断。 GPT-4o 的最大令牌数默认是 4096。 |
API 请求中的最大自定义标头数1 | 10 |
消息字符限制 | 1048576 |
音频文件的消息大小 | 20 MB |
1 当前 API 最多允许 10 个自定义标头(通过管道传递并返回)。 一些客户现在超过了此标头计数,从而导致 HTTP 431 错误。 除了减少标头量之外,此错误没有其他解决方案。 在未来的 API 版本中,我们将不再传递自定义标头。 我们不建议客户在未来的系统体系结构中依赖自定义标头。
注意
配额限制可能会更改。
批次限制
限制名称 | 限制值 |
---|---|
每个资源的最大文件数 | 500 |
最大输入文件大小 | 200 MB |
每个文件的最大请求数 | 100,000 |
批处理配额
该表展示了批次配额限制。 全局批处理的配额值以入队令牌表示。 提交用于批处理的文件时,会计算文件中存在的令牌数。 在批处理作业达到终端状态之前,这些令牌将计入总入队令牌限制。
全局批处理
型号 | 企业协议 | 默认 | 基于信用卡的每月订阅 | MSDN 订阅 | 面向学生的 Azure 免费试用版 |
---|---|---|---|---|---|
gpt-4o |
5 B | 200米 | 50米 | 90 K | 非适用 |
gpt-4o-mini |
15 B | 1 B | 50米 | 90 K | 非适用 |
gpt-4-turbo |
300米 | 80米 | 40 M | 90 K | 非适用 |
gpt-4 |
150 M | 30 M | 5百万 | 100 K | 非适用 |
gpt-35-turbo |
10 B | 1 B | 100 M | 2百万 | 5万 |
o3-mini |
15 B | 1 B | 50米 | 90 K | 非适用 |
B = 十亿 | M = 百万 | K = 千
数据区域批处理
型号 | 企业协议 | 默认 | 基于信用卡的每月订阅 | MSDN 订阅 | 面向学生的 Azure 免费试用版 |
---|---|---|---|---|---|
gpt-4o |
500米 | 30 M | 30 M | 90 K | 非适用 |
gpt-4o-mini |
1.5 B | 100 M | 50米 | 90 K | 非适用 |
o3-mini |
1.5 B | 100 M | 50米 | 90 K | 非适用 |
GPT-4 速率限制
GPT-4.5 预览全球标准
型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
---|---|---|---|
gpt-4.5 |
企业层 | 200 K | 200 |
gpt-4.5 |
默认 | 150 K | 150 |
GPT-4.1 系列
型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
---|---|---|---|
gpt-4.1 (2025-04-14) |
企业层 | 5百万 | 5公里 |
gpt-4.1 (2025-04-14) |
默认 | 1百万 | 1 K |
gpt-4.1-nano (2025-04-14) |
企业层 | 5百万 | 5公里 |
gpt-4.1-nano (2025-04-14) |
默认 | 1百万 | 1 K |
gpt-4.1-mini (2025-04-14) |
企业层 | 5百万 | 5公里 |
gpt-4.1-mini (2025-04-14) |
默认 | 1百万 | 1 K |
GPT-4 Turbo
gpt-4
(turbo-2024-04-09
) 的速率限制层为某些客户类型设定了更高的限制。
型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
---|---|---|---|
gpt-4 (turbo-2024-04-09) |
企业协议 | 2百万 | 12 K |
gpt-4 (turbo-2024-04-09) |
默认 | 450 K | 2.7 K |
模型路由器速率限制
型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
---|---|---|---|
model-router (2025-05-19) |
企业层 | 10 M | 10 K |
model-router (2025-05-19) |
默认 | 1百万 | 1 K |
computer-use-preview 全球标准速率限制
型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
---|---|---|---|
computer-use-preview |
企业层 | 30 M | 300 K |
computer-use-preview |
默认 | 450 K | 4.5 K |
o 系列速率限制
重要
与较旧的聊天完成模型相比,o1 系列模型的配额的 RPM/TPM 比率的工作原理不同:
- 较旧的聊天模型:1 个容量单位 = 6 RPM 和 1000 TPM。
- o1 和 o1-preview:1 个容量单位 = 1 RPM 和 6,000 TPM。
- o3 1 单位容量 = 每 1000 TPM 1 RPM
- o4-mini 1 单位容量 = 每 1000 TPM 1 RPM
- o3-mini:1 单位容量 = 每 10000 TPM 1 RPM。
- o1-mini:1 单位容量 = 每 10000 TPM 1 RPM。
对于程序化模型部署来说,这一点尤其重要,因为 RPM/TPM 比率的这种更改可能导致配额分配不足的意外情况,特别是如果仍假设按照旧的聊天完成模型所采用的1:1000比率。
配额 /使用情况 API 存在一个已知问题,其中假定旧比率适用于新的 o1 系列模型。 API 返回了正确的基准容量数字,但未应用正确的比率来准确计算 TPM。
O-系列全球标准
型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
---|---|---|---|
o4-mini |
企业协议 | 10 M | 10 K |
o3 |
企业协议 | 10 M | 10 K |
o3-mini |
企业协议 | 50米 | 5公里 |
o1 & o1-preview |
企业协议 | 30 M | 5公里 |
o1-mini |
企业协议 | 50米 | 5公里 |
o4-mini |
默认 | 1百万 | 1 K |
o3 |
默认 | 1百万 | 1 K |
o3-mini |
默认 | 5百万 | 500 |
o1 & o1-preview |
默认 | 3百万 | 500 |
o1-mini |
默认 | 5百万 | 500 |
o 系列数据区域标准
型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
---|---|---|---|
o3-mini |
企业协议 | 20 M | 2 K |
o3-mini |
默认 | 2百万 | 200 |
o1 |
企业协议 | 6 M | 1 K |
o1 |
默认 | 600 K | 100 |
o1-preview 和 o1-mini 标准
型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
---|---|---|---|
o1-preview |
企业协议 | 600 K | 100 |
o1-mini |
企业协议 | 1百万 | 100 |
o1-preview |
默认 | 300 K | 50 |
o1-mini |
默认 | 500 K | 50 |
gpt-4o 速率限制
gpt-4o
和 gpt-4o-mini
提供对某些客户类型限制更高的速率限制层。
gpt-4o 全球标准
型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
---|---|---|---|
gpt-4o |
企业协议 | 30 M | 180 K |
gpt-4o-mini |
企业协议 | 50米 | 300 K |
gpt-4o |
默认 | 450 K | 2.7 K |
gpt-4o-mini |
默认 | 2百万 | 12 K |
M = 百万 | K = 千
gpt-4o 数据区域标准
型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
---|---|---|---|
gpt-4o |
企业协议 | 10 M | 60 K |
gpt-4o-mini |
企业协议 | 20 M | 120 K |
gpt-4o |
默认 | 300 K | 1.8 K |
gpt-4o-mini |
默认 | 1百万 | 6 K |
M = 百万 | K = 千
gpt-4o 标准
型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
---|---|---|---|
gpt-4o |
企业协议 | 1百万 | 6 K |
gpt-4o-mini |
企业协议 | 2百万 | 12 K |
gpt-4o |
默认 | 150 K | 900 |
gpt-4o-mini |
默认 | 450 K | 2.7 K |
M = 百万 | K = 千
gpt-4o 音频
每个 gpt-4o
音频模型部署的速率限制为 100 K TPM 和 1 K RPM。 在预览期间, Azure AI Foundry 门户 和 API 可能会不准确地显示不同的速率限制。 即使尝试设置不同的速率限制,实际速率限制为 100 K TPM 和 1 K RPM。
型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
---|---|---|---|
gpt-4o-audio-preview |
默认 | 450 K | 1 K |
gpt-4o-realtime-preview |
默认 | 800开氏度 | 1 K |
gpt-4o-mini-audio-preview |
默认 | 2百万 | 1 K |
gpt-4o-mini-realtime-preview |
默认 | 800开氏度 | 1 K |
M = 百万 | K = 千
GPT-image-1 速率限制
GPT0-image-1 全球标准
型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
---|---|---|---|
gpt-image-1 |
企业协议 | 非适用 | 20 |
gpt-image-1 |
默认 | 非适用 | 6 |
使用级别
全球标准部署使用 Azure 的全球基础结构,将客户流量动态路由到可用性最好的数据中心,以满足客户的推理请求。 同样,数据区域标准部署允许你使用 Azure 全局基础结构将流量动态路由到Microsoft定义的数据区域中的数据中心,并为每个请求提供最佳可用性。 这样,对于流量低到中等级别的客户,这可实现更一致的延迟。 持续高使用量级别的客户可能会发现响应延迟的可变性更大。
使用限制决定了使用水平,超过该水平客户可能会看到响应延迟的可变性更高。 客户的使用情况按每个模型定义,是指给定租户在所有地区、所有订阅中的所有部署中消耗的令牌总数。
注意
使用层仅适用于标准、数据区域标准和全球标准部署类型。 使用层不适用于全局批处理和预配的吞吐量部署。
GPT-4o 全球标准、数据区域标准和标准
型号 | 每月使用情况层级 |
---|---|
gpt-4o |
120 亿个令牌 |
gpt-4o-mini |
850 亿个令牌 |
GPT-4 标准
型号 | 每月使用情况层级 |
---|---|
gpt-4 + gpt-4-32k (所有版本) |
60 亿 |
其他套餐类型
如果 Azure 订阅链接到某些 产品/服务类型,则最大配额值低于上述表中指示的值。
层 | 每分钟令牌的配额限制 (TPM) |
---|---|
Azure for Students |
1 K (所有模型) 异常 o-series 和 GPT-4.1 与 GPT 4.5 预览:0 |
MSDN |
GPT-4o-mini:200 K GPT 3.5 涡轮增压系列:200 K GPT-4 系列:50 K computer-use-preview: 8 K gpt-4o-realtime-preview:1 K o-series:0 GPT 4.5 预览版:0 GPT-4.1:50 K GPT-4.1-nano:200 K |
Standard |
GPT-4o-mini:200 K GPT 3.5 涡轮增压系列:200 K GPT-4 系列:50 K computer-use-preview:30 K o-series:0 GPT 4.5 预览版:0 GPT-4.1:50 K GPT-4.1-nano:200 K |
Azure_MS-AZR-0111P Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
GPT-4o-mini:200 K GPT 3.5 涡轮增压系列:200 K GPT-4 系列:50 K |
CSP Integration Sandbox * |
所有模型:0 |
Lightweight trial Free Trials Azure Pass |
所有模型:0 |
*这仅适用于少量旧版 CSP 沙盒订阅。 使用以下查询确定与订阅关联的内容 quotaId
。
若要确定与订阅关联的产品/服务类型,可以检查订阅的 quotaId
。 如果你的 quotaId
未在此表中列出,你的订阅将符合默认配额。
az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
-H "Authorization: Bearer $access_token" \
-H "Content-Type: application/json"
输出
{
"authorizationSource": "Legacy",
"displayName": "Pay-As-You-Go",
"id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"state": "Enabled",
"subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"subscriptionPolicies": {
"locationPlacementId": "Public_2014-09-01",
"quotaId": "PayAsYouGo_2014-09-01",
"spendingLimit": "Off"
}
}
配额分配/套餐类型 | 订阅配额 ID |
---|---|
企业 | EnterpriseAgreement_2014-09-01 |
即用即付 | PayAsYouGo_2014-09-01 |
MSDN | MSDN_2014-09-01 |
CSP 集成沙盒 | CSPDEVTEST_2018-05-01 |
面向学生的 Azure | AzureForStudents_2018-01-01 |
免费试用版 | FreeTrial_2014-09-01 |
Azure Pass | AzurePass_2014-09-01 |
Azure_MS-AZR-0111P | AzureInOpen_2014-09-01 |
Azure_MS-AZR-0150P | LightweightTrial_2016-09-01 |
Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
MPN_2014-09-01 |
Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G |
MSDNDevTest_2014-09-01 |
默认 | 此表中未列出的任何配额编号 |
保持在速率限制范围内的一般最佳做法
若要最大程度地减少与速率上限相关的问题,可以遵循以下方法:
- 在应用程序中实现重试逻辑
- 避免工作负载的急剧变化。 逐步增大工作负载。
- 测试不同负载增加模式。
- 增加分配给部署的配额。 如有必要,从另一个部署中移动配额。
如何请求增加配额
可以通过配额增加请求表单提交配额增加请求。 由于需求较高,会接受配额增加请求,并按接收的顺序进行填充。 将优先考虑生成消耗现有配额分配的流量的客户。如果不满足此条件,你的请求可能会被拒绝。
对于其他速率限制,请提交服务请求。
区域配额容量限制
可以在 Azure AI Foundry 门户中按订阅的区域查看配额可用性。
或者,若要按区域查看特定模型/版本的配额容量,可以查询订阅的 容量 API 。 提供 subscriptionId
、model_name
和 model_version
,API 将返回该模型在所有区域的可用容量以及订阅的部署类型。
注意
目前,Azure AI Foundry 门户和容量 API 返回 已停用 且不再可用的模型的配额/容量信息。
import requests
import json
from azure.identity import DefaultAzureCredential
subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o" # Example value, replace with model name
model_version = "2024-08-06" # Example value, replace with model version
token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}
url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
"api-version": "2024-06-01-preview",
"modelFormat": "OpenAI",
"modelName": model_name,
"modelVersion": model_version
}
response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()
print(json.dumps(model_capacity, indent=2))
后续步骤
探索如何管理 Azure OpenAI 部署的配额。 详细了解为 Azure OpenAI 提供支持的基础模型。