你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Azure AI Foundry 模型中的 Azure OpenAI 配额和限制

2025-05-29

本文包含有关 Azure OpenAI 配额和限制的快速参考和详细说明。

配额与限制参考

以下部分提供适用于 Azure OpenAI 默认配额和限制的快速指南：

限制名称	限制值
每个 Azure 订阅每个区域的 Azure OpenAI 资源	30
默认 DALL-E 2 配额限制	2 个并发请求
默认 DALL-E 3 配额限制	2 个容量单位（每分钟 6 个请求）
默认 GPT-image-1 配额限制	2 个容量单位（每分钟 6 个请求）
默认 Sora 配额限制	每分钟 60 个请求
默认语音转文本音频 API 配额限制	每分钟 3 个请求
每个请求的最大提示令牌数	每个模型不同。有关详细信息，请参阅 Azure OpenAI 模型
每个资源的最大标准部署数	32
最大微调模型部署	5
每个资源的训练作业总数	100
每个资源同时运行训练作业的最大数目	1
排队的最大训练作业数	20
每个资源的最大文件数（优调）	50
每个资源的所有文件的总大小（优调）	1GB
最大训练作业时间（如果超过，作业将失败）	720 小时
最大训练作业大小（训练文件中的标记数）×（时期数）	20 亿
每次上传的所有文件的最大大小（数据上的 Azure OpenAI）	16 MB
数组中具有 `/embeddings` 的最大输入数	2048
最大 `/chat/completions` 消息数	2048
最大 `/chat/completions` 函数数	128
最大 `/chat completions` 工具数	128
每个部署预配的吞吐量单位数上限	100,000
每个助手或线程的文件数上限	使用 API 或 Azure AI Foundry 门户时为 10,000。
助手和微调的最大文件大小	512 MB 通过 Azure AI Foundry 门户 200 MB
助手所有上传文件的最大允许大小	200 GB
助手令牌限制	令牌限制为 2,000,000
GPT-4o 和 GPT-4.1 每个请求的最大图像数（消息数组/对话历史记录中的图像数）	50
GPT-4 `vision-preview` 和 GPT-4 `turbo-2024-04-09` 默认最大代币数	16 增加 `max_tokens` 参数值以避免响应被截断。 GPT-4o 的最大令牌数默认是 4096。
API 请求中的最大自定义标头数¹	10
消息字符限制	1048576
音频文件的消息大小	20 MB

¹ 当前 API 最多允许 10 个自定义标头（通过管道传递并返回）。一些客户现在超过了此标头计数，从而导致 HTTP 431 错误。除了减少标头量之外，此错误没有其他解决方案。 在未来的 API 版本中，我们将不再传递自定义标头。我们不建议客户在未来的系统体系结构中依赖自定义标头。

注意

配额限制可能会更改。

批次限制

限制名称	限制值
每个资源的最大文件数	500
最大输入文件大小	200 MB
每个文件的最大请求数	100,000

批处理配额

该表展示了批次配额限制。全局批处理的配额值以入队令牌表示。提交用于批处理的文件时，会计算文件中存在的令牌数。在批处理作业达到终端状态之前，这些令牌将计入总入队令牌限制。

全局批处理

型号	企业协议	默认	基于信用卡的每月订阅	MSDN 订阅	面向学生的 Azure 免费试用版
`gpt-4o`	5 B	200米	50米	90 K	非适用
`gpt-4o-mini`	15 B	1 B	50米	90 K	非适用
`gpt-4-turbo`	300米	80米	40 M	90 K	非适用
`gpt-4`	150 M	30 M	5百万	100 K	非适用
`gpt-35-turbo`	10 B	1 B	100 M	2百万	5万
`o3-mini`	15 B	1 B	50米	90 K	非适用

B = 十亿 | M = 百万 | K = 千

数据区域批处理

型号	企业协议	默认	基于信用卡的每月订阅	MSDN 订阅	面向学生的 Azure 免费试用版
`gpt-4o`	500米	30 M	30 M	90 K	非适用
`gpt-4o-mini`	1.5 B	100 M	50米	90 K	非适用
`o3-mini`	1.5 B	100 M	50米	90 K	非适用

GPT-4 速率限制

GPT-4.5 预览全球标准

型号	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`gpt-4.5`	企业层	200 K	200
`gpt-4.5`	默认	150 K	150

GPT-4.1 系列

型号	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`gpt-4.1` (2025-04-14)	企业层	5百万	5公里
`gpt-4.1` (2025-04-14)	默认	1百万	1 K
`gpt-4.1-nano` (2025-04-14)	企业层	5百万	5公里
`gpt-4.1-nano` (2025-04-14)	默认	1百万	1 K
`gpt-4.1-mini` (2025-04-14)	企业层	5百万	5公里
`gpt-4.1-mini` (2025-04-14)	默认	1百万	1 K

GPT-4 Turbo

gpt-4 （turbo-2024-04-09）的速率限制层为某些客户类型设定了更高的限制。

型号	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`gpt-4` （turbo-2024-04-09）	企业协议	2百万	12 K
`gpt-4` （turbo-2024-04-09）	默认	450 K	2.7 K

模型路由器速率限制

型号	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`model-router` (2025-05-19)	企业层	10 M	10 K
`model-router` (2025-05-19)	默认	1百万	1 K

computer-use-preview 全球标准速率限制

型号	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`computer-use-preview`	企业层	30 M	300 K
`computer-use-preview`	默认	450 K	4.5 K

o 系列速率限制

重要

与较旧的聊天完成模型相比，o1 系列模型的配额的 RPM/TPM 比率的工作原理不同：

较旧的聊天模型：1 个容量单位 = 6 RPM 和 1000 TPM。
o1 和 o1-preview：1 个容量单位 = 1 RPM 和 6,000 TPM。
o3 1 单位容量 = 每 1000 TPM 1 RPM
o4-mini 1 单位容量 = 每 1000 TPM 1 RPM
o3-mini：1 单位容量 = 每 10000 TPM 1 RPM。
o1-mini：1 单位容量 = 每 10000 TPM 1 RPM。

对于程序化模型部署来说，这一点尤其重要，因为 RPM/TPM 比率的这种更改可能导致配额分配不足的意外情况，特别是如果仍假设按照旧的聊天完成模型所采用的1:1000比率。

配额 /使用情况 API 存在一个已知问题，其中假定旧比率适用于新的 o1 系列模型。 API 返回了正确的基准容量数字，但未应用正确的比率来准确计算 TPM。

O-系列全球标准

型号	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`o4-mini`	企业协议	10 M	10 K
`o3`	企业协议	10 M	10 K
`o3-mini`	企业协议	50米	5公里
`o1` & `o1-preview`	企业协议	30 M	5公里
`o1-mini`	企业协议	50米	5公里
`o4-mini`	默认	1百万	1 K
`o3`	默认	1百万	1 K
`o3-mini`	默认	5百万	500
`o1` & `o1-preview`	默认	3百万	500
`o1-mini`	默认	5百万	500

o 系列数据区域标准

型号	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`o3-mini`	企业协议	20 M	2 K
`o3-mini`	默认	2百万	200
`o1`	企业协议	6 M	1 K
`o1`	默认	600 K	100

o1-preview 和 o1-mini 标准

型号	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`o1-preview`	企业协议	600 K	100
`o1-mini`	企业协议	1百万	100
`o1-preview`	默认	300 K	50
`o1-mini`	默认	500 K	50

gpt-4o 速率限制

gpt-4o 和 gpt-4o-mini 提供对某些客户类型限制更高的速率限制层。

gpt-4o 全球标准

型号	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`gpt-4o`	企业协议	30 M	180 K
`gpt-4o-mini`	企业协议	50米	300 K
`gpt-4o`	默认	450 K	2.7 K
`gpt-4o-mini`	默认	2百万	12 K

M = 百万 | K = 千

gpt-4o 数据区域标准

型号	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`gpt-4o`	企业协议	10 M	60 K
`gpt-4o-mini`	企业协议	20 M	120 K
`gpt-4o`	默认	300 K	1.8 K
`gpt-4o-mini`	默认	1百万	6 K

M = 百万 | K = 千

gpt-4o 标准

型号	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`gpt-4o`	企业协议	1百万	6 K
`gpt-4o-mini`	企业协议	2百万	12 K
`gpt-4o`	默认	150 K	900
`gpt-4o-mini`	默认	450 K	2.7 K

M = 百万 | K = 千

gpt-4o 音频

每个 gpt-4o 音频模型部署的速率限制为 100 K TPM 和 1 K RPM。在预览期间， Azure AI Foundry 门户和 API 可能会不准确地显示不同的速率限制。即使尝试设置不同的速率限制，实际速率限制为 100 K TPM 和 1 K RPM。

型号	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`gpt-4o-audio-preview`	默认	450 K	1 K
`gpt-4o-realtime-preview`	默认	800开氏度	1 K
`gpt-4o-mini-audio-preview`	默认	2百万	1 K
`gpt-4o-mini-realtime-preview`	默认	800开氏度	1 K

M = 百万 | K = 千

GPT-image-1 速率限制

GPT0-image-1 全球标准

型号	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`gpt-image-1`	企业协议	非适用	20
`gpt-image-1`	默认	非适用	6

使用级别

全球标准部署使用 Azure 的全球基础结构，将客户流量动态路由到可用性最好的数据中心，以满足客户的推理请求。同样，数据区域标准部署允许你使用 Azure 全局基础结构将流量动态路由到Microsoft定义的数据区域中的数据中心，并为每个请求提供最佳可用性。这样，对于流量低到中等级别的客户，这可实现更一致的延迟。持续高使用量级别的客户可能会发现响应延迟的可变性更大。

使用限制决定了使用水平，超过该水平客户可能会看到响应延迟的可变性更高。客户的使用情况按每个模型定义，是指给定租户在所有地区、所有订阅中的所有部署中消耗的令牌总数。

注意

使用层仅适用于标准、数据区域标准和全球标准部署类型。使用层不适用于全局批处理和预配的吞吐量部署。

GPT-4o 全球标准、数据区域标准和标准

型号	每月使用情况层级
`gpt-4o`	120 亿个令牌
`gpt-4o-mini`	850 亿个令牌

GPT-4 标准

型号	每月使用情况层级
`gpt-4` + `gpt-4-32k`（所有版本）	60 亿

其他套餐类型

如果 Azure 订阅链接到某些产品/服务类型，则最大配额值低于上述表中指示的值。

层	每分钟令牌的配额限制 (TPM)
`Azure for Students`	1 K （所有模型）异常 o-series 和 GPT-4.1 与 GPT 4.5 预览：0
`MSDN`	GPT-4o-mini：200 K GPT 3.5 涡轮增压系列：200 K GPT-4 系列：50 K computer-use-preview: 8 K gpt-4o-realtime-preview：1 K o-series：0 GPT 4.5 预览版：0 GPT-4.1：50 K GPT-4.1-nano：200 K
`Standard`	GPT-4o-mini：200 K GPT 3.5 涡轮增压系列：200 K GPT-4 系列：50 K computer-use-preview：30 K o-series：0 GPT 4.5 预览版：0 GPT-4.1：50 K GPT-4.1-nano：200 K
`Azure_MS-AZR-0111P` `Azure_MS-AZR-0035P` `Azure_MS-AZR-0025P` `Azure_MS-AZR-0052P`	GPT-4o-mini：200 K GPT 3.5 涡轮增压系列：200 K GPT-4 系列：50 K
`CSP Integration Sandbox`^*	所有模型：0
`Lightweight trial` `Free Trials` `Azure Pass`	所有模型：0

^*这仅适用于少量旧版 CSP 沙盒订阅。使用以下查询确定与订阅关联的内容 quotaId。

若要确定与订阅关联的产品/服务类型，可以检查订阅的 quotaId。如果你的 quotaId 未在此表中列出，你的订阅将符合默认配额。

休息
CLI

API 参考

az login
access_token=$(az account get-access-token --query accessToken -o tsv)

curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

az rest --method GET --uri "https://management.azure.com/subscriptions/{sub-id}?api-version=2020-01-01"

输出

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}

配额分配/套餐类型	订阅配额 ID
企业	`EnterpriseAgreement_2014-09-01`
即用即付	`PayAsYouGo_2014-09-01`
MSDN	`MSDN_2014-09-01`
CSP 集成沙盒	`CSPDEVTEST_2018-05-01`
面向学生的 Azure	`AzureForStudents_2018-01-01`
免费试用版	`FreeTrial_2014-09-01`
Azure Pass	`AzurePass_2014-09-01`
Azure_MS-AZR-0111P	`AzureInOpen_2014-09-01`
Azure_MS-AZR-0150P	`LightweightTrial_2016-09-01`
Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P	`MPN_2014-09-01`
Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G	`MSDNDevTest_2014-09-01`
默认	此表中未列出的任何配额编号

保持在速率限制范围内的一般最佳做法

若要最大程度地减少与速率上限相关的问题，可以遵循以下方法：

在应用程序中实现重试逻辑
避免工作负载的急剧变化。逐步增大工作负载。
测试不同负载增加模式。
增加分配给部署的配额。如有必要，从另一个部署中移动配额。

如何请求增加配额

可以通过配额增加请求表单提交配额增加请求。由于需求较高，会接受配额增加请求，并按接收的顺序进行填充。将优先考虑生成消耗现有配额分配的流量的客户。如果不满足此条件，你的请求可能会被拒绝。

对于其他速率限制，请提交服务请求。

区域配额容量限制

可以在 Azure AI Foundry 门户中按订阅的区域查看配额可用性。

或者，若要按区域查看特定模型/版本的配额容量，可以查询订阅的容量 API 。提供 subscriptionId、model_name 和 model_version，API 将返回该模型在所有区域的可用容量以及订阅的部署类型。

注意

目前，Azure AI Foundry 门户和容量 API 返回已停用且不再可用的模型的配额/容量信息。

API 参考

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

后续步骤

探索如何管理 Azure OpenAI 部署的配额。详细了解为 Azure OpenAI 提供支持的基础模型。

通过

Azure AI Foundry 模型中的 Azure OpenAI 配额和限制

配额与限制参考

批次限制

批处理配额

全局批处理

数据区域批处理

GPT-4 速率限制

GPT-4.5 预览全球标准

GPT-4.1 系列

GPT-4 Turbo

模型路由器速率限制

computer-use-preview 全球标准速率限制

o 系列速率限制

O-系列全球标准

o 系列数据区域标准

o1-preview 和 o1-mini 标准

gpt-4o 速率限制

gpt-4o 全球标准

gpt-4o 数据区域标准

gpt-4o 标准

gpt-4o 音频

GPT-image-1 速率限制

GPT0-image-1 全球标准

使用级别

GPT-4o 全球标准、数据区域标准和标准

GPT-4 标准

其他套餐类型

输出

保持在速率限制范围内的一般最佳做法

如何请求增加配额

区域配额容量限制

后续步骤

反馈

其他资源