你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

已启用视觉的聊天模型概念

支持视觉的聊天模型是 OpenAI 开发的一个大型多模态模型 (LMM),可以分析图像,并为有关图像的问题提供文本回应。 它们结合了自然语言处理和视觉理解。 本指南提供有关其功能和限制的详细信息。 若要查看哪些模型支持图像输入,请参阅“ 模型”页

要试用已启用视觉的聊天模型,请参阅快速入门

支持视觉的聊天

支持视觉的模型可以回答有关所上传的图像中展示的内容的一般问题。

输入限制

本部分介绍已启用视觉的聊天模型的限制。

图像支持

  • “最大输入图像大小”:输入图像的最大大小限制为 20 MB。
  • “低分辨率准确度”:使用“低分辨率”设置分析图像可以加快响应速度,且某些用例使用的输入令牌更少。 但是,这可能会影响对图像对象和文本识别的准确性。
  • 图像聊天限制:在 Azure AI Foundry 门户 或 API 中上传图像时,每个聊天调用限制为 10 个图像。

特殊定价信息

重要

定价详细信息将来可能会发生变化。

与其他 Azure OpenAI 聊天模型类似,已启用视觉的模型也会产生费用。 提示和完成需按令牌付费,详见定价页。 基本费用和附加功能如下所述:

GPT-4 Turbo with Vision 的基本定价为:

  • 输入:每 1000 个令牌 0.01 USDX
  • 输出:每 1000 个令牌 0.03 USDX

有关文本和图像如何转换为令牌的信息,请参阅概述的“令牌”部分

图像价格计算示例

重要

以下内容只是一个示例,价格将来可能会发生变化。

对于典型用例,使用可见对象和文本以及 100 令牌提示输入拍摄图像。 当服务处理提示时,它会生成 100 个输出令牌。 在图像中,可以检测文本和对象。 此事务的价格为:

详细信息 成本
文本提示输入 100 个文本令牌 $0.001
图像输入示例(请参阅图像标记 170 + 85 个图像标记 $0.00255
用于 OCR 的增强加载项功能 每 1000 个事务 1.5 美元 $0.0015
对象地面的增强加载项功能 每 1000 个事务 1.5 美元 $0.0015
输出令牌 100 个令牌(假定) 0.003 USDX
总计 $0.00955

后续步骤