你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

已启用视觉的聊天模型概念

支持视觉的聊天模型是 OpenAI 开发的一个大型多模态模型 (LMM)，可以分析图像，并为有关图像的问题提供文本回应。它们结合了自然语言处理和视觉理解。本指南提供有关其功能和限制的详细信息。若要查看哪些模型支持图像输入，请参阅“ 模型”页。

要试用已启用视觉的聊天模型，请参阅快速入门。

支持视觉的聊天

支持视觉的模型可以回答有关所上传的图像中展示的内容的一般问题。

本部分介绍已启用视觉的聊天模型的限制。

重要

定价详细信息将来可能会发生变化。

与其他 Azure OpenAI 聊天模型类似，已启用视觉的模型也会产生费用。提示和完成需按令牌付费，详见定价页。基本费用和附加功能如下所述：

GPT-4 Turbo with Vision 的基本定价为：

有关文本和图像如何转换为令牌的信息，请参阅概述的“令牌”部分。

重要

以下内容只是一个示例，价格将来可能会发生变化。

对于典型用例，使用可见对象和文本以及 100 令牌提示输入拍摄图像。当服务处理提示时，它会生成 100 个输出令牌。在图像中，可以检测文本和对象。此事务的价格为：