你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

监视 Azure AI Foundry 模型中的模型

重要

本文中标记了“(预览版)”的项目目前为公共预览版。 此预览版未提供服务级别协议,不建议将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款

如果具有依赖于 Azure 资源的关键应用程序和业务流程,则需要监视并获取系统的警报。 Azure Monitor 服务从系统的每个组件(包括 Foundry 模型部署)收集和聚合指标和日志。 可以使用此信息查看可用性、性能和复原能力,并获取问题的通知。

本文档介绍如何使用指标和日志监视 Foundry 模型中的模型部署。

先决条件

若要在 Foundry 模型中对模型部署使用监视功能,需要满足以下条件:

指标

Azure Monitor 自动从 Foundry 模型收集指标。 无需配置。 这些指标是:

  • 存储在 Azure Monitor 时序指标数据库中。
  • 轻量级且具备支持准实时警报的能力。
  • 用于跟踪资源随时间推移的性能变化。

查看指标

可以使用多种工具查询 Azure Monitor 指标,包括:

Azure AI Foundry 门户

可以在 Azure AI Foundry 门户中查看指标。 若要查看它们,请执行以下步骤:

  1. 转到 Azure AI Foundry 门户

  2. 通过选择“部署”导航到你的模型部署,然后选择你想要查看其指标的部署的名称

  3. 选择选项卡 “指标”。

  4. 可以查看你可能感兴趣的最常见指标的高级视图。

    屏幕截图显示了 Azure AI Foundry 门户中模型部署的指标。

  5. 若要对可在 Azure Monitor 中打开的指标进行切片、筛选或查看模型详细信息,可在其中使用更高级的选项。

    显示用于在 Azure Monitor 中打开模型部署指标的选项的屏幕截图。

  6. 使用 指标资源管理器 分析指标。

指标资源管理器

指标资源管理器 是 Azure 门户中的一种工具,可用于查看和分析 Azure 资源的指标。 有关更多信息,请参阅使用 Azure Monitor 指标资源管理器来分析指标数据。

若要使用 Azure Monitor,请执行以下步骤:

  1. 转到 Azure 门户

  2. 在搜索框中输入并选择监视器

  3. 在左侧导航栏中选择 “指标 ”。

  4. “选择范围”上,选择要监视的资源。 可以选择一个资源,也可以选择一个资源组或订阅。 如果是这种情况,请确保选择 资源类型 作为 Azure AI 服务

  5. 此时会显示指标资源管理器。 选择要浏览的 指标 。 以下示例显示了对资源中的模型部署发出的请求数。

    显示如何将新指标添加到图表的屏幕截图。

    重要

    Azure OpenAI 类别中的指标包含资源中 Azure OpenAI 模型的指标。 类别 模型 包含资源中提供的所有模型,包括 Azure OpenAI、DeepSeek、Phi 等。建议切换到这组新的指标。

  6. 可以根据需要向同一图表或新图表添加任意数量的指标。

  7. 如果需要,可以按其中任何可用维度筛选指标。

    显示如何将筛选器应用于指标的屏幕截图。

  8. 按某些维度细分特定指标非常有用。 以下示例演示如何使用“ 添加拆分”选项按模型细分对资源发出的请求数:

    显示如何按给定维度拆分指标的屏幕截图。

  9. 可以随时保存仪表板,以避免每次都对其进行配置。

Kusto 查询语言 (KQL)

如果将 诊断设置 配置为将指标发送到 Log Analytics,则可以使用 Azure 门户通过 Kusto 查询语言(KQL)查询和分析日志数据。

若要查询指标,请执行以下步骤:

  1. 确保已 配置诊断设置

  2. 转到 Azure 门户

  3. 找到要查询的 Azure AI 服务资源。

  4. 在左侧导航栏中,导航到 “监视>日志”。

  5. 选择已配置诊断的 Log Analytics 工作区。

  6. 在 Log Analytics 工作区页的左窗格中的“概述”下,选择“日志”。 默认情况下,Azure 门户会显示一个查询窗口,其中包含示例查询和建议。 你可以关闭此窗口。

  7. 若要检查 Azure 指标,请使用资源表 AzureMetrics 并运行以下查询:

    AzureMetrics
    | take 100
    | project TimeGenerated, MetricName, Total, Count, Maximum, Minimum, Average, TimeGrain, UnitName
    

    注释

    在资源的菜单中选择 “监视>日志 ”时,Log Analytics 会打开,并将查询范围设置为当前资源。 可见日志查询只包含来自该特定资源的数据。 如果要运行的查询包含来自他资源或其他 Azure 服务的数据,请从 Azure 门户的“Azure Monitor”菜单中选择“日志”。 有关详细信息,请参阅 Azure Monitor Log Analytics 中的日志查询范围和时间范围

其他工具

支持更复杂可视化效果的工具包括:

  • 工作簿、可在 Azure 门户中创建的可自定义报表。 工作簿可以包括文本、指标和日志查询。
  • Grafana 是一个在运维仪表板方面表现出色的开放平台工具。 可以使用 Grafana 创建包含 Azure Monitor 以外的多个源的数据的仪表板。
  • Power BI 是一项业务分析服务,可跨各种数据源提供交互式可视化效果。 可将 Power BI 配置为自动从 Azure Monitor 导入日志数据,以利用这些可视化效果。

指标参考

可以使用以下类别的指标:

模型 - 请求

指标 内部名称 单位 集合体 尺寸
模型可用性率

使用以下公式计算可用性百分比:(调用总数 - 服务器错误数)/调用总数。 服务器错误包括任何 >=500 的 HTTP 响应。
ModelAvailabilityRate 百分比 最小值、最大值、平均值 ApiNameOperationNameRegionStreamTypeModelDeploymentNameModelNameModelVersion
模型请求

在导致服务错误(>500)的时间段内对模型推理 API 进行的调用数。
ModelRequests 计数 总计(总和) ApiNameOperationNameRegionStreamTypeModelDeploymentNameModelNameModelVersionStatusCode

模型 - 延迟

指标 内部名称 单位 集合体 尺寸
响应时间

对于流式处理请求,建议使用延迟(响应能力)度量值。 适用于 PTU 和 PTU 管理的部署。 计算方式为用户发送提示后首个响应出现所花费的时间,由 API 网关进行度量。 随着提示大小增加和/或缓存命中大小减小,此数字将增加。 注意:此指标是一个近似值,因为测量的延迟在很大程度上取决于多个因素,包括并发调用和总体工作负载模式。 此外,它不考虑客户端与 API 终结点之间可能存在的任何客户端延迟。 请参阅您自己的日志,以实现最佳延迟跟踪。
TimeToResponse 毫秒 最大值、最小值、平均值 ApiNameOperationNameRegionStreamTypeModelDeploymentNameModelNameModelVersionStatusCode
令牌间的标准化时间

对于流式处理请求,模型令牌生成速率,以毫秒为单位。 适用于 PTU 和 PTU 管理的部署。
NormalizedTimeBetweenTokens 毫秒 最大值、最小值、平均值 ApiNameOperationNameRegionStreamTypeModelDeploymentNameModelNameModelVersion

模型 - 使用情况

指标 内部名称 单位 集合体 尺寸
输入标记

在模型上处理(输入)的提示标记数量。 适用于 PTU、PTU 管理的部署和标准部署。
InputTokens 计数 总计(总和) ApiNameRegionModelDeploymentNameModelNameModelVersion
输出令牌

从模型生成的令牌数(输出)。 适用于 PTU、PTU 管理的部署和标准部署。
OutputTokens 计数 总计(总和) ApiNameRegionModelDeploymentNameModelNameModelVersion
令牌总数

在模型上处理的推理标记数量。 计算公式为提示令牌(输入)加上生成的令牌(输出)。 适用于 PTU、PTU 管理的部署和标准部署。
TotalTokens 计数 总计(总和) ApiNameRegionModelDeploymentNameModelNameModelVersion
令牌缓存匹配率

命中缓存的提示令牌的百分比。 适用于 PTU 和 PTU 管理的部署。
TokensCacheMatchRate 百分比 平均值 RegionModelDeploymentNameModelNameModelVersion
预配利用率

预配管理的部署的利用率百分比,计算公式为 (已使用的 PTU/已部署的 PTU) x 100。 当利用率大于或等于 100% 时,调用将受到限制,并返回错误代码 429。
TokensCacheMatchRate 百分比 平均值 RegionModelDeploymentNameModelNameModelVersion
预配的已使用标记

令牌总数减去一段时间内缓存的令牌。 适用于 PTU 和 PTU 管理的部署。
ProvisionedConsumedTokens 计数 总计(总和) RegionModelDeploymentNameModelNameModelVersion
音频输入令牌

在模型上处理(输入)的音频提示标记数量。 适用于 PTU 托管的模型部署。
AudioInputTokens 计数 总计(总和) RegionModelDeploymentNameModelNameModelVersion
音频输出令牌

模型上生成的音频提示令牌数(输出)。 适用于 PTU 托管的模型部署。
AudioOutputTokens 计数 总计(总和) RegionModelDeploymentNameModelNameModelVersion

日志

借助资源日志,可以深入了解 Azure 资源已执行的操作。 日志是自动生成的,但必须将其路由到 Azure Monitor 日志,以便 通过配置诊断设置来保存或查询。 创建诊断设置时,日志按类别进行组织,指定要收集的日志类别。

配置诊断设置

可以使用 Azure Monitor 中的诊断设置导出所有指标。 若要使用 Azure Monitor Log Analytics 查询分析日志和指标数据,需要为 Azure AI Services 资源配置诊断设置。 需要对每个资源执行此操作。

显示如何在 resource.png中配置诊断日志记录的屏幕截图

在 Log Analytics 工作区中收集数据需要付费,因此只收集每项服务所需的类别。 资源日志的数据量因服务而异,差别明显。