你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要
本文中标记了“(预览版)”的项目目前为公共预览版。 此预览版未提供服务级别协议,不建议将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款。
如果具有依赖于 Azure 资源的关键应用程序和业务流程,则需要监视并获取系统的警报。 Azure Monitor 服务从系统的每个组件(包括 Foundry 模型部署)收集和聚合指标和日志。 可以使用此信息查看可用性、性能和复原能力,并获取问题的通知。
本文档介绍如何使用指标和日志监视 Foundry 模型中的模型部署。
先决条件
若要在 Foundry 模型中对模型部署使用监视功能,需要满足以下条件:
Azure AI 服务资源。 有关详细信息,请参阅创建 Azure AI 服务资源。
小窍门
如果使用无服务器 API 终结点,并且想要利用本文档中所述的监视功能, 请将无服务器 API 终结点迁移到 Foundry 模型。
至少一个模型部署。
访问资源的诊断信息。
指标
Azure Monitor 自动从 Foundry 模型收集指标。 无需配置。 这些指标是:
- 存储在 Azure Monitor 时序指标数据库中。
- 轻量级且具备支持准实时警报的能力。
- 用于跟踪资源随时间推移的性能变化。
查看指标
可以使用多种工具查询 Azure Monitor 指标,包括:
Azure AI Foundry 门户
可以在 Azure AI Foundry 门户中查看指标。 若要查看它们,请执行以下步骤:
通过选择“部署”导航到你的模型部署,然后选择你想要查看其指标的部署的名称。
选择选项卡 “指标”。
可以查看你可能感兴趣的最常见指标的高级视图。
若要对可在 Azure Monitor 中打开的指标进行切片、筛选或查看模型详细信息,可在其中使用更高级的选项。
使用 指标资源管理器 分析指标。
指标资源管理器
指标资源管理器 是 Azure 门户中的一种工具,可用于查看和分析 Azure 资源的指标。 有关更多信息,请参阅使用 Azure Monitor 指标资源管理器来分析指标数据。
若要使用 Azure Monitor,请执行以下步骤:
转到 Azure 门户。
在搜索框中输入并选择监视器。
在左侧导航栏中选择 “指标 ”。
在 “选择范围”上,选择要监视的资源。 可以选择一个资源,也可以选择一个资源组或订阅。 如果是这种情况,请确保选择 资源类型 作为 Azure AI 服务。
此时会显示指标资源管理器。 选择要浏览的 指标 。 以下示例显示了对资源中的模型部署发出的请求数。
重要
Azure OpenAI 类别中的指标包含资源中 Azure OpenAI 模型的指标。 类别 模型 包含资源中提供的所有模型,包括 Azure OpenAI、DeepSeek、Phi 等。建议切换到这组新的指标。
可以根据需要向同一图表或新图表添加任意数量的指标。
如果需要,可以按其中任何可用维度筛选指标。
按某些维度细分特定指标非常有用。 以下示例演示如何使用“ 添加拆分”选项按模型细分对资源发出的请求数:
可以随时保存仪表板,以避免每次都对其进行配置。
Kusto 查询语言 (KQL)
如果将 诊断设置 配置为将指标发送到 Log Analytics,则可以使用 Azure 门户通过 Kusto 查询语言(KQL)查询和分析日志数据。
若要查询指标,请执行以下步骤:
确保已 配置诊断设置。
转到 Azure 门户。
找到要查询的 Azure AI 服务资源。
在左侧导航栏中,导航到 “监视>日志”。
选择已配置诊断的 Log Analytics 工作区。
在 Log Analytics 工作区页的左窗格中的“概述”下,选择“日志”。 默认情况下,Azure 门户会显示一个查询窗口,其中包含示例查询和建议。 你可以关闭此窗口。
若要检查 Azure 指标,请使用资源表
AzureMetrics
并运行以下查询:AzureMetrics | take 100 | project TimeGenerated, MetricName, Total, Count, Maximum, Minimum, Average, TimeGrain, UnitName
注释
在资源的菜单中选择 “监视>日志 ”时,Log Analytics 会打开,并将查询范围设置为当前资源。 可见日志查询只包含来自该特定资源的数据。 如果要运行的查询包含来自他资源或其他 Azure 服务的数据,请从 Azure 门户的“Azure Monitor”菜单中选择“日志”。 有关详细信息,请参阅 Azure Monitor Log Analytics 中的日志查询范围和时间范围。
其他工具
支持更复杂可视化效果的工具包括:
- 工作簿、可在 Azure 门户中创建的可自定义报表。 工作簿可以包括文本、指标和日志查询。
- Grafana 是一个在运维仪表板方面表现出色的开放平台工具。 可以使用 Grafana 创建包含 Azure Monitor 以外的多个源的数据的仪表板。
- Power BI 是一项业务分析服务,可跨各种数据源提供交互式可视化效果。 可将 Power BI 配置为自动从 Azure Monitor 导入日志数据,以利用这些可视化效果。
指标参考
可以使用以下类别的指标:
模型 - 请求
指标 | 内部名称 | 单位 | 集合体 | 尺寸 |
---|---|---|---|---|
模型可用性率 使用以下公式计算可用性百分比:(调用总数 - 服务器错误数)/调用总数。 服务器错误包括任何 >=500 的 HTTP 响应。 |
ModelAvailabilityRate |
百分比 | 最小值、最大值、平均值 | ApiName 、OperationName 、Region 、StreamType 、ModelDeploymentName 、ModelName 、ModelVersion |
模型请求 在导致服务错误(>500)的时间段内对模型推理 API 进行的调用数。 |
ModelRequests |
计数 | 总计(总和) | ApiName 、OperationName 、Region 、StreamType 、ModelDeploymentName 、ModelName 、ModelVersion 、StatusCode |
模型 - 延迟
指标 | 内部名称 | 单位 | 集合体 | 尺寸 |
---|---|---|---|---|
响应时间 对于流式处理请求,建议使用延迟(响应能力)度量值。 适用于 PTU 和 PTU 管理的部署。 计算方式为用户发送提示后首个响应出现所花费的时间,由 API 网关进行度量。 随着提示大小增加和/或缓存命中大小减小,此数字将增加。 注意:此指标是一个近似值,因为测量的延迟在很大程度上取决于多个因素,包括并发调用和总体工作负载模式。 此外,它不考虑客户端与 API 终结点之间可能存在的任何客户端延迟。 请参阅您自己的日志,以实现最佳延迟跟踪。 |
TimeToResponse |
毫秒 | 最大值、最小值、平均值 | ApiName 、OperationName 、Region 、StreamType 、ModelDeploymentName 、ModelName 、ModelVersion 、StatusCode |
令牌间的标准化时间 对于流式处理请求,模型令牌生成速率,以毫秒为单位。 适用于 PTU 和 PTU 管理的部署。 |
NormalizedTimeBetweenTokens |
毫秒 | 最大值、最小值、平均值 | ApiName 、OperationName 、Region 、StreamType 、ModelDeploymentName 、ModelName 、ModelVersion |
模型 - 使用情况
指标 | 内部名称 | 单位 | 集合体 | 尺寸 |
---|---|---|---|---|
输入标记 在模型上处理(输入)的提示标记数量。 适用于 PTU、PTU 管理的部署和标准部署。 |
InputTokens |
计数 | 总计(总和) | ApiName 、Region 、ModelDeploymentName 、ModelName 、ModelVersion |
输出令牌 从模型生成的令牌数(输出)。 适用于 PTU、PTU 管理的部署和标准部署。 |
OutputTokens |
计数 | 总计(总和) | ApiName 、Region 、ModelDeploymentName 、ModelName 、ModelVersion |
令牌总数 在模型上处理的推理标记数量。 计算公式为提示令牌(输入)加上生成的令牌(输出)。 适用于 PTU、PTU 管理的部署和标准部署。 |
TotalTokens |
计数 | 总计(总和) | ApiName 、Region 、ModelDeploymentName 、ModelName 、ModelVersion |
令牌缓存匹配率 命中缓存的提示令牌的百分比。 适用于 PTU 和 PTU 管理的部署。 |
TokensCacheMatchRate |
百分比 | 平均值 | Region 、ModelDeploymentName 、ModelName 、ModelVersion |
预配利用率 预配管理的部署的利用率百分比,计算公式为 (已使用的 PTU/已部署的 PTU) x 100。 当利用率大于或等于 100% 时,调用将受到限制,并返回错误代码 429。 |
TokensCacheMatchRate |
百分比 | 平均值 | Region 、ModelDeploymentName 、ModelName 、ModelVersion |
预配的已使用标记 令牌总数减去一段时间内缓存的令牌。 适用于 PTU 和 PTU 管理的部署。 |
ProvisionedConsumedTokens |
计数 | 总计(总和) | Region 、ModelDeploymentName 、ModelName 、ModelVersion |
音频输入令牌 在模型上处理(输入)的音频提示标记数量。 适用于 PTU 托管的模型部署。 |
AudioInputTokens |
计数 | 总计(总和) | Region 、ModelDeploymentName 、ModelName 、ModelVersion |
音频输出令牌 模型上生成的音频提示令牌数(输出)。 适用于 PTU 托管的模型部署。 |
AudioOutputTokens |
计数 | 总计(总和) | Region 、ModelDeploymentName 、ModelName 、ModelVersion |
日志
借助资源日志,可以深入了解 Azure 资源已执行的操作。 日志是自动生成的,但必须将其路由到 Azure Monitor 日志,以便 通过配置诊断设置来保存或查询。 创建诊断设置时,日志按类别进行组织,指定要收集的日志类别。
配置诊断设置
可以使用 Azure Monitor 中的诊断设置导出所有指标。 若要使用 Azure Monitor Log Analytics 查询分析日志和指标数据,需要为 Azure AI Services 资源配置诊断设置。 需要对每个资源执行此操作。
在 Log Analytics 工作区中收集数据需要付费,因此只收集每项服务所需的类别。 资源日志的数据量因服务而异,差别明显。