你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
本文是一系列文章的其中一篇。 从 概述开始。
要开始会审实践,请评估群集和网络的总体运行状况。
工具
有许多工具和功能可用于诊断和解决 Azure Kubernetes 服务 (AKS) 群集中的问题。
在 Azure 门户中,选择 AKS 群集资源。 这些工具和功能位于导航窗格中。
诊断并解决问题:可以使用此工具帮助识别和解决群集中的问题。
资源运行状况:可以使用此工具帮助诊断和获取对可能影响 Azure 资源的服务问题的支持。 此工具提供有关您的资源当前和过去健康状态的信息。
顾问建议: Azure 顾问 充当个性化云顾问,指导你遵循优化 Azure 部署的最佳做法。 可以使用顾问分析资源配置和使用情况遥测数据。 顾问建议解决方案,以便提高成本效益、性能、可靠性和安全性。
日志:使用此功能访问存储在 Log Analytics 工作区中的群集日志和指标。 可以监视和分析群集的日志和指标,以提供见解并改进故障排除。
使用这些工具和功能可以有效地诊断和解决问题,优化 AKS 群集部署,并监视 Azure 资源的运行状况和性能。
诊断并解决问题
诊断和解决问题功能提供了一套全面的工具,可帮助识别和解决与群集相关的各种问题。 选择与问题最相关的故障排除类别。
若要检查群集运行状况,可以选择:
- 群集和控制平面可用性和性能:检查是否存在任何影响群集运行状况的服务可用性或限制问题。
- 连接问题:检查群集域名系统(DNS)解析是否存在错误,或者出站通信路由是否存在连接问题。
资源健康状况
使用 资源运行状况 功能确定并获取对可能影响群集运行状况的群集问题和服务问题的支持。 设置资源警报,以便轻松监视群集的运行状况。 资源运行状况功能提供有关群集当前和过去运行状况的报告。 有四种健康状态:
可用:此状态指示未检测到影响群集运行状况的事件。 如果群集在过去 24 小时内已从计划外停机恢复,则会显示 最近解决的 通知。
不可用:此状态指示检测到影响群集运行状况的持续平台或非平台事件。
未知:此状态指示该功能在 10 分钟内未收到有关资源的任何信息。 解除分配虚拟机时,通常会显示此状态。 此状态不是资源的状态的明确指示,但它可能是用于故障排除的有用数据点。
降级:此状态表示群集的性能丢失,但群集仍可供使用。
以下屏幕截图显示了资源运行状况概述。
有关详细信息,请参阅 Azure 资源运行状况概述。
顾问
顾问提供可作的建议,可帮助你优化 AKS 群集的可靠性、安全性、卓越运营和性能效率。 可以使用顾问主动提高群集的性能并避免潜在问题。 选择一个建议以获取有关如何优化群集的详细信息。
以下屏幕截图显示了所选建议的资源。
有关详细信息,请参阅 顾问概述。
日志分析
Log Analytics 提供群集运行状况的见解。 若要访问 Log Analytics 工作区,请转到 AKS 群集,然后在导航窗格中选择 “日志 ”。
可以选择预定义的查询来分析群集运行状况。
使用内置查询查询 Log Analytics 工作区中收集的日志和指标。 以下列表描述了可用性、容器日志和诊断类别中某些查询的功能。
可用性
每个节点的就绪状态 查询:按就绪状态查看群集中所有节点的计数。
“列出阶段的所有 Pod 计数”查询:按阶段查看所有 Pod 的计数,例如失败、挂起、未知、正在运行或成功。
容器日志
在 ContainerLogs 表中查找值 查询:查找 ContainerLogs 表中 LogEntry 包含指定字符串参数的行。
列出每个命名空间的容器日志 查询:查看群集中各个命名空间的容器日志。
诊断
群集自动缩放程序日志 查询:查询群集自动缩放程序的日志。 此查询可以提供有关群集意外纵向扩展或缩减的原因的信息。
Kubernetes API 服务器日志查询:查询 Kubernetes API 服务器的日志。
映像清单 查询:列出所有容器映像及其状态。
“每个节点每秒 Prometheus 磁盘读取次数”查询:以时间表形式查看默认 Kubernetes 命名空间中的 Prometheus 磁盘读取指标。
实例上周平均 CPU 使用率增长 查询:按每个实例显示过去一周的平均 CPU 使用增长,按降序排列。
供稿人
本文由Microsoft维护。 它最初是由以下贡献者撰写的。
主要作者:
- 保罗·萨尔瓦托里 |首席客户工程师
- 弗朗西斯·西米·纳扎雷斯 |高级技术专家
其他参与者:
- 张荣 |高级产品经理
要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。