你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure Kubernetes 服务 (AKS) 群集的根本原因分析通常具有挑战性。 若要简化此过程,请考虑使用基于群集层次结构的自上而下的方法进行分类问题。 从群集级别开始,如果需要,可以深入研究。
以下部分提供了关于一系列分类做法的概述,其中详细描述了自上而下的方法。 这些文章提供了使用一组工具和仪表板的示例。 这些文章介绍了这些示例如何突出问题的症状。
本系列中解决的常见问题包括:
- 由配置不当导致的网络和连接问题。
- 控制平面与节点之间的通信中断。
- 计算、内存或存储资源不足导致的 Kubelet 压力。
- 域名系统(DNS)解析问题。
- 每秒磁盘输入/输出操作 (IOPS) 不足的节点。
- 一个准入控制管道,阻止多个对 API 服务器的请求。
- 群集没有从相应的容器注册表拉取的权限。
此系列不是为了解决特定问题。 有关排查特定问题的信息,请参阅 AKS 故障排除。
会审实践系列
步骤 | DESCRIPTION |
---|---|
1.评估 AKS 群集运行状况。 | 检查群集和网络的总体运行状况。 |
2.检查节点和 Pod 运行状况。 | 评估 AKS 工作器节点的运行状况。 |
3.监视工作负荷部署。 | 确保所有部署和 DaemonSet 功能都在运行。 |
4. 验证准入控制器。 | 检查允许控制器是否按预期工作。 |
5.验证与容器注册表的连接。 | 验证与容器注册表的连接。 |
供稿人
本文由Microsoft维护。 它最初是由以下贡献者撰写的。
主要作者:
- Kevin Harris |主要解决方案专家
其他参与者:
- 保罗·萨尔瓦托里 |首席客户工程师
- 弗朗西斯·西米·纳扎雷斯 |高级技术专家
要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。