你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

AKS 操作的会审做法

Azure Kubernetes 服务 (AKS) 群集的根本原因分析通常具有挑战性。 若要简化此过程,请考虑使用基于群集层次结构的自上而下的方法进行分类问题。 从群集级别开始,如果需要,可以深入研究。

显示 AKS 群集组件的层次结构的关系图:群集、节点池、节点、Pod 和容器。

以下部分提供了关于一系列分类做法的概述,其中详细描述了自上而下的方法。 这些文章提供了使用一组工具和仪表板的示例。 这些文章介绍了这些示例如何突出问题的症状。

本系列中解决的常见问题包括:

  • 由配置不当导致的网络和连接问题。
  • 控制平面与节点之间的通信中断。
  • 计算、内存或存储资源不足导致的 Kubelet 压力。
  • 域名系统(DNS)解析问题。
  • 每秒磁盘输入/输出操作 (IOPS) 不足的节点。
  • 一个准入控制管道,阻止多个对 API 服务器的请求。
  • 群集没有从相应的容器注册表拉取的权限。

此系列不是为了解决特定问题。 有关排查特定问题的信息,请参阅 AKS 故障排除

会审实践系列

步骤 DESCRIPTION
1.评估 AKS 群集运行状况 检查群集和网络的总体运行状况。
2.检查节点和 Pod 运行状况 评估 AKS 工作器节点的运行状况。
3.监视工作负荷部署 确保所有部署和 DaemonSet 功能都在运行。
4. 验证准入控制器 检查允许控制器是否按预期工作。
5.验证与容器注册表的连接 验证与容器注册表的连接。

供稿人

本文由Microsoft维护。 它最初是由以下贡献者撰写的。

主要作者:

其他参与者:

要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。

后续步骤