你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
设计应用程序以装备运营团队
迁移到云从根本上改变了运营团队的角色。 它们不再负责管理托管应用程序的硬件和基础结构。 但是,对于运行成功的云应用程序,运营仍然至关重要。 关键功能包括:
- 部署。
- 监测。
- 升级。
- 事件响应。
- 安全审核。
可靠的日志记录和跟踪在云应用程序中尤其重要。 在设计和规划中包括运营团队,以确保他们收到成功所需的数据和见解。
建议
使所有事物都能观察到。 部署并投入运行解决方案后,日志和跟踪是获取系统全面了解的主要手段。 跟踪 记录系统中的路径。 使用跟踪来查明瓶颈、性能问题和故障点。 日志记录 捕获单个事件,例如应用程序状态更改、错误和异常。 在生产环境中启用日志记录,否则当你最需要时可能会失去关键见解。
用于监视的工具。 监视提供应用程序性能的见解,包括可用性、效率和系统运行状况。 例如,它显示你是否满足服务级别协议。 监视发生在系统的正常作期间,应尽可能接近实时。 此方法有助于确保运营人员能够快速应对问题。 理想情况下,有效的监视有助于防止问题升级为严重故障。 有关详细信息,请参阅 监视和诊断。
用于根本原因分析的工具。 根本原因分析是查找失败的根本原因的过程。 它发生在发生故障后。
使用分布式跟踪。 使用专为并发、异步和云规模设计的分布式跟踪系统。 跟踪信息应包含能够跨服务边界传播的关联 ID。 单个作可能包括对多个应用程序服务的调用。 如果操作失败,关联 ID 有助于查明失败的原因。
标准化日志和指标。 运营团队需要汇总来自您解决方案中各种服务的日志。 如果每个服务都使用自己的日志记录格式,则很难或不可能检索有用的信息。 定义包括发送方相关 ID、事件名称和 IP 地址等字段的常见架构。 单个服务可以派生继承基本架构并可以包含额外字段的自定义架构。
自动执行管理任务,包括预配、部署和监视。 自动执行任务会使任务可重复且不容易出错。
将配置视为代码。 将配置文件存储在版本控制系统中,以便跟踪变化并进行版本化处理,并在需要时回滚更改。