使用运行状况服务来监视群集

适用于:Azure 本地 2311.2 及更高版本;Windows Server 2022、Windows Server 2019、Windows Server 2016

健康服务在 Windows Server 2016 中首次发布,改进了运行存储空间直通的群集的日常监控和操作体验。

先决条件

默认情况下,运行状况服务启用存储空间直通。 设置或启动它时无需执行任何其他操作。 若要了解有关存储空间直通的详细信息,请参阅 存储空间直通概述

群集性能历史记录

从存储空间直通群集获取实时性能和容量信息。 请参阅 “获取群集性能历史记录”。

健康服务故障

显示任何当前故障以轻松验证部署的运行状况。 请参阅 查看健康服务故障

运行状况服务操作

跟踪自动执行的运行状况服务操作的进度。 请参阅跟踪运行状况服务操作

自动化

本部分介绍在磁盘生命周期中由健康服务自动化的工作流。

磁盘生命周期

健康服务自动执行物理磁盘生命周期的大多数阶段。 假设部署的初始状态处于最佳运行状况 - 也就是说,所有物理磁盘正常运行。

退休

物理磁盘不再可用且引发相应故障时,将自动停用。 有以下几种情况:

  • 介质故障:物理磁盘彻底失败或损坏,并且必须进行替换。
  • 通信中断:物理磁盘连接断开的持续时间超过 15 分钟。
  • 无响应:物理磁盘在一小时内出现三次或更多次时间超过 5.0 秒的延迟。

注意

如果与许多物理磁盘或整个节点或存储机箱失去连接,那么运行状况服务将不会停用这些磁盘,因为它们不太可能是根本问题。

如果已停用的磁盘曾用作许多其他物理磁盘的缓存,则将自动重新分配到另一个缓存磁盘(如果存在)。 无需特定的用户操作。

还原复原能力

一旦某个物理磁盘停用,运行状况服务会立即开始将该磁盘的数据复制到剩余的物理磁盘上,以恢复完整的复原能力。 完成后,数据是完全安全的并重新具有容错能力。

注意

此立即还原操作要求剩余的物理磁盘之间具有足够的可用容量。

闪烁的指示灯

如果可能,运行状况服务将开始在停用的物理磁盘或其槽上闪烁指示灯。 这将无限期继续下去,直到更换已停用的磁盘。

注意

在某些情况下,磁盘甚至可能出现阻止指示灯正常运行的故障 - 例如,完全断电。

物理替换

应尽可能替换已停用的物理磁盘。 大多数情况下,这包括热交换,即不需要关闭节点或存储机箱。 请查看故障以获取有用的位置和部件信息。

验证

插入替换磁盘后,将根据“支持的组件文档”对其进行验证(见下一节)。

如果允许,替换磁盘将被自动加入其前身所在的池中以开始使用。 此时,系统会恢复到处于最佳运行状况的初始状态,故障消失。

支持的组件文档

运行状况服务提供了一种强制机制,可让“存储空间直通”只使用管理员或解决方案供应商提供的“支持的组件文档”中的组件。 这可用来防止你或其他人误用不受支持的硬件,可能会帮助保证或支持合同的合规性。 此功能当前仅限用于物理磁盘设备,包括 SSD、HDD 和 NVMe 驱动器。 “支持的组件文档”可能会设有模型、制造商(可选)和固件版本(可选)方面的限制。

使用情况

“支持的组件文档”使用源于 XML 的语法。 我们建议使用你喜欢的文本编辑器(如免费的 Visual Studio Code 或记事本)来创建可以保存和重复使用的 XML 文档。

部分

该文档有两个独立的部分:DisksCache

如果提供了 Disks 部分,则仅允许列出的驱动器(如 Disk)加入池。 任何未列出的驱动器都不能加入池,这可以有效避免在生产中使用这些驱动器。 如果此部分留空,将允许任何驱动器加入池。

如果提供了 Cache 部分,将仅在缓存中使用列出的驱动器(如 CacheDisk)。 如果此部分留空,存储空间直通会 尝试根据媒体类型和总线类型进行猜测。 此处列出的驱动器应也在 Disks 中列出。

重要

“支持的组件文档”不适用于已在池中使用的驱动器。

示例

<Components>

  <Disks>
    <Disk>
      <Manufacturer>Contoso</Manufacturer>
      <Model>XYZ9000</Model>
      <AllowedFirmware>
        <Version>2.0</Version>
        <Version>2.1</Version>
        <Version>2.2</Version>
      </AllowedFirmware>
      <TargetFirmware>
        <Version>2.1</Version>
        <BinaryPath>C:\ClusterStorage\path\to\image.bin</BinaryPath>
      </TargetFirmware>
    </Disk>
    <Disk>
      <Manufacturer>Fabrikam</Manufacturer>
      <Model>QRSTUV</Model>
    </Disk>
  </Disks>

  <Cache>
    <CacheDisk>
      <Manufacturer>Fabrikam</Manufacturer>
      <Model>QRSTUV</Model>
    </CacheDisk>
  </Cache>

</Components>

若要列出多个驱动器,只需添加额外的 <Disk><CacheDisk> 标签。

若要在部署存储空间直通时注入此 XML,请使用 -XML 参数:

$MyXML = Get-Content <Filepath> | Out-String
Enable-ClusterS2D -XML $MyXML

若要在部署存储空间直通后设置或修改“支持的组件文档”:

$MyXML = Get-Content <Filepath> | Out-String
Get-StorageSubSystem Cluster* | Set-StorageHealthSetting -Name "System.Storage.SupportedComponents.Document" -Value $MyXML

注意

模型、制造商和固件版本属性应与使用 Get-PhysicalDisk cmdlet 获取的值完全匹配。 这可能不同于“常识”期望,具体取决于供应商的实施。 例如,制造商可能不是“Contoso”,而可能是“CONTOSO-LTD”,或者可能为空,而型号为“Contoso-XZY9000”。

你可以使用以下 PowerShell cmdlet 进行验证:

Get-PhysicalDisk | Select Model, Manufacturer, FirmwareVersion

健康服务设置

修改运行状况服务设置以调整故障或操作的攻击性、打开或关闭某些行为等。 请参阅 “修改健康服务设置”。

其他参考