验证故障转移群集的硬件

本文提供验证故障转移群集的硬件的步骤。 可以使用集成到故障转移群集管理器或测试群集 Windows PowerShell cmdlet 中的“验证配置向导”来运行一组重点验证测试。 可以在想要用作群集中节点的一系列服务器上运行此过程。 此过程将直接、逐个地测试基础硬件和软件,让用户准确评估给定配置对故障转移群集的支持程度。

重要

Microsoft 在针对给定的配置提供支持时,需要用户提供群集验证报告。

任务 说明
步骤 1:准备验证故障转移群集的硬件 了解群集验证和 Microsoft 对群集配置的支持,并准备对硬件进行验证测试。
步骤 2:验证新的或现有的故障转移群集 运行“验证配置向导”或 “测试群集 ”Windows PowerShell cmdlet。
步骤 3:分析验证结果 查看完成验证时创建的摘要报告。 如果发生了失败并且你需要支持,请为 Microsoft 客户服务和支持准备一份验证报告。
高级验证方案 如果需要验证现有群集并选择仅测试群集功能的某些方面,请查看这些高级方案。
常见问题解答 获取有关群集验证过程的问题的答案。

步骤 1:准备验证故障转移群集的硬件

什么是群集验证?

通过验证配置向导或 测试群集 Windows PowerShell cmdlet,可以在计划用作故障转移群集的服务器、网络和关联的存储集合上运行一组重点测试。 群集验证过程将测试基础硬件和软件,让用户准确评估给定配置对故障转移群集的支持程度。

在创建故障转移群集之前,建议运行所有群集验证测试。

群集验证旨在执行以下操作:

  • 将故障转移群集投入生产之前找出硬件问题或配置问题。
  • 帮助确保部署的群集解决方案可靠。
  • 提供一种方法来验证对现有群集的硬件所做的更改。
  • 对现有群集执行诊断测试。

常见验证方案

以下列表描述了需要硬件验证或有用的方案。 一般而言,需要运行所有的验证测试(某些例外情况已做出说明)。

  • 在配置群集之前进行验证

    • 准备好成为故障转移群集的一组服务器

      这是最直截了当的验证方案。 硬件组件(系统、网络和存储)已连接,但系统无法作为群集运行。 在这种情况下运行测试不会影响可用性。

    • 克隆或映像化的系统

      对于已克隆或映像到不同硬件的系统,必须运行验证配置向导,就像对待任何新群集一样。 建议在连接硬件组件并安装故障转移群集功能之后、客户端使用群集之前运行该向导。

  • 虚拟化服务器

    对于群集中的虚拟化服务器,请运行验证配置向导,就像对待任何新群集一样。 不管你使用的是“主机群集”(在两个物理计算机之间发生故障转移)、“来宾群集”(在同一物理计算机上的来宾操作系统之间发生故障转移),还是包含一个或多个虚拟化服务器的其他某种配置,都要求运行该向导。

  • 当群集只包含一个节点时进行验证

    对于想要在群集中使用的单个服务器,你可能需要运行有限数目的验证测试。 在这种情况下,无法运行某些测试;例如,确认服务器之间的软件和软件更新匹配的测试,以及模拟节点之间故障转移的存储测试。 只有在一个群集至少包含两个节点的情况下,才能完成群集验证过程。 因此,如果将更多服务器引入配置,则必须再次运行群集验证向导,以便完成所有测试。

  • 在配置并使用群集之后进行验证

    • 确认验证结果以获得 Microsoft 支持,或者排除配置问题

      如果需要Microsoft的支持,可能需要从向导提供验证报告。 如果尚未运行向导并保存报表,则可能需要使群集脱机才能运行向导。 该报告将显示你的配置是否受支持,并可以帮助 Microsoft 客户支持排查硬件、驱动程序和基本系统配置存在的配置问题。

    • 添加节点之前

      将服务器添加到群集时,建议先将服务器连接到群集网络和存储,然后运行“验证配置向导”,指定现有群集节点和新节点。

    • 连接新存储时

      将新存储附加到群集(这不同于在现有存储中公开新的逻辑单元号(LUN),必须运行“验证配置向导”以确认新存储功能正确。 为了尽量减少对可用性的影响,我们建议在附加存储后运行向导,并在群集服务或应用程序中开始使用新的 LUN 之前运行该向导。

    • 在做出会影响固件或驱动程序的更改时

      如果你想要升级群集,或者想要对群集做出其他更改,而这些更改要求更改固件或驱动程序,那么,你必须运行验证配置向导,以确认硬件、固件、驱动程序和软件的新组合是否支持故障转移群集功能。 如果更改会影响存储的固件或驱动程序,则我们建议保留一个小型 LUN(未由群集角色使用),这样,无需使群集角色脱机就能运行存储验证测试。

    • 从备份还原系统之后

      从备份还原系统之后,请运行验证配置向导,以确认该系统是否能够作为群集的一部分正常运行。 在验证测试完成之前,系统不会被视为受支持的系统。

在验证对现有群集的硬件更改(作为高级方案)时,可以决定是否要省略某些存储测试。 有关详细信息和注意事项,请参阅 高级验证方案

验证测试的类别

下表列出了验证测试的类别。 当你运行验证配置向导时,将列出每个类别中的测试。 完成验证后保存的验证报告会提供每个类别中每项测试的描述。

类别 说明
群集配置 列出并验证已配置好可在群集中使用的资源,包括群集角色和群集卷。
Hyper-V 配置 验证要在故障转移群集中使用的 Hyper-V 配置。

注意:仅当使用或计划使用群集虚拟机时,才需要 Hyper-V 配置测试。
库存 列出群集中的计算机上使用的主机总线适配器 (HBA)、设备、进程和驱动程序。
网络 验证群集网络、IP 地址和 Windows 防火墙的配置。
存储 验证故障转移群集中可用的存储磁盘和文件系统。
系统配置 验证群集中计算机上的操作系统、更新级别和服务设置。

步骤 2:验证新的或现有的故障转移群集

此步骤提供运行验证配置向导或 测试群集 Windows PowerShell cmdlet 以验证新的或现有的故障转移群集的过程。

重要

若要开始执行向故障转移群集添加硬件(例如另一台服务器)的过程,请将该硬件连接到故障转移群集。 然后,运行“验证配置向导”,并指定要包含在群集中的所有服务器。 该向导将测试群集连接性和故障转移,而不仅仅是测试隔离的组件(例如单个服务器)。

运行验证配置向导的步骤

  1. 标识你想要测试的一个或多个服务器。

    • 如果群集尚不存在,请选择要包括在群集中的服务器,并确保已在这些服务器上安装了故障转移群集功能。 如果未安装该功能,请参阅 安装说明
    • 如果群集已存在,请确保知道群集或群集中节点的名称。
  2. 查看要验证的网络或存储的硬件的群集要求,并确认它已连接到服务器。

  3. 决定是要运行所有可用的验证测试,还是只运行某些可用的验证测试。 一般情况下,我们建议运行所有测试,但以下一般准则可以帮助你做出决定。

    群集类型 验证测试
    连接了所有硬件的新群集或计划的群集 所有测试
    连接了一部分硬件的新群集或计划的群集 系统配置测试、清单测试以及适合所连接硬件的测试(也就是说,如果连接了网络,则运行网络测试;如果连接了存储,则运行存储测试)
    计划向其添加服务器的现有群集 所有测试注意:在运行测试

    之前,请务必连接你计划在群集中拥有的所有服务器的网络和存储。
    对于现有群集进行疑难解答 所有测试,不过也可以只运行与明显问题相关的测试。

    重要

    如果在启动向导时群集角色正在使用磁盘,向导将提示你是否出于测试目的使该群集角色脱机。 如果选择将群集角色脱机,则该群集角色将保持脱机状态,直至测试完成。

  4. 若要打开向导,请在故障转移群集管理器中选择“操作”下的验证配置”。

  5. 按照向导中的说明指定服务器(在计划的群集中)和测试。 例如,如果不打算使用需要 Hyper-V 的群集功能,则可以省略 Hyper-V 配置测试。 然后,向导将指导你运行测试。

    注意

    在未群集的服务器上运行该向导时,必须输入要测试的所有服务器(而不只是一台服务器)的名称。

  6. 在运行测试之后会显示 “摘要” 页。 在 “摘要 ”页上,选择“ 查看报表 ”以查看测试结果。

    若要在关闭向导后查看测试结果,请在“故障转移群集管理器中的操作”下选择“查看验证报告”。 可以看到 %SystemRoot%\Cluster\Reports\Validation Report <Date and Time>.html,其中 %SystemRoot% 是安装操作系统的文件夹(例如 C:\Windows)。

Windows PowerShell 等效命令

下面一个或多个 Windows PowerShell cmdlet 执行的功能与前面的过程相同。 在单个行上输入每个 cmdlet,即使它们可能由于格式限制而出现在多个行之间。

以下示例将在名为 node1 和 node2的节点上运行所有群集验证测试。 如果 node1 或 node2 已经是群集的成员,这些测试将包括该群集中的所有节点。

Test-Cluster -Node node1,node2

步骤 3:分析验证结果

验证配置向导完成后,故障转移群集验证报告会显示结果。 所有测试都必须使用绿色复选标记通过,或者在某些情况下,必须传递黄色三角形(警告)。 下表显示了摘要中的符号并说明了其含义:

符号 说明
相应的验证测试已通过,表示可以支持群集的这个方面。
相应的验证测试生成了警告,表示可以支持群集的这个方面,但是它可能不符合建议的最佳做法,应该进行检查。 Microsoft客户支持可能会要求你调查或解决问题(如果它似乎直接链接到要进行故障排除的内容)。
相应的验证测试失败,不支持群集的这一方面。 你必须先纠正问题,然后才能创建支持的故障转移群集。
相应的验证测试已取消。 当测试依赖于另一个未成功完成的测试时,可能会发生这种情况。

在测试结果摘要中查找问题区域(警告或失败),选择单个测试以查看详细信息。 此外,请查看摘要语句,了解群集是否为受支持的配置。

在采取措施纠正问题后,可以根据需要重新运行向导,以确认配置是否能够通过测试。

验证测试失败了怎么办

在大多数情况下,如果验证配置向导中的任何测试失败,则不会考虑支持配置。

如果任何 Hyper-V 配置测试失败,则群集上的 Hyper-V 未正确配置。 只有在纠正问题后,才能支持群集中的虚拟机。 但是,此类测试中的故障并不意味着群集不支持群集虚拟机以外的工作负荷。

失败的测试类型是纠正措施的准则。 例如,如果 列出所有磁盘 存储测试失败,并且后续存储测试不会运行(因为它们也会失败),则应联系存储供应商来解决此问题。 同样,如果与 IP 地址相关的网络测试失败,请咨询网络基础结构团队。 并非所有警告或错误都意味着需要致电 Microsoft 客户支持。 大多数警告或错误都应导致与内部团队或特定硬件供应商合作。

有关更正验证报告中所列的失败的信息,请参阅上一部分步骤 3:分析验证结果

解决问题并解决问题后,必须重新运行“验证配置向导”。 只有在运行并完成所有测试,并且未出现失败时,才能认为某个配置受支持。

在请求 Microsoft 的支持时提供验证报告

如果你需要就某个验证问题联系 Microsoft 客户支持,支持团队将会帮助你使用 Microsoft 支持诊断工具 (MSDT) 来收集验证报告和其他相关配置文件。 (此功能替换 MPSReports 数据收集实用工具。如果需要,Microsoft将发送有关如何捕获数据的说明。 在某些情况下,Microsoft可能会请求压缩并发送 C:\Windows\Cluster\Reports 文件夹的内容进行分析。 这两种方法都要收集所需的群集验证报告。

对验证测试的更新

“验证配置向导”提供了给定配置如何支持故障转移群集的准确情况。 如果“验证配置向导”的更新可用,则可能需要重新运行该向导,并传递配置的所有测试才能继续受支持。 这可能会导致之前传递给失败的一些解决方案。 需要根据本指南中概述的相同方法解决已更新测试中报告的问题。

高级验证方案

当你对现有群集做出更改时,可能不需要运行所有的群集验证测试。 下表列出了可能对群集进行的更改类型以及要运行的相应测试。

下表中显示的所需验证测试的关键:

  • 完整:运行一整套测试。 这需要将群集停机一段时间。
  • 单一 LUN:运行一整套测试,并且只在一个 LUN 上运行存储测试。 该 LUN 可能是你留出的用于测试的一个小型 LUN,或者是见证磁盘(如果群集使用见证磁盘)。 这会验证存储子系统,但不会专门验证每个 LUN 或磁盘。 运行这些验证测试不会造成群集服务或应用程序停机。
  • 省略存储测试:运行系统配置、清单和网络测试,而非存储测试。 运行这些验证测试不会造成群集角色停机。
  • :不需要验证测试。

服务器更改

更改 所需的验证测试
以物理方式更换或更改群集中使用的服务器 完全
添加或移除 CPU
在服务器上添加或移除 RAM
添加、移除或更换网络适配器 省略存储测试
更新固件或现有的网络驱动程序 省略存储测试
更改 BIOS 设置或固件版本
添加或更改除网络或存储组件以外的外围设备,例如 CD-ROM 或 DVD 驱动器、磁带驱动器、视频卡、声音设备和 USB 设备

操作系统更改

更改 所需的验证测试
应用影响存储堆栈的操作系统 Service Pack、软件更新或修补程序 单一 LUN
应用不影响存储堆栈的软件更新或修补程序 省略存储测试
安装没有内核模式或筛选器驱动程序的应用程序
更改或新增内核模式驱动程序 单一 LUN

群集配置更改

更改 所需的验证测试
将新节点添加到群集 完全
添加使用不同硬件的新节点 完全
从群集中删除节点
更改配额配置

共享存储更改

更改 所需的验证测试
更改或添加存储阵列 完全
添加相同类型的另一个 SCSI 硬件 RAID 单元,该单元使用配置中已经存在的 HBA 单一 LUN
制作未成年人 (0.x) 对存储固件的修订 单一 LUN
对存储固件进行主要(x.0)修订 单一 LUN
向群集提供新的磁盘或 LUN 完整,但只测试新 LUN

SAN(交换机/集线器)更改

更改 所需的验证测试
添加或更换光纤通道交换机或集线器 完全
更改交换机模块中的端口数
对光纤通道交换机固件进行次要的 (0.x) 修订 单一 LUN
对光纤通道交换机固件进行主要的 (X.0) 修订 单一 LUN
更改交换机配置或分区 完整,但只测试更改的 LUN

主机总线适配器 (HBA) 更改

更改 所需的验证测试
更换 HBA(相同或不同的类型) 完全
添加新的 HBA(相同或不同的类型) 单一 LUN
更改 HBA 固件或 BIOS 单一 LUN
更改 HBA 驱动程序版本 单一 LUN

多路径软件更改

更改 所需的验证测试
将单路径更改为多路径,或者将多路径更改为单路径 完全
添加路径 单一 LUN
删除路径 单一 LUN
更新特定于设备的模块 (DSM) 版本 单一 LUN
更改为不同类型的 DSM,例如,不同提供商提供的 DSM 单一 LUN

多站点群集更改

更改 所需的验证测试
修改连接节点的网络 省略存储测试
对数据复制软件进行次要的 (0.x) 版本更改 单一 LUN
对数据复制软件进行主要的 (X.0) 版本更改,或者更改为不同类型的复制软件 完全

网络更改

更改 所需的验证测试
修改网络固件、软件或硬件 省略存储测试

包括存储测试

在配置的群集上执行群集验证测试时,不一定总要运行所有存储测试。 本部分介绍在包括或排除存储测试时要考虑的事项。

包括存储测试时的注意事项

默认情况下,验证配置向导将运行所有存储测试。 可以通过在向导的“测试选项” 页面上选择“仅运行选择的测试” 选项来取消选择所有或部分存储测试。 在包括存储测试后,向导的“查看存储状态”页面将显示 群集中的所有磁盘和存储池,并允许你选择要包括在存储测试中的磁盘和存储池。 存储测试要求先将分配到群集角色或群集共享卷的磁盘或存储池脱机。 因此,使用存储的任何内容在存储测试期间都无法访问它。 建议在存储验证测试中包含存储之前,将脱机使用磁盘或存储池的任何群集角色或其他进程。

测试群集 Windows PowerShell cmdlet 默认运行所有存储测试。 可以指定 -Include 参数来仅运行存储测试或特定的存储测试。 可以使用和-Disk-Pool参数来启用目标存储验证。 参数 -Disk-Pool 参数允许在存储验证测试中分别指定一个或多个磁盘或存储池。 -Disk如果参数或-Pool参数用于指定当前处于联机状态并分配给群集角色或群集共享卷的磁盘或存储池,则还必须指定-Force该参数来验证相应的磁盘或存储池;否则,在运行测试之前,必须确保群集磁盘或存储池处于脱机状态。 -Disk如果未指定参数或-Pool参数,请Test-Cluster对可供群集使用或处于群集资源脱机或失败状态的所有磁盘和存储池运行存储测试。 建议在验证测试中包含存储之前,使用磁盘或存储池的任何群集角色或其他进程处于脱机状态。

未直接连接到群集中所有节点的存储

在某些情况下,群集设计包括未连接到群集中的所有节点的存储。 一个常见的例子就是在多站点群集中, SiteA 中的群集节点连接到一组存储, SiteB 中的节点连接到不同的一组存储,并使用非 Microsoft 复制解决方案来确保两组存储具有相同的数据。 故障转移群集检测到此非对称存储配置,因此 SiteA 中的磁盘仅使用 SiteA 节点进行验证,SiteB 中的磁盘仅使用 SiteB 中的节点进行验证。

Microsoft客户支持可能会请求在生产群集上运行验证测试的一种情况是,当出现群集存储失败时,可能会导致某些基础存储配置更改或问题。 由于磁盘对使用该磁盘的群集角色的可用性影响,可能不建议将其脱机使用。 在这种情况下,可以通过从同一个共享存储设备创建或选择新 LUN 并将其提供到群集中的所有节点,来运行验证测试(包括存储测试)。 通过测试此 LUN,可以避免中断群集中已联机并仍在测试基础存储子系统的群集角色。

如果故障转移群集通过完整的验证测试集,并且将来没有硬件或软件更改,它将继续是受支持的配置。 但是,对软件组件(如驱动程序和固件)执行例程更新时,可能需要重新运行配置向导,以确保支持故障转移群集的当前配置。 以下准则可以帮助你确定是否需要运行该向导:

  • 存储堆栈的所有组件在群集中的所有节点之间应该是相同的。 多路径 I/O (MPIO) 软件和设备特定模块 (DSM) 软件组件必须相同。 建议连接到群集存储的大容量存储设备控制器(即主机总线适配器 (HBA)、HBA 驱动程序以及 HBA 固件)都相同。 如果使用不同的 HBA,则应向存储供应商验证你是否遵循其支持或推荐的配置。

  • 最佳做法是使小型 LUN 可用,以允许验证配置向导在可用存储上运行测试,而不会对群集角色产生负面影响。 如果 Microsoft 客户支持请求你运行整套的群集验证测试,则你可以使用向导选择要进行存储测试的磁盘,以验证存储是否正常工作。

不包含存储测试时的注意事项

系统配置测试、清单测试和网络测试的开销较低,可以在群集中的服务器上执行这些测试,而不会对服务器产生重大影响。

在一般的疑难解答过程中,Microsoft 客户支持可能会请求你验证生产群集(不注重存储测试)。 在此方案中,使用向导来清点硬件和软件、执行网络测试并验证系统配置。 某些方案可能只需要完整测试的子集。 例如,如果在生产群集上排查网络问题,Microsoft客户支持可能会请求你仅运行硬件和软件清单和网络测试。

常见问题解答

Windows Server 目录中会列出故障转移群集解决方案吗?

否,Microsoft不会维护故障转移群集的供应商解决方案列表。 但是,许多供应商会在其网站上列出推荐的故障转移群集解决方案和组件。

Microsoft 客户支持如何检查解决方案是否已进行验证?

验证配置向导将生成一份简单的 HTML 报告,其中明确显示了某个解决方案是否已通过所有测试。 在运行标准诊断工具 MSDT 的过程中将会收集此报告。

如果更改群集配置,例如添加节点,该怎么办? 是否要再次运行验证配置向导?

是的,每当对现有故障转移群集进行更改时,都应运行“验证配置向导”。 有关更多信息,请参阅本指南前面的 常见验证方案