你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 RDRS 将大型机和中型机数据复制到 Azure

Azure 数据库迁移服务
Azure Functions
Azure 逻辑应用
Azure SQL 数据库
Azure 存储

Rocket® 数据复制和同步 (RDRS)(即之前的 tcVISION)是 Rocket Software 开发的数据复制解决方案。 RDRS 为大型机数据复制、数据同步、数据迁移和变更数据捕获 (CDC) 到多个 Azure 数据平台服务提供了 IBM 大型机集成解决方案。

火箭®数据复制和同步是其公司的商标。 使用此标志并不意味着认可。

体系结构

数据流的体系结构图,显示如何将大型机迁移到 Azure 数据平台。

下载此体系结构的 Visio 文件

数据流

以下数据流对应于上图:

  1. RDRS 数据复制解决方案支持许多大型机数据库的 CDC,包括 IBM Db2、IBM 信息管理系统 (IMS) DB、Adabas for Software AG、CA Datacom 和 Computer Associates 集成数据管理系统 (CA IDMS)。 RDRS 提供基于日志的 CDC 代理,以捕获记录级别的变更数据。 此基于日志的 CDC 对生产源数据库的影响最小。

  2. RDRS 支持来自虚拟存储访问方法文件的 CDC。

  3. 任务在大型机上启动。 在大型机上创建的启动任务 (STC) 属于 RDRS 软件安装过程的一部分。 两个关键 STC 是:

    • 捕获代理,用于捕获源中已更改的数据。

    • 应用代理,它使用数据库管理系统(DBMS)特定的 API 有效地将数据写入目标。

    注意

    对于 Db2 z/OS,RDRS 还通过不需要 STC 的 Db2 用户定义类型(UDT)提供无代理 CDC 解决方案。

  4. 开放式平台管理器(OPM)充当复制服务器。 此服务器包含用于自动数据映射的实用工具,可以为源和目标生成元数据。 它还包含要从源中提取数据的规则集。 服务器会转换并处理目标系统的数据,并将数据写入目标。 可以在 Linux、Unix 和 Windows (LUW)作系统上安装此组件。

  5. RDRS 应用代理使用特定于 DBMS 的 API。 这些 API 与 CDC 技术相结合,有效地实现实时数据更改。 更改从源应用到目标 Azure 数据服务,即数据库和文件。

  6. RDRS 支持将变更数据直接流式传输到 Azure 事件中心 或 Kafka。 然后,虚拟机 (VM) 中的 Azure 逻辑应用、函数或自定义解决方案会处理这些事件。

  7. RDRS 支持的 Azure 数据平台目标包括 Azure SQL 数据库、Azure Database for PostgreSQL、Azure Database for MySQL、Azure Cosmos DB 和 Azure Data Lake Storage。

  8. 进入 Azure 数据平台的数据由允许查看这些数据的 Azure 服务或其他平台使用。 这些平台包括 Power BI、Azure Synapse Analytics 或自定义应用程序。

  9. RDRS 可以从 Azure 数据库平台(例如 SQL 数据库、Azure Database for MySQL、Azure Database for PostgreSQL 或 Data Lake Storage)反向同步捕获更改。 然后,RDRS 可以将这些更改写回到大型机数据层。

  10. 大型机数据库备份和卸载文件将复制到具有 RDRS 的 Azure VM 进行大容量加载处理。

  11. RDRS 大容量加载通过使用大型机源数据来执行初始目标数据库加载。 可以直接从大型机数据存储或大型机备份或卸载文件读取源数据。 大容量加载过程会自动转换大型机数据类型,例如扩展的二进制编码十进制交换代码打包字段。 为了获得最佳性能,请使用备份或卸载数据,而不是直接读取大型机数据库。 避免直接读取,因为将卸载或备份数据移到必要的 RDRS Azure VM,并使用本机数据库加载程序可最大程度地减少网络输入/输出并减少加载时间。

使用 RDRS 将数据从 Db2 z/OS 更改为 Microsoft Fabric 本机 SQL 数据库

以下体系结构概述了如何将数据从 Db2 z/OS 几乎实时复制到 Fabric 本机 SQL 数据库。

显示完整数据复制和使用 RDRS 将数据复制过程从 Db2 z/OS 更改为 Fabric 本机 SQL 数据库的关系图。

图像中有两个主要框。 第一个主框标记为客户数据中心。 在此框中,有三个较小的框。 第一个框标记为数据库管理系统,并包含表示关系数据库的图标。 标有 ImageCopy 或 Direct Select 的双面箭头将此图标指向Microsoft Azure 框中的框。 虚线箭头也从此图标指向标记为 IBM z/OS 工作负载管理器的框。 在标记为 IBM z/OS Work Load Manager 的框中,是读取 Db2 UDT 进程以读取 Db2 日志的另一个框。 第二个主要框Microsoft Azure 组件标记。 在此框中,有四个较小的框。 还有一些箭头指示框和多个图标之间的关系。 一个框包含文本,用于读取 RDRS 打开的平台管理器和表示 LUW VM 的图标。 在此框中,有一个标记为“捕获并应用代理”的框。 一个标有数据插入的实心箭头,一个标有 DML 的虚线箭头指向标有Microsoft Fabric 的框。 第三个标有 JSON 点的虚线箭头指向表示事件中心的图标,然后指向包含读取逻辑应用、Azure Functions 或基于 VM 的解决方案的文本的图标,最后指向Microsoft Fabric 框。 标有 RDRS 仪表板的较小框包含一个图标,表示 LUW VM 和读取元数据、转换规则、进程定义的文本。 此框的点箭头指向 RDRS 打开的平台管理器框。 标记为 Microsoft Fabric 的框包含表示 Microsoft Fabric 本机 SQL 数据库的图标。 三个实心箭头源自此框上的一个点,指向表示 Power BI、客户端应用和 Azure 服务的图标。

下载此体系结构的 Visio 文件

初始数据加载

  1. 安装在客户数据中心的 IBM 大型机上的 Db2 充当复制到 Azure 云的数据源。

  2. 若要创建完整副本,RDRS 捕获代理通过对源 Db2 数据库执行 SELECT 查询来提取 Db2 数据。 如果数据大小较大,则可以将数据的映像副本备份从大型机发送到采用二进制格式的捕获 LUW VM。

  3. OPM 充当复制服务器。 此服务器包含用于自动数据映射的实用工具,可以为源和目标生成元数据。 它包含用于从源中提取数据的规则集。 服务器会转换并处理目标系统的数据,并将数据写入目标。 可以在 LUW作系统中安装此组件。

  4. RDRS 捕获并应用代理从 Db2 接收数据,作为 SELECT 查询或映像副本的输出。 RDRS 应用代理执行配置的转换后,会将数据写入目标 Fabric 本机 SQL 数据库。

  5. RDRS 应用代理将 Microsoft ODBC 驱动程序与 Azure SQL Microsoft Entra ID 身份验证配合使用,以有效地将数据写入目标 Fabric 本机 SQL 数据库。

  6. 数据引入到 Fabric 本机 SQL 数据库中。

  7. 数据进入 Fabric 本机 SQL 数据库后,Azure 服务或其他授权实体会使用它,例如 Fabric Analytics、Power BI 或自定义应用程序。

CDC

A. 安装在客户数据中心的 IBM 大型机上的 Db2 充当复制到 Azure 云的数据源。 RDRS 提供从 Db2 检索基于日志的更改数据的功能。

B. RDRS 定义用于读取 Db2 日志的 Db2 UDT 进程。 UDT 在 IBM 工作负荷管理器环境中运行,并由 Db2 DBMS 管理。 UDT 读取日志数据,并将此数据存储在内存中以供传输。

C. OPM 充当复制服务器,配备了用于自动数据映射的实用工具,为源和目标生成元数据。 它包括用于从源中提取数据的规则集、转换和处理目标系统的数据,并将其写入目标。 可以在 LUW作系统上安装此组件。 RDRS 捕获和应用代理从 UDT 进程接收数据。 应用代理配置转换后,会将数据写入目标 Fabric SQL 数据库。

D. RDRS 仪表板接口支持对数据交换进程进行管理、作、控制和监视。 RDRS 命令行实用工具可帮助自动执行数据交换过程并管理数据同步过程的无人参与作。

E. RDRS 应用代理将 Microsoft ODBC 驱动程序与 azure SQL Microsoft Entra ID 身份验证配合使用,对目标 Fabric 本机 SQL 数据库执行数据作语言查询。

F. 数据进入 Fabric 本机 SQL 数据库后,Azure 服务或其他授权实体会使用它,包括 Fabric Analytics、Power BI 或自定义应用程序。

G. RDRS 还提供将捕获的数据作为 JSON 写入事件中心或 Kafka 的功能。

H. 事件中心充当 CDC 数据消息的存储平台。

一。 逻辑应用、Azure Functions 或 Azure VM 中基于服务的自定义逻辑解决方案的基础结构可以使用来自事件中心的消息来执行自定义处理。

组件

此解决方案使用以下组件。

网络和标识组件

此体系结构是指以下网络服务,这些服务可以单独使用或组合使用以提高安全性。

  • Azure ExpressRoute 是一项服务,可用于通过连接提供商处理的专用连接将本地网络扩展到 Microsoft 云。 可以使用 ExpressRoute 建立与云服务(如 Microsoft Azure 和 Microsoft 365)的高度安全可靠连接。

  • Azure VPN 网关 是一种特定类型的虚拟网络网关,用于通过公共 Internet 在 Azure 虚拟网络和本地位置之间发送加密流量。

  • Microsoft Entra ID 是一种标识和访问管理服务,可与本地目录同步。

应用程序组件

  • 逻辑应用 按计划创建并运行自动重复任务和进程。 可以调用 Azure 内部和外部的服务(例如 HTTP 或 HTTPS 终结点)、将消息发送到 Azure 存储和 Azure 服务总线等 Azure 服务,或者将文件上传到文件共享。

  • Azure Functions 是一项云服务,可用于运行称为函数的小代码片段,而无需管理或配置底层应用程序基础结构。 可以使用 Azure Functions 自动执行任务、处理数据、集成系统和生成可缩放的应用程序。 云基础结构提供 up-to日期服务器,这些服务器需要使应用程序大规模运行。

  • Azure VM 是按需、可缩放的计算资源。 Azure VM 可以灵活地实现虚拟化,并消除了物理硬件的维护需求。 Azure VM 在 Windows 和 Linux 系统上运行。

存储和数据库组件

此体系结构讨论数据迁移到可缩放、更安全的云存储和托管数据库,以便在 Azure 中实现灵活的智能数据管理。

  • 存储 提供非托管存储解决方案,例如 Azure Blob 存储、Azure 表存储、Azure 队列存储和 Azure 文件存储。 Azure 文件尤其适用于重新设计的大型机解决方案,并可通过托管 SQL 存储提供有效的附加功能。

  • Azure SQL 是 Azure 上 SQL Server 的完全托管平台即服务。 可以迁移关系数据并将其有效地用于其他 Azure 组件,包括 Azure SQL 托管实例、Azure SQL VM、Azure Database for PostgreSQL 和 Azure Database for MySQL。

  • Azure Cosmos DB 是一种无 SQL 产品/服务,可用于从大型机迁移非表格数据。

  • Fabric 中的 SQL 数据库 是支持联机事务处理工作负载的主要平台,提供简化设置和管理。 它具有一个几乎实时自动将数据复制到 OneLake 的系统,这使得它非常适合分析任务。 它与开发框架和分析工具集成。 此集成有助于确保各种应用程序的兼容性和灵活性。 通过 Fabric 中的 SQL 数据库,可以像 SQL 数据库一样运行查询,并包括可通过 Fabric 门户访问的基于 Web 的编辑器。

监视组件

  • Azure Monitor 提供了一个全面的解决方案,用于从云和本地环境收集、分析和处理遥测数据。

  • Application Insights 分析和呈现应用程序遥测。

  • Azure Monitor 日志 是 Monitor 的一项功能,它从受监视的资源收集和整理日志和性能数据。 可以使用复杂的查询语言将来自多个源的数据(例如来自 Azure 服务的平台日志、VM 代理中的日志和性能数据以及应用程序的使用情况和性能数据)合并到单个工作区中,以便使用复杂的查询语言来快速分析数百万条记录。

  • Log Analytics 是 Azure 门户中的工具。 可以使用日志查询从 Azure Monitor 日志中收集的数据中获取见解。 Log Analytics 使用功能强大的查询语言,以便你可以联接来自多个表的数据、聚合大型数据集,以及使用最少的代码执行复杂作。

方案详细信息

大型机是处理大量事务的服务器。 大型机应用程序每天都要生成和使用大量数据。 公共云提供了弹性、成本优化、易用性和易集成性。 许多 x86 和大型机应用程序都正在向云迁移,因此组织必须制定完善的大型机到云数据集成和迁移战略。

此方案使用火箭软件提供的 RDRS 将 IBM Z 大型机数据层与 Azure 云数据平台集成。

可能的用例

此解决方案非常适合将大规模数据迁移到 Azure 数据平台。 以下用例可以考虑本方案:

  • 大型机数据层的完整迁移: 在此用例中,客户希望将所有 Db2、IMS、IDMS、文件和其他数据从大型机移到 Azure 数据平台。

  • 大型机和基于 Azure 的应用程序共存: 在此用例中,客户需要支持大型机与 Azure 数据平台之间的双向同步。

  • 档案: 在此用例中,客户希望出于审核和合规性目的存储数据,但不希望经常访问此数据。 Azure 存储提供用于存储存档数据的低成本解决方案。

注意事项

这些注意事项实施 Azure 架构良好的框架的支柱原则,即一套可用于改进工作负荷质量的指导原则。 有关详细信息,请参阅 Well-Architected Framework

可靠性

可靠性有助于确保应用程序能够履行对客户的承诺。 有关详细信息,请参阅可靠性设计评审核对清单

  • 在 Azure VM 上设置 RDRS OPM,这些 VM 部署在单独的可用性区域中以提供高可用性。 如果发生故障,则会激活辅助 RDRS OPM 并将其 IP 地址传递给 RDRS 大型机管理器。 然后,大型机使用逻辑工作单元和重启文件的组合,与新的 RDRS OPM 通信,该 OPM 将继续在其下一个逻辑重启点进行处理。

  • 设计支持区域冗余的 Azure 数据库服务,以便在出现故障或计划维护窗口时,它们可以故障切换到辅助节点。

  • 使用 Azure Monitor 和 Application Insights 来监控 Azure 资源的运行状况。 可以设置警报进行主动管理。

安全性

安全性提供针对故意攻击和滥用宝贵数据和系统的保证。 有关详细信息,请参阅可靠性设计审查检查表

  • 使用 Microsoft Entra ID 来控制 RDRS 的身份验证和访问。

  • 使用传输层安全性(TLS)加密 RDRS 产品之间的数据传输,例如从大型机传输到 Azure。

  • 使用 ExpressRoute 或站点到站点 VPN 从本地环境与 Azure 建立更专用高效的连接。

  • 使用 Microsoft Entra ID 对 Azure 资源进行身份验证,并使用基于角色的访问控制管理权限。

  • 使用 Azure 中的数据库服务支持各种安全选项,例如静态数据的透明数据加密、传输中的数据 TLS 以及处理时的数据加密,以帮助确保数据始终加密。 有关详细信息,请参阅 Azure 安全文档 和安全 基线

成本优化

成本优化侧重于减少不必要的开支和提高运营效率的方法。 有关详细信息,请参阅 成本优化的设计评审清单。

要估计此解决方案的实现成本,请使用 Azure 定价计算器

性能效率

性能效率是指工作负荷能够高效地缩放以满足用户需求。 有关详细信息,请参阅 性能效率的设计评审清单。

伸缩性

  • 通过运行多个并行复制流,为 CDC 处理设置 RDRS 缩放。 首先,分析逻辑事务中包含的文件。 这些文件必须按顺序一起处理。 RDRS CDC 过程有助于确保每个逻辑事务的完整性。 例如,不参与常见事务的表集可以通过创建多个处理脚本来切分为并行任务。

  • RDRS 可以在提供水平可伸缩性的单个 Azure VM 或多个 Azure VM 上同时运行并行并发大容量加载处理。 按任意间隔或按行筛选方式将处理过程拆分为多个任务,对大型表格执行快速批量加载操作。 行筛选可以使用键、分区键、日期和其他筛选器。

  • SQL 数据库无服务器计算层基于工作负荷提供自动缩放选项。 可以通过使用自动化来纵向扩展和缩减其他 Azure 数据库,从而满足工作负荷需求。 有关详细信息,请参阅 Azure 中的自动缩放最佳做法

作者

Microsoft维护本文。 以下参与者撰写了本文。

主要作者:

其他参与者:

要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。

后续步骤