使用 Precisely Connect 复制大型机数据
本文介绍如何使用 Precisely Connect 将大型机和中型机系统迁移到 Azure。
Apache®、Spark 和火焰徽标是 Apache Software Foundation 在美国和/或其他国家/地区的商标或注册商标。 使用这些标记并不暗示获得 Apache Software Foundation 的认可。
体系结构
下载此体系结构的 Visio 文件。
工作流
- Connect 代理组件使用大型机或中型机的原生实用工具捕获更改日志,并将日志缓存在临时存储中。
- 对于大型机系统,由大型机上的发布服务器组件管理数据迁移。
- 对于中型机系统,由侦听器组件而非发布服务器组件管理数据迁移。 它位于 Windows 或 Linux 计算机上。
- 发布服务器或侦听器通过增强的安全连接将数据从本地移动到 Azure。 发布服务器或侦听器处理每个工作单元的事务提交和回滚,以维护数据的完整性。
- Connect Replicator Engine 从发布服务器或侦听器捕获数据并将其应用于目标。 它分发数据进行并行处理。
- 目标是通过 ODBC 接收更改或通过 Azure 事件中心引入更改的数据库。
- 更改的数据由 Azure Databricks 使用,并应用于 Azure 数据平台服务。
- Connect Controller Daemon 对请求进行身份验证,并在发布服务器或侦听器与 Replicator Engine 之间建立套接字连接。
组件
网络和标识
- Azure ExpressRoute 可通过连接提供商提供的专用连接将你的本地网络扩展到 Azure 云平台。
- Azure VPN 网关使你可以创建能够通过公共 Internet 在 Azure 虚拟网络和本地位置之间发送加密流量的虚拟网络网关。
- Microsoft Entra ID 是与本地 Active Directory 同步的标识和访问管理服务。
存储
- Azure SQL 数据库属于 Azure SQL 系列。 它专为云构建,并提供完全托管且经久不衰的平台即服务 (PaaS) 的所有优势。 SQL 数据库还包含由 AI 提供支持的自动化功能,这些功能可优化性能和持续性。 无服务器计算和超大规模存储选项可按需自动缩放资源。
- Azure Database for PostgreSQL 是基于开放源代码 PostgreSQL 数据库引擎社区版本的完全托管的关系数据库服务。
- Azure Database for MySQL 是一种完全托管的关系数据库服务,它基于社区版开源 MySQL 数据库引擎。
- Azure SQL 托管实例是一种可缩放的智能云数据库服务;它提供完全托管且经久不衰的 PaaS 的所有优势。 SQL 托管实例与最新的 SQL Server Enterprise Edition 数据库引擎几乎 100% 兼容。 它还提供用于解决常见安全问题的本机虚拟网络实现。
- Azure Synapse Analytics 是快速且灵活的云数据仓库,可帮助你使用大规模并行处理体系结构以弹性且独立的方式缩放、计算和存储。
- Azure 存储是一种云存储解决方案,包括对象、文件、磁盘、队列和表存储。 服务包括用于传输、共享和备份数据的混合存储解决方案和工具。
分析和报告
- Power BI 是一套业务分析工具,用于在整个组织内提供见解。 使用 Power BI,可以连接到数百个数据源,简化数据准备并推动即席分析。
监视
- Azure Monitor 提供了一个全面的解决方案,用于从云和本地环境收集、分析和处理遥测。 功能包括 Application Insights、Azure Monitor 日志和 Log Analytics。
数据集成商
- Precisely Connect 可以集成来自多个源的数据,并可实时复制到 Azure。 可以使用它来复制数据,而无需对应用程序进行更改。 Connect 还可以提高提取、转换、加载 (ETL) 作业的性能。
- Azure Databricks 基于 Apache Spark,并与开源库集成。 它提供了一个用于运行分析工作负载的统一平台。 可以使用 Python、Scala、R 和 SQL 语言来构建 ETL 管道的框架并协调作业。
- Azure 事件中心是一项实时引入服务,每秒可处理数百万条记录。 可以从多个源引入数据,并将其用于实时分析。 可以根据数据量轻松缩放事件中心。
方案详细信息
可以使用各种策略将大型机和中型机系统迁移到 Azure。 数据迁移在此过程中起着关键作用。 在混合云体系结构中,需要在大型机或中型机系统和 Azure 数据平台之间复制数据。 要维护数据的完整性,需要对业务关键型应用程序进行实时复制。 Precisely Connect 有助于你使用变更数据捕获 (CDC) 或使用批量引入将数据从大型机和中型机数据源实时复制到 Azure 数据平台。
Precisely Connect 支持各种大型机和中型机数据源,包括 Db2 z/OS、Db2 LUW、Db2 for i、IMS、VSAM、文件和 copybook。 它会将它们迁移到 Azure 目标,例如 SQL 数据库、Azure Database for PostgreSQL、Azure Database for MySQL、Azure Data Lake Storage 和 Azure Synapse Analytics,而不会影响应用程序。 它还支持基于数据量和客户需求进行缩放。 它复制数据时不会影响性能或使网络承受重负。
可能的用例
此解决方案适用于以下场景:
- 将数据从大型机和中型机数据源复制到 Azure 数据平台。
- 在混合云体系结构中,大型机或中型机系统与 Azure 数据平台之间的数据会进行同步。
- 基于大型机或中型机系统的操作数据对 Azure 进行准实时分析。
- 将数据从大型机或中型机系统迁移到 Azure,而不会影响应用程序。
注意事项
这些注意事项实现 Azure Well-Architected 框架的支柱,这是一组指导原则,可用于提高工作负荷的质量。 有关详细信息,请参阅 Microsoft Azure 架构良好的框架。
可靠性
可靠性可确保应用程序能够履行对客户的承诺。 有关详细信息,请参阅 可靠性的设计评审清单。
使用 Azure Monitor 和 Application Insights 监视数据迁移。 设置警报进行主动管理。 有关 Azure 中可靠性的详细信息,请参阅设计可靠的 Azure 应用程序。
成本优化
成本优化是研究减少不必要的开支和提高运营效率的方法。 有关详细信息,请参阅 成本优化的设计评审清单。
- 将数据复制到 Azure 并在 Azure 服务中进行处理比在大型机系统中维护数据更经济高效。
- Azure 门户中的成本管理工具提供了一个成本分析视图,可帮助你分析支出。
- 可使用 Azure Databricks 通过自动缩放功能来调整群集的大小,以优化成本。 这样做的成本可能低于使用固定配置的成本。
- Azure 顾问提供关于优化性能和成本管理的建议。
要估计此解决方案的实现成本,请使用 Azure 定价计算器。
性能效率
性能效率是工作负荷的缩放能力,以满足用户以高效方式满足它的需求。 有关详细信息,请参阅 性能效率的设计评审清单。
- Precisely Connect 可根据数据量进行缩放并优化数据复制。
- Connect Replicator Engine 可分发数据进行并行处理。 你可根据工作负载的引入来平衡分布情况。
- SQL Database 无服务器可以根据工作负载量自动缩放。
- 事件中心可以根据吞吐量单位和分区数进行缩放。
有关详细信息,请参阅 Azure 中的自动缩放最佳做法。
作者
本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。
主要作者:
- Seetharaman Sankaran | 高级工程架构师
其他参与者:
- Mick Alberts | 技术文档撰写人
要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。