你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 上的大型机文件复制和同步

Azure 数据工厂
Azure Data Lake
Azure SQL 数据库
Azure 存储
Azure 虚拟机

解决方案构想

本文介绍了一种解决方案构想。 云架构师可以通过本指南来帮助可视化此体系结构的典型实现的主要组件。 以本文为起点,设计一个符合工作负荷特定要求的架构合理的解决方案。

将本地大型机或中型应用程序迁移到 Azure 时,数据传输是一个关键考虑因素。 多种现代化方案要求快速将文件复制到 Azure,或在本地文件和 Azure 文件之间保持同步。

本文介绍了将文件传输到 Azure、转换和转换文件数据以及在本地和 Azure 中存储数据的几种方法。

体系结构

此图显示了将本地文件迁移到 Azure 的三个步骤:数据传输、转换和转换,以及存储在持久性存储中。

下载此体系结构的 Visio 文件

数据流

以下数据流对应于上图:

  1. 将文件传输到 Azure:

    • 将本地文件传输到 Azure 的最简单方法是使用文件传输协议(FTP)。 可以在 Azure 虚拟机 (VM) 上托管 FTP 服务器。 简单的 FTP 作业控制语言 (JCL) 以二进制格式将文件发送到 Azure,这对于保留大型机计算、中型计算和二进制数据类型至关重要。 可以将传输的文件存储在本地磁盘、Azure VM 文件存储或 Azure Blob 存储中。

    • 还可使用 AzCopy 等工具将本地文件上传到 Blob 存储。

    • Azure 数据工厂 FTP 或安全文件传输协议 (SFTP) 连接器可用于将数据从大型机系统传输到 Blob 存储。 此方法需要安装自承载集成运行时的中间 VM。

    • 还可以在 Azure 市场中 查找非Microsoft工具,以将文件从大型机传输到 Azure。

  2. 协调和转换数据:

    • Azure 无法读取 Azure VM 磁盘或 Blob 存储中的 IBM 广义二进制编码的十进制交换码 (EBCDIC) 代码页文件。 为了使这些文件与 Azure 字符集兼容,Host Integration Server (HIS) 将文件从 EBCDIC 转换为 American Standard Code for Information Interchange (ASCII) 格式。

      Copybook 定义 COBOL、PL/I 和汇编语言文件的数据结构。 HIS 根据 copybook 布局将这些文件转换为 ASCII。

    • 可以使用适用于 IBM 主机文件的 Azure 逻辑应用连接器来实现大型机文件数据转换。

    • 将数据传输到 Azure 数据存储之前,可能需要转换数据或使用这些数据进行分析。 Azure 数据工厂可以管理这些提取-转换加载(ETL)和提取-加载转换(ELT)活动,并将数据直接存储在 Azure Data Lake Storage 中。

    • 对于大数据集成,Azure Databricks 和 Azure Synapse Analytics 可以使用 Apache Spark 引擎进行内存中计算,快速有效地执行所有转换活动。

  3. 存储数据:

    你可根据要求将传输的数据存储在几种可用的持久 Azure 存储模式之一中。

    • 如果不需要分析,Azure 数据工厂可以直接将数据存储在各种存储选项中,例如 Data Lake Storage 和 Blob 存储。

    • Azure 托管满足不同需求的各种数据库

      • 关系数据库包括 SQL Server 系列和开源数据库,如 PostgreSQL 和 MySQL。

      • 非关系数据库包括 Azure Cosmos DB,这是一个快速、多模型、全球分布式 NoSQL 数据库。

    查看分析和商业智能。 Microsoft Fabric 是一种一体化分析解决方案,组织可用于研究数据移动、试验数据科学以及查看实时分析和商业智能。 它提供全面的功能套件,包括数据湖、数据工程和数据集成。

组件

此体系结构使用以下组件。

网络

此体系结构使用 本地数据网关 作为网桥软件将本地大型机数据连接到云服务。 可以将网关安装在专用的本地 VM 上

数据集成和转换

此体系结构概述了组织可以根据大型机源数据和目标数据库使用的各种 Azure 本机迁移工具。

  • 主机文件的数据提供程序HIS 的一个组件,可将 EBCDIC 代码页文件转换为 ASCII。 提供程序可以在本地二进制文件中脱机读取和写入记录。 或者,它可以使用系统网络体系结构(SNA)或传输控制协议/Internet 协议(TCP/IP)读取和写入远程 IBM z/OS 大型机数据集或 i5/OS 物理文件中的记录。 HIS 连接器适用于 BizTalk逻辑应用

  • Azure 数据工厂 是一种混合数据集成服务,可用于创建、计划和协调 ETL 和 ELT 工作流。 在此体系结构中,Azure 数据工厂用于通过 FTP 将大型机文件发送到 Blob 存储。

  • Azure Databricks 是针对 Azure 优化的基于 Apache Spark 的分析平台。 可以使用 Azure Databricks 关联传入数据,并将其与 Azure Databricks 中存储的其他数据进行扩充。

  • Azure Synapse Analytics 是一个快速灵活的云数据仓库,具有大规模并行处理体系结构,可用于弹性、独立地缩放、计算和存储数据。 将其加载到 Azure 数据库之前,它可用于大型机数据转换。

  • 逻辑应用 是一种基于云的服务,可用于自动执行工作流,并跨不同环境集成应用程序、数据和服务。 它提供与大型机系统交互的本机 IBM 主机文件连接器,用于读取、分析和生成主机文件内容。

数据库

此体系结构概述了将大型机文件数据迁移到 Azure 中的云存储和托管数据库的过程。 它包括转换大型机文件元数据以匹配 Azure 中的目标架构。

  • Azure SQL 数据库是一项可缩放的关系云数据库服务。 SQL 数据库是常青的,始终 up-to日期,具有 AI 支持的自动化功能,可优化性能和持久性。 无服务器计算和超大规模存储选项可按需自动缩放资源。 借助 Azure 混合权益,可在云上免费使用现有的本地 SQL Server 许可证。

  • Azure SQL 托管实例 结合了最广泛的 SQL Server 数据库引擎兼容性,以及完全托管且常绿的平台即服务的所有优势。 借助 SQL 托管实例,你可以使用熟悉的工具、技能和资源对现有应用进行大规模现代化。

  • Azure 虚拟机上的 SQL Server 将 SQL Server 工作负载直接迁移到云,以将 Azure 的灵活性和混合连接与 SQL Server 性能、安全性和分析相结合。 可以使用总代码兼容性访问最新的 SQL Server 更新和版本。

  • Azure Database for PostgreSQL 是基于社区版开源 PostgreSQL 数据库引擎的完全托管的关系数据库服务。

  • Azure Database for MySQL 是基于社区版开源 MySQL 数据库引擎的完全托管的关系数据库服务。

  • Azure Cosmos DB 是一项完全托管的多模型 NoSQL 数据库服务,用于生成和现代化可缩放的高性能应用程序。 Azure Cosmos DB 可弹性缩放吞吐量和存储,并跨地理区域独立缩放吞吐量和存储,并保证全球任何地方的 99 毫秒响应时间和第 99 百分位可用性。

其他数据存储

  • Blob 存储 是一种基于云的对象存储解决方案,用于存储大量非结构化数据,例如文本或二进制数据。 可以通过 HTTP 或 HTTPS 从任意位置访问此数据。 可以使用 Blob 存储公开数据,或者私下存储应用程序数据。

  • Data Lake Storage 是一个存储库,可以按原生的原始格式存储大量的数据。 Data Lake Storage 可为具有 TB 和 PB 级数据的大数据分析工作负载提供扩展功能。 数据通常来自多个异类源,并且可以结构化、半结构化或非结构化。

方案详细信息

将大型机文件从 EBCDIC 编码的格式转换为 ASCII 格式是将数据从大型机系统迁移到 Azure 云存储和数据库所必需的。 大型机应用程序每天生成和处理大量数据。 必须准确转换此数据才能在其他平台上使用。

当组织转换大型机文件系统数据时,应将文件元数据转换为云原生示意图。 并制定包含有效文件转换技术的迁移策略。

可能的用例

本地文件复制和同步对于各种用例至关重要:

  • 下游或上游依赖项,例如,在大型机上运行的应用程序和在 Azure 上运行的应用程序需要通过文件交换数据

  • 使用本地应用程序并行测试 Azure 上重新托管或重新设计的应用程序

  • 无法立即修正或现代化系统上紧密耦合的本地应用程序

作者

Microsoft维护本文。 以下参与者撰写了本文。

主要作者:

若要查看非公开的LinkedIn个人资料,请登录LinkedIn。

后续步骤