将 Azure Data Lake Analytics 迁移到 Azure Synapse Analytics

Azure Data Lake Analytics 将于 2024 年 2 月 29 日停用。 通过此公告了解详细信息。

如果已在使用 Azure Data Lake Analytics,则可以为组织创建到 Azure Synapse Analytics 的迁移计划。

Microsoft推出了 Azure Synapse Analytics,旨在将数据湖和数据仓库汇集在一起,获得独特的大数据分析体验。 它将帮助你收集和分析数据,以解决数据效率低下的问题,并帮助团队协同工作。 此外,Synapse 与 Azure 机器学习和 Power BI 的集成将使组织能够从其数据获取见解,并将机器学习执行到其所有智能应用。

本文档演示如何从 Azure Data Lake Analytics 迁移到 Azure Synapse Analytics。

  • 步骤1:评估准备情况
  • 步骤 2:准备进行迁移
  • 步骤 3:迁移数据和应用程序工作负载
  • 步骤 4:从 Azure Data Lake Analytics 直接转换到 Azure Synapse Analytics

步骤1:评估准备情况

  1. 查看 Azure Synapse Analytics 上的 Apache Spark,并了解 Azure Synapse Analytics 上的 Azure Data Lake Analytics 和 Spark 的主要差异。

    条目 Azure Data Lake Analytics Synapse 上的 Spark
    定价 每分析单位小时 每个 vCore 小时
    引擎 Azure Data Lake Analytics Apache Spark
    默认编程语言 U-SQL T-SQL、Python、Scala、Spark SQL 和 .NET
    数据源 Azure Data Lake Storage Azure Blob 存储、Azure Data Lake Storage
  2. 查看 迁移评估问卷 ,并列出考虑的可能风险。

步骤 2:准备进行迁移

  1. 标识要迁移的作业和数据。

    • 利用这个机会清理那些你不再使用的任务。 除非计划一次迁移所有作业,否则请花时间确定可在阶段迁移的作业的逻辑组。
    • 评估数据的大小并了解 Apache Spark 数据格式。 查看 U-SQL 脚本并评估脚本重写工作并了解 Apache Spark 代码概念。
  2. 确定迁移将对你的业务造成的影响。 例如,迁移发生时是否可以承受任何停机时间。

  3. 创建迁移计划。

步骤 3:迁移数据和应用程序工作负荷

  1. 将数据从 Azure Data Lake Storage Gen1 迁移到 Azure Data Lake Storage Gen2。

    Azure Data Lake Storage Gen1 停用将于 2024 年 2 月,请参阅 官方公告。 我们建议首先将数据迁移到 Gen2。 请参阅 了解 Azure Data Lake Analytics U-SQL 开发人员的 Apache Spark 数据格式 ,并移动 U-SQL 表中存储的文件和数据,使其可供 Azure Synapse Analytics 访问。 可在 此处找到迁移指南的更多详细信息。

  2. 将 U-SQL 脚本转换为 Spark。 请参阅 Azure Data Lake Analytics U-SQL 开发人员的 Apache Spark 代码概念 ,将 U-SQL 脚本转换为 Spark。

  3. 将作业业务流程管道转换或重新创建到新的 Spark 程序。

步骤 4:从 Azure Data Lake Analytics 切换到 Azure Synapse Analytics

确信应用程序和工作负载稳定后,可以开始使用 Azure Synapse Analytics 来满足业务方案。 关闭在 Azure Data Lake Analytics 上运行的任何剩余管道,并停用 Azure Data Lake Analytics 帐户。

迁移评估问卷

类别 问题 参考文献
评估迁移的大小 你拥有多少个 Azure Data Lake Analytics 帐户? 多少个管道正在使用? 正在使用多少个 U-SQL 脚本? 要迁移的数据和脚本越多,脚本中使用的 UDO/UDF 越多,迁移难度就越大。 迁移所需的时间和资源需要根据项目的规模进行充分规划。
数据源 数据源的大小是多少? 要处理哪种类型的数据格式? 了解 Azure Data Lake Analytics U-SQL 开发人员的 Apache Spark 数据格式
数据输出 是否保留输出数据供以后使用? 如果输出数据保存在 U-SQL 表中,如何处理它? 如果输出数据经常使用并在 U-SQL 表中保存,则需要更改脚本并将输出数据更改为 Spark 支持的数据格式。
数据迁移 是否已制定存储迁移计划? 将 Azure Data Lake Storage 从 Gen1 迁移到 Gen2
U-SQL 脚本转换 是否使用 UDO/UDF (.NET、python 等) ?如果上述答案是肯定的,你在 UDO/UDF 中使用哪种语言,以及转换过程中转换的任何问题?是否在 U-SQL 中使用联合查询? 了解 Azure Data Lake Analytics U-SQL 开发人员的 Apache Spark 代码概念

后续步骤