Azure Data Lake Analytics 将于 2024 年 2 月 29 日停用。 通过此公告了解详细信息。
如果已在使用 Azure Data Lake Analytics,则可以为组织创建到 Azure Synapse Analytics 的迁移计划。
Microsoft推出了 Azure Synapse Analytics,旨在将数据湖和数据仓库汇集在一起,获得独特的大数据分析体验。 它将帮助你收集和分析数据,以解决数据效率低下的问题,并帮助团队协同工作。 此外,Synapse 与 Azure 机器学习和 Power BI 的集成将使组织能够从其数据获取见解,并将机器学习执行到其所有智能应用。
本文档演示如何从 Azure Data Lake Analytics 迁移到 Azure Synapse Analytics。
建议的方法
- 步骤1:评估准备情况
- 步骤 2:准备进行迁移
- 步骤 3:迁移数据和应用程序工作负载
- 步骤 4:从 Azure Data Lake Analytics 直接转换到 Azure Synapse Analytics
步骤1:评估准备情况
查看 Azure Synapse Analytics 上的 Apache Spark,并了解 Azure Synapse Analytics 上的 Azure Data Lake Analytics 和 Spark 的主要差异。
条目 Azure Data Lake Analytics Synapse 上的 Spark 定价 每分析单位小时 每个 vCore 小时 引擎 Azure Data Lake Analytics Apache Spark 默认编程语言 U-SQL T-SQL、Python、Scala、Spark SQL 和 .NET 数据源 Azure Data Lake Storage Azure Blob 存储、Azure Data Lake Storage 查看 迁移评估问卷 ,并列出考虑的可能风险。
步骤 2:准备进行迁移
标识要迁移的作业和数据。
- 利用这个机会清理那些你不再使用的任务。 除非计划一次迁移所有作业,否则请花时间确定可在阶段迁移的作业的逻辑组。
- 评估数据的大小并了解 Apache Spark 数据格式。 查看 U-SQL 脚本并评估脚本重写工作并了解 Apache Spark 代码概念。
确定迁移将对你的业务造成的影响。 例如,迁移发生时是否可以承受任何停机时间。
创建迁移计划。
步骤 3:迁移数据和应用程序工作负荷
将数据从 Azure Data Lake Storage Gen1 迁移到 Azure Data Lake Storage Gen2。
Azure Data Lake Storage Gen1 停用将于 2024 年 2 月,请参阅 官方公告。 我们建议首先将数据迁移到 Gen2。 请参阅 了解 Azure Data Lake Analytics U-SQL 开发人员的 Apache Spark 数据格式 ,并移动 U-SQL 表中存储的文件和数据,使其可供 Azure Synapse Analytics 访问。 可在 此处找到迁移指南的更多详细信息。将 U-SQL 脚本转换为 Spark。 请参阅 Azure Data Lake Analytics U-SQL 开发人员的 Apache Spark 代码概念 ,将 U-SQL 脚本转换为 Spark。
将作业业务流程管道转换或重新创建到新的 Spark 程序。
步骤 4:从 Azure Data Lake Analytics 切换到 Azure Synapse Analytics
确信应用程序和工作负载稳定后,可以开始使用 Azure Synapse Analytics 来满足业务方案。 关闭在 Azure Data Lake Analytics 上运行的任何剩余管道,并停用 Azure Data Lake Analytics 帐户。
迁移评估问卷
类别 | 问题 | 参考文献 |
---|---|---|
评估迁移的大小 | 你拥有多少个 Azure Data Lake Analytics 帐户? 多少个管道正在使用? 正在使用多少个 U-SQL 脚本? | 要迁移的数据和脚本越多,脚本中使用的 UDO/UDF 越多,迁移难度就越大。 迁移所需的时间和资源需要根据项目的规模进行充分规划。 |
数据源 | 数据源的大小是多少? 要处理哪种类型的数据格式? | 了解 Azure Data Lake Analytics U-SQL 开发人员的 Apache Spark 数据格式 |
数据输出 | 是否保留输出数据供以后使用? 如果输出数据保存在 U-SQL 表中,如何处理它? | 如果输出数据经常使用并在 U-SQL 表中保存,则需要更改脚本并将输出数据更改为 Spark 支持的数据格式。 |
数据迁移 | 是否已制定存储迁移计划? | 将 Azure Data Lake Storage 从 Gen1 迁移到 Gen2 |
U-SQL 脚本转换 | 是否使用 UDO/UDF (.NET、python 等) ?如果上述答案是肯定的,你在 UDO/UDF 中使用哪种语言,以及转换过程中转换的任何问题?是否在 U-SQL 中使用联合查询? | 了解 Azure Data Lake Analytics U-SQL 开发人员的 Apache Spark 代码概念 |