在 Azure HDInsight 中使用 Apache Spark 和 Kafka 执行高级流数据转换

中级
数据工程师
数据科学家
Azure HDInsight

在本模块中,你将了解如何通过将 Azure HDInsight 与 Apache Kafka 及 Apache Spark 结合,在云上创建实时流数据分析管道和应用程序。

学习目标

本模块结束后,你将了解:

  • 何时使用 Apache Spark 和 Kafka 与 HDInsight 配合。
  • Spark 结构化流式处理。
  • Kafka 和 Spark 解决方案的体系结构。
  • 如何预配 HDInsight,创建 Kafka 制作者以及如何将 Kafka 数据流式传输到 Jupyter 笔记本。
  • 如何将数据复制到辅助群集。

先决条件

应完成以下先决条件:

  • 成功登录到 Azure 门户。
  • 了解 Azure 存储选项。
  • 了解 Azure 计算选项。
  • 在 Azure 门户中创建和配置 HDInsight 群集。