创建 Spark 群集

已完成

可以使用 Azure Databricks 门户在 Azure Databricks 工作区中创建一个或多个群集。

Azure Databricks 门户中“创建群集”界面的屏幕截图。

创建群集时,可以指定配置设置,包括:

  • 群集的名称。
  • 群集模式,可以是:
    • 标准:适用于需要多个工作器节点的单用户工作负荷。
    • 高并发性:适用于多个用户将同时使用群集的工作负荷。
    • 单节点:适用于小型工作负荷或测试,其中只需要单个工作器节点。
  • 要用于群集的 Databricks Runtime 的版本;这决定了 Spark 的版本以及各个组件(如 Python、Scala)以及安装的其他组件。
  • 用于群集中工作器节点的虚拟机(VM)的类型。
  • 群集中最小和最大工作节点数。
  • 用于群集中驱动程序节点的 VM 类型。
  • 群集是否支持 自动缩放 以动态调整群集的大小。
  • 群集在自动关闭之前可以保持空闲状态的时间。

Azure 如何管理群集资源

创建 Azure Databricks 工作区时, Databricks 设备 将部署为订阅中的 Azure 资源。 在工作区中创建群集时,可以指定用于驱动程序节点和辅助角色节点的虚拟机的类型和大小,以及其他一些配置选项,但 Azure Databricks 管理群集的所有其他方面。

Databricks 设备作为订阅中的托管资源组部署到 Azure 中。 此资源组包含群集的驱动程序和辅助角色 VM,以及其他必需的资源,包括虚拟网络、安全组和存储帐户。 群集的所有元数据(例如计划作业)都存储在 Azure 数据库中,用于容错异地复制。

在内部,Azure Kubernetes 服务(AKS)用于通过最新一代 Azure 硬件(Dv3 VM)上运行的容器来运行 Azure Databricks 控制平面和数据平面,NvMe SSD 能够在具有加速网络的高性能 Azure 虚拟机上提供 100us 延迟。 Azure Databricks 利用 Azure 的这些功能进一步提高 Spark 性能。 托管资源组中的服务准备就绪后,可以通过 Azure Databricks UI 以及自动缩放和自动终止等功能来管理 Databricks 群集。

Azure Databricks 体系结构示意图。

注释

还可以选择将群集附加到空闲节点 ,以减少群集启动时间。 有关详细信息,请参阅 Azure Databricks 文档中的