你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

在 Azure 中选择数据分析和报告技术

大多数大数据解决方案的目的是通过分析和报告提供对数据的见解。 分析和报告可以包括预配置的报表和可视化效果或交互式数据浏览。

数据分析技术选项

Azure 中有多个用于分析、可视化和报告的选项,具体取决于你的需求:

Power BI

Power BI 是一个业务分析工具套件。 它可以 连接到数百个数据源,并且可以将其用于计划外分析。 使用 Power BI Embedded 在自己的应用程序中集成 Power BI,而无需任何额外的许可。

组织可以使用 Power BI 生成报表并将其发布到组织。 每个人都可以创建具有治理机制和内置安全性的个性化仪表板。 Power BI 使用 Microsoft Entra ID 对登录到 Power BI 服务的用户进行身份验证。 当用户尝试访问需要身份验证的资源时,它将使用 Power BI 凭据。

Jupyter 笔记本

Jupyter 笔记本 提供基于浏览器的 shell,使数据科学家能够创建包含 Python、Scala 或 R 代码和 Markdown 文本的 笔记本 文件。 这些功能使笔记本成为通过共享和记录代码和生成单个文档进行协作的有效方法。

HDInsight 群集(如 Spark 或 Hadoop)的大多数品种都 预配置了 Jupyter 笔记本 ,以便与数据交互并提交作业进行处理。 根据你使用的 HDInsight 群集的类型,提供了一个或多个内核来解释和运行代码。 例如,HDInsight 上的 Spark 群集提供与 Spark 相关的内核,你可以使用 Spark 引擎选择运行 Python 或 Scala 代码。

Jupyter 笔记本提供了一个有效的环境,可在使用 Power BI 等 BI 报告工具生成更高级的可视化效果之前分析、可视化和处理数据。

Zeppelin 笔记本

Zeppelin 笔记本 还提供一个基于浏览器的 shell,其功能类似于 Jupyter 笔记本。 某些 HDInsight 群集预配置了 Zeppelin 笔记本。 但是,如果使用 HDInsight 交互式查询 (也称为 Apache Hive LLAP)群集, Zeppelin 是唯一可用于运行交互式 Hive 查询的笔记本。 另外,如果使用已加入域的 HDInsight 群集,要分配不同的用户登录名来控制对笔记本和基础 Hive 表的访问,则 Zeppelin Notebook 是唯一可实现此目标的笔记本类型。

VS Code 中的 Jupyter 笔记本

VS Code 是可在本地使用或连接到远程计算的免费代码编辑器和开发平台。 将 VS Code 与 Jupyter 扩展配合使用时,它为 Jupyter 开发提供了一个完全集成的环境,可以通过更多的语言扩展来增强。 如果需要一流的免费 Jupyter 体验并能够使用所选计算,请选择此选项。

通过使用 VS Code,可以针对远程和容器开发和运行笔记本。 为了简化从 Azure 笔记本的过渡,容器镜像也可供您在 VS Code 中使用。

Jupyter(以前称为 IPython Notebook)是一个开源项目,通过它,可以轻松地在名为“笔记本”的单张画布上组合使用 Markdown 文本和可执行的 Python 源代码。 VS Code 支持原生使用 Jupyter 笔记本,并通过 Python 代码文件运行。

关键选择条件

通过回答以下问题开始缩小选择范围:

  • 是否需要连接到多个数据源并提供一个集中位置,以便为整个域内分布的数据创建报表? 如果这样做,请选择一个选项,使你可以连接到数百个数据源。

  • 是否要在外部网站或应用程序中嵌入动态可视化效果? 如果这样做,请选择提供嵌入功能的选项。

  • 是否要在脱机状态下设计可视化效果和报表? 如果这样做,请选择具有脱机功能的选项。

  • 是否需要大量的处理能力来训练大型或复杂的 AI 模型或处理大型数据集? 如果这样做,请选择可以连接到大数据群集的选项。

功能矩阵

下表总结了功能的主要差异。

常规功能

能力 Power BI Jupyter 笔记本 Zeppelin 笔记本 VS Code 中的 Jupyter 笔记本
连接到大数据群集进行高级处理
托管服务 1 1
连接到数百个数据源
脱机功能 2
嵌入功能
自动化数据刷新
访问许多开源包 3 3 4
数据转换或清理选项 Power Query、R 40 种语言,包括 Python、R、Julia 和 Scala 20 多个解释器,包括 Python、JDBC 和 R Python、F#、R
定价 Power BI Desktop(创作)免费。 请参阅 Power BI 托管选项的定价 免费 免费 免费
多用户协作 是(通过共享或与 JupyterHub 等多用户服务器) 是(通过共享)

[1] 当用作托管 HDInsight 群集的一部分时。

[2] 通过使用 Power BI Desktop。

[3] 可以在 Maven 存储库 中搜索社区参与的包。

[4] 可以使用 pip 或 Conda 安装 Python 包。 可以从 CRAN 或 GitHub 安装 R 包。 可以使用 数据包依赖项管理器通过 nuget.org 在 F# 中安装包。

贡献者

Microsoft维护本文。 以下参与者撰写了本文。

主要作者:

若要查看非公开的LinkedIn个人资料,请登录LinkedIn。

后续步骤