使用 Microsoft Fabric 和 Azure Databricks 为 SMB 构建新式数据平台体系结构
解决方案创意
本文介绍解决方案思路。 云架构师可以使用本指南来帮助可视化此体系结构的典型实现的主要组件。 使用本文作为一个起点,设计一个架构良好的解决方案,该解决方案符合工作负荷的特定要求。
本文介绍如何通过将 Azure Databricks 中的现有投资与完全托管的软件即服务(SaaS)数据平台(如 Microsoft Fabric)相结合,构建现代数据平台体系结构。 SaaS 数据平台是端到端数据分析解决方案,可与 Azure 机器学习、Azure AI 服务、Power Platform、Microsoft Dynamics 365 和其他Microsoft技术等工具轻松集成。
简化的体系结构
下载此体系结构的 Visio 文件。
Azure Databricks 和 Microsoft Fabric 之间的互操作性提供了一个可靠的解决方案,可最大程度地减少数据碎片,同时增强分析功能。
Microsoft Fabric 提供一个名为 OneLake 的开放和管理的数据湖作为基础 SaaS 存储。 OneLake 使用 Delta Parquet 格式,这是 Azure Databricks 使用的相同格式。 若要从 OneLake 访问 Azure Databricks 数据,可以在 Fabric 中使用 OneLake 快捷方式,或者 镜像 Fabric 中的 Azure Databricks Unity 目录。 通过此集成,可以在 OneLake 的基础上使用生成 AI 扩充 Azure Databricks 分析系统。
还可以在 OneLake 中的 Azure Databricks 数据上使用 Power BI 中的直接湖模式。 Direct Lake 模式简化了服务层并提高了报表性能。 OneLake 支持 Azure Data Lake Storage 的 API,并存储 Delta Parquet 格式的所有表格数据。
因此,Azure Databricks 笔记本可以使用 OneLake 终结点访问存储的数据。 体验与通过 Microsoft Fabric 仓库访问数据相同。 通过此集成,无需重塑数据,即可使用 Fabric 或 Azure Databricks。
建筑
下载此体系结构的 Visio 文件。
数据流
Azure 数据工厂: 使用现有的 Azure 数据工厂管道从源系统引入结构化和非结构化数据,并将其降落在现有数据湖中。
Microsoft Dynamics 365: 可以使用 Microsoft Dynamics 365 数据源,使用 Azure Synapse Link 或 Microsoft Fabric Link 在扩充数据集上生成集中式 BI 仪表板。 将融合、已处理的数据带回 Microsoft Dynamics 365 和 Power BI,以便进一步分析。
流式数据引入: 流式处理数据可以通过 Azure 事件中心或 Azure IoT 中心引入,具体取决于用于发送这些消息的协议。
冷路径: 可以使用 Azure Databricks 将流式处理数据引入集中式数据湖,以便进一步分析、存储和报告。 然后,此数据可以与其他数据源统一,以便进行批处理分析。
热路径:可以通过 Microsoft Fabric Real-Time Intelligence 实时分析流式处理数据 流数据。
Azure Databricks: 现有的 Azure Databricks Notebook 可用于执行数据清理、统一和分析。 请考虑使用奖牌体系结构,例如:
青铜,用于保存原始数据。
Silver,其中包含已清理、筛选的数据。
Gold,用于存储对业务分析有用的聚合数据。
黄金数据或数据仓库: 对于黄金数据或数据仓库,请继续使用 Azure Databricks SQL,或在 Microsoft Fabric 中创建 Azure Databricks Unity 目录的镜像。 使用为所有 Fabric lakehouse 自动创建的 Power BI 语义模型,轻松创建基于 Fabric lakehouse 中数据的无服务器分析的仪表板,而无需进行任何设置。 如果分析要求需要更快的计算,结构数据仓库也可以用作黄金层。
用于治理、协作、安全性、性能和成本监视的工具包括:
发现和管理
Microsoft Purview 提供跨数据资产的数据发现服务、敏感数据分类和治理见解。
Unity 目录跨 Azure Databricks 工作区提供集中式访问控制、审核、世系和数据发现功能。
Azure DevOps 提供持续集成和持续部署和其他集成版本控制功能。
Azure Key Vault 管理机密、密钥和证书。
Microsoft Entra ID 为 Azure Databricks 用户提供单一登录。 Azure Databricks 支持使用 Microsoft Entra ID 进行自动用户预配,以便:
创建新用户。
向每个用户分配访问级别。
删除用户并拒绝他们访问权限。
Azure Monitor 收集和分析 Azure 资源遥测数据。 此服务通过主动识别问题来最大程度地提高性能和可靠性。
Microsoft成本管理为 Azure 工作负荷提供财务治理服务。
组件
Data Lake Storage 是一种可缩放的数据存储服务,专为结构化和非结构化数据而设计。 在此体系结构中,Data Lake Storage 充当 Delta Lake 的基础基础结构。 它是原始和已处理数据的主存储层,可实现高效的数据引入、存储和检索分析和机器学习工作负载。
Azure 数据工厂 是一种基于云的数据集成服务,可协调和自动执行数据移动和转换。 Azure 数据工厂用于创建、计划和协调跨各种数据存储和服务移动和转换数据的数据管道。 它有助于确保无缝数据流和集成。
事件中心 是一种实时数据引入服务,每秒可以从任何源处理数百万个事件。 在此体系结构中,事件中心捕获和流式传输来自各种源的大量数据,以实现实时分析和事件驱动的处理。
Azure IoT 中心 是一项托管服务,可改善 IoT 设备和云之间的安全性和可靠通信。 Azure IoT 中心有助于引入、处理和分析来自 IoT 设备的遥测数据,以提供实时见解并启用远程监视。
Microsoft Dataverse 是一个可缩放的数据平台,组织可以使用该平台安全地存储和管理业务应用程序使用的数据。 在此体系结构中,它被引用为潜在的数据源。
Azure Synapse Link Azure Synapse Analytics 或 Data Lake Storage 连接 Dynamics 应用程序。 在此体系结构中,它用于将数据近乎实时地从 Dataverse 复制到 Data Lake Storage。
Microsoft Fabric 链接 将 Dynamics 应用程序连接到 Microsoft Fabric。 在此体系结构中,它用于近乎实时地将数据从 Dataverse 复制到 Microsoft Fabric。
Azure Databricks 是基于 Apache Spark 的分析平台。 Azure Databricks 用于大数据处理、机器学习和数据工程任务。 此平台为数据科学家和工程师提供了协作工作区。
Delta Lake 是一个开源存储层,用于将 ACID 事务引入 Apache Spark 和大数据工作负载。 Delta Lake 用于向 Data Lake 存储提供此功能。
Azure Databricks SQL 是一种基于 SQL 的分析服务,允许用户对 Azure Databricks 中存储的数据运行 SQL 查询。 在此体系结构中,Azure Databricks SQL 提供了一个功能强大的 SQL 接口来查询和分析数据,从而实现交互式和即席分析。
AI 和机器学习 包括一系列技术和服务,这些技术和服务可实现机器学习模型的开发、部署和管理。 AI 和机器学习服务用于生成、训练和部署预测模型。 此功能支持数据驱动的决策。
Unity 目录 是一种数据治理解决方案,可跨 Databricks 工作区提供集中访问控制、审核、世系和数据发现功能。 Unity 目录通过提供精细的访问控制、审核和数据世系跟踪来帮助确保数据治理和安全性。
Medallion Lakehouse 体系结构 是一种数据体系结构模式,将数据组织成铜层、银层和黄金层,以便高效数据处理和分析。 此体系结构模式是使用 Data Lake Storage、Delta Lake 和 Azure Databricks 实现的,该模式可实现可缩放且高效的数据处理和分析。
Microsoft Fabric 是一个全面的数据平台,它集成了各种数据服务和工具,以提供无缝的数据管理和分析体验。 Microsoft Fabric 连接并集成来自多个源的数据,从而在整个组织中实现全面的数据分析和见解。
Real-Time 智能 是一项数据处理功能,使组织能够实时引入、处理和分析数据。 Real-Time Intelligence 处理来自各种源的流式处理数据。 它提供实时见解,并基于数据模式启用自动操作。
OneLake 快捷方式 在 OneLake 和另一个数据源之间创建就地链接。 OneLake 快捷方式用于简化数据访问和管理,从而提供整个组织数据的统一视图。
Power BI 是一种提供交互式可视化和商业智能功能的业务分析服务。 它为用户提供了一个简单的界面,用于创建自己的交互式报表和仪表板。 这些工具为业务用户启用数据可视化和见解。
Microsoft Purview 是一种统一的数据治理服务,可帮助组织跨各种源管理和管理其数据。 Microsoft Purview 提供数据编录、世系跟踪和数据治理功能。 这些功能有助于确保整个组织的数据合规性和安全性。
- 连接到和管理 Azure Databricks Unity 目录:可以将 Unity 目录集成到 Purview 中,以便从 Purview 访问 Unity 目录元数据。
Microsoft Entra ID 是一种基于云的标识和访问管理解决方案,可帮助确保安全登录和访问 Microsoft 365、Azure 和其他 SaaS 应用程序等资源。 在此体系结构中,Microsoft Entra ID 为 Azure 资源提供安全标识和访问管理。 此功能支持安全登录、管理用户标识,并帮助确保对数据和资源的访问获得授权。
Microsoft成本管理 是一套 FinOps 工具,组织可以使用这些工具分析、监视和优化Microsoft云成本。 这些工具在此体系结构中为 Azure 资源提供财务治理。
Key Vault 是一种云服务,用于存储和管理机密,例如 API 密钥、密码、证书和加密密钥。 此服务允许用户和应用程序安全地访问这些机密。 将密钥和机密存储在 Key Vault 中时,可以在一个位置管理它们。 在此体系结构中,Azure Databricks 可以从 Key Vault 检索机密,以进行身份验证和访问 Data Lake Storage。 此过程有助于确保这些服务之间的安全无缝集成。
Azure Monitor 是一项全面的监视服务,可为应用程序、基础结构和网络提供全堆栈可观测性。 Azure Monitor 使用户能够从其 Azure 和本地环境中收集、分析和处理遥测数据,以主动识别问题并最大限度地提高性能和可靠性。
Azure DevOps 是一组支持协作文化和简化流程的开发工具。 这些工具使开发人员、项目经理和参与者能够更高效地开发软件。 Azure DevOps 提供集成功能,例如 Azure Boards、Azure Repos、Azure Pipelines、Azure 测试计划和 Azure Artifacts。 可以通过 Web 浏览器或集成开发环境客户端访问这些功能。
GitHub 是一种基于云的 Git 存储库托管服务,可简化开发人员的版本控制和协作。 它允许个人和团队使用 Git 存储和管理其代码、跟踪更改和协作处理项目。 用户友好的 GitHub 界面使 Git 可供所有技能级别的编码者访问。 可以将 Azure DevOps 和 GitHub 一起使用来实现 DevOps 实践。 这些做法在 Azure 数据工厂、Azure Databricks 和 Microsoft Fabric 的工作负荷开发和部署管道中强制实施自动化和合规性。
选择
若要创建独立的Microsoft Fabric 环境,请参阅Microsoft Fabric上的
格林菲尔德湖屋。 若要将本地 SQL 分析环境迁移到 Microsoft Fabric,请参阅 适用于中小企业的新式数据仓库。
此体系结构中的服务替代项
批处理引入
- (可选)使用 Fabric 数据管道 进行数据集成,而不是使用数据工厂管道。 选择取决于几个因素。 有关详细信息,请参阅 从 Azure 数据工厂到 Microsoft Fabric中的数据工厂。
Microsoft Dynamics 365 引入
如果使用 Azure Data Lake 作为 Data Lake 存储并想要引入 Dataverse 数据,请将 Azure Synapse Link for Dataverse 与 Azure Data Lake配合使用。 有关 Dynamics 财务和运营,请参阅 FnO Azure Synapse Link for Dataverse。
如果使用 Microsoft Fabric Lakehouse 作为数据湖存储,请参阅 Fabric Link。
流式数据引入
- Azure IoT 与事件中心之间的决策取决于流式处理数据的源、是否需要克隆和双向与报告设备的通信以及所需的协议。 有关详细信息,请参阅 比较 IoT 中心和事件中心。
Lakehouse
- Microsoft Fabric Lakehouse 是一个统一的数据体系结构平台,用于以开放格式管理和分析结构化和非结构化数据,主要使用 Delta Parquet 文件。 它支持两种存储类型。 这些存储类型是托管表,例如 CSV、Parquet 或 Delta 以及非托管文件。 自动识别托管表。 非托管文件需要显式创建表。 该平台通过 Spark 或 SQL 终结点实现数据转换,并与其他 Microsoft Fabric 组件无缝集成。 这种无缝集成允许数据共享而不重复。 此概念与分析工作负荷中使用的常见奖牌体系结构保持一致。 有关详细信息,请参阅 Microsoft Fabric中的
Lakehouse。
- Microsoft Fabric Lakehouse 是一个统一的数据体系结构平台,用于以开放格式管理和分析结构化和非结构化数据,主要使用 Delta Parquet 文件。 它支持两种存储类型。 这些存储类型是托管表,例如 CSV、Parquet 或 Delta 以及非托管文件。 自动识别托管表。 非托管文件需要显式创建表。 该平台通过 Spark 或 SQL 终结点实现数据转换,并与其他 Microsoft Fabric 组件无缝集成。 这种无缝集成允许数据共享而不重复。 此概念与分析工作负荷中使用的常见奖牌体系结构保持一致。 有关详细信息,请参阅 Microsoft Fabric中的
实时分析
Azure Databricks
- 如果有现有的 Azure Databricks 解决方案,可能需要继续使用结构化流式处理进行实时分析。 有关详细信息,请参阅 Databricks上的
流式处理。
- 如果有现有的 Azure Databricks 解决方案,可能需要继续使用结构化流式处理进行实时分析。 有关详细信息,请参阅 Databricks上的
fabric Microsoft 如果过去使用其他 Azure 服务进行实时分析,或者没有现有的实时分析解决方案,请参阅 Fabric 实时智能与 Azure 流式处理解决方案。
Microsoft Fabric 结构化流使用 Spark 结构化流处理和引入实时数据流作为连续追加表。 结构化流支持各种文件源,例如 CSV、JSON、ORC、Parquet 和 Kafka 和事件中心等消息传送服务。 此方法可确保可缩放和容错流处理,从而优化高吞吐量生产环境。 有关详细信息,请参阅 Microsoft Fabric Spark 结构化流式处理。
数据工程
- 使用 Microsoft Fabric 或 Azure Databricks 编写 Spark 笔记本。 有关详细信息,请参阅 如何使用 Microsoft Fabric 笔记本。 若要了解如何将 Fabric 笔记本与 Azure Synapse Spark 提供的内容进行比较,请参阅 比较 Fabric 数据工程和 Azure Synapse Spark。 有关 Azure Databricks 笔记本的详细信息,请参阅 Databricks 笔记本简介。
数据仓库或黄金层
- 可以使用 Microsoft Fabric 或 Azure Databricks 来创建基于 SQL 的仓库或黄金层。 有关如何在 Microsoft Fabric 中选择数据仓库或黄金层存储解决方案的决策指南,请参阅 Microsoft Fabric 决策指南:选择数据存储。 有关 Azure Databricks 中的 SQL 仓库类型的详细信息,请参阅 SQL 仓库类型。
数据科学
将 Microsoft Fabric 或 Azure Databricks 用于数据科学功能。 有关 Microsoft Fabric 数据科学产品/服务的详细信息,请参阅 什么是 Microsoft Fabric 中的数据科学?。 有关 Azure Databricks 产品/服务的详细信息,请参阅 Databricks上的 AI 和机器学习。
Microsoft Fabric 数据科学不同于机器学习。 机器学习提供了一个全面的解决方案,用于管理工作流和部署机器学习模型。 Microsoft Fabric 数据科学专为分析和报告方案定制。
Power BI
Azure Databricks 与 Power BI 集成,可实现无缝数据处理和可视化。 有关详细信息,请参阅 将 Power BI 连接到 Azure Databricks。
通过镜像 Fabric 中的 Azure Databricks Unity 目录,可以直接从 Fabric 工作负载访问 Azure Databricks Unity 目录管理的数据。 有关详细信息,请参阅 镜像 Azure Databricks Unity 目录。
使用 Delta Lake 从 Data Lake Storage 创建快捷方式到 Microsoft Fabric One Lake。 有关详细信息,请参阅 将 Databricks Unity 目录与 OneLake集成。 可以使用 Direct Lake 模式从 Power BI 查询此数据,而无需将数据复制到 Power BI 服务中。 有关详细信息,请参阅 Direct Lake Mode。
方案详细信息
拥有现有 Azure Databricks 环境的中小企业,以及湖屋体系结构(可选)可以从此模式中受益。 他们当前使用 Azure 提取、转换、加载工具(例如 Azure 数据工厂),并在 Power BI 中提供报表。 但是,它们可能还具有多个数据源,这些数据源在同一数据湖上使用不同的专有数据格式,这会导致数据重复,并担心供应商锁定。 这种情况可能会使数据管理复杂化,并增加对特定供应商的依赖性。 他们可能还需要 up-to日期和准实时报告进行决策,并有兴趣在其环境中采用 AI 工具。
Microsoft Fabric 是一个开放、统一和管理的 SaaS 基础,可用于:
使用 OneLake 在单个位置存储、管理和分析数据,而不必担心供应商锁定。
通过Microsoft 365 个应用的集成更快地进行创新。
通过 Power BI 直接湖模式的优势快速获取见解。
在每个 Microsoft Fabric 体验中都受益于 Copilots。
通过在单个基础上开发 AI 模型来加速分析。
在不移动的情况下使数据保持原位,从而减少数据科学家需要提供价值的时间。
贡献
本文由Microsoft维护。 它最初由以下参与者编写。
主要作者:
- Bonita Rui |云解决方案架构师
- Naren Jogendran |云解决方案架构师
若要查看非公共LinkedIn配置文件,请登录到LinkedIn。
后续步骤
- 数据工程师 学习路径
- Microsoft Fabric - 入门 MSLearn 路径
- Microsoft Fabric - MSLearn 模块
- 为 Data Lake Storage 创建存储帐户
- 事件中心快速入门 - 使用 Azure 门户创建事件中心
- 什么是奖牌湖屋建筑?
- Microsoft Fabric 中的湖屋是什么?