【Azure 架构师学习笔记】- Azure Databricks (13) -- 搭建Medallion Architecture part 1

news2025/5/16 0:47:34

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Databricks】系列。
接上文 【Azure 架构师学习笔记】- Azure Databricks (12) – Medallion Architecture简介

前言

上文已经介绍了关于Medallion的知识,本文开始用ADB 来实现, 但是基于内容较多,所以分为两篇。

前面 【Azure 架构师学习笔记】- Azure Databricks (11) – UC搭建中已经创建了一个空白的ADB 并启用了UC。

从下图可以大概看出ADB 在Azure上的架构,这里有个大概了解即可:
在这里插入图片描述
接下来稍微介绍一下ADB 集群的一些重要选项,并创建一个集群。

  • Access Mode:有下面3中模式,但是从解释可以看出只有前两种支持UC ,这里选择默认的single即可。
    在这里插入图片描述
  • Databricks Runtime:决定了Spark的版本,一般使用最新版即可。
  • Worker Type:决定了节点所使用的VM 类型。
  • Number Worker Nodes:节点随压力增减的幅度。

完成这部分配置之后,我们快速搭建一个ADLS Gen2 来作为medallion的存储。这次使用Terraform来搭建,详见【Azure 架构师学习笔记】- Terraform创建Azure 资源
为了满足medallion 架构,在ADLS 上创建3个container分别为bronze, silever和gold,另外再加一个landing,用于提高可扩展性,最终的样子为这样:

在这里插入图片描述

至此,我们的ADB 一共有两个ADLS,一个是用于metadata,另外一个则是上面的用于存储业务数据的。

配置UC 与外部ADLS

为了让ADB 能够访问这个新建的ADLS, 还需要把ADB 的connector授权到这个ADLS 上(外部)。同时还需要在UC中创建“External Locations”(内部)。

打通 ADB UC 与 ADLS

把前面创建的“Access Connector for Azure Databricks”授予“Storage Blob Data Contributor”到新建的ADLS 中。如果ADLS 根据业务需求限制网络访问,那么还可能需要把ADB 的private subnet和public subnet 在ADLS 中进行白名单。
在这里插入图片描述
在这里插入图片描述

配置External location

External location实际上就是databricks内部的对象在外部ADLS上的映射。

在这里插入图片描述
但是由于“external location”是需要一个storage credential,所以我们先点下面一个“create a credential”创建凭证:
在这里插入图片描述
其中Access Connetctor ID 可以从资源Access connector 处复制:
在这里插入图片描述
有了这个credential之后,ADB UC 就可以正式与ADLS 连接上了。

创建external location, 注意下面的格式
在这里插入图片描述
错误出现了,很明显要授权:
在这里插入图片描述
检查当前权限,确实没有:

在这里插入图片描述
勾选报错中提到的权限,在后续会出现很多权限不足的问题,你可以逐个添加,但是要记录下来以便后续正式环境时减少错误。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

按照这个方式,把前面所有的container都建好external location:
在这里插入图片描述

到此, 我们的基础环境已经搭建好,接下来将开始UC 内部具体的配置。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2308049.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2025年2月21日优雅草内测分发站全新升级-测试运营-优雅草内测分发站新用户提供免费100下载点-2月28日正式运营并且提供私有化部署版本

2025年2月21日优雅草内测分发站全新升级-测试运营-优雅草内测分发站新用户提供免费100下载点-2月28日正式运营并且提供私有化部署版本 说明 优雅草内测分发站新用户提供免费100下载点,优雅草分运营站和demo测试站 运营站:www.youyacao.cn 提供免费100…

通过 PromptTemplate 生成干净的 SQL 查询语句并执行SQL查询语句

问题描述 在使用 LangChain 和 Llama 模型生成 SQL 查询时,遇到了 sqlite3.OperationalError 错误。错误信息如下: OperationalError: (sqlite3.OperationalError) near "sql SELECT Name FROM MediaType LIMIT 5; ": syntax error [SQL: …

IP段转CIDR:原理Java实现

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…

[STM32]从零开始的STM32 DEBUG问题讲解及解决办法

一、前言 最近也是重装了一次keil,想着也是重装了,也是去官网下载了一个5.41的最新版,在安装和配置编译器和别的版本keil都没太大的区别,但是在调试时,遇到问题了,在我Debug的System Viewer窗口中没有GPIO&…

MySQL当中的Lock

1. 总览锁的类型 锁的类型: 锁类型 符号/缩写 描述 全局锁 FTWRL 锁定整个数据库(FLUSH TABLES WITH READ LOCK),用于全库备份。 表级锁 - 表锁 S/X LOCK TABLES ... READ(共享锁)或 WRITE&#…

electron-builder打包时github包下载失败【解决办法】

各位朋友们,在使用electron开发时,选择了electron-builder作为编译打包工具时,是否经常遇到无法从github上下载依赖包问题,如下报错: Get "https://github.com/electron/electron/releases/download/v6.1.12/ele…

【免费】YOLO[笑容]目标检测全过程(yolo环境配置+labelimg数据集标注+目标检测训练测试)

一、yolo环境配置 这篇帖子是我试过的,非常全,很详细【cudaanacondapytorchyolo(ultralytics)】 yolo环境配置 二、labelimg数据集标注 可以参考下面的帖子,不过可能会出现闪退的问题,安装我的流程来吧 2.1 labelimg安装 label…

服务器IPMI用户名、密码批量检查

背景 大规模服务器部署的时候,少不了较多的网管和监测平台,这些平台会去监控服务器的性能、硬件等指标参数,为了便于管理和控制,则需要给服务器IPMI带外管理添加较多的用户,这就需要对较多的服务器检查所对应的IPMI用…

小红书湖仓架构的跃迁之路

作者:李鹏霖(丁典),小红书-研发工程师,StarRocks Contributor & Apache Impala Committer 本文整理自小红书工程师在 StarRocks 年度峰会上的分享,介绍了小红书自助分析平台中,StarRocks 与 Iceberg 结合后&#x…

C++-第十七章:包装器

目录 第一节:std::function 第二节:std::bind 2-1.基本介绍 2-2.调整顺序(不常用) 2-3.调整个数 2-4.std::bind与std::function 下期预告: C中有3种可调用对象:函数指针、仿函数对象、lambda函数,经过包装器包装后屏…

TCP的三次握手与四次挥手:建立与终止连接的关键步骤

引言 ‌TCP(传输控制协议)工作在OSI模型的传输层‌。OSI模型将计算机网络功能划分为七个层级,从底层到顶层依次是:物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。传输层负责在网络节点之间提供可靠的端到端通信&a…

2025计算机考研复试资料(附:网课+历年复试真题+140所高校真题+机试)

目录 2025 计算机考研复试经验全攻略,附超全资源🎁 (一)网课资源 (二)历年复试真题 (三)140 所高校真题 二、专业知识复习篇 (一)复试专业课程 二&…

Milvus高性能向量数据库与大模型结合

Milvus | 高性能向量数据库,为规模而构建Milvus 是一个为 GenAI 应用构建的开源向量数据库。使用 pip 安装,执行高速搜索,并扩展到数十亿个向量。https://milvus.io/zh Milvus 是什么? Milvus 是一种高性能、高扩展性的向量数据…

腾讯游戏完成架构调整 IEG新设五大产品事业部

易采游戏网2月28日独家消息:继1月份腾讯天美工作室群完成内部组织架构调整后,腾讯旗下互动娱乐事业群(IEG)再次宣布对组织架构进行优化调整。此次调整的核心在于新设立了五大产品事业部,包括体育产品部、音舞产品部、V…

达梦数据库系列之安装及Mysql数据迁移

达梦数据库系列之安装及Mysql数据迁移 1. 达梦数据库1.1 简介1.2 Docker安装达梦1.2.1 默认密码查询1.2.2 docker启动指定密码 1.3 达梦数据库连接工具1.3.1 快捷键 2 Mysql数据库迁移至达梦2.1 使用SQLark进行数据迁移 1. 达梦数据库 1.1 简介 DM8是达梦公司在总结DM系列产品…

java jar包内的jar包如何打补丁

问题描述: 主包:hisca.jar,解压后 BOOT-INFO/lib下有其他jar包 因为一个小bug,需要修改这个hisca包下BOOT-INF/lib下的子jar包service-hisca-impl-1.0.0.jar中的一个service类及xml文件 操作步骤: 1、主包jar -xvf …

【企业场景】上线的项目如何进行限流

一、常见的四种速率限流算法 对于限流,最为直接的就是速率限流了 固定窗口算法 比如 10r/s 就是把时间线分为 1s 一段,也就是周期为 1s,对一个时间段的请求进行计数,超过 10 则舍弃,未超过则直接处理经过 1s 后&…

git - study

文章目录 git - study概述可以用 git gui工具来添加快捷命令工具如果要在提交日志中搜索,可以用gitk的view编辑功能实验环境直接用git自带环境进行git操作的好处查看git所有配置配置全局数据配置项目专用的数据查询配置数据的原始值配置git使用的文本编辑器获取某个…

FPGA之硬件设计笔记-持续更新中

目录 1、说在前面2、FPGA硬件设计总计说明3、 原理图详解 - ARITX - 7 系列3.1 顶层框图介绍3.2 FPGA 电源sheet介绍:3.2.1 bank 14 和 bank 15的供电3.2.2 bank 0的供电3.2.3 Bank34 35 的供电 3.3 核电压和RAM电压以及辅助电压 4 原理图详解-- Ultrascale ARTIX4.…

嵌入式开发:傅里叶变换(5):STM32和Matlab联调验证FFT

目录 1. MATLAB获取 STM32 的原始数据 2. 将数据上传到电脑 3. MATLAB 接收数据并验证 STM32进行傅里叶代码 结果分析 STM32 和 MATLAB 联调是嵌入式开发中常见的工作流程,通常目的是将 STM32 采集的数据或控制信号传输到 MATLAB 中进行实时处理、分析和可视化…