数据仓库标准库模型架构相关概念浅讲

news2025/5/17 22:24:46

数据仓库与模型体系及相关概念

数据仓库与数据库的区别可参考:数据库与数据仓库的区别及关系_数据仓库和数据库-CSDN博客

总之,数据库是为捕获数据而设计,数据仓库是为分析数据而设计

数据仓库集成工具

在一些大厂中,其会有自己的数据仓库集成工具。如京东内部数仓集成工具为数据星图,我们可以通过该工具拿到各领域的模型,字段,实时消息,生产库表等数据。
在这里插入图片描述

数据仓库架构

下图是一个标准数据仓库架构的示例图,可能不是很准确。
对于我们来讲只需要了解数仓数据提取的步骤:

  1. 数仓中的数据经数据源提测到一个缓存层(按天分区,大致保存7天数据)一般采用增量抽取策略
  2. 再由缓冲层提取至基础数据层。一般采用拉链抽取方式。
  3. 可定义表名以chain结尾的表示为拉链存储形式,不是所有数据都适合拉链更新,像流量这种没有变更概念的数据,比较适合采用增量存储的形式。
  4. 拉链表存储的数据较多,如何区分最新有效的数据?
    答: 用 dp=active 分区中的数据,该分区标记最新且有效的数据

什么是增量抽取,全量抽取,拉链抽取?请接着往下看!

数据仓库抽取策略

数据仓库中的数据由数据集成平台将源数据库中的表,数据抽取过来。我们需要定义抽取策略,主要抽取策略有全量抽取,增量抽取,拉链抽取这三类。

全量抽取比较好理解每次将源数据库中所有数据全部抽取到数据仓库,会覆盖数据仓库之前的数据。

主要讲下增量抽取,拉拉链抽取二者的区别

  • 增量抽取:增量抽取是指每次只抽取自上次抽取以来源数据库中新增或修改的数据。通常需要源数据库中存在能够标识数据变化的字段,如时间戳字段(记录数据的创建时间或最后修改时间)或自增的版本号字段等。例如,在一个订单表中,有一个 update_time 字段记录订单的最后修改时间,增量抽取时可以通过比较这个时间戳,只抽取 update_time 大于上次抽取时间的数据。
  • 拉链抽取:拉链抽取不是基于数据的增量变化,而是基于数据的生命周期来记录数据的历史变化。它会在数据仓库中为每一条数据记录维护一个生效时间和失效时间(或截止时间),通过这两个时间字段来标识数据在历史上的有效性。例如,员工的职位信息可能会发生变化,每次变化时,拉链抽取会在数据仓库中插入一条新记录,记录变化后的职位信息,并更新上一条记录的失效时间,同时新记录的生效时间为变化发生的时间,失效时间为无穷大(或一个特定的未来时间)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2333050.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

亚洲区域健康人群免疫细胞marker

最近发现一篇文献,作者来自新加坡基因研究所,这篇文章大概是整理了619个亚洲人群的免疫多样性图集(AIDA),跨越了7个国家,最终使用了1,265,624个免疫细胞的单细胞数据,并最终确定了8种主要的免疫…

三极管以及mos管

三极管与mos管的高低电平导通判断 (1)三极管的高低电平导通判断 三极管中有2个PN结,分别称为发射结和集电极结,按材料划分为硅材料三极管(硅管),锗材料三极管(锗管)&am…

PPT模板之--个人简历

还在为制作 PPT 时毫无头绪、对着空白页面抓耳挠腮而烦恼吗?别担心,这里就是你的 PPT 灵感补给站!在这个快节奏的信息时代,一份吸睛又高效的 PPT 至关重要,它能在商务汇报中助你赢得先机,在课堂展示时让你脱…

springboot--页面的国际化

今天来实现页面中的国际化 首先,需要创建一个新的spring boot项目,导入前端模板,在我的博客中可以找到,然后将HTML文件放在templates包下,将其他的静态资源放在statics包下,如下图结构 页面的国际化主要在首…

前端学习10—Ajax

1 AJAX 简介 AJAX 全称为 Asynchronous JavaScript And XML,就是异步的 JS 和 XML 通过 AJAX 可以在浏览器中向服务器发送异步请求,最大优势为:无刷新获取数据 AJAX 不是新的编程语言,而是一种将现有的标准组合在一起使用的新方…

list的常见接口使用

今天,我们来讲解一下C关于STL标准库中的一个容器list的常见接口。 在我们之前c语言数据结构中,我们已经了解过了关于链表的知识点了,那么对于现在理解它也是相对来说比较容易的了。 数据结构--双向循环链表-CSDN博客 1. 定义与包含头文件 …

一维差分数组

2.一维差分 - 蓝桥云课 问题描述 给定一个长度为 n 的序列 a。 再给定 m 组操作,每次操作给定 3 个正整数 l, r, d,表示对 a_{l} 到 a_{r} 中的所有数增加 d。 最终输出操作结束后的序列 a。 ​​Update​​: 由于评测机过快,n, m 于 20…

再次重拾jmeter之踩坑

1.添加“csv数据文件设置”,运行时提示 java.lang.IllegalArgumentException: Filename must not be null or empty检查多次后才发现因为我运行的是整个线程组,所以对应http请求下不能包括空的csv文件 2. 填写ip时不能加/,要在路径里加&…

4-6记录(B树)

找左边右下或者右边左下 转化成了前驱后继的删除 又分好几种情况: 1. 只剩25,小于2,所以把父亲拉到25旁边,兄弟的70顶替父亲 对于25,25的后继就是70,25后继的后继是71(中序遍历) 2. 借左子树…

06软件测试需求分析案例-添加用户

给职业顾问部的老师添加用户密码后,他们才能登录使用该软件。只有admin账户具有添加用户、修改用户信息、删除用户的权利。admin是经理或团队的第一个人的账号,后面招一个教师就添加一个账号。 通读需求是提取信息,提出问题,输出…

Nacos服务发现和配置管理

目录 一、Nacos概述 1. Nacos 简介 2. Nacos 特性 2.1 服务发现与健康监测 2.2 动态配置管理 2.3 动态DNS服务 2.4 其他关键特性 二、 服务注册和发现 2.1 核心概念 2.2 Nacos注册中心 2.3 Nacos单机模式 2.4 案例——服务注册与发现 2.4.1 父工程 2.4.2 order-p…

操作系统 3.1-内存使用和分段

如何简单使用内存 这张幻灯片展示了计算机如何开始执行程序的基本过程,涉及到存储器、指令寄存器(IR)、运算器和控制器等计算机组件。 存储器:程序被加载到内存中。图中显示了一个指令 mov ax, [100],它的作用是将内存…

禅道MCP Server开发实践与功能全解析

一、简介 1、MCP Server核心定义 MCP Server(Meta Command Protocol Server)是一种基于客户端-服务器架构的轻量级服务程序,采用统一的mcp协议格式,通过连接多样化数据源和工具为AI应用提供扩展能力。它作为中间层,实…

GNSS静态数据处理

1 安装数据处理软件:仪器之星(InStar )和 Trimble Business Center 做完控制点静态后,我们需要下载GNSS数据,对静态数据进行处理。在处理之前需要将相关软件在自己电脑上安装好: 仪器之星(InS…

java家政APP源码,家政预约平台源码,家电上门维修、家电上门清洗

家政上门预约服务APP源码,开发功能涵盖了用户注册与登录、家政服务分类与选择、预约管理、支付与交易、地图与导航、评价与反馈、个人信息管理、消息通知、营销工具以及数据分析等多个方面。这些功能的实现不仅提高了家政服务的便捷性和效率,还为用户提供…

【LLM基础】Megatron-LM相关知识(主要是张量并行机制)

系列综述: 💞目的:本系列是个人整理为了Megatron-LM的,整理期间苛求每个知识点,平衡理解简易度与深入程度。 🥰来源:材料主要源于Megatron-LM相关材料进行的,每个知识点的修正和深入…

动力电池自动点焊机:新能源汽车制造的智能焊接利器

在新能源汽车产业蓬勃发展的今天,动力电池作为其核心部件,其性能与安全性直接关系到整车的续航里程和使用寿命。而动力电池的制造过程中,焊接工艺是至关重要的一环。这时,动力电池自动点焊机便以其高效、精准、智能的特点&#xf…

linux shell编程之条件语句(二)

目录 一. 条件测试操作 1. 文件测试 2. 整数值比较 3. 字符串比较 4. 逻辑测试 二. if 条件语句 1. if 语句的结构 (1) 单分支 if 语句 (2) 双分支 if 语句 (3) 多分支 if 语句 2. if 语句应用示例 (1) 单分支 if 语句应用 (2) 双分支 if 语句应用 (3) 多分支 …

uniapp uni-collapse动态切换数据时高度不能自适应

需单独调用方法更新 this.$nextTick(() > {if (this.$refs.collapseBox) {this.$refs.collapseBox.resize()} })

递归?递推?

前言:递归、递推是两种非常常见基础的算法了,但我之前忘了从这基础的先讲起了,大家应该也都略有了解吧!今天突然想写点相关延伸内容,所以还是完整介绍一些吧 递归 递归是一种通过函数调用自身解决问题的算法。在递归…