数据仓库基础概念

news2025/7/14 20:47:23

数据仓库

概念

数据仓库(Data Warehouse, DW)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。它是为满足企业决策分析需求而设计的。

  • 面向主题:数据仓库围绕特定的主题组织数据,例如“销售”或“人力资源”,通过整合各类数据提供全面的视角。

  • 集成:数据仓库从多个异构数据源抽取数据,经过清理、转换和整合,消除数据冗余,保证数据一致性。

  • 相对稳定:一旦数据进入数据仓库,便很少修改,主要是为了历史数据分析和未来趋势预测。

  • 反映历史变化:数据仓库保存数据的历史状态,支持随时间维度的数据分析。

发展历程

数据仓库的发展经历了几个关键阶段:

  1. 萌芽阶段(1978-1988年):提出了将业务处理系统(OLTP)与业务分析系统(OLAP)分离的思想,早期的尝试集中在减少交易系统的负载以提高分析能力。

  2. 探索阶段(20世纪80年代中期):DEC公司建立了TA2规范,定义了分析系统由数据获取、访问目录和用户服务组成。这一时期,人们开始探索如何有效地存储和检索大量数据。

  3. 出行阶段(1988年):IBM提出信息仓库的概念,涵盖了数据的抽取、转换、有效性验证、加载、cube开发和图形化展示。这一阶段引入了更多视觉化工具来呈现数据分析的结果。

  4. 确立阶段(1991年):Bill Inmon出版了《数据仓库》一书,提出了数据仓库的奠基原则,包括面向主题、集成、包含历史、不可更新、面向决策支持、面向全企业、最明细数据存储和快照式数据获取。

  5. 合并阶段(1998年):Inmon提出的企业信息工厂(CF架构),结合范式建模和维度建模的优点,进行分层构建数据仓库,推动了数据仓库结构的进一步完善和标准化。

结构

数据仓库的结构通常分为以下几层:

  1. 数据引入层(ODS:Operational Data Store)
    这一层的数据结构与源系统保持一致,通常是增量或全量数据的临时存储区。ODS层的主要目的是保存原始数据,便于后续的数据核对和处理。

  1. 数据明细层(DWD:Data Warehouse Detail)
    在这一层,对ODS层的数据进行清洗、转换,以业务过程为核心构建最细粒度的明细事实表。基于具体业务的特点,DWD层的表通常会做一些适当的冗余处理,形成宽表以提高查询性能和数据的可用性。
  1. 汇总数据层(DWS:Data Warehouse Summary)
    此层基于明细层的数据进行初步汇总,构建汇总事实表。这些表通常是宽表形式,提供公共的统计指标,为上层数据分析提供基础。
  1. 公共维度层(DIM:Dimension)
    维度层包含所有数据分析所需的维度表,确保数据口径的一致性,方便多角度、多层次的数据分析。
  1. 应用数据服务层(ADS:Application Data Service)
    最高层面向具体应用场景,对汇总数据进行进一步加工,直接服务于前端BI工具或决策支持系统。

维度建模

概念

维度建模是由Ralph Kimball提出的一种专门用于数据仓库环境的建模方法。它采用反范式化设计,不严格遵循传统的数据库规范化标准,更加注重查询的性能和数据的易用性。

核心组件

维度建模的核心组件包括事实表和维度表:

  • 事实表(Fact Table)

    • 粒度:事实表中的每一条记录代表一个具体的业务事件,比如一笔销售记录或一次财务交易。粒度决定了这条记录所包含的业务细节的程度。

    • 度量:事实表中的数据元素通常是数值型的,如销售金额、数量、利润等。度量可以分为可加性、半可加性和不可加性。

    • 类型:事实表可分为事务事实表、周期快照事实表和累积快照事实表。事务事实表记录具体的业务事件,而快照事实表则定期捕获某一时刻的状态。

  • 维度表(Dimension Table)

    • 维度:维度是用于描述和分类事实的环境。例如,在销售数据中,“时间”、“地点”、“产品”和“客户”都是典型的维度。

    • 属性:每一个维度表由若干属性列组成,这些属性用于过滤、分组和标记数据。例如,产品维度表可能包含产品名称、类别、价格等属性。

    • 退化维度:有时候,维度表中的某些属性也会存入事实表中,这样的列被称为退化维度。

模型类型

维度建模常见的模型类型有星型模型、雪花模型和星座模型:

  • 星型模型(Star Schema)

    • 由一张中央事实表和若干外围维度表组成,结构清晰,查询简便,适合新手和中级数据仓库用户。
  • 雪花模型(Snowflake Schema)

    • 对星型模型进行扩展,将维度表进一步层次化,形成树枝状结构。这样可以减少表的宽度和冗余,但也增加了查询的复杂性。
  • 星座模型(Galaxy Schema)

    • 包含多张事实表,共享一组公共维度表。适用于复杂业务场景,每张事实表可以代表一个不同的业务过程。
应用

维度建模的目标是满足业务分析和决策的需求,使数据仓库的数据易于理解和查询。通过合理设计事实表和维度表,可以快速响应业务查询,提供高效的分析性能。例如,在电商行业中,维度建模可用于销售数据分析,通过构建“时间”、“地域”、“产品类别”和“顾客”等多个维度表,围绕“销售事实表”进行组织,可以轻松实现多角度、多层次的销售数据透视和分析。

总结

数据仓库和维度建模是现代企业数据分析不可或缺的部分。数据仓库通过整合、清洗和转换来自不同源系统的数据,为企业提供一致、可靠的历史数据,支持战略决策和未来趋势预测。维度建模作为一种反范式化的建模方法,通过设计合理的事实表和维度表,大大提高了数据查询和分析的效率,使数据仓库更能贴近业务需求,易于理解和使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2217694.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【网络】详解TCP协议的延时应答、捎带应答、异常处理

【网络】详解TCP协议的延时应答和捎带应答 一. 延时应答模型 二. 捎带应答模型再谈四次挥手 三. 异常处理1.一方出现进程崩溃2.一方出现关机(正常流程关机)3.一方出现断电4.网线断开 一. 延时应答 也是基于滑动窗口,想要尽可能的去提高效率。…

mysql高级sql语句 二

目录 一. 求交集 1.1 内连接 1.2 左连接 1.3 右连接 1.4 子查询 1.5 多表查询 1.6 并集分组 二. 求差集 2.1 求左表差集 2.2 求右表差集 2.3 求两个表的差集 三. 视图表view 3.1 视图表的使用 3.2 视图表里的数据能不能修改? 四. case语句 五. 无值…

豪威集团技术突破

巴塞罗那AutoSens展会上发布的OX12A10采用豪威集团全新的a-CSP™超小尺寸封装技术,是TheiaCel™产品系列中分辨率最高的传感器,成为ADAS和AD的理想之选 巴塞罗纳,西班牙 – 2024年10月3日 – 豪威集团,全球排名前列的先进数字成像…

动力学的开环和闭环控制

工业机器人四大元件:控制器,驱动器,电机,减速器 流程:控制器的作用是规划一个机器人的路径,位置,速度。而驱动器是用来控制电流的,进行控制电机。本质上是驱动器来进行完成电流的调…

ssm基于SSM框架的成绩管理系统的设计与实现+vue

系统包含:源码论文 所用技术:SpringBootVueSSMMybatisMysql 免费提供给大家参考或者学习,获取源码请私聊我 需要定制请私聊 目 录 1 绪论 1 1.1 选题背景 1 1.2 选题意义 1 1.3 研究内容 2 2 系统开发技术 3 2.1 MySQL数据库 3 2.…

【系统集成中级】OSI 七层模型

【系统集成中级】OSI 七层模型 💐The Begin💐点点关注,收藏不迷路💐 OSI 七层模型: #mermaid-svg-FqFAWaiBSmivKOt2 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mer…

常见的SD-WAN组网方案解析

随着SD-WAN技术的日益成熟,越来越多的企业开始采用这种网络架构来解决跨区域的数据传输难题。SD-WAN组网方案不仅提升了网络性能,还有效降低了网络成本,成为现代企业构建高效网络的重要选择。那么,如何搭建SD-WAN组网?…

mysql数据同步ES方案---DTS

在上一篇文章中,我通过一个简单的例子实现了如何通过 Canal 实现 MySQL 数据到 Elasticsearch 的同步,以满足增量捕获和实时同步的需求。然而实际情况中,比如在我之前工作的公司,为了减少运维工作量和代码操作的复杂性&#xff0c…

OpenHarmony 入门——ArkUI 自定义组件内同步的装饰器@State小结(二)

文章大纲 引言一、组件内状态装饰器State1、初始化2、使用规则3、变量的传递/访问规则说明4、支持的观察变化的场景5、State 变量的值初始化和更新机制6、State支持联合类型实例 引言 前一篇文章OpenHarmony 入门——ArkUI 自定义组件之间的状态装饰器小结(一&…

Linux——网络层协议

前言 网络层:在复杂的网络环境中确定一个合适的路径 目录 前言 一IP协议 1预备知识 2基本概念 3格式 4网段划分 4.1理解IP 4.2IP组成 4.3划分方式 4.4为什么要网段划分 5特殊的IP地址 6IP地址的限制 7私有IP和公网IP 8NAT技术 9理解公网 10路由 …

软件数据安全评估

简介 SQLmap是一款「自动化」SQL注入 工具,kali自带。 可以自己手动安装 地址 源码 源码汉化版kali自带 开启 python 自己直接编译运行 kali 使用方法 1 Options(选项) -h,--help 显示帮助消息 -hh 显示详细帮助 -version -v…

【JavaScript】网页交互的灵魂舞者

我的主页&#xff1a;2的n次方_ 1. JavaScript 的三种引入方式 引⼊⽅式 语法描述 ⽰例 ⾏内样式 直接嵌⼊到 html 元素内部 <input type"button" value"点我⼀下" οnclick"alert(haha)"> 内部样式 定义<script>标签&a…

云计算第四阶段: cloud二周目 07-08

cloud 07 一、k8s服务管理 创建服务 # 资源清单文件 [rootmaster ~]# kubectl create service clusterip websvc --tcp80:80 --dry-runclient -o yaml [rootmaster ~]# vim websvc.yaml --- kind: Service apiVersion: v1 metadata:name: websvc spec:type: ClusterIPselector…

IGFBP7:免疫治疗新靶点

前 言 胰岛素样生长因子结合蛋白7&#xff08;IGFBP7&#xff09;是胰岛素超家族的生长促进肽成员&#xff0c;可与胰岛素和IGF结合&#xff0c;调控细胞生长和分化。IGFBP7在不同的肿瘤类型中表现出抑制或促进肿瘤生长的“自相矛盾”活性。研究发现IGFBP7可增强治疗性单克隆…

C语言 | Leetcode C语言题解之第491题非递减子序列

题目&#xff1a; 题解&#xff1a; int** ans; int ansSize; int* temp; int tempSize;void dfs(int cur, int last, int* nums, int numsSize, int** returnColumnSizes) {if (cur numsSize) {if (tempSize > 2) {ans[ansSize] malloc(sizeof(int) * tempSize);memcpy(…

HDLBits中文版,标准参考答案 | 5 Verification: Writing Testbenches | 验证:编写测试平台

关注 望森FPGA 查看更多FPGA资讯 这是望森的第 24 期分享 作者 | 望森 来源 | 望森FPGA 目录 1 Clock 2 Testbench1 3 AND gate 4 Testbench2 5 T flip-fop 本文中的代码都能够正常运行&#xff0c;请放心食用&#x1f60b;~ 练习的官方网站是&#xff1a;https://hdlbi…

Hi3061M——VL53L0X激光测距(IIC)(同样适用于其他MCU)

这里写目录标题 前言VL53L0X的简介VL53L0X的初始化和效准过程的相关APIVL53L0X开始测量和获取测量值VL53L0X移植配置结语 前言 手头正好有一个空闲的激光测距模块VL53L0X&#xff0c;想在Hi3061M上跑一下测距&#xff0c;以前并没有用过VL53L0X&#xff0c;想着以为还是向以前…

浅谈针对Nor flash状态寄存器保护位修改方法

浅谈针对Nor flash状态寄存器保护位修改 ✨最近在写QSPI驱动Nor flash过程中&#xff0c;在操作芯片的状态寄存器的时候&#xff0c;遇到的一些问题和解决办法。 &#x1f52c;操作Nor flash测试芯片&#xff1a;GD25Q64&#x1f516;以QSPI测试为例&#xff0c;SPI方式修改没有…

集成电路学习:什么是WLAN无线局域网

WLAN&#xff1a;无线局域网 WLAN&#xff0c;即无线局域网&#xff08;Wireless Local Area Network&#xff09;&#xff0c;是一种通过无线技术构建的局域网络&#xff0c;它使用无线信号传输数据&#xff0c;取代了传统有线网络中的网线连接。以下是关于WLAN的详细解释&…

Lumerical学习——优化和参数扫描(Optimization and parameter sweeps)

一、概要介绍 这部分介绍优化和参数扫描项目设定的方法。在有大量数据模拟计算过程中这个特性允许用户使处理方法自动地查找期望的参数值。 ① 创建一个参数扫描任务 ② 创建一个优化任务 ③ 创建一个良率分析任务 ⑤ 打开所选择项目的编辑窗口&#xff0c;编辑其属性…