数仓治理之数据梳理

news2025/7/27 12:52:34

 

目录

1.定义

2.用途作用

3.实施方法

3.1自上而下

3.1.1数据域梳理

3.1.2数据主题梳理

3.1.3 数据实体梳理

3.1.4设计数据模型

3.1.5优点

3.1.5缺点

3.2自下而上

 3.2.1需求分析

3.2.2展现

3.2.3分析逻辑

 3.2.4数据建模

 3.2.5优点

  3.2.6缺点


1.定义

         “数据梳理”即对企业数据资产的梳理。

2.用途作用

        在通过对数据的过程中,可知晓企业当中到底有哪些儿数据,这些数据存储在哪些地方,数据质量如何。数据梳理能够帮助我们对企业数据资产进行摸底,为数仓建设-建模提供有力地支撑。

3.实施方法

3.1自上而下

        自上而下的数据梳理指从企业业务视角中出发,通过业务流程进行全面分析,逐层分解。

由数据域→数据主题→数据实体→数据模型→,一步步细化、抽象、设计出来的实体数据模型的过程。

 

3.1.1数据域梳理

        在业务调研后,可以进行数据域的划分。划分主题域,需要分析各个业务模块中有哪些业务活动。通常都按业务系统划分,比如:“人力资源管理系统”对应“人力资源数据域”,“财务管理系统”对应“财务数据域”,“供应链管理系统”对应“供应链数据域”.....等等。

3.1.2数据主题梳理

        数据主题梳理是指,按照部门职能、业务流程来梳理数据域的二级主题。

        例如:

                人力资源数据域下包含的二级主题有:招聘管理、培训管理、人事管理、薪酬福利管理、绩效考核管理...等。

                供应链数据域下包含的二级主题有:供应商、销售、商品物料、仓库....等。

3.1.3 数据实体梳理

        数据实体梳理是指数据主题所涉及的各类业务单据、用户视图进行数据收集和分析,细化出业务主题所包含的数据实体和数据实体涉及的数据元素。

        例如:

                人事管理主题包含的实体有:组织机构、岗位、人员等

3.1.4设计数据模型

        逻辑模型设计:对实体进行抽象,描述实体之间的继承或关联关系,明确数据结构的属性构成等。

        物理模型设计:描述的物理数据存储结构和数据关系。

3.1.5优点

        全面系统的梳理,通过数据域 -》 数据主题 -》 数据实体 -》数据模型的逐层分解,使企业清晰地了解企业数据的来龙去脉,有助于企业把握各类数据的源头,确保数据的有效性、完整性和一致性,有效消除信息孤岛。

3.1.5缺点

        需要较大的成本和较长的时间周期来进行数据梳理

3.2自下而上

        自下而上的数据梳理特点是比较有针对性,直击目标和需求。该方法以目标和需求为驱动,一步步梳理出实现需求所需要的数据,并确定数据的来源、数据结构及数据实体之间的关系。

 

 3.2.1需求分析

        数据治理是一个复杂的过程,项目的开发涉及多方面的问题和风险,如技术风险、数据质量问题、项目管理问题,但项目中最隐蔽、最容易忽略、最难控制的一环就是需求的调研和分析。需求分析应从IT现状、业务部门、高层希望等方面展开,明确项目的目标和范围。

3.2.2展现

        虽然有了明确的需求,但客户跟关注的是数据的展现形式和效果,因此将不同的数据分析结果推送给不同的客户是该阶段的重点。采用原型的方式可以帮助和引导客户的需求。

3.2.3分析逻辑

        分析逻辑是指分析实现需求的业务逻辑,其输出结果是数据仓库的逻辑模型。逻辑模型用来表达实际业务中的具体业务关系和分析逻辑。

 3.2.4数据建模

        将逻辑模型转化为给数据库存储的物理模型。

 3.2.5优点

        目的性强,从既定的需求触发到具体的数据结构设计,越到底层变化的可能性越小。从整体出发的大规模调研规划相比,这种方式的周期更短、见效更快(主要满足于需求目标),有了明确的项目目标和需求的情况下采用方式最佳。

  3.2.6缺点

        局部梳理,缺乏全面性和系统性,无法支持企业顶层的数据架构设计。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/394685.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot 如何保证接口安全?

为什么要保证接口安全对于互联网来说,只要你系统的接口暴露在外网,就避免不了接口安全问题。 如果你的接口在外网裸奔,只要让黑客知道接口的地址和参数就可以调用,那简直就是灾难。举个例子:你的网站用户注册的时候&am…

【云原生kubernetes】k8s数据存储之Volume使用详解

目录 一、什么是Volume 二、k8s中的Volume 三、k8s中常见的Volume类型 四、Volume 之 EmptyDir 4.1 EmptyDir 特点 4.2 EmptyDir 实现文件共享 4.2.1 关于busybox 4.3 操作步骤 4.3.1 创建配置模板文件yaml 4.3.2 创建Pod 4.3.3 访问nginx使其产生访问日志 4.3.4 …

I.MX6ULL_Linux_系统篇(27) 系统烧录工具

前面我们已经移植好了 uboot 和 linux kernle,制作好了根文件系统。但是我们移植都是通过网络来测试的,在实际的产品开发中肯定不可能通过网络来运行,因此我们需要将 uboot、 linux kernel、 .dtb(设备树)和 rootfs 这四个文件烧写到板子上的…

Nginx学习 (2) —— 虚拟主机配置

文章目录虚拟主机原理域名解析与泛域名解析(实践)配置文件中ServerName的匹配规则技术架构多用户二级域名短网址虚拟主机原理 为什么需要虚拟主机: 当一台主机充当服务器给用户提供资源的时候,并不是一直都有很大的用户量&#…

数据库面试题总结——DBA面试battle指南

目录 前言 数据库复制 oracle和pg的同步原理 mysql的同步原理 mysql的GTID 主从架构如何保证数据不丢失 oracle的保护模式 pg的日志传输模​​​​​​​式 mysql同步模式 从库只读 oracle的只读 pg的只读 mysql的只读 索引结构和寻迹 B树索引 索引寻迹 绑定执…

nacos源码入门

nacos官方文档地址:nacos官方文档 Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service的首字母简称,一个更易于构建云原生应用的动态服务发现、配置管理和服务管理平台。 简单来说,nacos就是一个注册中心、配置中心&#xff0…

灯具照明行业MES系统,助力企业实现数字化转型

灯具照明行业在制造领域,是典型的高科技离散生产制造模式,大部分企业都设置:电源组件、光源组件、或光电一体组件 ,工艺以SMT、DIP等。 灯罩主要采用吸塑工艺及模具加工;其它金属的面盖、灯体、灯盒基本都是采用压铸、…

传送点遍历分析

由于《天涯明月刀》的地图较大,所以每个地图中会分布很多的传送点,而这些传送点都可以在访问过地图之后以“御风神行”这类技能进行传送。为了能够很好的利用这类技能,提高外挂的效率,传送点的遍历是必不可少的。 首先找一个可以…

代码随想录算法训练营第七天|454.四数相加II 、 383. 赎金信 、 15. 三数之和 、18. 四数之和

454.四数相加II 454.四数相加II介绍给你四个整数数组 nums1、nums2、nums3 和 nums4 ,数组长度都是 n ,请你计算有多少个元组 (i, j, k, l) 能满足:思路因为是存放在数组里不同位置的元素,因此不需要考虑去重的操作,而…

深度学习算法简要总结系列

今天突发奇想,准备一个总结系列,以备面试只需,嘿嘿,忘了就回来看看,以框架流程为主,不涉及细节、 点云 pointnet 代码仓库 https://github.com/yanx27/Pointnet_Pointnet2_pytorch 参考博客 论文阅读笔记 …

java单元测试批处理数据模板【亿点点日志配合分页以及多线程处理】

文章目录引入相关资料环境准备分页查询处理,减少单次批量处理的数据量级补充亿点点日志,更易观察多线程优化查询_切数据版多线程_每个线程都分页处理引入 都说后端开发能顶半个运维,我们经常需要对大量输出进行需求调整,很多时候…

Umi + React + Ant Design Pro 项目实践(一)—— 项目搭建

学习一下 Umi、 Ant Design 和 Ant Design Pro 从 0 开始创建一个简单应用。 首先,新建项目目录: 在项目目录 D:\react\demo 中,安装 Umi 脚手架: yarn create umi # npm create umi安装成功: 接下来,…

《OpenGL宝典》--纹理

文章目录创建并初始化纹理创建纹理更新纹理数据纹理目标和类型从着色器中读取纹理数据采样器类型使用texelFetch内置函数从着色器读取纹理使用texture()函数从着色器读取纹理获取更多信息控制纹理数据的读取方式使用采样器对象存储采样器包装和过滤模式的…

AVL树的介绍和实现

我们知道,二叉搜索树是会出现单向的。单向在查找时效率是非常低的,时间复杂度会退化成O(N),而AVL树就是解决这个问题。 文章目录1. AVL 树1.1 AVL树的概念1.2 AVL树节点的定义1.3 插入后的平衡因子1.4 AVL树的旋转1.4.1 右右:左单…

JavaScript 循环实例集合

文章目录JavaScript 循环实例集合For 循环循环输出 HTML 标题While 循环Do while 循环break 语句continue 语句使用 For...In 声明来遍历数组内的元素JavaScript 循环实例集合 For 循环 源码 <!DOCTYPE html> <html> <head> <meta charset"utf-8&q…

PG数据库入门知识

前言 Linux和windows的路劲分隔符是不同的&#xff0c;Linux下是斜杠/,而windows是反斜杠&#xff08;\&#xff09;。但在PG里window下也要使用linux的/作为路劲分隔符。 基础知识 为什么选择PG PostgreSQL是一款企业级关系型数据库管理系统。PostgreSQL之所以如此特别&am…

如何成为程序员中的牛人/高手?

目录 一、牛人是怎么成为牛人的&#xff1f; 二、关于牛人的一点看法 三、让程序员与业务接壤&#xff0c;在开发团队中“升级” 四、使用低代码平台 目标效果 五、最后 祝伟大的程序员们梦想成真、码到成功&#xff01; 一、牛人是怎么成为牛人的&#xff1f; 最近在某…

Android开发学习—手机开机启动的AMS流程

前言 AMS是Android中最核心的服务&#xff0c;主要负责系统中四大组件的启动、切换、调度及应用进程的管理和调度等工作&#xff0c;其职责与操作系统中的进程管理和调度模块相类似&#xff0c;因此它在Android中非常重要。 客户端使用ActivityManager类。由于AMS是系统核心服…

浅谈ChatGPT 和 对AI 的思考

新世纪以来&#xff0c;人工智能作为一个非常热门话题&#xff0c;一直收到大众的广泛的关注。从一开始的图像的分类&#xff0c;检测&#xff0c;到人脸的识别&#xff0c;到视频分析分类&#xff0c;到事件的监测&#xff0c;到基于图片的文本生成&#xff0c;到AI自动写小说…

机器学习-卷积神经网络CNN中的单通道和多通道图片差异

背景 最近在使用CNN的场景中&#xff0c;既有单通道的图片输入需求&#xff0c;也有多通道的图片输入需求&#xff0c;因此又整理回顾了一下单通道或者多通道卷积的差别&#xff0c;这里记录一下探索过程。 结论 直接给出结论&#xff0c;单通道图片和多通道图片在经历了第一…