改良海量数据存储的若干的手段-转变数据垃圾为黄金

news2025/8/2 9:43:02

教材篇

直到翻看了后面章节,才注意到封面上面的标语,中文意思是“禁止倾倒数据垃圾,违者务必读此书!”
大致祖师爷对杂乱无序的数据垃圾深恶痛绝,在这点上大凡上了点年头的数据工作者都是深有体会~
在这里插入图片描述

直到翻看了后面章节,才注意到封面上面的标语,中文意思是“禁止倾倒数据垃圾,违者务必读此书!”
大致祖师爷对杂乱无序的数据垃圾深恶痛绝,在这点上大凡上了点年头的数据工作者都是深有体会~在这里插入图片描述

单向数据湖问题

一开始数据湖信息在设计时并没有考虑未来的访问和分析,机构会发现这样的数据湖仅仅是数据量大而已,大部分数据并不能真正支持他们的业务,企业花费大量成本却没有带来任何收益
在这里插入图片描述

数据湖的改良目标

改造数据沼泽从单向流动为成良性流动,迭代数据资产从青铜变成黄金未目标。比较喜欢沿用Delta Lake官网的图
在这里插入图片描述

数据湖改良篇

改良一:基础属性的丰富,让数据湖具备洞察能力

为了方式数据无序倾倒进数据湖,第一步其实对数据进行基础成分的扩充。
1、元数据(metadata)
数据湖是可以容纳结构/半结构/非结构信息的,所以元数据可以是不同形式。典型的我们对元数据表现形式包含记录、属性、键值、索引等,但是如果其他类型结构,我们则需要描述他内容信息,这点非常关键。
表结构元数据 记录、属性、键值、索引
文档型的 作者、字数、标题、章节等
图片、视频等 作者、标题、时长、内容描述

2、整合图谱(integration mapping)
不同应用程序,通常有不同的语言编写、因为在线系统相对隔离,数据比较独立的放到数据湖中来,形成一个个瓦罐,这个时候为了让数据湖中的数据合理,就需要有一份“整合图谱”
3、语境(context)
语境表达的其实是需要描述清楚数据所处的上下文环境约束,数据内容脱离了上下文的意义不明确的数据,在很多情况下,不约束语境其实会造成错误。比如用户的身份信息,可以有多个都会产生:
在这里插入图片描述

4、元过程
数据被如何处理,数据何时产生、数据谁产生的、数据规模多大、日增多大、是账务及还是交易及、有无精准日切
数据如何被入湖的、是否有进一步的加工转换。
值得强调的是数据应当一开始入湖的时候就有这些信息、否则如果中途补上的话会丢失历史信息,数据缺少历史的连续性,很影响使用者判断

在这里插入图片描述

改良二:对数据进行划分、关注数据生产特征,进行不同语义处理

数据的产生特性其实代表对数据生命周期管理可以不一样的,比如我们的流量日志型数据和业务交易类型可能就不一样,,虽然数据的产生方式多种多样,但是按照生产规律来说还是可以划分的,因为数据具有如通用的特征,所以对数据的加工方式也可以抽象。
常规的划分
模拟信号数据 (analog data)
日志型、监控型、诊断数据等都属于这一类,大体上这类数据是巨大且反复的,这一类数据除了数据内容本身
应用程序数据 (application data)
应用类型的数据主要是数据库的数据,比较有规律的schema
文本数据 (textture data)
这类包含大部分半结构、非结构化的数据,文本、音频、视频等,这类特征是不会按照特定的格式存储、需要进一步使用
另一个视角划分
按照重复性和非重复进行划分

改良三:根据不同数据生产类型,定义数据池生命周期

在这里插入图片描述

改良四:良好的数据传承,更高级别定义数据流动以及更加详细定义池文档

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/16109.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

三相和单相智能微型断路器功能有区别吗?

安科瑞 华楠 ASCB1系列智能微型断路器是安科瑞电气股份有限公司全新推出的智慧用电产品,产品由智能微型断路器与智能网关两部分组成,可用于对用电线路的关键电气因素,如电压、电流、功率、温度、漏电、能耗等进行实时监测,具有远程…

渗透测试与漏洞扫描的区别

企业通常将漏洞扫描视为渗透测试的替代方法。这种认识是错误的。具有网络安全意识的组织必须在其业务流程中包括这两项活动,并确保它们协同工作。错过其中之一会大大降低 Web 应用程序安全性和网络安全性的安全状况。渗透测试和漏洞扫描也被单独视为合规性要求&…

【TFS-CLUB社区 第6期赠书活动】〖uni-app跨平台开发与应用从入门到实践〗等你来拿,参与评论,即可有机获得

文章目录❤️‍🔥 赠书活动 - 《uni-app跨平台开发与应用从入门到实践》❤️‍🔥 编辑推荐❤️‍🔥 抽奖方式与截止时间❤️‍🔥 赠书活动 → 获奖名单❤️‍🔥 赠书活动 - 《uni-app跨平台开发与应用从入门到实践》 内…

Redis事务操作

Redis事务操作 每个公司每个项目可能有不同的引入方式,但是最基本的都大差不差,所以这里只展示最基本的。 redis事务定义 redis事务是一个单独的隔离操作,事务中的所有命令都会序列化、按顺序地执行,事务在执行的过程中&#x…

Rancher - v2.6.5升级v2.7.0

Rancher👉v2.6.5升级v2.7.0 时间:2022年11月18日16:37:50 2022-11-17凌晨,rancher推出了新的稳定版:v2.7.0。 一、为什么要升级到v2.7.0?v2.6.5有什么严重的问题吗? ● 对于私有云来说,一般生…

C51项目 - 可调万年历

目录一、实验目的二、实验仪器三、实验效果预览1.显示效果2.调节效果四、实验原理五、单片机代码1.头文件包含2.类型定义3.时钟模块4. 液晶显示模块5.温度传感器模块6. 红外通讯模块7.开机初始化8.特殊功能函数9.代码段常量10.完整代码一、实验目的 使用51单片机作为主控芯片&…

Hybrid app混合开发的一些经验和总结

随着5G技术的发展和移动终端普及,移动设备的便捷性和网络的泛在化,移动应用已广泛应用于电子商务、电子政务、医疗和辅助教学中。 智能手机等移动终端的存储、运算能力不断增强,但其显示、输入等不如PC灵活,对操作界面灵活性有强…

Redis 搭建高可用集群

、单个redis服务搭建请参考:redis服务搭建 2、在/usr/local下创建目录redis-cluster,并在redis-cluster下创建 6379、6380、6381目录以及data、temp目录 # cd /usr/local # mkdir redis-cluster --其他文件创建类似,此处不一一写出 3、复制安装后的re…

[笔记]快乐的Linux命令行《二》文件系统中跳转

系列文章目录 [笔记]快乐的Linux命令行《一》LInux系统简介以及什么是shell [笔记]快乐的Linux命令行《二》文件系统中跳转 文章目录系列文章目录前言一、文件系统中跳转1.1 理解文件系统树Linux基本文件系统树目录介绍与Windows的异同1.2 当前工作目录pwd 显示当前工作目录1.…

CSS基础入门

CSS基础入门 1.官方文档 1.CSS 指的是层叠样式表* (Cascading Style Sheets) 2.地址: https://www.w3school.com.cn/css/index.asp 2.为什么需要 CSS 1.在没有 CSS 之前,我们想要修改 HTML 元素的样式需要为每个 HTML 元素单独定义样式属性,费心费力…

手把手教你如何编写一个Makefile文件

一、概念理解(彩蛋藏在某个地方) 1.1 什么是Makefile? C语言中,我们使用visual studio开发软件时候,写程序开始时候都会创建一个project项目文件,然后在文件里面编译 .h 和 .c 的文件。在Linux中&#xf…

给大家免费发布几款苹果CMSv10模板影视主题,附带教程和演示截图

苹果CMS是优秀的开源PHP建站系统,在主流建站系统中特色鲜明,以灵活、小巧、兼容性好、负载强等优点而深受许多站长的喜爱。 很多人在运营苹果cms站点都会找模板,下面博主给大家推荐几款免费并且简约的模板,其实个人认为模板这东西不需要买太贵的&#xf…

编译安装LAMP架构搭建wordpress个人博客和discuz论坛——编译安装基于 FASTCGI 模式LAMP架构多虚拟主机WEB应用

文章目录1 实验目标2 环境准备3 实现步骤3.1.1 二进制安装3.1.2为wordprss和discuz应用准备数据库和用户帐号3.2 编译安装 httpd 2.43.3 编译安装 fastcgi 方式的 php 7.43.4 修改配置 httpd 支持 php-fpm3.5 准备wordpress和discuz! 相关文件3.6 测试访问3.7 安装成功1 实验目…

MySQL高级篇知识点——其它数据库日志

目录1.其他数据库日志1.1.日志类型1.2.日志的弊端2.慢查询日志 (slow query log)3.通用查询日志 (general query log)3.1.问题场景3.2.查看当前状态3.3.启动日志3.4.查看日志3.5.停止日志3.6.删除/刷新日志4.错误日志 (error log)4.1.启动日志4.2.查看日志4.3.删除/刷新日志5.二…

Glide图片框架源码解析

一、Glide几个基本概念 Model 表示数据的来源;加载图片的时候需要告诉Glide从哪获取这个图片,可以是url类型、本地文件类型、资源ID类型。不管什么类型,Glide都将其称为Model。 Data 从数据源中获取到model之后,把它加工成原始数…

java.swing 飞机大战小游戏

上午没事刷到网上最近炒热了一些简单的小游戏和爱心代码,单身8个月了,对爱心代码不是很感冒,所以想蹭个热度,写一个飞机大站来玩玩。 首先,分析小游戏需要那些技术与怎么设计: 窗体,因为是jav…

Python如何使用PyMySQL连接数据库

1:为什么要连接数据库呢? 做接口自动化测试的时候,我们需要校验数据是否正常入库,数据是否正确,来做断言处理;有的时候需要修改数据,去执行其他场景的测试用例;有的时候需要删除数据…

DOX-HSA/HGB/FITC/Glu人血清蛋白/血红蛋白/荧光素/葡萄糖修饰阿霉素

小编今天分享给大家的科研知识是DOX-HSA/HGB/FITC/Glu人血清蛋白/血红蛋白/荧光素/葡萄糖修饰阿霉素,来看! DOX-HSA人血清蛋白偶联阿霉素相关: 采用阿霉素(Doxorubicin,DOX)与人血清白蛋白(HSA)经化学交联获得的偶联物。本品经过滤,溶于PBS…

Chapter4 利用机器学习解决分类和回归问题

目录 4.1 机器学习和神经网络基本概念 4.1.1 感知器 4.1.2 前向传播 4.1.3 反向传播 4.1.4 过拟合和欠拟合 4.2 利用神经网络解决回归问题 4.2.1 问题介绍 4.2.2 利用pytorch解析数据 4.2.2 利用pytorch定义网络结构 4.2.3 开始训练 4.2.4 将模型进行保存 4.3 利用p…

云中马在A股上市:总市值约为40亿元,叶福忠为实际控制人

11月18日,浙江云中马股份有限公司(下称“云中马”,SH:603130)在上海证券交易所主板上市。本次上市,云中马的发行价为19.72元/股,发行数量为3500万股,募资总额约为6.90亿元,募资金额约…