初识 MySQL HeatWave

news2025/7/6 20:40:15

MySQL 作为全球最欢迎的数据库,已在交易场景叱咤风云多年。在 2020 年底,OCI(Oracle Cloud Infrastructure)推出了一个黑科技插件,它弥补了 MySQL 在分析场景的短板,Oracle 官方称它比 Aurora 快 1400 倍,比 Redshift 快 6.5 倍,而且还能以二分之一的成本完成这些工作,它就是 MySQL HeatWave。

目前网络上关于 MySQL HeatWave 的资料相对较少,我通过已有的资料和 B 站公开课视频初探 MySQL HeatWave,梳理出本篇笔记。

本文发布时间为 2022 年 11 月,由于产品更新的客观情况,本文部分信息会存在实效性,请以官方文档为准。(MySQL :: MySQL HeatWave User Guide :: 1 Overview)

MySQL HeatWave 简介

MySQL HeatWave 是一个内置高性能内存查询加速器的 MySQL 云服务。借助该服务,我们无需对当前应用进行任何更改,即可将混合工作负载的 MySQL 性能提高数个量级。

相比传统的分析场景,MySQL HeatWave 可以让用户无需再使用单独的分析数据库、单独的机器学习 (ML) 工具以及提取、转换和加载(ETL)复制。同时,借助 MySQL HeatWave 机器学习,开发人员和数据分析师可以在 MySQL HeatWave 中构建、训练、部署和解释机器学习模型,无需将数据迁移到单独的机器学习服务中。

目前 MySQL HeatWave 可在 OCI(Oracle Cloud Infrastructure)、AWS(Amazon Web Services)和 Microsoft Azure 上使用。


MySQL HeatWave 可以附加到 MDS(MySQL Database Service)来支持分析类查询,它不会暴露给应用程序。MySQL HeatWave 的数据库是以列存形式存储在内存当中。

简单了解 MySQL HeatWave,首先了解如下三条内容即可:

  1. 使用同一个 MySQL 数据库来支持 OLTP 和 OLAP;
  2. 数据以分区的方式存储在内存中;
  3. 应用程序无需做任何更改

MySQL HeatWave 技术架构

整体架构

MySQL HeatWave 的架构如下图所示,它以一个插件的形式存在于整个 MySQL 数据库系统当中,它不会直接面对应用程序,可以理解为 MySQL HeatWave 挂在了 MDS 之下,用户无需修改原有的数据访问方式。

MySQL HeatWave 插件对应着若干个 MySQL HeatWave Node。MySQL HeatWave 的数据在内存中以列存的方式存储,其持久化的数据是存放在对象存储中,可在 Node 失效后快速完成恢复。

列存

HeatWave 的数据以列存方式存储在内存中,便于向量化处理,同时数据在加载到内存前会进行编码和压缩,可提高性能和减少内存占用,从而降低客户的成本。

  1. 基于行存数据做水平分区,基于水平分区,可以将查询在节点级并行执行来加速 scan、join、group-by、aggr 和 top-k 等算子,同时分区规划是与底层 RAPID 定制化硬件适配的。
  2. 分区内部将数据按照schema定义组织成列式存储,以引入向量化执行,每个向量化计算的单位是16KiB 的 vector,各列对应行的vector组合在一起成为 chunk,每个 partition 会有多个 chunks。
  3. 为了适配 DMS,vector 又划分为多个 tile,每 64 行组成一个tile作为数据传输的最小单元。
  4. 为了减少内存的使用,所有存储的数据都会做编码或压缩。

MySQL HeatWave 功能

以下内容摘自 Oracle 官网,地址为 https://www.oracle.com/mysql/#rc30p6

  • 一个 MySQL 数据库满足 OLTP 和 OLAP 两种需求

    • 对 ETL 无依赖
    • 提供实时分析
    • 增强安全性
    • 无需修改应用程序
    • 支持 MySQL 数据库所支持的 BI 和数据可视化工具
    • 可在公有云和用户的数据中心使用
  • 高性能内存查询加速器

    • 采用大规模扩展和高性能架构设计
    • 针对云进行了优化
    • 针对高事务处理量和连接进行了优化
  • In-database 机器学习

    • 无需额外的机器学习服务
    • 利用机器学习生命周期自动化,节省时间并减轻工作量
    • 可解释的机器学习模型
  • MySQL 自动驾驶

    • 自动配置
    • 自动线程池
    • 自动分片预测
    • 自动编码
    • 自动查询计划优化
    • 自动数据安置
  • MySQL 湖仓一体(beta)

    • TPC-H 性能优于同类产品
    • 快速分析所有数据
    • 可扩展的管理、处理数据架构
    • 机器学习驱动自动优化,提升性能并节省时间
  • 实时弹性

    • 在高峰时间始终保持稳定的高性能,成本更低且无停机时间
    • 避免过度预配实例
  • 全托管数据库服务

    • 由 MySQL 工程团队开发、管理和提供支持
    • MySQL HeatWave 交互式控制台:管理资源、运行查询和监视性能
  • 高级安全性

    • 通过密钥生成和数字签名进行非对称加密
    • 数据脱敏
    • SQL 白名单

MySQL HeatWave 工作原理

  1. RAPID 引擎支持语句中相关函数;
  2. RAPID 引擎执行时间评估少于 InnoDB 的执行时间。

当同时满足以上两个条件时,将由 RAPID 引擎,也就是 MySQL HeatWave 来处理相关业务请求。

在启用 MySQL HeatWave 插件后,对于接收到的请求,MDS 会通过两个条件来判断该请求是否走 RAPID 引擎,MySQL HeatWave 所使用的引擎是 RAPID,在研发阶段 MySQL HeatWave 的名字就是“RAPID”。

MySQL HeatWave 数据加载

加载方式

对于 MySQL HeatWave 的数据,可通过如下三种方式进行加载:

  1. 手动加载数据,每次加载一张表;
  2. 通过自动并行方式加载数据,通过 Autopilot 的方式可并行执行,效率较高;
  3. 通过 MySQL HeatWave 的控制台,以可视化的操作来完成数据加载,这种方式目前仅限在 AWS 上进行操作。没错,这里确实是只有 AWS 支持 MySQL HeatWave 控制台,AWS 快了 OCI 一步。

在初次数据加载时可能会耗时久一些,在完成数据加载后,MySQL HeatWave 会自动地保持与 InnoDB 数据一致,这里值得关注的是,自动同步变更数据的模式是异步的,最多可能要用户接受 200ms 的数据延迟,也就是说 MDS 上的数据变更不会等待 MySQL HeatWave 的反馈

同步方式

MDS 会根据如下策略对数据进行同步:

  1. 每 200 ms;
  2. 当变更传输缓冲区达到 64MB 时;
  3. 在 MDS 中,经过 DML 变更的数据被后续的 HeatWave 查询需要读取时。

MySQL HeatWave 部署方式

公有云

MySQL HeatWave 可支持在 OCI(Oracle Cloud Infrastructure)、AWS(Amazon Web Services)和 Microsoft Azure 上使用。

所需的 HeatWave 节点数取决于数据大小,OCI 和 Azure 最多支持 64 个节点。在亚马逊网络服务(AWS)上,一个HeatWave集群最多支持128个 节点。

混合部署

混合部署是指本地部署 OLTP + 云端部署 OLAP 的方式,在这种混合部署中,客户可以使用 MySQL 复制将本地 MySQL 数据复制到 OCI 或 AWS 的 MySQL HeatWave,而无需通过 ETL 来满足分析业务需求。

这种混合部署方式需要考虑数据延迟情况,在“数据加载”中已介绍,InnoDB 和 HeatWave 间数据是异步进行传输的,加上网络的延迟,需要考虑数据的实时性问题。据了解目前中国区没有 MySQL HeatWave。

本地部署

OCI 支持部署在用户的数据中心,可满足合规要求,让数据驻留在用户的数据中心。这样的部署方式具备以下特点:

  1. 具有独立的 OCI 云区域,由 Oracle 托管;
  2. 满足数据驻留在用户数据中心的需求;
  3. 满足低延迟的需求。

MySQL HeatWave 性价比

MySQL HeatWave 和 Amazon Redshift 「最快的实例」进行性能对比,对 19 次 TPC-H 测试结果进行几何平均计算后,MySQL HeatWave 比 Amazon Redshift 速度快 2.7 倍,成本仅为 Amazon Redshift 的三分之一。

MySQL HeatWave 和 Amazon Redshift 「低成本实例」进行性能对比,MySQL HeatWave 性能上要领先 Amazon Redshift 17 倍以上,投入成本持平。


从官方公布的性价比数据看,相比图上其他几款产品,MySQL HeatWave 性价比最高。

MySQL HeatWave 费用

在 Oracle 公益课堂中,我们可以了解到 MySQL HeatWave 的大概使用成本,对于这张图我们只需要关注下半部分,对于 2T 数据量的环境,每月的成本约为 1260 美元

其中包括了 MDS 费用、MDS 存储的费用和 HeatWave 的费用。

MySQL HeatWave 多云差异

OCI 和 AWS

HeatWave 在 OCI 和 AWS 两朵云的 Roadmap 上的差异是比较有趣的,前面已提到可视化的数据加载只能通过 AWS 来完成,不只是这项能力,通过下图来看,AWS 在用户体验上要优于 OCI。

(https://www.oracle.com/mysql/#roadmap)

在 OCI 中需要使用控制台时,将会跳转到 AWS。

Azure

对于 Azure 用户,仍然可以使用 MySQL HeatWave 服务,它是通过 Azure VNET 连接 OCI 的 MySQL HeatWave,也就是说,实际上使用的还是 OCI 的环境。

目的是为 Azure 用户提供原生用户体验,私有互联的方式将网络延迟控制在 2ms 内。


(https://www.oracle.com/cloud/azure/oracle-database-for-azure/)

总结

MySQL HeatWave 可支持在 OCI(Oracle Cloud Infrastructure)、AWS(Amazon Web Services)和 Microsoft Azure 上使用,也支持将 OCI 部署到用户数据中心。

启用 MySQL HeatWave 插件后,用户可以通过一个 MySQL 服务来满足业务在 TP 和 AP 的需求,而无需修改业务。通过内部流程自动地完成数据同步,不需要单独维护 ETL,可保持架构简洁。自动驾驶(AI)和湖仓一体的能力给用户更多期待。

MySQL HeatWave 弥补了 MySQL 在分析场景的能力,对于中小型企业有非常大的意义。

其中有两方面不足之处,值得用户关注:InnoDB 的存储(扩展限制)及数据一致性问题。

扩展限制:MySQL HeatWave 可以提供扩展能力,但 MySQL InnoDB 存储问题没有在本质上被解决掉,InnoDB 面对海量数据的情况,仍存在较大挑战。

数据一致性:对于数据一致性要求较高的场景,需要考虑 InnoDB 到 HeatWave 的延迟问题(异步传输)。

参考

[1] MySQL :: MySQL HeatWave User Guide :: 1 Overview

[2] Pushing Cloud MySQL Performance The Oracle Way (nextplatform.com)

[3] MySQL · HTAP · 分析型执行引擎 (taobao.org)

[4] Oracle 公益课堂:MDS & Heatwave

[5] HeatWave | Oracle 中国

[6] MySQL HeatWave Database Service | Oracle

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/37311.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GIS 分析常用的 7 个地理处理工具

以下这7 个地理处理工具总是在 GIS 大师的热门列表中名列前茅,似乎如我们的精神食粮,像面包和黄油一样。从裁剪到缓冲,您将学习处理GIS 数据的基础知识,以便更好地了解如何将这些 GIS 工具用于实际应用程序。在ArcGIS 和 QGIS等 G…

Gradle学习笔记之第一个Gradle项目

文章目录前言创建gradle项目gradle目录结构gradle常用命令修改maven仓库地址启用init.gradle的方法关于gradle仓库gradle包装器前言 Gradle是Android构建的基本工具,因此作为Android研发,有必要系统地学一学Gradle,环境windows就可以。 创建…

学生个人网页模板 学生个人网页设计作品 简单个人主页成品 个人网页制作 HTML学生个人网站作业设计代做

🎉精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业…

git原理和命令以及工具

原理 工作区、暂存区和版本库 分支结构 origin 对象模型 命令 配置 $ git config --global user.name “John Doe” $ git config --global user.email johndoeexample.com 针对特定项目使用不同的用户名称与邮件地址时,可以在那个项目目录下运行没有 --globa…

52、训练paddleSeg模型,部署自己的模型到OAK相机上

基本思想:简单记录一下训练过程,数据集在coco基础上进行,进行筛选出杯子的数据集,然后进行训练,比较简单, 从coco数据集中筛选出杯子的数据集,然后在labelme数据集的基础上,转成padd…

学生个人网页设计作品:基于HTML+CSS+JavaScript实现摄影艺术网站 DIV布局简单的摄影主题网站

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业: 【📚毕设项目精品实战案例 (10…

NATAPP 访问vue-cli启动的项目

由于疫情原因,最近又静默居家办公了,由于项目需要,不得不再使用一下natapp了,这个东西两年前就用过了,不过以前访问的不是vue-cli项目,特此记录一下,因为这里有个坑,上午搞了半天没搞…

APP逆向案例之(二)对加固APP进行分析和破解

说明:对加固APP进行分析和破解,对发现新版本提示关掉 1、先对APP窗口类行进HOOK,确定窗口提示用的是那个类。 android hooking watch class android.app.AlertDialog 2、发现一个非常明显的函数 setCancelable objection -g com.hello.qq…

50个html+css+js项目小练习(二:动画的倒计时效果)

2.animated-navigation 实现效果: 倒计时321后显示go数字依次从x轴负方向,顺时针倒下去 xy第一个数(0,y)—>(-x,0) 第一个数字倒下去的同时,第二个数从x轴正方向升起 第二个数(x…

1. 开篇:既简单又复杂的基础框架

同样的基础但不简单 之前在写 《从 0 开始深入学习 Spring》 小册时,阿熊提到过一件事:学习 JavaEE 开发的第一个框架,大多数是推荐 MyBatis 的,因为它相对简单,学习起来也相对轻松。不过不要因为 MyBatis 入门简单&a…

【电商】管理后台篇之安全、菜单、通知管理

系统管理第一篇我们介绍了账号管理相关的业务,这一篇我们介绍下其他几个常见的业务:安全管理、菜单管理和通知管理。 本篇介绍的几个常见业务如下: 安全管理:监控每个账号的登录情况和操作情况通知管理:给使用后台系统…

[附源码]计算机毕业设计JAVA企业信息网站

[附源码]计算机毕业设计JAVA企业信息网站 项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis M…

自定义qtquick 插件模块,支持qmldesigner

自定义qtquick 插件模块,支持qmldesigner wmxModule.pro #------------------------------------------------- # # Project created by wmx # #-------------------------------------------------QT core qml quickTARGET wmxModule TEMPLATE lib CONF…

图像处理QPixmap、Picture、QBitmap

QPixmap 类是一种可用作绘制设备的屏幕外图像表示形式。 QPixmap可以使用QLabel或QAbstractButton的子类之一可以轻松显示在屏幕上 QPixmap 对象可以按值传递,因为 QPixmap 类使用隐式数据共享,也可以流式传输。 QPixmap可以和QImage之间进行转换&…

【关于lombok框架一文秒懂】

目录 1. Lombok框架 2. 安装lombok插件 1. Lombok框架 Lombok框架是用于在编译期自动生成相关代码的,例如:Setters & Getters、hashCode()、equals()、toString()、无参数构造方法、全参数构造方法等。 相关的注解有: Data&#xff1…

python中的编码格式

1- 字符集和编码 1) 初代编码 – ASCII 1- 物理机与电脑的交互:物理机中有个组件叫二极管, 可以通过电流通过二极管显示的高电平和低电平来记录信号。 2- 二极管的高电平和低电平则被计算机解读为0 和 1 3- 多个0和1拼接起来成为了二进制数据…

自动化测试框架设计原理详解

一、自动化测试场景 1、测试四象限 并不是所有测试类型都适合自动化。哪些测试更适合自动化?哪些更适合手工测试? 根据Brain Marick提出的测试四象限,我们可以对测试进行归类,将其划分到4个象限中,以解答这些问题,如下图所示。 第一象限:面向技术和指导开发,该象限中…

ActivityPub 笔记

ActivityPub 协议是一个去中心化的社交网络协议,其基于 ActivityStreams 2.0 数据格式。 在 ActivityPub 协议里,一个用户在服务器上的角色为“参与者(actor)”。用户在不同的服务器上的角色为不同的“参与者”。每一名“参与者”…

LSTM和GRU

LSTM和GRU RNN的优缺点 优点: 可以捕获序列之间的关系;共享参数。 缺点: 存在梯度消失和梯度爆炸问题;RNN的训练是一个比较困难的任务;无法处理长序列问题。 LSTM LSTM可以处理长序列问题,同样在之前…

openssl做文件处理(base64,MD5,sha256等)

这次使用openssl,发现openssl不仅可以用来做加密和解密,实际上也可以用来做文件的处理,比如base64转码、解码,文件md5的计算等。实现这些,即可以从命令行去做,也可以通过代码去实现。 1. 命令行操作 1. ba…