GQA（Grouped Query Attention）：分组注意力机制的原理与实践《一》

GQA（Grouped Query Attention）：分组注意力机制的原理与实践《一》

news2025/6/6 8:17:40

GQA（Grouped Query Attention）是近年来在大语言模型中广泛应用的一种注意力机制优化方法，最初由 Google 在 2023 年提出。它是对 Multi-Query Attention (MQA) 的扩展，旨在平衡模型性能与计算效率。

🌟 GQA 是什么？

简单定义：

GQA 是一种将查询头（Query Heads）分组，并共享键（Key）和值（Value）头的注意力机制变体。

它试图在 标准的多头注意力（MHA） 和 多查询注意力（MQA） 之间找到一个折中点：

注意力类型	Query Heads	Key/Value Heads	共享情况
MHA	多个	多个	不共享
GQA	多个	少于 Query 的多个	分组共享
MQA	多个	1	完全共享

🧠 原理详解

1. 回顾标准 Multi-Head Attention (MHA)

在标准的 Transformer 中：

每个 token 的 Q、K、V 都是由输入线性变换得到。
如果有 H 个 attention heads，则每个 head 都有自己的 Q、K、V 向量。

公式如下：

$XW_Q, \quad K = XW_K, \quad V = XW_V$

其中 $ W_Q, W_K, W_V $ 是可学习参数。

每个 head 的 Q/K/V 是从这些矩阵中切出来的。

2. 引入 GQA：Query 分组 + Key/Value 共享

在 GQA 中：

Query heads 被分成若干组（比如 4 组）
每组共享一组 Key 和 Value 向量（即每组对应一个 K 和 V）

例如：

总共 32 个 query heads
分成 4 组，每组 8 个 heads
每组使用相同的 Key 和 Value 向量
所以只需要 4 组 K/V，而不是 32 组

这样做的好处是：

减少了 Key/Value 的数量，降低了内存占用（尤其是 KV Cache）
保留了比 MQA 更多的表达能力

⚙️ GQA 的优势

优势	描述
✅ 推理速度更快	更少的 Key/Value 向量意味着更小的 KV Cache，减少解码时的内存访问延迟
✅ 内存占用更低	特别是在批量生成或长文本生成时，KV Cache 占用显著降低
✅ 比 MQA 表现更好	相比完全共享 Key/Value 的 MQA，GQA 保留了部分多样性，模型表现通常更优
✅ 适合部署	对硬件资源友好，特别适合在有限算力设备上运行的大模型

🔍 示例说明（来自 Llama 3）

Llama 3 使用了 GQA 技术来提升推理效率。

总共 32 个 query heads
只使用了 8 个 key/value heads（即每组 4 个 queries 共享一个 key/value）

这意味着：

每个 group 包含 4 个 query heads
这些 query 共享同一个 key 和 value

这样可以保持大部分 MHA 的表达能力，同时节省内存和计算开销。

📈 MHA vs GQA vs MQA 性能对比（大致）

指标	MHA	GQA	MQA
表达能力	最强	中等	最弱
推理速度	较慢	快	最快
内存占用（KV Cache）	最高	中等	最低
部署友好度	一般	高	最高

🧩 应用场景

GQA 特别适用于以下场景：

大模型推理优化（如 Llama 3、PaLM 2、Gemini Nano）
移动端/边缘端部署
需要长上下文处理的任务
大批量生成任务

💡 总结

项目	GQA
类型	注意力机制变体
核心思想	Query 分组 + Key/Value 共享
优点	提升推理速度、降低内存消耗、兼顾模型表现
缺点	表达能力略低于 MHA
应用	大语言模型部署、高效推理系统

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2399229.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【深度学习优化算法】02：凸性

【深度学习优化算法】02：凸性

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈PyTorch深度学习 ⌋ ⌋ ⌋ 深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重…

阅读更多...

策略公开了：年化494%，夏普比率5.86，最大回撤7% | 大模型查询akshare，附代码

策略公开了：年化494%，夏普比率5.86，最大回撤7% | 大模型查询akshare，附代码

原创内容第907篇，专注智能量化投资、个人成长与财富自由。这位兄弟的策略公开了，年化494%，夏普比率5.86，最大回撤7%，欢迎大家前往围观： http://www.ailabx.com/strategy/683ed10bdabe146c4c0b2293 系统代…

阅读更多...

多模态大语言模型arxiv论文略读（101）

多模态大语言模型arxiv论文略读（101）

ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2 ➡️ 论文标题：ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2 ➡️ 论文作者：Wenjun Huang, Jiakai Pan, Jiahao Tang, Yanyu Ding, Yifei Xing, …

阅读更多...

电网“逆流”怎么办？如何实现分布式光伏发电全部自发自用？

电网“逆流”怎么办？如何实现分布式光伏发电全部自发自用？

2024年10月9日，国家能源局综合司发布了《分布式光伏发电开发建设管理办法（征求意见稿）》，意见稿规定了户用分布式光伏、一般工商业分布式光伏以及大型工商业分布式光伏的发电上网模式，当选择全部自发自用模式时&#x…

阅读更多...

如何查看电脑电池性能

如何查看电脑电池性能

检查电脑电池性能的方法如下： 按下winR键，输入cmd回车，进入命令行窗口在命令行窗口输入powercfg /batteryreport 桌面双击此电脑，把刚刚复制的路径粘贴到文件路径栏，然后回车回车后会自动用浏览器打开该报告红…

阅读更多...

kubernetes》》k8s》》kubectl proxy 命令后面加一个

kubernetes》》k8s》》kubectl proxy 命令后面加一个

命令后面加一个& 在Linux终端中，如果在命令的末尾加上一个&符号，这表示将这个任务放到后台去执行 kubectl proxy 官网资料是 Kubernetes 提供的一个命令行工具，用于在本地和 Kubernetes API Server 之间创建一个安全的代理通道。…

阅读更多...

网络安全运维实训室建设方案

网络安全运维实训室建设方案

一、网络安全运维人才需求与实训困境在数字化时代，网络安全已成为国家安全、社会稳定和经济发展的重要基石。随着信息技术的飞速发展，网络安全威胁日益复杂多样，从个人隐私泄露到企业商业机密被盗，从关键基础设施遭受攻击到社会…

阅读更多...

DBeaver 连接mysql报错：CLIENT_PLUGIN_AUTH is required

DBeaver 连接mysql报错：CLIENT_PLUGIN_AUTH is required

DBeaver 连接mysql报错：CLIENT_PLUGIN_AUTH is required 一、必须要看这个 >> ：参考文献二、补充 2.1 说明 MySQL5、6这些版本比较老，而DBeaver默认下载的是MySQL8的连接库，所以连接旧版本mysql报错：CLIEN…

阅读更多...

Web3时代的数据保护挑战与应对策略

Web3时代的数据保护挑战与应对策略

随着互联网技术的飞速发展，我们正步入Web3时代，这是一个以去中心化、用户主权和数据隐私为核心的新时代。然而，Web3时代也带来了前所未有的数据保护挑战。本文将探讨这些挑战，并提出相应的应对策略。数据隐私挑战在Web3时代&a…

阅读更多...

Qwen3与MCP协议：重塑大气科学的智能研究范式

Qwen3与MCP协议：重塑大气科学的智能研究范式

在气象研究领域，从海量数据的解析到复杂气候模型的构建，科研人员长期面临效率低、门槛高、易出错的挑战。而阿里云推出的Qwen3大模型与MCP协议的结合，正通过混合推理模式与标准化协同机制，为大气科学注入全新活力。本文将深入解析…

阅读更多...

CppCon 2015 学习:Benchmarking C++ Code

CppCon 2015 学习:Benchmarking C++ Code

关于性能问题与调试传统 bug（如段错误）之间差异的分析。以下是对这一页内容的详细解释： 主题：传统问题（如段错误）调试流程清晰问题类型：段错误（Segmentation Fault） …

阅读更多...

linux 故障处置通用流程-36计+1计

linux 故障处置通用流程-36计+1计

通用标准处置快速索引编号通用标准处置索引 001 Linux操作系统标准关闭 002 Linux操作系统标准重启 003 Linux操作系统强行关闭 004 Linux操作系统强行重启 005 检查Linux操作系统CPU负载 006 查询占用CPU资源最多的进程 007 检查Linux操…

阅读更多...

BEV和OCC学习-3:mmdet3d 坐标系

BEV和OCC学习-3:mmdet3d 坐标系

目录坐标系转向角 (yaw) 的定义框尺寸的定义与支持的数据集的原始坐标系的关系 KITTI Waymo NuScenes Lyft ScanNet SUN RGB-D S3DIS 坐标系坐标系 — MMDetection3D 1.4.0 文档https://mmdetection3d.readthedocs.io/zh-cn/latest/user_guides/coord_sys_tuto…

阅读更多...

[蓝桥杯]图形排版

[蓝桥杯]图形排版

图形排版题目描述小明需要在一篇文档中加入 NN 张图片，其中第 ii 张图片的宽度是 WiWi，高度是 HiHi。假设纸张的宽度是 MM，小明使用的文档编辑工具会用以下方式对图片进行自动排版： 1. 该工具会按照图片顺序&#xff0…

阅读更多...

【Linux仓库】冯诺依曼体系结构与操作系统【进程·壹】

【Linux仓库】冯诺依曼体系结构与操作系统【进程·壹】

🌟 各位看官好，我是！ 🌍 Linux Linux is not Unix ！ 🚀 今天来学习冯诺依曼体系结构与操作系统。 👍 如果觉得这篇文章有帮助，欢迎您一键三连，分享给更多人哦&#xff0…

阅读更多...

CloudFront 加速详解：AWS CDN 怎么用？

CloudFront 加速详解：AWS CDN 怎么用？

让全球访问更快速稳定，深入解读 AWS 的内容分发网络在上一篇中，我们介绍了 Amazon S3 对象存储，它非常适合托管静态资源，比如图片、视频、网页等。但你可能遇到过这样的问题： “我把网站静态文件部署到了 S3&#xf…

阅读更多...

《高级架构师》------- 考后感想

《高级架构师》------- 考后感想

笔者来聊一下架构师考后的感想复习备考考前过了很多知识点，只是蜻蜓点水，没有起到复习的作用，即使考出来也不会，下次复习注意这个，复习到了，就记住，或者画出来，或者文件总结&…

阅读更多...

【iOS】YYModel源码解析

【iOS】YYModel源码解析

YYModel源码解析文章目录 YYModel源码解析前言YYModel性能优势YYModel简介YYClassInfo解析YYClassIvarInfo && objc_ivarYYClassMethodInfo && objc_methodYYClassPropertyInfo && property_tYYClassInfo && objc_class YYClassInfo的初始化细…

阅读更多...

C++算法训练营 Day6 哈希表（1）

C++算法训练营 Day6 哈希表（1）

1.有效的字母异位词 LeetCode：242.有效的字母异位词给定两个字符串s和t ，编写一个函数来判断t是否是s的字母异位词。示例 1: 输入: s “anagram”, t “nagaram” 输出: true 示例 2: 输入: s “rat”, t “car” 输出: false 解题思路&#xff…

阅读更多...

【C语言编译与链接】--翻译环境和运行环境，预处理，编译，汇编，链接

【C语言编译与链接】--翻译环境和运行环境，预处理，编译，汇编，链接

目录一.翻译环境和运行环境二.翻译环境 2.1--预处理(预编译) 2.2--编译 2.2.1--词法分析 2.2.2--语法分析 2.2.3--语义分析 2.3--汇编 2.4--链接三.运行环境 🔥个人主页：草莓熊Lotso的个人主页 🎬作者简介：C研发…

阅读更多...

推荐文章

最新文章