GQA(Grouped Query Attention):分组注意力机制的原理与实践《一》

news2025/6/6 8:17:40

GQA(Grouped Query Attention)是近年来在大语言模型中广泛应用的一种注意力机制优化方法,最初由 Google 在 2023 年提出。它是对 Multi-Query Attention (MQA) 的扩展,旨在平衡模型性能与计算效率。


🌟 GQA 是什么?

简单定义:

GQA 是一种将查询头(Query Heads)分组,并共享键(Key)和值(Value)头的注意力机制变体

它试图在 标准的多头注意力(MHA)多查询注意力(MQA) 之间找到一个折中点:

注意力类型Query HeadsKey/Value Heads共享情况
MHA多个多个不共享
GQA多个少于 Query 的多个分组共享
MQA多个1完全共享

🧠 原理详解

1. 回顾标准 Multi-Head Attention (MHA)

在标准的 Transformer 中:

  • 每个 token 的 QKV 都是由输入线性变换得到。
  • 如果有 H 个 attention heads,则每个 head 都有自己的 QKV 向量。

公式如下:

Q = X W Q , K = X W K , V = X W V Q = XW_Q, \quad K = XW_K, \quad V = XW_V Q=XWQ,K=XWK,V=XWV

其中 $ W_Q, W_K, W_V $ 是可学习参数。

每个 head 的 Q/K/V 是从这些矩阵中切出来的。


2. 引入 GQA:Query 分组 + Key/Value 共享

在 GQA 中:

  • Query heads 被分成若干组(比如 4 组)
  • 每组共享一组 Key 和 Value 向量(即每组对应一个 K 和 V)

例如:

  • 总共 32 个 query heads
  • 分成 4 组,每组 8 个 heads
  • 每组使用相同的 Key 和 Value 向量
  • 所以只需要 4 组 K/V,而不是 32 组

这样做的好处是:

  • 减少了 Key/Value 的数量,降低了内存占用(尤其是 KV Cache)
  • 保留了比 MQA 更多的表达能力

⚙️ GQA 的优势

优势描述
推理速度更快更少的 Key/Value 向量意味着更小的 KV Cache,减少解码时的内存访问延迟
内存占用更低特别是在批量生成或长文本生成时,KV Cache 占用显著降低
比 MQA 表现更好相比完全共享 Key/Value 的 MQA,GQA 保留了部分多样性,模型表现通常更优
适合部署对硬件资源友好,特别适合在有限算力设备上运行的大模型

🔍 示例说明(来自 Llama 3)

Llama 3 使用了 GQA 技术来提升推理效率。

  • 总共 32 个 query heads
  • 只使用了 8 个 key/value heads(即每组 4 个 queries 共享一个 key/value)

这意味着:

  • 每个 group 包含 4 个 query heads
  • 这些 query 共享同一个 key 和 value

这样可以保持大部分 MHA 的表达能力,同时节省内存和计算开销。


📈 MHA vs GQA vs MQA 性能对比(大致)

指标MHAGQAMQA
表达能力最强中等最弱
推理速度较慢最快
内存占用(KV Cache)最高中等最低
部署友好度一般最高

🧩 应用场景

GQA 特别适用于以下场景:

  • 大模型推理优化(如 Llama 3、PaLM 2、Gemini Nano)
  • 移动端/边缘端部署
  • 需要长上下文处理的任务
  • 大批量生成任务

💡 总结

项目GQA
类型注意力机制变体
核心思想Query 分组 + Key/Value 共享
优点提升推理速度、降低内存消耗、兼顾模型表现
缺点表达能力略低于 MHA
应用大语言模型部署、高效推理系统

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2399229.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【深度学习优化算法】02:凸性

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈PyTorch深度学习 ⌋ ⌋ ⌋ 深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上,结合当代大数据和大算力的发展而发展出来的。深度学习最重…

策略公开了:年化494%,夏普比率5.86,最大回撤7% | 大模型查询akshare,附代码

原创内容第907篇,专注智能量化投资、个人成长与财富自由。 这位兄弟的策略公开了,年化494%,夏普比率5.86,最大回撤7%,欢迎大家前往围观: http://www.ailabx.com/strategy/683ed10bdabe146c4c0b2293 系统代…

多模态大语言模型arxiv论文略读(101)

ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2 ➡️ 论文标题:ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2 ➡️ 论文作者:Wenjun Huang, Jiakai Pan, Jiahao Tang, Yanyu Ding, Yifei Xing, …

电网“逆流”怎么办?如何实现分布式光伏发电全部自发自用?

2024年10月9日,国家能源局综合司发布了《分布式光伏发电开发建设管理办法(征求意见稿)》,意见稿规定了户用分布式光伏、一般工商业分布式光伏以及大型工商业分布式光伏的发电上网模式,当选择全部自发自用模式时&#x…

如何查看电脑电池性能

检查电脑电池性能的方法如下: 按下winR键,输入cmd回车,进入命令行窗口 在命令行窗口输入powercfg /batteryreport 桌面双击此电脑,把刚刚复制的路径粘贴到文件路径栏,然后回车 回车后会自动用浏览器打开该报告 红…

kubernetes》》k8s》》kubectl proxy 命令后面加一个

命令后面加一个& 在Linux终端中,如果在命令的末尾加上一个&符号,这表示将这个任务放到后台去执行 kubectl proxy 官网资料 是 Kubernetes 提供的一个命令行工具,用于在本地和 Kubernetes API Server 之间创建一个安全的代理通道。…

网络安全运维实训室建设方案

一、网络安全运维人才需求与实训困境 在数字化时代,网络安全已成为国家安全、社会稳定和经济发展的重要基石。随着信息技术的飞速发展,网络安全威胁日益复杂多样,从个人隐私泄露到企业商业机密被盗,从关键基础设施遭受攻击到社会…

DBeaver 连接mysql报错:CLIENT_PLUGIN_AUTH is required

DBeaver 连接mysql报错:CLIENT_PLUGIN_AUTH is required 一、必须要看这个 >> :参考文献 二、补充 2.1 说明 MySQL5、6这些版本比较老,而DBeaver默认下载的是MySQL8的连接库,所以连接旧版本mysql报错:CLIEN…

Web3时代的数据保护挑战与应对策略

随着互联网技术的飞速发展,我们正步入Web3时代,这是一个以去中心化、用户主权和数据隐私为核心的新时代。然而,Web3时代也带来了前所未有的数据保护挑战。本文将探讨这些挑战,并提出相应的应对策略。 数据隐私挑战 在Web3时代&a…

Qwen3与MCP协议:重塑大气科学的智能研究范式

在气象研究领域,从海量数据的解析到复杂气候模型的构建,科研人员长期面临效率低、门槛高、易出错的挑战。而阿里云推出的Qwen3大模型与MCP协议的结合,正通过混合推理模式与标准化协同机制,为大气科学注入全新活力。本文将深入解析…

CppCon 2015 学习:Benchmarking C++ Code

关于性能问题与调试传统 bug(如段错误)之间差异的分析。以下是对这一页内容的详细解释: 主题:传统问题(如段错误)调试流程清晰 问题类型:段错误(Segmentation Fault) …

linux 故障处置通用流程-36计+1计

通用标准处置快速索引 编号 通 用 标 准 处 置 索 引 001 Linux操作系统标准关闭 002 Linux操作系统标准重启 003 Linux操作系统强行关闭 004 Linux操作系统强行重启 005 检查Linux操作系统CPU负载 006 查询占用CPU资源最多的进程 007 检查Linux操…

​BEV和OCC学习-3:mmdet3d 坐标系

目录 坐标系 转向角 (yaw) 的定义 框尺寸的定义 与支持的数据集的原始坐标系的关系 KITTI Waymo NuScenes Lyft ScanNet SUN RGB-D S3DIS 坐标系 坐标系 — MMDetection3D 1.4.0 文档https://mmdetection3d.readthedocs.io/zh-cn/latest/user_guides/coord_sys_tuto…

[蓝桥杯]图形排版

图形排版 题目描述 小明需要在一篇文档中加入 NN 张图片,其中第 ii 张图片的宽度是 WiWi​,高度是 HiHi​。 假设纸张的宽度是 MM,小明使用的文档编辑工具会用以下方式对图片进行自动排版: 1. 该工具会按照图片顺序&#xff0…

【Linux仓库】冯诺依曼体系结构与操作系统【进程·壹】

🌟 各位看官好,我是! 🌍 Linux Linux is not Unix ! 🚀 今天来学习冯诺依曼体系结构与操作系统。 👍 如果觉得这篇文章有帮助,欢迎您一键三连,分享给更多人哦&#xff0…

CloudFront 加速详解:AWS CDN 怎么用?

让全球访问更快速稳定,深入解读 AWS 的内容分发网络 在上一篇中,我们介绍了 Amazon S3 对象存储,它非常适合托管静态资源,比如图片、视频、网页等。但你可能遇到过这样的问题: “我把网站静态文件部署到了 S3&#xf…

《高级架构师》------- 考后感想

笔者来聊一下架构师考后的感想 复习备考 考前过了很多知识点,只是蜻蜓点水,没有起到复习的作用,即使考出来也不会,下次复习注意这个,复习到了,就记住,或者画出来,或者文件总结&…

【iOS】YYModel源码解析

YYModel源码解析 文章目录 YYModel源码解析前言YYModel性能优势YYModel简介YYClassInfo解析YYClassIvarInfo && objc_ivarYYClassMethodInfo && objc_methodYYClassPropertyInfo && property_tYYClassInfo && objc_class YYClassInfo的初始化细…

C++算法训练营 Day6 哈希表(1)

1.有效的字母异位词 LeetCode:242.有效的字母异位词 给定两个字符串s和t ,编写一个函数来判断t是否是s的字母异位词。 示例 1: 输入: s “anagram”, t “nagaram” 输出: true 示例 2: 输入: s “rat”, t “car” 输出: false 解题思路&#xff…

【C语言编译与链接】--翻译环境和运行环境,预处理,编译,汇编,链接

目录 一.翻译环境和运行环境 二.翻译环境 2.1--预处理(预编译) 2.2--编译 2.2.1--词法分析 2.2.2--语法分析 2.2.3--语义分析 2.3--汇编 2.4--链接 三.运行环境 🔥个人主页:草莓熊Lotso的个人主页 🎬作者简介:C研发…