Mamba LLM 架构简介:机器学习的新范式

news2025/5/19 9:43:57

Mamba LLM 架构简介:机器学习的新范式

探索 Mamba LLM 的强大功能,Mamba LLM 是来自一流大学的变革性架构,重新定义了 AI 中的序列处理。语言模型是一种经过训练的机器学习模型,用于在自然语言上执行概率分布。它们的架构主要由多层神经网络组成,例如递归层、前馈层、嵌入层和注意力层。这些层组合在一起以处理给定的输入文本并生成输出预测。

2023 年底,卡内基梅隆大学和普林斯顿大学的研究人员发表了一篇研究论文,揭示了一种名为 Mamba 的大型语言模型 (LLM) 的新架构。Mamba 是一种与序列建模有关的新状态空间模型架构。它是为了解决 transformer 模型的一些限制而开发的,尤其是在处理长序列时,并且已经显示出有希望的性能。

Mamba

Mamba 是一种新的 LLM 架构,它集成了结构化状态空间序列 (S4) 模型来管理冗长的数据序列。S4 结合了递归、卷积和连续时间模型的最佳功能,可以有效且高效地模拟长期依赖关系。这使它能够处理不规则采样的数据,具有无限的上下文,并在整个训练和测试过程中保持计算效率。

Mamba 扩展了 S4 范式,带来了几项值得注意的改进,尤其是在处理时变作方面。它的架构围绕着一种特殊的选择机制展开,该机制根据输入修改结构化状态空间模型 (SSM) 参数。

因此,Mamba 可以通过只关注序列中的关键信息来成功过滤掉不太重要的数据。根据 Wikipedia 的说法,“该模型从时不变框架过渡到时变框架,这会影响系统的计算和效率。

主要特点和创新

Mamba 偏离了传统的 attention 和 MLP 块,使其与众不同。这种简化使模型更轻、更快,并且与序列的长度呈线性缩放,这是其前辈都无法实现的壮举。

Mamba 的关键组件包括:

选择性状态空间 (SSM):根据当前输入有选择地处理信息的递归模型是 Mamba SSM 的基础。这使他们能够过滤掉无关数据并专注于相关信息,这可能会带来更高效的处理。
简化的架构: Mamba 用一个单一的、有凝聚力的 SSM 块取代了 Transformers 错综复杂的注意力和 MLP 块。这旨在加速推理并降低计算复杂性。
硬件感知并行性:Mamba 的性能可能会更好,因为它使用循环模式和专为硬件效率而创建的并行算法。
另一个关键组成部分是线性时间不变性 (LTI);LTI 是 S4 模型的核心功能之一。这一特性表明,模型的参数在所有时间步中保持不变,从而保持模型动力学的一致性。使用 LTI 构建序列模型更容易、更有效,LTI 是递归和卷积的基础。

Mamba LLM 架构详细信息

Mamba 的架构进一步强调了机器学习进步的重要性。它通过引入选定的状态空间模型 (SSM) 层来修改模型处理序列的方式。这使 Mamba 能够做两件极其重要的事情:

  1. 关注相关信息 – Mamba 可以通过为每个输入分配不同的权重来为任务确定更多预测数据的优先级。

  2. 动态适应输入 – 由于模型能够适应输入,Mamba 可以轻松处理各种序列建模工作。

因此,Mamba 可以以前所未有的效率处理序列,这使其成为涉及冗长数据序列的任务的完美选择。

Mamba 的设计理念基于对现代硬件功能的认识。它旨在充分利用 GPU 计算能力,保证:

  • **优化的内存使用:**通过设计 Mamba 的状态扩展以适应 GPU 的高带宽内存 (HBM),可以缩短数据传输时间并加快处理速度。

  • **最大化并行处理:**Mamba 通过协调其计算与 GPU 计算的并行性质,达到了为序列模型建立新基准的性能水平。

Mamba VS Transformer

GPT-4 等 Transformer 的引入进入了自然语言处理 (NLP) 领域,并为多项自然语言任务建立了基准。长期以来,较长的序列一直是变压器的眼中钉,因为它们会严重阻碍其效率。

这个缺陷正是 Mamba 擅长的地方。也就是说,mamba 可以比变压器更快地处理冗长的序列,并且由于其独特的架构而更加简单。

Transformer 架构

Transformer 非常擅长处理数据序列,例如语言模型的文本。它们同时处理完整的序列,这与早期按顺序处理数据的模型不同。这种固有的功能使他们能够捕获数据中错综复杂的关系。它们使用注意力机制,使模型能够在生成预测时专注于各种序列段。使用三组权重来计算此关注度:从输入数据获取的值、键和查询。

序列中的每个元素都相对于其他每个元素进行加权,以指示它应该有多少权重(或 “注意力”)来预测序列中的下一个元素。Transformer 由两个主要块组成:创建输出的 decoder 和处理输入数据的 encoder。编码器由几层组成 - 每层都有两个子层:一个基本的、按位置的、完全连接的前馈网络和一个多头自注意力机制。为了帮助训练深度网络,每个子层都使用残差连接和归一化。

与编码器一样,解码器由两层和两个子层组成,但它也增加了第三个子层,用于处理编码器输出上的多头注意力。由于解码器的 sequential 性质,解码器的 autoregressive 属性被保留下来,这将对位置的预测限制为仅考虑较早的位置。

因此,Transformers 试图通过利用更复杂的注意力过程来解决冗长序列的问题,但 Mamba 采取了不同的方法。

Mamba 架构

Mamba 利用选择性状态空间。这种方法解决了Transformers 在长序列下计算效率低下的问题。Mamba 的架构使更快的推理和线性序列长度扩展成为可能,为序列建模创造了一种新的范式,随着序列越来越长,这种范式可能会被证明会更加有效。由于我们在上面深入探讨了 Mamba 的架构,因此我们不会在这里深入讨论。

特征变压器曼巴
建筑基于注意力基于 SSM
复杂性降低
推理速度O(n)O(1)
训练速度O(注2)O(n)

值得注意的是,尽管 SSM 与 Transformer 相比具有许多优势,但后者可以处理比 SSM 存储在内存中更长的序列,需要更少的数据来学习类似的任务,并且在需要从输入上下文检索或复制的任务中优于 SSM,即使参数更少。

开始使用 Mamba

如果您有兴趣使用 Mamba 或在项目中利用它,则必须具备以下条件:

  • Linux的
  • 英伟达图形处理器
  • PyTorch 1.12+ 版本
  • CUDA 11.6+ 的

要从 Mamba 存储库安装所需的软件包,请使用一些简单的 pip 说明:

  • [Option] : 在 Mamba 块内部使用的简单因果 Conv1d 层的有效实现。pip install causal-conv1d>=1.2.0
  • pip install mamba-ssm:核心 Mamba 包。

它也可以通过 from this repository从源代码构建。pip install .

如果 PyTorch 版本导致兼容性问题,可以使用与 switch 一起使用来帮助。这些模型是在 Pile 和 SlimPajama 数据集等大型数据集上训练的,旨在满足各种计算要求和性能基准。pip``--no-build-isolation

Mamba 模型具有多个接口级别,但主模块是包装选择性 SSM 的 Mamba 架构块。

# Source: Mamba Repository
import torch
from mamba_ssm import Mamba

batch, length, dim = 2, 64, 16
x = torch.randn(batch, length, dim).to("cuda")
model = Mamba(
    # This module uses roughly 3 * expand * d_model^2 parameters
    d_model=dim, # Model dimension d_model
    d_state=16,  # SSM state expansion factor
    d_conv=4,    # Local convolution width
    expand=2,    # Block expansion factor
).to("cuda")
y = model(x)
assert y.shape == x.shape

Mamba 的应用

Mamba LLM 的推出是 LLM 架构领域的一个重大潜在转变。Mamba 更快、更高效且可扩展,可以毫不费力地以高性能标准处理长序列,这解释了为什么它将在塑造复杂 AI 系统的未来方面发挥关键作用。

也就是说,下一波 AI 创新可能由 Mamba 的有效性和性能带来,它为创建越来越复杂的模型和应用程序铺平了道路。它的潜在影响力是巨大的,包括音频和语音处理应用程序、长篇文本分析、内容创建、实时语言翻译等。

这可能会带来革命性的行业包括:

  • 医疗: Mamba 可以通过快速分析遗传数据来加快开发个性化健康药物的过程。

  • **金融:**可以部署 Mamba 来分析长期市场趋势,从而获得更准确的库存预测。

  • 顾客服务: Mamba 能够为监控长篇讨论的聊天机器人提供支持,从而改善客户沟通

结论

Mamba 不仅为当前的序列模型提供了增量改进;它重新定义了什么是可能的。随着它的推出,人工智能的历史将翻开新的篇章,计算效率低下和序列长度限制最终变得过时。在过去的几年里,我们看到了 AI 从 RNN 到Transformers,再到现在的 Mamba,每一步都离实现能够与人类相媲美的 AI 进行深度思考和信息处理更近一步。Mamba 体现了革命性的精神,通过其选定的状态空间方法和线性时间缩放推动 AI 领域向前发展。Mamba 标志着人工智能前景广阔的开始。这是一种为未来设计的范式,并将以其无限的潜力对 AI 产生重大影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2379186.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android 性能优化入门(一)—— 数据结构优化

1、概述 一款 app 除了要有令人惊叹的功能和令人发指交互之外,在性能上也应该追求丝滑的要求,这样才能更好地提高用户体验: 优化目的性能指标优化的方向更快流畅性启动速度页面显示速度(显示和切换)响应速度更稳定稳定性避免出现 应用崩溃&…

数据库中的锁机制

目录 数据库中的锁机制:原理、分类与实际案例详解 一、数据库锁的核心作用与基本概念 1.1 为什么需要数据库锁? 1.2 锁的分类 二、锁机制的实现与典型场景 2.1 共享锁(Shared Lock) 工作原理 适用场景 代码示例(MySQL) 案例分析 2.2 排他锁(Exclusive Lock) …

【网络入侵检测】基于Suricata源码分析运行模式(Runmode)

【作者主页】只道当时是寻常 【专栏介绍】Suricata入侵检测。专注网络、主机安全,欢迎关注与评论。 1. 概要 👋 在 Suricata 中抽象出线程、线程模块和队列三个概念:线程类似进程,可多线程并行执行操作;监听、解码、检…

Linux常用命令(十四)

目录 vi编辑器命令 1-编辑模式 1)准备一个txt文件并且进入vi 2)按i进入编辑模式 3)按o进入编辑模式 4)按a进入编辑模式 ​ 2-底行模式 1)退出vim 2)撤销上次操作 3)设置行号底行模式 4&#xff…

规则联动引擎GoRules初探

背景说明 嵌入式设备随着物联网在生活和生产中不断渗透而渐渐多起来,数据的采集、处理、分析在设备侧的自定义配置越来越重要。一个可通过图形化配置的数据处理过程,对于加速嵌入式设备的功能开发愈发重要。作为一个嵌入式软件从业者,笔者一…

基于OpenCV中的图像拼接方法详解

文章目录 引言一、图像拼接的基本流程二、代码实现详解1. 准备工作2. 特征检测与描述detectAndDescribe 函数详解(1)函数功能(2)代码解析(3)为什么需要这个函数?(4)输出数…

AI大模型学习二十六、使用 Dify + awesome-digital-human-live2d + ollama + ChatTTS打造数字人

一、说明 数字人(Digital Human) 是指通过人工智能(AI)、计算机图形学、语音合成、动作捕捉等技术创建的虚拟人物。它们具备高度拟人化的外观、语言、表情和动作,能够与人类进行交互,甚至承担特定社会角色。…

HTML-3.2 表格的跨行跨列(课表制作实例)

本系列可作为前端学习系列的笔记,代码的运行环境是在HBuilder中,小编会将代码复制下来,大家复制下来就可以练习了,方便大家学习。 系列文章目录 HTML-1.1 文本字体样式-字体设置、分割线、段落标签、段内回车以及特殊符号 HTML…

Spring Cloud Sentinel 快速入门与生产实践指南

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言:流量洪峰下的微服务守卫战 🛡️一、Sentinel 核心架构解析1.1 Sentinel 整体架构1.2 核心处理流程 二、快速入门实战2.1 环境搭建全流程…

Android平台GB28181设备接入与功能支持详解

GB28181协议作为中国国家标准,广泛应用于安防、智慧城市和交通监控等领域。大牛直播SDK提供了全面支持GB28181设备接入的技术方案,能够有效帮助开发者实现设备的快速接入与管理。在本文中,我们将深入介绍大牛直播SDK在Android平台上对于GB281…

mvc-ioc实现

IOC 1)耦合/依赖 依赖,是谁离不开谁 就比如上诉的Controller层必须依赖于Service层,Service层依赖于Dao 在软件系统中,层与层之间存在依赖。我们称之为耦合 我们系统架构或者设计的一个原则是&#xff…

Windows 11 C:\Windows\Web\Wallpaper

Windows 11 C:\Windows\Web\Wallpaper 纯色壁纸自定义 没一个好看的

Spring Web MVC————入门(3)

今天我们来一个大练习,我们要实现一个登录界面,登录进去了先获取到登录人信息,可以选择计算器和留言板两个功能,另外我们是学后端的,对于前端我们会些基础的就行了,知道ajax怎么用,知道怎么关联…

NC61 两数之和【牛客网】

文章目录 零、原题链接一、题目描述二、测试用例三、解题思路3.1 排序双指针3.1 散列 四、参考代码4.1 排序双指针4.2 散列 零、原题链接 NC61 两数之和 一、题目描述 二、测试用例 三、解题思路 3.1 排序双指针 基本思路:   先对序列进行排序,然后…

如何分析动态采样引起的计划不稳定 | OceanBase SQL 调优实践

这篇博客涉及两个知识点,一个是动态采样,另一个是 DAS 执行。 用户的问题和相关结论 我们看看用户在OceanBase 社区论坛发帖中提出的疑问及其所得出的结论。 问题:收集统计信息之前,为什么会出现计划不稳定的情况? …

如何实现RTSP和RTMP低至100-200ms的延迟:直播SDK的技术突破

在实时音视频传输中,低延迟是直播应用的核心技术要求之一。无论是在线教育、远程医疗,还是实时互动直播,延迟过大会影响用户体验,甚至导致应用无法正常使用。大牛直播SDK(SmartMediaKit)在RTSP和RTMP播放器…

symfonos: 2靶场

symfonos: 2 来自 <https://www.vulnhub.com/entry/symfonos-2,331/> 1&#xff0c;将两台虚拟机网络连接都改为NAT模式 2&#xff0c;攻击机上做namp局域网扫描发现靶机 nmap -sn 192.168.23.0/24 那么攻击机IP为192.168.23.182&#xff0c;靶场IP192.168.23.253 3&…

【图像生成大模型】Step-Video-T2V:下一代文本到视频生成技术

Step-Video-T2V&#xff1a;下一代文本到视频生成技术 引言Step-Video-T2V 项目概述核心技术1. 视频变分自编码器&#xff08;Video-VAE&#xff09;2. 3D 全注意力扩散 Transformer&#xff08;DiT w/ 3D Full Attention&#xff09;3. 视频直接偏好优化&#xff08;Video-DPO…

深度学习推理引擎---ONNX Runtime

一、基础概念 1. 什么是ONNX Runtime&#xff1f; 定位&#xff1a;由微软开发的跨平台推理引擎&#xff0c;专为优化ONNX&#xff08;Open Neural Network Exchange&#xff09;模型的推理性能设计。目标&#xff1a;提供高效、可扩展的推理能力&#xff0c;支持从云到边缘的…

VueUse/Core:提升Vue开发效率的实用工具库

文章目录 引言什么是VueUse/Core&#xff1f;为什么选择VueUse/Core&#xff1f;核心功能详解1. 状态管理2. 元素操作3. 实用工具函数4. 浏览器API封装5. 传感器相关 实战示例&#xff1a;构建一个拖拽上传组件性能优化技巧与原生实现对比常见问题解答总结 引言 在现代前端开发…