面壁智能推出 MiniCPM 4.0 端侧大模型,引领端侧智能新变革

news2025/6/9 11:41:56

在 2025 智源大会期间,面壁智能重磅发布了开源模型 MiniCPM 4.0 的两个新版本(0.5B、8B),代号「前进四」。此次发布在人工智能领域引发了广泛关注,标志着端侧大模型技术取得了重大突破。

卓越性能,树立行业新标杆

MiniCPM4-0.5B 训练开销仅为 Qwen3-0.6B 的 2.7%,却以一半参数量实现了性能翻倍,综合得分平均分高达 52.06 分,远超同类模型。面壁科技发布的 0.5B 三级量化版本,平均得分更是达到了 56 分,成绩斐然。MiniCPM4-8B 训练开销仅 22%,加入长下文稀疏化版本后,做到了同等参数、性能更强。其综合得分对标 Qwen3-8B、超越 Gemma3-12B,在同类端侧模型排行榜中分数排名第一。面壁智能 CEO 李大海总结说,MiniCPM4 模型最大的特点就是快。在 Jetson Orin AGX(64G)或 RTX 4090(24G)硬件上运行 128K 长文本时,像 Qwen3-8B 这样没做过上下文稀疏化的模型,显存不够用,需要用 CPU 内存,offload 导致速度急速下降;而 MiniCPM4-8B 做了快速稀疏化工作,可将占用的低长文本缓存降至 1/4,在常规场景里至少可以取得 3-5 倍的速度优势。在显存受限的极限场景中,MiniCPM4 的测试数据甚至可以快到 220 倍。

创新技术,驱动高效运行

架构创新

MiniCPM4 采用了 InfLLM 2.0 混合稀疏注意力结构。该架构采用类似于检索的思路,对文本分块分区域处理,只对最具相关性重点区域进行注意力计算 “抽查”,更加高效。通过这种方式,面壁智能可将稀疏度降到 5%,将计算量降到 10%。同时,面壁智能还创新地采用了高效的自动双频换挡技术,长文本用稀疏方案,短文本用稠密方案。针对单一架构难以兼顾长、短文本不同场景的技术难题,MiniCPM 4.0-8B 采用「高效双频换挡」机制,能够根据任务特征自动切换注意力模式:在处理高难度的长文本、深度思考任务时,启用稀疏注意力以降低计算复杂度,在短文本场景下切换至稠密注意力以确保精度,实现了长、短文本切换的高效响应。

推理优化

面壁智能希望尽可能简化端侧模型部署的复杂度,自研了 “三级火箭” 推理框架。其一,自研端侧高性能推理框架 CPM.cu,实现稀疏、投机和量化的高效结合,通过 FR-Spec 轻量化投机采样,相比原始模型提速 2 倍,让小模型给大模型当实习生,给小模型减负加速,速度提升超 5 倍。其二,极致低位宽量化 BitCPM,端侧低内存容量部署友好,4bit 量化达到业界 SOTA 等级,3 倍量化,可瘦身 90%。其三,自研跨平台部署框架 Arkinfer,面向多平台端侧芯片极致优化,跨平台高效投机采样和限制解码,支持端侧多平台 Model Zoo 的丝滑使用,速度提升 2 倍。

数据与训练优化

MiniCPM4 模型还有一个重要优势:只用了非常少的高质量训练语料。一方面,Ultra-FineWeb 采用高效数据严格筛选机制,可构建万亿高质量数据集,通过 “半成品加工法” 高效验证,先训一个’半熟” 模型,再用新数据快速微调,能够将成本降低 90%;用 fastText 工具进行大语言模型质检,处理 15 万亿数据只需 1000 小时 CPU。另一方面,UltraChat-v2 实现高能力密度数据合成,可构建大规模知识密集型、推理密集型、指令遵循型、长文本处理型、工具调用型等多样化的有监督微调数据。另外,在模型训练过程中,采用 FP8 训练,以低精度加速模型计算,提升训练效率;采用 MTP 监督信号,提供更稠密的监督信号,提升模型数据利用率。

丰富应用,拓展智能边界

面壁智能的 MiniCPM4-MCP 模型,在端侧利用 MCP 协议,支持 15 个主流应用,取得了很高的综合评测表现得分。另一个 MiniCPM4-Survey 端侧版可在 AI PC 上构建 Deep Research(深度研究)服务,是一个离线可用的随身研究报告利器,有助于保护本地隐私数据。

广泛适配,构建开放生态

面壁小钢炮正在进行广泛的生态适配,适配主流芯片与开源框架部署。目前,MiniCPM4 已经可以在华为昇腾、联发科、高通等主流芯片上流畅运行,也支持 vLLM、AutoGPT 等推理框架,欧拉版正在积极适配中。面壁智能与英特尔紧密合作,首次端侧解锁 128K 长上下文窗口,在英特尔平台上基于 InfLLM 2.0 稀疏注意力结构已实现 3.8 倍加速的推理优化效果。

总体来看,MiniCPM4 以更少参数量实现出色性能的背后,是面壁智能从架构层、系统层、推理层到数据层的层层优化。作为国内端侧模型代表,面壁智能旗下模型矩阵已覆盖基座模型 MiniCPM、旗舰多模态模型 MiniCPM-V、旗舰全模态模型 MiniCPM-o,全球下载量超千万。MiniCPM 4.0 的推出,无疑为端侧智能的发展注入了新的活力,有望在更多领域实现落地应用,推动人工智能技术的普及与发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2405312.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

javaSE复习(7)

1.KMP算法 使用KMP算法在主串 "abaabaabcabaabc" 中搜索模式串 "abaabc",到匹配成功时为止,请问在匹配过程中进行的单个字符间的比较次数是()。 10次 用于互斥时 初值为1 在一个并发编程环境中&#xff0c…

WireShark相关技巧

文章目录 1 Wireshark如何设置解析SIP 1 Wireshark如何设置解析SIP 编辑->首选项->protocols->sip 选中sip 2 点击“编辑”->“首选项”->“protocol”->ESP ,按照如下红框显示,进行勾选,点击应用

DAY 45 Tensorboard使用介绍

知识点回顾: tensorboard的发展历史和原理tensorboard的常见操作tensorboard在cifar上的实战:MLP和CNN模型 作业:对resnet18在cifar10上采用微调策略下,用tensorboard监控训练过程。 PS: tensorboard和torch版本存在一定的不兼容…

台式机电脑CPU天梯图2025年6月份更新:CPU选购指南及推荐

组装电脑选硬件的过程中,CPU的选择无疑是最关键的,因为它是最核心的硬件,关乎着一台电脑的性能好坏。对于小白来说,CPU天梯图方便直接判断两款CPU性能高低,准确的说,是多核性能。下面给大家分享一下台式机电脑CPU天梯图2025年6月版,来看看吧。 桌面CPU性能排行榜2025 台…

将单体架构项目拆分成微服务时的两种工程结构

一.独立Project 1.示意图 此时我们创建一个文件夹,在这个文件夹中,创建N个Project,每一个Project对应一个微服务,组成我们的最终的项目。 2.特点 适合那种超大型项目,比如淘宝,但管理负担比较重。 二.Mave…

Unity3D 开发中的创新技术:解锁 3D 开发的新境界

在 3D 开发的广袤天地里,Unity3D 一直是众多开发者的得力伙伴。可如今,普通的开发方式似乎难以满足日益增长的创意与效率需求。你是否好奇,凭什么别家团队能用 Unity3D 打造出令人拍案叫绝的 3D 作品,自己却总感觉差了那么一点火候…

UOS 20 Pro为国际版WPS设置中文菜单

UOS 20 Pro为国际版WPS设置中文菜单 查看UOS操作系统系统安装国际版wps并汉化方法1:下载zh_CN.tar.gz语言包方法2:手动从国内版wps12的包中提取中文菜单解压国内版wps的包 复制中文语言包到wps国际版目录下安装Windows字体 安装开源office 查看UOS操作系统系统 # 查…

单例模式与锁(死锁)

目录 线程安全的单例模式 什么是单例模式 单例模式的特点 饿汉实现方式和懒汉实现方式 饿汉⽅式实现单例模式 懒汉⽅式实现单例模式 懒汉⽅式实现单例模式(线程安全版本) 单例式线程池 ThreadPool.hpp threadpool.cc 运行结果 线程安全和重⼊问题 常⻅锁概念 死…

理解世界如淦泽,穿透黑幕需老谋

理解世界如淦泽,穿透黑幕需老谋 卡西莫多 2025年06月07日 安徽 极少主动跟别人提及恩师的名字,生怕自己比孙猴子不成器但又比它更能惹事的德行,使得老师跟着被拖累而脸上无光。不过老师没有象菩提祖师训诫孙猴子那样不能说出师傅的名字&a…

第三讲 Linux进程概念

1. 冯诺依曼体系结构 我们买了笔记本电脑, 里面是有很多硬件组成的, 比如硬盘, 显示器, 内存, 主板... 这些硬件不是随便放在一起就行的, 而是按照一定的结构进行组装起来的, 而具体的组装结构, 一般就是冯诺依曼体系结构 1.1. 计算机的一般工作逻辑 我们都知道, 计算机的逻…

stm32-c8t6实现语音识别(LD3320)

目录 LD3320介绍: 功能引脚 主要特色功能 通信协议 端口信息 开发流程 stm32c8t6代码 LD3320驱动代码: LD3320介绍: 内置单声道mono 16-bit A/D 模数转换内置双声道stereo 16-bit D/A 数模转换内置 20mW 双声道耳机放大器输出内置 5…

爬虫学习记录day1

什么是逆向? 数据加密 参数加密 表单加密扣js改写Python举例子 4.1 元素:被渲染的数据资源 动态数据 静态数据 如果数据是加密的情况则无法直接得到数据 4.2 控制台:输出界面 4.3 源代码页面 4.4 网络:抓包功能,获取浏…

agent基础概念

agent是什么 我个人认为agent并没有一个所谓完美的定义,它是一个比较活的概念,就像是你眼中的一个机器人你希望它做什么事,和我眼中的机器人它解决事情的流程,其实是可以完全不同的,没有必要非得搞一个统一的概念或流程来概况它。但我们依然可以概况几个通用的词来描述它…

让音乐“看得见”:使用 HTML + JavaScript 实现酷炫的音频可视化播放器

在这个数字时代,音乐不仅是听觉的享受,更可以成为视觉的盛宴!本文用 HTML + JavaScript 实现了一个音频可视化播放器,它不仅能播放本地音乐、控制进度和音量,还能通过 Canvas 绘制炫酷的音频频谱图,让你“听见色彩,看见旋律”。 效果演示 核心功能 本项目主要包含以下…

CAD实体对象智能识别

CAD实体对象智能识别 概述 实体对象智能识别能够在CAD图纸中智能识别和匹配相似的实体对象。该系统采用模式匹配算法,支持几何变换(缩放、旋转),并提供了丰富的配置选项和可视化界面。 系统提供两种主要的识别方式:…

LabVIEW音频测试分析

LabVIEW通过读取指定WAV 文件,实现对音频信号的播放、多维度测量分析功能,为音频设备研发、声学研究及质量检测提供专业工具支持。 主要功能 文件读取与播放:支持持续读取示例数据文件夹内的 WAV 文件,可实时播放音频以监听被测信…

RoseMirrorHA 双机热备全解析

在数字化时代,企业核心业务系统一旦瘫痪,每分钟可能造成数万甚至数十万的损失。想象一下,如果银行的交易系统突然中断,或者医院的挂号系统无法访问,会引发怎样的连锁反应?为了守护这些关键业务,…

day 18进行聚类,进而推断出每个簇的实际含义

浙大疏锦行 对聚类的结果根据具体的特征进行解释,进而推断出每个簇的实际含义 两种思路: 你最开始聚类的时候,就选择了你想最后用来确定簇含义的特征, 最开始用全部特征来聚类,把其余特征作为 x,聚类得到…

LLMs 系列科普文(6)

截止到目前,我们从模型预训练阶段的数据准备讲起,谈到了 Tokenizer、模型的结构、模型的训练,基础模型、预训练阶段、后训练阶段等,这里存在大量的术语或名词,也有一些奇奇怪怪或者说是看起来乱七八糟的内容。这期间跳…

serv00 ssh登录保活脚本-邮件通知版

适用于自己有服务器情况,ssh定时登录到serv00,并在登录成功后发送邮件通知 msmtp 和 mutt安装 需要安装msmtp 和 mutt这两个邮件客户端并配置,参考如下文章前几步是讲配置这俩客户端的,很简单,不再赘述 用Shell脚本实…