CVPR‘26 | 从任务统一到模态协同:电商通用多模态表征MOON 2.0

news2026/4/11 15:32:53
小记自 2023 年以来电商多模态表征模型 MOON 历经 3 年多的持续建设与迭代升级已在阿里妈妈搜索直通车全面落地并在多个核心场景中取得显著效果。以精排 CTR 预估模型为例累计全量 5 期带来大盘 CTR 20% 的显著提升。最新的 MOON 2.0 中团队首次提出动态模态平衡机制解决了多任务联训中长期存在的跷跷板效应实现了从任务统一到模态协同的关键跨越。该工作已被 CVPR26 接收。1. 背景在电商搜索场景中用户的一次搜索往往同时触及商品的多个模态维度。以搜索小香风外套为例系统不仅需要从商品主图中识别 编织纹理 与 版型设计 等关键元素还需从商品文本中解析羊毛、短款、春季新款等关键属性更需要综合判断图像与文本所描述的是否为同一件商品。这一过程的背后折射出不同模态在信息表达上的天然互补性图像直观呈现形态、颜色与设计元素文本则更擅长承载品牌、材质、功能及适用场景等结构化语义任何单一模态都仅能覆盖商品信息的部分维度难以独立支撑精准的商品理解与匹配。然而真正加剧这一挑战的是商品信息天然具有的多对一复杂结构如下图所示一件商品往往同时关联多张图主图、SKU 图与创意图等以及由标题、详情描述等构成的长文本各模态在信息密度与语义覆盖范围上存在显著差异甚至存在冗余乃至冲突。如何在统一的语义空间中有效对齐并融合这些多源异构信号使模型不仅能够判断商品“是否相似”更能深入理解语义是否一致、细节差异究竟在哪里正是电商多模态表征学习面临的核心挑战。从技术演进来看多模态表征方法经历了从浅层融合到视觉语言模型VLM再到多模态大语言模型MLLM的持续跃迁早期方法通过独立编码器将图像与文本分别映射至共享空间实现粗粒度的图文对齐VLM 时代引入大规模图文预训练推动表征从浅层特征拼接迈向更深层的跨模态交互MLLM 则进一步将视觉感知纳入语言推理框架使表征的能力边界从简单的匹配判断拓展至深层的内容理解、关系推理乃至更复杂的认知任务。顺应这一演进趋势MOON 系列也在持续迭代不断探索更强的统一建模能力、更精细的语义理解水平与更广泛的任务泛化能力。2. 思考经过多轮迭代我们对多模态表征的定位有了更深刻的认识。多模态表征作为电商场景的底层基础能力其核心挑战已不再局限于提升单一商品的建模精度而是延伸至如何构建一套统一的表征体系以支撑丰富而复杂的下游任务生态。这一判断源自两方面的实践体会全链路视角多模态表征需贯穿 Query 理解、召回、相关性判定、排序等搜索全链路环节各环节共享一致的语义表示是实现信息无损传递的前提任何环节之间的表征割裂都将引发语义偏移的逐级放大最终制约端到端效果的上限任务覆盖维度一个理想的电商多模态表征模型应能同时支撑图搜、文搜、商品搜、商品分类、属性预测等多类核心任务具备跨输入形式、跨任务目标、跨语义粒度的协同建模能力从而以一套统一的表征底座实现多任务能力复用提升整体研发迭代效率。然而在传统方案中这一目标尚未达成。不同任务往往依赖各自独立的表征体系进行建模检索侧重跨模态对齐分类聚焦类别判定属性预测强调细粒度识别彼此割裂、语义知识难以共享。这种任务烟囱式的建模方式不仅破坏了商品语义的整体性还带来了高昂的重复建设与维护成本。基于此团队认为更具系统性的技术路径是构建面向电商全场景的通用多模态表征框架在统一的建模范式下整合不同任务目标、不同输入模态以及不同层级的商品语义知识实现表征能力的共享、迁移与协同优化。围绕这一目标亟待解决的关键问题包括异构任务统一建模如何在统一框架下同时支撑图搜、文搜、商品搜、分类、属性预测等多类异构任务实现检索匹配能力与语义判别能力的协同建构动态模态平衡如何灵活适配图像、文本及其组合等不同模态输入并根据任务需求动态调节模态间的融合策略与权重平衡多粒度语义表征如何在统一语义空间中同时建模商品的整体粗粒度语义与局部属性级细粒度语义兼顾全局相似性度量与细粒度特征判别。基于上述思考我们正式启动了 MOON 系列的研究探索。作为首个阶段性成果MOON 1.0 聚焦于异构任务统一建模这一核心问题首次提出了基于生成式 MLLM 的电商多模态表征框架。如下图所示MOON 1.0 通过对图搜、文搜、商品搜等多源异构任务数据进行联合训练构建跨任务共享的统一语义空间在此基础上引入专家混合引导机制针对不同模态输入及商品类别、属性等关键语义维度进行差异化建模在统一框架内实现多任务语义的协同表达与联合优化从而推动多模态表征从任务专用的独立建模范式迈向统一底座的协同建模范式。MOON 1.0 初步验证了统一表征底座在电商全场景落地的可行性与有效性为后续持续演进奠定了坚实基础。其核心研究成果已被 WSDM26 正式收录基于该表征在 CTR 预估模型中的落地实践也已形成技术报告公开发布WSDM26MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding (https://arxiv.org/abs/2508.11999)技术报告MOON Embedding: Multimodal Representation Learning for E-commerce Search Advertising (https://arxiv.org/abs/2511.11305)然而MOON 1.0 的实践也暴露出一个关键瓶颈——跷跷板效应如下图所示在不同任务数据配比下图搜与文搜的能力始终难以协同增长一方的提升必然伴随另一方的退化。这一现象表明简单的数据混训实现的只是形式上的统一而非真正稳定的联合优化。深入分析后发现问题的根源并不在于多任务本身是否联合而在于多模态能否在统一框架下实现稳定的动态平衡。不同任务的数据配比会隐式改变各模态在训练过程中的主导地位当某一模态占据主导时模型表征将逐渐偏向该模态的语义分布换言之图搜与文搜并未形成真正的协同优化而是在共享参数空间中竞争有限的表示容量。这一发现将研究重心自然引向了前文所提出的第二个核心问题动态模态平衡。围绕这一核心问题团队进一步提出了 MOON 2.0。相较于 MOON 1.0 对异构任务统一建模的初步探索MOON 2.0 将研究重心从任务整合推进至模态协同聚焦于动态模态平衡这一关键瓶颈。具体而言MOON 2.0 通过模态自适应的专家混合建模机制、双重语义对齐机制与图文协同增强三项关键技术设计首次在电商场景下实现了面向动态模态平衡的多模态表征学习有效缓解了模态主导偏移与跷跷板效应为通用电商多模态表征基座的构建提供了新的技术范式。CVPR26MOON2.0: Dynamic Modality-balanced Multimodal Representation Learning for E-commerce Product Understanding (https://arxiv.org/abs/2511.12449)3. MOON 2.03.1 方法MOON 2.0 Pipeline 如图所示从架构、训练、数据三个层面系统性地解决动态模态平衡问题分别对应Modality-driven MoE、Dual-level Alignment、Image-text Co-augmentation三个关键模块。具体如下Modality-driven MoE通过模态自适应的专家混合建模机制模型能够在训练过程中自适应地调节不同模态的贡献权重从而不再依赖静态数据配比被动适应模态差异而是主动实现模态间的动态平衡有效避免某一模态长期占优所导致的表征偏移。如图(a)所示将 Mixture-of-ExpertsMoE机制嵌入表征模型的 LLM FFN 层为不同模态信号的差异化处理提供结构性基础。如图(b)所示不同于传统 MoE 主要依赖 token 级激活信号进行路由MOON 2.0 进一步引入可学习的双重对齐偏好矩阵Dual-alignment Matrix用于显式刻画每个专家对不同对齐目标如文本-多模态对齐、图像-多模态对齐的内在偏好与适配能力并配合稀疏正则化约束推动不同专家在特定模态对齐目标上形成清晰的专业化分工。Dual-level Alignment通过双重语义对齐机制构建了从商品间匹配到商品内一致性的层次化对齐范式在统一框架下联合优化商品间Inter-product与商品内Intra-product两类对比目标前者聚焦于跨模态检索匹配确保不同模态查询与目标商品在语义空间中的精准关联后者则约束同一商品不同模态表征之间的语义一致性确保图像、文本等多源信号对同一商品的语义刻画趋于稳定统一。两者协同作用不仅提升了跨模态检索的匹配精度也显著增强了统一表征对商品语义的稳定刻画能力。Inter-product Alignment基于三元组Query, Positive, Negative进行跨商品对比学习商品间的检索与匹配关系。Intra-product Alignment显式约束同一商品内部图像表征与文本表征的语义一致性强化“多对一”场景下的图文细粒度对齐。Image-text Co-augmentation在图文协同增强方面利用 MLLM 的生成能力对训练数据进行增强通过生成更丰富的图像描述与文本改写有效提升多模态表征学习的数据多样性与语义覆盖度。同时考虑到生成式增强不可避免地引入噪声MOON 2.0 进一步设计了自适应样本过滤策略Dynamic Sample Filtering训练初期对高置信度样本赋予更高权重以建立稳定可靠的监督信号基础随着训练推进逐步将优化重心向困难样本倾斜实现从高质量监督优先到困难样本精炼的渐进式过渡在充分利用增强数据的同时有效抑制噪声干扰。图像增强采用两阶段图像编辑策略首先提取商品主体再基于上下文语义引导生成背景多样化、视角多变的增强图像在丰富视觉多样性的同时严格保留商品核心属性文本增强利用 MLLM 联合商品详情页信息与图像视觉线索提取关键实体并生成语义更完整、场景覆盖更广的增强标题弥补原始标题信息稀疏或表述单一的不足。3.2 实验结果为系统性评估多模态表征在电商场景下的综合能力我们构建了 MBE 2.0 基准数据集如下图所示涵盖 640 万真实电商样本同时支持检索图搜、文搜、商品搜、分类与属性预测三大类任务是目前电商领域最为全面的多模态表征评测基准之一。为全面验证 MOON 2.0 的方法有效性我们在 MBE 2.0、M5Product 及 Fashion200K 三个数据集上进行了零样本Zero-shot评测。如雷达图所示MOON 2.0 在三个数据集上均取得 SOTA 表现表明其表征不仅在检索场景中表现优异在分类与属性预测任务中同样展现出强大的泛化能力。如表1所示在 MBE 2.0 基准上MOON 2.0 不仅全面超越了 GME、MM-Embed 等通用多模态表征也优于 CASLIE-S 、MOON 1.0 等电商领域专用表征。以检索任务为例MOON 2.0 在、、三个任务上的 R10 分别达到 63.09%、91.08%、94.21%相比 MOON 1.0 均取得了十余个百分点的显著提升。更为关键的是这一提升并非局限于单一任务而是在所有检索任务上同步实现有力验证了动态模态平衡机制对跷跷板效应的有效缓解。在商品分类与属性预测任务中MOON 2.0 的准确率与 F1 分数同样取得 SOTA 表现进一步表明统一表征所构建的语义能力具备良好的任务迁移性能够从检索场景稳定泛化至更广泛的下游任务。表 1. MOON2.0 在 MBE2.0 基准上的性能表现在跨数据集评测中MOON 2.0 在 M5Product和 Fashion200K两个公开基准上均取得了领先表现表 2、表 3验证了其在不同商品品类与数据分布下的良好泛化性。表 2. 跨数据集M5Product泛化性能对比表 3. 跨数据集Fashion200K泛化性能对比为验证各核心模块的贡献我们进行了详尽的消融实验结果如下表所示移除Modality-driven MoE各项检索指标出现大幅下降其中图搜商品 R10 从 91.08% 降至 74.59%商品搜商品从 94.21% 降至 78.45%分类与属性预测准确率也分别下降 5.53% 和 8.67%。这表明模态驱动的专家路由机制是实现动态模态平衡的关键基础移除Dual-level Alignment所有指标出现显著下降尤其是跨模态检索图搜文 R10 从 64.91% 骤降至 23.35%分类与属性预测准确率也分别下降近 11% 和 17%。这一结果充分说明双粒度语义约束是构建稳定跨模态语义空间的核心支撑移除Image-text Co-augmentation检索性能出现中等幅度下降商品搜商品从 94.21% 降至 80.62%图搜商品从 91.08% 降至 78.17%分类与属性准确率也有所下降。这验证了基于 MLLM 的数据增强对于提升训练数据多样性与语义覆盖度的重要作用移除Dynamic Sample Filtering各项指标出现小幅下降文搜商品从 63.09% 降至 60.63%图搜商品从 91.08% 降至 83.40%表明自适应训练策略能够有效抑制增强数据中引入的噪声干扰。3.3 可视化分析为直观展示 MOON 2.0 的多模态理解能力我们从图文对齐质量和检索效果两个维度进行了可视化分析。热力图 从泛化词汇到核心属性。如下图所示传统混合训练模型倾向于将注意力分散在high quality、women等泛化词汇上而 MOON 2.0 能够精准聚焦于knitted cardigan、polo-neck、Teddybear等核心商品属性这正是动态模态平衡带来的细粒度图文对齐能力提升。检索结果 为进一步评估 MOON 2.0 在多样化电商场景下的检索效能与泛化能力我们基于平台全量搜索数据库随机抽取了 500 万样本构建大规模检索集对三类检索任务的实际召回结果进行了可视化展示。结果表明MOON 2.0 的表征对同款与相似款具备良好的区分能力能够在大规模候选集中精准定位同款商品同时对相似款保持有意义的语义排序验证了其表征空间的判别性与结构性。图搜检索结果文搜检索结果商品搜检索结果4. 总结展望MOON 系列围绕电商多模态表征的核心挑战持续演进完成了从任务统一到模态协同的关键跨越为构建下一代通用电商多模态表征基座奠定了坚实的技术基础。MOON 1.0 聚焦异构任务的统一建模首次提出基于生成式 MLLM 的电商多模态表征框架通过多任务联合学习将图搜、文搜、商品搜及分类等异构任务纳入统一表征空间验证了一个模型服务所有任务的技术可行性。WSDM26MOON 2.0 聚焦动态模态平衡这一核心问题通过 Modality-driven MoE、Dual-level Alignment 与 Image-text Co-augmentation 三项关键设计的协同有效解决了多任务联训中长期存在的跷跷板效应在自建基准 MBE 2.0 及 M5Product、Fashion200K 等公开数据集上均达到全面 SOTA。CVPR26展望未来MOON 系列将沿两条核心路径持续演进最终迈向具备深层语义理解与自主推理能力的下一代电商多模态表征基座多粒度语义表征构建从全局语义到细粒度属性的层次化表征体系实现跨粒度的精准刻画与灵活解耦为不同下游任务提供按需取用的语义支撑感知-推理-生成一体化以大模型为引擎推动表征范式从感知匹配向感知-推理-生成的深度融合跃迁不止于知其然的语义关联更追求知其所以然的归因推理与可解释决策开启从商品理解到推理的新范式。 关于我们阿里妈妈搜索直通车多模态团队负责多模态技术的研发和应用专注于多模态大模型、智能创意、图搜、多模态多场景建模等方向。近年在CVPR、KDD、SIGIR、WSDM等学术会议上发表多篇论文同时真诚欢迎具备CV、NLP和推荐系统相关背景的同学加入 简历投递邮箱wanxian.gwxtaobao.comEND也许你还想看面向Skills编程用领域知识工程驱动 Code AgentWSDM’26阿里妈妈直通车提出搜推广系统通用用户大模型LUMAAAI’26 OralAgent基于用户长期行为的个性化偏好理解的评估和优化WWW26 | 克服多重延迟阿里妈妈展示推广提出级联延迟反馈建模新框架关注「阿里妈妈技术」了解更多~喜欢要“分享”好看要“点赞”哦ღ~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2501433.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…