科研上新 | 第4期:语言-音乐对比预训练;查找表实现的神经网络推理;大模型时代重新定义搜索框架

news2025/6/8 15:22:54

编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。

本期内容速览

01. CLaMP: 面向音乐信息检索的语言-音乐对比预训练
02. LUT-NN: 通过查找表实现的高效神经网络推理
03. Large Search Model: 在大模型时代重定义搜索框架

顶会聚焦

CLaMP: 面向音乐信息检索的语言-音乐对比预训练

new-arrival-in-research-4-1

论文链接:https://arxiv.org/abs/2304.11029

项目链接:https://ai-muzic.github.io/clamp/

符号音乐信息检索是处理基于符号表示(如谱面或 MIDI 文件)的音乐的自动分析和检索领域。由于深度学习能够从大型数据集中提取复杂和抽象的音乐特征,因此在符号音乐信息检索中变得越来越流行。但大多数带标签的符号音乐数据集都规模较小,获取足够的带标签数据可能既昂贵又耗时。而语义搜索和零样本分类技术可以用来检索和标记大量未标记的数据。这些技术将可以让使用者能够通过给定的开放领域查询(例如,“快节奏的欢快音乐”)搜索音乐,或者根据定制标签自动识别音乐特征,且无需训练数据。

若想实现符号音乐的语义搜索和零样本分类,就需要建立音乐和语言之间的联系。为此,微软亚洲研究院的研究员们提出了 CLaMP:对比语言-音乐预训练,通过使用与对比损失一起训练的文本编码器和音乐编码器,来学习自然语言和符号音乐之间的交叉模态表示。为了预训练 CLaMP,这一研究收集了一个包含140万个音乐-文本对的大型数据集。它采用文本丢失作为数据增强技术,并使用小节分块技术来有效表示音乐数据,将序列长度缩短到小于10%。此外,该研究还提出了一个掩码音乐模型的预训练目标,以增强音乐编码器对音乐上下文和结构的理解。

图1:CLaMP 执行跨模态符号音乐信息检索任务的过程,包括语义搜索和零样本分类,而无需特定任务的训练数据

图1:CLaMP 执行跨模态符号音乐信息检索任务的过程,包括语义搜索和零样本分类,而无需特定任务的训练数据

实验表明,CLaMP 整合文本信息,实现了符号音乐的语义搜索和零样本分类,超越了先前模型的能力。与需要微调的目前最先进的模型相比,零样本的 CLaMP 在以乐谱为导向的数据集上展示出了与之相当或更优越的性能。该论文已被 ISMIR 2023 接收,并荣获最佳学生论文奖。

图2:基于 BLIP 生成标题的图像推荐音乐的结果

图2:基于 BLIP 生成标题的图像推荐音乐的结果

LUT-NN: 通过查找表实现的高效神经网络推理

new-arrival-in-research-4-4

论文链接:https://dl.acm.org/doi/10.1145/3570361.3613285

项目链接:https://github.com/lutnn

深度神经网络推理面临着张量计算的高硬件开销,以及张量算子开发的高人力成本。为了解决这一问题,微软亚洲研究院的研究员们创新地提出了 LUT-NN 深度神经网络推理系统。如图所示,LUT-NN 可以将网络推理中的线性计算算子转化为查表操作,从而省去了算子计算和实现的成本。

图3: LUT-NN 模型转换示例

图3: LUT-NN 模型转换示例

为实现查表,研究员们从深度神经网络每层的计算出发。DNN 模型的每一层通常是将输入特征转换为更高级别的特征。即使是不同的输入数据,DNN 模型中每一层的特征也存在着语义上的相似性。LUT-NN 通过学习每个线性计算算子的典型特征(称为中心点 “centroid”),预先计算这些特征的结果来作为查找表(Look-up Tables, LUT)。在推理时,LUT-NN 可以直接从查找表中读取与输入特征最接近中心点的计算结果,作为该算子的近似输出。为了提高 LUT-NN 的准确性,LUT-NN 还采用了可微中心点学习(differentiable centroid learnings)技术。通过模型训练过程中的反向传播,LUT-NN 可以通过调整中心点,最小化 LUT-NN 模型的精度损失。此外,研究员们还优化了 LUT-NN 的推理执行,通过提升并行性、减少内存访问、充分利用已有的硬件加速指令等方式提升了模型的推理性能。

LUT-NN 在包括图像识别、语音识别和自然语言处理等多种领域的任务上进行了评估。与传统方法相比,LUT-NN 在保持相似的模型准确度的同时,显著减少了各项推理成本。其中:浮点运算 FLOPs 最多减少到1/16,模型大小最多减少到1/7,延迟最多减少到1/6.8,内存最多减少到1/6.5,功耗最多减少到41.7%。LUT-NN 首次使用了查找表来简化DNN推理过程,并且通过可微中心点的方式降低了模型训练成本,同时还保持了模型的准确度。这种方法为移动设备上的 DNN 推理提供了一种新的、效率更高的解决方案。该论文已被 MobiCom 2023 大会接受。

arXiv精选

Large Search Model: 在大模型时代重定义搜索框架

new-arrival-in-research-4-6

论文链接:https://arxiv.org/pdf/2310.14587.pdf

搜索引擎是十分重要的信息获取工具。当代搜索引擎包含一系列不同的模块,包括查询(query)理解、检索、多级排序和问答等。但这些模块往往是独立优化和部署的,缺少端到端的训练来优化整体的搜索体验。

对此,微软亚洲研究院的研究员们提出了一种称为“大型搜索模型”(Large Search Model)的新搜索概念框架,将不同的搜索模块统一成一个用于搜索的大型语言模型。在这个框架下,研究员们将各种搜索模块都转化为自回归任务,利用大型语言模型强大的理解和推理能力,在简化复杂搜索模块的同时提供更好的搜索结果。

图4:Large Search Model 框架示意图

图4:Large Search Model 框架示意图

在传统搜索引擎中,检索模块负责根据用户查询从海量文档中返回数千相关文档,再通过多个不同的排序模块逐步从数千文档中筛选出最相关的数个文档,最后基于最相关的文档进行摘要抽取和问答等动作,从而生成搜索引擎结果页面(SERP)。而在新的 Large Search Model 框架中,则是使用一个大型语言模型作为一个统一的搜索模型,将检索返回的数千文档同时作为语言模型的输入,然后直接输出整个SERP,包括排序列表、摘要、问答结果等等。

为了实现此目标,研究员们认为 Large Search Model 应该具有统一建模多种检索任务的能力、通过提示词进行定制的能力、长文本建模能力和多模态处理能力。此外,语言模型的推理效率、幻觉和一致性也是实际中需要考虑的问题。研究员们在 MS-MARCO 数据集上进行了初步的实验。检索结果排序(表1)和结果生成(表2)的实验,都取得了优于基线的结果。

表1:列表排序的初步实验结果

表1:列表排序的初步实验结果

表2:答案摘要生成结果示例

表2:答案摘要生成结果示例

在未来,研究员们希望能在更大规模的真实场景下进行实验,并为搜索引擎的研究提供一种新的思路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1355283.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

手机电脑之间快速传输图片视频文件,不压缩画质、不限制大小的方法!

文件传输功能是日常必备功能,但总有传输工具不得“朕”心—— 想在手机和电脑之间传输稍微大一点的文件,弹出提示“限制多少多少G”,传个5G的视频或文件很平常吧,怎么就实现不了?想要将手机相册的视频和照片转移到电脑…

Python 雷达图的绘制(极坐标图) (Matplotlib篇-14)

Python 雷达图的绘制(极坐标图) (Matplotlib篇-14)         🍹博主 侯小啾 感谢您的支持与信赖。☀️ 🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹…

芯课堂 | MCU之EXT

概述 本文将介绍一下华芯微特MCU的嵌套向量中断控制器(NVIC)与外部中断/事件控制器(EXTI)的使用方法等。 01.嵌套向量中断控制器(NVIC) NVIC的全称是Nested vectoredinterrupt controller,即嵌…

行政法学-第十二/十三章:司法审查

章节章节汇总第一章:绪论第二章:行政法的基本原则第三章:行政法律关系主体第四章:行政行为概述第五章:抽象行政行为第六/七章:依申请/依职权的具体行政行为第八章:特殊类型的行政行为第九章&…

ModuleNotFoundError: No module named ‘numpy.testing.decorators‘

文章目录 报错信息报错原因解决方案 关注公众号:『AI学习星球』 算法学习、4对1辅导、论文辅导或核心期刊可以通过公众号或➕v:codebiubiubiu滴滴我 报错信息 ModuleNotFoundError: No module named numpy.testing.decorators 报错原因 新版本已经去…

利用GitHub开源项目ChatGPTNextWeb构建属于自己的ChatGPT - Docker

Docker部署ChatGPTNextWeb ChatGPTNextWeb项目github开源地址:https://github.com/ChatGPTNextWeb/ChatGPT-Next-Web 根据文档部署ChatGPTNextWeb 文档地址:https://github.com/ChatGPTNextWeb/ChatGPT-Next-Web/blob/main/README_CN.md 步骤一&#…

AI:109-基于机器学习的文本图像关联分析

🚀点击这里跳转到本专栏,可查阅专栏顶置最新的指南宝典~ 🎉🎊🎉 你的技术旅程将在这里启航! 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参考学习意义。 ✨✨✨ 每一个案例都附带有在本地跑过的关键代码,详细讲解供…

牛顿法和拟牛顿法介绍

最优化笔记,主要参考资料为《最优化:建模、算法与理论》 文章目录 一、经典牛顿法(1) 迭代格式(2)收敛性 二、拟牛顿法(1) 割线方程(2) BFGS公式(…

csdn查看积分的方法(最快)

我在浏览别人“资源”的时候,发现需要积分下载。下面分享最快查看积分的方法,非常简单。 在个人主页,选择任意一篇文章。最左边会显示积分(如果不在主页,点击上面的csdn头像会跳到首页)。如图:…

耳机声音变小了?意味你的耳机需要清洁了,两步教你快速清洁耳机

前两天觉得华为FreeBuds SE 2的声音有点小,于是准备调大一点,却收到手机的弹窗提示“耳机音量超出推荐值”的伤耳提示。 这其实是耳机的通病——长时间的佩戴使用,使得灰尘、耳垢、汗水在耳机的出音孔和泄音孔形成污垢。简单来说&#xff0c…

iPhone强制恢复出厂设置,记好这2种方法!

随着智能手机的广泛普及,如今有越来越多的人开始使用iPhone手机。但是,在使用的过程中,我们可能会遇到各种问题,比如程序崩溃、软件故障、系统运行缓慢等等。 此时,恢复出厂设置成为了一种解决问题的有效方法。本文将…

test 系统学习-04-test converate 测试覆盖率 jacoco 原理介绍

测试覆盖率 测试覆盖率(test coverage)是衡量软件测试完整性的一个重要指标。掌握测试覆盖率数据,有利于客观认识软件质量,正确了解测试状态,有效改进测试工作。 当然,要发挥这些作用,前提是我们掌握了真实的测试覆盖…

RT-DETR Gradio 前端展示页面

效果展示 使用方法 Gradio 是一个开源库,旨在为机器学习模型提供快速且易于使用的网页界面。它允许开发者和研究人员轻松地为他们的模型创建交互式的演示,使得无论技术背景如何的人都可以方便地试用和理解这些模型。使用Gradio,你只需几行代码就可以生成一个网页应用程序,…

Nat Med | 多组学神经病理学在儿科神经肿瘤学中提高了诊断准确性

导语 今天给同学们分享一篇实验文章“Multiomic neuropathology improves diagnostic accuracy in pediatric neuro-oncology”,这篇文章发表在Nat Med期刊上,影响因子为82.9。 结果解读: 患者招募和样本处理 在为期4年的时间内&#xff08…

【Java】log4j和slf4j区别

log4j:Apache Software Foundation 开源 slf4j:不支持日志滚动等高级功能 在开源库或内部库中使用 SLF4J,将使其独立于任何特定的日志记录实现,这意味着无需为多个库管理多个日志记录配置,您的客户端将会很需要这一点…

prometheus grafana mysql监控配置使用

文章目录 前传bitnami/mysqld-exporter:0.15.1镜像出现了问题.my.cnf可以用这个"prom/mysqld-exporter:v0.15.0"镜像重要的事情mysql监控效果外传 前传 prometheus grafana的安装使用:https://nanxiang.blog.csdn.net/article/details/135384541 本文说…

Mac——VsCode使用格式化工具进行整理和格式化

1. 打开VSCode编辑器。 2. 点击左下角⚙️图标,打开设置 3. 进入设置后,你会看到一个搜索框,在搜索框中输入 format on save 来查找相关设置项。 4. 在设置列表中找到 Editor: Format On Save 选项,勾选它以启用在保存文件时自动格…

炼石白小勇:免改造技术“多快好省”落地数据安全

现代数字化企业已然成为持续演变和进化的数字生命体,其架构复杂性的爆炸性增长,正加速形成企业内部数字化基因的代差积累。如何在数字基因动态演进的过程中实现原生安全范式,是网络安全行业面临的共同挑战。在此背景下,新一轮网络…

一文掌握文本语义分割:从BERT切分、Cross-Segment到阿里SeqModel

前言 之所以写本文,源于以下两点 在此文《基于LangChainLLM的本地知识库问答:从企业单文档问答到批量文档问答》的3.5节中,我们曾分析过langchain-chatchat项目中文本分割相关的代码,当时曾提到该项目中的文档语义分割模型为达摩…

用CHAT写一简单的C语言线程池的示例

问CHAT&#xff1a;编写一个简单的C语言线程池的示例 CHAT回复&#xff1a;在C语言中&#xff0c;实现线程池需要手动创建线程和管理任务队列。以下是一个简单的C语言线程池的示例&#xff1a; c #include <pthread.h> #include <stdio.h> #define NUM_THREADS 5 …