阿里通义实验室突破空间音频新纪元!OmniAudio让360°全景视频“声”临其境

news2025/6/4 10:30:30

在虚拟现实和沉浸式娱乐快速发展的今天,视觉体验已经远远不够,声音的沉浸感成为打动用户的关键。然而,传统的视频配音技术往往停留在“平面”的音频层面,难以提供真正的空间感。阿里巴巴通义实验室(Qwen Lab)旗下的语音团队最近取得了一个重大突破 —— OmniAudio 技术,能够直接从360°视频中生成空间音频(FOA),真正实现了“所见即所听”,大幅提升虚拟现实中的沉浸感。


为什么空间音频如此重要?

想象一下你戴着VR头显,站在一个繁忙的城市广场。如果你只听到“立体声”,你可能只能感受到声音的左右方向;但如果你听到一个小贩从你后方推车经过、前方的街头艺人正在唱歌、右上方的钟楼敲响,你的身体会自然转向声音来源——这正是**空间音频(Spatial Audio)**带来的沉浸感。

**FOA(First-order Ambisonics)**是一种主流的空间音频格式,它用4个声道(W, X, Y, Z)来描述声音的位置和方向。简单来说,如果你把听觉比作摄影,这种格式就像是“全景相机”,可以捕捉整个空间的声音场景,而不仅仅是某一个角度。


现有技术的痛点:角度太“死板”

虽然空间音频的技术已存在一段时间,但目前很多视频生成音频的方法都存在明显的缺陷:

  • 只处理固定视角的视频,无法真正体现“环绕”音效;

  • 生成的是“普通”音频,缺乏声音方向感;

  • 忽视了360°视频本身蕴含的丰富视觉线索。

而随着360°相机的普及和VR内容的兴起,观众越来越期待音画一致的沉浸体验——而这正是OmniAudio所要解决的难题。


Qwen Lab 的解法:360V2SA 任务 + Sphere360 数据集

为了解决这个痛点,研究团队提出了一个全新的任务定义:360V2SA(360-degree Video to Spatial Audio)。意思就是:让360°视频配上真正匹配其空间结构的音频

但这里面有一个大难题——数据匮乏。

训练AI模型需要大量的视频+空间音频配对数据,而现实中360°视频和FOA音频的组合极其稀缺。为此,团队构建了一个超大规模数据集 Sphere360

  • 包含 103,000+ 真实视频片段

  • 覆盖 288类音频事件(如掌声、引擎声、鸟叫等);

  • 总时长达到 288小时

  • 所有数据都经过严格清洗和对齐,确保“看得见”的画面与“听得见”的声音严格对应。


OmniAudio 是如何学习“空间感”的?

OmniAudio 的训练分为两个阶段,可以类比为“先学基础,再练精细”:

✅ 阶段一:自学成才(Self-Supervised)

团队利用海量的普通立体声数据,先“伪造”出假FOA(称为“伪FOA”),让模型通过一种叫“流匹配(flow-matching)”的方法,自己摸索声音的时间结构和空间规律。

类比一下:就像你用模糊地图自学城市布局,虽然不精确,但能掌握大致方位和路线感。

为了让模型更强健,团队还故意“打码”音频片段(即随机遮住部分时间段),让模型学会“脑补”缺失的信息。这一步帮助它打下了很好的“声音空间感”基础。

✅ 阶段二:精雕细琢(Supervised Fine-tuning)

接着,团队拿出真实的FOA音频数据,结合视频的“双分支视觉编码器”(可以同时提取场景信息和运动信息),进一步精细训练模型,让它能够根据画面“雕刻”出精准的空间音轨。

最终,OmniAudio 能够根据画面中的视觉线索,比如“汽车从左边开过来”,输出与之完美匹配的空间音频。


效果如何?超越所有对手!

在测试阶段,研究团队使用了两个测试集:Sphere360-BenchYT360-Test,并使用了客观指标(如 FD、KL、ΔAngular)和主观评测(人类听感打分)来对比性能。

结果非常惊艳:

  • OmniAudio 在所有指标上全面超越现有所有方法

  • 人类主观评分中,OmniAudio 的空间感、清晰度、画面与声音的同步度均高于最佳对比模型

  • 消融实验也验证了:预训练策略、双分支视觉建模、模型规模等设计对提升性能缺一不可。


虚拟世界的声音革命

OmniAudio 的出现,意味着我们离真正“沉浸式音画合一”的虚拟现实更近了一步。未来,无论是VR游戏、线上展览、虚拟旅游,还是影视制作,都将有机会用更真实、更细腻的声音打动用户。

空间音频,不再是“高端专属”,而是即将走入大众视野的“听觉革命”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2396609.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

异步上传石墨文件进度条前端展示记录(采用Redis中String数据结构实现-苏东坡版本)

昔者,有客临门,亟需自石墨文库中撷取卷帙若干。此等文册,非止一卷,乃累牍连篇,亟需批量转置。然吾辈虑及用户体验,当效东坡"腹有诗书气自华"之雅意,使操作如行云流水,遂定…

处理知识库文件_编写powershell脚本文件_批量转换其他格式文件到pdf文件---人工智能工作笔记0249

最近在做部门知识库,选用的dify,作为rag的工具,但是经过多个对比,最后发现, 比较好用的是,纳米搜索,但是可惜纳米搜索无法在内网使用,无法把知识库放到本地,导致 有信息…

rtpmixsound:实现音频混音攻击!全参数详细教程!Kali Linux教程!

简介 一种将预先录制的音频与指定目标音频流中的音频(即 RTP)实时混合的工具。 一款用于将预先录制的音频与指定目标音频流中的音频(即 RTP)实时混合的工具。该工具创建于 2006 年 8 月至 9 月之间。该工具名为 rtpmixsound。它…

【计算机网络】第3章:传输层—面向连接的传输:TCP

目录 一、PPT 二、总结 TCP(传输控制协议)详解 1. 概述 核心特性: 2. TCP报文段结构 关键字段说明: 3. TCP连接管理 3.1 三次握手(建立连接) 3.2 四次挥手(终止连接) 4. 可…

《信号与系统》--期末总结V1.0

《信号与系统》–期末总结V1.0 学习链接 入门:【拯救期末】期末必备!8小时速成信号与系统!【拯救期末】期末必备!8小时速成信号与系统!_哔哩哔哩_bilibili 精通:2022浙江大学信号与系统(含配…

mac笔记本如何快捷键截图后自动复制到粘贴板

前提:之前只会进行部分区域截图操作(commandshift4)操作,截图后发现未自动保存在剪贴板,还要进行一步手动复制到剪贴板的操作。 mac笔记本如何快捷键截图后自动复制到粘贴板 截取 Mac 屏幕的一部分并将其自动复制到剪…

高考加油!UI界面生成器!

这个高考助力标语生成器具有以下特点: 视觉设计:采用了蓝色为主色调,搭配渐变背景和圆形装饰元素,营造出宁静而充满希望的氛围,非常适合高考主题。 标语生成:内置了超过 100 条精心挑选的高考加油标语&a…

window ollama部署模型

注意去官网下载ollama,这个win和linux差别不大,win下载exe,linux用官网提供的curl命令 模型下载表:deepseek-r1 使用命令:Ollama API 交互 | 菜鸟教程 示例: 1.查看已加载模型: 2.文本生成接口 curl -X POST http://localhost:11434/v1/completions -H "Conte…

用mediamtx搭建简易rtmp,rtsp视频服务器

简述: 平常测试的时候搭建rtmp服务器很麻烦,这个mediamtx服务器,只要下载就能运行,不用安装、编译、配置等,简单易用、ffmpeg推流、vlc拉流 基础环境: vmware17,centos10 64位,wi…

ubuntu安装devkitPro

建议开个魔法 wget https://apt.devkitpro.org/install-devkitpro-pacman chmod x ./install-devkitpro-pacman sudo ./install-devkitpro-pacman(下面这句如果报错也没事) sudo ln -s /proc/self/mounts /etc/mtab往~.bashrc添加 export DEVKITPRO/o…

Linux(10)——第二个小程序(自制shell)

目录 ​编辑 一、引言与动机 📝背景 📝主要内容概括 二、全局数据 三、环境变量的初始化 ✅ 代码实现 四、构造动态提示符 ✅ 打印提示符函数 ✅ 提示符生成函数 ✅获取用户名函数 ✅获取主机名函数 ✅获取当前目录名函数 五、命令的读取与…

代码随想录算法训练营 Day59 图论Ⅸ dijkstra优化版 bellman_ford

图论 题目 47. 参加科学大会(第六期模拟笔试) 改进版本的 dijkstra 算法(堆优化版本) 朴素版本的 dijkstra 算法解法的时间复杂度为 O ( n 2 ) O(n^2) O(n2) 时间复杂度与 n 有关系,与边无关系 类似于 prim 对应点多…

【HW系列】—安全设备介绍(开源蜜罐的安装以及使用指南)

文章目录 蜜罐1. 什么是蜜罐?2. 开源蜜罐搭建与使用3. HFish 开源蜜罐详解安装步骤使用指南关闭方法 总结 蜜罐 1. 什么是蜜罐? 蜜罐(Honeypot)是一种主动防御技术,通过模拟存在漏洞的系统或服务(如数据库…

汽车总线分析总结(CAN、LIN、FlexRay、MOST、车载以太网)

目录 一、汽车总线技术概述 二、主流汽车总线技术对比分析 1. CAN总线(Controller Area Network) 2. LIN总线(Local Interconnect Network) 3. FlexRay总线 4. MOST总线(Media Oriented Systems Transport&#x…

MyBatisPlus--条件构造器及自定义SQL详解

条件构造器 在前面学习快速入门的时候,练习的增删改查都是基于id去执行的,但是在实际开发业务中,增删改查的条件往往是比较复杂的,因此MyBatisPlus就提供了一个条件构造器来帮助构造复杂的条件。 MyBatisPlus支持各种复杂的wher…

OVD开放词汇检测 Detic 训练COCO数据集实践

0、引言 纯视觉检测当前研究基本比较饱和,继续创新提升空间很小,除非在CNN和transformer上提出更强基础建模方式。和文本结合是当前的一大趋势,也是计算机视觉和自然语言处理结合的未来趋势,目前和文本结合的目标检测工作还是有很…

docker、ctr、crictl命令简介与使用

概述 在使用k3s过程中,经常需要使用ctr和crictl两个命令,本文记录一下。 ctr 类似docker命令是docker-shim容器运行时的客户端工具,ctr是Containerd的客户端工具。一个简单的CLI接口,用作Containerd本身的一些调试用途&#xf…

WEB3——什么是ABI

怎么获得ABI? 在编译完合约后,可以在左边下面点击复制ABI ABI(Application Binary Interface,应用二进制接口)是用来让前端或服务端 JavaScript 代码与智能合约进行交互的桥梁,它描述了合约的函数、事件和…

嵌入式软件--stm32 DAY 8.5 基础复习总结

1.时钟树 在数据手册里面,有一张密密麻麻的图,正是时钟系统里的时钟树。 对于时钟,我们注意有两点。一个是系统时钟SYSCLK,一个是依赖外部晶振生成的RTC. RTC以外部低速晶振作为时钟源或者外部高速晶振128分频后作为时钟源,又或者…

MMRL: Multi-Modal Representation Learning for Vision-Language Models(多模态表示学习)

摘要 预训练的VLMs,对于跨任务的迁移学习至关重要,然而,在few-shot数据集上微调会导致过拟合,降低在新任务上的性能。为解决这个问题,提出一种新的多模态表征学习框架(MMRL),该框架引入了一个共享、可学习…