兼顾长、短视频任务的无人机具身理解!AirVista-II:面向动态场景语义理解的无人机具身智能体系统

news2025/5/19 19:11:06

  • 作者:Fei Lin 1 ^{1} 1, Yonglin Tian 2 ^{2} 2, Tengchao Zhang 1 ^{1} 1, Jun Huang 1 ^{1} 1, Sangtian Guan 1 ^{1} 1, and Fei-Yue Wang 2 , 1 ^{2,1} 2,1
  • 单位: 1 ^{1} 1澳门科技大学创新工程学院工程科学系, 2 ^{2} 2中科院自动化研究所复杂系统管理与控制国家重点实验室
  • 论文标题:AirVista-II: An Agentic System for Embodied UAVs Toward Dynamic Scene Semantic Understanding
  • 论文链接:https://arxiv.org/pdf/2504.09583

主要贡献

  • 提出AirVista-II系统:这是一个端到端的代理系统,用于使无人机(UAV)从被动的数据采集平台向主动的语义交互范式转变,实现了无人机在动态场景中的通用语义理解和推理。
  • 设计自适应关键帧提取策略:针对长视频场景,提出了一种结合运动感知采样、聚类分析和模型引导选择的自适应关键帧提取策略。该策略能够有效地捕捉语义显著的帧,增强无人机对复杂动态场景的理解能力。
  • 在多个公共航拍视频数据集上验证:在零样本(zero-shot)设置下,展示了系统在多样化无人机动态场景中的高准确性和描述质量,证明了其在实际应用中的潜力。

研究背景

  • 无人机在动态环境中的重要性
    • 无人机在物流运输、灾难响应等动态环境中扮演着越来越重要的角色。
    • 然而,目前的任务通常依赖于人类操作员监控航拍视频并做出决策,这种人机协作模式在效率和适应性方面存在显著限制。
  • 语义理解任务的需求
    • 为了实现更高效的自主操作,无人机需要具备语义理解能力,不仅作为数据采集平台,还要能够进行环境的语义建模和自然语言交互,从而根据感知信息生成对人类操作指令的高级语义响应。
  • 现有方法的局限性
    • 近年来,以大型语言模型(LLM)为代表的基础模型(FM)在具身智能领域展现了强大的自主性和领域适应性。
    • 然而,现有方法通常缺乏显式的任务规划机制,导致响应可控性不稳定。此外,由于缺乏外部工具调用能力和协调多模块框架,在处理结构复杂和开放性任务时泛化能力有限。

研究方法

系统架构

AirVista-II系统由规划模块和执行模块组成。根据输入场景的时间长度,将动态场景分为三种类型:即时场景(单帧图像)、短视频(小于60秒)和长视频(大于等于60秒),分别对应不同的任务形式和执行策略。

规划模块

  • 核心功能:基于LLaVA或GPT-4o的规划代理,将自然语言指令转化为结构化任务,并分派给下游执行代理。
  • 处理流程
    • 如果查询缺乏明确的时间信息,则通过交互式细化模块更新查询。
    • 对于语义模糊的查询,应用链式思考(CoT)模板将其分解为更具体的子问题。
    • 根据提取的时间信息,使用FFmpeg工具从输入视频中检索图像帧或视频片段。
    • 根据持续时间确定数据的模态标签(图像、短视频或长视频)。

执行模块

即时图像任务
  • 处理方式:图像代理接收图像和用户查询,并调用AirVista工具生成答案。AirVista是一个专门针对无人机的多模态问答模型,能够进行细粒度的语义理解和3D空间推理。
短视频任务
  • 关键帧提取:短视频代理首先使用OpenCV从短视频中提取6个均匀间隔的关键帧,形成一个3×2的时间网格图像。
  • 推理过程:在网格提示的引导下,代理对网格和查询进行自我推理以产生答案。这种策略显著减少了计算开销,同时保留了时间上下文。
长视频任务
  • 自适应关键帧提取策略
    • 运动感知采样:计算采样步长 s = ⌊ f ⋅ λ v ⌋ s = \left\lfloor \frac{f \cdot \lambda}{v} \right\rfloor s=vfλ,其中 f f f 是帧率, v v v 是无人机的平均速度, λ \lambda λ 是期望的语义分辨率。这确保了无人机在采样帧之间至少移动 λ \lambda λ 米,平衡了覆盖范围和效率。
    • 聚类分析:使用CLIP ViT-B/16提取高维语义嵌入,对不同数量的聚类进行评估,选择最优聚类数量。
    • 模型引导选择:从每个聚类中选择最早时间戳的帧形成最终关键帧集,构建近方形网格图像。
    • 推理过程:在网格提示的引导下,代理对网格和查询进行推理以生成答案。

实验

短视视频场景实验

CapERA-QA任务

  • 任务描述:基于CapERA数据集构建内容总结问答任务,随机选择一个人类标注的字幕作为参考答案,并手动构建相应的问题。
  • 评估方法:采用基于GPT的语义评估方法,结果显示准确率为75.6%,平均得分为3.703。这表明系统能够准确捕捉大多数航拍视频中的主要事件和动态语义。

  • 可读性评估:采用多种主流英语可读性指标(如Gunning Fog Index、Dale–Chall Readability Formula等),统计结果显示生成答案的可读性较好。

ERA-QA任务
  • 任务描述:基于ERA数据集构建开放性问答任务,包含运动理解、空间关系、时间关系和自由形式问题四种类型。
  • 评估方法:比较基于LLaVA-1.6-34B和GPT-4o的短视频代理的性能,结果显示LLaVA-1.6-34B的准确率为66.5%,平均得分为3.715;GPT-4o的准确率为53.0%,平均得分为3.140。

长视频场景实验

  • 任务描述:基于SynDrone数据集构建长视频问答任务,手动设计开放性问题以评估系统在长时间、多事件动态场景中的综合问答能力。
  • 聚类评估:通过视觉分析聚类评估结果,选择最优聚类数量。实验结果表明,自适应关键帧提取策略能够根据场景复杂性动态选择不同数量的关键帧。
  • 性能对比:与固定帧采样策略(如均匀采样6帧)相比,自适应关键帧提取策略更有效地捕捉长视频的关键语义内容,使代理能够生成完整准确的响应。

结论与未来工作

  • 结论
    • AirVista-II系统通过自适应关键帧提取方法,有效提高了无人机对复杂动态内容的感知和推理性能,增强了无人机在动态环境中的通用语义理解和推理能力。
    • 该系统在多个公共航拍视频数据集上的实验结果表明,其在零样本设置下具有高准确性和描述质量,展示了良好的实际应用潜力。
  • 未来工作
    • 优化流程:将专注于优化流程以减少计算开销,特别是在长视频处理中,进一步提高系统的实时性和效率。
    • 增强鲁棒性:通过更多的实验和测试,增强整个系统在复杂环境下的鲁棒性,确保其在实际应用中的稳定性和可靠性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2379479.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

20250515配置联想笔记本电脑IdeaPad总是使用独立显卡的步骤

20250515配置联想笔记本电脑IdeaPad总是使用独立显卡的步骤 2025/5/15 19:55 百度:intel 集成显卡 NVIDIA 配置成为 总是用独立显卡 百度为您找到以下结果 ?要将Intel集成显卡和NVIDIA独立显卡配置为总是使用独立显卡,可以通过以下步骤实现?&#xff…

sparkSQL读入csv文件写入mysql

思路 示例 (年龄>18改成>20) mysql的字符集问题 把user改成person “让字符集认识中文”

大涡模拟实战:从区域尺度到街区尺度的大气环境模拟

前言: 随着低空经济的蓬勃发展,无人机、空中出租车等新型交通工具正在重塑我们的城市空间。这场静默的革命不仅带来了经济机遇,更对城市大气环境提出了全新挑战。在距离地面200米以下的城市冠层中,建筑物与大气的复杂相互作用、人…

单目测距和双目测距 bev 3D车道线

单目视觉测距原理 单目视觉测距有两种方式。 第一种,是通过深度神经网络来预测深度,这需要大量的训练数据。训练后的单目视觉摄像头可以认识道路上最典型的参与者——人、汽车、卡车、摩托车,或是其他障碍物(雪糕桶之类&#xf…

Web开发-JavaEE应用SpringBoot栈SnakeYaml反序列化链JARWAR构建打包

知识点: 1、安全开发-JavaEE-WAR&JAR打包&反编译 2、安全开发-JavaEE-SnakeYaml反序列化&链 一、演示案例-WEB开发-JavaEE-项目-SnakeYaml序列化 常见的创建的序列化和反序列化协议 • (已讲)JAVA内置的writeObject()/readObje…

项目复习(2)

第四天 高并发优化 前端每隔15秒就发起一次请求,将播放记录写入数据库。 但问题是,提交播放记录的业务太复杂了,其中涉及到大量的数据库操作:在并发较高的情况下,会给数据库带来非常大的压力 使用Redis合并写请求 一…

UE 材质基础 第一天

课程:虚幻引擎【UE5】材质宝典【初学者材质基础入门系列】-北冥没有鱼啊_-稍后再看-哔哩哔哩视频 随便记录一些 黑色是0到负无穷,白色是1到无穷 各向异性 有点类似于高光,可以配合切线来使用,R G B 相当于 X Y Z轴,切…

学习FineBI

FineBI 第一章 FineBI 介绍 1.1. FineBI 概述 FineBI 是帆软软件有限公司推出的一款商业智能 (Business Intelligence) 产品 。 FineBI 是新一代大数据分析的 BI 工具 , 旨在帮助企业的业务人员充分了解和利用他们的数据 。FineBI 凭借强…

深入剖析某App视频详情逆向:聚焦sig3参数攻克

深入剖析某手App视频详情逆向:聚焦sig3参数攻克 一、引言 在当今互联网信息爆炸的时代,短视频平台如某手,已成为人们获取信息、娱乐消遣的重要渠道。对于技术爱好者和研究人员而言,深入探索其内部机制,特别是视频详情…

【Linux】Linux安装并配置MongoDB

目录 1.添加仓库 2.安装 MongoDB 包 3.启动 MongoDB 服务 4. 验证安装 5.配置 5.1.进入无认证模式 5.2.1创建用户 5.2.2.开启认证 5.2.3重启 5.2.4.登录 6.端口变更 7.卸载 7.1.停止 MongoDB 服务 7.2.禁用 MongoDB 开机自启动 7.3.卸载 MongoDB 包 7.4.删除数…

新电脑软件配置二:安装python,git, pycharm

安装python 地址 https://www.python.org/downloads/ 不是很懂为什么这么多版本 安装windows64位的 这里我是凭自己感觉装的了 然后cmd输入命令没有生效,先重启下? 重启之后再次验证 环境是成功的 之前是输入的python -version 命令输入错误 安装pyc…

数据仓库:企业数据管理的核心引擎

一、数据仓库的由来 数据仓库(Data Warehouse, DW)概念的诞生源于企业对数据价值的深度挖掘需求。在1980年代,随着OLTP(联机事务处理)系统在企业中的普及,传统关系型数据库在处理海量数据分析时显露出明显瓶…

MCU开发学习记录17* - RTC学习与实践(HAL库) - 日历、闹钟、RTC备份寄存器 -STM32CubeMX

名词解释: RTC:Real-Time Clock​ 统一文章结构(数字后加*): 第一部分: 阐述外设工作原理;第二部分:芯片参考手册对应外设的学习;第三部分:使用STM32CubeMX进…

C++中的四种强制转换

static_cast 原型&#xff1a;static_cast<type-id>(expression) type-id表示目标类型&#xff0c;expression表示要转换的表达式 static_cast用于非多态类型的转换&#xff08;静态转换&#xff09;&#xff0c;编译器隐式执行的任何类型转换都可用static_c…

YOLOv2目标检测算法:速度与精度的平衡之道

一、YOLOv2的核心改进&#xff1a;从V1到V2的蜕变 YOLOv2作为YOLO系列的第二代算法&#xff0c;在继承V1端到端、单阶段检测的基础上&#xff0c;针对V1存在的小目标检测弱、定位精度低等问题进行了全方位升级&#xff0c;成为目标检测领域的重要里程碑。 &#xff08;一&am…

利用腾讯云MCP提升跨平台协作效率的实践与探索

一、场景痛点 在当今这个数字化快速发展的时代&#xff0c;跨平台协作成为了许多企业和团队面临的一个重大挑战。随着企业业务的不断拓展&#xff0c;团队成员往往需要利用多种工具和平台进行沟通、协作和管理。这些平台包括但不限于电子邮件、即时通讯工具、项目管理软件、文…

【Vue篇】数据秘语:从watch源码看响应式宇宙的蝴蝶效应

目录 引言 一、watch侦听器&#xff08;监视器&#xff09; 1.作用&#xff1a; 2.语法&#xff1a; 3.侦听器代码准备 4. 配置项 5.总结 二、翻译案例-代码实现 1.需求 2.代码实现 三、综合案例——购物车案例 1. 需求 2. 代码 引言 &#x1f4ac; 欢迎讨论&#…

OGGMA 21c 微服务 (MySQL) 安装避坑指南

前言 这两天在写 100 天实战课程 的 OGG 微服务课程&#xff1a; 在 Oracle Linux 8.10 上安装 OGGMA 21c MySQL 遇到了一点问题&#xff0c;分享给大家一起避坑&#xff01; 环境信息 环境信息&#xff1a; 主机版本主机名实例名MySQL 版本IP 地址数据库字符集Goldengate …

Linux面试题集合(4)

现有压缩文件:a.tar.gz存在于etc目录&#xff0c;如何解压到data目录 tar -zxvf /etc/a.tar.gz -C /data 给admin.txt创建一个软链接 ln -s admin.txt adminl 查找etc目录下以vilinux开头的文件 find /etc -name vilinux* 查找admin目录下以test开头的文件 find admin -name te…

Android Studio 安装与配置完全指南

文章目录 第一部分&#xff1a;Android Studio 简介与安装准备1.1 Android Studio 概述1.2 系统要求Windows 系统&#xff1a;macOS 系统&#xff1a;Linux 系统&#xff1a; 1.3 下载 Android Studio 第二部分&#xff1a;安装 Android Studio2.1 Windows 系统安装步骤2.2 mac…