AnyVisLoc:专为低空多视角无人机定位打造的全球首个统一评测基准

news2026/5/21 8:00:05
一、论文背景与开创性意义AnyVisLoc是专为低空多视角条件下的无人机绝对视觉定位Absolute Visual Localization简称 AVL设计的全球首个统一评测基准与大尺度数据集论文题为《Exploring the best way for UAV visual localization under Low-altitude Multi-view Observation Condition: a Benchmark》由Yibin Ye等七位研究者完成被CVPR 2026 Findings计算机视觉与模式识别会议正刊Findings正式收录。论文官网为 CVPR 2026 论文页面具体上线后可检索预印本主页见 arXiv:2503.10692。AnyVisLoc 的开创性贡献在于它首次将无人机低空多视角场景下的视觉定位评测从零散、不一致的单点研究带入到统一、可重复的大规模评测时代。在此之前学界对无人机视觉定位已有大量探索但研究方法极其碎片化各自构建自定义数据集、采用不同的评测指标、覆盖场景差异巨大——不同论文之间几乎无法横向比较也无法真正判断哪种方法是“最优”的。AnyVisLoc 首次从三个维度填补了这一空白标准化的数据集采集了包含 18,000 张航拍图像、多源 2.5D 参考地图的大尺度真实数据覆盖多种建筑风格、天气、场景和飞行高度统一的评测框架将十余种 SOTA 检索与匹配算法整合进同一个评估流水线以完全一致的方式对所有方法进行公平比较针对性的新型评估指标针对无人机定位的特性提出了名为PDMK的新型检索指标比传统召回率更适合无人机的精准定位需求。论文的终极目标是系统性地回答一个问题在低空多视角条件下无人机视觉定位究竟应该采用什么样的技术路径选择哪种检索模型与配准方法组合最优高度、地图分辨率等因素对最终定位精度有多大影响AnyVisLoc 通过统一基准为这些关键设计决策提供了迄今最有参考价值的量化依据。二、数据集构成全球首次面向低空多视角的统一大尺度采集AnyVisLoc 数据集的核心设计理念是“覆盖真实飞行场景中最复杂多变的观测条件”低空无人机在近距离斜向下视时同一地物会出现极端剧烈的视角、尺度和透视畸变这对匹配和定位提出了严峻挑战。数据集围绕三个维度构建多样性2.1 总体规模组成部分数据量说明无人机图像18,000 张真实无人机航拍图像覆盖多场景、多高度、多气象条件晴朗、阴天、晨昏保持图像多样性2.5D 参考地图与图像精确对齐包含两类地理参考地图的混合航拍摄影测量地图Aerial Photogrammetry Maps与历史卫星地图Historical Satellite Maps图像覆盖场景多种地理风貌涵盖市区、郊区、工业区与公园绿地等不同城市地貌避免单一化场景偏差飞行高度范围100 米至 1000 米覆盖低空无人机在不同高度下的视角差异用于测试高度变化对定位精度的影响值得注意的技术细节数据集提供的 2.5D 参考地图不同于传统的纯 2D 卫星正射图而是融合了航空摄影测量地形高程数据的混合地图。这种 2.5D 结构在保留平面覆盖范围的同时提供了有限的深度信息——比纯 2D 地图更适合低空场景中大视差条件下的定位配准又无需如完整 3D 模型那样大规模重建城市环境。这一设计平衡了数据规模与实用精度非常适合大规模部署和快速对比评测。2.2 数据集与现有基准的关键差异与其他无人机视觉定位相关数据集相比如 University-1652专注于无人机→卫星的跨视角图像检索CVUSA 专注于地面街景→卫星的成对检索AnyVisLoc 具有两项核心差异从“图像检索”升级为“绝对几何定位”AVL 任务要求模型不只能“找到哪一张卫星图最接近”而是能够计算无人机在空间中的真实三维位置x, y, z输出误差以米为单位。这意味着匹配必须是亚像素级的几何配准对匹配精度要求远高于传统的图像检索任务。传统数据集评估只关注正确卫星图的排名而不关心坐标误差而AnyVisLoc 的核心指标是定位误差的绝对值直接反映无人机在 GNSS 不可用时的物理位置精度更贴近真实应用。多源参考地图的加入同时提供航拍摄影测量地图和历史卫星地图使研究者可以系统对比两种地图类型的定位性能差异——这是前人工作中从未系统进行过的大范围评估。三、核心任务与任务定义在 AnyVisLoc 的框架下无人机绝对视觉定位被系统分解为以下标准流程标准流程给定一张当前拍摄的无人机图像模型必须执行检索Retrieval在参考地图库中召回一个最相似的候选区域或者 K 个候选。匹配Matching在检索到的区域中将无人机图像与参考地图的局部块进行几何配准求出精确的映射关系从而得到无人机的 3D 全局坐标。精度评估基于预测坐标与真实坐标的欧氏距离误差以米为单位作为最终评价依据。其中步骤 1 的检索质量对最终定位精度影响极大——如果检索到的区域离真实位置超过数公里配准就无法收敛到足够精度而步骤 2 则决定了粗定位后的精调能力。AnyVisLoc 的统一框架专门梳理了不同检索方法与匹配方法的可能组合使之可以在同一数据管线内运行与比较。 新型评价指标PDMK在传统的视觉定位检索任务中普遍采用RecallK正确参考图出现在前 K 张返回结果中的比例作为指标。然而在无人机定位场景下即使正确的参考图排在 Recall1如果其检索得到的区域与真实位置偏差很大下游的几何配准也难以实现亚米级定位精度。为此论文提出了一种专门面向 AVL 任务的评价指标——PDMKPrecision of Distance within Matching error K。该指标定义前 K 个检索结果中能够使最终定位误差通过配准获得低于一定距离阈值的检索结果的比例直接将检索质量与最终的米级定位误差关联起来弥补了 RecallK 只看检索而不看最终定位效果的缺陷。四、基线性能与核心发现基于 AnyVisLoc 的统一评测框架论文对主流 AVL 方法进行大规模基准测试发现目前最优的检索模型是ConvNeXt架构的CAMPCross-Attention Multi-Patch机制而最优的配准方法是Roma为代表的稠密匹配dense matching算法。组合二者后系统在 5 米内定位精度的命中率达到74.1%成为当前多场景低空定位的标杆基线。核心科学发现与设计启示影响因素关键发现无人机观测角度Pitch Angle俯仰角较小即近似水平飞行时匹配难度显著增加。小俯仰角产生极小视差的图像导致几乎无法在传统匹配算法中准确计算深度信息。因此若可能最好在定位阶段引导飞机拍摄一定倾斜角度而非纯水平的画面来提高定位鲁棒性。参考地图分辨率航拍影像的分辨率对匹配精度有直接影响。粗糙地图容易产生特征不足、匹配不收敛的情况。在 0.2 米/像素以上分辨率可获得可接受的定位效果但即使略低于此阈值现代匹配算法仍有一定鲁棒性。高度信息Altitude与角度噪声Prior Heading Noise系统对高度输入的噪声非常敏感如果飞行高度标定不准匹配尺度将出现系统性偏差。而对于先验角度信息的噪声若误差控制在 5° 以内匹配质量下降不大超过 10° 则会导致显著性能损失。参考地图选择Historical Satellite vs. Aerial Photogrammetry历史卫星地图多为老旧、光照差异大的图像明显低于实时航拍摄影测量地图的定位性能——平均定位误差比后者高出 30% 以上。在缺少新鲜航拍数据的区域需要特别留意这一差异。这些发现为无人机系统设计者和算法研究者提供了宝贵的量化参考有助于在实际工程中合理选型与分配资源。五、论文与资源链接5.1 官方论文推荐阅读CVPR 2026 Findings 收录页面https://cvpr.thecvf.com/Conferences/2026上线后可检索会议论文集arXiv 预印本完整 25 MB PDFhttps://arxiv.org/abs/2503.10692PDF 直接下载https://arxiv.org/pdf/2503.10692 (最新版本 v22026 年 4 月更新共 25 MB)DOI 记录https://doi.org/10.48550/arXiv.2503.106925.2 代码与数据集GitHub 官方仓库含数据集下载说明与完整评测代码https://github.com/UAV-AVL/Benchmark内容包含数据集访问信息、所有集成 AVL 方法的参考实现、评测脚本以及基线模型的可复现训练/测试代码。5.3 第三方评测与解读EmergentMind 技术要点分析https://www.emergentmind.com/papers/2503.10692——对基线组合与科学发现的整理。六、后续影响与价值6.1 填补了统一评测基准的长期空白在 AnyVisLoc 出现之前即使研究者提出新的 AVL 方法也只能在各家各自构建的数据集上进行单点实验横向比较几乎不可能。任意数据采集标准不一、场景覆盖范围不定导致“谁是最优方法”长期没有一个公认的答案。AnyVisLoc 首次带来了统一的衡量标尺将 AVL 研究从“自说自话”阶段推入了“标准化竞赛”阶段这对其领域的成熟和发展具有奠基性的推动作用。6.2 真实场景导向不只“检索”而是“定位到米”相比之前的数据集仅关注检索的排名RecallKAnyVisLoc 把真实物理坐标的米级精度作为核心评测维度这更符合自主无人机在实际应用场景中的需求——搜救、侦察、自主巡检等任务需要知道无人机的真实空间位置而不只是“靠近哪里”。5 米内的定位精度基线74.1%为后续研究提供了明确的追赶目标。6.3 推动匹配与检索两条技术路线的交叉融合AnyVisLoc 的统一评测框架使得不同检索与匹配组合的效果能够被系统量化。后续大量研究可基于该平台探索更优的端到端 AVL 架构并为实际工程中的选型提供具体、可复现的参考答案。6.4 对“高度”等关键参数贡献了系统实验证据此前针对高度、俯仰角等因素对无人机定位影响的研究极少有系统性的大范围实验。AnyVisLoc 不仅提供了这些参数变化下的基线性能曲线还通过大规模实验得出了具体量化结论例如俯仰角小于多少度会导致匹配不可靠这为从事 UAV 导航与控制的研究人员提供了重要的设计依据也为复杂空地环境的自动化决策提供了理论支撑。七、引用信息BibTeX在学术论文中引用 AnyVisLoc 数据集及其相关基准评测框架推荐使用以下 BibTeX 条目misc{ye2025exploring, title{Exploring the best way for UAV visual localization under Low-altitude Multi-view Observation Condition: a Benchmark}, author{Yibin Ye and Xingyuan Li and Shuo Chen and Ming Qian and Haowen Tang and Jieyi Yu and Qifeng Yu}, year{2025}, eprint{2503.10692}, archivePrefix{arXiv}, primaryClass{cs.CV}, note{Accepted by CVPR 2026 Findings} }八、总结AnyVisLoc是低空多视角无人机绝对视觉定位领域第一个真正的统一评测基准通过 18,000 张大规模多场景、多高度无人机图像的采集与 2.5D 航测/卫星参考地图的对齐搭配统一评测框架与新型 PDMK 评价指标首次为学术界提供了一套公认的比较平台。相比于 CVUSA 与 University-1652 等传统跨视角地理定位数据集AnyVisLoc 的独特性在于它不受限于特定城市或理想化的成对图像假设专注于真实 GNSS 失效环境下的无人机米级物理定位并首次系统地揭示了俯仰角、高度、地图分辨率等因素的关键影响规律并提供了高达 74.1%5 米内的基线定位精度作为后续研究的量化参照。对于进入无人机定位与空地协同导航领域的研究者来说AnyVisLoc 不仅提供了一个高质量的数据平台也提供了一套完整、可复现的评测工具链是进入 AVL 领域最值得关注和使用的核心基础设施之一。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2627066.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…