【跨域姿态估计】Cross-Domain Animal Pose Estimation With Skeleton Anomaly-Aware Learning

news2026/4/15 6:56:45
论文信息论文题目Cross-Domain Animal Pose Estimation With Skeleton Anomaly-Aware Learning作者均来自浙江大学计算机科学与技术学院论文链接https://doi.org/10.1109/TCSVT.2025.3557844Github链接https://github.com/LeHan-ZJU/UDARP-9.4K动物姿态估计Animal Pose Estimation, APE近年来在神经科学、脑机接口、动物行为分析等场景中越来越重要但和人体姿态估计相比这一方向长期受到两个现实问题制约一是标注数据稀缺二是不同动物种类、不同采集场景之间存在显著域偏移。尤其当目标体型较小、背景复杂时模型往往很难直接迁移。论文作者正是围绕这个问题提出了一种新的跨域动物姿态估计框架 SA2Net试图从“骨架异常学习”的角度重新定义伪标签筛选问题。此外论文还提出了一个全新的大鼠姿态估计数据集UDARP-9.4K共包含 9399 张标注图像覆盖 5 个实验场景并带有关键点与检测框标注。一、论文主要思想这篇论文的出发点非常明确现有无监督域适应方法大多依赖伪标签而伪标签的质量决定了后续迁移训练的上限。已有方法通常通过“位置一致性”来判断目标域预测是否可靠即把一张图像及其增强版本分别送入模型如果两次预测的关键点位置足够一致就把它看成正确预测并作为伪标签。但作者指出这个准则有一个根本漏洞如果两次预测犯了同样的错误它们依然可能表现出高度一致从而被错误地当成高质量伪标签。这会造成大量 false positive严重污染后续训练。因此论文没有继续在“位置是否一致”上打补丁而是把问题提升为我们能不能直接判断一个预测得到的骨架是否“异常”作者认为姿态本质上不是一堆彼此独立的点而是一个有连接关系的骨架图。既然骨架天然是图结构那么相比欧式空间中的坐标比较在图空间中建模骨架异常更有希望识别那些“看起来一致、实际上错了”的预测。基于这个想法作者提出了 Skeleton Anomaly-aware LearningSAL机制让模型学会区分正常骨架和异常骨架再把这种“异常感知能力”反馈到跨域训练中用于更精准地生成伪标签并约束没有伪标签的目标域样本。换句话说这篇论文最核心的思想是**跨域动物姿态估计的关键不只是做域对齐而是先学会判断目标域预测出来的骨架到底靠不靠谱。**作者将“伪标签筛选”从简单的位置一致性问题转化为了“骨架异常识别”问题这也是整篇工作的理论支点。二、核心创新点1. 首次从骨架异常学习角度重构伪标签生成论文提出的 SAL 机制不再仅凭增强前后关键点坐标是否接近来选择伪标签而是将两组关键点构造成骨架图并在图空间中学习“正常/异常”分布。这样做的意义在于模型不仅看点的位置还看点与点之间形成的结构关系从而更容易识别那些整体结构不合理的预测结果。2. 将骨架异常知识反馈到域适应全过程作者没有把 SAL 当成一个独立的后处理模块而是设计了 Skeleton Anomaly-feedback based Domain AdaptationSADA框架把骨架异常知识反馈到目标域训练中。一方面它帮助从目标域中挑出更准确的伪标签另一方面对那些没有通过伪标签筛选的样本也通过图约束进行自监督学习尽量减少数据浪费。3. 提出面向小目标、多场景的大鼠姿态数据集 UDARP-9.4K论文同时构建了一个新的大鼠姿态估计数据集 UDARP-9.4K共 9399 张图像覆盖五个实验场景并带有关键点与检测框标注。作者特别强调这个数据集填补了“小尺寸动物、多实验场景”姿态数据的空白适合用于跨场景迁移和动物行为分析研究。4. 兼顾结构建模与对象特异特征对齐除了骨架异常学习外论文还设计了 OSFAObject-Specific Feature Align模块在跨域训练中隐式对齐对象特异特征。作者认为对姿态估计这种细粒度任务来说简单做整图级域对齐是不够的真正重要的是和动物身体结构相关的局部特征。OSFA 通过 cross-attention 强化这种跨域特征交互。三、方法介绍1. 整体框架SAL SADA 双阶段协同整篇方法可以概括为两个核心组件。第一部分是 SAL用源域标注数据构造骨架图样本对学习“异常骨架”的判别知识第二部分是 SADA把这种知识用于目标域伪标签生成、无伪标签样本约束以及跨域联合训练。2. 骨架图如何表示作者把姿态骨架建模成图其中每个关键点是一个节点。与仅使用坐标不同论文为每个节点设计了“坐标 局部夹角”的特征表示。其定义为Mei[j,k]yi,0j≤2 M_e^i[j,k] y_i,\quad 0j\le 2Mei​[j,k]yi​,0j≤2Mei[j,k]Ai[j−2],2j≤2C(ne,2) M_e^i[j,k] A_i[j-2],\quad 2j\le 2C(n_e,2)Mei​[j,k]Ai​[j−2],2j≤2C(ne​,2)这里前两维表示关键点坐标后面几维表示与该关键点相连边之间形成的角度。作者强调角度特征相比距离特征更不受尺度变化影响因此对小尺寸动物更友好。从图神经网络角度看作者还给出了异常信息传播的分析。对于异常节点vvv其在第l1l1l1层的表示为hv(l1)fgl(fagg(G(l),v))fgl(σ(∑u∈N(v)hu(l)hv(l))) h_v^{(l1)} f_g^l \big(f_{agg}(G^{(l)},v)\big) f_g^l\left(\sigma\left(\sum_{u\in N(v)} h_u^{(l)} h_v^{(l)}\right)\right)hv(l1)​fgl​(fagg​(G(l),v))fgl​​σ​u∈N(v)∑​hu(l)​hv(l)​​​这说明异常节点的信息会在消息传递过程中逐步汇入全局图特征因此 GNN 对骨架结构异常比单纯欧式空间比较更敏感。3. SAL 如何学习“正常/异常骨架”为了训练 SAL作者并不需要额外人工标注“异常骨架”而是从源域真实标注出发通过噪声模拟来构造正负样本对。具体来说先对源域关键点做几何变换再向两组关键点加入不同强度、不同模式的噪声。正样本加入小范围随机噪声负样本则加入更大范围噪声甚至加入“同步错误”来模拟增强前后犯同样错误的情况。这样构造出来的样本对就能逼近真实伪标签筛选时可能遇到的困难案例。这个设计非常巧妙。因为论文真正想解决的恰恰不是“两个预测不一致”的普通错误而是“两个预测一致但同时错了”的伪一致现象。SAL 通过专门构造这类困难负样本让模型在训练时就学会识别这种伪一致。4. 目标域伪标签生成在目标域中对于样本xtx_txt​及其增强版本Ma(xt)M_a(x_t)Ma​(xt​)先用预训练姿态模型得到两组预测关键点再交给 SAL 计算骨架相似性分数。论文用如下条件区分有无伪标签的样本xt∈Dtp,fSAL(P(xt),P(Ma(xt)))T x_t \in D_t^p,\quad f_{SAL}(P(x_t),P(M_a(x_t))) Txt​∈Dtp​,fSAL​(P(xt​),P(Ma​(xt​)))Txt∈Dtu,fSAL(P(xt),P(Ma(xt)))≤T x_t \in D_t^u,\quad f_{SAL}(P(x_t),P(M_a(x_t))) \le Txt​∈Dtu​,fSAL​(P(xt​),P(Ma​(xt​)))≤T其中阈值T0.5T0.5T0.5。通过这种方式目标域样本被分成“可作为伪标签监督的样本”和“暂时不能直接信任的样本”两类。相比传统位置一致性策略这种基于结构异常的判断更可靠。5. 没有伪标签的样本怎么用很多伪标签方法会丢弃低置信样本但作者认为这部分数据里仍然包含有价值的对象信息因此提出图约束项 Graph Constraint TermGCT进行自监督学习。首先用 soft-argmax 从热力图中获得可微分的关键点坐标例如横坐标定义为xi∑lw∑rheβhi[l,r]∑mw∑kheβhi[m,k] l x_i \sum_l^w \sum_r^h \frac{e^{\beta h_i[l,r]}}{\sum_m^w \sum_k^h e^{\beta h_i[m,k]}}\, lxi​l∑w​r∑h​∑mw​∑kh​eβhi​[m,k]eβhi​[l,r]​l然后通过 SAL 计算增强前后预测骨架的相似性并定义图约束损失LGCTe−fSAL(y^i,y^i′)⋅[h^−Ma(−a,h^′)]2 L_{GCT} e^{-f_{SAL}(\hat y_i,\hat y_i)} \cdot [\hat h - M_a(-a,\hat h)]^2LGCT​e−fSAL​(y^​i​,y^​i′​)⋅[h^−Ma​(−a,h^′)]2这个损失把“热图的一致性”与“骨架结构的一致性”结合起来若 SAL 判断两次预测在结构上更可信则一致性约束更有意义反之则降低其影响。这个设计避免了把明显错误的结构强行拉近。6. OSFA做更适合姿态估计的跨域对齐SADA 中还包含一个 OSFA 模块它采用双流输入和 cross-attention 机制隐式对齐对象特异特征。其核心表达式之一为fspc1softmax(Q1K1Tdk)V1⊕softmax(Q1K2Tdk)V2 f_{spc}^1 \text{softmax}\left(\frac{Q_1K_1^T}{\sqrt{d_k}}\right)V_1 \oplus \text{softmax}\left(\frac{Q_1K_2^T}{\sqrt{d_k}}\right)V_2fspc1​softmax(dk​​Q1​K1T​​)V1​⊕softmax(dk​​Q1​K2T​​)V2​这里一部分是域内自注意力提炼另一部分是跨域交互对齐最后在通道维拼接。作者的目的不是做粗粒度域混合而是强化对“动物自身相关区域”的感知。7. 实验结果说明了什么论文在 UDARP-9.4K、TigDog 和 AP-10K 三个数据集上进行了验证覆盖跨场景和跨物种两类任务。结果表明SA2Net 在多个设定下优于 DANN、DRDA、CC-SSL、MDAMT、ScarceNet 和 CapeFormer 等对比方法在伪标签质量评估中SAL 生成的伪标签精度也显著高于传统的 Position Consistency 策略。作者还通过特征聚类展示在欧式空间中正负样本容易混淆在 SAL 学到的图特征空间中正负样本分布更可分。这说明作者的核心判断是成立的对于跨域姿态估计真正关键的不是单纯比较关键点位置而是学习骨架结构本身的合理性。四、总结与展望总体来看这篇论文的价值不只在于提出了一个性能更好的模型更在于它提供了一种新的问题拆解方式。传统跨域姿态估计往往围绕“如何对齐源域和目标域”展开而这篇论文把关注点前移到了“如何判断目标域预测结果是否可信”上。作者用骨架图建模、异常学习、图约束自监督以及对象特异特征对齐构建出一条比较完整的技术链条也使得 SA2Net 在小目标、复杂背景和跨场景设定下表现出较强优势。我认为这篇工作的最大启发在于**对结构化预测任务而言伪标签质量控制不应只依赖输出层面的数值一致性而应借助任务本身的结构先验。**在动物姿态估计中这个结构先验是骨架在其他任务中也许可以是时序关系、拓扑关系或语义依赖。论文的思路具有一定可迁移性。当然作者也坦率指出了方法的局限当跨域双方在形态上差异极大时例如直立行走动物与四足动物之间已学习到的骨架知识会变得不够适用。这意味着该方法更适合“存在一定结构共性”的跨域迁移而对极端异构形态的开放域适应仍然不足。未来如果能结合更强的通用视觉先验或许能进一步提升方法的适用范围。从未来研究角度看这项工作至少还有三个值得延伸的方向。第一进一步处理跨物种极端形态差异引入更抽象的解剖学或语义先验第二把静态骨架异常推广到视频级时序异常感知在行为分析中会更有价值第三将这种“结构可靠性评估”思想迁移到其他关键点任务例如手势、医学骨架、机器人关节估计等。就这一点而言这篇论文不仅是一篇动物姿态估计论文也是一篇关于“如何更聪明地使用伪标签”的论文。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2519044.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…