高海拔和远距离的人员识别：面部、体型和步态的融合

大家读完就觉得有帮助记得关注和点赞！！！

摘要

我们解决了在无约束环境中进行全身人体识别的问题。这个问题出现在诸如IARPA高空和远距离生物识别与身份识别（BRIAR）计划等监视场景中，其中生物识别数据是在长距离、高角度以及不利的大气条件下（例如，湍流和高风速）捕获的。为此，我们提出了FarSight，一个统一的端到端人体识别系统，它集成了跨越面部、步态和体型模态的互补生物特征线索。FarSight整合了四个核心模块中的新型算法：多目标检测和跟踪、识别感知视频恢复、模态特定生物特征编码以及质量引导的多模态融合。这些组件旨在在退化的图像条件、大的姿势和尺度变化以及跨域差距下协同工作。在BRIAR数据集上的大量实验证明了FarSight的有效性，BRIAR数据集是用于远程、多模态生物识别的最全面的基准之一。与我们的初步系统[1]相比，该系统在1:1验证准确率（TAR@0.1% FAR）上实现了34.1%的绝对增益，在闭集识别（Rank-20）上实现了17.8%的提升，并在开集识别错误（FNIR@1% FPIR）上实现了34.3%的降低。此外，FarSight在2025 NIST RTE视频人脸评估（FIVE）中进行了评估，该评估在BRIAR数据集上进行标准化的人脸识别测试。这些结果确立了FarSight作为在具有挑战性的现实条件下进行操作性生物识别的最先进解决方案的地位。

索引词—全身生物特征识别，大气湍流缓解，生物特征编码，多模态融合，开放集生物特征识别，人脸识别，步态识别，体型识别

1 引言

在远距离和高视角下进行的无约束生物特征识别对于各种应用至关重要，包括执法、边境安全、广域监控和公共媒体分析[2]–[4]。在现有方法中，全身生物特征识别[1]，[5]–[9]已成为该领域的核心，因为它捕捉了丰富的解剖和行为特征组合——例如面部外观、步态和体型——与单模态系统相比，它对遮挡、退化和模态损失具有更强的抵抗力。尽管全身识别系统具有潜力，但在现实场景中部署此类系统在技术上仍然具有挑战性。高性能系统不仅必须包含稳健的多模态生物特征建模，还必须支持以下模块：

精确的人员检测与跟踪、低质量图像增强、大气湍流缓解以及用于处理不可靠数据的自适应融合策略。

为了开发和评估满足这些需求的生物识别系统，必须能够访问反映真实世界监控条件全部复杂性的数据集。IARPA 高空和远距离生物识别与身份识别 (BRIAR) 计划1 是朝着这个方向共同努力[8]，[9]，旨在促进生物识别系统的开发，使其能够在这些不受约束的场景中可靠地执行。图 1 展示了 BRIAR 全身图像捕获场景，包括受控的室内注册集合和具有挑战性的室外探测集合。这些场景模拟了人员识别中面临的真实世界挑战，包括：(i) 由远距离捕获（高达 1000 米）和大气湍流引起的低质量视频帧，折射率结构常数范围从 Cn2 = 10−17 到 10−14 m−2/3; (ii) 来自高达 400 米高度的升高平台（无人机）的大偏航角和俯仰角（高达 50◦)；(iii) 由于低视觉质量而导致的功能集退化，其中瞳孔间距 (IPD) 在 15–100 像素之间；(iv) 开放集搜索的复杂性，其中必须将探测图像与包含干扰项的图库进行匹配；以及 (v) 由 lim 引起的显着域间隙

https://www.iarpa.gov/research-programs/briar

有限的训练数据和真实世界条件的多样性。

图 1：IARPA BRIAR 全身图像捕获场景示意图。(a) 注册室内采集：在受控条件下从多个视角捕获的高质量静态图像和视频。(b) 探测室外采集：在室外环境中以不同的距离和仰角捕获的视频，具有大气湍流等挑战性因素。这些设置反映了远程生物识别中遇到的真实世界条件。已获得拍摄对象许可，允许在出版物中使用图像。

为了应对不受约束的远距离生物特征识别所带来的挑战，我们提出了FarSight，一个集成的端到端系统，旨在利用多模态生物特征线索进行稳健的行人识别。FarSight结合了面部、步态和体型模态，以确保即使在个体线索不可靠或退化的情况下也能保持识别性能。该系统包含四个紧密耦合的模块，每个模块都解决了识别流程中的一个关键组成部分：

（1）一个多目标检测和跟踪模块，能够在动态、杂乱和低分辨率条件下准确地定位视频序列中的个体。

（2）一个识别感知的视频恢复模块，通过联合优化图像质量和生物特征保真度来减轻视觉退化——特别是由于湍流和远距离模糊造成的退化。

（3）一个生物特征编码模块，利用大型视觉模型和特定于模态的架构设计的最新进展，为每个模态提取稳健的表示。

（4）一个质量引导的多模态融合模块，自适应地整合跨模态的分数，同时考虑可变的输入质量和部分观测。

我们系统的初步版本[1]先前已在IEEE/CVF计算机视觉应用冬季会议（WACV 2024）上发表。在这一基础上，我们大幅升级了每个模块，以提高在验证、闭集识别和开集搜索任务中的识别性能。目前的系统还整合了关键的架构增强功能，以支持更低的延迟、更少的内存使用和更高的可扩展性。下面，我们总结了更新后的FarSight系统中每个模块引入的主要改进：

•多目标检测与跟踪：我们的初步

系统[1]采用了一种基于R-CNN的联合人体-面部检测器[10]，[11]，该检测器缺乏对多目标跟踪的支持，并且表现出较高的推理延迟。为了解决这些局限性，我们引入了两个关键升级：首先，我们采用了一个双检测器框架，使用BPJDet[12]进行粗略的人体-面部定位，然后通过YOLOv8[13]进行验证，以减少误报。这种替换提高了检测精度和运行时效率。其次，我们开发了PSR-ByteTrack，这是一种基于ByteTrack[14]构建的增强型多目标跟踪器。PSR-ByteTrack通过引入一种基于补丁的检索机制来缓解诸如ID切换、碎片化轨迹和小目标再识别失败等问题，该机制在内存中维护特定于主体的外观特征。

• 识别感知视频恢复：我们介绍了门控循环湍流缓解（GRTM）网络，这是一种新颖的基于视频的恢复模型，专为远距离、湍流退化的图像设计。使用轻量级分类器有选择地触发恢复，从而减少不必要的计算并避免潜在的特征失真。该系统的一个关键贡献是其紧密集成的恢复-识别协同优化框架，该框架将识别目标直接集成到恢复训练过程中，引导模型增强对身份判别至关重要的特征。

• 生物特征（面部、步态和体型）特征编码：我们对每个特定模态的模型进行升级，采用与任务对齐的架构改进和训练策略，以应对远距离、无约束生物特征识别的挑战。i) 面部：我们提出 KP-RPE [15]，一种关键点相关的相对位置编码技术，可显著改善对未对齐和低质量面部图像的处理。ii) 步态：我们引入 BigGait [16]，这是第一个基于

大型视觉模型（LVM）。该方法从特定任务先验知识转向通用视觉知识，从而提高了在各种条件下的步态识别能力。iii) 身体形状：我们提出了CLIP3DReID [17]，通过将语言描述与视觉感知协同集成，显著增强了身体匹配能力。该方法利用预训练的CLIP模型来开发具有区分性的身体表征，从而有效地提高了识别准确率。

•质量引导的多模态融合：我们提出质量评估器（QE），这是一种评估模态质量的通用方法，以及一种由模态特定质量权重引导的可学习的分数融合方法，称为质量引导的分数融合专家混合模型（QME），以提高分数融合性能。

• 开放集搜索：我们引入了一种新的训练策略[18]，该策略明确地纳入了非配对主体。这种方法使训练目标与开放集条件对齐，从而使模型能够区分已注册身份和未知身份。因此，它显著提高了开放集识别的准确性，同时也通过更好的泛化能力增强了封闭集性能。

• 系统集成：我们整合了若干系统级增强功能，包括：i) 自动化多GPU容器化，使每个GPU能够独立处理客户端请求；以及 ii) 支持多主体探针视频，允许单个输入生成多个主体跟踪条目。

总而言之，我们提出的FarSight系统的贡献包括：

采用基于双YOLO的检测方法，结合我们的PSR-ByteTrack，实现稳健、准确和低延迟的多目标检测和跟踪。

一个物理信息驱动的视频恢复模块（GRTM），它显式地对大气湍流进行建模，并集成了一个任务驱动、识别感知的优化框架，以增强保持身份的图像质量。

针对面部、步态和体型的有效特征编码，并由大型视觉模型框架增强。
该方法整合了一种新颖的开放集搜索和多模态特征融合方法，显著提高了各种场景下的识别性能。

依照API规范的更新，实现可扩展的系统集成，该集成具有自动化的每GPU多处理能力，并支持多被试探针处理。

对BRIAR数据集（协议v5.0.1）进行全面评估，并通过2025年NIST RTE视频人脸评估（FIVE）[19]进行独立验证，证实了FarSight在真实条件下运行的生物特征识别方面的最先进性能。

2 相关工作

全身人体识别。全身人体识别整合了多种生物特征，如面部、步态和体型，以在具有挑战性的场景中实现最先进的识别精度。这种整体方法与传统生物识别系统形成鲜明对比，后者通常侧重于单一模态[20]–[28]。通过整合多种模态，FarSight克服了单个特征的局限性，同时利用了它们的互补优势。例如，当面部识别在严重的姿势变化和不良光照条件下会遇到困难时，步态分析可能会受到行走速度和服装变化的影响。类似地，体型提供了持续的线索，但可能会因服装和姿势的变化而改变。最近的研究[1]，[5]，[6]越来越多地采用整合检测、图像恢复和生物特征分析的整体系统。然而，许多现有系统仍然依赖于在受限数据集上训练的相对小规模网络，并且未能充分利用不同生物特征模态和系统组件之间的潜在协同作用。这促使我们开发一个集成系统，该系统在整个识别流程中进行联合优化。我们的工作建立在这一趋势之上，通过将大型视觉模型、任务感知恢复、开放集训练和自适应多模态融合整合到一个可扩展的端到端系统中，并在真实世界环境中进行评估。

湍流成像的物理建模。大气湍流是远程和高空人员识别中图像退化的主要来源，严重影响视觉清晰度和生物识别准确性。这一挑战需要逼真的模拟方法，以支持训练产生稳健的识别系统，并支持开发有效的恢复算法。模拟技术范围广泛——从基于计算光学的物理模型[29]（以计算成本为代价提供高保真度），到基于计算机视觉的方法[30]（优先考虑效率但通常缺乏物理基础）。中间方法包括基于亮度函数的模拟[31]和基于学习的技术[32]，尽管后者与运行时约束不同，尤其是在深度学习设置中[33]。为了平衡真实性和效率，我们采用了一种基于Zernike多项式表示的随机相位畸变的湍流模型。我们的方法通过将数值导出的卷积核应用于清晰图像并注入白噪声来合成湍流效应，从而产生逼真的退化观测结果。

用于生物特征识别的图像恢复。生物特征识别依赖于从各种视觉输入中提取鲁棒特征。当图像质量欠佳时，恢复技术可以提高图像的保真度，进而提高识别性能。然而，这些方法可能会通过臆造特征而无意中改变身份，或者通过引入伪影而降低准确性。此外，传统的恢复流程通常针对诸如PSNR或SSIM等感知指标进行优化，这些指标不能很好地反映识别准确率[34]–[37]。在大气湍流下，重建已被发现是有益的[38]。虽然这些努力主要依赖于单帧数据，但多帧湍流缓解可以带来更稳定和可靠的恢复[39]，[40]。相比之下，FarSight引入了一个确定性的多帧恢复框架，该框架与生物特征识别准确率目标共同优化。该策略将恢复与识别准确率显式对齐，在减轻视觉幻觉风险的同时，保留身份特征。

行人检测与追踪。在多个帧中检测和关联行人对于开发精确的行人识别系统至关重要。早期方法[41]，[42]使用基于R-CNN的检测器，该检测器具有多个头部，用于独立的身体和面部检测，然后是一个匹配模块。BFJDet [11]提出了一个框架，用于转换任何单阶段或双阶段检测器以支持身体和面部检测。最近，PairDETR [43]使用受DETR启发的二分框架来匹配身体和面部边界框。FarSight [1]使用Faster R-CNN [44]来联合检测人体和面部。由于实时检测算法的最新进展，特别是YOLO系列[13]，[45]–[47]，BPJDet开发了一种使用YOLOv5 [45]的联合检测算法和一个关联解码来匹配身体和面部。Farsight利用BPJDet作为主要检测器，并使用YOLOv8 [13]来消除错误的身体检测。

图 2：所提出的 FarSight 系统概述，该系统包含四个模块：（i）多目标检测与跟踪；（ii）识别感知图像恢复；（iii）面部、步态和体型的模态特定编码；以及（iv）质量引导的多模态生物特征融合。

通过关联（边界框或分割掩码）进行跟踪是一种成熟的多目标跟踪方法 [14], [48]–[50]。在关联范式下，ByteTrack [14] 缓存低置信度的边界框，从而为高置信度和低置信度的检测提供准确的跟踪器。由于其在多目标跟踪方面的出色性能，我们使用 ByteTrack 作为我们的基础跟踪器，并配备了具有外观感知能力的基于补丁的后处理技术，以实现准确的 track-id 分配，从而实现稳健的行人识别。

多模态生物特征融合。分数层融合是多模态生物特征识别系统中一种广泛使用的方法，其中来自个体模态（如面部、步态或体型）的相似度分数被组合起来，以形成最终的个人识别决策。传统技术包括基于归一化的方法（例如，Z-score、Min-Max），然后进行均值、最大值或最小值分数融合[51]。基于似然比的方法[52]也被提出，以提供概率可解释性。尽管这些融合方法很简单，但它们通常无法解释模态特异性的可靠性或输入中动态的质量变化。一个关键的挑战在于确定真实世界中个体内部差异下的最佳模态对齐和加权。最近的一些工作已经转向特征层融合[53]，结合跨模态（例如，面部和步态）的信息，以利用跨模态相关性。然而，这些方法可能受到表示不兼容或缺乏对缺失模态的鲁棒性的影响。为了解决这些局限性，我们的方法引入了一种质量引导的分数融合框架，该框架根据探针的估计质量动态地权衡每个模态的贡献。

开放集生物特征搜索。开放集搜索是全身生物特征识别系统中的一项关键需求，其中探针必须与已注册的主体进行匹配（如果存在），或者如果未在图库中注册，则将其拒绝。尽管其具有重要的实际意义，但先前在全身生物特征识别方面的大部分工作都集中在封闭集识别上，而很少关注显式建模开放集动态。一种常见的基线是极值机（EVM）[54]，它估计探针属于每个图库主体的可能性，并拒绝低置信度的匹配。在我们的工作[18]中，我们引入了一种训练策略，该策略通过在训练期间纳入非配对身份来显式模拟开放集条件。训练和评估之间的这种对齐提高了泛化能力，并提高了在开放集和封闭集场景中的性能。

3 提出的方法

3.1 FarSight系统概述

如图2所示，所提出的FarSight系统由四个紧密集成的模块组成：多目标检测与跟踪、识别感知图像恢复、模态特定特征编码（面部、步态和体型）以及质量引导的多模态融合模块。这些组件在一个统一的端到端框架内进行协调，旨在解决第节中概述的现实挑战。1——即远距离捕获、姿势变化、图像质量下降和域偏移。

该系统针对可扩展性和效率进行了优化，可处理约 99,000 张静态图像和 12,000 个视频轨道，同时在使用 NVIDIA RTX A6000 GPU 的情况下，在 1080p 视频上保持 7.0 FPS 的端到端处理速度。它支持动态批量大小调整以进行 GPU 资源管理，并通过基于 Google RPC 构建的 API 与外部系统通信。视频输入通过配置文件指定，提取的生物特征以 HDF5 格式导出，用于下游评估和评分。识别流程始于人员检测和跟踪。对于每个轨迹片段，裁剪后的帧被传递到步态和体型编码器。同时，面部区域在进入面部编码器之前会进行修复，以减轻退化。每个探针包含单个视频片段，而图库注册（由多个视频和静态图像组成）被聚合为每个模态的单个特征向量。

3.2 多目标检测与跟踪

3.2.1 行人检测

为了在无约束的设置下实现可靠的主体定位，我们采用了一种双检测器策略，该策略结合了BPJDet [12]和YOLOv8 [13]，以实现稳健的身体-面部检测。BPJDet作为主要检测器，独立预测身体和面部边界框，并通过计算内部IoU（定义为候选身体-面部对之间的交集与面部边界框面积之比）来关联它们。

在开发过程中，我们观察到BPJDet在存在干扰对象（例如，交通锥或机器人装置）时偶尔会产生假阳性，这对下游生物特征编码产生负面影响。为了缓解这个问题，我们引入了一个使用YOLOv8 [13]的验证步骤。具体而言，只有当YOLOv8也检测到置信度阈值为0.7的相应人体时，才会保留来自BPJDet的检测结果。此交叉验证步骤可显著减少假阳性，而不会影响召回率。在进行人体-面部检测之后，使用我们下文描述的PSR-ByteTrack跟踪器，在各个帧中对对象进行时间关联。

吞吐量优化。虽然BPJDet和YOLOv8的朴素集成是准确的，但由于冗余的预处理，引入了计算瓶颈。两种检测器共享相似的输入转换，导致冗余的CPU操作和次优的GPU利用率。为了解决这个问题，我们实现了两个关键的优化：（i）一个统一的预处理流程，以消除检测器之间的共享步骤；（ii）一个GPU高效的流程，从而减少CPU负载。这些改进在单个GPU上实现了5倍的吞吐量提升，而没有影响检测精度。

3.2.2 人员跟踪

对于多目标跟踪，我们以ByteTrack算法[14]为基础，该算法采用两阶段关联机制——首先关联高置信度检测结果，然后关联低置信度检测结果。虽然ByteTrack在一般条件下表现良好，但我们观察到其在远距离监控设置中存在两个主要限制：（i）遮挡期间频繁的ID切换，以及（ii）当重新识别暂时离开并重新进入场景的主体时，出现碎片化的轨迹。为了解决这些问题，我们引入了基于块相似性检索的ByteTrack（PSR-ByteTrack），这是一个基于块的后处理框架，它使用基于外观的重识别来改进ByteTrack的输出。

图 3：FarSight 中多目标检测和跟踪的概述。一种双检测器方法结合了用于身体-面部定位的 BPJDet [12] 和用于抑制假阳性的 YOLOv8 [13]。然后使用 PSR-ByteTrack [14] 跨帧关联检测到的目标，该方法通过基于补丁相似性的检索和轨迹 ID 校正来改进 ByteTrack 的输出。这确保了在遮挡、目标重入和远距离退化情况下的持续跟踪。

如图3所示，我们维护一个补丁记忆库，其中每个条目对应于一个跟踪ID，并包含来自身体补丁的ResNet-18 [55]编码的特征。流程如下：（i）使用身体检测从ByteTrack获得初始轨迹。（ii）对于每个新的检测，如果关联的跟踪ID在记忆库中尚不存在，则我们存储其补丁特征。（iii）每隔
N
帧，追加新的补丁以考虑时间外观变化。（iv）对于每个传入的补丁，我们计算与记忆库中存储的特征的均方误差（MSE），并分配具有最低误差的跟踪ID，前提是相似度超过预定义的阈值。（v）与所有现有条目的相似度较低的检测被视为新对象，并分配新的ID。

3.3 识别感知视频修复

3.3.1 大气湍流建模与仿真大气湍流造成的图像退化是远程人脸识别中的一个关键挑战，它引入了空间和时间上变化的模糊。这种失真的严重程度受到传播距离、相机参数和湍流强度的影响 [56]，[57]。为了训练在这种条件下具有鲁棒性的模型，我们使用基于泽尼克多项式湍流模拟的无退化图像对进行合成 [33]，[58]，[59]，应用于静态 [60] 和动态 [61] 场景 [62]。我们的模拟涵盖了一系列湍流强度（例如，D/r0 ∈ [1, 10]) 和相机配置（例如，f-数、传感器尺寸），提供了与 FarSight 真实世界采集对齐的各种训练数据。

3.3.2 GRTM网络和选择性恢复为了增强严重大气畸变下的面部图像，我们设计了一种高效的门控循环湍流缓解（GRTM）网络，该网络基于最先进的视频湍流缓解框架DATUM [40]。为了提高效率和鲁棒性，我们移除了[40]中的光流对齐，因为它需要大量的计算资源，并且可能会引入伪影，从而损害下游的识别任务。为了进一步减少恢复伪影可能造成的负面影响，我们采用了一个在真实视频及其恢复对上训练的视频分类器，以指示恢复是否可能提高识别性能。

3.3.3 恢复与识别的协同优化传统的恢复模型通常优化通用的视觉指标（例如，PSNR、SSIM），这些指标与生物识别的目标不一致，并且可能会产生改变身份的幻觉特征。为了克服这个问题，我们提出了一个恢复-识别协同优化框架，如图4所示。该框架采用教师-学生配置，其中冻结的教师模型提供高质量的视觉参考，而学生模型经过微调，以共同优化视觉保真度和身份保持。

形式上，此协同训练过程的组合优化目标定义如下：

其中Ldistill是蒸馏损失，通过最小化教师和学生修复模型输出之间的距离来保持原始的修复能力，从而有效地保持修复图像的视觉质量和真实感。同时，Ladaface[21]将特定于生物特征的人脸分类损失引入到协同训练过程中。该组件明确地引导修复模型增强有助于提高身份区分能力的面部特征。

所提出的联合优化策略使得每个恢复和对齐的帧都能在视觉质量和身份保持方面得到评估。通过迭代反馈，恢复模型学习优先考虑对准确生物特征识别至关重要的视觉特征，同时抑制可能引入歧义或身份漂移的细节。与强调感知吸引力的传统方法相比，我们的方法确保恢复不仅在视觉上连贯，而且还经过优化以提高识别性能。

3.4 基于大型视觉模型的增强型生物特征编码

3.4.1 面部

传统的面部识别模型通常难以提取有意义的面部特征，特别是由于它们依赖于正确对齐的面部图像。为了解决这一局限性，我们引入了关键点相对位置编码（KP-RPE）[15]机制，该机制直接操纵视觉Transformer（ViT）模型中的注意力机制。通过编码面部关键点的相对位置，KP-RPE增强了模型对未对齐和未见几何仿射变换的鲁棒性。

相对位置编码 (RPE)。相对位置编码 (RPE) 最早于 [63] 中提出，并在 [64]、[65] 中得到改进，它对序列相对位置信息进行编码，以增强自注意力机制。与绝对位置编码不同，RPE 考虑输入元素之间的相对空间关系，使其特别适用于视觉和语言任务。改进的自注意力机制将相对位置嵌入 RQ ij、RK ij和 RV ij纳入查询-键交互中，其中每个 Rij都是一个可学习的向量，用于编码第 i 个查询和第 j 个键或值之间的相对距离。这些嵌入允许基于序列相对距离而不是固定位置来调整注意力分数。已经探索了各种距离度量，例如量化的欧几里得距离。来计算这些关系 [66]、[67]。

图 4：所提出的恢复-识别协同优化框架的训练流程。孪生模型和我们的人脸识别模型之间的蒸馏损失有助于我们定义人脸识别模型的损失。如图所示，并非所有帧都可能有检测结果，只有具有检测结果的帧才会在 Ladaface中使用。

关键点相对位置编码（KP-RPE）通过将关键点信息纳入位置偏置矩阵 Bij中，从而改进了传统的RPE。矩阵 Bij被定义为关键点的函数：Bij = F(P)[d(i, j)]，而不是使距离函数 d(i, j) 显式地依赖于关键点，因为这会由于预计算约束而限制效率。函数 F(P) 将关键点转换为可学习的偏移表，确保注意力机制能够根据关键点相关的关系进行调整。最终的公式通过允许偏移函数相对于查询-键位置和关键点，从而增强了标准RPE。这使得RPE能够依赖于图像内容的位置，从而使模型对不对齐具有鲁棒性。在图 5 中，我们提供了KP-RPE的说明。

3.4.2 步态

传统的步态识别方法主要依赖于由监督学习驱动的多个上游模型来提取显式的步态特征，例如轮廓和骨骼点。我们打破了这一趋势，推出了BigGait [16] 方法，该方法利用强大的大型视觉模型 (LVM) 生成的通用知识来取代传统的步态表示。如图 6 所示，我们设计了三个分支，以无监督的方式从 LVM 中提取与步态相关的表示。这种前沿的步态方法在域内和跨域评估中均实现了最先进的性能。

图 5：关键点相对位置编码 (KP-RPE) 的说明 [15]。在标准 RPE 中，注意力偏移偏差是基于查询
Q和键 K之间的距离计算的。在 KP-RPE 中，RPE 机制通过结合面部关键点位置得到进一步增强，从而使 RPE 能够动态调整到图像的方向和对齐方式。

BigGait 并行处理输入 RGB 视频的所有帧。为了保持准确的身体比例，它应用了一种 Pad-and-Resize 技术，在将每个检测到的身体区域输入到上游模型之前，将其调整大小为 448 × 224 像素。上游 DINOv2 [68] 是一个可扩展的 ViT 主干网络，选择 ViT-S/14 (21M) 和 ViT-L/14 (302M) 用于 BigGait-S 和 BigGait-L。调整大小后的 RGB 图像被分割成 14 × 14 的图像块，从而产生维度为 32 × 16 的标记化向量。如图 6 所示，
f1、f2、f3和 f4 是由 ViT 主干网络的各个阶段生成的特征图，其对应的语义层次结构从低到高。我们将这四个特征图沿通道维度连接起来，形成 fc。形式上，特征图 f4和 fc通过 MaskAppearance 和 Denoising 分支进行处理。

掩码分支。此分支充当一个自编码器，生成前景掩码以使用 f4:抑制背景噪声。

其中E和D表示线性卷积层，其卷积核大小为1 × 1，输出通道的维度分别为2和384。然后，使用前景掩码m来屏蔽fc中的背景区域，从而产生前景分割特征fm:

其中“·”表示乘法运算符。

外观分支。该分支从fm:中提取身体形状特征。

图 6：BigGait [16] 的工作流程。我们采用 DINOv2 [68] 作为上游模型来生成特征图：
f1、f2、f3、f4，这些特征图来自 ViT 主干网络的不同阶段，具有从低到高的语义层级结构。步态表示提取器 (GRE) 包含三个分支，分别用于背景去除、特征转换和去噪。改进的 GaitBase 用于步态度量学习。

其中 Eap是一个线性卷积层，具有 1 × 1 的卷积核和 C的输出通道维度。

去噪分支。为了抑制高频纹理噪声并获得类似骨骼的步态特征，该分支采用了平滑度损失
Lsmo和多样性损失Ldiv。具体而言，平滑度损失为：

其中Ede包含一个非线性块，该块由一个1 × 1卷积、批归一化、GELU激活以及随后的另一个1 × 1卷积组成。多样性损失为：

其中fdei表示第i个通道的激活图，而pi是第i个通道的激活比例，相对于所有通道的总激活。常数项
(logC)表示最大熵，包含该项是为了防止负损失。最后，我们使用注意力权重融合fap和fde

其中Attn是一个注意力模块，遵循[69]，并且ffusion将被送入GaitBase [22]。

3.4.3 身体形态

为了克服诸如衣着和颜色等基于外观的属性的局限性，我们引入了 CLIP3DReID [17]，这是一种显著增强人体形状特征编码的新方法。如图 7 所示，该方法利用预训练的 CLIP 模型进行知识蒸馏，整合语言描述与视觉感知，以实现稳健的行人识别。CLIP3DReID 自动使用语言描述符标记人体形状，采用最优传输来对齐局部视觉特征与来自 CLIP 语言输出的形状感知令牌，并将全局视觉特征与来自 CLIP 图像编码器和 3D SMPL 身份空间的特征同步。这种整合在行人重识别（ReID）中实现了最先进的结果。

图 7：所提出的 CLIP3DReID [17] 概述，其由基于 CLIP 的语言身体形状标注、来自 CLIP 的双重蒸馏以及 3D 重建的正则化组成。将这三个模块整合到行人 ReID 框架中，使我们能够学习具有区分性的身体形状特征。

形式上，对于每个包含B个训练样本的小批量数据，记为{(Ii, yi, Li)}B i=1，输入包括人体图像Ii，图像的身份标签yi，以及一组描述体型的语言描述符Li。我们将预训练且冻结的CLIP教师文本和图像编码器分别表示为EL和EI。我们优化的重点是学生的视觉编码器，表示为E。

源于CLIP的双重提炼。CLIP3DReID采用了一种双重

CLIP模型文本和图像组件的蒸馏方法。这涉及到使用最优传输对齐学生编码器的视觉特征与CLIP生成的语言描述。这种对齐优化了学习过程，使学生编码器能够内化领域不变的特征，这些特征对于在不同条件下保持一致的识别性能至关重要。

图 8：所提出的开放集损失 [18] 的可视化。Rτdet 的情况如图顶行所示，阈值由非匹配样本
nj 确定。梯度 ∂Lopen/∂pi 在其与图库 gi的距离和与 nj的距离相似时具有最大幅度。对于相对阈值最小化，如图底行所示，随着非匹配样本 n2远离图库，其梯度减小。而 n1保持在相同位置，其梯度增加，因为它比 n2更接近 gi。关于真值分数的梯度适应于非匹配分数，而关于非匹配分数的梯度适应于其他非匹配分数。

3D重建正则化。如图7所示，我们采用了一种新颖的3D重建正则化方法，该方法利用从SMPL模型导出的合成人体形状。该技术强调学习跨不同领域的不变特征，从而显著提高我们模型的泛化能力。合成网格图像及其生成的语言描述符用于进一步完善模型辨别和重建精确人体形状的能力

3.4.4 开放集搜索

如图8所示，我们处理三种类型的错误：（1）未能以阈值τ检测到已配对的探针，（2）未能在前r个位置中识别出已配对的探针，以及（3）为未配对的探针分配了非常高的相似度分数。

此损失会惩罚检测和识别方面的失败。（3）相对阈值最小化。为了减少假阳性，我们使用其加权平均值来惩罚较高的未配对分数：

其中λ控制着权衡。这种表述使优化与开放集评估相一致，从而降低阈值，并利用非匹配的分数幅度进行稳健的特征学习。

为了优化模型以区分评估过程中图库中的近距离数据和探测中的远距离数据，我们对三元组损失进行如下修改。在标准三元组损失中，近距离和远距离数据都可以作为锚点、正样本和负样本。我们对此进行了调整，限制近距离数据仅作为锚点，而远距离数据则专门用作正样本和负样本。

3.5 质量引导的多模态融合

表1：BRIAR研究集合（BRC）训练数据集概述，包括政府集合训练集（BRIAR-BRC）以及来自五个不同的BRIAR执行团队（MSU、Accenture、Kitware、USC和STR）的贡献。

图 10：应用 PSR-ByteTrack 前后跟踪性能的比较。在较早的帧（第 110 帧）中，我们可以看到探针中有三个对象。在遮挡之后（第 220 帧），在第 240 帧中可以明显看出 ByteTrack 存在 ID 切换的问题。然而，我们的 PSR + ByteTrack 跟踪器能够正确地将边界框与适当的对象相关联，从而减轻了 ID 切换的问题。

（a）探针统计

（b）简单画廊统计

表 2：BRIAR V5.0.1 评估协议：探测图像和图库统计信息。虽然混合图库最初旨在更具挑战性，但在 V5.0.1 中，它通常会产生更高的性能，因为它包含高质量的证件照式裁剪图像。相比之下，简单图库更好地反映了无约束的真实世界注册。

4 个实验

所有实验均在使用 PyTorch 2.2.2 的可配置容器化环境中进行。我们使用 8 个 NVIDIA RTX A6000 GPU（每个 48 GiB VRAM），部署在配备 AMD EPYC 7713 64 核或 Intel Xeon Silver 4314 32 核处理器的双路服务器上。

BRIAR数据集和协议。我们使用完整的IARPA BRIAR数据集[8]进行实验，其中包括所有五个生物特征政府收集数据集（BGC1–5）。这些数据集涵盖了广泛的条件——不同的距离（高达1000米），升高的视角（高达50◦)），以及多样的环境（城市、半结构化和开放场地）——使其非常适合评估无约束的全身生物特征识别。除了政府收集的数据外，BRIAR数据集还包含了来自五个BRIAR执行团队在其各自地点贡献的训练数据：Accenture、Kitware、MSU、USC和STR。每个BGC数据集被划分为BRC（训练）和BTC（测试）子集。表1总结了所有六个来源的训练数据，总共包含3,194个独特的对象。

训练数据：面部、步态和体型的特征编码模型分别使用针对每种模态定制的不同数据集进行训练：

面部模型：如表1详述，训练利用来自所有BGC集合的BRS子集，涵盖来自3,194个不同对象的数百万张图像和视频帧的数据。我们进一步使用WebFace12M数据集[71]来扩充此集合。

步态和体型模型：除了来自所有 BGC 集合的 BRS 子集外，步态和体型模型的训练还整合了 CCGR [72] 和 CCPG [73] 数据集。这些额外的公共领域数据集增强了我们的模型在各种真实条件下准确编码步态和体型特征的能力。

测试数据：我们的评估采用了BRIAR测试集（BTS），与评估协议V5.0.1（EVP 5.0.12）对齐，并在表2中详细说明。该子集有条不紊地组织成图库和探测数据集，以满足我们在测试框架中的特定角色。图库旨在评估识别能力，由两种不同的设置组成：图库1和图库2。探测数据集是

2. EVP 5.0.1 包含两种图库配置：简单和混合。除非另有说明，否则我们使用简单图库设置报告结果，这是 BRIAR 评估中常用的标准配置。

分为控制和处理两种情景。控制类别包括来自BGC视频的片段，在这些片段中，面部或身体身份最容易识别，作为评估基线算法性能的基准。相反，处理类别包含识别面部或身体特征更具挑战性的片段，反映了BRIAR协议设想的主要评估条件。这些类别（控制和处理）中的每一个都进一步细分为“包含面部”和“限制面部”两种情景。“包含面部”情景侧重于评估面部识别能力，而“限制面部”情景用于评估身体和步态识别，或所有三种生物识别模式的多模态融合的性能。

表 3：数字表示在分辨率为 896×1536 的情况下处理单对象探针视频时实现的平均帧率（FPS）。测量是在 NVIDIA A100-80GB GPU 上进行的，批次大小（bs）为 1 和 8。优化包括合并冗余预处理并将预处理移至 GPU。最后一行显示，基于 GPU 的预处理在单个 GPU 上可实现高达 5.26 倍的加速，在 8 个 GPU 上可实现 16.5 倍的加速。*由于 CPU 争用，8 个 GPU 上基线的吞吐量略有下降。

包含人脸控制：包含可见人脸，其头部高度至少为20像素，从地面水平拍摄，近距离小于75米。

面部包含处理：包含具有相同像素要求的可见面部，这些面部是从长距离或高角度捕获的，包括无人机。

面部受限控制：包含面部被遮挡、分辨率低或因其他原因无法使用的数据，这些数据是从地面近距离拍摄的。

面部受限处理：与上述类似，但从长距离或高角度（包括无人机）捕获。

对于部分实验，我们还报告了在评估协议V4.2.0（EVP 4.2.0）下的结果——它是V5.0.1的一个子集——其中评估仅限于早期的数据发布（例如，BGC1和BGC2）。这允许进行传统基准测试，并与先前发布的基线进行直接比较。

评估指标。遵循BRIAR项目目标指标[74]，我们使用以下指标评估我们的系统：验证（TAR@0.01% FAR）、封闭集识别（Rank-20 准确率）和开放集识别（FNIR@1% FPIR），从而能够全面检查FarSights在各种设置下的性能。

基线。对于人员识别评估，我们以多个基准系统来衡量我们的系统，以便将性能置于上下文中。首先，我们将当前的FarSight与原始的FarSight系统[1]（称为FarSight 1.0）进行比较，以突出显示我们更新框架中引入的改进。其次，我们报告来自2025年NIST RTE视频人脸评估（FIVE）[19]的独立验证结果，该评估使用BRIAR数据集提供人脸识别系统的标准化评估。在此评估中，我们的系统将与另一个表现最佳的IARPA BRIAR团队以及该领域的两个领先商业生物识别系统进行比较。

表 4：在 EVP 4.2.0 简化协议上使用包含面部的处理探针集（来自 367 个受试者的 7,642 条轨迹）和图库 1（184 个受试者，4,970 个视频，77,591 张静态图像和 490 个干扰项）的面部识别结果。各列报告以下性能：1:1 验证（TAR@0.1% FAR），1:N 封闭集识别（Rank-20）和 1:N 开放集识别（FNIR@1% FPIR）。“GRTM”指的是我们的门控循环湍流缓解恢复模型，“vidcls”添加了一个基于视频的分类器来跳过不必要的恢复，而“Co-optimized”表示与识别损失的联合训练。

4.1 评估与分析

4.1.1 检测与跟踪

PSR-ByteTrack 的有效性。我们对 ByteTrack 框架 [14] 的增强在处理多主体探测方面产生了显著改进，特别是在减少身份切换错误方面。如图 10 所示，在第 110 帧的初始跟踪显示了三个不同的主体。到第 220 帧，发生了一个具有挑战性的遮挡，其中边界框重叠。因此，在第 240 帧，ByteTrack 遭受了 ID 切换错误，而我们的 PSR-ByteTrack 由于基于外观的轨迹 ID 校正后处理，在整个序列中保持了正确的主体-边界框关联。

检测期间的优化吞吐量。我们在一台NVIDIA A100-80G超平面上，使用分辨率为896 × 1536的单对象探针测试我们对管道的改进。如表3所示，我们观察到我们的系统优化具有双重优势。首先，正如预期的那样，我们观察到吞吐量随着每次更新迭代而增加。在批量大小为8的单个GPU的情况下，我们观察到在合并冗余预处理步骤后速度提高了3.13倍，随后基于GPU的预处理速度提高了5.26倍。其次，我们观察到将预处理转移到GPU具有减轻CPU瓶颈的额外效果，从而实现了几乎线性的吞吐量扩展。在此，线性扩展是指问题规模的增加与吞吐量的增加之间的线性相关性，从而证明不存在任何显着的瓶颈。这不仅提高了检测-跟踪子模块的吞吐量，而且还释放了CPU内核，供FarSight系统中的其他子模块使用。

表5：在BRIAR评估协议V5.0.1上的人员识别结果，比较了FarSight（当前系统）与我们之前的系统FarSight 1.0在各个生物特征模态（面部、步态、体型）及其融合方面的表现。最后一行（FarSight）表示使用我们的质量引导融合策略对所有三种模态进行融合。FaceIncluded指的是面部可见的探测片段（头部高度≥20像素），而FaceRestricted则排除了由于遮挡、距离或分辨率等原因导致面部不可见的片段。结果基于Treatment Probe Set（424个受试者，1,619个视频轨迹，1,339个视频，362,210帧）和Simple Gallery配置（424个受试者，675个干扰项，99,007张静止图像，12,264个轨迹，6,975,748帧）。指标表示1:1验证（TAR@0.1% FAR），1:N封闭集检索（Rank-20）和1:N开放集识别（FNIR@1% FPIR）。

4.1.2 湍流缓解与图像恢复

我们通过分析我们提出的复原策略对大气湍流下人脸识别的影响来评估其有效性，如表4所示。

基线。我们的系统在没有任何修复的情况下处理未经校正的视频帧。这产生了62.9%的TAR@0.1% FAR，87.3%的Rank-20准确率，以及52.4%的FNIR@1% FPIR，从而确立了我们的基线。

基于物理的复原。我们的门控循环湍流缓解（GRTM）模型在三个指标中的两个上有所改进——将TAR提高到63.5%（从62.9%），并将FNIR降低到51.6%。虽然Rank-20略微下降到86.5%（从87.3%），但验证增益表明其对湍流引起的失真具有更好的鲁棒性。

选择性激活的恢复。当GRTM与视频分类器（GRTM + vidcls）结合使用时，该分类器仅在被认为有益时才触发恢复，结果进一步提高到63.6%的TAR和50.1%的FNIR，Rank20恢复到87.7%。

实施范围。为了管理计算成本，修复仅应用于填充的面部裁剪区域，而非完整的视频帧。此策略确保专注于最具身份信息的区域，同时保持运行时效率。尽管此分析针对人脸识别，但如果需要，该协同优化框架可以推广到其他模态。

4.1.3 人员识别性能

以下结果基于完整的FarSight系统，该系统整合了所有关键模块，包括开放集搜索和质量引导的多模态融合。每种生物识别模态——面部、步态和体型——都显示出比之前的系统（即FarSight 1.0 [1]）有显著的性能提升。我们使用BRIAR评估协议v5.0.1评估了它们的各自贡献，并在表5中总结了这些发现。

面部。更新后的面部特征编码模块在所有指标上都取得了显著的改进。与EVP 5.0.1的面部包含处理集上的FarSight 1.0 [1] 相比，所提出的FarSight将验证TAR@0.1% FAR从48.5%提高到66.4%，Rank-20识别从63.6%提高到80.0%，并且FNIR@1% FPIR的开放集性能从69.7%降至57.1%。这些提升反映了KP-RPE增强的视觉Transformer [15] 和我们识别感知的恢复模块的影响。

步态。步态特征编码模块在包含面部的处理集上表现出最显著的改进，这得益于BigGait [16] 模型的引入。验证性能从18.9%提高到66.3% (TAR@0.1% FAR)，Rank-20识别率从49.5%上升到93.2%，FNIR@1% FPIR从96.7%下降到75.9%。这些结果反映了该模型利用大型视觉模型提取鲁棒步态特征的增强能力，尤其是在具有挑战性的跨域条件下。

体型。体型特征编码模块在包含面部的处理集上也表现出显著的增益。验证（TAR@0.1% FAR）从19.3%提高到55.4%，而Rank-20识别率从54.9%提高到82.9%。FNIR@1% FPIR从98.0%显著下降到83.1%，表明在开放集场景中可靠性得到提高。这些改进主要归功于CLIP3DReID [17]模型，该模型融合了语言线索和视觉表示，并利用3D感知监督来增强身体特征学习。

图 11：封闭集验证中成功和失败的示例。每对图像显示了一个探测图像（右）及其匹配的图库图像（左），以及相似度得分。匹配是根据 0.79 的阈值进行评估的，该阈值对应于 0.1% 的错误接受率 (FAR)。所示图像已获得主题出版许可。

多模态融合。虽然每种模态都显示出显著的个体改进，但当融合时，它们的互补优势变得更加明显。在我们的完整系统设置中，FarSight 在 Face-Included Treatment 数据集上实现了 83.1% 的 TAR@0.1% FAR，95.5% 的 Rank-20 准确率和 44.9% 的 FNIR@1% FPIR，显著优于原始的 FarSight 1.0。

搜索结果的例证。为了进一步说明我们系统的优势和局限性，我们提供了封闭集和开放集行人识别结果的定性示例。如图11和图12所示，我们包括了真实匹配和冒名顶替匹配中具有代表性的成功和失败案例。这些例子展示了系统如何在距离、高度和服装变化等不同条件下处理身份匹配。值得注意的是，成功的匹配表现出很强的视觉相似性和对齐性，而失败的案例通常涉及具有挑战性的视角或模糊的外观。

独立验证：NIST FIVE 2025。为了评估在标准化测试下的泛化能力，FarSight的性能在2025年NIST RTE视频人脸评估（FIVE）[19]中进行了独立报告。该评估使用EVP 5.0.1混合图库进行，采用1:N开放集设置，图库中每个对象使用单张正面静态图像。如表6所示，FarSight实现了最佳的FNIR@1% FPIR（32%），优于两个商业系统——Sugawara-2（66%）和Azumane-2（53%）——以及STR（54%），后者与MSU是IARPA BRIAR计划第三阶段中剩余的两个表现者团队。这些由NIST直接报告的结果，进一步验证了FarSight在具有操作挑战性的场景下的稳健性。

图 12：开放集识别中成功和失败的例子。每对图像包括一个探针图像（右）和排名最高的图库匹配图像（左），以及匹配排名和相似度得分。使用 1.16 的开放集阈值来区分接受的匹配和拒绝的匹配。所示图像已获得主题出版许可。

表6：2025年NIST RTE视频人脸评估（FIVE）的FNIR@1% FPIR结果[19]，使用BRIAR EVP 5.0.1协议和混合图库（424个对象，679个干扰项，62,382张静态图像，22,134个轨迹，820万帧）以及处理探针集（424个对象，1,619个视频轨迹，1,339个视频，362,210帧）进行评估。结果报告的是1:N开放集识别任务，每个对象注册一张正面静态图像。

4.1.4 消融研究

为了更好地理解FarSight系统中各个组件的贡献，我们进行了消融实验，重点关注两个核心创新：（1）步态模块中的开放集损失公式；（2）多模态融合框架。

开放集损失在步态特征编码模块中的影响。我们将开放集损失公式仅应用于FarSight中的步态模态。表7比较了在使用EVP 4.2.0协议下，有和没有提出的开放集损失的步态模块的性能。包含开放集损失在4个评估指标中的3个上带来了可衡量的改进。最值得注意的是，验证性能（TAR@0.1% FAR）在面部受限场景中提高了5.7%，在面部包含场景中提高了3.2%。虽然Rank-20保持不变，但FNIR@1% FPIR降低了2.3%，反映了对未知身份的鲁棒性有所提高。这些结果验证了使用模拟开放集条件进行训练的有效性。

多模态融合策略评估。我们通过与FarSight中使用的简单分数级融合进行比较，进一步评估我们提出的质量引导专家混合（QME）融合策略的贡献。表8报告了EVP 4.2.0简化协议在包含面部和限制面部条件下的结果。我们基于QME的融合方法提高了验证性能（TAR）和开放集鲁棒性（FNIR），优于基线。值得注意的是，在包含面部的设置中，FNIR@1% FPIR提高了6.2%。这些提升突出了使用质量感知融合和模态特定权重优于简单分数聚合的有效性。

表 7：开放集损失函数在步态模块中对 EVP 4.2.0 的影响。

表 8：EVP 4.2.0 上多模态融合策略的比较。“QME”（质量引导的专家混合）指的是我们提出的方法，该方法基于 FarSight 中学习到的质量权重自适应地融合模态分数。

4.1.5 FarSight的公开训练版本

为了促进可重复性并方便更广泛的社区参与，我们推出了FarSight Public，这是我们的系统的一个版本，它仅在来自MSU-BRC数据集的公开可用数据上进行训练和评估。该数据集是IARPA BRIAR计划的一部分，可在3处访问。MSU-BRC数据集总共包含452个受试者（表1）。对于此基准测试，我们将数据划分为不相交的训练和测试设置。训练集由来自MSU-BRC版本2的228个受试者组成，而测试集由来自MSU-BRC版本1的109个受试者组成。我们定义了一个名为MSU 1.0的评估协议，其中包括从626个探测视频中提取的2,496个探测片段。图库包含1,309个不同的视频和11,815张静态图像，其中包含111个干扰身份，以模拟开放集条件。为了模拟服装变化，探测和图库媒体使用了不同的服装。

尽管MSU-BRC不如完整的BRIAR数据集那样多样化或具有挑战性，但它为外部验证提供了一个结构良好且易于访问的基准。我们在此训练集上重新训练整个FarSight系统，并使用定义的MSU 1.0协议评估其性能。表9总结了包含面部的治疗子集的结果。FarSight Public在各种模态中表现出强大的性能，尤其是在身体形状和融合模块方面具有很高的准确性。

4.2 系统效率

模板大小。模板大小指的是每个受试者为了生物特征匹配而生成和存储的数据量。表10总结了FarSight系统中每种模态的存储需求。（i）面部：对于面部特征编码，每个模板包含一个513维向量。前512维代表核心身份特征，而最后一维存储面部质量评分。假设使用32位浮点精度，则原始存储需求约为0.002 MB。（ii）步态：每个步态模板包含一个8192维特征向量，导致原始存储大小为0.031 MB。（iii）体型：体型表示被编码为一个2048维向量，原始存储大小为0.008 MB。（iv）组合：当所有三种模态——面部、步态和体型——都成功注册时，总原始特征大小约为0.041 MB。虽然这个原始大小反映了未压缩的数据表示，但实际部署通常涉及额外的元数据、索引结构和压缩机制。为了估计实际的存储需求，我们通过将已部署图库的总磁盘空间除以已注册模板的数量来计算平均磁盘大小。这产生了0.041 MB的有效模板大小，证实了该系统适用于可扩展的部署。

表 9：在 MSU-BRC 数据集上使用 MSU 1.0 协议的 FarSight 公开结果（包含面部的处理子集）。探针集包含来自 626 个视频的 2496 条轨迹，涉及 109 个受试者。图库包含 1309 个视频和 11815 张带有配对样本的静态图像，以及 111 个干扰身份用于开放集评估。指标反映了 1:1 验证（TAR@0.1% FAR）、1:N 封闭集识别（Rank-5）和 1:N 开放集识别（FNIR@1% FPIR）。由于图库规模较小，我们报告 Rank-5 而不是 Rank-20。

表10：每种模态和组合特征表示的模板大小。

处理速度。我们的FarSight系统的速度，总结在表11中，在受控条件下进行评估，以衡量模块级和系统级的效率。虽然该系统在部署期间被设计为异步和并发运行，但出于基准测试的目的，每个组件都以串行方式独立评估，以隔离性能特征。我们使用具有代表性的样本视频进行此评估，包括2400帧1080p和1200帧4K视频，每组视频均来自四个不同的对象。修复有选择地应用于检测到的面部区域。因此，没有检测到人脸的帧自然会减少修复和人脸识别模块的负载。此外，修复模块包含一个轻量级分类器，当认为修复不太可能提高识别率时，该分类器会绕过不必要的处理。

表11：FarSight的模块化处理速度，以每秒帧数（FPS）为单位，针对1080p和4K分辨率的探测视频。最后一列反映了所有模块并行运行时的有效吞吐量。所有基准测试均在8个NVIDIA RTX A6000 GPU（每个48 GiB VRAM）上使用PyTorch 2.2.2在容器化环境中进行。

4.3 未来研究

视频修复与协同优化。在我们的协同优化策略成功的基础上，我们计划将其扩展到其他模态（例如，步态、体型），探索修复和识别目标之间的自适应平衡，并整合不确定性估计以防止身份幻觉。我们还旨在设计轻量级的实时架构，适用于在操作环境中的边缘部署。

检测与追踪。我们计划将追踪任意点（TAP）模型[75]整合到FarSight流程中。通过提供跨帧的密集运动对应关系，TAP可以增强对细粒度时空特征的建模，尤其有利于在遮挡或快速运动下的步态分析。

生物特征编码。为了改进基于视频的人员识别，我们计划提出一种新的框架，该框架能够自适应地融合面部、体型、外观和步态线索。该系统利用双输入门控机制和混合专家设计，将根据视频内容动态地确定特征流的优先级，从而提高在各种场景中的识别鲁棒性。

多模态融合。我们的目标是进一步探索模态内部和模态之间的分数级融合策略。具体而言，我们计划研究基于深度学习的个体模态融合（例如，多个面部模型），并开发一种更通用的、可学习的路由网络，以取代基于固定质量的融合权重。这种方法可以提高面部识别和整体系统适应性。

5 结论

我们提出了FarSight，一个用于在远距离、无约束条件下进行全身生物特征识别的端到端系统。通过将基于物理的建模与深度学习相结合，贯穿四个集成模块——包括检测、识别感知恢复、模态特定编码和质量引导融合——FarSight解决了湍流、姿态变化和开放集识别等关键挑战。FarSight在BRIAR数据集上进行了评估，并经过2025年NIST RTE FIVE基准的独立验证，在验证、封闭集和开放集任务中均实现了最先进的性能。具体而言，与初步系统相比，我们的系统将1:1验证准确率（TAR@0.1% FAR）提高了34.1%，封闭集识别率（Rank-20）提高了17.8%，并将开放集识别错误率（FNIR@1% FPIR）降低了34.3%。该系统高效，满足模板大小约束，并包含一个基于发布数据训练的可复现的公开版本。FarSight为现实应用中下一代生物特征识别提供了坚实的基础。