（论文）一种基于部分欺骗音频检测的基于临时深度伪造位置方法的高效嵌入

news2026/3/14 7:00:11

AN EFFICIENT TEMPORARY DEEPFAKE LOCATION APPROACH BASED EMBEDDINGS FOR PARTIALLY SPOOFED AUDIO DETECTION摘要部分伪造音频检测是一项具有挑战性的任务在于需要在帧级别上准确地定位音频的真实性。时间性深度伪造定位( TDL )可有效地捕获特征和位置信息。包括嵌入相似性模块和时间卷积操作。为了有效地集中位置信息提出了时间卷积操作来计算相邻帧之间的帧特异性相似度并动态地选择信息丰富的邻居进行卷积。结论TDL方法在ASVspoof2019部分伪造数据集上优于基线模型并且在跨数据集实验中也表现出色。具体来说TDL在帧级别的真实性预测中表现优异能够准确识别真实语音。背景随着人工智能生成内容AIGC技术的快速发展尤其是在语音合成和语音转换等应用中伪造音频的安全威胁日益严重。现有的检测方法大多集中在完全伪造的音频上而对部分伪造音频的研究相对较少。部分伪造音频是指在真实语音中插入合成语音片段这种攻击方式可以轻易地改变句子的语义。在大多数数据集和挑战中一个重要的场景被忽略即一个真实的语音语句被合成的语音片段污染导致部分欺骗(PartialSpoof)。在整个PartialSpoof发展领域先有了两个数据集一个叫PartialSpoof使用SELCNN网络增强语音的准确性之后是有人使用Wav2Vec2作为前端ECAPA-TDNN作为后端在ADD 2022 Track 2中取得了第一名。上面方法并不能精确地定位特定的片段有人将之前的语音级部分伪造语音数据集标签扩展到帧级并提出了相应的基于W2V2的对抗策略来增强帧级检测能力。TDL——Wav2Vec2作为前端后端集中于细腻地定位虚假语音片段第一次使用嵌入相似度模块嵌入空间并得到高质量的嵌入相似度向量然后我们提出了时间卷积操作来从嵌入向量中定位区域。从嵌入中计算每个时间位置的局部相似性。获得一个特定于帧的权重来指导卷积进行时间敏感的计算。内容成果TDL方法主要包括两个核心模块嵌入相似性模块Embedding Similarity Module该模块旨在生成一个嵌入空间以便有效区分真实帧和伪造帧。通过这种方式可以获得高质量的嵌入相似性向量。时间卷积操作Temporal Convolution Operation该操作用于计算相邻帧之间的帧特定相似性并动态选择信息丰富的邻居进行卷积从而有效集中于位置信息。1.使用Wav2Vec - XLS - R从原始音频中提取帧级特征2. 设计了一个嵌入相似度模块来在嵌入空间中分离真实帧和合成帧在嵌入层面增强真假区分的识别3.为了捕获位置信息采用时间卷积操作通过关注相邻帧之间特定帧的相似性4.使用1D卷积层和全连接层对帧级标签进行下采样以计算二进制交叉熵一、W2V2 前端过在掩码特征编码器上解决对比任务进行训练首先不同长度的语音信号通过由七个卷积神经网络( CNN )层组成的特征提取器。随后使用包含24层、16个注意力头、嵌入大小为1024的Transformer网络获得上下文表示。二、嵌入相似度模块Embedding Similarity ModuleESM目的嵌入相似性模块的主要目的是在嵌入空间中有效区分真实帧和伪造帧。通过增强真实和伪造音频帧之间的相似性和差异性该模块能够提高模型的识别能力。首先使用W2V2Wav2Vec 2.0模型提取音频的特征。W2V2能够从多样的真实语音数据中学习到丰富的特征表示。嵌入向量生成提取的特征经过一个卷积模块由两个1D卷积层组成将嵌入维度从1024降到32并进行L2归一化生成嵌入向量。相似性计算使用余弦相似性来测量两个嵌入向量之间的相似度。通过计算真实帧之间、伪造帧之间以及真实帧与伪造帧之间的相似性确保真实帧在不同位置之间相似而伪造帧在不同位置之间也相似但真实帧与伪造帧之间则应保持不相似。余弦相似度来度量两个嵌入向量的相似度:损失函数设计了两个损失函数L_Real_ESM 和 L_Fake_ESM以最大化真实帧和伪造帧之间的距离从而提高模型的泛化能力。为了增加嵌入空间中真假帧之间的距离提高泛化能力我们计算了真帧之间、假帧之间以及真假帧之间的余弦相似度确保来自不同位置的真实帧表现出相似性来自不同位置的虚假帧表现出相似性而真实帧和虚假帧彼此不相似性使得不同位置的真实帧和虚假帧相似理解τsame 是同一类别帧的相似度阈值⌊ . . . ⌋ 表示零下限幅...虽然知道帧级真实性标签的位置但W2V2-XLS-R特征的时间维度并不与这些帧级标签内在地保持一致。分离真假帧τdiff为相似度阈值用于约束真假帧之间的距离最后嵌入相似度模块采用LESM进行优化三、时间卷积操作Temporal Convolution Operation为了有效地捕获位置信息通过动态选择邻近帧进行卷积计算从而增强模型对时间序列数据的处理能力输入特征将嵌入向量作为局部注意力掩码输入到时间卷积层。输入特征的维度为 X∈RDin×T其中 Din 是特征维度T 是帧数。其中fmt为输出特征向量的第m个通道的值⌊· · ·⌋表示向下取整操作[ · · ·]表示矩阵的切片( · )表示内积。X是经过近邻相似度计算处理的调制特征。其中矩阵a∈Rk × T是一个相似矩阵计算每个时间位置的局部相似性a[ i , t]表示第t个特征向量和它的k个邻居之间的相似性。在实际操作中邻居设置为1a[ i , t]、a[ i , t-1 ]、a[ i , t 1]之间进行相似度计算。动态卷积核时间卷积层学习一个动态卷积核 k∈Rk×Din×Dout其中 k 是卷积核的大小Dout 是输出特征的维度。卷积计算对于每个特征使用动态卷积核计算输出特征。卷积操作仅关注高权重区域从而提高计算效率。邻居相似性计算在实际操作中邻居的设置为1计算每个时间位置的局部相似性。通过计算当前帧与其邻近帧之间的相似性动态选择信息丰富的邻居进行卷积。在实际操作中根据ESM模块生成的嵌入向量来确定动态核权重。我们对两个序列1D - CNN上的W2V2特征进行时间卷积操作其中输入通道和输出通道都保持不变以保持时间维度上的一致性。四、总损失使用1D-CNN全连接层和sigmoid激活函数来计算BCEBinary Cross-Entropy损失。五、实验结果分析所有的度量都是基于部分欺骗音频的帧级真实性标签计算的。使用了基于点的二分类准确率召回率和Sklearn的F1分数。在任何评估之前根据特征的实际长度消除零填充。实验测试表明使用real 1fake 0标签的效果更好而且提出的模型复杂度更低。贡献点提出TDL方法一种适用于PartialSpoof场景的高效的ADD方法该方法结合了嵌入相似性模块和时间卷积操作可以有效地捕获特征和位置信息。提出的方法在ASV spoof 2019PartialSpoof数据集上优于基线模型即使在跨数据集实验中也表现出优越的性能。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2410293.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！