语音合成之十六语音合成（TTS）跳跃与重复问题的解析：成因、机制及解决方案

语音合成（TTS）跳跃与重复问题的解析：成因、机制及解决方案

引言
TTS中跳跃与重复问题的根本原因
- 注意力机制的失效
- 文本到语音的对齐挑战
- 自回归（AR）TTS模型的固有挑战
- 时长建模的重要性
- 输入数据特征的影响
构建鲁棒性：缓解跳跃与重复的解决方案及机制
- 强化注意力机制
- 掌握时序动态：显式时长建模
- 先进的文本-语音对齐策略
- 利用人类反馈与偏好学习
- 架构创新以增强稳定性
识别与量化错误：检测与评估
总结

引言

文本转语音（Text-to-Speech, TTS）技术致力于将文本信息流畅、自然地转换为语音。然而，在实际应用中，合成语音常出现“跳跃”（漏词，Omission）或“重复”（重复，Repetition）等问题，严重影响了语音的清晰度和自然度。跳跃指的是合成语音遗漏了输入文本中本应存在的音素、词语甚至整个短语；重复则指音素、词语或短语在非预期的情况下被多次读出。这些问题，连同“含混不清”（muffling）和“提前中止”（early stop）等，常被归类为“严重错误”（gross errors），它们是影响用户体验、阻碍TTS技术广泛应用的关键瓶颈。尽管现代TTS系统在语音质量和说话人相似度方面取得了显著进步，但这类局部性的“鲁棒性错误”（robustness errors）或“片段错误”（segmental errors）仍然频繁出现，对听感造成了显著的负面影响。

TTS中跳跃与重复问题的根本原因

跳跃和重复问题的产生根源复杂，涉及模型架构、训练数据、对齐机制等多个方面。其中，注意力机制的失效、文本到语音对齐的困难、自回归模型的固有缺陷、时长建模的不足以及输入文本的特性是主要的诱因。

注意力机制的失效

在序列到序列（Sequence-to-Sequence）的TTS模型（如Tacotron及其变体）中，注意力机制扮演着至关重要的角色，它负责学习输出音频序列与输入文本序列之间的动态关联。理想情况下，注意力权重矩阵应呈现出近似对角线的形态，表明模型在生成语音时，能够平稳、单调地“关注”输入文本的相应部分。

然而，注意力机制的失效是导致跳跃和重复等严重错误的主要原因之一。常见的失效模式包括：

注意力分散或不足（Dispersed or Insufficient Attention）：
- 跳跃/提前中止：当注意力未能充分覆盖输入文本的某些片段，或注意力路径在文本结束前突然中断时，就会导致相应文本内容的遗漏（即“跳跃”）或整个句子未能完整合成（即“提前中止”）。注意力矩阵上通常表现为对角线路径的明显不连续或突然终止。
- 含混不清：如果注意力在两个或多个文本片段之间“分散”或“分裂”，无法集中关注当前应处理的文本单元，合成的语音听起来就会含混不清。
注意力跳跃或竞争（Jumping or Competing Attention Paths）：
- 重复：当注意力路径“跳回”到先前已处理过的编码器时间步，或者“跳到”一个稍后的编码器时间步并被重复合成时，就会产生重复现象。在注意力矩阵上，这可能表现为一条偏离主对角线的、指向已处理部分的强注意力路径，或是存在多条相互竞争的注意力路径。这意味着模型会多次关注并生成相同的输入片段。

许多早期的注意力机制，如点积注意力（dot-product attention），虽然计算高效，但其设计本身未显式考虑位置信息。这意味着注意力计算与输入序列中片段的位置无关，使得模型更难学习到沿输入序列稳定前进的对齐模式。尤其对于较长的句子，自回归模型中的注意力机制更容易出错，导致对齐失败或崩溃。

注意力机制赋予了模型在没有显式切分的情况下学习复杂输入输出对齐的灵活性。然而，这种灵活性若缺乏有效约束或引导，反而成为不稳定的主要来源，导致注意力不足（跳跃）或注意力过度/误导（重复）。注意力矩阵的可视化清晰地揭示了偏离平滑对角线路径与这些听觉错误之间的直接关联。因此，解决方案必须致力于增强注意力机制的鲁棒性（例如，引入位置感知、单调性约束）或减少对无约束软注意力的依赖。
传统LLM中的注意力和TTS中单调注意力的区别如下：

维度	TTS 中的 Monotonic Attention	LLM 中的 Attention
对齐目标	严格时序对齐（文本→语音）	语义关联捕捉（词→词、句→句）
顺序约束	强制单调性（禁止回退）	无约束，全序列自由关联
权重计算	基于位置递进或概率阈值	基于内容相似度（Query-Key 匹配）
应用场景	时序生成任务（语音合成、语音识别）	非时序任务（文本生成、翻译、分类）

文本到语音的对齐挑战

将离散的文本序列映射到连续的、时长可变的语音信号，是TTS系统面临的核心挑战之一。TTS的本质是单调的，即输入文本的顺序在输出语音中得到保留，但一个音素可能对应多个语音帧，且输出时长会随说话风格、语速等因素变化。

隐式对齐与显式对齐模型的困境：
- 依赖隐式对齐（如仅通过注意力机制学习对齐）的自回归语言模型（AR LM），在处理复杂或未见过（out-of-distribution）的句子时，鲁棒性较差。特别是在一些现代TTS范式中，大量的离散语音编码（discrete speech codes）给这类模型带来了沉重的对齐学习负担。
- 依赖预定义对齐（如使用外部对齐器或强制对齐）的模型，虽然可能更鲁棒，但其合成语音的自然度往往受到预设对齐的限制。外部对齐器或时长模型的性能直接影响最终语音的自然度，因为它们限制了模型探索更自然发音方式的空间。
错位对齐的后果：
- 对齐错误是导致词语跳跃、重复以及注意力崩溃的直接原因。在基于大型语言模型（LLM）的TTS中，这类错误也被称为“幻觉”（hallucinations）或“注意力错误” 。
- 即使是那些没有显式单调对齐约束的仅解码器（decoder-only）TTS模型，也可能因为对齐问题而出现发音错误、跳词和重复等现象。

对齐机制的选择面临一个两难境地：隐式对齐（如纯注意力机制）为捕捉细致的韵律和说话风格提供了灵活性，但一旦注意力失效，极易引发跳跃、重复等灾难性错误。而显式对齐（如基于时长预测器或外部对齐器）虽然增强了鲁棒性和单调性，却可能牺牲自然度和表现力，使语音听起来单调，或无法捕捉未被显式时长编码的复杂韵律变化。许多先进的解决方案正试图在两者之间取得平衡，例如，通过引导注意力机制而不施加过多硬性约束（如引导注意力、稀疏对齐），或者使时长预测本身更具表现力和上下文感知能力。

自回归（AR）TTS模型的固有挑战

自回归模型逐帧或逐token生成语音，每个预测都依赖于先前的预测结果。这种序列生成方式带来了其固有的不稳定性。

错误传播及其累积效应：
- 在AR模型中，早期生成步骤中出现的微小错误（如注意力偏差或声学特征预测不准）会作为后续步骤的输入，导致错误不断传播并放大，最终可能引发显著的输出偏差。
- 当模型（尤其是仅依赖局部敏感注意力机制的模型）处理长句子时，这种错误累积问题尤为突出，更容易导致对齐错误或注意力完全崩溃。
长序列生成的不稳定性：
- 基于Transformer的AR模型在处理超出训练数据长度的序列时，泛化能力往往下降，更容易出现漏词、重复词或完全无意义的输出。
- 用户的反馈也证实，对于较长的文本输入，即使文本格式规范，也更容易出现长时间静音后跟重复内容等问题，这暗示了某些模型在鲁棒性方面存在可伸缩性限制。

AR模型的序列化生成过程使其本质上较为脆弱。在早期阶段，单个错误的注意力或预测步骤就可能使整个后续生成过程偏离轨道。这与并行生成输出的非自回归（NAR）模型形成了对比。因此，针对AR模型的解决方案必须着重于增强每一步生成的鲁棒性（例如，更稳健的单步注意力），或引入能够从早期错误中恢复或限制其影响的机制。这也解释了为何研究领域对非自回归方法抱有浓厚兴趣。

时长建模的重要性

音素时长是语音时间结构的基础。时长建模不准确或缺失，会直接导致语音片段过短（听感上像跳过）或过长（听感上像重复或不自然的拖长）。

音素时长控制不足或缺失引发的问题：
- 缺乏精确的时长控制是序列到序列TTS面临的一个关键挑战。如果音素时长未能被正确建模，会直接导致合成语音的某些部分听起来过短（被感知为跳过）或过长（被感知为重复或不自然的拖沓）。
- 一些没有显式时长建模的TTS模型（例如某些基于扩散的模型）可能会在可懂度上有所下降，并且无法对特定发音的时长进行细粒度控制。
对节奏和语速的影响导致感知上的跳跃/重复：
- 不准确的时长会打乱语音的自然节奏和语速，即使所有音素都已技术上生成，也可能因听感上的不自然而被感知为跳跃或重复。
- 由于时长建模不足导致的不自然韵律可能包括异常的静音，这些静音之后有时会紧跟着重复的内容。

音素时长是决定语音时间结构的基本单元。未能准确预测或控制这些时长，会直接影响合成音频在感知上的完整性和流畅度。因此，鲁棒的TTS系统通常会包含显式的时长预测器，或采用能够有效学习和控制这些时长的机制。

输入数据特征的影响

输入文本的特性以及训练数据的质量和覆盖范围，也会对TTS模型的鲁棒性产生影响，进而诱发跳跃和重复错误。

长句、复杂标点及未登录文本带来的挑战：
- 研究表明，跳跃和重复等严重错误更容易发生在较长的句子中，以及包含标点符号（尤其是表示停顿或中断的标点）的句子中。这是因为长序列增加了注意力漂移或错误累积的概率。
- 模型在处理训练时未见过的文本（out-of-distribution text）时，更容易出现音素缺失/重复或意外的长静音。
- 用户体验报告也指出，对于较长的文本输入，即使文本格式良好，跳跃和重复等问题也更为普遍。
- 对于包含多个相同token的挑战性文本，如果LLM-based TTS的对齐机制不够鲁棒，尤其容易产生幻觉（如重复、漏词）。
训练数据质量与覆盖度的影响：
- 如果模型训练时缺乏足够的长语音样本（例如，由于在消费级GPU上训练时的显存限制），那么在处理长文本输入时，模型就更容易出现重复或生成噪声。这表明训练数据的分布直接影响模型对长句子的泛化能力。
- 训练数据中的噪声（如带噪的参考语音）虽然主要影响整体保真度，但也可能因干扰对齐线索的学习而间接导致跳跃或重复问题。

模型在处理与其训练数据相似的、较短且简单的句子时可能表现良好，但在面对超出其学习范围的输入（如长句、复杂结构、罕见词汇/短语）时，其性能可能会急剧下降。这是一个典型的泛化问题。训练数据通常具有特定的句子长度、复杂度和词汇分布。当输入句子在长度或复杂度上显著超出典型训练样本时，模型学习到的模式（尤其是注意力和时长相关的模式）可能无法有效扩展，从而导致注意力迷失路径（跳跃/重复）或AR模型中错误累积的概率增加。包含重复token或短语的文本，如果模型的注意力机制缺乏鲁棒的位置感知能力，也可能导致模型“卡住”或跳过某些实例。因此，鲁棒性不仅要求在平均情况下的良好性能，还需要在挑战性和分布外输入上的稳定表现。训练数据的多样性以及针对处理长距离依赖和复杂输入的特定架构选择至关重要。

表1：TTS中跳跃与重复错误的特征描述

错误类型	详细描述/表现	主要相关原因	示例性注意力矩阵模式 (描述性)
音素/词语遗漏(跳跃/遗漏 (Skipping/Omission) 型)	输入文本中存在的一个或多个音素/词语在合成语音中缺失。	注意力失效（覆盖不足、跳至后续步骤）、对齐错误、时长预测器错误、AR模型中的错误传播。	对角线路径出现不连续或中断
提前中止 (Early Stop) (跳跃/遗漏 (Skipping/Omission) 型)	语音合成在文本结束前过早终止，导致句子不完整。	注意力路径突然终止、对齐错误。	注意力路径在文本末端前突然截断
音素/词语重复（重复 (Repetition) ）	一个或多个音素/词语在非预期的情况下被连续或非连续地多次合成。	注意力失效（循环、跳回先前步骤、存在竞争路径）、对齐错误、时长预测器错误（对特定单元分配过多时长）、AR模型中的错误传播。	注意力路径向后跳跃或在某处停滞
含混/口齿不清 (Muffling) （其他相关严重错误）	合成语音的某些片段发音模糊、难以辨认。	注意力在多个文本片段间分散或分裂。	注意力权重分散，非聚焦于单一路径

构建鲁棒性：缓解跳跃与重复的解决方案及机制

针对上述问题，研究者们从多个角度提出了解决方案，包括强化注意力机制、精进时长建模、优化对齐策略、引入人类反馈以及革新模型架构等。

强化注意力机制

鉴于无约束的注意力是导致错误的主要原因之一，许多研究工作致力于使其更“智能”和“守纪律”。这通常通过硬编码约束（如单调性）、提供额外信息（如位置信息）或使用损失函数惩罚不良注意力模式来实现。

1. 强制单调性：阶梯式单调注意力（SMA）、PAMA-TTS及其他单调变体
利用文本到语音对齐通常具有单调性的先验知识，约束注意力只能向前移动，从而防止向后跳跃（导致重复）或大幅度跳跃（导致跳过）。

阶梯式单调注意力 (Stepwise Monotonic Attention, SMA)：SMA严格约束对齐路径为阶梯式单调。在每个解码步骤，注意力只能选择停留在当前音素或前进到下一个音素，不允许后退或跳过。
PAMA-TTS：该模型基于Tacotron2，将位置敏感注意力（Location Sensitive Attention, LSA）替换为阶梯式单调注意力。此外，它还利用token时长和帧的相对位置信息（例如，当前音素还剩多少帧结束的倒计时信息）来可靠地引导注意力前向移动。
引导注意力损失 (Guided Attention Loss)：通过损失函数鼓励注意力矩阵的非零成分更接近对角线，从而惩罚偏离理想对角线对齐的行为。
RAD-TTS对齐框架：结合前向和算法（forward-sum algorithm）、维特比算法（Viterbi algorithm）以及一个静态先验，改善了自回归和非自回归模型中的对齐收敛速度和鲁棒性，有效减少了漏词和重复词现象。

2. 位置感知与引导注意力：整合位置意识
为注意力机制提供其在输入序列中的当前位置或相对于对齐路径的明确信息。

位置相关注意力 (Location-Relative Attention)：作为一种改进的注意力机制被提及，旨在增强注意力的鲁棒性。
Very Attentive Tacotron (VAT)：采用一种对齐机制，通过插值相对位置偏置（Interpolated Relative Position Biases, IRPBs）为交叉注意力提供相对位置信息。对齐位置作为模型的潜在属性通过反向传播学习得到。这种方法消除了重复词或漏词的问题，并使模型能够泛化到更长的语句。
位置感知交叉注意力 (Position-Aware Cross-Attention, PACA)：专为TTS设计，通过一个包含正弦位置编码和线性因果语言模型（LCLM）块的反馈回路，使模型感知到先前已关注的文本潜变量，从而帮助解决跳跃和重复问题。
MegaTTS 3稀疏对齐 (Sparse Alignment)：为潜在扩散Transformer提供稀疏的对齐边界，以引导其学习过程。这降低了对齐学习的难度，同时没有过度限制模型的搜索空间，从而增强了对时长预测错误的鲁棒性。

3. 高级先验与损失函数：CTC损失和注意力先验促进鲁棒对齐
在训练过程中使用辅助损失函数或先验知识，以显式地引导注意力机制学习更鲁棒和单调的对齐。

基于LLM的TTS中的CTC损失与注意力先验：在编码器-解码器Transformer模型中，为使交叉注意力具有单调性，研究者提出了相关技术。例如，在训练初期使用静态的二维beta-二项分布先验来加速单调对齐的学习；同时，引入基于连接时序分类（Connectionist Temporal Classification, CTC）的对齐损失（ $L_{align}$ ），通过最大化穿过软对齐矩阵的单调路径的似然来强制更严格的单调对齐。

这些方法的共同趋势是将更多关于语音的领域知识（如单调性）融入注意力机制本身，而不是将其视为一个完全无约束的“黑箱”。

掌握时序动态：显式时长建模

显式预测每个输入单元（如音素）在输出中所占的时长，为模型施加了强大的时序结构，从而直接防止了纯基于注意力的自回归模型中常见的、不稳定的对齐失败。这种“硬对齐”方法在本质上对跳跃和重复更具鲁棒性。

1. 时长预测器与长度调整器的作用（例如FastSpeech, Parallel Tacotron 2）
非自回归模型通常使用一个独立的模块来预测每个输入音素的持续时间。然后，长度调整器（length regulator）根据这些预测的时长扩展编码后的音素表示，以匹配目标梅尔频谱序列的长度。

FastSpeech：从一个“教师”自回归模型中提取注意力对齐信息，用于训练音素时长预测器。长度调整器利用这些时长进行硬对齐，几乎消除了词语跳跃和重复的问题。
Parallel Tacotron 2：具有一个完全可微的时长模型和一个学习到的上采样机制，使其能够自动学习token-帧对齐和时长，无需监督信号。由于基于时长，它更不容易出现鲁棒性错误。

2. 自回归时长预测器增强自然度（例如FlexSpeech）

FlexSpeech：将语音生成任务分解为一个自回归（AR）时长预测器和一个非自回归（NAR）声学模型。AR时长预测器融入了马尔可夫依赖性以提升自然度，同时通过对音素单元的显式建模来保证稳定性。其解码器基于隐藏状态和先前的音素时长自回归地预测当前音素时长。

3. 对抗性训练改进时长准确性（例如VITS2）

VITS2：为时长预测器引入了对抗性学习，以提高自然度和效率。VITS2论文详细描述了一个通过对抗性学习训练的随机时长预测器，该预测器使用逐时间步的判别器来处理可变长度的输入。

在非自回归TTS中，时长预测成为鲁棒性的关键组成部分。因此，时长预测器本身的准确性和表现力（例如，采用自回归结构或对抗性训练）也成为了重要的研究方向。

先进的文本-语音对齐策略

认识到纯软注意力的局限性，领域内已转向采用更明确寻找最佳单调路径（如MAS）或使用内建单调性的架构（如Transducer）的方法。这些方法提供了更受约束、因而更鲁棒的对齐过程。

1. 基于搜索的对齐：VITS2等模型中的单调对齐搜索（MAS）
MAS算法旨在寻找文本和语音表示之间最可能的单调对齐路径。

VITS/VITS2：采用单调对齐搜索（Monotonic Alignment Search, MAS）来寻找文本和潜在音频表示之间的最可能对齐。这提高了自然度、效率，减少了伪影，并改善了韵律建模。VITS2在训练初期向MAS计算的概率中添加高斯噪声，以鼓励探索其他合适的对齐方式。
Glow-TTS：同样使用MAS（一种维特比训练的变体）将输入文本映射到梅尔频谱图，旨在避免Tacotron2等模型常见的发音问题。

2. 基于Transducer的架构：利用硬单调约束
神经Transducer（如RNN-T）架构本身强制执行硬单调对齐约束，当与离散语音标记化结合时，非常适合TTS任务。

TTS-Transducer：使用Transducer学习文本token与第一个码本的语音编解码器token之间的单调对齐。然后，一个非自回归Transformer利用此对齐信息预测剩余码本的token 。
VALL-T（仅解码器的生成式Transducer）：通过为输入音素序列引入可移动的相对位置嵌入来维持单调对齐。当模型生成一个特殊的“空白”token时，会触发相对位置的移动，从而明确引导单调生成过程，减轻幻觉问题。
Token Transducer（用于两阶段TTS）：在第一阶段，采用神经Transducer从文本预测语义token，利用其鲁棒的单调对齐特性。随后，一个基于VITS的非自回归语音生成器从这些对齐的语义token合成波形。

3. 稀疏与高效对齐（例如MegaTTS 3）

MegaTTS 3：采用一种稀疏对齐算法来引导潜在扩散Transformer。它提供稀疏的对齐边界，以降低对齐学习的难度，同时不限制搜索空间，从而实现高自然度并增强对时长预测错误的鲁棒性。音素token稀疏地分布在其对应的强制对齐区域内，提供粗略的发音信息，再由DiT模型进行细化。

4.综合对齐学习框架（例如RAD-TTS）

RAD-TTS框架：利用前向和算法、维特比算法和静态先验来简化对齐学习，提高各种TTS模型（自回归和非自回归）的收敛速度并增强对长句的鲁棒性。该框架有助于减少重复或遗漏词语的现象。

这些结构化的对齐过程，减少了模型犯灾难性对齐错误的自由度，往往需要在完全端到端学习与引入算法先验之间进行权衡。

利用人类反馈与偏好学习

尽管客观损失和架构约束可以防止严重错误，但更细微的自然度、韵律问题或轻微的重复/跳跃仍可能发生。基于偏好的学习（如FPO、DPO）允许根据人类对优劣的实际感知来微调模型，从而针对这些细微错误进行优化。

1. 细粒度偏好优化（FPO）针对片段错误
这是一种基于强化学习人类反馈（RLHF）的方法，旨在解决生成样本中的局部“片段错误”（如发音错误、异常停顿、重复、截断），其核心思想是专注于优化有问题的片段，而非对整个语句进行统一优化。

机制：FPO采用细粒度的采样-标注流程。首先，TTS系统多次生成代表性音频样本。然后，从人类听觉角度对这些样本进行偏好标注，在语句级别将其标记为“偏好”或“不偏好”。对于每对偏好数据，标注出局部问题的具体片段，以获得细粒度的token级偏好标签。FPO进一步分析不同问题片段的错误类型（如时间建模错误、语义-音素对齐错误，后者主要导致重复或截断），并提出一种“选择性训练损失策略”（selective training loss strategy），仅针对这些问题片段计算损失，从而有效解决细粒度问题并提高训练效率。
2. 直接偏好优化（DPO）改进时长与韵律
DPO直接基于偏好数据（成对的偏好/不偏好样本）优化模型，无需显式的奖励模型。
FlexSpeech：在其自回归时长预测器中引入DPO，利用成对的“胜-负”时长数据来使预测的时长与人类听觉偏好对齐。这不仅能够实现高效的风格迁移，还能改善时长预测器输出的韵律和自然度。
其他基于DPO的自回归TTS模型也通过DPO优化词错误率（WER）来增强稳定性。

这标志着向更以人为中心的AI发展转变，模型不仅为任意指标进行优化，更要为人类的满意度和偏好进行优化，尤其是在细粒度错误修正方面。

架构创新以增强稳定性

TTS模型的底层架构决定了其对某些类型错误的固有倾向。非自回归模型避免了自回归的错误传播问题。LLM中的解耦简化了生成任务。对抗性训练（GAN）和变分自编码器（VAE）可以推动模型产生更鲁棒和真实的输出。

1. 非自回归（NAR）架构：打破错误传播链
诸如FastSpeech、Glow-TTS、Parallel Tacotron等模型以并行或固定块的方式生成语音，而非逐帧自回归。这从根本上避免了AR模型中常见的错误传播问题。这些模型通常依赖显式的时长预测器（见II.B节），这有助于其抵抗跳跃/重复错误。

2. 基于LLM的TTS中的解耦表示（例如SSVC）
在基于LLM的TTS中，如果语音编码是高度耦合的（内容、说话人、风格混合在一起），LLM的任务会变得非常复杂，从而导致不稳定。将说话人身份从内容/风格中解耦出来，可以让LLM专注于从文本生成非说话人相关的信息，从而提高稳定性。

基于SSVC（自监督语音转换）的方法：使用解耦了说话人信息的自监督表示作为LLM的目标。LLM从文本生成内容和风格，而说话人身份由VC模型的解码器提供。这种方法显著减少了幻觉、内容跳跃和重复等问题。

3. VAE与GAN在提升合成鲁棒性中的作用

Parallel Tacotron：由一个基于VAE的残差编码器增强。由于其基于时长建模，因此更不容易出现鲁棒性错误。
SpecDiff-GAN：使用双判别器（扩散判别器和频谱图判别器）来改进多说话人TTS。其生成器基于FastSpeech2。虽然没有明确详述如何缓解跳跃/重复，但通过对抗性训练提高的整体质量和稳定性对此有积极作用。
FlashSpeech：采用对抗性一致性训练，使用预训练的语音语言模型作为判别器来训练一个潜在一致性模型（LCM）。其非自回归特性有助于抵抗跳跃/重复。
VITS2：对其时长预测器和整体VAE框架采用对抗性学习，以增强合成质量和自然度。

TTS架构持续演进，明显趋势是采用那些通过将复杂TTS任务分解为更易于管理的专业组件或通过采用强制鲁棒性的训练机制来内在地促进稳定性的设计。

识别与量化错误：检测与评估

为了解决问题，首先必须能够可靠地检测和度量它。客观指标提供了可扩展的方式来追踪严重错误，而人工评估则捕捉感知的细微差别。

A. 用于错误分析的客观指标
1. 基于注意力的诊断：

可视化注意力矩阵可以揭示不连续、跳跃或分散的模式，这些模式分别指示了跳跃、重复或含混不清等问题。
可以从注意力矩阵中导出诸如CDP（每音素累积时长概率）之类的指标，以检测何时给予特定音素的注意力过少（跳跃）或过多（重复）。

2. 词错误率（WER）/字符错误率（CER）：

使用自动语音识别（ASR）系统转录TTS输出，并将其与输入文本进行比较，可以量化缺失或重复的词/字符。这是衡量内容稳定性和正确性的常用指标。

3. 专门的非流利度指标（简述）：

语音非流利度建模研究（例如，采用CSA的SSDM ，以及Dysfluent-WFST ）开发了在词/音素级别以精确时间戳检测各种非流利度（包括重复和删除）的方法。虽然这些方法主要用于分析人类语音，但其概念可被借鉴用于TTS错误的细粒度评估。
B. 人工评估

主观听力测试（例如MOS、CMOS、ABX测试）对于评估整体自然度以及识别客观指标未能捕捉到的细微错误仍然至关重要。
在FPO等方法中，人类标注员被用于识别有问题的片段并提供偏好标签。

结合自动化和人工评估是必要的。开发更先进的、与人类感知相关的针对特定错误类型（如跳跃/重复）的自动化指标具有重要价值。

总结

文本转语音系统中的“跳跃”和“重复”问题是影响合成语音质量的顽固障碍。这些问题的根源主要在于注意力机制的失效、文本与语音之间对齐的困难、自回归模型的固有缺陷以及时长建模的不足。具体而言，注意力路径的偏离（如分散、跳跃、中断）直接导致内容的遗漏或冗余。隐式对齐的灵活性与显式对齐的约束性之间的矛盾，使得在自然度和鲁棒性之间取得平衡成为挑战。自回归模型的错误传播特性，尤其是在处理长序列时，进一步加剧了这些问题。

为应对这些挑战，学术界和工业界已开发出多种精密的解决方案。强化注意力机制的策略包括引入单调性约束（如SMA、PAMA-TTS ）、位置感知能力（如VAT、PACA ）以及利用CTC损失等高级先验进行引导。在时长建模方面，显式时长预测器（如FastSpeech ）和更具表现力的自回归时长预测器（如FlexSpeech ），乃至对抗性训练的时长预测器（如VITS2 ），都旨在提供更精确的时序控制。先进的对齐策略，如单调对齐搜索（MAS ）、基于Transducer的硬单调对齐以及稀疏对齐，也显著提升了对齐的鲁棒性。此外，利用人类反馈进行细粒度偏好优化（FPO ）和直接偏好优化（DPO ）为解决更细微的感知错误开辟了新途径。架构层面的创新，如非自回归设计、LLM中的表示解耦以及VAE/GAN的应用，也从根本上提升了模型的稳定性。

解决TTS中的跳跃和重复问题涉及多种策略，每种策略都有其独特的机制、优势和局限性。下表对主要的缓解策略进行了比较分析：
表2：缓解TTS中跳跃/重复错误的关键策略比较分析

策略类别	具体技术/模型	核心机制	主要优势	注意到的局限性/挑战
单调注意力	SMA/PAMA-TTS , Guided Attention , RAD-TTS框架	约束注意力只能前向移动，或引导注意力接近对角线。	减少注意力向后跳跃导致的重复和向前大跳导致的跳跃，提高对齐鲁棒性。	可能过于严格，难以捕捉复杂的韵律；引导可能不足以完全避免所有错误。
显式时长建模	FastSpeech , Parallel Tacotron 2 , FlexSpeech (AR时长) , VITS2 (对抗时长)	预测每个音素的持续时间，通过长度调整器进行硬对齐。	对跳跃/重复具有高度鲁棒性，因为时长是预先确定的。	依赖时长预测器的准确性；如果时长预测不佳或缺乏表现力，可能导致韵律单调。
Transducer对齐	TTS-Transducer , VALL-T , Token Transducer	利用Transducer架构固有的硬单调对齐约束。	提供非常鲁棒的单调对齐，有效防止对齐错误。	模型可能较复杂，训练可能更具挑战性；性能可能依赖于所选的语音编解码器。
位置感知注意力	VAT , PACA , MegaTTS 3 (稀疏对齐)	为注意力机制提供明确的位置信息或边界引导。	提高注意力在长序列上的稳定性，减少因“迷路”导致的错误。稀疏对齐在引导和灵活性之间取得平衡。	位置信息的整合方式和有效性可能因模型而异；稀疏对齐的边界定义可能需要精心设计。
偏好优化	FPO , DPO (用于时长/韵律)	基于人类对合成语音的偏好（整体或局部片段）来优化模型。	能够针对人类感知的细微错误进行优化，提高自然度和用户接受度。	依赖高质量的人工标注数据，成本较高；FPO需要有效的错误片段识别。
架构选择	NAR模型 (通用) , LLM中的SSVC解耦 , VAE/GAN应用	并行生成避免错误传播；解耦简化LLM任务；对抗训练或VAE改善表示。	NAR固有地避免AR错误链；解耦提高LLM稳定性；VAE/GAN可提升真实感和鲁棒性。	NAR模型若无精心设计的时长/韵律模块可能缺乏表现力；SSVC依赖VC模型质量；VAE/GAN训练可能不稳定。

对TTS从业者与研究者的建议如下：

诊断先行：当遇到跳跃或重复问题时，首先应尝试诊断其根源。可视化注意力矩阵（如果适用）是检查注意力行为的有效手段。进行词错误率（WER）或字符错误率（CER）分析，以量化内容层面的错误。
优先考虑鲁棒对齐/时长机制：对于需要高鲁棒性的应用场景，优先选择或迁移到那些具有强大显式对齐或时长建模机制的模型架构，如基于时长预测器的非自回归模型（例如FastSpeech系列）或基于Transducer的模型。
利用人类反馈进行微调：如果能够识别出特定的问题片段，可以考虑采用细粒度偏好优化（FPO）等技术进行针对性微调。对于韵律或时长不自然导致的问题，直接偏好优化（DPO）也可能有效。
数据质量与多样性：确保训练数据的质量和多样性，特别是对于长句和复杂结构的覆盖，有助于提高模型的泛化能力和鲁棒性。

新兴趋势与未来研究方向

基于LLM的TTS的持续演进：大型语言模型在TTS领域的应用日益广泛。未来的工作将继续致力于通过改进解耦方法、引导注意力机制以及开发更高效的对齐策略来提升其稳定性。
零样本和少样本场景下的鲁棒性：确保模型不仅在训练过的说话人/风格上表现鲁棒，在零样本（zero-shot）或少样本（few-shot）自适应场景下也能保持稳定性，是实现个性化和多样化语音合成的关键。
端到端可微系统：继续推动完全可微的TTS系统发展，使其能够无需外部预训练组件即可学习对齐和时长，从而简化流程并可能提升性能，如Parallel Tacotron 2所示。
更精细化的评估指标：开发能够更好地与人类对跳跃、重复等特定错误类型的感知相关联的客观评估指标，以指导模型优化。

TTS鲁棒性的提升并非一蹴而就，不存在一种普适的最佳方案。各种解决方案在确保单调性、灵活性、训练成本和对特定错误类型的有效性之间存在权衡。例如，SMA确保了单调性但可能对复杂韵律的表现力不足；FPO能针对特定错误进行优化但依赖人工标注。因此，从业者需要理解这些方案的特性，根据具体需求选择或组合使用。研究者则将继续探索混合方法和更具普适性的鲁棒机制。