开源分享：TTS-Web-Vue系列：SSML格式化功能与高级语音合成

🎯 本文是TTS-Web-Vue系列的第十二篇文章，重点介绍项目新增的SSML格式化功能以及SSML在语音合成中的应用。通过自动格式化和实时预览，我们显著提升了SSML编辑体验，让用户能够更精确地控制语音合成的细节，实现更自然、更专业的语音效果。

📖 系列文章导航

TTS-Web-Vue系列：打造最便捷的微软语音合成Web工具 - 项目介绍与整体架构
TTS-Web-Vue系列：批量转换功能的实现与优化 - 批量转换功能详解
TTS-Web-Vue系列：现代化UI设计与用户体验优化 - 界面设计与交互优化
TTS-Web-Vue系列：语音主播库扩充与本地化优化 - 语音主播扩充与名称本地化
TTS-Web-Vue系列：语音主播头像与名称本地化增强 - 主播头像生成与名称本地化
TTS-Web-Vue系列：抽屉式布局与交互体验优化 - 抽屉式设计与布局优化
TTS-Web-Vue系列：免费TTS服务集成与额度管理 - 免费TTS服务与配额系统
TTS-Web-Vue系列：交互式用户引导功能实现 - 交互式用户引导功能详解
TTS-Web-Vue系列：语音转换加载组件优化 - 加载组件与状态反馈优化
TTS-Web-Vue系列：移动端引导体验优化 - 移动端引导交互优化
TTS-Web-Vue系列：SSML格式化功能与高级语音合成 - SSML格式化与语音控制详解
更多文章持续更新中…

🌟 SSML格式化功能亮点

本次更新的SSML格式化功能包含以下亮点：

自动代码格式化：输入的SSML代码自动进行缩进和换行处理，提高可读性
实时预览更新：设置变化时自动更新SSML预览，实现所见即所得
语音参数映射：UI控件值与SSML属性智能映射，简化复杂参数设置
命名空间优化：自动添加正确的XML命名空间，确保SSML格式规范
标签嵌套结构：根据微软TTS要求自动构建正确的嵌套结构
错误处理机制：自动捕获和修复常见SSML格式错误

💻 什么是SSML？

SSML (Speech Synthesis Markup Language) 是一种基于XML的标记语言，用于增强文本到语音转换系统的能力。它允许开发者精确控制语音合成的多个方面，如：

语速、音调和音量
语音停顿和停顿时长
发音和重音
表达方式和情感强度
特殊单词或短语的处理

与纯文本相比，SSML提供了更丰富的语音控制能力，使合成语音更自然、更符合预期。

🔍 SSML基本语法与结构

基本结构

一个标准的SSML文档包含以下结构：

<speak xmlns="http://www.w3.org/2001/10/synthesis" 
       xmlns:mstts="https://www.w3.org/2001/mstts" 
       xmlns:emo="http://www.w3.org/2009/10/emotionml" 
       version="1.0" 
       xml:lang="en-US">
  <voice name="zh-CN-XiaoxiaoNeural">
    <mstts:express-as style="cheerful" styledegree="1.5">
      <prosody rate="0%" pitch="0%" volume="medium">
        这是一段示例文本
      </prosody>
    </mstts:express-as>
  </voice>
</speak>

常用标签解析

`<speak>` 标签

根元素，定义SSML文档的开始和结束，包含必要的命名空间声明。

<speak xmlns="http://www.w3.org/2001/10/synthesis" 
       xmlns:mstts="https://www.w3.org/2001/mstts" 
       version="1.0" 
       xml:lang="en-US">
  <!-- 内容 -->
</speak>

`<voice>` 标签

指定要使用的语音，通过 name属性设置语音名称。

<voice name="zh-CN-XiaoxiaoNeural">
  <!-- 内容 -->
</voice>

`<mstts:express-as>` 标签

微软特有的标签，用于设置语音风格和角色。

<mstts:express-as style="cheerful" role="Girl" styledegree="1.5">
  <!-- 内容 -->
</mstts:express-as>

style属性值：

cheerful (开朗)
sad (悲伤)
angry (愤怒)
fearful (恐惧)
disgruntled (不满)
serious (严肃)
affectionate (深情)
gentle (温柔)
embarrassed (尴尬)

styledegree属性： 控制风格强度，范围0.5-2.0

`<prosody>` 标签

控制语速、音调和音量。

<prosody rate="50%" pitch="20%" volume="loud">
  <!-- 内容 -->
</prosody>

rate属性： 语速

百分比值：-90% 到 900%
预定义值：x-slow, slow, medium, fast, x-fast

pitch属性： 音调

百分比值：-50% 到 50%
预定义值：x-low, low, medium, high, x-high

volume属性： 音量

预定义值：silent, x-soft, soft, medium, loud, x-loud

`<break>` 标签

插入停顿。

<break time="500ms" />

time属性： 停顿时长，可使用ms或s为单位

🧰 SSML格式化功能实现

XML格式化核心函数

格式化SSML的核心函数如下：

// 添加XML格式化函数
const formatXML = (xml) => {
  let formatted = '';
  let indent = '';
  
  // 将XML字符串分割成行
  xml.split(/>\s*</).forEach(function(node) {
    if (node.match(/^\/\w/)) indent = indent.substring(2);
    formatted += indent + '<' + node + '>\n';
    if (!node.match(/^\//) && !node.match(/\/$/)) indent += '  ';
  });
  
  // 处理第一个和最后一个标签
  return formatted.substring(1, formatted.length - 2);
};

这个函数通过以下步骤格式化XML：

将XML字符串按 >和 <分割成节点
根据节点类型动态调整缩进级别
为每个节点添加适当的缩进和换行
处理起始和结束标签的特殊情况

SSML生成与更新逻辑

根据UI设置自动生成SSML的逻辑：

// 更新SSML内容的函数
function updateSSML() {
  if (!formConfig.value || !formConfig.value.voiceSelect) {
    return;
  }
  
  // 提取所需的值
  const config = formConfig.value;
  
  // 准备样式属性
  let styleAttr = "";
  if (config.voiceStyleSelect) {
    styleAttr = 'style="' + config.voiceStyleSelect + '"';
  }
  
  // 准备角色属性
  let roleAttr = "";
  if (config.role) {
    roleAttr = 'role="' + config.role + '"';
  }
  
  // 准备强度属性
  let intensityAttr = "";
  if (config.intensity && config.intensity !== "default") {
    // 将字符串强度值转换为对应的数值
    let intensityValue = "";
    if (config.intensity === "weak") intensityValue = "0.5";
    else if (config.intensity === "strong") intensityValue = "1.5";
    else if (config.intensity === "extraStrong") intensityValue = "2";
    else intensityValue = config.intensity; // 如果已经是数值则直接使用
  
    intensityAttr = 'styledegree="' + intensityValue + '"';
  }
  
  // 准备音量属性
  let volumeAttr = "";
  if (config.volume && config.volume !== "default") {
    // 定义音量值映射
    let volumeMapping = {
      "extraWeak": "x-soft",
      "weak": "soft", 
      "strong": "loud",
      "extraStrong": "x-loud"
    };
  
    volumeAttr = 'volume="' + (volumeMapping[config.volume] || config.volume) + '"';
  }
  
  // 准备静音配置
  let silenceConfig = "";
  if (config.silence && config.silence !== "default") {
    silenceConfig = '<break time="' + config.silence + '" />';
  }
  
  // 计算速率和音调
  const rateValue = (config.speed * 100).toFixed(); // 直接使用速度值乘以100
  const pitchValue = (config.pitch * 100 - 100).toFixed(); // 将音调值转换为百分比变化
  
  // 生成完整的SSML
  const ssml = '<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xmlns:emo="http://www.w3.org/2009/10/emotionml" version="1.0" xml:lang="en-US">\n' +
    '  <voice name="' + config.voiceSelect + '">\n' +
    '    <mstts:express-as ' + styleAttr + ' ' + roleAttr + ' ' + intensityAttr + '>\n' +
    '      <prosody rate="' + rateValue + '%" pitch="' + pitchValue + '%" ' + volumeAttr + '>\n' +
    '        ' + silenceConfig + inputs.value.inputValue + '\n' +
    '      </prosody>\n' +
    '    </mstts:express-as>\n' +
    '  </voice>\n' +
    '</speak>';
  
  // 格式化并设置SSML
  inputs.value.ssmlValue = formatXML(ssml);
}

自动更新与监听逻辑

为确保SSML内容与UI设置同步，我们实现了多个观察器：

// 监听SSML值的变化
watch(() => inputs.value.ssmlValue, (newValue) => {
  if (newValue && !newValue.includes('\n')) {  // 只在非格式化的情况下进行格式化
    inputs.value.ssmlValue = formatXML(newValue);
  }
});

// 监听抽屉打开状态
watch(() => openSettingsDrawer.value, (newValue) => {
  if (newValue && inputs.value.ssmlValue) {
    // 当抽屉打开时，确保SSML是格式化的
    nextTick(() => {
      inputs.value.ssmlValue = formatXML(inputs.value.ssmlValue);
    });
  }
});

// 在打开设置面板时重新格式化SSML
const openSettingsPanel = () => {
  setTimeout(() => {
    openSettingsDrawer.value = true;
  
    // 重新格式化SSML
    if (inputs.value.ssmlValue) {
      inputs.value.ssmlValue = formatXML(inputs.value.ssmlValue);
    }
  
    // 其他逻辑...
  }, 100);
};

🎭 SSML高级应用场景

1. 多语言混合朗读

SSML可以在同一文档中混合使用多种语言：

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="zh-CN">
  <voice name="zh-CN-XiaoxiaoNeural">
    今天我们将学习一些英语单词：
    <lang xml:lang="en-US">Hello, world! This is an example.</lang>
    现在回到中文。
  </voice>
</speak>

2. 自定义发音

对特定单词的发音进行微调：

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="zh-CN">
  <voice name="zh-CN-XiaoxiaoNeural">
    正常发音：紧急情况。
    特殊发音：<phoneme alphabet="sapi" ph="jin1 ji2 qing2 kuang4">紧急情况</phoneme>。
  </voice>
</speak>

3. 数字和日期处理

控制数字和日期的读法：

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="zh-CN">
  <voice name="zh-CN-XiaoxiaoNeural">
    默认读法：123
    作为电话号码读：<say-as interpret-as="telephone">123</say-as>
    日期读法：<say-as interpret-as="date" format="ymd">2023-05-20</say-as>
  </voice>
</speak>

4. 情感表达控制

利用微软特有的情感控制标签：

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" 
       xmlns:mstts="https://www.w3.org/2001/mstts"
       xmlns:emo="http://www.w3.org/2009/10/emotionml"
       xml:lang="zh-CN">
  <voice name="zh-CN-XiaoxiaoNeural">
    <emo:emotion category="happiness" intensity="0.7">
      今天是个好天气，我感到非常开心！
    </emo:emotion>
    <emo:emotion category="anger" intensity="0.5">
      但是我错过了公交车，这真让人恼火！
    </emo:emotion>
  </voice>
</speak>

5. 背景音频混合

在语音中添加背景音乐：

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="zh-CN">
  <voice name="zh-CN-XiaoxiaoNeural">
    <audio src="https://example.com/background.mp3">
      这段文字会在背景音乐播放时朗读出来。
      如果音频无法播放，则只会朗读这段文字。
    </audio>
  </voice>
</speak>

📊 SSML实际应用效果对比

下面展示了几个使用和不使用SSML的语音效果对比：

1. 标准文本 vs. SSML格式化文本

普通文本：

这是一段测试文本，没有任何语音控制效果。

SSML格式化：

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" version="1.0" xml:lang="zh-CN">
  <voice name="zh-CN-XiaoxiaoNeural">
    <prosody rate="10%" pitch="15%" volume="loud">
      这是一段测试文本，通过SSML添加了语音控制效果。
    </prosody>
  </voice>
</speak>

效果差异：SSML版本语速更慢、音调更高、音量更大，整体表现更加突出。

2. 情感表达对比

普通文本：

我今天非常开心，因为完成了所有工作！

SSML格式化：

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" version="1.0" xml:lang="zh-CN">
  <voice name="zh-CN-XiaoxiaoNeural">
    <mstts:express-as style="cheerful" styledegree="1.8">
      我今天非常开心，因为完成了所有工作！
    </mstts:express-as>
  </voice>
</speak>

效果差异：SSML版本表现出明显的欢快语调，语速略快，音调变化更丰富。

3. 停顿和重音控制

普通文本：

请注意，这是重要通知，请认真阅读全文。

SSML格式化：

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" version="1.0" xml:lang="zh-CN">
  <voice name="zh-CN-XiaoxiaoNeural">
    请注意，<break time="500ms" />这是<emphasis level="strong">重要通知</emphasis>，<break time="300ms" />请认真阅读全文。
  </voice>
</speak>