news 2026/6/24 17:22:05

深度解析:语音转换与数据增强的TTS前沿技术

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
深度解析:语音转换与数据增强的TTS前沿技术

在今年的声学、语音与信号处理国际会议(ICASSP)上,某中心的文本转语音(TTS)团队发表了四篇论文。这些论文均涉及语音转换(在保持韵律特征的同时将一种合成语音转换为另一种)、数据增强,或两者兼而有之。

该团队的研究对于某机构的语音助手至关重要,因为这是其与用户沟通的方式。其开发的模型也通过其云服务中的文本转语音服务向客户开放。

以下是对这四篇论文核心内容的概述:

1. 《语音过滤器:使用语音转换作为后处理模块进行少样本文本转语音说话人自适应》
本文针对少样本说话人自适应问题——即仅从少量训练样本中学习新的合成语音。论文将该问题重新定义为学习一个语音转换模型,该模型应用于高质量TTS模型的输出。这是对现有少样本TTS范式的概念性转变。

其核心思想是:对于少样本学习,将现有高质量TTS模型输出的语音谱图,适配到新的目标语音,比直接调整模型本身更容易。关键在于,“语音过滤器”是在TTS模型自身生成的合成数据上进行训练的。该TTS模型是时长可控的,这意味着输入文本会被编码以指示每个音素在输出语音中的持续时间。这使研究人员能够创建两个平行的训练数据语料库:一个由120位不同说话人的真实样本组成,另一个则是TTS模型生成的但时长与多说话人样本相匹配的合成语音。

语音过滤器在平行语料库上训练后,对于少样本学习,只需在新说话人数据上进行微调。实验表明,这种方法产生的语音质量与使用30倍数据训练的传统模型相当。

2. 《使用数据增强进行跨说话人风格迁移的文本转语音》
这篇论文展示了如何构建一个能够进行富有表现力语音合成的TTS模型,即使目标语音的唯一可用训练数据是中性语音。其思路是:首先训练一个语音转换模型,将其他语音中的富有表现力的语音样本转换为目标语音,然后将转换后的语音作为TTS模型的额外训练数据。

该TTS模型接收两个输入:文本序列和风格向量。在训练期间,文本序列传递给TTS模型,目标语音样本的谱图传递给一个参考编码器以产生风格嵌入。在推理时,虽然没有输入谱图,但研究人员证明可以通过向模型输入预先计算的风格嵌入来控制输出风格。

根据使用MUSHRA感知量表的人类评估,相对于基准模型,新模型在14位不同说话人上将合成语音与真实语音之间感知到的风格相似度差距平均缩小了58%。

3. 《针对低资源表达性文本转语音的分布增强》
本文考虑了缺乏新语音训练数据的情况。目标是通过置换现有样本的文本产生新的文本,并重新组合相应语音样本的片段来产生新的语音样本。这并未增加训练目标的声学多样性,但增加了训练输入的语言学多样性。

为确保合成的训练示例在句法上不会过于不连贯,研究人员为输入文本构建了句法分析树,然后在树之间交换句法上等效的分支。交换声学信号中相应部分需要文本和信号之间良好的对齐,这由现有的强制对齐模型完成。

为防止TTS模型对合成示例过度偏向,训练时还在输入中加入了一个特殊标记,用于指示两个现有样本被融合在一起的位置。模型将学习优先处理来自真实样本内部的音素序列,而非跨越融合样本边界的序列。在推理时,该标记的值在所有输入中均设为0。

人类评估表明,新模型在五个不同数据集上的语音输出质量均优于基准模型。

4. 《使用标准化流进行文本无关的非平行多对多语音转换》
在这篇论文中,某中心TTS团队将标准化流的概念(已广泛应用于TTS)应用于语音转换问题。与大多数深度学习模型一样,标准化流学习生成输入数据的向量表示的函数。不同之处在于,这些函数是可逆的,因此可以从表示中恢复输入。团队假设,保留更多输入信息将产生更好的语音转换,早期实验证实了这一假设。

该流程的输入包括源谱图、音素嵌入、说话人身份嵌入、声学信号的基本频率以及指示音频帧是否发声的标志。流程将输入映射到特定应用域中的音素频率分布。

通常,标准化流会从训练数据中同时学习分布和映射。但在这里,研究人员先在标准TTS任务上对流程进行预训练(该任务数据充足),以预先学习分布。由于流程是可逆的,只要其他模型输入(音素嵌入、说话人ID等)可用,表示空间中的向量就可以映射回一组源输入。为了使用标准化流进行语音转换,研究人员只需在此反向映射过程中替换说话人。

研究人员在两种实验设置下进行了检验:一种是语音转换模型同时接收文本序列和谱图作为输入,另一种是仅接收谱图。在后一种情况下,预训练的标准化流模型显著优于基准模型。直接从训练数据中学习音素分布的标准化流模型表现较差,这说明了预训练步骤的重要性。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 15:08:46

网易云音乐脚本:3大隐藏功能解锁你的音乐自由

网易云音乐脚本:3大隐藏功能解锁你的音乐自由 【免费下载链接】myuserscripts 油猴脚本:网易云音乐:云盘歌曲快传(含周杰伦),歌曲下载,转存云盘,云盘匹配纠正,听歌量打卡,本地上传云盘 咪咕音乐:歌曲下载 项目地址: https://gitcode.com/gh_mirrors/my/myuserscri…

作者头像 李华
网站建设 2026/6/23 15:08:11

IDM激活脚本技术深度解析:兼容性重构与性能优化完整指南

IDM激活脚本技术深度解析:兼容性重构与性能优化完整指南 【免费下载链接】IDM-Activation-Script IDM Activation & Trail Reset Script 项目地址: https://gitcode.com/gh_mirrors/id/IDM-Activation-Script IDM激活脚本面临的核心技术挑战在于版本兼容…

作者头像 李华
网站建设 2026/6/23 13:30:36

Minecraft Bedrock启动器技术实现与优化指南

Bedrock启动器作为Minecraft基岩版的专业管理工具,通过模块化架构和智能化算法为玩家提供高效的游戏版本管理与性能调优解决方案。本文将从技术实现角度深入解析启动器的核心能力、部署方案及优化策略。 【免费下载链接】BedrockLauncher 项目地址: https://gitc…

作者头像 李华
网站建设 2026/6/23 4:24:06

MegSpot开源项目完整教程:从入门到精通

MegSpot开源项目完整教程:从入门到精通 【免费下载链接】MegSpot MegSpot是一款高效、专业、跨平台的图片&视频对比应用 项目地址: https://gitcode.com/gh_mirrors/me/MegSpot MegSpot是一款功能强大的开源项目,专为研究人员和开发者设计的高…

作者头像 李华
网站建设 2026/6/23 3:42:10

XposedRimetHelper位置服务功能深度解析:提升钉钉使用体验

功能亮点:扩展位置服务边界 【免费下载链接】XposedRimetHelper Xposed 钉钉辅助模块,暂时实现模拟位置。 项目地址: https://gitcode.com/gh_mirrors/xp/XposedRimetHelper XposedRimetHelper作为一款基于Xposed框架的钉钉增强模块,其…

作者头像 李华
网站建设 2026/6/23 16:45:14

深度解锁Windows隐藏功能:ViVeTool GUI使用全攻略

深度解锁Windows隐藏功能:ViVeTool GUI使用全攻略 【免费下载链接】ViVeTool-GUI Windows Feature Control GUI based on ViVe / ViVeTool 项目地址: https://gitcode.com/gh_mirrors/vi/ViVeTool-GUI 在Windows系统的深处,隐藏着大量未被官方启用…

作者头像 李华