对话式AI：端到端语音识别与算法公平性研究进展-育师

2022年，语音领域规模最大、最全面的国际学术会议Interspeech在韩国仁川举行。某中心作为白金赞助商出席。某中心语音AI组织的几位资深科学家重点介绍了该机构在本次会议上贡献的研究，本文聚焦于语音科学方面的进展，围绕近期语音AI研究的两个核心主题展开：端到端神经语音识别以及公平性。

端到端神经语音识别

传统的语音识别系统包含专门处理不同层面语言学知识的组件：声学模型捕捉语音声音与声学波形（语音学）的对应关系；发音模型将这些声音映射为单词；语言模型则捕捉句法、语义和对话上下文等高阶特性。这些模型均在独立数据上训练，并通过图和搜索算法进行组合，以推断与声学输入最匹配的单词序列。此类系统的最新版本在声学和语言模型等组件中采用了神经网络，但在模型集成时仍依赖非神经方法，因此被称为“混合”自动语音识别系统。

尽管混合ASR方法结构化和模块化，但也难以建模声学、语音和词级表征之间的相互作用，以及难以对识别系统进行端到端优化。因此，ASR领域的许多近期研究都集中在所谓的端到端或全神经识别系统上，这类系统可直接从声学输入推断单词序列。

端到端ASR系统使用可深度端到端优化以追求识别准确性的多层神经架构。虽然它们需要大量数据和计算进行训练，但一旦训练完成，它们能提供简化的推理计算架构，并具备更优的性能。

某中心的ASR系统在云端和本地设备上均将端到端模型作为其核心算法。在整个行业和学术研究中，端到端架构仍在不断改进，以提高准确性、降低计算成本和/或延迟，或缓解因模块化不足而难以在运行时注入外部（如特定领域）知识的问题。

某中心在Interspeech上发表的论文探讨了端到端ASR中的几个开放性问题，以下摘要介绍其中几篇。

用于流式语音识别的卷积增强循环神经网络传感器

在《ConvRNN-T: Convolutional augmented recurrent neural network transducers for streaming speech recognition》中，作者提出了一种流行的循环神经网络传感器端到端神经架构的新变体。其目标之一是保持因果处理的特性，即模型输出仅依赖于过去和当前（而非未来）的输入，从而实现流式ASR。同时，他们希望提升模型捕获长期上下文信息的能力。

为实现这两个目标，他们在基础RNN-T上增加了两个不同的卷积前端：一个用于编码时间上局部相关性的标准CNN，以及一个新颖的“全局CNN”编码器。该编码器旨在通过总结截至当前时间步整个话语的激活值来捕获长期相关性（同时随时间增量处理话语）。作者表明，与其它已提出的神经流式ASR架构（如基础RNN-T、Conformer和ContextNet）相比，所得的ConvRNN-T具有更高的准确性。

用于流式ASR的计算成本分摊Transformer

端到端ASR模型的另一个关注点是计算效率。在《Compute cost amortized transformer for streaming ASR》中，作者利用一个直观观察：模型执行的计算量应随着任务难度的变化而变化。例如，噪声或口音导致模糊的输入可能需要比清晰、主流口音输入更多的计算。

研究人员通过一种非常优雅的方法实现了这一点，该方法利用了模型的集成神经结构。他们的起点是一个基于Transformer的ASR系统，由多层多头自注意力和前馈神经块堆叠而成。此外，他们还训练了“仲裁器”网络，该网络查看声学输入（并可选择地查看中间块输出）以切换各个组件的开关。

由于这些组件块具有将其输出与较早层输出相结合的“跳跃连接”，因此它们对于整体计算的进行实际上是可选的。对于给定的输入帧，被切换关闭的块将节省该块通常执行的所有计算，产生零向量输出。仲裁器网络本身足够小，不会增加显著的计算负担。然而，使该方案可行且有效的是，Transformer组件和控制它们的仲裁器可以联合训练，目标有两个：执行准确的ASR和最小化总计算量。后者通过向训练目标函数中添加一项奖励减少计算的项来实现。调整超参数可选择准确性与计算之间的期望平衡。

作者表明，他们的方法可以减少60%的计算，而ASR错误率仅轻微增加3%。他们的成本分摊Transformer被证明比基准方法有效得多，后者约束模型仅关注输入上的滑动窗口，仅产生13%的节省，而错误率增加了近三倍。

分离器-传感器-分割器：多说话人语音的流式识别与分割

最后，在回顾端到端神经ASR进展时，我们探讨了识别多人语音并跟踪谁说了什么的方法。这在传统上通过模块化系统完成，分别执行ASR和说话人日志记录（即将音频片段按说话人标记）。然而，通过将这两项任务集成到单个端到端神经模型中，神经网络模型最近也带来了进步和简化。

在《Separator-transducer-segmenter: Streaming recognition and segmentation of multi-party speech》中，作者不仅将ASR和按说话人分割集成在一起，而且是在增量处理输入的同时实现。具有低延迟的流式多说话人ASR是使语音助手能够在协作设置中与用户交互的关键技术。该研究人员的系统通过RNN-T架构的泛化来实现这一点，该架构跟踪多个说话人之间的轮换，其中最多两个说话人可以同时活跃。

与早期方法相比，产生改进的关键要素是使用专用标记来识别说话人轮次的开始和结束，即作者所称的“起点检测”和“终点检测”。（终点检测是许多交互式ASR系统的标准功能，用于预测说话人何时结束。）除了以这种符号方式表示轮换结构外，模型在训练过程中也会因输出这些标记耗时过长而受到惩罚，以提高输出的延迟和时间准确性。

语音AI的性能公平性

基于语音的AI也存在类似的担忧，语音特性因说话者背景和环境的不同而有很大差异。由于使用商业产品的说话者大多是自我选择的，而且由于隐私等原因，说话者属性通常难以获取，因此在训练集中实现平衡的表征是困难的。该主题也是Interspeech一个特别会议“包容与公平的语音技术”的主题，某中心的几位科学家以共同组织者和演讲者的身份参与其中。

通过弹性权重巩固减少自动语音识别中的地理差异

特别会议论文之一《Reducing geographic disparities in automatic speech recognition via elastic weight consolidation》研究了美国境内的地理位置如何影响ASR准确性，以及如何调整模型以缩小表现最差区域的差距。这里采用了两个步骤：首先，识别出错误率高于平均水平的说话者子集；然后，实施缓解步骤以试图改善这些群体的性能。

该方法通过根据说话者的地理经度和纬度对其进行分区来识别群体，使用类似决策树的算法最大化结果区域之间的词错误率差异。接着，按平均WER对区域进行排名；识别来自最高错误率区域的数据以进行性能改进。为实现这一点，研究人员使用微调来优化针对目标区域的模型参数，同时采用称为弹性权重巩固的技术，以最小化在其余区域上的性能下降。这对于防止所谓的“灾难性遗忘”现象很重要，即神经模型在微调过程中对先前的训练数据性能大幅下降。其思想是量化参数空间不同维度对整体性能的影响，然后在适应数据子集时避免沿这些维度的大幅变化。这种方法降低了跨区域的WER均值、最大值和方差，甚至降低了总体WER，击败了模型适应的几种基准方法。

迈向语音识别的公平性：性能差异的发现与缓解

在《Toward fairness in speech recognition: Discovery and mitigation of performance disparities》中，作者探讨了识别表现不佳说话人群体的替代方法。一种方法是使用人类定义的、由邮政编码给出的地理区域，结合美国人口普查数据中的人口统计信息，来划分美国地理区域。通过多数人口统计属性对邮政编码进行二元分区，以最大化WER差异。然后将WER较高的分区作为缓解目标，这种方法与上述论文中采用的方法类似。然而，这种方法不精确，并且受限于可用的人口统计数据，因此难以推广到其他地理区域。

或者，作者使用由神经说话人识别模型学习的语音特征来对说话人进行分组。这些“说话人嵌入向量”被聚类，反映了听起来相似的说话人往往具有相似ASR难度的直觉。随后，这些虚拟的说话人区域（而非个体身份）可以根据难度进行排名并作为缓解目标，而无需依赖人类标记、分组或说话人/属性的自我识别。自动方法识别出的ASR准确率差距比“地理人口统计”方法更大，同时针对更大比例的说话人进行性能缓解。

用于说话人验证公平性的对抗性重新加权

我们强调的最后一篇关于公平性的论文探讨了另一种避免性能差异的方法，称为对抗性重新加权。该方法不依赖于输入空间的显式划分，而是根据输入特征为训练实例分配连续权重，其理念是较难的示例获得较高权重，从而对性能优化产生更大影响。

其次，ARW更紧密地交织并迭代了加权后的群体识别和缓解步骤。从数学上讲，这被形式化为一个最小-最大优化算法，该算法交替进行：通过改变样本权重最大化误差（因此称为“对抗性”），以及通过调整目标模型参数最小化加权验证误差。

ARW专为以单个数据点为输入的分类和回归任务中的群体公平性设计。《Adversarial reweighting for speaker verification fairness》探讨了如何将此概念应用于依赖成对输入样本的分类任务，即检查两个语音样本是否来自同一说话人。解决此问题有助于使基于语音的助手在个性化和需要识别说话人的其他功能上更可靠。

作者研究了几种将ARW应用于学习说话人嵌入之间相似性的方法。最终效果最好的方法是为每对输入样本分配一个对抗性权重，该权重是各个样本权重的总和（从而降低了权重预测的维度）。各个样本的权重也参考了样本落入说话人嵌入空间的哪个区域（通过无监督k均值聚类确定）。

一旦以这种方式形式化成对对抗权重，就可以将它们插入到度量学习的损失函数中，这是训练说话人验证模型的基础。最小-最大优化然后可以轮流训练预测权重的对抗网络和优化学习说话人相似性的说话人嵌入提取器。

在一个公共说话人验证语料库上，所得系统将总体等错误率降低了7.6%，同时将性别间的差距缩小了17%。它还将不同原籍国之间的错误率变异降低了近10%。与ASR公平性论文一样，公平性缓解既改善了性能差异，也提高了整体准确性。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）