news 2026/6/24 1:04:40

融合语音识别与语言理解的技术探索

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
融合语音识别与语言理解的技术探索

ASRU: 集成语音识别与语言理解

某中心的高级应用科学经理Jimmy Kunzmann是今年IEEE自动语音识别与理解研讨会(ASRU)的赞助主席之一。他的研究团队在会议上提交了两篇论文,主题均为“信号到解释”,即将自动语音识别(ASR)和自然语言理解(NLU)集成到单一的机器学习模型中。

“信号到解释直接从音频信号中推导出领域、意图和槽位值,它在研究领域正变得越来越热门,”Kunzmann说,“研究很大程度上由哪种算法能提供最佳准确性驱动,而信号到解释可以提高准确性,降低延迟和内存占用。”虽然团队一直致力于提高准确性,但对信号到解释的兴趣源于确保其在资源受限且网络连接不稳定的设备上的可用性需求。

“如果网络连接突然中断,在家庭或汽车环境中,一切都不再工作,这会令人沮丧——当你的灯无法再打开,或者你无法在车里拨打你最喜欢的联系人时,”Kunzmann说。

Kunzmann表示,团队的早期工作集中在寻找技术来大幅减少在设备上运行的模型的内存占用,例如完美哈希技术。但那时的工作仍然将ASR和NLU视为独立、顺序的任务。

最近,团队转向了基于端到端神经网络的模型,这些模型将ASR和NLU紧密耦合,实现了更紧凑的设备端模型。“通过用神经网络技术替代传统技术,我们得到了更小的占用空间——实际上模型更快、更准确,”Kunzmann说,“而且,我们耦合的所有系统组件越紧密,可靠性就越高。”

在设备上运行端到端模型还可以提高响应能力,Kunzmann说。“Fire TV的客户反馈说,当我们在设备上处理诸如切换频道或翻到下一页等请求时,速度要快得多,可用性也随之提升,”他说。

在ASRU上,Kunzmann的团队报告了两个新项目,旨在使设备端、基于神经网络的信号到解释模型更加实用。

动态内容处理

一篇题为“上下文感知的Transformer Transducer语音识别”的论文,探讨了如何在运行时将个性化内容(例如通讯录中的姓名,或智能家电的自定义名称)整合到神经网络模型中的问题。

“在过去,人们使用所谓的基于类的语言模型,在推理时,你可以动态加载这些列表,并对用户的个性化内容进行解码,”Kunzmann说,“而采用神经网络方法,你拥有一个巨大的参数集,但它们都是预训练的。因此,你必须发明在运行时吸收用户数据的方法。”

“神经网络有许多层,通常表示为概率向量。当你从一层到另一层时,你向前馈送更新后的概率。你可以通过基于动态内容改变这些概率来吸收信息,这允许你改变输出概率,以识别用户上下文——比如你的个人通讯录或你感兴趣的地点。”

架构图描述:上下文感知模型的架构(在论文中展示):(a) Transformer Transducer模型;(b) 上下文偏置层;© 带有音频嵌入的上下文感知Transformer Transducer(CATT);(d) 带有音频和标签嵌入的CATT。

多语言处理

Kunzmann团队在ASRU上的另一篇论文“追寻巴别塔:多语言端到端口语理解”,解决了将多语言模型(能够以多种语言之一响应用户请求)迁移到设备端的问题。

在某中心云端版本的多语言服务中,同一客户的话语会同时发送到多个ASR模型。一旦一个独立的语言识别模型确定了正在使用的语言,相应的ASR模型的输出就会被用于进一步处理。这避免了延迟,因为它使ASR模型在语言被识别之前就开始工作。

“在设备端,我们负担不起这种方式,因为我们没有并行运行的计算集群,”Kunzmann说,“记住,信号到解释是一个将ASR和NLU紧密耦合的系统。简而言之,我们证明,我们可以用来自三个不同区域(在本案例中是英语、西班牙语和法语)的数据来训练信号到解释模型,这提高了准确性并缩小了模型占用空间。我们可以将这些系统的性能提高一个数量级,并在设备上运行这些模型。”

架构图描述:多语言模型的架构(在论文中展示)。

“我认为这是我们在某中心进行科学研究的核心方面之一——推动研究界进入新的领域。像动态内容处理这样的性能改进,既有助于一般研究,也有助于解决我们的客户问题。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 13:30:36

Minecraft Bedrock启动器技术实现与优化指南

Bedrock启动器作为Minecraft基岩版的专业管理工具,通过模块化架构和智能化算法为玩家提供高效的游戏版本管理与性能调优解决方案。本文将从技术实现角度深入解析启动器的核心能力、部署方案及优化策略。 【免费下载链接】BedrockLauncher 项目地址: https://gitc…

作者头像 李华
网站建设 2026/6/23 4:24:06

MegSpot开源项目完整教程:从入门到精通

MegSpot开源项目完整教程:从入门到精通 【免费下载链接】MegSpot MegSpot是一款高效、专业、跨平台的图片&视频对比应用 项目地址: https://gitcode.com/gh_mirrors/me/MegSpot MegSpot是一款功能强大的开源项目,专为研究人员和开发者设计的高…

作者头像 李华
网站建设 2026/6/23 3:42:10

XposedRimetHelper位置服务功能深度解析:提升钉钉使用体验

功能亮点:扩展位置服务边界 【免费下载链接】XposedRimetHelper Xposed 钉钉辅助模块,暂时实现模拟位置。 项目地址: https://gitcode.com/gh_mirrors/xp/XposedRimetHelper XposedRimetHelper作为一款基于Xposed框架的钉钉增强模块,其…

作者头像 李华
网站建设 2026/6/23 16:45:14

深度解锁Windows隐藏功能:ViVeTool GUI使用全攻略

深度解锁Windows隐藏功能:ViVeTool GUI使用全攻略 【免费下载链接】ViVeTool-GUI Windows Feature Control GUI based on ViVe / ViVeTool 项目地址: https://gitcode.com/gh_mirrors/vi/ViVeTool-GUI 在Windows系统的深处,隐藏着大量未被官方启用…

作者头像 李华
网站建设 2026/6/23 16:54:40

如何快速配置Jellyfin Bangumi插件:新手3分钟上手教程

还在为Jellyfin中的番剧元数据不全而烦恼吗?Jellyfin Bangumi插件帮你完美解决!这款免费开源插件专门为中文用户打造,能够自动从Bangumi获取高质量的中文番剧元数据,并实现播放进度自动同步到Bangumi账号。无论是动画剧集、电影还…

作者头像 李华
网站建设 2026/6/23 16:56:45

KOReader终极完整指南:免费打造专业级电子书阅读体验

KOReader终极完整指南:免费打造专业级电子书阅读体验 【免费下载链接】koreader An ebook reader application supporting PDF, DjVu, EPUB, FB2 and many more formats, running on Cervantes, Kindle, Kobo, PocketBook and Android devices 项目地址: https://…

作者头像 李华