可解释的潜在空间：使用填充空间的向量量化-育师

原文：towardsdatascience.com/interpretable-latent-spaces-using-space-filling-vector-quantization-e4eb26691b14?source=collection_archive---------7-----------------------#2024-04-08

一种新的无监督方法，结合了向量量化和填充空间曲线两个概念，用于解释深度神经网络（DNNs）的潜在空间。

https://medium.com/@mohammad.vali?source=post_page---byline--e4eb26691b14--------------------------------https://towardsdatascience.com/?source=post_page---byline--e4eb26691b14-------------------------------- Mohammad Hassan Vali

·发表于Towards Data Science ·9 分钟阅读·2024 年 4 月 8 日

–

本文简要介绍了我们新提出的无监督分布建模技术——填充空间的向量量化[1]，该方法在 2023 年 Interspeech 会议上发表。更多细节，请参阅此链接中的论文。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6cc783b8a0d6df1f2d0381dab42c4cda.png

图片来自StockSnap.io

深度生成模型是著名的基于神经网络的架构，它们学习一个潜在空间，该空间中的样本可以映射到合理的现实世界数据，如图像、视频和语音。这些潜在空间像一个黑盒，通常难以解释。在本文中，我们介绍了我们新提出的无监督分布建模技术，它结合了填充空间曲线和向量量化（VQ）两个概念，这种方法被称为填充空间的向量量化（SFVQ）[1]。SFVQ 通过捕捉潜在空间的基本形态结构，帮助使潜在空间变得可解释。需要特别注意的是，SFVQ 是一个通用的分布建模工具，使用它并不局限于任何特定的神经网络架构，也不限于任何数据类型（例如图像、视频、语音等）。在本文中，我们演示了如何应用 SFVQ 来解释语音转换模型的潜在空间。要理解本文，您不需要具备语音信号的技术知识，因为我们将以通俗的方式解释一切（非技术性）。在开始之前，让我先解释一下 SFVQ 技术及其工作原理。

GitHub 仓库

我们的 SFVQ 技术的 PyTorch 实现已公开，在 GitHub 上可以通过以下链接访问：

[## GitHub - MHVali/Space-Filling-Vector-Quantizer

通过在 GitHub 上创建帐户，为 MHVali/Space-Filling-Vector-Quantizer 的发展做出贡献。

github.com

致谢

特别感谢我的博士导师Prof. Tom Bäckström，他在这项工作中给予了我支持，并且是这项工作的另一位贡献者。

参考文献

[1] M.H. Vali, T. Bäckström，《利用空间填充曲线进行语音转换中音素分析的可解释潜在空间》，发表于Interspeech 会议论文集，2023 年。

[2] M. H. Vali 和 T. Bäckström，《NSVQ：用于机器学习的向量量化中的噪声替代》，IEEE Access，2022 年。

[3] H. Sagan，《空间填充曲线*》，Springer 科学与商业媒体，2012 年。

[4] B. Van Niekerk, L. Nortje 和 H. Kamper, “用于音频单元发现的向量量化神经网络——Zerospeech 2020 挑战”，收录于Interspeech 会议论文集，2020 年。

[5] A. Van Den Oord, O. Vinyals 和 K. Kavukcuoglu, “神经离散表示学习”，收录于第 31 届国际神经信息处理系统会议论文集，2017 年。

[6] J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G. Fiscus, D. S. Pallett 和 N. L. Dahlgren, “DARPA TIMIT 声学-语音连续语音语料库 CDROM”，语言数据联盟，1993 年。

[7] C. Lopes 和 F. Perdigao, “在 TIMIT 数据库上进行音素识别”，收录于语音技术。IntechOpen，2011 年，第十四章。[在线]。可用链接：doi.org/10.5772/17600

Unity游戏翻译终极指南：XUnity自动翻译插件完全使用手册

可解释的潜在空间：使用填充空间的向量量化

一种新的无监督方法，结合了向量量化和填充空间曲线两个概念，用于解释深度神经网络（DNNs）的潜在空间。

空间填充向量量化（SFVQ）

语音转换

使用 SFVQ 解释潜在空间

GitHub 仓库

通过在 GitHub 上创建帐户，为 MHVali/Space-Filling-Vector-Quantizer 的发展做出贡献。

致谢

参考文献

AD导出Gerber文件教程：多层板盲埋孔处理方案

YOLOFuse华为云ModelArts集成方案设想

Scarab模组管理器使用指南：新手必备的10个高效管理技巧

YOLOFuse能否在Colab/Kaggle等平台运行？完全兼容云端环境

2026最新盘点：最火的10款降ai率工具汇总，论文AI率高怎么办？（附踩坑指南）