教程上新丨微软开源VibeVoice，可实现90分钟4角色自然对话-育师

近年来，文本转语音（TTS）合成技术进展显著，已能够为单一说话者合成高保真、听觉自然的短话语。然而，在面对长格式、多说话人对话音频的可扩展合成时，仍存在重要挑战，限制了诸如播客与多角色有声书场景下的应用边界。

传统方法即使通过串联独立合成的话语来生成此类音频，但在实现自然的对话轮流和内容感知生成方面依然不尽人意。随着行业应用需求的不断提升，行业领域已陆续出现针对多说话人长会话语音生成的研究，但多数成果尚未开源，或在生成长度与稳定性方面仍存在待解决的难题。

在此背景下，微软开源了 VibeVoice，旨在实现可扩展的长格式、多说话人语音合成。VibeVoice 采用基于下一 token 扩散（next-token diffusion）的方法来合成多说话人长语音，这是一种通过扩散自回归生成潜在向量以建模连续数据的统一方法。

为此，研究团队首创了一种新颖的连续语音分词器，与当前流行的 Encodec 模型相比，在保持相当性能的前提下，实现了 80 倍的数据压缩提升，即可实现高达 3200× 的压缩率（对应 7.5 Hz 帧率），在保障音频保真度的同时，显著提高了长序列处理的计算效率。

VibeVoice 架构图

尽管架构简洁，VibeVoice 却展现出极强的能力，能够在 64K 上下文窗口中合成长达 90 分钟、包含最多 4 名说话人的语音，音色更为丰富、语调更趋自然，并捕捉真实对话氛围，在跨语言应用中表现出更强的迁移能力，综合表现已超越现有的开源与专有对话模型。

「VibeVoice-Realtime TTS：实时语音合成服务」已上线 OpenBayes 公共教程板块，快来开启你的创作之旅吧！

教程链接：

https://go.openbayes.com/Ra1vR

Demo 运行

01 Demo 运行阶段

1.登录 http://OpenBayes.com，在「公共教程」页面，选择「VibeVoice-Realtime TTS：实时语音合成服务」教程。

2.页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像，按照需求选择「按量付费」或「包日/周/月」，点击「继续执行」。新用户使用下方邀请链接注册，可获得 4 小时 RTX 5090 + 5 小时 CPU 的免费时长！

小贝总专属邀请链接（直接复制到浏览器打开）：

https://go.openbayes.com/9S6Dr

4.等待分配资源，首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后，点击「API 地址」旁边的跳转箭头，即可跳转至 Demo 页面。请注意，用户需在实名认证后才能使用 API 地址访问功能。

02 效果演示
进入 Demo 运行页面后，将测试视频上传后，在「Text to Convert」处输入文本，「Speaker Voice」选项中提供了 7 种可选择的音色，调整「CFG Scale」可以控制语音风格强度，数值越大情感越强。最后点击「Generate Speech」，稍等片刻即可生成音频。

这一年接近尾声，点击播放 VibeVoice 为你送上的新年祝福吧~

03.统计学机器学习

统计学机器学习简介：什么是机器学习中的统计思维？在当今的生成式 AI 时代，我们看到从业者构建机器学习 (ML) 模型，从简单的回归到复杂而精密的神经网络和生成式大型语言模型 (LLM)。我们还看到数据科学和数据分析被广泛用于预测客户流失、推荐系统和其他用例。然而，尽管…

李华

[Poi2011]Lightning Conductor题解

P3515 [POI 2011] Lightning Conductor 题目描述逐渐变化的气候迫使 Byteburg 当局建造一个巨大的避雷针，以保护城市内的所有建筑物。这些建筑物沿着一条街道排成一行，编号从 111 到 nnn。建筑物和避雷针的高度是非负整数。 Byteburg 的资金有限…

李华

一文读懂大模型：收藏级教程，助你从入门到精通

大模型是基于Transformer架构的深度学习分支，通过预训练和微调两阶段构建。GPT和BERT分别基于Transformer的解码器和编码器，利用自注意力机制捕捉语言上下文。大模型能理解和生成人类语言，本地部署可减少延迟并保护数据隐私，是企业…

李华

Nginx云计算大数据——安装AND版本升级（普通升级+平滑升级+失败回滚）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Nginx一键安装1.1基础环境，关闭防火墙与SELinux1.2 安装编译依赖1.3创建Nginx运行用户1.4编译安装Nginx1.5创建软链接1.6.检查、启动、重启、停止…

李华

GPT-5.2 实测数据流出：逻辑推理性能翻倍，大模型“幻觉”真的被终结了吗？

在人工智能的竞技场上，2025年注定是属于“极限性能”的一年。就在全球开发者还在讨论多模态交互的边界时，OpenAI 内部代号为“Project Orion”的最新成果——GPT-5.2 的实测数据在技术圈内疯传。这不仅是一份亮眼的成绩单，更是一次对现有大…

李华