手把手教你用GLM-TTS生成带情绪的AI语音-育师

手把手教你用GLM-TTS生成带情绪的AI语音

你有没有试过这样的情景：给短视频配旁白，反复调整语调却总差一口气；做有声书时，机械的朗读让听众三分钟就划走；或者想用自己声音的“数字分身”给客户发个性化语音消息，却卡在音色不自然、情感像机器人上？别急——今天这篇实操指南，就是为你量身定制的。我们不用讲一堆“多模态对齐”“声学建模”这类词，就用最直白的方式，带你从零开始，用科哥打包好的 GLM-TTS 镜像，真正做出有温度、有语气、有情绪起伏的 AI 语音。

这不是理论课，是能立刻打开终端、上传一段录音、输入几句话、5分钟内听到结果的实战流程。全程不绕弯、不跳步、不堆术语，连参考音频该录几秒、标点怎么打、为什么“啊”字后面加个叹号会让语气更惊讶，都会告诉你。

准备好了吗？咱们直接开干。

1. 一分钟启动：Web界面跑起来

别被“部署”两个字吓住。这个镜像已经把所有环境都配好了，你只需要三步，就能看到那个熟悉的网页界面。

1.1 启动命令（复制粘贴即可）

打开终端，依次执行：

cd /root/GLM-TTS source /opt/miniconda3/bin/activate torch29 bash start_app.sh

注意：torch29是预装好的虚拟环境名，必须激活它，否则会报错。这一步不能省。

等终端输出类似Running on public URL: http://localhost:7860的提示后，在你本地电脑的浏览器里打开这个地址：
http://localhost:7860

如果打不开，请确认：

你是在运行镜像的那台机器上操作（比如通过 SSH 连进服务器后，在服务器本地浏览器打开）；
或者你用的是远程桌面/云桌面，确保端口 7860 已映射并放行。

页面加载出来后，你会看到一个干净的界面：左侧是上传区，中间是文本框，右侧是参数滑块和按钮。这就是你的语音工厂控制台。

1.2 界面初识：四个核心区域

「参考音频」上传区：拖入一段人声录音（3–10秒），这是你想要“克隆”的声音底子；
「参考音频对应的文本」框：如果知道这段录音念的是什么，就原样填进去（比如录音里说的是“今天天气真好”，就填这句）；
「要合成的文本」框：这才是重头戏——你想让这个声音说的新内容，比如“这款新品支持语音唤醒，三秒响应，超快！”；
「开始合成」按钮：点它，模型就开始工作了。

先别急着填长段文字。我们先用一句最简单的来测试通路是否畅通。

2. 第一次合成：让AI说出“你好，很高兴见到你！”

我们用最短路径验证整个流程是否跑通。目标：生成一句带笑意的问候语。

2.1 准备参考音频（关键！）

你不需要专业录音棚。用手机自带录音机，找一个安静角落，按下面要求录一段：

这样做：

对着手机说：“你好，很高兴见到你！”（语速适中，嘴角微微上扬，像真的在打招呼）
录制时保持距离手机15cm左右，避免喷麦
录完检查：没有空调声、键盘声、狗叫——只有清晰的人声

不要这样做：

播放微信语音再录（二次压缩失真）
在地铁站、咖啡馆录（背景噪音毁掉克隆效果）
录1秒就停（太短，模型学不到音色特征）

如果你暂时没时间录，镜像里已内置示例音频，路径是examples/prompt/demo_zh.wav，可直接上传使用。

2.2 填写文本与设置

区域	填写内容	说明
参考音频对应的文本	`你好，很高兴见到你！`	和你录音内容完全一致，一个字都不能错
要合成的文本	`你好，很高兴见到你！`	先和参考文本一样，确保音色复现准确
高级设置 → 采样率	`24000`	默认值，速度快，适合首次测试
高级设置 → 随机种子	`42`	固定值，保证每次结果可复现

小技巧：感叹号“！”在这里不是摆设。GLM-TTS 会把它识别为语气上扬、情绪积极的信号，比句号“。”更能触发“开心”语调。

2.3 点击合成 & 验证结果

点击「开始合成」，等待 5–10 秒（GPU性能越好越快）。界面上会出现播放按钮，点它听一下：

声音是不是和你上传的录音很像？（音色相似度）
语调是不是上扬的、轻快的？（情绪表达）
“高兴”两个字有没有自然的重音和微顿？（韵律感）

如果听起来基本满意，恭喜你，第一步已成功。接下来，我们升级难度：让同一个声音，说出完全不同的情绪。

3. 情绪切换实战：愤怒、悲伤、惊讶，一音多面

GLM-TTS 最厉害的地方，不是“能说话”，而是“懂情绪”。它不靠后期加混响或变速，而是从声学建模层就学习了不同情绪下的基频、能量、时长变化规律。实现方式很简单：换一段带目标情绪的参考音频。

3.1 三种情绪音频准备指南

你不需要请配音演员。用手机就能搞定，关键是“演得像”：

情绪	录音建议	示例文本	关键细节
愤怒	声音压低、语速加快、字字用力	“这根本不行！”	“不”字咬牙，“行”字短促收尾，带点气声
悲伤	语速放慢、音量降低、尾音下沉	“我……可能做不到。”	中间加0.5秒停顿，“到”字音高明显下降
惊讶	音高突然拔高、语速前快后慢	“天啊！真的假的？！”	“天啊”二字音高陡升，“假的”尾音拉长带颤

提示：每种情绪录1条就够了，3–8秒，清晰无杂音。存成 WAV 或 MP3，命名如angry.wav、sad.wav。

3.2 一次操作，三种情绪对比

我们用同一句文案，分别用三段不同情绪的参考音频生成语音，直观感受差异：

文案：会议推迟到明天下午三点，请知悉。
操作：
1. 上传angry.wav→ 填文案 → 合成 → 得到“质问式”通知；
2. 上传sad.wav→ 填文案 → 合成 → 得到“抱歉式”通知；
3. 上传surprised.wav→ 填文案 → 合成 → 得到“意外发现式”通知。

你会发现：不是简单变快变慢，而是整句话的呼吸感、重音位置、甚至“请知悉”三个字的连读方式都变了。这才是真正的情绪迁移，不是贴标签。

3.3 情绪强化技巧：标点+空格=语气开关

即使参考音频情绪不够强，你也能用文本微调来补足：

会议推迟到明天下午三点，请知悉。→ 平稳陈述
会议推迟到明天下午三点！！！请知悉～→ 惊讶+轻松
会议……推迟到……明天……下午三点……请……知悉……→ 犹豫/疲惫
会议推迟到明天下午三点？！请知悉。→ 不信+确认

GLM-TTS 会把多个感叹号、省略号、波浪号当作韵律提示，自动调整语调曲线。这是小白最容易上手的“情绪调参”。

4. 进阶控制：让发音更准、更自然、更像真人

音色和情绪有了，下一步是“细节真实感”。很多人一听AI语音就出戏，问题常出在：多音字念错（“长”读 cháng 还是 zhǎng）、英文单词生硬（“iPhone”读成“爱风”）、停顿不自然（一口气念完200字）。

GLM-TTS 提供了三招，专治这些“小毛病”。

4.1 多音字精准控制：用音素模式

中文里“行”“重”“发”等字，上下文不同读音就不同。默认模式靠上下文猜，但有时会猜错。

启用音素模式（Phoneme Mode），让你手动指定每个字怎么读：

在 Web 界面中，找到「⚙ 高级设置」→ 勾选「启用音素控制」（如果界面未显示，说明需命令行启动，见下文）；
或直接运行命令行（适合批量处理）：

cd /root/GLM-TTS source /opt/miniconda3/bin/activate torch29 python glmtts_inference.py \ --prompt_audio examples/prompt/demo_zh.wav \ --prompt_text "你好，很高兴见到你" \ --input_text "重庆（chong2 qing4）火锅很重（zhong4）要（yao4）" \ --use_phoneme \ --output_name @outputs/chongqing.wav

关键点：--use_phoneme参数开启音素解析；括号里的拼音（如chong2 qing4）会被严格按标注发音，不再猜测。

你还可以自定义发音字典：编辑configs/G2P_replace_dict.jsonl，添加一行：

{"char": "iPhone", "pinyin": "ai4 feng1"}

下次遇到 iPhone，就永远读作“爱风”。

4.2 中英混合自然化：停顿与语调自动适配

GLM-TTS 对中英混排做了专项优化。你不需要加任何标记，它会自动：

在中英文交界处插入合理停顿（比纯中文稍长）；
英文单词按英语语调起伏，不平铺直叙；
数字、年份、缩写（如“AI”“PDF”）自动识别并正确发音。

实测有效句式：

我们的产品支持 AI（人工智能）和 PDF 导出。
价格是 ¥99，有效期至 2025-12-31。
下载 App Store 或华为应用市场。

注意：避免中英文单词间不加空格，如AI人工智能（应为AI 人工智能），否则模型可能误判为一个词。

4.3 长文本不累听：分段合成 + 语义停顿

超过100字的文本，如果一次性合成，容易出现气息不匀、重点模糊的问题。

推荐做法：按语义分段，逐段合成，再拼接：

原文：欢迎来到智谱AI。我们专注于大模型基础研究与产业落地。GLM-TTS是我们的开源TTS模型，支持零样本克隆、情感表达和音素控制。
分段建议：
- 欢迎来到智谱AI。
- 我们专注于大模型基础研究与产业落地。
- GLM-TTS是我们的开源TTS模型，
- 支持零样本克隆、情感表达和音素控制。

每段单独合成，导出为part1.wav、part2.wav… 再用 Audacity 等免费工具合并。好处是：每段都能独立控制情绪和语速，整体节奏更像真人讲话。

5. 批量生产：一天生成1000条语音，不熬夜不加班

当你需要为电商商品页配100条卖点语音、为教育APP生成500个单词发音、为客服系统准备200条应答话术时，手动点1000次“开始合成”显然不现实。批量推理功能，就是为此而生。

5.1 准备任务清单（JSONL格式）

新建一个文本文件，命名为batch_tasks.jsonl，内容如下（每行一个JSON对象，无逗号分隔）：

{"prompt_audio": "examples/prompt/teacher_happy.wav", "prompt_text": "同学们好！", "input_text": "今天我们要学习分数的加减法。", "output_name": "math_001"} {"prompt_audio": "examples/prompt/teacher_happy.wav", "prompt_text": "同学们好！", "input_text": "请看黑板上的第一个例子。", "output_name": "math_002"} {"prompt_audio": "examples/prompt/customer_service.wav", "prompt_text": "您好，这里是智谱客服。", "input_text": "您的订单已发货，预计明天送达。", "output_name": "order_shipped"}

规则很简单：

prompt_audio：必须是镜像内绝对路径（以/root/GLM-TTS/开头，或相对examples/路径）；
input_text：你要合成的正文，支持中文、英文、标点；
output_name：生成的文件名（不含扩展名），如不填，自动编号为output_0001.wav。

5.2 上传 & 启动批量任务

切换到 Web 界面的「批量推理」标签页；
点击「上传 JSONL 文件」，选择你刚创建的batch_tasks.jsonl；
设置参数：采样率选24000（兼顾速度与质量），随机种子填42（保证结果一致）；
点击「开始批量合成」。

你会看到实时进度条和日志流。成功后，所有音频打包成batch_output.zip，下载解压即可。

批量任务失败？别慌。GLM-TTS 设计为“容错批量”：某一行JSON格式错误或音频路径不对，只跳过该条，其余任务照常执行。查看日志末尾的ERROR行，就能快速定位哪一行出了问题。

6. 效果优化锦囊：从“能用”到“惊艳”的7个细节

很多用户第一次生成后觉得“还行”，但离“哇，这真是我的声音？”还有距离。这7个细节，是科哥团队在上百次实测中总结出的提效关键：

6.1 参考音频：3秒是底线，8秒是黄金长度

少于3秒：模型提取音色特征不足，克隆像“影子”；
5–8秒：信息量充足，且不易引入环境噪音；
超过10秒：冗余信息增多，反而干扰情感判断。

6.2 文本长度：单次合成建议≤120字

≤50字：5–10秒，情绪饱满，细节丰富；
50–120字：15–25秒，需注意分段停顿；
＞120字：建议拆分，否则后半段易出现“气息衰减”感（音量渐弱、语速变快）。

6.3 标点即节奏：善用“，”“。”“？”“！”“……”

逗号“，”：约0.3秒停顿；
句号“。”：约0.6秒停顿+轻微降调；
问号“？”：升调+0.4秒停顿；
省略号“……”：延长停顿+气息减弱，制造悬念感。

6.4 随机种子不是玄学：42是起点，不是终点

seed=42是默认值，适合快速验证；
如果某次生成“语气偏冷”，试试seed=123或seed=888，不同种子会带来细微的韵律变化；
批量生产时务必固定 seed，保证1000条语音风格统一。

6.5 采样率选择：24kHz够用，32kHz保命

日常使用、短视频配音、客服播报 →24000（快、显存省、效果足够好）；
有声书出版、高端品牌广告、需要HiFi音质 →32000（细节更丰润，但耗时+30%，显存+2GB）。

6.6 清理显存：合成卡顿？一键释放

连续合成10+条后，如果界面变慢或报CUDA out of memory，别重启服务。点击右上角「🧹 清理显存」按钮，3秒内释放全部GPU内存，继续干活。

6.7 建立你的“声音素材库”

把效果最好的参考音频，按情绪/场景分类存档：/voicebank/happy_customer.wav、/voicebank/serious_news.wav；
记录每条音频的seed值和采样率，形成配置表；
下次同类需求，直接调用，省去反复调试时间。

7. 总结：你已经掌握了AI语音的“情绪开关”

回看一下，我们从打开终端的第一行命令开始，一路走到了这里：

你学会了如何用一段3秒录音，克隆出自己的声音；
你掌握了用不同情绪的参考音频，让AI说出愤怒、悲伤、惊讶的语气；
你用标点符号和音素控制，解决了多音字、中英混读这些“细节雷区”；
你搭建了批量生产流水线，把重复劳动交给机器；
你拿到了7条经过实战检验的优化技巧，让语音从“能听”变成“想听”。

GLM-TTS 的价值，从来不只是“把文字变声音”。它的核心能力，是把人类表达中的微妙情绪、自然停顿、个性语调，用极简的方式交到你手上。你不需要成为语音学家，只要懂得“什么时候该用哪个语气”，就能产出打动人心的声音内容。

现在，你的语音工厂已经就位。接下来，轮到你定义场景了：是给孩子的睡前故事配上温柔妈妈音？还是为销售话术注入自信坚定感？又或者，用方言克隆功能，让家乡话在短视频里活起来？

答案不在模型里，而在你的创意中。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

手把手教你用GLM-TTS生成带情绪的AI语音