手把手教你用GLM-TTS生成带情绪的AI语音
你有没有试过这样的情景:给短视频配旁白,反复调整语调却总差一口气;做有声书时,机械的朗读让听众三分钟就划走;或者想用自己声音的“数字分身”给客户发个性化语音消息,却卡在音色不自然、情感像机器人上?别急——今天这篇实操指南,就是为你量身定制的。我们不用讲一堆“多模态对齐”“声学建模”这类词,就用最直白的方式,带你从零开始,用科哥打包好的 GLM-TTS 镜像,真正做出有温度、有语气、有情绪起伏的 AI 语音。
这不是理论课,是能立刻打开终端、上传一段录音、输入几句话、5分钟内听到结果的实战流程。全程不绕弯、不跳步、不堆术语,连参考音频该录几秒、标点怎么打、为什么“啊”字后面加个叹号会让语气更惊讶,都会告诉你。
准备好了吗?咱们直接开干。
1. 一分钟启动:Web界面跑起来
别被“部署”两个字吓住。这个镜像已经把所有环境都配好了,你只需要三步,就能看到那个熟悉的网页界面。
1.1 启动命令(复制粘贴即可)
打开终端,依次执行:
cd /root/GLM-TTS source /opt/miniconda3/bin/activate torch29 bash start_app.sh注意:
torch29是预装好的虚拟环境名,必须激活它,否则会报错。这一步不能省。
等终端输出类似Running on public URL: http://localhost:7860的提示后,在你本地电脑的浏览器里打开这个地址:
http://localhost:7860
如果打不开,请确认:
- 你是在运行镜像的那台机器上操作(比如通过 SSH 连进服务器后,在服务器本地浏览器打开);
- 或者你用的是远程桌面/云桌面,确保端口 7860 已映射并放行。
页面加载出来后,你会看到一个干净的界面:左侧是上传区,中间是文本框,右侧是参数滑块和按钮。这就是你的语音工厂控制台。
1.2 界面初识:四个核心区域
- 「参考音频」上传区:拖入一段人声录音(3–10秒),这是你想要“克隆”的声音底子;
- 「参考音频对应的文本」框:如果知道这段录音念的是什么,就原样填进去(比如录音里说的是“今天天气真好”,就填这句);
- 「要合成的文本」框:这才是重头戏——你想让这个声音说的新内容,比如“这款新品支持语音唤醒,三秒响应,超快!”;
- 「 开始合成」按钮:点它,模型就开始工作了。
先别急着填长段文字。我们先用一句最简单的来测试通路是否畅通。
2. 第一次合成:让AI说出“你好,很高兴见到你!”
我们用最短路径验证整个流程是否跑通。目标:生成一句带笑意的问候语。
2.1 准备参考音频(关键!)
你不需要专业录音棚。用手机自带录音机,找一个安静角落,按下面要求录一段:
这样做:
- 对着手机说:“你好,很高兴见到你!”(语速适中,嘴角微微上扬,像真的在打招呼)
- 录制时保持距离手机15cm左右,避免喷麦
- 录完检查:没有空调声、键盘声、狗叫——只有清晰的人声
不要这样做:
- 播放微信语音再录(二次压缩失真)
- 在地铁站、咖啡馆录(背景噪音毁掉克隆效果)
- 录1秒就停(太短,模型学不到音色特征)
如果你暂时没时间录,镜像里已内置示例音频,路径是examples/prompt/demo_zh.wav,可直接上传使用。
2.2 填写文本与设置
| 区域 | 填写内容 | 说明 |
|---|---|---|
| 参考音频对应的文本 | 你好,很高兴见到你! | 和你录音内容完全一致,一个字都不能错 |
| 要合成的文本 | 你好,很高兴见到你! | 先和参考文本一样,确保音色复现准确 |
| 高级设置 → 采样率 | 24000 | 默认值,速度快,适合首次测试 |
| 高级设置 → 随机种子 | 42 | 固定值,保证每次结果可复现 |
小技巧:感叹号“!”在这里不是摆设。GLM-TTS 会把它识别为语气上扬、情绪积极的信号,比句号“。”更能触发“开心”语调。
2.3 点击合成 & 验证结果
点击「 开始合成」,等待 5–10 秒(GPU性能越好越快)。界面上会出现播放按钮,点它听一下:
- 声音是不是和你上传的录音很像?(音色相似度)
- 语调是不是上扬的、轻快的?(情绪表达)
- “高兴”两个字有没有自然的重音和微顿?(韵律感)
如果听起来基本满意,恭喜你,第一步已成功。接下来,我们升级难度:让同一个声音,说出完全不同的情绪。
3. 情绪切换实战:愤怒、悲伤、惊讶,一音多面
GLM-TTS 最厉害的地方,不是“能说话”,而是“懂情绪”。它不靠后期加混响或变速,而是从声学建模层就学习了不同情绪下的基频、能量、时长变化规律。实现方式很简单:换一段带目标情绪的参考音频。
3.1 三种情绪音频准备指南
你不需要请配音演员。用手机就能搞定,关键是“演得像”:
| 情绪 | 录音建议 | 示例文本 | 关键细节 |
|---|---|---|---|
| 愤怒 | 声音压低、语速加快、字字用力 | “这根本不行!” | “不”字咬牙,“行”字短促收尾,带点气声 |
| 悲伤 | 语速放慢、音量降低、尾音下沉 | “我……可能做不到。” | 中间加0.5秒停顿,“到”字音高明显下降 |
| 惊讶 | 音高突然拔高、语速前快后慢 | “天啊!真的假的?!” | “天啊”二字音高陡升,“假的”尾音拉长带颤 |
提示:每种情绪录1条就够了,3–8秒,清晰无杂音。存成 WAV 或 MP3,命名如
angry.wav、sad.wav。
3.2 一次操作,三种情绪对比
我们用同一句文案,分别用三段不同情绪的参考音频生成语音,直观感受差异:
- 文案:
会议推迟到明天下午三点,请知悉。 - 操作:
- 上传
angry.wav→ 填文案 → 合成 → 得到“质问式”通知; - 上传
sad.wav→ 填文案 → 合成 → 得到“抱歉式”通知; - 上传
surprised.wav→ 填文案 → 合成 → 得到“意外发现式”通知。
- 上传
你会发现:不是简单变快变慢,而是整句话的呼吸感、重音位置、甚至“请知悉”三个字的连读方式都变了。这才是真正的情绪迁移,不是贴标签。
3.3 情绪强化技巧:标点+空格=语气开关
即使参考音频情绪不够强,你也能用文本微调来补足:
会议推迟到明天下午三点,请知悉。→ 平稳陈述会议推迟到明天下午三点!!!请知悉~→ 惊讶+轻松会议……推迟到……明天……下午三点……请……知悉……→ 犹豫/疲惫会议推迟到明天下午三点?!请知悉。→ 不信+确认
GLM-TTS 会把多个感叹号、省略号、波浪号当作韵律提示,自动调整语调曲线。这是小白最容易上手的“情绪调参”。
4. 进阶控制:让发音更准、更自然、更像真人
音色和情绪有了,下一步是“细节真实感”。很多人一听AI语音就出戏,问题常出在:多音字念错(“长”读 cháng 还是 zhǎng)、英文单词生硬(“iPhone”读成“爱风”)、停顿不自然(一口气念完200字)。
GLM-TTS 提供了三招,专治这些“小毛病”。
4.1 多音字精准控制:用音素模式
中文里“行”“重”“发”等字,上下文不同读音就不同。默认模式靠上下文猜,但有时会猜错。
启用音素模式(Phoneme Mode),让你手动指定每个字怎么读:
- 在 Web 界面中,找到「⚙ 高级设置」→ 勾选「启用音素控制」(如果界面未显示,说明需命令行启动,见下文);
- 或直接运行命令行(适合批量处理):
cd /root/GLM-TTS source /opt/miniconda3/bin/activate torch29 python glmtts_inference.py \ --prompt_audio examples/prompt/demo_zh.wav \ --prompt_text "你好,很高兴见到你" \ --input_text "重庆(chong2 qing4)火锅很重(zhong4)要(yao4)" \ --use_phoneme \ --output_name @outputs/chongqing.wav关键点:
--use_phoneme参数开启音素解析;括号里的拼音(如chong2 qing4)会被严格按标注发音,不再猜测。
你还可以自定义发音字典:编辑configs/G2P_replace_dict.jsonl,添加一行:
{"char": "iPhone", "pinyin": "ai4 feng1"}下次遇到 iPhone,就永远读作“爱风”。
4.2 中英混合自然化:停顿与语调自动适配
GLM-TTS 对中英混排做了专项优化。你不需要加任何标记,它会自动:
- 在中英文交界处插入合理停顿(比纯中文稍长);
- 英文单词按英语语调起伏,不平铺直叙;
- 数字、年份、缩写(如“AI”“PDF”)自动识别并正确发音。
实测有效句式:
我们的产品支持 AI(人工智能)和 PDF 导出。价格是 ¥99,有效期至 2025-12-31。下载 App Store 或华为应用市场。
注意:避免中英文单词间不加空格,如AI人工智能(应为AI 人工智能),否则模型可能误判为一个词。
4.3 长文本不累听:分段合成 + 语义停顿
超过100字的文本,如果一次性合成,容易出现气息不匀、重点模糊的问题。
推荐做法:按语义分段,逐段合成,再拼接:
原文:
欢迎来到智谱AI。我们专注于大模型基础研究与产业落地。GLM-TTS是我们的开源TTS模型,支持零样本克隆、情感表达和音素控制。分段建议:
欢迎来到智谱AI。我们专注于大模型基础研究与产业落地。GLM-TTS是我们的开源TTS模型,支持零样本克隆、情感表达和音素控制。
每段单独合成,导出为part1.wav、part2.wav… 再用 Audacity 等免费工具合并。好处是:每段都能独立控制情绪和语速,整体节奏更像真人讲话。
5. 批量生产:一天生成1000条语音,不熬夜不加班
当你需要为电商商品页配100条卖点语音、为教育APP生成500个单词发音、为客服系统准备200条应答话术时,手动点1000次“开始合成”显然不现实。批量推理功能,就是为此而生。
5.1 准备任务清单(JSONL格式)
新建一个文本文件,命名为batch_tasks.jsonl,内容如下(每行一个JSON对象,无逗号分隔):
{"prompt_audio": "examples/prompt/teacher_happy.wav", "prompt_text": "同学们好!", "input_text": "今天我们要学习分数的加减法。", "output_name": "math_001"} {"prompt_audio": "examples/prompt/teacher_happy.wav", "prompt_text": "同学们好!", "input_text": "请看黑板上的第一个例子。", "output_name": "math_002"} {"prompt_audio": "examples/prompt/customer_service.wav", "prompt_text": "您好,这里是智谱客服。", "input_text": "您的订单已发货,预计明天送达。", "output_name": "order_shipped"}规则很简单:
prompt_audio:必须是镜像内绝对路径(以/root/GLM-TTS/开头,或相对examples/路径);input_text:你要合成的正文,支持中文、英文、标点;output_name:生成的文件名(不含扩展名),如不填,自动编号为output_0001.wav。
5.2 上传 & 启动批量任务
- 切换到 Web 界面的「批量推理」标签页;
- 点击「上传 JSONL 文件」,选择你刚创建的
batch_tasks.jsonl; - 设置参数:采样率选
24000(兼顾速度与质量),随机种子填42(保证结果一致); - 点击「 开始批量合成」。
你会看到实时进度条和日志流。成功后,所有音频打包成batch_output.zip,下载解压即可。
批量任务失败?别慌。GLM-TTS 设计为“容错批量”:某一行JSON格式错误或音频路径不对,只跳过该条,其余任务照常执行。查看日志末尾的
ERROR行,就能快速定位哪一行出了问题。
6. 效果优化锦囊:从“能用”到“惊艳”的7个细节
很多用户第一次生成后觉得“还行”,但离“哇,这真是我的声音?”还有距离。这7个细节,是科哥团队在上百次实测中总结出的提效关键:
6.1 参考音频:3秒是底线,8秒是黄金长度
- 少于3秒:模型提取音色特征不足,克隆像“影子”;
- 5–8秒:信息量充足,且不易引入环境噪音;
- 超过10秒:冗余信息增多,反而干扰情感判断。
6.2 文本长度:单次合成建议≤120字
- ≤50字:5–10秒,情绪饱满,细节丰富;
- 50–120字:15–25秒,需注意分段停顿;
- >120字:建议拆分,否则后半段易出现“气息衰减”感(音量渐弱、语速变快)。
6.3 标点即节奏:善用“,”“。”“?”“!”“……”
- 逗号“,”:约0.3秒停顿;
- 句号“。”:约0.6秒停顿+轻微降调;
- 问号“?”:升调+0.4秒停顿;
- 省略号“……”:延长停顿+气息减弱,制造悬念感。
6.4 随机种子不是玄学:42是起点,不是终点
seed=42是默认值,适合快速验证;- 如果某次生成“语气偏冷”,试试
seed=123或seed=888,不同种子会带来细微的韵律变化; - 批量生产时务必固定 seed,保证1000条语音风格统一。
6.5 采样率选择:24kHz够用,32kHz保命
- 日常使用、短视频配音、客服播报 →
24000(快、显存省、效果足够好); - 有声书出版、高端品牌广告、需要HiFi音质 →
32000(细节更丰润,但耗时+30%,显存+2GB)。
6.6 清理显存:合成卡顿?一键释放
连续合成10+条后,如果界面变慢或报CUDA out of memory,别重启服务。点击右上角「🧹 清理显存」按钮,3秒内释放全部GPU内存,继续干活。
6.7 建立你的“声音素材库”
- 把效果最好的参考音频,按情绪/场景分类存档:
/voicebank/happy_customer.wav、/voicebank/serious_news.wav; - 记录每条音频的
seed值和采样率,形成配置表; - 下次同类需求,直接调用,省去反复调试时间。
7. 总结:你已经掌握了AI语音的“情绪开关”
回看一下,我们从打开终端的第一行命令开始,一路走到了这里:
- 你学会了如何用一段3秒录音,克隆出自己的声音;
- 你掌握了用不同情绪的参考音频,让AI说出愤怒、悲伤、惊讶的语气;
- 你用标点符号和音素控制,解决了多音字、中英混读这些“细节雷区”;
- 你搭建了批量生产流水线,把重复劳动交给机器;
- 你拿到了7条经过实战检验的优化技巧,让语音从“能听”变成“想听”。
GLM-TTS 的价值,从来不只是“把文字变声音”。它的核心能力,是把人类表达中的微妙情绪、自然停顿、个性语调,用极简的方式交到你手上。你不需要成为语音学家,只要懂得“什么时候该用哪个语气”,就能产出打动人心的声音内容。
现在,你的语音工厂已经就位。接下来,轮到你定义场景了:是给孩子的睡前故事配上温柔妈妈音?还是为销售话术注入自信坚定感?又或者,用方言克隆功能,让家乡话在短视频里活起来?
答案不在模型里,而在你的创意中。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。