Whisper语音识别字幕生成：SRT文件自动导出教程-育师

Whisper语音识别字幕生成：SRT文件自动导出教程

1. 引言

随着多语言内容的快速增长，高效、准确地将音频转换为文本已成为视频制作、在线教育、会议记录等场景中的关键需求。OpenAI推出的Whisper模型凭借其强大的多语言语音识别能力，成为当前最受欢迎的开源语音转录工具之一。其中，large-v3版本支持高达99种语言的自动检测与转录，在准确性与泛化能力上表现尤为突出。

本文将围绕基于Whisper large-v3构建的Web服务——“Whisper语音识别-多语言-large-v3语音识别模型（by113小贝）”展开，重点讲解如何利用该系统实现语音到字幕的自动化处理，并最终导出标准SRT格式字幕文件。文章属于教程指南类（Tutorial-Style），提供从环境配置到功能使用的完整操作路径，确保读者能够快速上手并集成至实际工作流中。

2. 系统架构与技术栈解析

2.1 整体架构概览

本项目构建了一个轻量级但功能完整的Web接口服务，用户可通过浏览器上传音频或使用麦克风实时录音，系统后端调用本地部署的Whisper large-v3模型完成语音识别，并将结果以文本形式返回。在此基础上扩展了SRT字幕生成功能，满足视频后期制作的实际需求。

整个流程如下：

[音频输入] → [FFmpeg解码] → [Whisper GPU推理] → [时间戳对齐] → [SRT格式封装] → [下载输出]

2.2 核心技术组件说明

组件	版本	作用
Whisper large-v3	v3	主模型，负责高精度多语言语音识别
Gradio	4.x	提供可视化Web界面，简化交互逻辑
PyTorch	-	深度学习框架，支撑模型加载与推理
CUDA 12.4	-	实现GPU加速，显著提升推理速度
FFmpeg 6.1.1	-	音频预处理，统一输入格式

该组合兼顾性能与易用性，适合在高性能GPU服务器上长期运行。

3. 环境准备与服务部署

3.1 硬件与系统要求

为保障Whisper large-v3模型的稳定运行，建议使用以下最低配置：

资源	推荐规格
GPU	NVIDIA RTX 4090 D（23GB显存）或同等及以上
内存	16GB以上
存储空间	至少10GB可用空间（含模型缓存）
操作系统	Ubuntu 24.04 LTS（推荐）

注意：若使用较小显存GPU（如RTX 3090，24GB），可考虑切换至medium或small模型以避免CUDA内存溢出。

3.2 依赖安装与初始化

首先克隆项目目录并进入根路径：

git clone https://github.com/by113/whisper-large-v3.git cd whisper-large-v3

安装Python依赖包：

pip install -r requirements.txt

安装音频处理工具FFmpeg（Ubuntu系统）：

sudo apt-get update && sudo apt-get install -y ffmpeg

3.3 启动Web服务

执行主程序启动服务：

python3 app.py

默认情况下，服务将在http://localhost:7860启动Web UI界面。如果需远程访问，请修改app.py中的监听地址为0.0.0.0并开放防火墙端口。

成功启动后，终端会显示类似以下状态信息：

Running on local URL: http://127.0.0.1:7860 Running on public URL: https://<random-hash>.gradio.live

此时可通过任意设备访问该地址进行语音识别测试。

4. 功能使用与SRT字幕导出实践

4.1 Web界面操作指南

打开浏览器访问http://localhost:7860，您将看到简洁的操作面板，包含以下核心功能区域：

音频上传区：支持WAV、MP3、M4A、FLAC、OGG等多种格式
麦克风输入按钮：支持实时语音录入
识别模式选择：
- Transcribe（原语言转录）
- Translate（翻译为英语）
语言选项：可手动指定语言或设为“auto”自动检测
提交按钮：触发识别任务

点击“Submit”后，系统开始处理音频，通常几秒内即可返回识别文本。

4.2 SRT字幕自动生成原理

SRT（SubRip Subtitle）是一种广泛使用的字幕格式，其结构由序号、时间戳和文本三部分组成，示例如下：

1 00:00:01,000 --> 00:00:04,000 这是一个示例字幕行。 2 00:00:05,000 --> 00:00:08,000 第二句出现在四秒之后。

Whisper模型在推理过程中不仅输出文本，还包含每个片段的时间戳（segments字段），这为自动生成SRT提供了天然支持。

4.3 修改代码实现SRT导出功能

原始项目未直接提供SRT下载按钮，我们可通过扩展app.py实现一键导出。以下是关键代码补全步骤。

步骤一：添加SRT格式化函数

在app.py文件顶部附近添加以下辅助函数：

def generate_srt(segments): """将Whisper输出的segments转换为SRT格式字符串""" srt_lines = [] for i, seg in enumerate(segments, start=1): start = format_timestamp(seg['start']) end = format_timestamp(seg['end']) text = seg['text'].strip() srt_lines.append(f"{i}\n{start} --> {end}\n{text}\n") return "\n".join(srt_lines) def format_timestamp(seconds: float) -> str: """将秒数转为SRT时间格式 HH:MM:SS,mmm""" assert seconds >= 0, "时间戳不能为负" milliseconds = int((seconds % 1) * 1000) total_seconds = int(seconds) h = total_seconds // 3600 m = (total_seconds % 3600) // 60 s = total_seconds % 60 return f"{h:02d}:{m:02d}:{s:02d},{milliseconds:03d}"

步骤二：修改Gradio输出组件

找到原有的Gradio界面定义部分（通常是gr.Interface或gr.Blocks），将其输出组件改为支持文本框+文件下载的形式。

示例修改如下：

with gr.Blocks() as demo: gr.Markdown("# Whisper语音识别 & SRT字幕生成") with gr.Row(): audio_input = gr.Audio(type="filepath", label="上传音频") output_text = gr.Textbox(label="识别结果") output_srt = gr.File(label="下载SRT字幕文件") with gr.Row(): mode = gr.Radio(["transcribe", "translate"], label="模式", value="transcribe") lang = gr.Dropdown(["auto", "zh", "en", "ja", "ko", "fr", "de"] + OTHER_LANGS, label="语言", value="auto") btn = gr.Button("开始识别并生成SRT") def process_audio(audio_path, task_mode, language): # 加载模型（建议全局加载一次） import whisper model = whisper.load_model("large-v3", device="cuda") # 执行转录 options = {"task": task_mode} if language != "auto": options["language"] = language result = model.transcribe(audio_path, **options) # 生成SRT内容 srt_content = generate_srt(result["segments"]) # 写入临时文件 srt_path = "/tmp/output.srt" with open(srt_path, "w", encoding="utf-8") as f: f.write(srt_content) return result["text"], srt_path btn.click( fn=process_audio, inputs=[audio_input, mode, lang], outputs=[output_text, output_srt] )

步骤三：重启服务验证功能

保存更改后重新运行：

python3 app.py

刷新页面，上传一段中文音频并点击“开始识别并生成SRT”，稍等片刻即可在下方看到文本输出及一个可下载的.srt文件链接。

5. 常见问题与优化建议

5.1 典型故障排查

问题现象	可能原因	解决方案
提示`ffmpeg not found`	缺少音频处理工具	安装FFmpeg：`apt-get install -y ffmpeg`
识别卡顿或超时	GPU显存不足	更换为`medium`模型或升级硬件
自动语言检测失败	音质差或语种冷门	手动指定语言提高准确率
SRT时间错乱	时间戳精度丢失	检查`format_timestamp`函数是否正确

5.2 性能优化建议

模型缓存：首次运行会自动从Hugging Face下载large-v3.pt（约2.9GB），存放于/root/.cache/whisper/，后续无需重复下载。
批量处理：可通过脚本方式调用API实现多个音频文件的批量化SRT生成。
降低延迟：对于低延迟需求场景，可启用fp16=True半精度推理以加快速度：
```
model = whisper.load_model("large-v3", device="cuda", fp16=True)
```
离线部署安全提醒：关闭公网暴露风险，生产环境中应配置Nginx反向代理+HTTPS加密。

6. 总结

本文详细介绍了基于Whisper large-v3模型构建的多语言语音识别Web服务，并重点实现了SRT字幕文件的自动导出功能。通过扩展原始项目的前端交互逻辑，我们成功集成了从音频上传、语音识别到字幕下载的一站式解决方案。

核心要点回顾：

环境部署清晰明确：依托Gradio+PyTorch+CUDA技术栈，可在高端GPU上高效运行。
SRT生成机制可靠：利用Whisper自带的时间戳信息，精准构造符合规范的字幕格式。
代码可扩展性强：提供的修改方案易于移植至其他项目，适用于视频剪辑、课程字幕、会议纪要等场景。

未来可进一步拓展方向包括：

支持VTT等其他字幕格式
添加字幕样式编辑功能
集成视频嵌入式渲染（如FFmpeg烧录字幕）

掌握这一套流程后，开发者可以轻松将语音识别能力嵌入自有系统，大幅提升多媒体内容处理效率。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Whisper语音识别字幕生成：SRT文件自动导出教程