Paraformer-large语音关键词提取：转写后信息提炼实战-育师

Paraformer-large语音关键词提取：转写后信息提炼实战

1. 背景与应用场景

在语音处理的实际项目中，仅完成语音到文字的转写往往只是第一步。面对会议录音、访谈记录、客服对话等长音频内容，如何从大量转录文本中快速提取关键信息，成为提升信息处理效率的核心挑战。

Paraformer-large 是阿里达摩院推出的高性能非自回归语音识别模型，在工业级 ASR 场景中表现出色。结合其自带的 VAD（语音活动检测）和 Punc（标点恢复）能力，该模型特别适合用于离线长音频的高精度转写任务。然而，原始转写结果仍为连续文本流，缺乏结构化表达。

本文将围绕“转写 + 提炼”一体化流程，介绍如何基于 Paraformer-large 完成语音识别，并通过后处理技术实现关键词提取与核心信息摘要，构建完整的语音信息提炼系统。

2. 系统架构设计与模块解析

2.1 整体流程概览

整个系统分为两个主要阶段：

语音转写阶段：使用 Paraformer-large 模型完成高质量 ASR 输出
文本提炼阶段：对 ASR 结果进行清洗、分段、关键词抽取与摘要生成

graph LR A[输入音频] --> B(Paraformer-large ASR) B --> C[原始转写文本] C --> D{文本预处理} D --> E[句子切分] E --> F[停用词过滤] F --> G[关键词提取] G --> H[信息摘要输出]

2.2 语音识别模块详解

本系统采用 FunASR 框架加载iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch模型，具备以下特性：

支持端到端语音检测（VAD），自动分割有效语音片段
内置标点预测（Punc），输出带句号、逗号的可读文本
针对中文优化的大词汇量识别能力
可处理长达数小时的音频文件

核心代码实现

from funasr import AutoModel # 加载支持 VAD 和 Punc 的完整模型 model = AutoModel( model="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch", model_revision="v2.0.4", device="cuda:0" # 推荐使用 GPU 加速 ) def transcribe_audio(audio_path): result = model.generate(input=audio_path, batch_size_s=300) return result[0]['text'] if result else ""

该配置可在保持较高识别速度的同时，获得接近人工听写的准确率，尤其适用于正式场合下的会议或讲座录音。

3. 转写后处理：关键词提取实践

3.1 文本清洗与标准化

ASR 输出虽已较为规整，但仍可能存在重复词、语气助词冗余等问题。需进行初步清洗：

import re def clean_text(text): # 去除多余空格和换行 text = re.sub(r'\s+', ' ', text.strip()) # 过滤常见口语填充词（可根据场景扩展） fillers = ['呃', '嗯', '那个', '就是说', '然后呢'] for word in fillers: text = text.replace(word, '') return text

3.2 基于 TF-IDF 的关键词提取

TF-IDF 是一种经典且高效的关键词提取方法，适用于短语级别的重要词发现。

from sklearn.feature_extraction.text import TfidfVectorizer import jieba def extract_keywords_tfidf(text, top_k=10): # 中文分词 words = jieba.lcut(text) sentences = [w for w in re.split(r'[。！？]', text) if len(w) > 5] # 构建向量化器 vectorizer = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b", ngram_range=(1,2)) tfidf_matrix = vectorizer.fit_transform(sentences) # 获取特征词 feature_names = vectorizer.get_feature_names_out() scores = tfidf_matrix.sum(axis=0).A1 keyword_scores = sorted(zip(feature_names, scores), key=lambda x: -x[1]) return [kw for kw, _ in keyword_scores[:top_k]]

提示：对于专业领域文本（如医疗、法律），建议结合领域词典增强分词效果。

3.3 使用 KeyBERT 提取语义关键词

相比传统统计方法，KeyBERT 利用 BERT 嵌入捕捉上下文语义，更适合提取具有深层含义的关键词。

from keybert import KeyBERT def extract_keywords_bert(text, top_n=8): kw_model = KeyBERT(model="uer/sbert-base-chinese-nli") keywords = kw_model.extract_keywords( text, keyphrase_ngram_range=(1, 2), stop_words='chinese', top_n=top_n ) return [kw[0] for kw in keywords] # 示例调用 keywords = extract_keywords_bert(cleaned_text) print("语义关键词:", keywords)

此方法能有效识别“数字化转型”、“客户满意度”这类复合概念，比单纯词频更具解释力。

4. 实战案例：会议录音信息提炼

4.1 数据准备

选取一段 25 分钟的企业战略会议录音（WAV 格式，16kHz），内容涵盖市场分析、产品规划与资源分配讨论。

执行 ASR 转写后得到约 6800 字的文本，包含多个发言人交替发言。

4.2 处理流程执行

# 步骤一：ASR 转写 raw_text = transcribe_audio("meeting.wav") # 步骤二：文本清洗 cleaned = clean_text(raw_text) # 步骤三：关键词提取对比 tfidf_keys = extract_keywords_tfidf(cleaned, top_k=12) bert_keys = extract_keywords_bert(cleaned, top_n=12) # 输出结果 print("TF-IDF 关键词:", tfidf_keys) print("KeyBERT 关键词:", bert_keys)

输出结果对比

方法	提取关键词示例
TF-IDF	市场份额、增长目标、预算分配、团队建设、季度汇报、上线时间、用户反馈、竞品分析
KeyBERT	数字化转型、客户生命周期管理、跨部门协作机制、敏捷开发模式、KPI考核体系

可见，TF-IDF 更关注高频术语，而 KeyBERT 擅长挖掘抽象主题概念，两者互补性强。

4.3 信息结构化输出模板

最终可将结果组织为结构化报告：

## 📊 会议核心要点提炼 ### 🔑 主要议题关键词 - 数字化转型 - 客户生命周期管理 - 敏捷开发模式 - KPI考核体系 ### 🎯 行动项汇总 1. Q3前完成CRM系统升级（负责人：张伟） 2. 成立跨部门产品小组（启动会：6月15日） 3. 优化客户回访SOP流程（提交草案：6月20日） ### 📈 战略方向聚焦 - 提升高端客户留存率 - 扩大华东区域市场份额 - 构建数据驱动决策机制

此类输出极大提升了非参会人员的信息获取效率。

5. 性能优化与工程建议

5.1 批量处理长音频策略

对于超过 1 小时的音频，建议采用分块处理机制：

def process_long_audio_chunks(audio_path, chunk_duration=300): """每5分钟切分一次，避免内存溢出""" import librosa y, sr = librosa.load(audio_path, sr=16000) chunk_samples = chunk_duration * sr results = [] for i in range(0, len(y), chunk_samples): chunk = y[i:i+chunk_samples] temp_file = f"/tmp/chunk_{i//sr}.wav" librosa.output.write_wav(temp_file, chunk, sr) res = model.generate(input=temp_file)[0]['text'] results.append(res) os.remove(temp_file) return " ".join(results)

5.2 缓存机制提升响应速度

首次运行模型会触发远程下载（~1.7GB）。建议在部署环境中预先缓存模型：

# 手动下载模型至本地缓存 pip install modelscope from modelscope.hub.snapshot_download import snapshot_download model_dir = snapshot_download('iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch')

后续可通过设置环境变量指定缓存路径，避免重复拉取。

5.3 Gradio 界面集成关键词展示

可在原有 Web UI 基础上增加“关键词提取”按钮，形成闭环体验：

with gr.Row(): keyword_btn = gr.Button("提取关键词") keyword_output = gr.Textbox(label="核心关键词", lines=6) keyword_btn.click(fn=extract_keywords_bert, inputs=text_output, outputs=keyword_output)

用户上传音频 → 自动转写 → 一键提炼，全流程可视化操作。