Qwen3-ASR-1.7B在Linux系统下的高效部署指南-育师

Qwen3-ASR-1.7B在Linux系统下的高效部署指南

最近阿里开源了Qwen3-ASR系列语音识别模型，其中1.7B版本在多个评测中都达到了开源SOTA水平，支持52种语言和方言，还能识别带背景音乐的歌曲，性能确实挺吸引人的。很多朋友拿到模型后，第一反应就是“怎么在自己的Linux服务器上跑起来？”

今天我就来分享一下在Ubuntu 20.04系统上部署Qwen3-ASR-1.7B的完整流程。我会尽量把每一步都讲清楚，特别是那些容易踩坑的地方，让你能顺利地把这个强大的语音识别模型用起来。

1. 部署前的准备工作

在开始安装之前，我们先来看看需要准备些什么。Qwen3-ASR-1.7B对硬件和软件环境都有一些基本要求，提前了解清楚能避免很多不必要的麻烦。

1.1 硬件和系统要求

首先说说硬件。这个模型有1.7B参数，虽然不算特别大，但还是需要一定的计算资源。建议至少准备8GB的GPU显存，这样运行起来会比较顺畅。如果显存小一些，比如6GB，也可以通过调整批次大小等参数来运行，只是速度会慢一点。

CPU方面倒没有特别高的要求，现代的多核处理器基本都能胜任。内存建议16GB以上，因为加载模型和处理音频数据都需要占用一定的内存空间。

系统方面，我这次用的是Ubuntu 20.04 LTS，这也是很多服务器上比较常见的版本。理论上其他Linux发行版也可以，但下面的命令和步骤都是基于Ubuntu来写的，如果你用其他系统，可能需要做一些调整。

1.2 基础环境检查

开始之前，先检查一下你的系统环境。打开终端，运行这几个命令看看：

# 检查Python版本 python3 --version # 检查CUDA是否可用（如果你有GPU的话） nvidia-smi # 检查pip版本 pip3 --version

Python需要3.8或更高版本，我建议用Python 3.10，兼容性比较好。如果你看到nvidia-smi输出了GPU信息，说明CUDA驱动已经装好了。如果还没有安装CUDA，需要先根据你的显卡型号安装合适的驱动。

2. 创建虚拟环境与安装依赖

我强烈建议使用虚拟环境来管理Python包，这样能避免不同项目之间的依赖冲突。下面我们就一步步来搭建环境。

2.1 创建并激活虚拟环境

先安装virtualenv，如果你还没有的话：

sudo apt update sudo apt install python3-venv -y

然后创建一个新的虚拟环境：

# 创建虚拟环境目录 python3 -m venv qwen_asr_env # 激活虚拟环境 source qwen_asr_env/bin/activate

激活后，你的命令行提示符前面应该会出现(qwen_asr_env)，表示你现在在这个虚拟环境里工作。后续的所有安装操作都应该在这个激活的环境中进行。

2.2 安装PyTorch和基础依赖

Qwen3-ASR基于PyTorch，所以我们需要先安装合适版本的PyTorch。根据你的CUDA版本选择对应的安装命令：

# 如果你用的是CUDA 11.8 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 如果你用的是CUDA 12.1 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 # 如果没有GPU，只使用CPU pip install torch torchvision torchaudio

安装完成后，可以验证一下PyTorch是否能正确识别GPU：

import torch print(f"PyTorch版本: {torch.__version__}") print(f"CUDA是否可用: {torch.cuda.is_available()}") if torch.cuda.is_available(): print(f"GPU设备: {torch.cuda.get_device_name(0)}")

2.3 安装Qwen3-ASR相关包

接下来安装Qwen3-ASR的核心包。官方提供了两种安装方式，一种是基础安装，另一种是包含vLLM后端的安装。vLLM能显著提升推理速度，特别是处理批量请求的时候。

# 基础安装（如果不需要vLLM） pip install qwen-asr # 或者安装包含vLLM后端的版本（推荐） pip install "qwen-asr[vllm]"

这里有个小细节要注意：vLLM对系统环境有一定要求，必须在Linux环境下安装。如果你在Windows上通过WSL2运行Ubuntu，那也是可以的，但纯Windows环境就不行了。

安装过程中可能会遇到一些依赖冲突，特别是transformers库的版本问题。如果出现版本错误，可以尝试指定版本安装：

pip install transformers==4.40.0

3. 模型下载与配置

环境准备好了，接下来就是下载模型。Qwen3-ASR-1.7B模型文件大概有3.4GB，下载需要一些时间，也需要注意存储空间。

3.1 设置模型缓存路径

默认情况下，模型会下载到用户目录的缓存文件夹里。但有时候我们希望指定一个特定的位置，特别是当系统盘空间不足的时候。可以通过设置环境变量来实现：

# 设置ModelScope的缓存路径 export MODELSCOPE_CACHE=/path/to/your/cache echo 'export MODELSCOPE_CACHE=/path/to/your/cache' >> ~/.bashrc # 设置HuggingFace的缓存路径（如果你从HuggingFace下载） export HF_HUB_CACHE=/path/to/your/cache echo 'export HF_HUB_CACHE=/path/to/your/cache' >> ~/.bashrc # 使环境变量生效 source ~/.bashrc

把/path/to/your/cache换成你实际想存放模型的路径，比如/home/username/models。记得这个路径要有足够的写入权限。

3.2 下载模型文件

现在可以开始下载模型了。Qwen3-ASR提供了多种下载方式，我比较推荐使用ModelScope，因为对国内用户来说速度会快一些。

# 安装ModelScope pip install modelscope # 下载1.7B模型 modelscope download --model Qwen/Qwen3-ASR-1.7B

下载过程可能会持续一段时间，取决于你的网络速度。你可以看到进度条和下载速度。如果中途断网了，重新运行命令会继续下载，不用从头开始。

如果你想从HuggingFace下载，也可以这样：

from qwen_asr import Qwen3ASRModel import os # 这会自动从HuggingFace下载模型 model = Qwen3ASRModel.from_pretrained("Qwen/Qwen3-ASR-1.7B")

下载完成后，你可以在之前设置的缓存路径里找到模型文件。模型目录结构大概长这样：

Qwen3-ASR-1.7B/ ├── config.json ├── model.safetensors ├── tokenizer.json └── ...其他配置文件

4. 基础使用与快速测试

模型下载好了，我们先来跑个简单的测试，看看一切是否正常。这是最让人兴奋的一步——终于能看到模型的实际效果了。

4.1 加载模型并运行第一个识别

创建一个Python脚本，比如叫test_asr.py，写入以下内容：

import torch from qwen_asr import Qwen3ASRModel import os # 加载模型 model = Qwen3ASRModel.from_pretrained( os.path.join( os.environ.get("MODELSCOPE_CACHE", ""), "models", "Qwen", "Qwen3-ASR-1.7B" ), dtype=torch.bfloat16, # 使用bfloat16减少内存占用 device_map="cuda:0", # 使用第一个GPU max_inference_batch_size=32, max_new_tokens=256, ) # 使用官方提供的测试音频 results = model.transcribe( audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav", language=None, # 设置为None让模型自动检测语言 ) # 打印结果 print(f"检测到的语言: {results[0].language}") print(f"识别文本: {results[0].text}")

运行这个脚本：

python test_asr.py

如果一切正常，你会看到类似这样的输出：

检测到的语言: English 识别文本: This is a test audio for Qwen3-ASR model demonstration.

第一次运行可能会慢一些，因为模型需要加载到GPU内存中。后续的调用就会快很多了。

4.2 处理本地音频文件

实际使用中，我们更多是处理本地的音频文件。Qwen3-ASR支持多种音频格式，包括WAV、MP3、FLAC等。下面是一个处理本地文件的例子：

from qwen_asr import Qwen3ASRModel import torch model = Qwen3ASRModel.from_pretrained( "Qwen/Qwen3-ASR-1.7B", dtype=torch.bfloat16, device_map="cuda:0", ) # 处理本地音频文件 results = model.transcribe( audio="/path/to/your/audio.wav", # 你的本地音频文件路径 language="Chinese", # 可以指定语言，提高识别准确率 ) print(f"识别结果: {results[0].text}")

如果你不确定音频的语言，可以不指定language参数，让模型自动检测。模型支持52种语言和方言，自动检测的准确率还挺高的。

5. 高级功能与服务化部署

基础功能跑通后，我们来看看一些更实用的功能，比如流式识别和API服务部署。这些功能在实际项目中特别有用。

5.1 流式语音识别

流式识别适合实时语音转写场景，比如语音助手、实时字幕等。Qwen3-ASR的流式识别需要vLLM后端支持，这也是为什么我之前推荐安装vLLM版本的原因。

下面是一个流式识别的示例代码：

import numpy as np import soundfile as sf from qwen_asr import Qwen3ASRModel # 初始化流式识别模型 asr = Qwen3ASRModel.LLM( model="Qwen/Qwen3-ASR-1.7B", gpu_memory_utilization=0.8, # GPU内存使用率 max_new_tokens=32, # 流式识别时设置小一些 ) # 读取音频文件 wav, sr = sf.read("your_audio.wav", dtype="float32") # 如果采样率不是16kHz，需要重采样 if sr != 16000: # 简单的重采样逻辑（实际项目中建议用librosa等库） duration = len(wav) / sr new_length = int(duration * 16000) wav_16k = np.interp( np.linspace(0, len(wav)-1, new_length), np.arange(len(wav)), wav ) else: wav_16k = wav # 初始化流式状态 state = asr.init_streaming_state( unfixed_chunk_num=2, unfixed_token_num=5, chunk_size_sec=2.0, ) # 模拟流式输入（比如每500ms输入一段） chunk_size = int(0.5 * 16000) # 500ms的采样点数 for i in range(0, len(wav_16k), chunk_size): chunk = wav_16k[i:i+chunk_size] if len(chunk) == 0: break # 流式识别 asr.streaming_transcribe(chunk, state) # 打印中间结果 print(f"[进度 {i/len(wav_16k)*100:.1f}%] 当前文本: {state.text}") # 结束流式识别 asr.finish_streaming_transcribe(state) print(f"最终结果: {state.text}")

流式识别的好处是能够实时输出部分结果，用户不用等到整个音频处理完就能看到转写内容，体验更好。

5.2 启动API服务

如果你想让其他程序也能调用这个语音识别功能，可以把它部署成API服务。Qwen3-ASR自带了一个简单的服务脚本，用起来很方便。

在终端中运行：

qwen-asr-serve Qwen/Qwen3-ASR-1.7B \ --gpu-memory-utilization 0.8 \ --host 0.0.0.0 \ --port 8000

这个命令会启动一个HTTP服务，监听8000端口。你可以用curl或者其他HTTP客户端来调用它：

curl -X POST http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "messages": [ { "role": "user", "content": [ { "type": "audio_url", "audio_url": { "url": "https://example.com/audio.wav" } } ] } ] }'

服务会返回JSON格式的识别结果。这种部署方式特别适合微服务架构，你的其他应用可以通过HTTP API来使用语音识别功能，而不需要直接处理模型加载和GPU内存管理这些复杂问题。

6. 性能优化与问题排查

在实际使用中，你可能会遇到一些性能问题或者错误。这里我分享一些优化经验和常见问题的解决方法。

6.1 内存和性能优化

Qwen3-ASR-1.7B对显存的需求大概在6-8GB左右，具体取决于批次大小和音频长度。如果你发现显存不足，可以尝试这些方法：

# 调整批次大小，减少显存占用 model = Qwen3ASRModel.from_pretrained( "Qwen/Qwen3-ASR-1.7B", dtype=torch.float16, # 使用float16而不是bfloat16，有些显卡兼容性更好 device_map="cuda:0", max_inference_batch_size=4, # 减小批次大小 max_new_tokens=128, # 减少最大生成token数 ) # 或者使用CPU卸载（速度会慢很多） model = Qwen3ASRModel.from_pretrained( "Qwen/Qwen3-ASR-1.7B", device_map="auto", # 自动分配设备 offload_folder="offload", # CPU卸载的临时文件夹 )

对于长音频处理，模型支持最长20分钟的音频。但如果你的音频特别长，建议先分割成小段再处理，这样更稳定也更容易排查问题。

6.2 常见问题解决

我在部署过程中遇到过一些问题，这里总结一下：

问题1：CUDA版本不兼容

Found GPU0 NVIDIA GeForce GTX 1060 which is of cuda capability 6.1. Minimum and Maximum cuda capability supported by this version of PyTorch is (7.5) - (12.0)

这是因为你的显卡算力太低，PyTorch新版本不支持。解决方法是用老版本的PyTorch：

pip install torch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1

问题2：transformers版本冲突

ImportError: cannot import name 'xxx' from 'transformers'

尝试指定transformers版本：

pip install transformers==4.40.0

问题3：音频格式不支持

Error loading audio file

确保音频文件是常见的格式（WAV、MP3、FLAC等），并且采样率在8kHz-48kHz之间。如果采样率不对，可以用ffmpeg转换：

ffmpeg -i input.mp3 -ar 16000 output.wav

问题4：内存不足

CUDA out of memory

尝试减小批次大小，或者使用更小的模型（Qwen3-ASR-0.6B），0.6B版本只需要3-4GB显存，速度还更快。

7. 实际应用建议

部署好模型之后，怎么在实际项目中使用呢？我根据自己的经验给你一些建议。

如果你要做实时语音转写，比如视频会议的字幕生成，建议用流式识别模式。设置合适的chunk大小（比如500ms到1秒），这样延迟和准确率能有个比较好的平衡。

对于批量处理大量音频文件的情况，可以用异步处理的方式。先启动API服务，然后写个脚本批量调用。Qwen3-ASR-0.6B版本在批量处理上效率很高，官方说128并发下能达到2000倍吞吐，10秒能处理5小时音频，这个数据挺惊人的。

在多语言场景下，如果你知道音频的语言，最好明确指定language参数，这样识别准确率会更高。如果不确定，就让模型自动检测，它的多语言识别能力还是很强的。

最后提醒一点，虽然模型支持22种中文方言，但不同方言的识别准确率会有差异。普通话和粤语的准确率最高，其他方言可能需要在实际使用中测试一下效果。

整体用下来，Qwen3-ASR-1.7B的部署过程还算顺利，官方提供的工具链比较完整，从模型下载到服务部署都有现成的方案。性能方面确实不错，特别是多语言支持和复杂场景下的稳定性，比之前用过的不少开源模型要好。

如果你刚接触语音识别，建议先从简单的例子开始，跑通整个流程后再尝试更复杂的应用。遇到问题多看看官方文档和GitHub上的讨论，很多常见问题都有解决方案。这个模型的开源确实降低了语音识别的使用门槛，期待看到更多基于它的创新应用。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Qwen3-ASR-1.7B在Linux系统下的高效部署指南