news 2026/7/6 5:55:07

如何在算力云上部署Qwen/Qwen3-8B

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
如何在算力云上部署Qwen/Qwen3-8B

注册算力云账号

访问AutoDL算力云官网完成账号注册流程。平台提供多种GPU算力租赁方案,注册后可通过实名认证提升账号权限。

购买算力云服务

登录后进入控制台,选择符合需求的GPU实例规格(如显存大小、显卡型号)。注意选择适合大模型训练的配置,通常需要16GB以上显存。付款后等待实例初始化完成。

连接服务器

使用SSH工具(如Tabby、MobaXterm)连接分配的服务器IP。连接信息在实例详情页可见,需使用提供的登录密码或密钥文件。首次连接建议创建模型存储目录:

mkdir -p /root/autodl-tmp/models

准备模型下载环境

安装必要的Python库,建议创建虚拟环境:

pip install modelscope torch

配置下载脚本

创建download.py文件,以下载Qwen2.5-Omni-3B为例:

from modelscope import snapshot_download # 可选模型,按需取消注释切换 # model_dir = snapshot_download('ZhipuAI/glm-4-9b-chat', cache_dir='/root/autodl-tmp/models', revision='master') # model_dir = snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-7B', cache_dir='/root/autodl-tmp/models', revision='master') # model_dir = snapshot_download('LLM-Research/Meta-Llama-3.1-8B-Instruct', cache_dir='/root/autodl-tmp/models', revision='master') # model_dir = snapshot_download('Qwen/Qwen2.5-7B-Instruct', cache_dir='/root/autodl-tmp/models', revision='master') # model_dir = snapshot_download('LLM-Research/Meta-Llama-3.1-8B-Instruct') model_dir = snapshot_download('Qwen/Qwen3-8B', cache_dir='/root/autodl-tmp/models', revision='master') # 当前下载模型 Qwen2.5-Omni-3B #model_dir = snapshot_download('Qwen/Qwen2.5-Omni-3B', cache_dir='/root/autodl-tmp/models', revision='master') print(f"模型下载完成,存放路径:{model_dir}")

执行下载命令

运行脚本并监控下载进度:

python download.py

下载过程中会显示进度条,完成时输出模型存储路径。若需切换模型,修改脚本中的模型ID即可。

验证下载结果

检查模型文件是否完整:

ls -lh /root/autodl-tmp/models/Qwen/Qwen2.5-Omni-3B

正常应包含config.jsonpytorch_model.bin等核心文件。若下载中断,重新运行脚本会自动续传。

部署vLLM推理服务

安装vLLM推理框架:

pip install vllm

验证服务是否安装:

python -c "import torch; print(torch.__version__); print(torch.cuda.is_available())"

启动推理服务

启动Qwen3-8B推理服务(支持工具调用):

python -m vllm.entrypoints.openai.api_server \ --model /root/autodl-tmp/models/Qwen/Qwen3-8B \ --served-model-name qwen3-8b \ --max-model-len 8k \ --host 0.0.0.0 \ --port 6006 \ --dtype bfloat16 \ --gpu-memory-utilization 0.8 \ --enable-auto-tool-choice \ --tool-call-parser hermes \ --enable-reasoning \ --reasoning-parser deepseek_r1

虚拟环境版安装(推荐)

  1. 新建并激活虚拟环境(仅第一次执行):
python -m venv ~/autodl-tmp/venv-llm source ~/autodl-tmp/venv-llm/bin/activate
  1. 一键安装全套依赖:
pip install vllm modelscope torch transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple
  1. 校验vLLM新版本是否支持reasoning参数:
python -m vllm.entrypoints.openai.api_server -h | grep reasoning
  1. 启动完整带思维链的服务:
python -m vllm.entrypoints.openai.api_server \ --model /root/autodl-tmp/models/Qwen/Qwen3-8B \ --served-model-name qwen3-8b \ --max-model-len 8k \ --host 0.0.0.0 \ --port 6006 \ --dtype bfloat16 \ --gpu-memory-utilization 0.8 \ --enable-auto-tool-choice \ --tool-call-parser hermes \ --enable-reasoning \ --reasoning-parser deepseek_r1

本地访问服务

服务启动后,可通过以下方式测试:

curl http://localhost:6006/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "qwen3-8b", "messages": [ {"role": "user", "content": "你好"} ] }'
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/6 5:54:15

MCP Server 压测实录:一次优化让响应时间从 8s 降到 800ms

起因:生产环境 MCP Server 突然变慢了 上周四下午,运维同事在群里 @ 我:「你那 MCP Server 是不是挂了?前端等数据等到超时。」 我第一反应是网络问题,ssh 上去看了下——CPU 正常、内存正常、连接数也不高。重启服务,问题依旧。 这 MCP Server 是我用 TypeScript 写的…

作者头像 李华
网站建设 2026/7/6 5:53:51

B站视频下载终极指南:免费获取大会员4K高清与充电专属内容

B站视频下载终极指南:免费获取大会员4K高清与充电专属内容 【免费下载链接】bilibili-downloader B站视频下载,支持下载大会员清晰度4K,持续更新中 项目地址: https://gitcode.com/gh_mirrors/bil/bilibili-downloader 你是否曾遇到过…

作者头像 李华
网站建设 2026/7/6 5:52:04

LLM最新突破:从SLM到DeepSeek,微调蒸馏与推理模型全解析

小语言模型(SLM)的价值:高效部署与领域专业化 大型语言模型(LLM)虽然能力强大,但部署成本高、推理慢、能耗大。小语言模型(SLM)应运而生,通常参数规模在数百万到数十亿之间,可以在移动设备、边缘计算等有限硬件环境中运行。SLM通过聚焦特定领域任务,能在保持效率的…

作者头像 李华
网站建设 2026/7/6 5:51:50

全网最全!2026AI写作辅助平台大盘点(覆盖 99% 毕业生论文需求)

本文精选13 款2026 年实测 AI 论文工具,按全流程全能型、垂直领域专精型、润色降重专家、文献管理助手四大类别排序,覆盖从选题到定稿全链路,适配本科 / 硕博 / 期刊全场景,附选型速查表与避坑指南,帮你快速找到最佳拍…

作者头像 李华
网站建设 2026/7/6 5:50:17

YOLOv10的NMS-Free双重分配策略源码解读:一致性分配究竟是怎么做到的?

前言:一个困扰了目标检测界近20年的问题 如果你做过目标检测的工程落地,一定对这样一个场景刻骨铭心:模型前向推理快如闪电,GPU利用率拉满,然后——卡在了NMS(非极大值抑制)上。一张图500个候选框,最坏情况要比较近10万次。在边缘设备上,CPU跑NMS比GPU跑前向还慢。 …

作者头像 李华
网站建设 2026/7/6 5:50:10

2026最新8款AI编程软件平替实测|全栈开发者低成本权威多维横评

作为一个做了 8 年全栈的开发者,我对 AI 编程工具的要求很明确:前后端都得行,不能偏科。8 款工具在接口兼容、多语言、新手友好度上差距非常明显。我本身是转行学编程的前产品经理,做过多年需求梳理、产品迭代,现在独立…

作者头像 李华