💡 读完这篇,你能做到这三件事:
1️⃣ 用 6G 显存跑 35B 超大模型(MoE 架构的黑魔法)
2️⃣ 把你的 Windows 电脑变成一台完全不花钱、不联网、无限 token 的本地 AI 服务器
3️⃣ 接入 Hermes Agent,打造真正属于自己的 AI 助手——数据不出本机
一、先看最终效果:你的个人 AI 基础设施
浏览器打开http://localhost:8080。你能看到:
- 一个完整的对话界面,像 ChatGPT 一样聊天
- 上传图片,模型能看图分析、OCR 识别、描述画面
- 接入 Hermes Agent 后,它能自动查资料、写代码、执行命令、调用工具
全程本地运行。不消耗任何 API 费用。数据不出你的电脑。没有 token 限制,想聊多少聊多少。
二、为什么是这个模型?MoE 架构详解
2.1 35B 总参数,只激活 3B
Qwen3.6-35B-A3B 是阿里通义千问 2026 年 4 月发布的 MoE(Mixture of Experts)模型,Apache 2.0 协议完全开源。它的核心创新在于:
35B 总参数,但每次推理只激活 3B 参数。
这意味着它拥有 35B 模型的知识容量,但只消耗 3B 模型的算力。
SWE-bench Verified 得分73.4%,超过了全部激活 31B 参数的 Gemma 4-31B(52.0%)。在 Artificial Analysis 排行榜上,40B 以内开源模型中属于第一梯队。
2.2 MoE 不是"偷工减料",是架构创新
很多人第一次听说 MoE 时会有疑惑:35B 参数为什么只激活 3B?这不是欺诈吗?
传统 Dense 模型:35B 参数全部参与每次推理。以 FP16 精度计算,仅加载模型就需要 70GB+ 显存。量化到 Q4 也需要约 20GB。普通消费级显卡根本扛不住。
MoE 模型:35B 参数被分成256 个专家(Expert),外加一个路由网络(Router)。对于每个输入 token,路由器只挑选最相关的 9 个专家激活,其余专家处于"休眠"状态。实际激活参数量仅约 3B。
打个比方:
传统模型像一个 35 人的公司,无论什么任务所有人都得参与——写一行代码也要 35 个人开会。
MoE 模型像一个 35 人的专家团队,收到任务后,“项目经理”(路由器)快速判断任务类型,只派 2-3 个最擅长的人去干。
所以 Qwen3.6-35B-A3B 量化后只需要 6-20GB 显存,跑起来的速度接近 3B 模型,但输出质量接近 35B 模型。这不是参数注水,这是架构效率的革命。
2.3 与其他本地模型的对比
| 模型 | 架构 | 总参数量 | 激活参数 | 6G显存可跑 | SWE-bench |
|---|---|---|---|---|---|
| Qwen3.6-35B-A3B | MoE | 35B | 3B | ✅ (IQ2_M) | 73.4% |
| Qwen2.5-32B | Dense | 32B | 32B | ❌ | - |
| Llama 3.1-8B | Dense | 8B | 8B | ✅ (Q4) | ~25% |
| Gemma 4-31B | Dense | 31B | 31B | ❌ | 52.0% |
| DeepSeek-V2-Lite | MoE | 16B | 2.4B | ✅ | - |
可以看到,在 6G 显存能跑的模型中,Qwen3.6-35B-A3B 是知识密度最高的选择。它用 MoE 架构打破了"显存大小决定模型大小"的物理限制。
三、前提条件:你的电脑能跑吗?
| 配置项 | 最低要求 | 推荐配置 |
|---|---|---|
| 操作系统 | Windows 10/11 64位 | Windows 11 64位 |
| 显卡显存 | 6GB | 8-12GB |
| 系统内存 | 16GB | 32GB |
| 磁盘空间 | 25GB | 40GB+(SSD) |
| 显卡类型 | NVIDIA/AMD/Intel 独显 | NVIDIA RTX 30/40 系列 |
**⚠️ 注意:**纯 CPU 也能跑,但速度会慢很多。以 IQ2_M 量化为例,CPU 模式下约 1-2 token/s,GPU 加速可达 10-30 token/s。强烈建议使用支持 CUDA 的 NVIDIA 显卡。
四、阶段一:下载 llama.cpp——本地推理引擎
第一步:选择正确版本
打开 llama.cpp Releases,找最新版本(本文写作时最新为 b9326)。
| 你的显卡 | 下载文件 |
|---|---|
| NVIDIA RTX 30/40 系列 | llama-b9326-bin-win-cuda-12.4-x64.zip |
| AMD RX 系列 | llama-b9326-bin-win-hip-radeon-x64.zip |
| Intel Arc | llama-b9326-bin-win-vulkan-x64.zip |
| 没有独显 | llama-b9326-bin-win-cpu-x64.zip |
**NVIDIA 用户注意:**除了主包,还要下载cudart-llama-bin-win-cuda-12.4-x64.zip,它包含 CUDA 运行时 DLL,缺失会导致启动报错。
第二步:解压与目录准备
⚠️ 铁律:路径不能有中文。llama.cpp 对中文路径支持不佳,解压到中文目录会报各种莫名其妙的错误。
将压缩包解压到纯英文路径,例如D:\llama-cpp或C:\llama。
CUDA 用户:把 DLL 包的内容也解压到同一目录(覆盖相同文件即可)。
新建一个models子目录:
D:\llama-cpp\ ├── llama-server.exe ← 主程序(这是我们要用的) ├── llama-cli.exe ← 命令行推理工具 ├── llama-quantize.exe ← 量化工具 ├── models\ ← 放模型文件 │ ├── Qwen3.6-35B-A3B-Q4_K_M.gguf │ └── mmproj-Qwen3.6-35B-A3B-f16.gguf └── *.dll (CUDA DLLs)💡 科普:llama.cpp 是什么?
llama.cpp 是一个纯 C/C++ 实现的大模型推理引擎,由社区开发者 @ggerganov 创建。它不依赖 Python、PyTorch 等重型框架,只需一个 exe 就能跑大模型。它支持 GGUF 格式(一种高效的模型量化格式),自带 K-Quants 量化算法,能将模型从 FP16 压缩到 2-8 bit,同时尽量保持精度。它还内置了 HTTP 服务器(llama-server),提供兼容 OpenAI API 的接口,让任何支持 OpenAI SDK 的工具都能接入。
五、阶段二:下载模型——选择合适的量化等级
第三步:理解 GGUF 量化
GGUF 是 llama.cpp 团队开发的模型文件格式。简单说,它将模型权重从原始的 FP32/FP16 压缩到更低的精度。就好像把一张超高分辨率照片从 RAW 格式压缩成 JPEG——文件小了,但人眼看不出太大差别。
在 HuggingFace 搜索Qwen3.6-35B-A3B GGUF,推荐从 bartowski 或 unsloth 的仓库下载,他们是 GGUF 格式的主要贡献者,量化质量有保障。
| 显存 | 推荐量化 | 文件大小 | 系统内存 | 推理速度 | 说明 |
|---|---|---|---|---|---|
| 24GB (4090) | Q4_K_M | ~21GB | 16GB+ | ~130 tok/s | 完全GPU,极致速度 |
| 12-16GB | IQ4_XS | ~19GB | 32GB+ | ~40-60 tok/s | 分层加载,部分走内存 |
| 8GB | Q3_K_M / IQ4_NL | ~16GB | 32GB+ | ~15-30 tok/s | 大部分走内存 |
| 6GB | IQ2_M | ~11GB | 16GB+ | ~8-15 tok/s | 几乎全走内存,GPU仅辅助 |
量化级别说明:
Q4_K_M
:4-bit K-quants 的中间版本,精度和压缩率的最佳平衡点,推荐显存充足时使用
Q3_K_M
:3-bit K-quants,牺牲少量精度换取更小体积
IQ2_M
:2-bit 工业量化,压缩率最高但精度损失最大,是 6G 显存的"救命稻草"
**还要下载这个文件:**想要多模态看图功能,还必须下载对应的mmproj投影文件(约 1.3GB)。这个文件负责将视觉编码器的输出"投影"到语言模型的嵌入空间,让 LLM 能"看懂"图片。没有它,上传按钮会灰色不可点击。
全部放进models\目录。
💡 为何量化版本的模型文件比原始参数小这么多?
原始 FP16 精度:35B × 2 bytes = 70GB
Q4_K_M 量化后:35B × 0.5 bytes ≈ 17.5GB(加上 overhead 约 21GB)
IQ2_M 量化后:35B × 0.25 bytes ≈ 8.75GB(加上 overhead 约 11GB)
这就是量化的魔力——用 15%-30% 的精度损失,换来 4-8 倍的显存节省。
六、阶段三:启动模型——让大模型跑起来
第四步:一条命令启动
在D:\llama-cpp\目录打开 PowerShell(Shift + 右键空白处 → 在此处打开 PowerShell)。
纯文本对话(不需要看图):
.\llama-server.exe -m “models\Qwen3.6-35B-A3B-Q4_K_M.gguf” -ngl 999 -c 32768 -n 8192 --jinja --port 8080
多模态(支持看图):
.\llama-server.exe -m “models\Qwen3.6-35B-A3B-Q4_K_M.gguf” --mmproj “models\mmproj-Qwen3.6-35B-A3B-f16.gguf” -ngl 999 -c 32768 -n 8192 --jinja --port 8080
6G 显存用户(用 IQ2_M,缩小 context):
.\llama-server.exe -m “models\Qwen3.6-35B-A3B-IQ2_M.gguf” --mmproj “models\mmproj-Qwen3.6-35B-A3B-f16.gguf” -ngl 999 -c 8192 -n 4096 --jinja --port 8080
参数详解:
-m:模型文件路径
--mmproj:多模态投影文件路径。不加就不能看图
-ngl 999:尽量把模型层卸载到 GPU 显存。999 是"能放就放",放不下的自动走系统内存
-c:上下文长度(context size)。8192 ≈ 6000 字中文。显存小就设小一点
-n:最大生成长度(max tokens)。4096 ≈ 3000 字中文
--jinja:Qwen3.6 必须加这个参数。它启用 Jinja2 模板引擎来渲染聊天模板。不加会出现回复异常、格式错乱、无限重复等问题
--port:HTTP 服务端口,默认 8080
看到这行输出就成功了:
main: server is listening on http://127.0.0.1:8080
浏览器打开 http://localhost:8080。你就能看到一个完整的聊天界面了。
第五步:一键启动脚本
每次敲命令太烦。新建一个启动模型.cmd文件,粘贴以下内容:
@echo off chcp 65001 >nul cd /d "%~dp0" echo ============================================= echo Qwen3.6-35B-A3B 本地大模型启动器 echo ============================================= echo. echo [1] Q4_K_M(24G 显存推荐,高速) echo [2] IQ4_NL(8-12G 显存,均衡) echo [3] IQ2_M(6G 显存,省显存模式) echo [4] 自定义模型文件 echo. set /p choice=请输入数字 [1-4]: if "%choice%"=="1" set "MODEL=Qwen3.6-35B-A3B-Q4_K_M.gguf"& set "CTX=-c 32768 -n 8192" if "%choice%"=="2" set "MODEL=Qwen3.6-35B-A3B-IQ4_NL.gguf"& set "CTX=-c 32768 -n 8192" if "%choice%"=="3" set "MODEL=Qwen3.6-35B-A3B-IQ2_M.gguf"& set "CTX=-c 8192 -n 4096" .\llama-server.exe -m "models\%MODEL%" -ngl 999 %CTX% --jinja --host 127.0.0.1 --port 8080 pause放在D:\llama-cpp\目录,双击运行即可。
七、阶段四:接入 Hermes Agent——你的本地 AI 助手
第六步:安装 Hermes Agent
Hermes Agent 是一个开源的 AI Agent 框架,支持本地部署。它能让大模型自动规划任务、调用工具、执行代码。
pipx install hermes-agent
💡 pipx 是什么?
pipx 是一个专门用于安装 Python 命令行工具的包管理器。它会为每个工具创建独立的虚拟环境,避免依赖冲突。如果你还没安装 pipx,先运行:python -m pip install pipx
第七步:配置连接本地模型
hermes model
选择Custom endpoint,然后填写:
Base URL:
http://127.0.0.1:8080/v1API Key:
任意值或留空
Model:
留空即可
验证配置:在终端输入hermes,然后发一条消息。如果 Agent 正常回复,同时 llama-server 窗口有请求日志,就说明全部搞定。
第八步:Hermes Agent 能做什么?
接入后,你的本地模型不再只是"聊天机器人",而是真正能干活的 AI 助手:
自动执行任务:
“帮我写一个 Python 脚本,读取当前目录下所有 CSV 文件并合并”
调用工具:
它可以搜索文件、运行命令、操作 API
自主规划:
复杂任务可拆解为多个步骤逐步执行
代码生成:
生成代码并自动运行调试
图片分析:
上传截图让它分析问题、提取文字
八、拓展应用:你的电脑 = AI 基础设施
跑起来之后,你的电脑就变成了一台完整的 AI 服务器,远超"聊天"的范畴:
8.1 当 OpenAI API 的平替
任何支持 OpenAI SDK 的工具,只要把base_url改成http://localhost:8080/v1,就能直接使用本地模型。举例:
from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed" ) response = client.chat.completions.create( model="not-needed", # llama.cpp 会自动使用已加载的模型 messages=[ {"role": "system", "content": "你是一个AI编程助手"}, {"role": "user", "content": "用Python写一个冒泡排序"} ], max_tokens=2048, temperature=0.7 ) print(response.choices[0].message.content)8.2 接入本地知识库
结合 LangChain 或 LlamaIndex,喂入你的私有文档,构建完全本地运行的 RAG 系统:
pip install langchain langchain-community chromadb # 示例:用本地模型做文档问答 from langchain_community.llms import LlamaCpp from langchain.chains import RetrievalQA from langchain_community.vectorstores import Chroma # ... 你的文档全部本地处理,数据不出本机8.3 作为 IDE 的 AI 插件后端
在 Continue.dev 或 Tabby 等代码补全工具中,将 API 端点指向本机,让 AI 辅助编程:
- Continue.dev 配置
"apiBase": "http://localhost:8080" - 代码审查、重构建议、测试生成——全部本地完成
九、常见坑与排查指南
| 症状 | 原因 | 解决方案 |
|---|---|---|
启动报错file not found | 路径有中文或模型文件名不对 | 检查路径纯英文,确认文件确实在 models 目录下 |
error loading model | GGUF 文件损坏或未下载完整 | 重新下载,检查文件大小是否与 HuggingFace 标注一致 |
| 回复异常、无限重复 | 启动时没加--jinja | 加上--jinja参数重启 |
| 上传图片按钮灰色 | 没下载 mmproj 文件 | 下载 mmproj 文件,启动时加--mmproj参数 |
missing DLL错误 | CUDA DLL 缺失 | 下载 cudart 包,DLL 放到同一目录 |
| 显存爆了(OOM) | Context 太大或量化等级太高 | 减小-c或换更低的量化(Q3→IQ2) |
| 模型文件只有几十KB | HuggingFace 下载受限 | 用curl -I URL验证链接,或换镜像源 |
| 速度极慢(< 2 tok/s) | 没有 GPU 加速或-ngl太小 | 确认-ngl 999参数开启,检查是否使用 CUDA 版本 |
| Hermes Agent 连不上 | Base URL 配置错误 | 确认 llama-server 已启动且端口正确 |
十、性能调优:让你的模型跑得更快
10.1 关键参数调优建议
-ngl调优:对于 6G 显存,
-ngl 20到-ngl 30可能比-ngl 999更快,因为减少了显存-内存之间的频繁数据交换。建议从-ngl 999开始,然后逐步调低,找到最佳吞吐量点。Thread 数:
加
-t 6到-t 8指定 CPU 线程数,充分发挥多核性能。Batch size:
-ub 1024可以充分利用 GPU 并行计算能力。
Flash Attention:
加
--flash-attn可以显著降低显存占用,特别是长上下文场景。
优化版启动命令:
.\llama-server.exe -m "models\Qwen3.6-35B-A3B-IQ2_M.gguf" --mmproj "models\mmproj-Qwen3.6-35B-A3B-f16.gguf" -ngl 28 -c 8192 -n 4096 -t 8 -ub 1024 --flash-attn --jinja --port 808010.2 不同配置的预期性能
| 配置组合 | 量化 | 推理速度 | 首 token 延迟 | 体验评分 |
|---|---|---|---|---|
| RTX 4090 + 64GB 内存 | Q4_K_M | ~130 tok/s | < 0.5s | ⭐⭐⭐⭐⭐ |
| RTX 3060 12GB + 32GB | IQ4_XS | ~40-60 tok/s | ~1s | ⭐⭐⭐⭐ |
| RTX 2060 6GB + 32GB | IQ2_M | ~8-15 tok/s | ~2-3s | ⭐⭐⭐ |
| 纯 CPU (i7-13700 + 32GB) | IQ2_M | ~1-3 tok/s | ~5-10s | ⭐⭐ |
**💡 体验建议:**如果能达到 10 tok/s 以上,普通对话已经足够流畅。6-8 tok/s 可以接受但稍有等待感。低于 5 tok/s 更适合做批量处理而非实时对话。
十一、MoE 架构的深层理解
最后,让我们深入理解一下 MoE 到底是怎么回事。毕竟,你正在使用的这个模型,就是靠这种架构才得以在 6G 显存上运行的。
11.1 MoE 的工作流程
每个 MoE 层包含三部分:
共享专家(Shared Expert):
所有 token 都必须经过,处理通用知识
路由专家(Routed Experts):
256 个专家,各有专长
路由器(Router):
一个轻量级网络,决定每个 token 应该由哪些专家处理
当一个 token 进入 MoE 层:
- 路由器给 256 个专家打分
- 选择得分最高的 9 个专家(top-9 routing)
- 只有这 9 个专家 + 1 个共享专家参与计算
- 输出加权合并
这就是"35B 总参,3B 激活"的来源:256 个专家中只激活 9 个,加上共享专家的参数,实际每 token 只跑约 3B 参数。
11.2 MoE 的负载均衡
MoE 面临的一个核心挑战是负载均衡:如果路由器总是派任务给同一个专家,其他专家就"饿死"了。这会导致模型部分参数从未被训练,损害容量。
Qwen3.6 的解决方案包括:
辅助损失(Auxiliary Loss):
在训练时惩罚不均衡的路由分配
专家容量限制:
每个专家的 token 处理数有上限
路由器正则化:
鼓励更均匀的专家选择
这也是为什么 MoE 模型在推理时虽然效率极高,但训练时需要更多技巧。好在——我们只用推理,不用训练。
11.3 MoE 与量化:双重压缩的艺术
Qwen3.6-35B-A3B 能在 6G 显存上运行,其实用到了两层压缩:
MoE 层
:推理时只激活 ~9% 的参数(35B → 3B)
量化
:再将每个参数从 16-bit 压缩到 2-bit(3B × 2 bytes → 3B × 0.25 bytes = 0.75GB)
实际显存占用还包括 KV Cache(约 2-4GB)、中间激活值、mmproj 等 overhead,所以最终 6G 显存刚好能跑起来。如果你仔细算就会发现:不是 MoE 模型太小,而是压缩技术太强。
十二、本地 AI 时代的意义
Qwen3.6-35B-A3B 的出现,加上 llama.cpp + Hermes Agent 的工具链,意味着:
AI 不再是云端特权。
一台普通电脑就能跑起能打的大模型
数据主权回归用户。
敏感数据不必上传第三方 API
零边际成本。
没有 token 计费,没有月费,想用多少用多少
可定制、可离线。
断网也能用,没有审查限制
以前我们需要 24GB 显存才能流畅运行的 7B 模型,现在已经可以在 6GB 显存上跑 35B 模型。这不仅仅是效率的提升,更是本地 AI 从"玩具"向"工具"跨越的标志性节点。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~