Qwen 3.6 27B:本地开发理想之选
2026 年 6 月 29 日,相关内容登上了 Hacker News 首页。过去对本地模型不满意的 Piotr Migdał,试用 Qwen 3.6 后被震撼,认为它是首个真正具备通用智能的本地模型。
Qwen 3.6 有混合专家模型 Qwen 3.6 35B A3B 和密集型 Qwen 3.6 27B 两种版本,后者速度稍慢但性能更强,Piotr Migdał 强烈推荐。之后他将分享使用感受并介绍运行方法。
使用时电脑发热,Piotr Migdał 用连接手机的 热成像相机 拍照。Qwen 3.6 在 Hacker News 获大量关注,Qwen 3.6 27B 被评价为“小身材,大能量”,Piotr Migdał 认为评价实至名归。
初步测试
Simon Willison 用“骑自行车的企鹅”测试(可查看 Qwen 3.6 35B A3B 和 Qwen 3.6 27B 相关内容),Piotr Migdał 采用受限写作测试。
一年前此类表现只有 GPT - 4.5 能做到(参考 vibe translating Quantum Flytrap)。Piotr Migdał 让其写关于祖克舞和量子物理的 8 行诗,对话记录在此,其思考合理,量子术语运用和押韵处理佳。
Piotr Migdał 在 OpenCode 中让它用 `pnpm` 创建六边形扫雷游戏成功,一次完成并创建规范 Node 包,而 Qwen 3.6 35B A3B 速度快但只生成 `index.html` 文件。
实际应用
量子力学创意写作或扫雷游戏克隆非日常工作,但 Qwen 3.6 27B 在常规任务表现出色。
Piotr Migdał 朋友 Maciej Cielecki 在 AI Tinkerers Warsaw 提出提示,运行几分钟生成页面,虽按前沿模型标准不出众,但能完成实际工作,页面显示、响应和默认设置都不错。
使用 llama.cpp 在本地运行 Qwen 3.6
现在运行本地模型更易,在命令行输入几行代码即可。Piotr Migdał 推荐 llama.cpp,认为无需 Ollama,基于道德原因不建议使用。
先到 Hugging Face 获取合适量化模型,如 unsloth 或 bartowski 等提供的版本,默认模型用 `BF16` 精度,常见 8 位量化省一半空间且不影响质量,降低精度模型变小但质量下降(参考 27B 模型的比较 和 35B A3B 模型的比较)。
选择 unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0,运行命令如下:
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
各参数作用:`-hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0` 从 Hugging Face 下载模型;`-m ~/models/Qwen3.6-27B-Q8_0.gguf` 指定本地模型路径;`draft-mtp` 提高速度;`-ngl 999` 将层放 GPU 运行;`-fa on` 开启闪存注意力机制;`-c 65536` 设置上下文大小;`--port 8080` 固定端口。打开 `http://127.0.0.1:8080` 可对话。
同样服务器可用于 Vibe Coding,选择代理取决于个人喜好,如 OpenCode、Pi、Hermes。对于 OpenCode,在 `~/.config/opencode/opencode.jsonc` 中添加如下内容:
{"$schema": "https://opencode.ai/config.json", "provider": {"llama": {"name": "llama.cpp (local)", "npm": "@ai-sdk/openai-compatible", "options": {"baseURL": "http://127.0.0.1:8080/v1", "apiKey": "local"}, "models": {"qwen3.6-27b": {"name": "Qwen3.6-27B Q8 +MTP"}}}}, "model": "llama/qwen3.6-27b"}若只在终端聊天,用 `llama-cli` 代替 `llama-server`:
llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ -ngl 999 -fa on -c 65536
性能测试
Piotr Migdał 在配备 128 GB 内存的 Macbook Max M5 上测试(测试代码在此),对比不同情况并与其他模型比较:
| 模型 | 每秒令牌数 | 内存使用 |
|---|---|---|
| Qwen3.6-35B-A3B · 8 位 - MLX | 85 tok/s | 37 GB RAM |
| Qwen3.6-35B-A3B · 8 位 - llama.cpp | 93 tok/s | 44 GB RAM |
| Qwen3.6-35B-A3B · 8 位 - llama.cpp + MTP | 105 tok/s | 45 GB RAM |
| Qwen3.6-27B · 8 位 - MLX | 17 tok/s | 28 GB RAM |
| Qwen3.6-27B · 8 位 - llama.cpp | 18 tok/s | 41 GB RAM |
| Qwen3.6-27B · 8 位 - llama.cpp + MTP | 32 tok/s | 42 GB RAM |
| DeepSeek-V4-Flash · Q2–Q4 - llama.cpp | 33 tok/s | 103 GB RAM |
每秒 30 个令牌速度不错(处于典型前沿模型 API 性能范围),llama.cpp 比 mlx - lm 快,能利用 95% GPU 资源。Qwen 3.6 两版本在苹果硅芯片共享内存 48 GB 内可运行,消费级英伟达 RTX 显卡需更激进量化但推理快。
gfosco 在 Hacker News 评论:在 5090 显卡上以 Q6_K 量化和 Q4_0 KV 配置运行,123k 上下文下通过 LM Studio 稳定达每秒 50 个令牌,显存使用约 28/32 GB。Piotr Migdał 虽 35B A3B 速度是 27B 的 3 倍,但更喜欢 27B,看重代码质量。
与以往顶尖模型的对比
基准测试更客观了解模型性能,Artificial Analysis 评分如下:
| 模型 | 得分 | 大致时间 | 相当的模型 |
|---|---|---|---|
| Gemma 4 31B | 29 | ≈ 2024 年末 | o1 / Claude 3.5 Sonnet |
| Qwen3.6-35B-A3B | 32 | ≈ 2025 年初 | o3 / Claude 4 Sonnet |
| Qwen3.6-27B | 37 | ≈ 2025 年中 | GPT - 5 / Claude Sonnet 4.5 |
| DeepSeek-V4-Flash | 40 | ≈ 2025 年末 | GPT - 5.2 / Claude Opus 4.5 |
这些笔记 有更多基准测试,结论相似。加入 Gemma 4 31B 对比,基准测试和网上评价更倾向 Qwen 3.6 27B。8 位量化影响不大,DwarfStar4 对 DeepSeek V4 Flash 采用 2 - 4 位量化,性能不如完整模型,Piotr Migdał 认为 Qwen 3.6 27B 与 DwarfStar4 相当,长上下文项目 DS4 可能更有优势。
未来展望
Piotr Migdał 认为运行自己的模型时代来临,受专有前沿模型现状推动,Claude Fable 5 下架,其他前沿模型靠补贴维持。
本地部署模型可微调,企业可用其处理敏感数据,个人可用于离线项目或保护隐私。随着 前沿水平的开源权重 GLM 5.2 发布,新时代来临,虽 Qwen 3.6 是垫脚石,但 GLM 5.2 也能本地运行,公司预算可承受。
Piotr Migdał 坚信未来有更智能且能在本地设备运行的模型,当前模型融合原始智能和事实知识,未来可能分离。可在 Hacker News、LinkedIn 或 X 上参与讨论。
相关文章
- 反重力感觉沉重,Claude Skills 则轻盈:比较 Google Antigravity 和 Claude Code 在 AI 辅助工作流表现,说明自定义 Claude Skills 可能更好。Piotr Migdał 2025 年 12 月 16 日 HN
- CompileBench:AI 能编译 22 年前的代码吗?:测试 19 个大语言模型处理软件工程任务能力,如编译旧代码和交叉编译。Piotr Grabowski 2025 年 9 月 17 日
- 沙盒化 AI 生成代码:为何我们从 WebR 转向 AWS Lambda:讲述 AI 图表生成器从 WebR 迁移到 AWS Lambda 的权衡案例。Piotr Migdał & Przemysław Hejman 2025 年 8 月 7 日
更多文章