Qwen 3.6 27B：本地开发理想之选，性能强劲可本地微调！-育师

Qwen 3.6 27B：本地开发理想之选

2026 年 6 月 29 日，相关内容登上了 Hacker News 首页。过去对本地模型不满意的 Piotr Migdał，试用 Qwen 3.6 后被震撼，认为它是首个真正具备通用智能的本地模型。

Qwen 3.6 有混合专家模型 Qwen 3.6 35B A3B 和密集型 Qwen 3.6 27B 两种版本，后者速度稍慢但性能更强，Piotr Migdał 强烈推荐。之后他将分享使用感受并介绍运行方法。

使用时电脑发热，Piotr Migdał 用连接手机的热成像相机拍照。Qwen 3.6 在 Hacker News 获大量关注，Qwen 3.6 27B 被评价为“小身材，大能量”，Piotr Migdał 认为评价实至名归。

初步测试

Simon Willison 用“骑自行车的企鹅”测试（可查看 Qwen 3.6 35B A3B 和 Qwen 3.6 27B 相关内容），Piotr Migdał 采用受限写作测试。

一年前此类表现只有 GPT - 4.5 能做到（参考 vibe translating Quantum Flytrap）。Piotr Migdał 让其写关于祖克舞和量子物理的 8 行诗，对话记录在此，其思考合理，量子术语运用和押韵处理佳。

Piotr Migdał 在 OpenCode 中让它用 `pnpm` 创建六边形扫雷游戏成功，一次完成并创建规范 Node 包，而 Qwen 3.6 35B A3B 速度快但只生成 `index.html` 文件。

实际应用

量子力学创意写作或扫雷游戏克隆非日常工作，但 Qwen 3.6 27B 在常规任务表现出色。

Piotr Migdał 朋友 Maciej Cielecki 在 AI Tinkerers Warsaw 提出提示，运行几分钟生成页面，虽按前沿模型标准不出众，但能完成实际工作，页面显示、响应和默认设置都不错。

使用 llama.cpp 在本地运行 Qwen 3.6

现在运行本地模型更易，在命令行输入几行代码即可。Piotr Migdał 推荐 llama.cpp，认为无需 Ollama，基于道德原因不建议使用。

先到 Hugging Face 获取合适量化模型，如 unsloth 或 bartowski 等提供的版本，默认模型用 `BF16` 精度，常见 8 位量化省一半空间且不影响质量，降低精度模型变小但质量下降（参考 27B 模型的比较和 35B A3B 模型的比较）。

选择 unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0，运行命令如下：

llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080

各参数作用：`-hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0` 从 Hugging Face 下载模型；`-m ~/models/Qwen3.6-27B-Q8_0.gguf` 指定本地模型路径；`draft-mtp` 提高速度；`-ngl 999` 将层放 GPU 运行；`-fa on` 开启闪存注意力机制；`-c 65536` 设置上下文大小；`--port 8080` 固定端口。打开 `http://127.0.0.1:8080` 可对话。

同样服务器可用于 Vibe Coding，选择代理取决于个人喜好，如 OpenCode、Pi、Hermes。对于 OpenCode，在 `~/.config/opencode/opencode.jsonc` 中添加如下内容：

{"$schema": "https://opencode.ai/config.json", "provider": {"llama": {"name": "llama.cpp (local)", "npm": "@ai-sdk/openai-compatible", "options": {"baseURL": "http://127.0.0.1:8080/v1", "apiKey": "local"}, "models": {"qwen3.6-27b": {"name": "Qwen3.6-27B Q8 +MTP"}}}}, "model": "llama/qwen3.6-27b"}

若只在终端聊天，用 `llama-cli` 代替 `llama-server`：

llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ -ngl 999 -fa on -c 65536

性能测试

Piotr Migdał 在配备 128 GB 内存的 Macbook Max M5 上测试（测试代码在此），对比不同情况并与其他模型比较：

模型	每秒令牌数	内存使用
Qwen3.6-35B-A3B · 8 位 - MLX	85 tok/s	37 GB RAM
Qwen3.6-35B-A3B · 8 位 - llama.cpp	93 tok/s	44 GB RAM
Qwen3.6-35B-A3B · 8 位 - llama.cpp + MTP	105 tok/s	45 GB RAM
Qwen3.6-27B · 8 位 - MLX	17 tok/s	28 GB RAM
Qwen3.6-27B · 8 位 - llama.cpp	18 tok/s	41 GB RAM
Qwen3.6-27B · 8 位 - llama.cpp + MTP	32 tok/s	42 GB RAM
DeepSeek-V4-Flash · Q2–Q4 - llama.cpp	33 tok/s	103 GB RAM

每秒 30 个令牌速度不错（处于典型前沿模型 API 性能范围），llama.cpp 比 mlx - lm 快，能利用 95% GPU 资源。Qwen 3.6 两版本在苹果硅芯片共享内存 48 GB 内可运行，消费级英伟达 RTX 显卡需更激进量化但推理快。

gfosco 在 Hacker News 评论：在 5090 显卡上以 Q6_K 量化和 Q4_0 KV 配置运行，123k 上下文下通过 LM Studio 稳定达每秒 50 个令牌，显存使用约 28/32 GB。Piotr Migdał 虽 35B A3B 速度是 27B 的 3 倍，但更喜欢 27B，看重代码质量。

与以往顶尖模型的对比

基准测试更客观了解模型性能，Artificial Analysis 评分如下：

模型	得分	大致时间	相当的模型
Gemma 4 31B	29	≈ 2024 年末	o1 / Claude 3.5 Sonnet
Qwen3.6-35B-A3B	32	≈ 2025 年初	o3 / Claude 4 Sonnet
Qwen3.6-27B	37	≈ 2025 年中	GPT - 5 / Claude Sonnet 4.5
DeepSeek-V4-Flash	40	≈ 2025 年末	GPT - 5.2 / Claude Opus 4.5

这些笔记有更多基准测试，结论相似。加入 Gemma 4 31B 对比，基准测试和网上评价更倾向 Qwen 3.6 27B。8 位量化影响不大，DwarfStar4 对 DeepSeek V4 Flash 采用 2 - 4 位量化，性能不如完整模型，Piotr Migdał 认为 Qwen 3.6 27B 与 DwarfStar4 相当，长上下文项目 DS4 可能更有优势。

未来展望

Piotr Migdał 认为运行自己的模型时代来临，受专有前沿模型现状推动，Claude Fable 5 下架，其他前沿模型靠补贴维持。

本地部署模型可微调，企业可用其处理敏感数据，个人可用于离线项目或保护隐私。随着前沿水平的开源权重 GLM 5.2 发布，新时代来临，虽 Qwen 3.6 是垫脚石，但 GLM 5.2 也能本地运行，公司预算可承受。

Piotr Migdał 坚信未来有更智能且能在本地设备运行的模型，当前模型融合原始智能和事实知识，未来可能分离。可在 Hacker News、LinkedIn 或 X 上参与讨论。

反重力感觉沉重，Claude Skills 则轻盈：比较 Google Antigravity 和 Claude Code 在 AI 辅助工作流表现，说明自定义 Claude Skills 可能更好。Piotr Migdał 2025 年 12 月 16 日 HN
CompileBench：AI 能编译 22 年前的代码吗？：测试 19 个大语言模型处理软件工程任务能力，如编译旧代码和交叉编译。Piotr Grabowski 2025 年 9 月 17 日
沙盒化 AI 生成代码：为何我们从 WebR 转向 AWS Lambda：讲述 AI 图表生成器从 WebR 迁移到 AWS Lambda 的权衡案例。Piotr Migdał & Przemysław Hejman 2025 年 8 月 7 日