news 2026/7/1 19:25:02

Qwen 3.6 27B:本地开发理想之选,性能强劲可本地微调!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Qwen 3.6 27B:本地开发理想之选,性能强劲可本地微调!

Qwen 3.6 27B:本地开发理想之选

2026 年 6 月 29 日,相关内容登上了 Hacker News 首页。过去对本地模型不满意的 Piotr Migdał,试用 Qwen 3.6 后被震撼,认为它是首个真正具备通用智能的本地模型。

Qwen 3.6 有混合专家模型 Qwen 3.6 35B A3B 和密集型 Qwen 3.6 27B 两种版本,后者速度稍慢但性能更强,Piotr Migdał 强烈推荐。之后他将分享使用感受并介绍运行方法。

使用时电脑发热,Piotr Migdał 用连接手机的 热成像相机 拍照。Qwen 3.6 在 Hacker News 获大量关注,Qwen 3.6 27B 被评价为“小身材,大能量”,Piotr Migdał 认为评价实至名归。

初步测试

Simon Willison 用“骑自行车的企鹅”测试(可查看 Qwen 3.6 35B A3B 和 Qwen 3.6 27B 相关内容),Piotr Migdał 采用受限写作测试。

一年前此类表现只有 GPT - 4.5 能做到(参考 vibe translating Quantum Flytrap)。Piotr Migdał 让其写关于祖克舞和量子物理的 8 行诗,对话记录在此,其思考合理,量子术语运用和押韵处理佳。

Piotr Migdał 在 OpenCode 中让它用 `pnpm` 创建六边形扫雷游戏成功,一次完成并创建规范 Node 包,而 Qwen 3.6 35B A3B 速度快但只生成 `index.html` 文件。

实际应用

量子力学创意写作或扫雷游戏克隆非日常工作,但 Qwen 3.6 27B 在常规任务表现出色。

Piotr Migdał 朋友 Maciej Cielecki 在 AI Tinkerers Warsaw 提出提示,运行几分钟生成页面,虽按前沿模型标准不出众,但能完成实际工作,页面显示、响应和默认设置都不错。

使用 llama.cpp 在本地运行 Qwen 3.6

现在运行本地模型更易,在命令行输入几行代码即可。Piotr Migdał 推荐 llama.cpp,认为无需 Ollama,基于道德原因不建议使用。

先到 Hugging Face 获取合适量化模型,如 unsloth 或 bartowski 等提供的版本,默认模型用 `BF16` 精度,常见 8 位量化省一半空间且不影响质量,降低精度模型变小但质量下降(参考 27B 模型的比较 和 35B A3B 模型的比较)。

选择 unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0,运行命令如下:

llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080

各参数作用:`-hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0` 从 Hugging Face 下载模型;`-m ~/models/Qwen3.6-27B-Q8_0.gguf` 指定本地模型路径;`draft-mtp` 提高速度;`-ngl 999` 将层放 GPU 运行;`-fa on` 开启闪存注意力机制;`-c 65536` 设置上下文大小;`--port 8080` 固定端口。打开 `http://127.0.0.1:8080` 可对话。

同样服务器可用于 Vibe Coding,选择代理取决于个人喜好,如 OpenCode、Pi、Hermes。对于 OpenCode,在 `~/.config/opencode/opencode.jsonc` 中添加如下内容:

{"$schema": "https://opencode.ai/config.json", "provider": {"llama": {"name": "llama.cpp (local)", "npm": "@ai-sdk/openai-compatible", "options": {"baseURL": "http://127.0.0.1:8080/v1", "apiKey": "local"}, "models": {"qwen3.6-27b": {"name": "Qwen3.6-27B Q8 +MTP"}}}}, "model": "llama/qwen3.6-27b"}

若只在终端聊天,用 `llama-cli` 代替 `llama-server`:

llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ -ngl 999 -fa on -c 65536

性能测试

Piotr Migdał 在配备 128 GB 内存的 Macbook Max M5 上测试(测试代码在此),对比不同情况并与其他模型比较:

模型每秒令牌数内存使用
Qwen3.6-35B-A3B · 8 位 - MLX85 tok/s37 GB RAM
Qwen3.6-35B-A3B · 8 位 - llama.cpp93 tok/s44 GB RAM
Qwen3.6-35B-A3B · 8 位 - llama.cpp + MTP105 tok/s45 GB RAM
Qwen3.6-27B · 8 位 - MLX17 tok/s28 GB RAM
Qwen3.6-27B · 8 位 - llama.cpp18 tok/s41 GB RAM
Qwen3.6-27B · 8 位 - llama.cpp + MTP32 tok/s42 GB RAM
DeepSeek-V4-Flash · Q2–Q4 - llama.cpp33 tok/s103 GB RAM

每秒 30 个令牌速度不错(处于典型前沿模型 API 性能范围),llama.cpp 比 mlx - lm 快,能利用 95% GPU 资源。Qwen 3.6 两版本在苹果硅芯片共享内存 48 GB 内可运行,消费级英伟达 RTX 显卡需更激进量化但推理快。

gfosco 在 Hacker News 评论:在 5090 显卡上以 Q6_K 量化和 Q4_0 KV 配置运行,123k 上下文下通过 LM Studio 稳定达每秒 50 个令牌,显存使用约 28/32 GB。Piotr Migdał 虽 35B A3B 速度是 27B 的 3 倍,但更喜欢 27B,看重代码质量。

与以往顶尖模型的对比

基准测试更客观了解模型性能,Artificial Analysis 评分如下:

模型得分大致时间相当的模型
Gemma 4 31B29≈ 2024 年末o1 / Claude 3.5 Sonnet
Qwen3.6-35B-A3B32≈ 2025 年初o3 / Claude 4 Sonnet
Qwen3.6-27B37≈ 2025 年中GPT - 5 / Claude Sonnet 4.5
DeepSeek-V4-Flash40≈ 2025 年末GPT - 5.2 / Claude Opus 4.5

这些笔记 有更多基准测试,结论相似。加入 Gemma 4 31B 对比,基准测试和网上评价更倾向 Qwen 3.6 27B。8 位量化影响不大,DwarfStar4 对 DeepSeek V4 Flash 采用 2 - 4 位量化,性能不如完整模型,Piotr Migdał 认为 Qwen 3.6 27B 与 DwarfStar4 相当,长上下文项目 DS4 可能更有优势。

未来展望

Piotr Migdał 认为运行自己的模型时代来临,受专有前沿模型现状推动,Claude Fable 5 下架,其他前沿模型靠补贴维持。

本地部署模型可微调,企业可用其处理敏感数据,个人可用于离线项目或保护隐私。随着 前沿水平的开源权重 GLM 5.2 发布,新时代来临,虽 Qwen 3.6 是垫脚石,但 GLM 5.2 也能本地运行,公司预算可承受。

Piotr Migdał 坚信未来有更智能且能在本地设备运行的模型,当前模型融合原始智能和事实知识,未来可能分离。可在 Hacker News、LinkedIn 或 X 上参与讨论。

相关文章

  • 反重力感觉沉重,Claude Skills 则轻盈:比较 Google Antigravity 和 Claude Code 在 AI 辅助工作流表现,说明自定义 Claude Skills 可能更好。Piotr Migdał 2025 年 12 月 16 日 HN
  • CompileBench:AI 能编译 22 年前的代码吗?:测试 19 个大语言模型处理软件工程任务能力,如编译旧代码和交叉编译。Piotr Grabowski 2025 年 9 月 17 日
  • 沙盒化 AI 生成代码:为何我们从 WebR 转向 AWS Lambda:讲述 AI 图表生成器从 WebR 迁移到 AWS Lambda 的权衡案例。Piotr Migdał & Przemysław Hejman 2025 年 8 月 7 日

更多文章

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/1 19:21:20

C++ 模板初阶:从重复代码到泛型编程

C 模板初阶:从重复代码到泛型编程 快速跳转: 前言 为什么需要模板 函数模板 模板原理 实例化 匹配规则 类模板 小结 前言 刚开始写 C 时,我们很容易遇到一种尴尬情况:逻辑明明一模一样,只是类型不同,代码却…

作者头像 李华
网站建设 2026/7/1 19:17:33

如何用WiFi热图工具快速定位家庭网络盲区

如何用WiFi热图工具快速定位家庭网络盲区 【免费下载链接】wifi-heat-mapper whm also known as wifi-heat-mapper is a Python library for benchmarking Wi-Fi networks and gather useful metrics that can be converted into meaningful easy-to-understand heatmaps. 项…

作者头像 李华
网站建设 2026/7/1 19:09:31

最大似然估计(MLE)

最大似然估计(Maximum Likelihood Estimation,简称 MLE) 是统计学和机器学习中最核心的参数估计方法。 如果说 “均方误差(MSE)” 是为了衡量预测得准不准,那么“最大似然估计”就是为了解决一个更根本的问…

作者头像 李华
网站建设 2026/7/1 19:03:15

抖音评论数据采集神器:3分钟零代码获取完整评论分析

抖音评论数据采集神器:3分钟零代码获取完整评论分析 【免费下载链接】TikTokCommentScraper 项目地址: https://gitcode.com/gh_mirrors/ti/TikTokCommentScraper 还在为手动复制抖音评论而烦恼吗?TikTokCommentScraper是你的终极解决方案&#…

作者头像 李华
网站建设 2026/7/1 19:03:03

终极指南:用Mac Mouse Fix让普通鼠标在macOS上超越触控板体验

终极指南:用Mac Mouse Fix让普通鼠标在macOS上超越触控板体验 【免费下载链接】mac-mouse-fix Mac Mouse Fix - Make Your $10 Mouse Better Than an Apple Trackpad! 项目地址: https://gitcode.com/GitHub_Trending/ma/mac-mouse-fix 你是否厌倦了在macOS上…

作者头像 李华
网站建设 2026/7/1 19:02:52

欧盟下月将公布针对谷歌新法规,谷歌担忧引发安全隐私问题

欧洲加大对大型科技公司监管力度,欧盟委员会计划下月公布针对谷歌的新法规。谷歌对此表示担忧,认为可能引发安全和隐私问题。监管新动态欧盟委员会下月将公布针对谷歌的新法规,规则或迫使谷歌在欧盟市场与对手更友好相处。潜在变化有两种形式…

作者头像 李华