news 2026/7/4 0:50:17

AI 写芯片写了 18 小时:机房还在按「短跑」配散热吗?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI 写芯片写了 18 小时:机房还在按「短跑」配散热吗?

6 月下旬,豆包Seed 2.1上线火山方舟。有一条案例在技术圈传得挺凶:16×16 的 Tiny NPU Tile,Agent 跑了近 18 小时、9 轮迭代,交出 6 个模块、1303 行 RTL。

我第一反应不是「模型又强了」——是谁给它加了一宿班。这 18 小时里,算力多半一直顶在高位,芯片热得很实在。以后谈机柜和机房,心里得按这种节奏留余量:不是训练完就能让 CDU 歇会儿的那种了。


一、从「聊几句」到「跑一宿」,负载节奏真的变了

很多机房脑子里还是训模型那套,我也理解:过去确实好使。

  • • 拉起一个大 job,满负载几小时到几天
  • • job 一停,负载掉下来,一次侧也能跟着松口气——CDU 不用一直顶在高位。

Agent 长任务完全是另一回事:

训练(短跑)Agent(马拉松)
时长有高峰,中间能歇小时级连轴转,常 overnight
负载峰值高、间歇明显中高负载长时间贴着
散热容易犯的错峰值够就行只盯峰值、忽略平均热
机房体感「偶尔吵一阵」「怎么一直热、一直费电」

说白了:AI 越来越像睡在你机房的同事,不是聊两句就走的访客。云厂推理算力也在加码——和 6/25 推理算力那篇 一条线,今天不展开表,就记一句:负载更像长跑,不像冲刺。


二、按短跑定散热,跑马拉松一定吃亏

1. CDU 只按峰值买,平时按平均跑——迟早顶格

Agent 区长时间中高负载,一次侧和 CDU 若按「偶尔满负荷」留余量,平时就容易顶格、降频或猛加泵。PUE 难看不说,机房那动静,待久了真的烦。

2. 训练区和 Agent 区共用一套「分时供冷」——两边都不舒服

训练 job 结束能歇;Agent 区像常开冰箱。一套调度,A 区浪费、B 区不够。后面得分区供冷、分区计量,不是 PPT 里写一句「全楼液冷」就踏实了。

3. 还指望风冷「补一点」——越来越不现实

机柜功率档往上走,液冷基本是主路径;Rubin 这一代更是45℃ 温水液冷往量产走——英伟达把「温水进机房」写进平台规格,不是噱头,是常开高负载下的现实选择。Agent 叠在高密柜上,风冷补刀的空间,说实话越来越小


三、定散热方案前先问:这排机柜是短跑,还是马拉松

别被「冷水」两个字带偏——现在新建高密柜,讲的是冷板 + CDU + 一次侧,很多规格已经是40~45℃ 温水在循环,不是你以为的「越冷越好」。

先问一句:

这排机柜,是偶尔满负载,还是长时间中高负载?

  • 短跑:峰值 + 间歇,一次侧和 CDU 还能跟着喘口气。
  • 马拉松平均热 + 峰值一起算,温水回路和电都要按常开入账;6/23 2300W 热栈 里说的堆栈加价,很多就卡在这——不是芯片突然变热,是热根本停不下来,CDU 也下不来。

这种常开负载,长期账单往往在泵功和一次侧,不是少拧几个快接头。我们做过120kW 级混部对比(冷泉能控现场):同样负载,两相冷板侧所需流量可低到单相约 1/3量级,靠相变潜热带走热;UQD 个数仍看冷板路数、并联和冗余——流量下来,接头未必少。这一点我踩过坑,别被销售 PPT 带跑。


四、跟你有什么关系

  1. 1.AI 涨价、限流——背后常有电和散热,不只是模型贵;你付的 Token,有一部分是在买机房能一直扛住
  2. 2.绿色数据中心宣传——Agent 区常开,PUE 差 0.1都是真电费;温水液冷也不是「免费午餐」,回路常开就得一直转。

收束

18 小时 RTL只是开头:长任务 = 散热马拉松。机房若还按训练短跑定 CDU 和一次侧,会先卡在常开的热和电上——不是模型不够聪明,是基础设施还在按旧节奏喘气,挺浪费的。

你那边训练峰值Agent 常开,哪个更让你头疼?留言区投一票,下篇写混部机房怎么分区


往期:推理算力 +122%(06-25) · 2300W 热栈(06-23) · SpaceX 散热(06-18)

两个常见追问(简答)

Q1:45℃ 温水,会不会「不够冷」、芯片更热?
A:冷板侧有自己的工质循环,45℃ 指的是一次侧温水,不是 die 表面温度。平台写 45℃,是在高密 + 常开下换PUE 和一次侧经济性——别用家用空调「越低越好」去套机房。

Q2:训练区和 Agent 区,能不能共用一台 CDU?
A:物理上可以,逻辑上要分开想。共站可以,但要分回路、分计量、分冗余;否则训练区间歇时省下来的电,会被 Agent 区常开吃掉,账永远算不清。


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/3 16:45:32

Hermes Agent 保姆级教程:本地部署、核心概念与实战避坑指南

如果你最近在关注 AI 开发工具,特别是那些能让 AI 模型直接操作你电脑、帮你自动处理任务的“智能体”(Agent),那么“Hermes Agent”这个名字你一定不陌生。它被很多开发者称为“本地版的 AI 助手”,能调用本地工具、执…

作者头像 李华
网站建设 2026/7/4 16:16:56

AI 写简历,AI 筛简历,没人被录用

讲个你可能正在经历、又有点荒诞的场景。 你看上一个岗位,打开 AI,把职位描述粘进去,让它帮你把简历改得严丝合缝——实习经历润色得金光闪闪,没怎么碰过的技能也顺手加上,照片背景都给你换成了高级写字楼。几分钟&…

作者头像 李华
网站建设 2026/7/4 7:55:27

如何快速构建轻量级多模态AI:3步实现模型融合的终极指南

如何快速构建轻量级多模态AI:3步实现模型融合的终极指南 【免费下载链接】happy-llm 📚 从零开始构建大模型 项目地址: https://gitcode.com/GitHub_Trending/ha/happy-llm 还在为大模型显存占用高而烦恼?想让小模型同时具备中文理解与…

作者头像 李华
网站建设 2026/7/4 1:18:43

2026年毕业论文写作全流程指南:从选题到答辩的7个关键步骤

标题:2026年毕业论文写作全流程指南:从选题到答辩的7个关键步骤关键词:毕业论文写作一句话答案:2026年毕业论文写作的标准流程包括选题、文献综述、研究设计、撰写、查重降重、答辩准备7个关键步骤,借助毕业之家AI&…

作者头像 李华
网站建设 2026/7/3 20:26:33

SOPS:密钥管理工具,22k Star

文章目录SOPS:密钥管理工具,22k StarSOPS:密钥管理工具,22k Star SOPS,斩获了 22k 的 Star: SOPS 全称 Secrets OPerationS,是一款开源的加密文件编辑器。它能处理 YAML、JSON、ENV、INI 和 BI…

作者头像 李华