news 2026/6/25 16:44:45

CANN torchtitan-npu昇腾训练适配插件

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN torchtitan-npu昇腾训练适配插件

【免费下载链接】torchtitan-npuAscend Extension for torchtitan项目地址: https://gitcode.com/cann/torchtitan-npu

torchtitan-npu

基于 torchtitan 的昇腾全流程大模型训练适配插件

简介


torchtitan-npu定位为torchtitan的昇腾(Ascend)后端扩展插件,通过即插即用的硬件亲和性优化,充分释放NPU算力,助力PyTorch native训练在昇腾平台无缝、高效、稳定地运行。

本插件基于社区ModelConverter拓展机制构建,已支持多维度训练优化,涵盖 NPU融合算子、图优化、图下沉、算子自动融合、显存管理、分布式并行以及调试维测能力等等。

社群

SIG 例会:sig-framework-adapter

最新消息


  • [Apr. 2026]: 🚀DeepSeek-V4-Flash 续训练 0day 支持:基于纯FSDP + 大EP极简切分,使能AutoFuse特性,达成训练入图,开箱即优。
  • [Apr. 2026]: 🚀【重要特性支持】算子自动融合:基于AscendC AutoFuse的能力,支持torch.compile + Inductor后端的算子自动融合。
  • [Apr. 2026]: 🚀torchtitan‑npu 正式开源:在 NPU 上支持 4D 并行等 torchtitan 原生特性,并引入 Swap Optimizer 等 NPU 亲和优化。

  • TorchTitan-NPU 0day支持DeepSeekV4续训练,助力训练场景轻松入图,开箱即优

Roadmap


当前季度的规划见torchtitan-npuRoadmap。欢迎访问。

安装

源码安装:

git clone https://gitcode.com/cann/torchtitan-npu.git cd torchtitan-npu pip install -e .

详情参见 安装教程 。

快速上手

快速启动大语言模型的训练任务,参见 快速上手文档 。

云开发平台(2 die)单机最小可运行样例,参见 云平台开发指南 。

特性支持概览


场景特性名称原生支持NPU支持
并行能力4D 并行 (FSDP2/TP/CP/PP)
专家并行 (EP/ETP)
自定义 CP (DeepSeek V3.2 CP/SDPA Ulysses CP)
torch.compiletorch.compile
训练精度MxFP8 量化✅ (Ascend 950)
HiF8 量化✅ (Ascend 950)
训练调试与监控分布式 Checkpoint
调试工具
性能优化Swap Optimizer
NPU 融合算子适配

项目结构

torchtitan-npu 充分利用了 torchtitan 提供的 ModelConverter 插件化机制。该机制介入模型定义之后、并行策略(如 TP/FSDP)应用之前,支持以非侵入式的方式,通过注册机制对特定模块进行替换或重写。基于此方案,我们实现了融合算子优化、量化支持以及优化器增强等功能。见以下项目结构:

torchtitan-npu/ ├── torchtitan_npu/ # torchtitan_npu核心源代码 │ ├── config/ # 对Config的补丁 │ ├── converters/ # 基于torchtitan ModelConverter机制的补丁 │ ├── distributed/ # 自定义分布式代码 │ ├── models/ # 基于torchtitan-npu的模型 (如Deepseek-V3.2) │ ├── patches/ # 其他补丁 │ ├── tools/ # 工具补丁 │ ├── entry.py # 启动训练 │ ├── train.py # 训练主流程补丁 │ └── __init__.py # torchtitan-npu 插件修改注入点 ├── docs/ # 文档

上下游软件栈架构图如下:

性能基准


2026.04

System: Atlas 800T A3 | Model | Number of NPUs | Precision | GBS | Local BS | Sequence Length | FSDP | TP | PP | CP | EP | Throughput (tokens/p/s) | MFU | | :----------------- | :------------- | :-------- | :-- | :------- | :-------------- | :--- | :-- | :-- | :-- | :-- | :----------- | :-- | | DeepSeek-V4-Flash | 64 | BF16 | 1024 | 1 | 4096 | 128 | 1 | 1 | 1 | 128 | 1100 | 28.78% | | DeepSeek-V3.2-671B | 64 | BF16 | 128 | 1 | 32768 | 4 | 4 | 1 | 8 | 64 | 103 | / | | DeepSeek-V3.2-671B | 64 | BF16 | 512 | 1 | 4096 | 32 | 4 | 1 | 1 | 64 | 146 | / | | DeepSeek-V3-671B | 64 | BF16 | 1024 | 1 | 4096 | 32 | 4 | 1 | 1 | 128 | 546 | / | | DeepSeek-V3-671B + compile(Autofuse) | 64 | BF16 | 1024 | 1 | 4096 | 32 | 4 | 1 | 1 | 128 | 576 | / |

注:以上MoE模型的性能数据均开启负载均衡配置moe_force_load_balance=true。

免责声明


致 torchtitan‑npu 使用者

  1. torchtitan‑npu 提供的所有内容仅供您用于非商业目的。
  2. 对于 torchtitan‑npu 测试用例以及示例文件中所涉及的各模型和数据集,平台仅用于功能测试,华为不提供任何模型权重和数据集。如您使用这些数据进行训练,请您特别注意应遵守对应模型和数据集的 License,如您因使用这些模型和数据集而产生侵权纠纷,华为不承担任何责任。
  3. 如您在使用 torchtitan‑npu 过程中,发现任何问题(包括但不限于功能问题、合规问题),请在 GitCode 提交 issue,我们将及时审视并解决。

torchtitan‑npu 功能依赖的 PyTorch 等第三方开源软件,均由第三方社区提供和维护,因第三方开源软件导致的问题的修复依赖相关社区的贡献和反馈。您应理解,torchtitan‑npu 仓库不保证对第三方开源软件本身的问题进行修复,也不保证会测试、纠正所有第三方开源软件的漏洞和错误。

License 声明


  • torchtitan‑npu 产品的使用许可证,具体请参见 LICENSE。
  • torchtitan‑npu 工具 docs 目录下的文档适用相应许可证,具体请根目录下的 LICENSE 文件。

【免费下载链接】torchtitan-npuAscend Extension for torchtitan项目地址: https://gitcode.com/cann/torchtitan-npu

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 21:12:30

平头哥C906核的JTAG调试到底怎么搞?用全志D1s实测SDIO引脚复用方案

平头哥C906核的JTAG调试实战:全志D1s引脚复用技术解析 当工程师第一次拿到搭载平头哥C906 RISC-V核心的全志D1s开发板时,最令人头疼的问题莫过于调试接口的缺失。传统串口调试只能提供有限的运行信息,而真正的硬件级调试能力往往隐藏在芯片的…

作者头像 李华
网站建设 2026/5/9 21:11:52

2025最权威的十大AI辅助论文工具实测分析

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 聚焦大语言模型架构创新以及训练优化展开研究的是DeepSeek论文,该模型运用混合专…

作者头像 李华
网站建设 2026/5/9 21:09:45

taotoken助力企业内统一管理多个团队的ai模型调用与成本

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 taotoken助力企业内统一管理多个团队的ai模型调用与成本 当企业内部多个项目组或团队同时接入和使用不同的大模型服务时&#xff0…

作者头像 李华