news 2026/2/10 10:24:27

CUDA/NCCL/NVlink实现GPU之间的通信/GPU不同架构解读

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CUDA/NCCL/NVlink实现GPU之间的通信/GPU不同架构解读

CUDA解读

NCCL解读

NCCL 是NVIDIA Collective Communications Library的缩写

读法就是:妮蔻(NCCL)

参考视频:

https://www.bilibili.com/video/BV1SWpXe2Epa/?spm_id_from=333.337.search-card.all.click&vd_source=132c74f7a893f6ef64b723d9600c40b7https://www.bilibili.com/video/BV1SWpXe2Epa/?spm_id_from=333.337.search-card.all.click&vd_source=132c74f7a893f6ef64b723d9600c40b7

单GPU的训练流程

DP:数据并行,其中GPU之间的通信就是通过NCCL实现的

GPU之间的通讯又分为节点内的通讯和节点之间的通讯

查看机器上GPU的连接方式:

nvidia-smi topo --matrix

可以看到4090显卡是不支持NVlink的

PCIe介绍

peripheral 次要的,附带的;外围的,周边的;(计算机设备)外围的

NCCL P2P介绍

禁用P2P代码:

export NCCL_P2P_DISABLE=1

NVLink介绍

https://www.bilibili.com/video/BV193BBYYEaG?spm_id_from=333.788.videopod.sections&vd_source=132c74f7a893f6ef64b723d9600c40b7https://www.bilibili.com/video/BV193BBYYEaG?spm_id_from=333.788.videopod.sections&vd_source=132c74f7a893f6ef64b723d9600c40b7

NVSwitch介绍

GPU不同架构

https://www.bilibili.com/video/BV1x24y1F7kY?spm_id_from=333.788.videopod.sections&vd_source=132c74f7a893f6ef64b723d9600c40b7https://www.bilibili.com/video/BV1x24y1F7kY?spm_id_from=333.788.videopod.sections&vd_source=132c74f7a893f6ef64b723d9600c40b7

2020年就有A100了

pascal架构第一次提出了NVlink

Volta架构

第一次提出了tensor core

Volta架构上面就是卖的工作站DGX

这是 NVIDIA 用来命名其高性能深度学习工作站和服务器的系列品牌,专门面向 AI 训练和推理任务

Turing架构

Turing架构主要是有光线追踪效果 RT core

RTX系列是 NVIDIA 用来命名支持实时光线追踪 (Ray Tracing)的显卡系列的品牌,强调其在光线追踪和高级图形渲染上的能力

Ampere架构

A100

Hopper架构

Hopper架构是4nm的芯片

Hopper是耶鲁大学第一位女博士

更新的一些架构的介绍:

https://www.bilibili.com/video/BV1LGodYaE6r/?spm_id_from=333.337.search-card.all.click&vd_source=132c74f7a893f6ef64b723d9600c40b7https://www.bilibili.com/video/BV1LGodYaE6r/?spm_id_from=333.337.search-card.all.click&vd_source=132c74f7a893f6ef64b723d9600c40b7

Ada Lovelace架构

RTX 4090是Ada Lovelace架构

这些GPU架构都是用人名来命名的

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/10 1:06:25

为什么大厂都在试用Open-AutoGLM做App回归测试?这4点优势太致命

第一章:为什么大厂都在试用Open-AutoGLM做App回归测试?随着移动应用迭代速度的加快,传统回归测试面临覆盖率低、维护成本高、响应周期长等挑战。Open-AutoGLM 作为一款基于大语言模型(LLM)驱动的自动化测试框架&#x…

作者头像 李华
网站建设 2026/2/7 13:45:50

TensorFlow在粉丝社群行为洞察中的价值

TensorFlow在粉丝社群行为洞察中的价值 在今天的数字内容生态中,一个明星发布新歌、一款游戏上线更新,甚至一次直播失误,都可能在几分钟内引爆全网讨论。这些讨论背后,是成千上万粉丝在社交媒体上的点赞、评论、弹幕刷屏和消费行为…

作者头像 李华
网站建设 2026/2/8 7:31:38

热处理抛丸机远程监控运维管理系统方案

热处理抛丸机作为机械制造、汽车零部件、工程机械等行业的关键表面处理设备,其抛丸强度、清理效率、运行稳定性直接影响工件表面粗糙度、疲劳强度及后续加工精度,是保障产品质量、提升生产效率的核心基础设施。 传统模式下,热处理抛丸机多采用…

作者头像 李华