news 2026/6/23 14:55:29

vLLM推理引擎教程6-Nsight Systems性能分析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
vLLM推理引擎教程6-Nsight Systems性能分析

1、概念

我们需要通过推理引擎极致地优化推理的性能,所以必不可少需要一个性能分析工具。

本文介绍Nvidia Nsight Systems,它时一个低开销的系统级性能分析器。它的核心设计目标是回答一个关键问题:“我的应用程序在运行过程中,时间到底花在了哪里”。

Nsight Systems专注于应用程序的行为,它通过收集代码在CPU和GPU上的执行细节,生成一个跨整个系统的时间线视图,让开发者能够清晰地看到线程活动、GPU内核执行、内存拷贝、API调用等事件之间地因果关系和时序关系。

2、安装

目标:在linux服务器上跟踪应用程序的执行,在windows上进行可视化分析。

下载地址:https://developer.nvidia.com/nsight-systems/get-started

Windows安装:

linux安装:

Linux安装命令:

sudo rpm -ivh NsightSystems-linux-cli-public-2025.6.1.190-3689520.rpm

Linux端验证成功:

nsys --version

返回结果:

3、Python版本GPU性能测试

python测试代码:

import torch import time print("Creating tensors on GPU...") x = torch.randn(10000, 10000).cuda() y = torch.randn(10000, 10000).cuda() print("Performing matrix multiplication...") start = time.time() z = torch.mm(x, y) torch.cuda.synchronize() end = time.time() print(f"Done! Time: {end - start:.2f} seconds") print(f"Result shape: {z.shape}")

执行命令日志:

(vllm_python312) [work@iZuf6hp1dkg31metmko4pbZ test]$ nsys profile --trace=cuda,nvtx,osrt --output=matrix_mult_trace --force-overwrite true python test_gpu.py Collecting data... Creating tensors on GPU... Performing matrix multiplication... Done! Time: 0.10 seconds Result shape: torch.Size([10000, 10000]) Generating '/tmp/nsys-report-1078.qdstrm' [1/1] [========================100%] matrix_mult_trace.nsys-rep Generated: /data/xiehao/workspace/code/test/matrix_mult_trace.nsys-rep

将nsys-rep文件在Windows端通过GUI打开:

上面的python代码涉及GPU操作的有3部分:

- x复制到GPU,32ms

- y复制到GPU,31ms

- mm操作,47ms

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 14:52:47

AM247L-0000伺服电机

AM247L-0000 伺服电机AM247L-0000 是一款工业级伺服电机,专为高精度位置控制和高速动态响应设计,广泛应用于数控机床、自动化生产线、机器人及精密设备中。主要特点:精确定位:配备高分辨率反馈装置,实现高精度位置和速…

作者头像 李华
网站建设 2026/6/23 14:52:02

DoraemonKit(DoKit)使用教程:从集成到实战

作为滴滴开源的跨平台研发助手,DoraemonKit(简称 DoKit)就像 “移动端开发的哆啦 A 梦口袋”,集成了性能监控、网络调试、UI 验证等 20 实用工具,能大幅提升开发 / 测试效率。本文将以教学视角拆解从集成到核心功能使…

作者头像 李华
网站建设 2026/6/22 16:23:47

什么是关键字驱动测试?

什么是关键字驱动测试? 关键字驱动测试 (KDT) 是测试自动化中的一种脚本技术,其中测试用例指令与实际测试脚本逻辑分开。它利用一组预定义的关键字来表示要在被测应用程序 (AUT) 上执行的操作。这些关键字…

作者头像 李华