英伟达近日发布称,正在开发用于可视化和监测英伟达GPU集群的软件解决方案,为云合作伙伴和企业提供洞察仪表板,帮助他们提高整个计算基础设施的GPU正常运行时间。
据了解,该服务由客户选择、自行安装和控制,用于监测GPU使用情况、配置和错误。它将包含一个开源客户端软件智能体,这是英伟达持续支持开放、透明软件的一部分,旨在帮助客户最大限度的发挥其GPU系统的性能。
总体来看,这套工具是一个云端算力集群控制工具,有点类似PC上的任务管理器。客户可以自行决定是否开启,服务由英伟达官网托管。未来这套工具会计划开源。
核心机制:客户自主,只读遥测
这项纯软件解决方案不由英伟达控制,用户可自行安装、配置和管理。它仅采集只读遥测数据(如GPU使用、配置和错误指标),绝不修改GPU配置或底层运行机制。通过客户端软件智能体,用户可将节点级数据流式传输至仪表板,实现全球GPU集群的实时可视化——既支持整体状态洞察,也可按计算区域(同一物理或云位置的节点组)细化查看。
英伟达承诺工具安全透明
英伟达这套工具的客户端智能体计划开源,提供完整透明度和可审计性。英伟达重申GPU没有硬件跟踪技术,没有GPU终止开关也没有后门。云端算力服务工具只能读遥测数据,无法修改GPU配置或底层运行机制。
预防算力集群瓶颈,提升用户ROI
该软件通过直观仪表板,帮助运营商最大化GPU系统性能。数据中心运营商将能够用这套工具能实时看到GPU“偷懒”或者不健康状态,从而及时优化GPU集群工作状态。
具体包括:
性能检测并实时优化:追踪功耗峰值、集群利用率、内存带宽及互连状况,在不超出能耗预算的前提下最大化单位功耗性能。
故障预警:及早发现热点、气流问题或异常错误,避免过热降频和组件过早老化,延长正常运行时间。发现错误和异常情况,及早发现故障部件。
一致性保障:确认软件配置和设置一致,以确保结果可复现以及运行可靠。
所以这套工具的整体目标,还是帮助客户提升使用GPU集群的ROI。平时使用能让GPU集群工作的更好,小问题及时发现,避免影响数据中心运营商的业务受到影响。
关于检测范围。英伟达考虑到分布式GPU集群的趋势,这套工具支持客户全球GPU集群的整体状态洞察。让客户不再是每个GPU集群都需要做一套性能监测工具。