面对定制设计的高性能组网架构,业界开源的GPU集合通信库(比如NCCL)并不能将网络的通信性能发挥到极致,从而影响大模型训练的集群效率。 为应对这些挑战,创智、基流、智谱、联通等多家机构联合推出了开源GPU集合通信库VCCL。 VCCL在兼容异构硬件和支撑主流训练框架的基础上,创新性地引入了三大核心技术: DeepNCCL是为阿里云神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。 本文主要介绍DeepNCCL的架构、优化原理和性能说明。
Jackie aka jackiebabigirl Nude Leaks OnlyFans Photo #195 - Faponic
今天,我们正式开源 VCCL(Venus Collective Communication Library)- 一款由创智、基流、智谱、联通、北航、清华、东南联合研发的 GPU 集合通信库增强方案,以三大核心能力,重新定义 GPU 集群通信体验。
十年前,Intel主导的PCIe标准限制了包括GPU在内的PCIe设备间的直接数据传输,这些设备通常需要通过CPU进行通信,这限制了它们的通信带宽。 为了突破这一限制,NVIDIA的CEO黄仁勋推出了NVLink技术,允许GPU之间直接互联,绕过CPU,显著提高了数据传输速度。
具体通信流程:当模型参数需要从源GPU迁移到目标节点的异构GPU时,首先会经由PCIe通道,将数据从GPU复制到源节点的CPU,随后通过IPoIB或以太网跨越节点边界,抵达目标节点的CPU。 为了解决用户需求和技术挑战,壁仞科技团队攻坚异构GPU训练难点,自主研发出原创异构GPU协同训练方案HGCT,通过异构调度、异构通信、异构拆分三层架构,实现了一套统一方案支持多种不同型号、不同厂商的GPU,业界首次支持3种及以上异构GPU混合训练.