NCCL–多卡训练后端[持续补充]

本文主要记录和学习pytorch后端NCCL相关的知识点，为后续大模型训练打好基础

内容隐藏

https://developer.nvidia.com/nccl

“NCCL” 代表 “NVIDIA Collective Communications Library”，”NVIDIA 集体通信库“，它是一种由 NVIDIA 开发的用于高性能计算的通信库。NCCL 专门设计用于加速 GPU 群集之间的通信，以便在并行计算和深度学习等领域中提供更好的性能。

NVIDIA 集合通信库 (NCCL) 可实现针对 NVIDIA GPU 和网络进行性能优化的多 GPU 和多节点通信基元。NCCL 提供了 all-gather、all-reduce、broadcast、reduce、reduce-scatter、point-to-point send 和 receive 等例程，这些例程均经过优化，可通过节点内的 PCIe 和 NVLink 高速互联以及节点间的 NVIDIA Mellanox 网络实现高带宽和低延迟。

NCCL相关环境变量说明：

【https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/usage.html】

NCCL_TIMEOUT:设置集合操作超时阈值,单位毫秒；如果常见超时错误,适当增大该值,但不能太大。NCCL_TIMEOUT 环境变量用于设置 NCCL 集体通信操作的超时时间。通过调整这个值，你可以更好地处理网络延迟和不稳定的问题，确保 NCCL 通信的稳定性和可靠性。如果在集体通信过程中遇到超时问题，可以尝试调整此环境变量以解决问题。

设置超时时间:

NCCL_TIMEOUT 用于定义 NCCL 集体通信操作的超时时间。超时时间是 NCCL 在执行操作时等待响应的最长时间，超出此时间将触发超时错误。

解决网络问题:

在高性能计算和大规模分布式训练中，网络延迟或不稳定可能导致集体通信操作超时。设置合适的 NCCL_TIMEOUT 可以帮助调节容错设置，避免训练过程中因超时错误而中断。

性能调优:

根据你的集群配置和网络状况，适当调整 NCCL_TIMEOUT 可以帮助优化通信性能和稳定性。

NCCL_ALGO:选择集合通信算法,如Ring, Tree；不同拓扑适合不同算法,测试选更优算法
NCCL_CHUNK_SIZE:定义环形传输缓冲区大小；合理设置可提速,但也会增加内存消耗
NCCL_DEBUG:打开NCCL调试日志；出现问题时打开调试,但会降低速度,不要在生产环境使用
NCCL_DEBUG_FILE设置一个文件地址，变量用于将NCCL的调试日志输出到文件中。有助于调试nccl。
NCCL_P2P_LEVEL:设置点对点通信优化级别；增加该值可减少P2P次数,提高某些操作效率
NCCL_P2P_DISABLE:禁用点对点通信,强制使用集合通信。在某些情况下，P2P 通信可能会导致性能问题或出现错误。禁用 P2P 通信可以帮助解决这些问题。如果你遇到与 P2P 通信相关的错误或不稳定性，禁用 P2P 可能有助于恢复系统的稳定性。
NCCL_PXN_DISABLE：禁用使用非本地 NIC 的节点间通信，使用 NVLink 和一个中间 GPU。建议设置成1。在PyTorch中进行跨节点all-to-all通信时，如果该环境变量是0会出现异常。
NCCL_SOCKET_IFNAME:选择网络接口。
NCCL_SOCKET_NTHREADS 增加它的数量可以提高socker传输的效率，但是会增加CPU的负担
NCCL_NET_GDR_LEVEL:设置GPUDirect RDMA的使用级别。
NCCL_MAX_NRINGS:定义支持的最大NCCL环路数。
NCCL_MIN_NRINGS:定义最小环路数。
NCCL_BUFFSIZE:设置scratch空间大小。
NCCL_BUFFLE_SIZE 缓存数据量，缓存越大一次ring传输的数据就越大自然对带宽的压力最大，但是相应的总延迟次数会少。默认值是4M（4194304），注意设置的时候使用bytes（字节大小）
NCCL_NTHREADS:设置NCCL内部使用的线程数。
NCCL_VERSION:显示NCCL版本信息。
NCCL_MAX/MIN_NCHANNELS 最小和最大的rings，rings越多对GPU的显存、带宽的压力都越大，也会影响计算性能
NCCL_CHECKS_DISABLE 在每次集合通信进行前对参数检验校对，这会增加延迟时间，在生产环境中可以设为1.默认是0
NCCL_CHECK_POINTERS 在每次集合通信进行前对CUDA内存指针进行校验，这会增加延迟时间，在生产环境中可以设为1.默认是0
NCCL_NET_GDR_LEVEL GDR触发的条件，默认是当GPU和NIC挂载一个swith上面时使用GDR
NCCL_IGNORE_CPU_AFFINITY 忽略CPU与应用的亲和性使用GPU与nic的亲和性为主
NCCL_IB_DISABLE:禁用InfiniBand传输。

禁用 InfiniBand: 设置 NCCL_IB_DISABLE=1 会禁用 NCCL 在 InfiniBand 设备上的使用。这意味着 NCCL 将不会利用 InfiniBand 网络进行数据传输，而是回退到其他网络接口（例如以太网或其他网络接口）。

调试和兼容性: 禁用 InfiniBand 可能用于调试目的，或在系统中 InfiniBand 网络出现问题时回退到其他网络接口。如果你遇到与 InfiniBand 相关的错误或兼容性问题，禁用 InfiniBand 可能有助于解决这些问题。

NCCL_IB_HCA 代表IB使用的设备：Mellanox mlx5系列的HCA设备NCCL_IB_HCA=mlx5 会默认轮询所有的设备。NCCL_IB_HCA=mlx5_0:1 指定其中一台设备。
NCCL_IB_TIMEOUT 改变量用于控制InfiniBand Verbs超时。取值范围1-22。超时时间的计算公式为4.096微秒 * 2 ^ timeout，正确的值取决于网络的大小。增加该值可以在非常大的网络上提供帮助，例如 NCCL在调用ibv_poll_cq时出现错误12时。建议在大模型训练任务中设置成最大值22，可以减少不少nccl timeout异常。设置超时时间: NCCL_IB_TIMEOUT 用于控制 InfiniBand 网络操作的超时时间。通过调整这个值，你可以控制 NCCL 在遇到通信延迟或网络问题时的容忍度。解决网络问题: 在高性能计算和大规模分布式训练中，网络延迟或不稳定可能导致超时错误。调整 NCCL_IB_TIMEOUT 可以帮助你在遇到网络问题时更好地调节超时设置，避免训练过程被中断。

NCCL_IB_RETRY_CNT变量控制 InfiniBand 的重试次数。建议在大模型训练任务中设置成13，尽可能多重试。
NCCL_DEBUG_FILE设置一个文件地址，变量用于将NCCL的调试日志输出到文件中。有助于调试nccl。
NCCL_IB_PCI_RELAXED_ORDERING启用 IB Verbs 传输的Relaxed Ordering。Relaxed Ordering可以极大地提高虚拟化环境下 InfiniBand 网络的性能。设置为 2，如果可用，自动使用Relaxed Ordering。设置为 1，强制使用Relaxed Ordering，如果不可用则失败。设置为 0，禁用使用Relaxed Ordering。默认值为 2。建议值为1

NCCL相关环境变量说明 ：

相关文章：

发表评论 取消回复

NCCL相关环境变量说明：

发表评论取消回复