{"id":16238,"date":"2024-07-17T21:42:00","date_gmt":"2024-07-17T13:42:00","guid":{"rendered":"http:\/\/139.9.1.231\/?p=16238"},"modified":"2024-07-17T16:42:31","modified_gmt":"2024-07-17T08:42:31","slug":"pytorch-ddp-dp","status":"publish","type":"post","link":"http:\/\/139.9.1.231\/index.php\/2024\/07\/17\/pytorch-ddp-dp\/","title":{"rendered":"pytorch\u5355\u673a\u591a\u5361\u8bad\u7ec3\u3010\u5206\u5e03\u5f0f\u6570\u636e\u5e76\u884c \u548c \u6570\u636e\u5e76\u884c\u65b9\u6848\u3011"},"content":{"rendered":"\n\n\n<p><a href=\"https:\/\/github.com\/KaiiZhang\/DDP-Tutorial\/blob\/main\/DDP-Tutorial.md\">https:\/\/github.com\/KaiiZhang\/DDP-Tutorial\/blob\/main\/DDP-Tutorial.md<\/a><\/p>\n\n\n\n<h2>\u6570\u636e\u5e76\u884c\u548c\u5206\u5e03\u5f0f\u6570\u636e\u5e76\u884c\u65b9\u6848\uff1a<\/h2>\n\n\n\n<p><strong>\u7b2c\u4e00\uff1a<\/strong> \u6570\u636e\u5e76\u884c \uff0c\u00a0\u5f00\u4e00\u4e2a\u8fdb\u7a0b(process)\uff0c\u8be5\u8fdb\u7a0b\u4e0b\u6bcf\u4e2a\u7ebf\u7a0b(threading)\u8d1f\u8d23\u4e00\u90e8\u5206\u6570\u636e\uff0c\u5206\u522b\u8dd1\u5728\u4e0d\u540c\u5361\u4e0a\uff0c\u524d\u5411\u4f20\u64ad\uff0cdevices\u5404\u73a9\u5404\u7684\uff0c\u8ba1\u7b97loss\u65f6\u5019\u9700\u8981\u6240\u6709devices\u7684\u8f93\u51fa\u8f93\u9001\u5230\u4e3bGPU\u3010\u9ed8\u8ba4device0\u3011\u4e0a\u8ba1\u7b97\u68af\u5ea6\u5747\u503c\uff0c\u5e76\u66f4\u65b0device0\u4e0a\u7684\u53c2\u6570\uff0c\u7136\u540e\u5c06\u53c2\u6570\u5e7f\u64ad\u5230\u5176\u4ed6device\u4e0a\u3002\u603b\u7ed3\uff1a\u5355\u673a-\u591a\u7ebf\u7a0b\uff0c\u901a\u8fc7<code>torch.nn.DataParallel<\/code>\u00a0\u5b9e\u73b0\u3002<br><strong>\u7b2c\u4e8c\uff1a<\/strong>\u00a0\u5206\u5e03\u5f0f\u6570\u636e\u5e76\u884c\uff0c\u5f00\u591a\u4e2a\u8fdb\u7a0b\uff0c\u4e00\u4e2a\u8fdb\u7a0b\u8fd0\u884c\u5728\u4e00\u5f20\u5361\u4e0a\uff0c\u6bcf\u4e2a\u8fdb\u7a0b\u8d1f\u8d23\u4e00\u90e8\u5206\u6570\u636e\u3002\u5728\u5404\u8fdb\u7a0b\u68af\u5ea6\u8ba1\u7b97\u5b8c\u6210\u4e4b\u540e\uff0c\u5404\u8fdb\u7a0b\u9700\u8981\u5c06\u68af\u5ea6\u8fdb\u884c\u6c47\u603b\u5e73\u5747\uff0c\u7136\u540e\u518d\u7531 rank=0 \u7684\u8fdb\u7a0b\uff0c\u5c06\u5176 broadcast \u5230\u6240\u6709\u8fdb\u7a0b\u3002\u5404\u8fdb\u7a0b\u7528\u8be5\u68af\u5ea6\u6765\u66f4\u65b0\u53c2\u6570\u3002\u7531\u4e8e\u5404\u8fdb\u7a0b\u4e2d\u7684\u6a21\u578b\uff0c\u521d\u59cb\u53c2\u6570\u4e00\u81f4 (\u521d\u59cb\u65f6\u523b\u8fdb\u884c\u4e00\u6b21 broadcast)\uff0c\u800c\u6bcf\u6b21\u7528\u4e8e\u66f4\u65b0\u53c2\u6570\u7684\u68af\u5ea6\u4e5f\u4e00\u81f4\uff0c\u56e0\u6b64\uff0c\u5404\u8fdb\u7a0b\u7684\u6a21\u578b\u53c2\u6570\u59cb\u7ec8\u4fdd\u6301\u4e00\u81f4\u3002<\/p>\n\n\n\n<p>\u603b\u7ed3\uff1a\u5355\u673a\/\u591a\u673a-\u591a\u8fdb\u7a0b\uff0c\u901a\u8fc7<code>torch.nn.parallel.DistributedDataParallel<\/code>\u00a0\u5b9e\u73b0\u3002<\/p>\n\n\n\n<p>\u6beb\u65e0\u7591\u95ee\uff0c\u7b2c\u4e00\u79cd\u7b80\u5355\uff0c\u7b2c\u4e8c\u79cd\u590d\u6742\uff0c\u6bd5\u7adf \u8fdb\u7a0b\u95f4 \u901a\u4fe1\u6bd4\u8f83\u590d\u6742\u3002<\/p>\n\n\n\n<p><code>torch.nn.DataParallel<\/code>&nbsp;\u548c&nbsp;<code>torch.nn.parallel.DistributedDataParallel<\/code>\uff0c\u4e0b\u9762\u7b80\u79f0\u4e3a<code>DP<\/code>\u548c<code>DDP<\/code>\u3002<\/p>\n\n\n\n<p><strong>\u603b\u7ed3\uff1a<\/strong>\u00a0\u4e24\u4e2a\u51fd\u6570\u4e3b\u8981\u7528\u4e8e\u5728\u591a\u5f20\u663e\u5361\u4e0a\u8bad\u7ec3\u6a21\u578b\uff0c\u4e5f\u5c31\u662f\u6240\u8c13\u7684<strong>\u5206\u5e03\u5f0f\u8bad\u7ec3<\/strong>\u3002<\/p>\n\n\n\n<h2>\u6570\u636e\u5e76\u884c <code>torch.nn.DataParallel<\/code>\u00a0 \uff1a<\/h2>\n\n\n\n<h3>\u539f\u7406\uff1a<\/h3>\n\n\n\n<ul><li><strong>\u7f51\u7edc\u524d\u5411\u4f20\u64ad\u524d\uff0c\u8f93\u5165\u6570\u636e\u88ab\u5206\u6210\u51e0\u4efd\u9001\u5230\u4e0d\u540c\u663e\u5361\u4e0a\uff0c\u7f51\u7edc\u6a21\u578b\u6bcf\u4e2a\u663e\u5361\u4e0a\u62f7\u8d1d\u4e00\u4efd\u3002<\/strong><\/li><li><strong>\u524d\u5411\u4f20\u64ad\u65f6\uff0cdevices\u5404\u73a9\u5404\u7684\u3002<\/strong><\/li><li><strong>\u524d\u5411\u4f20\u64ad\u5b8c\u6210\u540e\uff0c\u6bcf\u5f20\u663e\u5361\u4e0a\u7684\u7f51\u7edc\u8f93\u51fa\u4f1a\u9001\u5230\u4e3bdevice\u4e0a(\u9ed8\u8ba4\u7b2c\u4e00\u5f20\u5361)\uff0c\u5728\u4e3bdevice\u4e0a\u8ba1\u7b97loss\u3002\u7136\u540e\uff0closs\u9001\u7ed9\u6bcf\u4e2adevice\uff0c\u6bcf\u4e2adevice\u8ba1\u7b97\u5f97\u5230\u68af\u5ea6\uff0c\u518d\u628a\u68af\u5ea6\u9001\u5230\u4e3bdevice\u4e0a\uff0c\u4e3bdevice\u5bf9\u6c47\u603b\u5f97\u5230\u7684\u68af\u5ea6\u6c42\u5747\u503c\u540e\uff0c\u66f4\u65b0\u4e3bdevice\u4e0a\u7684\u7f51\u7edc\u53c2\u6570\u3002\u6700\u540e\uff0c\u5c06\u66f4\u65b0\u540e\u7684\u7f51\u7edc\u6743\u91cd\u5e7f\u64ad(broadcast)\u5230\u5176\u5b83device\u4e0a\uff0c\u5b9e\u73b0\u6240\u6709device\u7f51\u7edc\u6743\u91cd\u540c\u6b65\u3002<\/strong><\/li><li>torch.nn.DataParallel\u662f\u628a\u6bcf\u5f20\u5361\u7684\u8f93\u51fa\u805a\u5408\u5230GPU0\u4e0a\uff0c\u7136\u540e\u5728GPU0\u4e0a\u4e0elabel\u8ba1\u7b97loss\uff0c\u6839\u636e\u8ba1\u7b97\u56fe\u53cd\u5411\u4f20\u64ad\uff0c\u8ba9\u6bcf\u5f20\u5361\u4e0a\u83b7\u5f97\u81ea\u5df1\u7684\u68af\u5ea6\u3002\u4f18\u5316\u5668\u5219\u5bf9\u68af\u5ea6\u8fdb\u884c\u805a\u5408\uff0c\u5728\u4e3bGPU\u66f4\u65b0\u6a21\u578b\u53c2\u6570\uff0c\u518d\u628a\u65b0\u7684\u53c2\u6570\u5206\u53d1\u5230\u6bcf\u4e2aGPU\u3002<\/li><\/ul>\n\n\n\n<p>\u4ece\u4e0a\u9762\u4ecb\u7ecd\u53ef\u77e5\uff0c<code>DataParallel<\/code>\u00a0\u5bf9\u4e3bdevice\u4f9d\u8d56\u8f83\u9ad8\uff0c\u4f1a\u9020\u6210\u8d1f\u8f7d\u4e0d\u5747\u8861\uff0c\u9650\u5236\u6a21\u578b\u8bad\u7ec3\u901f\u5ea6\u3002<\/p>\n\n\n\n<h3>DP\u4f7f\u7528\u6559\u7a0b\uff1a<\/h3>\n\n\n\n<p>\u4e3b\u7a0b\u5e8f<code>DP_main.py<\/code>\u4e2d\uff0c\u4e0b\u9762\u8fd9\u884c\u4ee3\u7801\u5b9e\u73b0\u6570\u636e\u5e76\u884c\u5316\u5206\u5e03\u5f0f\u8bad\u7ec3\u3002<\/p>\n\n\n\n<p>\u76f8\u6bd4\u5355\u5361\u5355\u673a\u4ee3\u7801\uff1a\u53ea\u9700\u8981\u4fee\u6539\u4ee5\u4e0b\u4ee3\u7801\uff1a<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">model_train = torch.nn.DataParallel(model)\t<\/pre>\n\n\n\n<p>\u901a\u8fc7\u7ec8\u7aef\u8fd0\u884c\u547d\u4ee4\uff0c<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">CUDA_VISIBLE_DEVICES=0,1 python3 DP_main.py<\/pre>\n\n\n\n<p>DP_main.py\u4ee3\u7801\uff1a<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>import torch\r\nimport torchvision\r\nimport torch.nn as nn\r\nimport torch.backends.cudnn as cudnn\r\nimport torchvision.transforms as transforms\r\nfrom net import ToyModel\r\nimport torch.optim as optim\r\n\r\n\r\n#---------------------------#\r\n#   \u83b7\u5f97\u5b66\u4e60\u7387\r\n#---------------------------#\r\ndef get_lr(optimizer):\r\n    for param_group in optimizer.param_groups:\r\n        return param_group&#091;'lr']\r\n\r\n#---------------------------#\r\n#   \u83b7\u5f97\u6570\u636e\u96c6\r\n#---------------------------#\r\ndef get_dataset():\r\n    transform_train = transforms.Compose(&#091;\r\n        transforms.RandomCrop(32, padding=4),\r\n        transforms.RandomHorizontalFlip(),\r\n        transforms.ToTensor(),\r\n        transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),\r\n    ])\r\n\r\n    CIFAR10_trainset = torchvision.datasets.CIFAR10(root='.\/data', train=True, \r\n        download=True, transform=transform_train)\r\n    \r\n    # ----------------------------------------------------------#\r\n    #   num_workers\uff1a\u52a0\u8f7d\u6570\u636e\u96c6\u4f7f\u7528\u7684\u7ebf\u7a0b\u6570\r\n    #   pin_memory=True\uff1a\u9501\u9875\u5185\u5b58, \u53ef\u4ee5\u52a0\u901f\u6570\u636e\u8bfb\u53d6. (\u53ef\u80fd\u4f1a\u5bfc\u81f4Bug)\r\n    # ----------------------------------------------------------#\r\n    trainloader = torch.utils.data.DataLoader(CIFAR10_trainset, \r\n        batch_size=16, num_workers=2, pin_memory=True)\r\n    return trainloader\r\n\r\n#---------------------------#\r\n#   \u8bad\u7ec3\r\n#---------------------------#\r\ndef train(model, device, trainloader, optimizer, loss_func, print_frequence, epoch):\r\n    train_loss = 0\r\n    correct = 0\r\n    total = 0\r\n    for batch_idx, (inputs, targets) in enumerate(trainloader):\r\n        inputs, targets = inputs.to(device), targets.to(device)\r\n        optimizer.zero_grad()\r\n        outputs = model(inputs)\r\n        loss = loss_func(outputs, targets)\r\n        loss.backward()\r\n        optimizer.step()\r\n\r\n        # loss.item()\u628a\u5176\u4e2d\u7684\u68af\u5ea6\u4fe1\u606f\u53bb\u6389\uff0c\u6ca1.item()\u53ef\u80fd\u4f1a\u5bfc\u81f4\u7a0b\u5e8f\u6240\u5360\u5185\u5b58\u4e00\u76f4\u589e\u957f\uff0c\u7136\u540e\u88ab\u8ba1\u7b97\u673akilled\r\n        train_loss += loss.item()       \r\n        _, predicted = outputs.max(1)\r\n        total += targets.size(0)\r\n        correct += predicted.eq(targets).sum().item()\r\n        if batch_idx % print_frequence == print_frequence - 1 or print_frequence == trainloader.__len__() - 1:\r\n            print('epoch: %d | Loss: %.3f | Acc: %.3f%% (%d\/%d)' % (\r\n                epoch, train_loss \/ (batch_idx + 1), 100. * correct \/ total, correct, total))\r\n    torch.save(model.state_dict(), \"%d.ckpt\" % epoch)\t\r\n    # torch.save(model.module.state_dict(), \"%d.ckpt\" % epoch)\t\u7528\u53cc\u5361\u8bad\u7ec3\u4fdd\u5b58\u6743\u91cd\uff0c\u91cd\u65b0\u52a0\u8f7d\u65f6\uff0c\u4e5f\u9700\u8981\u8fd9\u6837\u4fdd\u5b58\uff0c\u5426\u5219\uff0c\u6743\u91cd\u524d\u9762\u4f1a\u591amodule\r\n    \r\n    # -------------------------------------#\r\n    #   \u53ea\u662f\u60f3\u770b\u770blr\u6709\u6ca1\u6709\u8870\u51cf\r\n    # -------------------------------------#\r\n    lr = get_lr(optimizer)\r\n    print(\"lr:\", lr)\r\n    lr_scheduler.step()\r\n\r\n\r\nif __name__ == '__main__':\r\n    trainloader = get_dataset()\r\n    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')\r\n    model = ToyModel()\r\n    print(model)\r\n\r\n    model_train = model.train()\r\n    if torch.cuda.is_available():   \r\n        model_train = torch.nn.DataParallel(model)  # \u5355GPU\u8dd1\u5957DP\u7684\u8bdd\uff0c\u6307\u6807\u53ef\u80fd\u4f1a\u964d\r\n        cudnn.benchmark = True\r\n        model_train = model_train.cuda()            # \u7b49\u6548\u4e8emodel_train = model_train.to(device)\r\n\r\n    loss_func = nn.CrossEntropyLoss()\r\n    optimizer = optim.SGD(model_train.parameters(), lr=0.1, momentum=0.9, weight_decay=5e-4)\r\n    # -------------------------------------#\r\n    #   step_size\u63a7\u5236\u591a\u5c11\u4e2aepoch\u8870\u51cf\u4e00\u6b21\u5b66\u4e60\u7387\r\n    # -------------------------------------#\r\n    lr_scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=1, gamma=0.1)   \r\n    \r\n    print_frequence = 500\r\n    epochs = 100\r\n    for epoch in range(0, epochs):\r\n        train(model_train, device, trainloader, optimizer, loss_func, print_frequence, epoch)\r\n<\/code><\/pre>\n\n\n\n<h2>\u5206\u5e03\u5f0f\u5e76\u884cDistributedDataParallel\u00a0<\/h2>\n\n\n\n<ul><li>\u66f4\u5feb\u7684\u8bad\u7ec3\u901f\u5ea6<\/li><li>\u591a\u8fdb\u7a0b\u7684\u8fd0\u884c\u65b9\u5f0f<\/li><li>\u652f\u6301\u5355\u673a\u591a\u5361\u548c\u591a\u673a\u591a\u5361<\/li><li>\u5e73\u8861\u7684GPU\u4f7f\u7528<\/li><\/ul>\n\n\n\n<h3>DDP\u539f\u7406\uff1a<\/h3>\n\n\n\n<p>\u5148\u8bf4\u5206\u5e03\u5f0f\u51e0\u4e2a\u540d\u8bcd\uff1a<br>\u4e00\u4e2aworld\u91cc\u8fdb\u7a0b\u4e2a\u6570\u4e3aworld_size\uff0c\u5168\u5c40\u770b\uff0c\u6bcf\u4e2a\u8fdb\u7a0b\u90fd\u6709\u4e00\u4e2a\u5e8f\u53f7rank\uff1b\u5206\u5f00\u770b\uff0c\u4e00\u4e2a\u8fdb\u7a0b\u5728\u6bcf\u53f0\u673a\u5668\u91cc\u9762\u4e5f\u6709\u5e8f\u53f7local_rank\u3002<\/p>\n\n\n\n<ul><li>group\uff1a\u8fdb\u7a0b\u7ec4\uff0c\u9ed8\u8ba4\u4e00\u4e2a\u7ec4\uff0c\u5373\u4e00\u4e2aworld<\/li><li>world_size\uff1a\u5168\u5c40\u8fdb\u7a0b\u4e2a\u6570<\/li><li>rank\uff1a\u8fdb\u7a0b\u5e8f\u53f7\uff0c\u7528\u4e8e\u8fdb\u7a0b\u95f4\u901a\u4fe1\u3002rank=0\u4e3aGPU\u4e3b\u5361\uff0c\u4e3b\u8981\u7528\u4e8e\u591a\u673a\u591a\u5361\u3002\u672c\u6587\u4e2d\u4ec5\u6d89\u53ca\u5230\u4e00\u53f0\u673a\u5668\u5185\u591a\u5f20\u5361\u3002<\/li><li>locak_rank\uff1a\u8fdb\u7a0b(\u4e00\u53f0\u673a\u5668)\u5185\u7684GPU\u7f16\u53f7\uff0c\u901a\u8fc7\u6307\u4ee4<code>torch.distributed.run<\/code>\u81ea\u52a8\u6307\u5b9a\uff0c\u4e0d\u9700\u8981\u7528\u6237\u8f93\u5165\u8be5\u53c2\u6570\u3002<\/li><\/ul>\n\n\n\n<p>DDP \u5728\u6bcf\u6b21\u8fed\u4ee3\u4e2d\uff0c\u64cd\u4f5c\u7cfb\u7edf\u4f1a\u4e3a\u6bcf\u4e2aGPU\u521b\u5efa\u4e00\u4e2a\u8fdb\u7a0b\uff0c\u6bcf\u4e2a\u8fdb\u7a0b\u5177\u6709\u81ea\u5df1\u7684 optimizer \uff0c\u5e76\u72ec\u7acb\u5b8c\u6210\u6240\u6709\u7684\u4f18\u5316\u6b65\u9aa4\uff0c\u8fdb\u7a0b\u5185\u4e0e\u4e00\u822c\u7684\u8bad\u7ec3\u65e0\u5f02\u3002\u5728\u5404\u8fdb\u7a0b\u68af\u5ea6\u8ba1\u7b97\u5b8c\u6210\u4e4b\u540e\uff0c\u5404\u8fdb\u7a0b\u9700\u8981\u5c06\u68af\u5ea6\u8fdb\u884c\u6c47\u603b\u5e73\u5747\uff0c\u7136\u540e\u518d\u7531 rank=0 \u7684\u8fdb\u7a0b\uff0c\u5c06\u5176 broadcast \u5230\u6240\u6709\u8fdb\u7a0b\u3002\u5404\u8fdb\u7a0b\u7528\u8be5\u68af\u5ea6\u6765\u66f4\u65b0\u53c2\u6570\u3002\u7531\u4e8e\u5404\u8fdb\u7a0b\u4e2d\u7684\u6a21\u578b\uff0c\u521d\u59cb\u53c2\u6570\u4e00\u81f4 (\u521d\u59cb\u65f6\u523b\u8fdb\u884c\u4e00\u6b21 broadcast)\uff0c\u800c\u6bcf\u6b21\u7528\u4e8e\u66f4\u65b0\u53c2\u6570\u7684\u68af\u5ea6\u4e5f\u4e00\u81f4\uff0c\u56e0\u6b64\uff0c\u5404\u8fdb\u7a0b\u7684\u6a21\u578b\u53c2\u6570\u59cb\u7ec8\u4fdd\u6301\u4e00\u81f4\u3002<\/p>\n\n\n\n<p>\u800c\u5728 DataParallel \u4e2d\uff0c\u5168\u7a0b\u7ef4\u62a4\u4e00\u4e2a optimizer\uff0c\u5bf9\u5404 GPU \u4e0a\u68af\u5ea6\u8fdb\u884c\u6c42\u548c\uff0c\u5728\u4e3b GPU \u8fdb\u884c\u53c2\u6570\u66f4\u65b0\uff0c\u4e4b\u540e\u518d<strong>\u5c06\u6a21\u578b\u53c2\u6570 broadcast<\/strong>\u00a0\u5230\u5176\u4ed6 GPU\u3002\u76f8\u8f83\u4e8e DP\uff0cDDP\u4f20\u8f93\u7684\u6570\u636e\u91cf\u66f4\u5c11\uff0c\u901f\u5ea6\u66f4\u5feb\uff0c\u6548\u7387\u66f4\u9ad8\u3002<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" width=\"1005\" height=\"808\" src=\"http:\/\/139.9.1.231\/wp-content\/uploads\/2024\/07\/image-92.png\" alt=\"\" class=\"wp-image-16263\" srcset=\"http:\/\/139.9.1.231\/wp-content\/uploads\/2024\/07\/image-92.png 1005w, http:\/\/139.9.1.231\/wp-content\/uploads\/2024\/07\/image-92-300x241.png 300w, http:\/\/139.9.1.231\/wp-content\/uploads\/2024\/07\/image-92-768x617.png 768w\" sizes=\"(max-width: 1005px) 100vw, 1005px\" \/><\/figure>\n\n\n\n<p>DDP\u7684\u6d41\u7a0b\u793a\u610f\u56fe\u5982\u4e0a\u56fe\u6240\u793a\uff0cDDP\u9700\u8981\u989d\u5916\u7684\u5efa\u7acb\u8fdb\u7a0b\u7ec4\u9636\u6bb5\uff08Construction\uff09\u3002\u5728Construction\u9636\u6bb5\u9700\u8981\u9996\u5148\u660e\u786e\u901a\u4fe1\u534f\u8bae\u548c\u603b\u8fdb\u7a0b\u6570\u3002\u901a\u4fe1\u534f\u8bae\u662f\u5b9e\u73b0DDP\u7684\u5e95\u5c42\u57fa\u7840\uff0c\u6211\u4eec\u5728\u4e4b\u540e\u5355\u72ec\u4ecb\u7ecd\u3002\u603b\u8fdb\u7a0b\u6570\u5c31\u662f\u6307\u6709\u591a\u5c11\u4e2a\u72ec\u7acb\u7684\u5e76\u884c\u8fdb\u7a0b\uff0c\u88ab\u79f0\u4e3aworldsize\u3002\u6839\u636e\u9700\u6c42\u6bcf\u4e2a\u8fdb\u7a0b\u53ef\u4ee5\u5360\u7528\u4e00\u4e2a\u6216\u591a\u4e2aGPU\uff0c\u4f46\u5e76\u4e0d\u63a8\u8350\u591a\u4e2a\u8fdb\u7a0b\u5171\u4eab\u4e00\u4e2aGPU\uff0c\u8fd9\u4f1a\u9020\u6210\u6f5c\u5728\u7684\u6027\u80fd\u635f\u5931\u3002\u4e3a\u4e86\u4fbf\u4e8e\u7406\u89e3\uff0c\u5728\u672c\u6587\u7684\u6240\u6709\u793a\u4f8b\u4e2d\u6211\u4eec\u5047\u5b9a\u6bcf\u4e2a\u8fdb\u7a0b\u53ea\u5360\u75281\u4e2aGPU\uff0c\u5360\u7528\u591a\u4e2aGPU\u7684\u60c5\u51b5\u53ea\u9700\u8981\u7b80\u5355\u7684\u8c03\u6574GPU\u6620\u5c04\u5173\u7cfb\u5c31\u597d\u3002<\/p>\n\n\n\n<p>\u5e76\u884c\u7ec4\u5efa\u7acb\u4e4b\u540e\uff0c\u6bcf\u4e2aGPU\u4e0a\u4f1a\u72ec\u7acb\u7684\u6784\u5efa\u6a21\u578b\uff0c\u7136\u540eGPU-1\u4e2d\u6a21\u578b\u7684\u72b6\u6001\u4f1a\u88ab\u5e7f\u64ad\u5230\u5176\u5b83\u6240\u6709\u8fdb\u7a0b\u4e2d\u4ee5\u4fdd\u8bc1\u6240\u6709\u6a21\u578b\u90fd\u5177\u6709\u76f8\u540c\u7684\u521d\u59cb\u72b6\u6001\u3002\u503c\u5f97\u6ce8\u610f\u7684\u662fConstruction\u53ea\u5728\u8bad\u7ec3\u5f00\u59cb\u524d\u6267\u884c\uff0c\u5728\u8bad\u7ec3\u4e2d\u53ea\u4f1a\u4e0d\u65ad\u8fed\u4ee3\u524d\u5411\u548c\u540e\u5411\u8fc7\u7a0b\uff0c\u56e0\u6b64\u4e0d\u4f1a\u5e26\u6765\u989d\u5916\u7684\u5ef6\u8fdf\u3002<\/p>\n\n\n\n<p>\u76f8\u6bd4\u4e8e<code>DataParallel<\/code>\uff0cDDP\u7684\u524d\u5411\u540e\u5411\u8fc7\u7a0b\u66f4\u52a0\u7b80\u6d01\u3002\u63a8\u7406\u3001\u635f\u5931\u51fd\u6570\u8ba1\u7b97\uff0c\u68af\u5ea6\u8ba1\u7b97\u90fd\u662f\u5e76\u884c\u72ec\u7acb\u5b8c\u6210\u7684\u3002DDP\u5b9e\u73b0\u5e76\u884c\u8bad\u7ec3\u7684\u6838\u5fc3\u5728\u4e8e<strong>\u68af\u5ea6\u540c\u6b65<\/strong>\u3002\u68af\u5ea6\u5728\u6a21\u578b\u95f4\u7684\u540c\u6b65\u4f7f\u7528\u7684\u662f<code>allreduce<\/code>\u901a\u4fe1\u64cd\u4f5c\uff0c\u6bcf\u4e2aGPU\u4f1a\u5f97\u5230\u5b8c\u5168\u76f8\u540c\u7684\u68af\u5ea6\u3002\u5982\u56fe\u4e2d\u540e\u5411\u8fc7\u7a0b\u7684\u6b65\u9aa42\uff0cGPU\u95f4\u7684\u901a\u4fe1\u5728\u68af\u5ea6\u8ba1\u7b97\u5b8c\u6210\u540e\u88ab\u89e6\u53d1\uff08hook\u51fd\u6570\uff09\u3002\u56fe\u4e2d\u6ca1\u6709\u753b\u51fa\u7684\u662f\uff0c\u901a\u5e38\u6bcf\u4e2aGPU\u4e5f\u4f1a\u5efa\u7acb\u72ec\u7acb\u7684\u4f18\u5316\u5668\u3002\u7531\u4e8e\u6a21\u578b\u5177\u6709\u540c\u6837\u7684\u521d\u59cb\u72b6\u6001\u548c\u540e\u7eed\u76f8\u540c\u7684\u68af\u5ea6\uff0c\u56e0\u6b64\u6bcf\u8f6e\u8fed\u4ee3\u540e\u4e0d\u540c\u8fdb\u7a0b\u95f4\u7684\u6a21\u578b\u662f\u5b8c\u5168\u76f8\u540c\u7684\uff0c\u8fd9\u4fdd\u8bc1\u4e86DDP\u7684\u6570\u7406\u4e00\u81f4\u6027\u3002<\/p>\n\n\n\n<p>\u4e3a\u4e86\u4f18\u5316\u6027\u80fd\uff0cDDP\u4e2d\u9488\u5bf9<code>allreduce<\/code>\u64cd\u4f5c\u8fdb\u884c\u4e86\u66f4\u6df1\u5165\u7684\u8bbe\u8ba1\u3002\u68af\u5ea6\u7684\u8ba1\u7b97\u8fc7\u7a0b\u548c\u8fdb\u7a0b\u95f4\u7684\u901a\u4fe1\u8fc7\u7a0b\u5206\u522b\u9700\u8981\u6d88\u8017\u4e00\u5b9a\u91cf\u7684\u65f6\u95f4\u3002\u7b49\u5f85\u6a21\u578b\u6240\u6709\u7684\u53c2\u6570\u90fd\u8ba1\u7b97\u5b8c\u68af\u5ea6\u518d\u8fdb\u884c\u901a\u4fe1\u663e\u7136\u4e0d\u662f\u6700\u4f18\u7684\u3002\u5982\u4e0b\u56fe\u6240\u793a\uff0cDDP\u4e2d\u7684\u8bbe\u8ba1\u662f\u901a\u8fc7\u5c06\u5168\u90e8\u6a21\u578b\u53c2\u6570\u5212\u5206\u4e3a\u65e0\u6570\u4e2a\u5c0f\u7684bucket\uff0c\u5728bucket\u7ea7\u522b\u5efa\u7acb<code>allreduce<\/code>\u3002\u5f53\u6240\u6709\u8fdb\u7a0b\u4e2dbucket0\u7684\u68af\u5ea6\u8ba1\u7b97\u5b8c\u6210\u540e\u5c31\u7acb\u523b\u5f00\u59cb\u901a\u4fe1\uff0c\u6b64\u65f6bucket1\u4e2d\u68af\u5ea6\u8fd8\u5728\u8ba1\u7b97\u3002\u8fd9\u6837\u53ef\u4ee5\u5b9e\u73b0\u8ba1\u7b97\u548c\u901a\u4fe1\u8fc7\u7a0b\u7684\u65f6\u95f4\u91cd\u53e0\u3002\u8fd9\u79cd\u8bbe\u8ba1\u80fd\u591f\u4f7f\u5f97DDP\u7684\u8bad\u7ec3\u66f4\u9ad8\u6548\u3002<\/p>\n\n\n\n<p>\u5728\u6700\u540e\u6211\u4eec\u5bf9DDP\u7684\u901a\u4fe1\u90e8\u5206\u8fdb\u884c\u4ecb\u7ecd\u3002DDP\u540e\u7aef\u7684\u901a\u4fe1\u7531\u591a\u79cdCPP\u7f16\u5199\u7684\u534f\u8bae\u652f\u6301\uff0c\u4e0d\u540c\u534f\u8bae\u5177\u6709\u4e0d\u540c\u7684\u901a\u4fe1\u7b97\u5b50\u7684\u652f\u6301\uff0c\u5728\u5f00\u53d1\u4e2d\u53ef\u4ee5\u6839\u636e\u9700\u6c42\u9009\u62e9\u3002<\/p>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-full is-resized\"><img loading=\"lazy\" src=\"http:\/\/139.9.1.231\/wp-content\/uploads\/2024\/07\/image-93.png\" alt=\"\" class=\"wp-image-16266\" width=\"387\" height=\"406\" srcset=\"http:\/\/139.9.1.231\/wp-content\/uploads\/2024\/07\/image-93.png 664w, http:\/\/139.9.1.231\/wp-content\/uploads\/2024\/07\/image-93-286x300.png 286w\" sizes=\"(max-width: 387px) 100vw, 387px\" \/><\/figure><\/div>\n\n\n\n<p>\u5bf9\u4e8eCV\u548cNLP\u5e38\u7528GPU\u8bad\u7ec3\u7684\u4efb\u52a1\u800c\u8a00\uff0c\u9009\u62e9Gloo\u6216NCCL\u534f\u8bae\u5373\u53ef\u3002\u4e00\u4e2a\u51b3\u5b9a\u56e0\u7d20\u662f\u4f60\u4f7f\u7528\u7684\u8ba1\u7b97\u673a\u96c6\u7fa4\u7684\u7f51\u7edc\u73af\u5883\uff1a<\/p>\n\n\n\n<ul><li><strong>\u5f53\u4f7f\u7528\u7684\u662fEthernet\uff08\u4ee5\u592a\u7f51\uff0c\u5927\u90e8\u5206\u673a\u5668\u90fd\u662f\u8fd9\u4e2a\u73af\u5883\uff09<\/strong>\uff1a\u90a3\u4e48\u4f18\u5148\u9009\u62e9NCCL\uff0c\u5177\u6709\u66f4\u597d\u7684\u6027\u80fd\uff1b\u5982\u679c\u5728\u4f7f\u7528\u4e2d\u9047\u5230\u4e86NCCL\u901a\u4fe1\u7684\u95ee\u9898\uff0c\u90a3\u4e48\u5c31\u9009\u62e9Gloo\u4f5c\u4e3a\u5907\u7528\u3002\uff08<strong>\u7ecf\u9a8c\uff1a\u5355\u673a\u591a\u5361\u76f4\u63a5NCCL\uff1b\u591a\u673a\u591a\u5361\u5148\u5c1d\u8bd5NCCL\uff0c\u5982\u679c\u901a\u4fe1\u6709\u95ee\u9898\uff0c\u800c\u4e14\u81ea\u5df1\u89e3\u51b3\u4e0d\u4e86\uff0c\u90a3\u5c31Gloo\u3002<\/strong>\uff09<\/li><li><strong>\u5f53\u4f7f\u7528\u7684\u662fInfiniBand<\/strong>\uff1a\u53ea\u652f\u6301NCCL\u3002<\/li><\/ul>\n\n\n\n<p>\u53e6\u4e00\u4e2a\u51b3\u5b9a\u6027\u56e0\u7d20\u662f\u4e8c\u8005\u652f\u6301\u7684\u7b97\u5b50\u8303\u56f4\u4e0d\u540c\uff0c\u56e0\u6b64\u5728\u4f7f\u7528\u65f6\u8fd8\u9700\u8981\u7ed3\u5408\u4ee3\u7801\u91cc\u7684\u529f\u80fd\u6765\u786e\u5b9a\u3002\u4e0b\u56fe\u8bb0\u5f55\u4e86\u6bcf\u79cd\u901a\u4fe1\u534f\u8bae\u80fd\u591f\u652f\u6301\u7684\u7b97\u5b50\uff0cGloo\u80fd\u591f\u5b9e\u73b0GPU\u4e2d\u6700\u57fa\u672c\u7684DDP\u8bad\u7ec3\uff0c\u800cNCCL\u80fd\u591f\u652f\u6301\u66f4\u52a0\u591a\u6837\u7684\u7b97\u5b50.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" width=\"979\" height=\"1024\" src=\"http:\/\/139.9.1.231\/wp-content\/uploads\/2024\/07\/Backends_Difference-979x1024.png\" alt=\"\" class=\"wp-image-16270\" srcset=\"http:\/\/139.9.1.231\/wp-content\/uploads\/2024\/07\/Backends_Difference-979x1024.png 979w, http:\/\/139.9.1.231\/wp-content\/uploads\/2024\/07\/Backends_Difference-287x300.png 287w, http:\/\/139.9.1.231\/wp-content\/uploads\/2024\/07\/Backends_Difference-768x803.png 768w, http:\/\/139.9.1.231\/wp-content\/uploads\/2024\/07\/Backends_Difference-1469x1536.png 1469w, http:\/\/139.9.1.231\/wp-content\/uploads\/2024\/07\/Backends_Difference.png 1702w\" sizes=\"(max-width: 979px) 100vw, 979px\" \/><figcaption><em>\u4e0d\u540cBackend\u7684\u7b97\u5b50\u652f\u6301\u60c5\u51b5<\/em><\/figcaption><\/figure>\n\n\n\n<h3>DDP\u4f7f\u7528\uff1a<\/h3>\n\n\n\n<ul><li>\u8bbe\u5907\u95f4\u901a\u4fe1<br>\u4e3a\u4e86\u4fdd\u8bc1\u4e0d\u540c\u5361\u4e0a\u7684\u6a21\u578b\u53c2\u6570\u540c\u6b65\uff0c\u8bbe\u5907\u95f4\u9700\u8981\u901a\u8baf\u3002<br>\u8bbe\u5907\u95f4\u901a\u8baf\u901a\u8fc7\u540e\u7aefbackend\u5b9e\u73b0\uff0cGPU\u4e0a\u7528<code>nccl<\/code>\uff0cCPU\u4e0a\u7528<code>gloo<\/code>\u3002<\/li><\/ul>\n\n\n\n<pre class=\"wp-block-code\"><code>torch.distributed.init_process_group('nccl')\n<\/code><\/pre>\n\n\n\n<ul><li>\u6307\u5b9aGPU<br>\u6307\u5b9a\u4f7f\u7528\u54ea\u4e9bGPU\uff0c\u4f5c\u7528\u76f8\u5f53\u4e8eCUDA_VISIBLE_DEVICES\u547d\u4ee4\u3002<\/li><\/ul>\n\n\n\n<pre class=\"wp-block-code\"><code>torch.cuda.set_device(args.local_rank)   \n<\/code><\/pre>\n\n\n\n<ul><li>\u6784\u9020\u6a21\u578b<br>\u6784\u9020DDP model\uff0c[args.local_rank]\u662f\u4e00\u4e2alist<\/li><\/ul>\n\n\n\n<pre class=\"wp-block-code\"><code>model = DistributedDataParallel(model, device_ids=&#091;args.local_rank], \n   \t\t\t\t\t\t\t\t\t\toutput_device=args.local_rank)\n<\/code><\/pre>\n\n\n\n<ul><li>\u6784\u5efa\u6570\u636e\u96c6<br>\u6784\u5efa\u6570\u636e\u96c6\u4e2d\u9700\u8981\u7528\u5230<code>train_sampler<\/code>\u6765shuffle\u6570\u636e\uff0c\u7ee7\u800c\u5b9e\u73b0\u628atrainset\u4e2d\u7684\u6837\u672c\u968f\u673a\u5206\u914d\u5230\u4e0d\u540c\u7684GPU\u4e0a\uff0c<\/li><\/ul>\n\n\n\n<pre class=\"wp-block-code\"><code>train_sampler = torch.utils.data.distributed.DistributedSampler(trainset)\n<em># ---------------------------------------------------------------#<\/em>\n<em>#   sampler\u53c2\u6570\u548cshuffle\u53c2\u6570\u662f\u4e92\u65a5\u7684\uff0c\u4e24\u4e2a\u4f20\u4e00\u4e2a\u5c31\u597d\uff0c\u90fd\u7528\u4e8e\u6570\u636e\u6253\u4e71\u3002<\/em>\n<em># ----------------------------------------------------------------#<\/em>\ntrainloader = torch.utils.data.DataLoader(trainset, \n        batch_size=16, num_workers=2, sampler=train_sampler)\n<\/code><\/pre>\n\n\n\n<ul><li>\u6570\u636e\u653e\u5230\u591a\u5361\u4e0a<br>\u6a21\u578b\u3001\u635f\u5931\u51fd\u6570\u3001\u8f93\u5165\u6570\u636e\u8981\u653e\u5230\u591a\u5361\u4e0a\uff0c\u4ee3\u7801\u4f8b\u5982\uff1a<\/li><\/ul>\n\n\n\n<pre class=\"wp-block-code\"><code>data = data.to(args.local_rank)\t\t<em># \u7b49\u6548\u4e8edata.cuda(args.local_rank)<\/em>\n<\/code><\/pre>\n\n\n\n<p>\u901a\u8fc7\u7ec8\u7aef\u8fd0\u884c\u547d\u4ee4\uff0c<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code># CUDA_VISIBLE_DEVICES=\"gpu_0, gpu1,...\" python -m torch.distributed.launch --nproc_per_node n_gpus DDP_main.py\nCUDA_VISIBLE_DEVICES=\"0,1\" python -m torch.distributed.launch --nproc_per_node=2 DDP_main.py # \u56e0\u4e3a\u662f\u5355\u673a\u591a\u5361\uff0c\u6240\u4ee5\u53ea\u9700\u8981\u6307\u5b9anproc_per_node\u3010GPU\u6570\u91cf\u3011\u5373\u53ef\u3002local_rank\u4e0d\u9700\u8981\u8bbe\u7f6e\u3002<\/code><\/pre>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" width=\"1024\" height=\"513\" src=\"http:\/\/139.9.1.231\/wp-content\/uploads\/2024\/07\/image-94-1024x513.png\" alt=\"\" class=\"wp-image-16277\" srcset=\"http:\/\/139.9.1.231\/wp-content\/uploads\/2024\/07\/image-94-1024x513.png 1024w, http:\/\/139.9.1.231\/wp-content\/uploads\/2024\/07\/image-94-300x150.png 300w, http:\/\/139.9.1.231\/wp-content\/uploads\/2024\/07\/image-94-768x385.png 768w, http:\/\/139.9.1.231\/wp-content\/uploads\/2024\/07\/image-94.png 1054w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><figcaption>\u5927\u6982\u5185\u5bb9\u5c31\u662f\uff0c\u8fd9\u4e2a\u547d\u4ee4\u884c\u53c2\u6570\u201c&#8211;loacl_rank\u201d\u662f\u5fc5\u987b\u58f0\u660e\u7684\uff0c\u4f46<strong>\u5b83\u4e0d\u662f\u7531\u7528\u6237\u586b\u5199\u7684\uff0c\u800c\u662f\u7531pytorch\u4e3a\u7528\u6237\u586b\u5199<\/strong>\uff0c\u4e5f\u5c31\u662f\u8bf4\u8fd9\u4e2a\u503c\u662f\u4f1a\u88ab\u81ea\u52a8\u8d4b\u503c\u4e3a\u5f53\u524d\u8fdb\u7a0b\u5728\u672c\u673a\u4e0a\u7684rank<\/figcaption><\/figure>\n\n\n\n<p><code>DDP_main.py<\/code>\u4e2d\u5185\u5bb9\u5982\u4e0b\uff1a<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>import argparse         # \u4ece\u547d\u4ee4\u884c\u63a5\u53d7\u53c2\u6570\r\nfrom tqdm import tqdm   # \u7528\u4e8e\u8fdb\u5ea6\u6761\r\nimport torch\r\nimport torchvision\r\nimport torch.nn as nn\r\nimport torch.nn.functional as F\r\nfrom net import ToyModel\r\nimport torchvision.transforms as transforms\r\n# ---------------------------#\r\n#   \u4e0b\u9762\u4e24\u4e2a\u5305\u7528\u4e8e\u5206\u5e03\u5f0f\u8bad\u7ec3\r\n# ---------------------------#\r\nimport torch.distributed as dist\r\nfrom torch.nn.parallel import DistributedDataParallel as DDP\r\n\r\n# ---------------------------#\r\n#   \u83b7\u5f97\u6570\u636e\u96c6\r\n# ---------------------------#\r\ndef get_dataset():\r\n    transform = torchvision.transforms.Compose(&#091;\r\n        transforms.RandomCrop(32, padding=4),\r\n        transforms.RandomHorizontalFlip(),\r\n        transforms.ToTensor(),\r\n        transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),\r\n    ])\r\n    trainset = torchvision.datasets.CIFAR10(root='.\/data', train=True, \r\n        download=True, transform=transform)\r\n    # -----------------------------------------------#\r\n    #   train_sampler\u4e3b\u8981\u7528\u4e8eDataLoader\u4e2dshuffle\u6570\u636e\r\n    #       \u628atrainset\u4e2d\u7684\u6837\u672c\u968f\u673a\u5206\u914d\u5230\u4e0d\u540c\u7684GPU\u4e0a\r\n    # -----------------------------------------------#\r\n    train_sampler = torch.utils.data.distributed.DistributedSampler(trainset)\r\n    # ---------------------------------------------------------------#\r\n    #   batch_size\uff1a\u6bcf\u4e2a\u8fdb\u7a0b(GPU\/\u5361)\u4e0b\u7684batch_size\u3002\r\n    #       \u603bbatch_size = \u8fd9\u91cc\u7684batch_size * \u8fdb\u7a0b\u5e76\u884c\u6570\r\n    #       \u5168\u5c40\u8fdb\u7a0b\u4e2a\u6570world_size = \u8282\u70b9\u6570\u91cf * \u6bcf\u4e2a\u8282\u70b9\u4e0aprocess\u6570\u91cf\r\n    #       \u603b\u5361\u6570                =  \u7535\u8111\u6570  * \u6bcf\u53f0\u7535\u8111\u4e0a\u6709\u591a\u5c11\u5f20\u5361\r\n    #   sampler\u53c2\u6570\u548cshuffle\u53c2\u6570\u662f\u4e92\u65a5\u7684\uff0c\u4e24\u4e2a\u4f20\u4e00\u4e2a\u5c31\u597d\uff0c\u90fd\u7528\u4e8e\u6570\u636e\u6253\u4e71\u3002\r\n    #   \u5728DDP\u4e2d\uff0c\u7528sampler\u53c2\u6570\r\n    # ----------------------------------------------------------------#\r\n    trainloader = torch.utils.data.DataLoader(trainset, \r\n        batch_size=16, num_workers=2, sampler=train_sampler)\r\n    return trainloader\r\n\r\n#---------------------------#\r\n#   \u8bad\u7ec3\r\n#---------------------------#\r\ndef train(model, trainloader, optimizer, loss_func, lr_scheduler, epoch):\r\n    model.train()\r\n    iterator = tqdm(range(epoch))       # \u4e3a\u4e86\u8fdb\u5ea6\u6761\u663e\u793a\u800c\u5df2\r\n    for epoch in iterator:\r\n        # ------------------------------------------------------------------#\r\n        #   \u8bbe\u7f6esampler\u7684epoch\uff0cDistributedSampler\u9700\u8981\u8fd9\u4e2a\u6765\u6307\u5b9ashuffle\u65b9\u5f0f\uff0c\r\n        #   \u901a\u8fc7\u7ef4\u6301\u5404\u4e2a\u8fdb\u7a0b\u4e4b\u95f4\u7684\u76f8\u540c\u968f\u673a\u6570\u79cd\u5b50\u4f7f\u4e0d\u540c\u8fdb\u7a0b\u80fd\u83b7\u5f97\u540c\u6837\u7684shuffle\u6548\u679c\u3002\r\n        #   \u8fd9\u4e00\u6b65\u662f\u5fc5\u987b\u7684\uff0c\u8ba9\u6570\u636e\u5145\u5206\u6253\u4e71\uff0c\u8bad\u7ec3\u6548\u679c\u66f4\u597d\r\n        # ------------------------------------------------------------------#\r\n        trainloader.sampler.set_epoch(epoch)\r\n\r\n        for data, label in trainloader:\r\n            data, label = data.to(args.local_rank), label.to(args.local_rank)\r\n            optimizer.zero_grad()\r\n            prediction = model(data)\r\n            loss = loss_func(prediction, label)\r\n            loss.backward()\r\n            iterator.desc = \"loss = %0.3f\" % loss\r\n            optimizer.step()\r\n        # ------------------------------------------------------------------#\r\n        #   save\u6a21\u578b\u7684\u65f6\u5019\uff1a\u4fdd\u5b58\u7684\u662fmodel.module\u800c\u4e0d\u662fmodel\uff0c\r\n        #       \u56e0\u4e3amodel\u5176\u5b9e\u662fDDP model\uff0c\u53c2\u6570\u662f\u88ab`model=DDP(model)`\u5305\u8d77\u6765\u7684\u3002\r\n        #   \u53ea\u9700\u8981\u5728\u8fdb\u7a0b0(local_rank=0)\u4e0a\u4fdd\u5b58\u4e00\u6b21\u5c31\u884c\u4e86\uff0c\u907f\u514d\u591a\u6b21\u91cd\u590d\u4fdd\u5b58\u3002\r\n        # ------------------------------------------------------------------#\r\n        if dist.get_rank() == 0:        # \u7b49\u6548\u4e8e if local_rank == 0:\r\n            torch.save(model.module.state_dict(), \"%d.ckpt\" % epoch)\r\n        \r\n        lr_scheduler.step()\r\n\r\n# -----------------------------------------------#\r\n# \u521d\u59cb\u5316\u914d\u7f6elocal_rank\u914d\u7f6e\r\n# -----------------------------------------------#\r\nparser = argparse.ArgumentParser()\r\n# local_rank\uff1a\u5f53\u524d\u8fd9\u4e2a\u8282\u70b9\u4e0a\u7684\u7b2c\u51e0\u5f20\u5361\uff0c\u4ece\u5916\u90e8\u4f20\u5165\r\n#   \u8be5\u6b65\u9aa4\u5fc5\u987b\u6709\uff0claunch\u4f1a\u81ea\u52a8\u4f20\u5165\u8fd9\u4e2a\u53c2\u6570\r\nparser.add_argument(\"--local_rank\",help=\"local device id on current node\", type=int)\r\nargs = parser.parse_args()\r\nlocal_rank = args.local_rank        # \u7eaf\u5c5e\u60f3\u5199\u4ee3\u7801\u65f6\u7528local_rank\u8fd8\u662fargs.local_rank\u90fd\u884c\r\nprint('local_rank:', args.local_rank)\r\n\"\"\"\r\nlocal_rank: 0\r\nlocal_rank: 1\r\n\"\"\"\r\n\r\n\r\nif __name__ == \"__main__\":\r\n    # DDP \u521d\u59cb\u5316\r\n    torch.cuda.set_device(args.local_rank)   # \u4f5c\u7528\u76f8\u5f53\u4e8eCUDA_VISIBLE_DEVICES\u547d\u4ee4\uff0c\u4fee\u6539\u73af\u5883\u53d8\u91cf\r\n    dist.init_process_group(backend='nccl')  # \u8bbe\u5907\u95f4\u901a\u8baf\u901a\u8fc7\u540e\u7aefbackend\u5b9e\u73b0\uff0cGPU\u4e0a\u7528nccl\uff0cCPU\u4e0a\u7528gloo\r\n\r\n    # \u51c6\u5907\u6570\u636e\uff0c\u8981\u5728DDP\u521d\u59cb\u5316\u4e4b\u540e\u8fdb\u884c\r\n    trainloader = get_dataset()\r\n\r\n    # \u521d\u59cb\u5316model\r\n    model = ToyModel().to(args.local_rank)    # \u7b49\u6548\u4e8emodel = ToyModel().cuda(args.local_rank)\r\n\r\n    # Load\u6a21\u578b\u53c2\u6570\u8981\u5728\u6784\u9020DDP model\u4e4b\u524d\uff0c\u4e14\u53ea\u9700\u8981\u5728 master\u5361 \u4e0a\u52a0\u8f7d\u5373\u53ef\r\n    ckpt_path = None\r\n    if dist.get_rank() == 0 and ckpt_path is not None:\r\n        model.load_state_dict(torch.load(ckpt_path))\r\n\r\n    # \u6784\u9020DDP model\r\n    model = DDP(model, device_ids=&#091;args.local_rank], output_device=args.local_rank)\r\n\r\n    # \u521d\u59cb\u5316optimizer\uff0c\u8981\u5728\u6784\u9020DDP model\u4e4b\u540e\r\n    optimizer = torch.optim.SGD(model.parameters(), lr=0.001)\r\n\r\n    # \u5b66\u4e60\u7387\u8870\u51cf\u65b9\u5f0f\r\n    lr_scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=1, gamma=0.1)   \r\n\r\n    # \u521d\u59cb\u5316loss\r\n    loss_func = nn.CrossEntropyLoss().to(args.local_rank)\r\n\r\n    # \u6a21\u578b\u8bad\u7ec3\r\n    train(model, trainloader, optimizer, loss_func, lr_scheduler, epoch=100)\r\n<\/code><\/pre>\n\n\n\n<pre class=\"wp-block-code\"><code># ----------------------------------------------------------------------------------#\n#   CUDA_VISIBLE_DEVICES\uff1a\u6765\u51b3\u5b9a\u4f7f\u7528\u54ea\u4e9bGPU\uff0c\u4e2a\u6570\u548c\u540e\u9762n_gpus\u76f8\u540c\n#   torch.distributed.launch\uff1a\u542f\u52a8DDP\u6a21\u5f0f\uff0c\u6784\u5efa\u591a\u4e2a\u8fdb\u7a0b\uff0c\u4e5f\u4f1a\u5411\u4ee3\u7801\u4e2d\u4f20\u5165local_rank\u53c2\u6570\uff0c\n#       \u6ca1\u6709CUDA_VISIBLE_DEVICES\u9650\u5236\u7684\u8bdd\uff0c\u4f20\u5165\u4e3a\u4ece 0 \u5230 n_gpus-1 \u7684\u7d22\u5f15\n#   --nproc_per_node=n_gpus\uff1a\u5355\u673a\u591a\u5361\uff0c\u7528\u51e0\u4e2agpu\n# -----------------------------------------------------------------------------------#\n# \u7528 2 \u5f20\u5361\u8dd1\nCUDA_VISIBLE_DEVICES=\"0,1\" python -m torch.distributed.launch --nproc_per_node 2 DDP_main.py\n# \u7528 3 \u5f20\u5361\u8dd1     \nCUDA_VISIBLE_DEVICES=\"1,2,3\" python -m torch.distributed.launch --nproc_per_node 3 DDP_main.py  <\/code><\/pre>\n","protected":false},"excerpt":{"rendered":"<p>https:\/\/github.com\/KaiiZhang\/DDP-Tutorial\/blob\/main\/DDP &hellip; <a href=\"http:\/\/139.9.1.231\/index.php\/2024\/07\/17\/pytorch-ddp-dp\/\" class=\"more-link\">\u7ee7\u7eed\u9605\u8bfb<span class=\"screen-reader-text\">pytorch\u5355\u673a\u591a\u5361\u8bad\u7ec3\u3010\u5206\u5e03\u5f0f\u6570\u636e\u5e76\u884c \u548c \u6570\u636e\u5e76\u884c\u65b9\u6848\u3011<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[11,4,39],"tags":[],"_links":{"self":[{"href":"http:\/\/139.9.1.231\/index.php\/wp-json\/wp\/v2\/posts\/16238"}],"collection":[{"href":"http:\/\/139.9.1.231\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/139.9.1.231\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/139.9.1.231\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"http:\/\/139.9.1.231\/index.php\/wp-json\/wp\/v2\/comments?post=16238"}],"version-history":[{"count":40,"href":"http:\/\/139.9.1.231\/index.php\/wp-json\/wp\/v2\/posts\/16238\/revisions"}],"predecessor-version":[{"id":16282,"href":"http:\/\/139.9.1.231\/index.php\/wp-json\/wp\/v2\/posts\/16238\/revisions\/16282"}],"wp:attachment":[{"href":"http:\/\/139.9.1.231\/index.php\/wp-json\/wp\/v2\/media?parent=16238"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/139.9.1.231\/index.php\/wp-json\/wp\/v2\/categories?post=16238"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/139.9.1.231\/index.php\/wp-json\/wp\/v2\/tags?post=16238"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}