使用Dorker来运行深度学习

假设已经配置好了Dorker容器，里面已经存在深度学习所需的环境。

Ubuntu系统，创建一个docker，然后搭建conda深度学习环境，这样可以用conda或pip安装相关的依赖库了。

一、创建一个docker

为了方便开发，在Docker Hub官方中选择一个合适的conda docker镜像，然后下载到本地。

我选择了“docker-anaconda”，地址是：Docker Hub

下载命令如下：

docker pull continuumio/anaconda3

二、进入docker

通常使用 docker run 命令进入docker镜像，例如：

docker run -i -t continuumio/anaconda3 /bin/bash

其中 -i: 以交互模式运行容器，通常与 -t 同时使用；

2.1 映射目录

平常进入了docker环境，然后创建或产生的文件，在退出docker环境后会“自动销毁”；或者想运行本地主机的某个程序，发现在docker环境中找不到。

我们可以通过映射目录的方式，把本地主机的某个目录，映射到docker环境中，这样产生的文件会保留在本地主机中。

比如：

docker run -i -t continuumio/anaconda3 -v /home/xxx/xxx/:/home/xxxx:rw /bin/bash

通过-v 把本地主机目录 /home/xxx/xxx/ 映射到docker环境中的/home/xxxx 目录；其权限是rw，即能读能写。

2.2 支持GPU

默认是不把GPU加入到docker环境中的，但可以通过参数设置：

--gpus all

但我发现，这样有时不能在docker里正常使用GPU；可以使用如下参数，在Pytorch中亲测有效。

--gpus all  -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all

举个例子：

docker run -i -t continuumio/anaconda3 --gpus all  -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all /bin/bash

2.3 设置内存

默认分配很小的内参，在训练模型时不够用，可以通过参数设置：

--shm-size xxG

比如，我电脑有32G内参，想放16G到docker中使用，设置为 –shm-size 16G，即：

docker run -i -t continuumio/anaconda3  --shm-size 16G /bin/bash

2.4 综合版本

结合映射目录、支持GPU、设置内存，打开docker的命令如下：

docker run -i -t  -v /home/disk1/guopu/:/home/guopu:rw --gpus all --shm-size 16G -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all continuumio/anaconda3  /bin/bash

详细的参数解析如下

-a stdin: 指定标准输入输出内容类型，可选 STDIN/STDOUT/STDERR 三项；
-d: 后台运行容器，并返回容器ID；
-i: 以交互模式运行容器，通常与 -t 同时使用；
-P: 随机端口映射，容器内部端口随机映射到主机的端口
-p: 指定端口映射，格式为：主机(宿主)端口:容器端口
-t: 为容器重新分配一个伪输入终端，通常与 -i 同时使用；
–name=”nginx-lb”: 为容器指定一个名称；
–dns 8.8.8.8: 指定容器使用的DNS服务器，默认和宿主一致；
–dns-search example.com: 指定容器DNS搜索域名，默认和宿主一致；
-h “mars”: 指定容器的hostname；
-e username=”ritchie”: 设置环境变量；
–env-file=[]: 从指定文件读入环境变量；
–cpuset=”0-2″ or –cpuset=”0,1,2″: 绑定容器到指定CPU运行；
-m :设置容器使用内存最大值；
–net=”bridge”: 指定容器的网络连接类型，支持 bridge/host/none/container: 四种类型；
–link=[]: 添加链接到另一个容器；
–expose=[]: 开放一个端口或一组端口；
–volume , -v: 绑定一个卷

三、检验docker

进入docker中，首先查看一下GPU，用nvidia-smi命令。正常显示CUDA版本，正常加载了显卡（这里是两张1080ti）。

使用两张显卡训练YOLOv5时，显示正常；

打开dorker：

sudo docker start 容器名

docker run 只在第一次运行时使用，将镜像放到容器中，以后再次启动这个容器时，只需要使用命令docker start
即可。docker run相当于执行了两步操作：将镜像放入容器中（docker
create）,然后将容器启动，使之变成运行时容器（docker start）。而docker
start的作用是，重新启动已存在的镜像。也就是说，如果使用这个命令，我们必须事先知道这个容器的ID，或者这个容器的名字，我们可以使用docker
ps找到这个容器的信息。

四、进入已打开的docker

思路：首先使用docker ps 查询正在运行docker的ID，然后使用docker exec 命令进入。

命令如下：

$ sudo docker ps  
$ sudo docker exec -it docker_ID /bin/bash

其中docker_ID，是使用docker ps查询正在运行docker的ID，比如是fe8984f24b79。