pytorch 踩坑记录

科研记录

我在使用 pytorch 过程中遇到的问题

记录自己使用 pytorch 进行深度学习过程中遇到的一些问题和解决办法
㊙这些解决方法未必是最佳方案

1️⃣使用 DataParallel 时,GPU 显存负载不均衡

使用单机多显卡时，可能每张显卡的显存大小不是一致的。而 DataParallel 默认是根据显卡的数量对 batchsize 进行均分，每张显卡都会被分配到一样大小的显存消耗。
修改 torch > nn > Parallel > scatter_gather.py 的 scatter_map 函数如下

  def scatter_map(obj):
      if isinstance(obj, torch.Tensor):
          # 获得 batchsize 的数量
          batch_size = obj.shape[0]  
          #  将 2/3 的 batchsize 传入第一个 gpu, 剩下的分给第二个
          num1 = 2*batch_size//3
          return Scatter.apply(target_gpus, [num1, batch_size-num1], dim, obj)
 ...

2 ssh 服务器 log

var/log/auth

版权属于：

鱼一的博客 ◡̈

本文链接：

https://yuyi.monster/archives/219/（转载时请注明本文出处及文章链接）

作品采用：

《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权

我在使用 pytorch 过程中遇到的问题

1️⃣使用 DataParallel 时,GPU 显存负载不均衡

2 ssh 服务器 log

人生倒计时