先说一下的我配置,Ubuntu14,gtx1080,cuda9+cudnn7.1.2,anaconda3,python3.6。
我遇到的问题是:正常跑一轮迭代大概 9-12s,但是有时会出现跑一轮迭代要几个小时的情况。请问一下会是什么导致了这种情况?
–
Assam, 2018-6-7 09:55:57
先说一下的我配置,Ubuntu14,gtx1080,cuda9+cudnn7.1.2,anaconda3,python3.6。
我遇到的问题是:正常跑一轮迭代大概 9-12s,但是有时会出现跑一轮迭代要几个小时的情况。请问一下会是什么导致了这种情况?
–
Assam, 2018-6-7 09:55:57
我猜是不是数据源的问题。如果数据是从网络下载的,有可能有时候延迟很高。
这种问题很难回答。建议提供最小重现。
舟 3332 发表于 2018-6-8 21:24:43
我现在想到的有两种情况:1、因为我是在服务器上跑的,可能会有别人同时也在跑 cnn,占了 gpu。2、gpu 过热导致跑得慢。不过我更倾向于第一种情况,因为同样的代码,在台式机跑的时候没遇到过。
Assam 发表于 2018-6-8 21:27:40
gpu 占用的情况可以在 nvidia-smi 查看
舟 3332 发表于 2018-6-9 07:09:32
云服务器?有可能是和别人一起共享一台机器,然后你的进程被 kill 掉了?
重庆不热 发表于 2018-7-3 16:20:10
应该是吧,云服务器是共享 GPU 的,但是不会差这么多,我没有遇到过这个问题
neverchange 发表于 2018-7-3 18:31:23
我感觉是数据的原因,,是不是你的数据质量不平衡呀哥,因为很少会出现这种情况。。如果要不是数据原因,,那你要好好看看你的环境和机器了。。。别的不会出现这种情况的
ViolinSolo 发表于 2018-7-5 00:10:10
如果数据是一样的,那应该是服务器的问题,可能与别人共用导致资源跟不上,进程被挂起,kill 不掉
lytensor 发表于 2018-7-5 00:13:52
可能是你云主机的问题
kdongyi 发表于 2018-7-15 17:17:34