用 tensorflow 跑程序遇到的问题

先说一下的我配置,Ubuntu14,gtx1080,cuda9+cudnn7.1.2,anaconda3,python3.6。
我遇到的问题是:正常跑一轮迭代大概 9-12s,但是有时会出现跑一轮迭代要几个小时的情况。请问一下会是什么导致了这种情况?


Assam, 2018-6-7 09:55:57

我猜是不是数据源的问题。如果数据是从网络下载的,有可能有时候延迟很高。

这种问题很难回答。建议提供最小重现。


舟 3332 发表于 2018-6-8 21:24:43

我现在想到的有两种情况:1、因为我是在服务器上跑的,可能会有别人同时也在跑 cnn,占了 gpu。2、gpu 过热导致跑得慢。不过我更倾向于第一种情况,因为同样的代码,在台式机跑的时候没遇到过。


Assam 发表于 2018-6-8 21:27:40

gpu 占用的情况可以在 nvidia-smi 查看


舟 3332 发表于 2018-6-9 07:09:32

云服务器?有可能是和别人一起共享一台机器,然后你的进程被 kill 掉了?


重庆不热 发表于 2018-7-3 16:20:10

应该是吧,云服务器是共享 GPU 的,但是不会差这么多,我没有遇到过这个问题


neverchange 发表于 2018-7-3 18:31:23

我感觉是数据的原因,,是不是你的数据质量不平衡呀哥,因为很少会出现这种情况。。如果要不是数据原因,,那你要好好看看你的环境和机器了。。。别的不会出现这种情况的


ViolinSolo 发表于 2018-7-5 00:10:10

如果数据是一样的,那应该是服务器的问题,可能与别人共用导致资源跟不上,进程被挂起,kill 不掉


lytensor 发表于 2018-7-5 00:13:52

可能是你云主机的问题


kdongyi 发表于 2018-7-15 17:17:34