多节点多 GPU 并行训练

各位 TF 达人好,我想实现 TensorFlow 的并行训练:

  • 第一级:多个节点之间分布式训练
  • 第二级:在每个节点内部进行训练

通过 Google 官网教程和 StackOverflow,我能够找到的例子为:

  • 多节点之间分布式训练,节点内只是 CPU,每个节点训练相同模型,然后通过 parameter server 同步。
  • 单节点内部多块 GPU 卡训练,每个 GPU 训练相同模型,然后 CPU 进行梯度平均。

想请教是否有多节点多 GPU 的训练样例供参考,比如在 cifar10 的 CNN。
希望是 low level api,不要是 keras 或者 estimator,一方面项目需要,另一方面喜欢钻研底层。
谢谢!


提问人:ayl,发帖时间:2018-7-17 17:04:35

https://tensorflow.google.cn/deploy/distributed,
设置 ClusterSpec 让多个节点协同训练,节点内部使用 GPU 进行训练即可。

链接中有不少内容系列,你可以看看。


TianLin,发表于 2018-7-24 08:43:57

我记得我以前看到过一个,seq2seq 的多模型训练的,,主要是代码太多了,,我要是能找到就发链接给你哦


ViolinSolo,发表于 2018-11-21 14:22:58