模型是对称的,也就是说每个 filter 上面的参数其实都应该是一样的。
为什么 backward propagation 的时候会学到不同的参数呢?
我们要在训练的时候惩罚同样的参数吗?
舟 3332,2018-4-17 11:33:04
模型是对称的,也就是说每个 filter 上面的参数其实都应该是一样的。
为什么 backward propagation 的时候会学到不同的参数呢?
我们要在训练的时候惩罚同样的参数吗?
舟 3332,2018-4-17 11:33:04
他會用 機率 初始化每個 filter 並且每個 filter 對 loss 的影響會因為 maxpooling 跟 weights 會有不同 gradient 也不一樣 做 gradient descent 每個 filter 就會往不一樣的地方 descent
isly831130,发表于 2018-4-17 11:42:25
学习到了~ 多谢!