大概两点:
- 由于均方误差取均值的系数 1/N 在训练过程中一般为常数(N 一般为批次大小,比如这里是 5),对损失函数乘以常数等价于调整学习率,所以这里为了简化表达式而省略了。可以参考 http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2017/Lecture/Regression.pdf
- 乘以 1/2 其实是为了后面求导方便的一个小技巧,可以参考 https://blog.csdn.net/u012874209/article/details/78131899 ,不过考虑到造成读者疑惑现在就删掉了