你可以为你的神经网络选择一个学习速率策略。策略会随着时间的推移而改变学习率,获得更好的结果,因为学习速率可以“减速”,以找到更接近的局部极小收敛。常用的策略是调度。有关实践中使用的学率调度,请参阅LeNet 示例。 请注意,如果使用多个GPU,这将影响你的调度。例如,如果你有2个 GPU,那么你需要将你的调度中的迭代分成2份,因为你的训练过程的吞吐量将是两倍,并且学习速率调度只适用于本地GPU。