2019-02-25
阅读量:
715
dl4j学习率
学习率不是最重要的超参数之一。如果这是太大或太小,你的网络可能会学习很差,非常缓慢,或根本没有。学习速率的典型值在0.1至1e-6的范围内,然而最佳学习速率通常是特定于数据(和网络架构)的。一些简单的建议是先尝试三种不同的学习速率——1e-1、1e-3和1e-6——在进一步调优之前大致了解应该做什么。理想情况下,他们同时运行具有不同学习速率的模型,以节省时间。
选择适当学习率的通常方法是使用DL4J的可视化界面来可视化训练过程。你需要同时注意时间上的损失,以及更新量与参数量的比率(大约1:1000的比例是一个好的开始)。有关调整学习速率的更多信息,请参见此链接。
与在单台机器上训练相同的网络相比,以分布式方式训练神经网络,可能需要不同的(经常更高的)学习速率。






评论(0)


暂无数据