dl4j正则化_CDA答疑社区

正则化方法有助于避免训练过程中的过拟合。当网络很好地预测训练集，但是对网络从未见过的数据做出糟糕的预测时，就会发生过拟合。一种考虑过拟合的方法是网络记忆了训练数据（而不是学习其中的总体关系）。
正则化的常见类型包括：

L1和L2正则化惩罚了大的网络权重，并且避免了权重变得太大。L2正则化的一些级别在实践中是常用的。然而，请注意，如果l1或l2正则化系数太高，它们可能对网络造成过度惩罚，并阻止其学习。L2正则化的通常值是1E-3至1E-6。
丢弃，是一种常用的正则化方法，可以非常有效。最常用的丢弃率为0.5。
丢弃连接（概念上类似于丢弃，但使用得不太频繁）
限制网络大小的总数（即，限制每个层的层数和大小）
早停

使用L1/L2/dropout正则化，分别使用regularization（TRUE）和L1（x）、L2（y）、.dropout(z)。注意，在dropout(z)中的z是保持激活的概率