热线电话:13121318867

登录
2018-12-14 阅读量: 997
正则自编码器是什么

编码维数小于输入维数的欠完备自编码器可以学习数据分布最显著的特征。我

们已经知道,如果赋予这类自编码器过大的容量,它就不能学到任何有用的信息。

如果隐藏编码的维数允许与输入相等,或隐藏编码维数大于输入的 过完备

(overcomplete)情况下,会发生类似的问题。在这些情况下,即使是线性编码器和

线性解码器也可以学会将输入复制到输出,而学不到任何有关数据分布的有用信息。

理想情况下,根据要建模的数据分布的复杂性,选择合适的编码维数和编码器、

解码器容量,就可以成功训练任意架构的自编码器。正则自编码器提供这样的能力。

正则自编码器使用的损失函数可以鼓励模型学习其他特性(除了将输入复制到输

出),而不必限制使用浅层的编码器和解码器以及小的编码维数来限制模型的容量。

这些特性包括稀疏表示、 表示的小导数、以及对噪声或输入缺失的鲁棒性。即使模

型容量大到足以学习一个无意义的恒等函数,非线性且过完备的正则自编码器仍然

能够从数据中学到一些关于数据分布的有用信息。

除了这里所描述的方法(正则化自编码器最自然的解释),几乎任何带有潜变

量并配有一个推断过程(计算给定输入的潜在表示)的生成模型,都可以看作是自

编码器的一种特殊形式。强调与自编码器联系的两个生成式建模方法是 Helmholtz

机 (Hinton et al., 1995b) 的衍生模型,如变分自编码器(第 20.10.3 节)和生成随机

网络(第 20.12 节)。这些变种(或衍生) 自编码器能够学习出高容量且过完备的模

型,进而发现输入数据中有用的结构信息,并且也无需对模型进行正则化。这些编

码显然是有用的,因为这些模型被训练为近似训练数据的概率分布而不是将输入复

制到输出。

0.0000
5
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子