我以前没有遇到过自动编码器的真实应用。通常,为了降维,我使用 PCA 或随机投影来代替。
我遇到的大多数使用自动编码器进行降维的例子通常都是玩具问题。例如,在 MNIST 上训练自动编码器以使用逻辑回归作为最终分类器。我不会将此称为实际应用,因为通常可以应用更多相关的视觉模型来代替逻辑回归(尤其是对于比 MNIST 更复杂的数据集)。
有哪些自动编码器应用的非玩具示例(相对于其他降维技术)?我对表格数据集或具有稀疏特征的数据集上的应用程序特别感兴趣。对论文、博客文章或轶事的引用都会有所帮助。
我以前没有遇到过自动编码器的真实应用。通常,为了降维,我使用 PCA 或随机投影来代替。
我遇到的大多数使用自动编码器进行降维的例子通常都是玩具问题。例如,在 MNIST 上训练自动编码器以使用逻辑回归作为最终分类器。我不会将此称为实际应用,因为通常可以应用更多相关的视觉模型来代替逻辑回归(尤其是对于比 MNIST 更复杂的数据集)。
有哪些自动编码器应用的非玩具示例(相对于其他降维技术)?我对表格数据集或具有稀疏特征的数据集上的应用程序特别感兴趣。对论文、博客文章或轶事的引用都会有所帮助。
去噪自编码器的一种统计应用是多重插补:自编码器尝试将数据压缩为低维信号(未丢失)加上噪声(有时会丢失)。与贝叶斯数据增强或流行的“小鼠”算法相比,自动编码器似乎可以更好地适应大量变量,并且可能更好地处理非线性和交互。(这仍然是一个研究领域,但它是一个严肃的应用程序。)
Andrew Gelman在这里写了一篇关于早期尝试的文章,该特定项目的当前版本在这里
来自自动编码器维基百科文章:
关于该主题的一篇里程碑式论文是 Geoffrey Hinton 于 2006 年在《科学》杂志上发表的论文 [ Reducing the Dimensionality of Data with Neural Networks by GE Hinton 等人。]:在那项研究中,他用一堆RBM预训练了一个多层自动编码器,然后使用它们的权重初始化一个具有逐渐变小的隐藏层的深度自动编码器,直到达到 30 个神经元的瓶颈。与 PCA 的前 30 个主成分相比,生成的 30 维代码产生了更小的重构误差,并且学习了一种在质量上更容易解释的表示,清楚地分离了原始数据中的集群。
我正在探索的自动编码器的应用之一是构建基于内容的图像搜索引擎。