“这个问题的一个解决方案是使用 ML 不仅发现从表示到输出的映射,而且还发现表示到自身的映射。这种方法称为表示学习。”
将表示映射到输出称为“异类关联”。
将表示映射到自身称为“自动关联”。
这两种方法都是关于分类的,但在第一种情况下,您将表示(或对象、项目或向量)与标签(与原始表示的对象、项目或向量不同的类别)相关联。在第二种情况下,您将表示(或对象、项或向量)关联到标签(对于原始表示的对象、项或向量)。
通过表示,它们意味着图像、对象、项目、矢量等。
因此,自动关联编码器可以获取图像并输出原始图像的类别,而异相关联编码器可以获取图像并输出该图像的学习关联(例如,单词“dog”)。
自动联想学习如何有用?拼写检查器就是一个很好的例子。给定一个小的单词词典(“dog, hog, hat, heat”),每个单词形成自己的类别,我们可以创建一个自动编码器,当呈现每个单词时,对单词进行特征化,并返回原始类别/单词。让我们使用三元组对单词进行特征化。因此,我们将每个单词拆分为其特征集,并让该特征集代表原始单词,如下所示:
dog --> {' d', ' do', 'dog', 'og ', 'g '} --> dog
hog --> {' h', ' ho', 'hog', 'og ', 'g '} --> hog
hat --> {' h', ' ha', 'hat', 'at ', 't '} --> hat
heat --> {' h', ' he', 'hea', 'eat', 'at ', 't '} --> heat
现在我们提出一个新词,对其进行特征化,然后看看它落在哪里:
hot --> {' h', ' ho', 'hot', 'ot ', 't '} --> ???
"hot" matches 0% of the features in "dog".
"hot" matches 40% of the features in "hog".
"hot" matches 40% of the features in "hat".
"hot" matches 33% of the features in "heat".
如果匹配阈值为 40% 或更低,则 hot 将被归类为“hog”或“hat”。如果我们的匹配阈值高于 40%,那么将没有匹配,因此不会对 hot 一词进行适当的分类。
每个词典条目(dog、hog、hat、heat)的自动编码允许我们获取每个单词的原始表示并将其拆分为特征,这些特征可以组合起来指向原始表示。
dog --> {' d', ' do', 'dog', 'og ', 'g '} --> dog
异种编码可以获取每个词典条目并将其映射到不同的类别。
dog --> animal
hog --> animal
hat --> thing
heat --> thing
在本例中,一个简单的哈希表就足以作为异型编码器。
神经网络采用特征的输入向量并以自关联或异关联的方式输出类别。