假设我想学习一个以数字向量作为输入并给出类标签作为输出的分类器。我的训练数据由大量的输入输出对组成。
但是,当我对一些新数据进行测试时,这些数据通常只是部分完整的。例如,如果输入向量的长度为 100,则可能只有 30 个元素被赋予了值,其余的都是“未知的”。
例如,考虑图像识别,其中已知图像的一部分被遮挡。或者考虑一般意义上的分类,其中已知部分数据已损坏。在所有情况下,我都确切地知道数据向量中的哪些元素是未知部分。
我想知道如何学习适用于此类数据的分类器?我可以将“未知”元素设置为随机数,但鉴于未知元素通常比已知元素多,这听起来不是一个好的解决方案。或者,我可以将训练数据中的元素随机更改为“未知”,并使用这些而不是完整数据进行训练,但这可能需要对已知和未知元素的所有组合进行详尽的抽样。
特别是我正在考虑神经网络,但我对其他分类器持开放态度。