在机器学习中,我们想要训练一个模型。在训练的时候,如果数据的维度很高,我们就有了一个问题(Curse of Dimensionality),所以我们想降低我们数据的维度。
因为我们知道和具有相同的基数。所以我们总是有一些空间填充曲线,可以在两个方向上唯一地映射每个点。即我们总是可以将任何n维数据双射映射到一维。那么我们首先遇到的问题是什么?
我提出了两个仍然存在的问题:
- 有了这个空间填充曲线图,我们无法减少数据的大小。即,当我们在一维中编写它时,我们必须提高精度。
- 这是我有疑问的地方。我在想,在中表示数据有更多的信息。中写入数据时,会有一些结构,比如哪个点靠近哪个点。这在这个映射中丢失了(空间填充曲线),即映射不是同态的。
我的问题:
- 我的想法对吗?
- 我不知道我在第 2 点中谈论的是什么信息。你能帮我把它变得更严格吗?
- 还有其他问题吗?
例子:
假设我们有一个训练数据,其中带有标签 其中。当我们训练一个神经网络来拟合这些数据时。如果我们改变碱基的顺序,即
如果我们采取
其中是一些置换函数(对所有都相同)。那么神经网络的训练不受影响。所以什么时候顺序无关紧要。如果我将所有数据从转换为怎么办?也应该没关系。但这确实很重要。否则,就没有次元的诅咒了。
我认为当我们将数据从转换为时,我们会丢失一些信息或做错事。那是什么?