是不是在高维中,数据更容易线性分离?

机器算法验证 线性模型 大数据 数理统计
2022-03-27 04:55:38

我经常看到这样一种说法,即在高维中更容易实现线性可分性,但我不明白为什么。这是一个经验事实吗?启发式?胡说八道?

3个回答

微不足道,如果你有N数据点,它们将是线性可分的N1方面。数据中的任何结构都可能进一步降低线性分离所需的维数。您可能会说数据集(的投影)要么完全线性可分的,要么不是完全线性可分的,其中使用任何(投影到)维度低于N1需要数据的附加属性,投影到这个更高维度的属性,或者可以被视为启发式(例如在随机投影的情况下)。一般来说,我们通常不太关心精确的可分离性,在这种情况下,我们可以在更高维度上有意义地正确分离更多数据点就足够了。

我不确定数据是否真的具有高维度或数据是否投影到更高维度是否重要。在后一种情况下,确实更容易线性地分离投影到更高维度的东西,因此是内核方法的整个想法。(参见Cover 定理等)

我的典型示例是一个靶心形数据集,其中有一个类完全被另一个类包围的二维数据。在二维上不是线性可分的,而是将其投影到 3 个维度上,第三个维度是点到中心的距离,它是线性可分的。

我认为您可能要问的是使用内核使数据集与线性技术更兼容。可以在此处找到有关此内容的简短文章:http: //ldtopology.wordpress.com/2012/05/27/making-linear-data-algorithms-less-linear-kernels/