当维度较高时,所有数据彼此之间的距离大致相同。如果数据或多或少是均匀分布的,这会使基于距离的方法(例如 k 最近邻)变得不那么有用。这也被称为维度灾难。
但是,为什么不用这个维度的柠檬来制作柠檬水呢?
为什么不在某些高维空间中使用随机分布的点对具有高基数的名义分类变量进行编码,但要使维数比使用 one-hot 编码得到的要少得多?
由于任意两点之间的距离几乎相同,因此不会引入人工排序。编码速度非常快。无需使用某些神经网络计算嵌入。
这种编码会起作用吗?它会毫无意义或引入任何偏见吗?有人在用吗?你知道有什么参考吗?