数据挖掘 - 用于非序数变量的 kNN - 吾爱随笔录

kNN 是一种基于距离的方法，因此它要求输入为数字形式。

我想知道是否可以将 kNN imputer 用于非序数分类变量（如颜色）。

由于输入必须是数字形式，我们必须在应用 kNN imputer 之前对颜色特征进行编码。

使用序数编码似乎不是一个好主意。如果我们为颜色分配数字 1-10，那么基于距离的测量将假定颜色 1 和 3 之间的距离与颜色 2 和 4 之间的距离相同。实际上不存在这种关系。

我们可以使用 one-hot 编码。假设我们最终得到 10 个单热编码颜色列，其中包括一个指示缺失值的列。然后，我们的任务是将插补应用于 one-hot-encoded 缺失颜色列中具有 1 的行。我们希望插补来决定其他 9 个单热颜色列中的哪一列将具有 1 而不是 0。但这通常根本不是 kNN 插补的工作方式。

您能否建议在这种情况下是否可以使用 kNN 插补？我该如何应用它？