数据挖掘 - SMOTE-NC 背后的逻辑？ - 吾爱随笔录

在这里的 SMOTE 论文中，作者介绍了当一些特征是名义特征而一些特征是连续的时创建合成示例的逻辑（第 6.1 节，SMOTE-NC）。

提供了这个例子：

$F_1$ = 1 2 3 ABC [假设这是我们计算最近邻的样本] $F_2$ = 4 6 5 艾德 $F_3$ = 3 5 6 A BK 所以，欧几里得之间的距离 $F_2$ 和 $F_1$ 将是：

$Eucl$ = $\sqrt{(4-1)^2 + (6-2)^2 + (5-3)^2 + Med^2 + Med^2}$

Med是少数类连续特征的标准差的中位数。中项包含两次特征编号 $5: B→D$ 和 $6: C→E$ ，这两个特征向量不同： $F_1$ 和 $F_2$ .

该论文没有解释为什么名义特征应该受到连续特征的影响。

谁能提供这样的解释？我在报纸上错过了吗？