SMOTE-NC 背后的逻辑?

数据挖掘 特征选择 分类数据 阶级失衡 打击
2021-10-11 13:28:41

在这里的 SMOTE 论文中,作者介绍了当一些特征是名义特征而一些特征是连续的时创建合成示例的逻辑(第 6.1 节,SMOTE-NC)。

提供了这个例子:

F1= 1 2 3 ABC [假设这是我们计算最近邻的样本] F2= 4 6 5 艾德 F3= 3 5 6 A BK 所以,欧几里得之间的距离F2F1将是:

Eucl = (41)2+(62)2+(53)2+Med2+Med2

Med是少数类连续特征的标准差的中位数。中项包含两次特征编号5:BD6:CE,这两个特征向量不同: F1F2.

该论文没有解释为什么名义特征应该受到连续特征的影响。

谁能提供这样的解释?我在报纸上错过了吗?

1个回答

我最近也想过同样的问题,我想我可能有一个可能的解释。

由于我们需要计算 k 最近邻之间的距离,我们必须提供一些合成值来表示名义特征之间的差异。事实上,它可以是任何值。例如,假设您对标称特征进行了一次热编码。在这种情况下,两个不同的标称特征之间的差异将为 1。

但是,您还希望将计算出的距离或多或少地保持在与仅使用连续要素相同的比例上。我相信使用连续特征的标准差中位数有助于准确地实现这一点,这也是为什么选择它作为标称特征之间差异的度量的原因。