寻找一种有效的算法来检测 Tomek 链接

机器算法验证 数据挖掘 数据预处理
2022-04-12 10:44:04

我正在寻找一种有效的算法来检测 Tomek 链接。我想知道是否有人知道在哪里可以找到它。

这是 Tomek 链接的定义:假设是一个数据集,每个恰好具有两个标签 之一。具有不同的标签,并且不存在满足的 E_l,则一对称为 Tomek 链接,其中之间的距离{E1,,En}RkEi+(Ei,Ej)EiEjEld(Ei,El)<d(Ei,Ej)d(Ej,El)<d(Ei,Ej)d(x,y)xy

谢谢!

3个回答

检测 Tomek 链接的问题与识别任何最近邻居的问题相同(类标签在这里没有帮助,您必须检查每个数据点,无论它具有哪个标签)。

我个人的偏好是选择 kd-trees(只要维度不太高)。stackoverflow - 问题高维数据中的最近邻?提供更多的想法。

如果您可以接受近似答案(最高可控制错误率),您还可以查看近似最近邻搜索方法,例如Locality Sensitive Hashing和flann中实现的更高级方法。

不平衡学习包提供了许多用于处理不平衡数据集的重新采样技术:https ://github.com/scikit-learn-contrib/imbalanced-learn

有关Tomek 链接重新采样的实现,请参见此示例。