我正在寻找一种有效的算法来检测 Tomek 链接。我想知道是否有人知道在哪里可以找到它。
这是 Tomek 链接的定义:假设是一个数据集,每个恰好具有两个标签 或之一。和具有不同的标签,并且不存在满足或的 E_l,则一对称为 Tomek 链接,其中和之间的距离。
谢谢!
我正在寻找一种有效的算法来检测 Tomek 链接。我想知道是否有人知道在哪里可以找到它。
这是 Tomek 链接的定义:假设是一个数据集,每个恰好具有两个标签 或之一。和具有不同的标签,并且不存在满足或的 E_l,则一对称为 Tomek 链接,其中和之间的距离。
谢谢!
检测 Tomek 链接的问题与识别任何最近邻居的问题相同(类标签在这里没有帮助,您必须检查每个数据点,无论它具有哪个标签)。
我个人的偏好是选择 kd-trees(只要维度不太高)。stackoverflow - 问题高维数据中的最近邻?提供更多的想法。
如果您可以接受近似答案(最高可控制错误率),您还可以查看近似最近邻搜索方法,例如Locality Sensitive Hashing和flann库中实现的更高级方法。
不平衡学习包提供了许多用于处理不平衡数据集的重新采样技术:https ://github.com/scikit-learn-contrib/imbalanced-learn
有关Tomek 链接重新采样的实现,请参见此示例。