基于成对关系的二元分类

数据挖掘 机器学习 分类
2022-02-13 02:52:53

我有一个看似深奥的机器学习问题,我不知道从哪里开始看文献。

我正在尝试训练一个二进制分类器,它接受/拒绝 N 个对象集合中的每个对象。作为输入,它给出了描述每个对象的特征向量,以及描述每个对象之间的成对关系的特征向量。成对关系的列表并不完整,但也不是很稀疏:描述了大约 1/3 的可能对。

基本事实是每个对象的接受/拒绝标签,我有一组要训练的集合。从领域知识我知道整个集合的全局属性对于确定对象的分类很重要,这就是为什么我想在分类中使用成对关系。

目前,为了对对象进行分类,我们正在使用一种贪心算法,该算法使用基于关系度量的基于规则的分数。(我们从一个我们认为非常好的对象开始,然后我们贪婪地添加其他对象,直到没有更多对象与已经接受的子集相关的总关系得分为正)所以我们知道关系度量很重要,并且将出现在测试数据中。我正在尝试通过使用机器学习方法来改进这一点。

我的第一次尝试是将我拥有的每个成对关系视为一个数据点,并将两个自描述向量连接到关系向量。然后,如果它们是接受-接受对,我将其标记为“1”,如果是接受-拒绝对,我将其标记为“-1”。然后,在测试期间,我可以将这些预测放在每个集合的一个亲和矩阵中(如果成对关系未知,则矩阵条目保留为 0)并使用谱聚类(“接受”和“拒绝”对象将具有相反的第一个特征向量中的符号)。然而,这比仅使用自我描述器进行分类表现更差。我怀疑这是因为这个训练协议存在相当大的缺陷——与我们目前使用的基于规则的分数不同,

因此,我想创建一个分类器,查看整个自我描述和成对关系的集合,并以某种方式直接使用接受/拒绝标签作为基本事实。

1个回答

我需要的解决方案是置换等变神经网络论文中的应用不是分类,但它具有适应分类的正确属性。