假设我有一个包含 40 个项目的大型训练数据集,并且集合中的每个项目都是唯一的(因此每个训练输入都是一个集合),并且有 40 多种独特的物品可以成为套装的一部分。
给定一些不完整的集合,我希望能够预测哪些项目可能是集合的成员。所以让我们看下面的例子:
训练数据:
,
,
假设我有一个输入,我希望该方法能够返回 1、2、4 和 5 比 7、8 更可能的集合成员。理想情况下,具有一些概率值。
我考虑过以下几点:
使用先验算法学习一些关联规则。我不确定如何将支持或提升解释为集合成员的概率。
在输入(可能是 one-hot 编码)上训练多层感知器以学习与各种输入项对应的权重。但是,如果我只是简单地将 40 项集合作为输入和输出,那么网络只会学习复制输入,而不会提供有关可能的其他集合成员的信息。我曾考虑将 40 个项目集的所有变体作为输入,将 40 个项目集作为输出,但这会导致可能性,这将是巨大的。
在这种情况下,是否有一些机器学习方法或数据结构可以提供帮助?