我想训练一个可扩展的模型,该模型具有数据库的输入行,并且输出为 1 或 0,具体取决于它之前是否看到过数据库的此条目。这样做的目的是随后能够检查类似的数据库并确定第一个数据库中哪些条目是相同的,而无需共享数据库。我不能散列条目和散列匹配或任何其他类似的技术。
也就是说,假设两个组织都在使用一个只有浮点数和columns = ["name" : float, "age": float, "net_worth": float]. 现在,假设我是第一组,我训练了一个模型,它会过度拟合我的数据,以某种方式“记忆”它。然后,我想要做的是将该模型发送给其他组织,后者可以将其应用到他们表格的每个元素。然后,这将告诉其他组织他们的数据集的哪些条目也由我共享。
我知道这是尝试解决此问题的一种独特(如果不是非常奇怪)的方法,但这是我正在尝试采用的方法。有没有人有他们能想到的解决方案?